Provider 및 Model
- Provider - 사용할 상위 LLM provider를 선택합니다.
- Model - 해당 provider에서 사용할 특정 모델을 선택합니다. 모델마다 강점이 다릅니다. 대규모 추론 모델은 계획 수립이 많이 필요한 작업에 적합하고, 더 빠른 소형 모델은 일반적인 루틴 쿼리에 적합합니다.
컨텍스트 및 출력 제한
- 최대 컨텍스트 토큰 수 - 에이전트가 모델에 전송하는 전체 컨텍스트의 토큰 수를 제한합니다. 모델 기본값을 사용하려면 System으로 두십시오. 비용을 줄이려면 낮추고, 큰 입력을 바탕으로 추론해야 하는 에이전트에는 높이십시오.
- 최대 출력 토큰 수 - 에이전트 응답 크기를 제한합니다. System은 모델 기본값을 사용합니다. 응답이 너무 길면 더 낮게 설정하고, 중간에 잘리면 더 높게 설정하십시오.
- 파일 토큰 제한 - 업로드된 단일 파일이 컨텍스트에 포함할 수 있는 토큰 수를 제한합니다. 사용자가 큰 파일을 첨부했을 때 대화의 다른 내용이 밀려나지 않도록 하는 데 유용합니다.
샘플링
- 샘플링 온도 - 무작위성입니다. 값이 높을수록(0.7–1.0) 더 무작위적으로 생성되고, 값이 낮을수록(0.0–0.3) 더 집중되고 결정론적인 결과가 나옵니다. 이 설정과 Top P는 둘 다 조정하기보다 하나만 조정하는 것을 권장합니다.
- Top P - 누클리어스 샘플링입니다. 모델이 출력할 토큰을 선택하는 방식을 바꿉니다.
- Top K - 각 간격에서 가능성이 가장 높은 상위 K개의 토큰으로 샘플링을 제한합니다. 일부 provider에서 지원하며, 샘플링 온도와는 다른 측면에서 결정성을 제어합니다.
추론 제어
- Thinking - 모델의 확장 추론 모드를 전환합니다. 활성화하면 모델은 최종 답변 전에 내부 thinking token을 생성하며, 일반적으로 지연 시간과 token 사용량이 늘어나는 대신 어려운 작업에서 정확도가 향상됩니다.
- Thinking Budget - thinking 단계에 사용할 token 예산을 설정합니다. 모델은 이만큼의 token을 사용하면 thinking을 중단하고 답변합니다.
- Effort - 추론 강도를 대략적으로 조정하는 설정입니다(Auto, low, medium, high). thinking-token 예산을 직접 제공하지 않는 추론 모델에서 사용됩니다.
- Thought Visibility - 모델의 thinking을 사용자에게 인라인으로 표시할지, 접힌 보기 뒤에 숨길지, 또는 완전히 생략할지를 제어합니다.
대화 동작
- 파일 다시 전송 - 켜져 있으면 이전 턴에 첨부된 파일이 이후 모든 턴에서 다시 전송되므로 모델이 해당 파일을 놓치지 않습니다. 대화가 짧거나 모델이 진행하면서 파일을 요약하는 경우에는 토큰을 절약하기 위해 끄세요.
- 프롬프트 캐싱 사용 - provider에서 지원하는 경우, 재사용 가능한 prompt 부분을 캐시하여 여러 턴에 걸쳐 지침과 도구 설명이 반복되는 대화의 비용과 지연 시간을 줄입니다.
- 웹 검색 - 지원되는 모델에서 provider의 네이티브 웹 검색을 켜거나 끕니다. 이는 웹 검색 도구와는 다릅니다. 웹 검색 도구는 provider 기능이 아니라 agent 도구 중 하나로 실행됩니다.