모델 매개변수 - ClickHouse Documentation

모델 매개변수는 에이전트가 사용할 모델과 해당 모델이 응답을 생성하는 방식을 제어합니다. Agent Builder 탭에서 Model 제목 아래의 Select a model을 클릭하세요. 그러면 모델 매개변수 창이 열립니다.

Provider 및 Model

Provider - 사용할 상위 LLM provider를 선택합니다.
Model - 해당 provider에서 사용할 특정 모델을 선택합니다. 모델마다 강점이 다릅니다. 대규모 추론 모델은 계획 수립이 많이 필요한 작업에 적합하고, 더 빠른 소형 모델은 일반적인 루틴 쿼리에 적합합니다.

Provider와 Model은 모두 필수입니다. 나머지 패널은 선택한 모델이 지원하는 기능에 따라 달라집니다.

최대 컨텍스트 토큰 수 - 에이전트가 모델에 전송하는 전체 컨텍스트의 토큰 수를 제한합니다. 모델 기본값을 사용하려면 System으로 두십시오. 비용을 줄이려면 낮추고, 큰 입력을 바탕으로 추론해야 하는 에이전트에는 높이십시오.
최대 출력 토큰 수 - 에이전트 응답 크기를 제한합니다. System은 모델 기본값을 사용합니다. 응답이 너무 길면 더 낮게 설정하고, 중간에 잘리면 더 높게 설정하십시오.
파일 토큰 제한 - 업로드된 단일 파일이 컨텍스트에 포함할 수 있는 토큰 수를 제한합니다. 사용자가 큰 파일을 첨부했을 때 대화의 다른 내용이 밀려나지 않도록 하는 데 유용합니다.

샘플링 온도 - 무작위성입니다. 값이 높을수록(0.7–1.0) 더 무작위적으로 생성되고, 값이 낮을수록(0.0–0.3) 더 집중되고 결정론적인 결과가 나옵니다. 이 설정과 Top P는 둘 다 조정하기보다 하나만 조정하는 것을 권장합니다.
Top P - 누클리어스 샘플링입니다. 모델이 출력할 토큰을 선택하는 방식을 바꿉니다.
Top K - 각 간격에서 가능성이 가장 높은 상위 K개의 토큰으로 샘플링을 제한합니다. 일부 provider에서 지원하며, 샘플링 온도와는 다른 측면에서 결정성을 제어합니다.

특정 동작에 맞춰 조정하는 것이 아니라면 슬라이더는 기본값에 가깝게 두십시오. 작은 변경은 의미 있는 차이를 거의 만들지 못하고, 큰 변경은 출력 품질을 떨어뜨릴 수 있기 때문입니다.

확장 추론을 지원하는 모델에서 사용할 수 있습니다. 정확한 항목은 provider에 따라 다릅니다.

Thinking - 모델의 확장 추론 모드를 전환합니다. 활성화하면 모델은 최종 답변 전에 내부 thinking token을 생성하며, 일반적으로 지연 시간과 token 사용량이 늘어나는 대신 어려운 작업에서 정확도가 향상됩니다.
Thinking Budget - thinking 단계에 사용할 token 예산을 설정합니다. 모델은 이만큼의 token을 사용하면 thinking을 중단하고 답변합니다.
Effort - 추론 강도를 대략적으로 조정하는 설정입니다(Auto, low, medium, high). thinking-token 예산을 직접 제공하지 않는 추론 모델에서 사용됩니다.
Thought Visibility - 모델의 thinking을 사용자에게 인라인으로 표시할지, 접힌 보기 뒤에 숨길지, 또는 완전히 생략할지를 제어합니다.

파일 다시 전송 - 켜져 있으면 이전 턴에 첨부된 파일이 이후 모든 턴에서 다시 전송되므로 모델이 해당 파일을 놓치지 않습니다. 대화가 짧거나 모델이 진행하면서 파일을 요약하는 경우에는 토큰을 절약하기 위해 끄세요.
프롬프트 캐싱 사용 - provider에서 지원하는 경우, 재사용 가능한 prompt 부분을 캐시하여 여러 턴에 걸쳐 지침과 도구 설명이 반복되는 대화의 비용과 지연 시간을 줄입니다.
웹 검색 - 지원되는 모델에서 provider의 네이티브 웹 검색을 켜거나 끕니다. 이는 웹 검색 도구와는 다릅니다. 웹 검색 도구는 provider 기능이 아니라 agent 도구 중 하나로 실행됩니다.

패널 하단의 모델 매개변수 재설정을 클릭하면 모든 필드가 시스템 기본값으로 복원됩니다. 여러 설정을 시험해 본 뒤 처음부터 다시 시작하고 싶을 때 사용하세요.