モデルパラメータ - ClickHouse Documentation

モデルパラメータでは、エージェントが使用するモデルと、そのモデルによる応答の生成方法を設定します。 エージェントビルダー タブで、モデル 見出しの下にある モデルを選択 をクリックします。これにより、モデルパラメータ ウィンドウが開きます。

プロバイダーとモデル

プロバイダー - 使用するLLMプロバイダーを選択します。
モデル - そのプロバイダーの中から特定のモデルを選択します。モデルごとに得意分野が異なります。計画立案を多く伴うタスクには大規模な推論モデル、定型的な問い合わせには高速な小規模モデルが適しています。

プロバイダー と モデル はどちらも必須です。パネルの残りの項目は、選択したモデルが対応している機能に応じて変わります。

最大コンテキストトークン数 - エージェントがモデルに送信するコンテキスト全体の上限を設定します。モデルのデフォルト値を使う場合は System のままにします。コストを抑えるには小さくし、大きな入力に対する推論が必要なエージェントでは大きくします。
最大出力トークン数 - エージェントの応答サイズの上限を設定します。System を指定するとモデルのデフォルト値が使われます。応答が長すぎる場合は小さくし、途中で切れてしまう場合は大きくします。
ファイルのトークン上限 - アップロードされた1つのファイルがコンテキストに追加できるトークン数の上限を設定します。ユーザーが大きなファイルを添付した際に、そのファイルが会話のほかの部分を圧迫しないようにしたい場合に便利です。

Temperature - ランダム性。値が高い (0.7–1.0) ほどランダム性が高くなり、値が低い (0.0–0.3) ほど出力のぶれが少なく、より決定論的になります。調整する場合は、これか Top P のどちらか一方だけを変更することをおすすめします。
Top P - ニュークリアスサンプリング。モデルが出力するトークンの選び方を変えます。
Top K - 各 step で、サンプリング対象を尤度の高い上位 K 個のトークンに制限します。一部のプロバイダーでサポートされており、temperature とは別の軸で決定性を制御します。

特定の挙動を狙って調整しているのでなければ、スライダーは既定値付近のままにしておいてください。小さな変更ではほとんど効果がなく、大きな変更は出力品質を損なう可能性があります。

拡張推論に対応しているモデルで利用できます。利用可能な項目はプロバイダーによって異なります。

Thinking - モデルの拡張推論モードを切り替えます。有効にすると、モデルは最終回答の前に内部的な thinking tokens を生成します。通常、これにより難しい問題での精度は向上しますが、その代償としてレイテンシと tokens が増加します。
Thinking Budget - thinking フェーズの token 予算を設定します。モデルはこの数の tokens を使い切ると、thinking を終了して回答します。
Effort - 推論の強さを大まかに調整する設定です (Auto、low、medium、high) 。thinking-token 予算を直接公開していない推論モデルで使用されます。
Thought Visibility - モデルの thinking をユーザーにインラインで表示するか、折りたたみ表示の中に隠すか、完全に表示しないかを制御します。

ファイルを再送 - オンにすると、前のターンで添付したファイルが以降のすべてのターンで再送されるため、モデルがそれらを見失わずに済みます。会話が短い場合や、モデルがその都度ファイルを要約している場合は、トークンを節約するためオフにしてください。
プロンプトキャッシュを使用 - プロバイダーが対応している場合、再利用可能なプロンプトの一部をキャッシュして、ターンをまたいで指示やツールの説明が繰り返される会話でコストとレイテンシを削減します。
ウェブ検索 - 対応モデルで、プロバイダー標準のウェブ検索を切り替えます。これはウェブ検索ツールとは異なり、プロバイダーの機能として動作するもので、agent のツールの 1 つとして実行されるものではありません。

パネル下部のモデルパラメータをリセットをクリックすると、すべてのフィールドがシステムの既定値に戻ります。いろいろ試したあとで、まっさらな状態からやり直したいときに使ってください。