プロバイダーとモデル
- プロバイダー - 使用するLLMプロバイダーを選択します。
- モデル - そのプロバイダーの中から特定のモデルを選択します。モデルごとに得意分野が異なります。計画立案を多く伴うタスクには大規模な推論モデル、定型的な問い合わせには高速な小規模モデルが適しています。
コンテキストと出力の上限
- 最大コンテキストトークン数 - エージェントがモデルに送信するコンテキスト全体の上限を設定します。モデルのデフォルト値を使う場合は System のままにします。コストを抑えるには小さくし、大きな入力に対する推論が必要なエージェントでは大きくします。
- 最大出力トークン数 - エージェントの応答サイズの上限を設定します。System を指定するとモデルのデフォルト値が使われます。応答が長すぎる場合は小さくし、途中で切れてしまう場合は大きくします。
- ファイルのトークン上限 - アップロードされた1つのファイルがコンテキストに追加できるトークン数の上限を設定します。ユーザーが大きなファイルを添付した際に、そのファイルが会話のほかの部分を圧迫しないようにしたい場合に便利です。
サンプリング
- Temperature - ランダム性。値が高い (0.7–1.0) ほどランダム性が高くなり、値が低い (0.0–0.3) ほど出力のぶれが少なく、より決定論的になります。調整する場合は、これか Top P のどちらか一方だけを変更することをおすすめします。
- Top P - ニュークリアスサンプリング。モデルが出力するトークンの選び方を変えます。
- Top K - 各 step で、サンプリング対象を尤度の高い上位 K 個のトークンに制限します。一部の プロバイダー でサポートされており、temperature とは別の軸で決定性を制御します。
推論の制御
- Thinking - モデルの拡張推論モードを切り替えます。有効にすると、モデルは最終回答の前に内部的な thinking tokens を生成します。通常、これにより難しい問題での精度は向上しますが、その代償としてレイテンシと tokens が増加します。
- Thinking Budget - thinking フェーズの token 予算を設定します。モデルはこの数の tokens を使い切ると、thinking を終了して回答します。
- Effort - 推論の強さを大まかに調整する設定です (Auto、low、medium、high) 。thinking-token 予算を直接公開していない推論モデルで使用されます。
- Thought Visibility - モデルの thinking をユーザーにインラインで表示するか、折りたたみ表示の中に隠すか、完全に表示しないかを制御します。
会話の動作
- ファイルを再送 - オンにすると、前のターンで添付したファイルが以降のすべてのターンで再送されるため、モデルがそれらを見失わずに済みます。会話が短い場合や、モデルがその都度ファイルを要約している場合は、トークンを節約するためオフにしてください。
- プロンプトキャッシュ を使用 - プロバイダーが対応している場合、再利用可能なプロンプトの一部をキャッシュして、ターンをまたいで指示やツールの説明が繰り返される会話でコストとレイテンシを削減します。
- ウェブ検索 - 対応モデルで、プロバイダー標準のウェブ検索を切り替えます。これは ウェブ検索ツール とは異なり、プロバイダーの機能として動作するもので、agent のツールの 1 つとして実行されるものではありません。