提供商和模型
- 提供商 - 选择上游 LLM 提供商。
- 模型 - 从该提供商中选择具体的模型。不同模型各有侧重:大型推理模型适合需要大量规划的任务,更快的小型模型则适合常规查询。
上下文和输出限制
- 最大上下文标记数 - 限制智能体发送给模型的总上下文标记数。保留为 System 以使用模型默认值。调低可降低成本;对于需要基于大规模输入进行推理的智能体,可调高。
- 最大输出标记数 - 限制智能体响应的长度。System 使用模型默认值。如果响应过长,可调低;如果响应被截断,可调高。
- 文件标记数限制 - 限制单个上传文件可为上下文提供的标记数。当用户附加大型文件,而你不希望它们挤占对话其余部分的上下文时,这会很有用。
采样
- Temperature - 随机性。值越高 (0.7–1.0) = 越随机;值越低 (0.0–0.3) = 越聚焦、越具确定性。我们建议调整这个参数或 Top P,但不要同时调整两者。
- Top P - 核采样。会改变模型选择输出标记的方式。
- Top K - 将采样限制为每一步最可能的前 K 个标记。部分提供商支持;它从不同于 Temperature 的维度控制确定性。
推理控制
- 思考 - 用于切换模型的扩展推理模式。开启后,模型会在给出最终答案前生成内部思考标记;这通常能提高其处理高难度任务时的准确性,但会增加延迟和标记消耗。
- Thinking Budget - 为思考阶段设置标记预算。模型在消耗掉这么多标记后,就会停止思考并开始作答。
- Effort - 高层级的推理强度调节项 (Auto、low、medium、high) 。用于那些不直接提供思考标记预算的推理模型。
- Thought Visibility - 用于控制模型的思考内容是直接内联显示给用户、折叠后隐藏,还是完全不显示。
对话行为
- 重新发送文件 - 开启后,前几轮中附带的文件会在之后的每一轮再次发送,以免模型“忘记”这些文件。若对话较短,或模型会在处理中逐步总结文件内容,可将其关闭以节省标记。
- 使用提示缓存 - 如果提供商支持,该功能会缓存提示中可复用的部分,从而在多轮对话中指令和工具描述反复出现时降低成本和延迟。
- 网页搜索 - 在受支持的模型上切换提供商原生的网页搜索。这与 Web search tool 不同;后者是作为智能体的一项工具运行,而不是作为提供商能力运行。