主题
模型选型速查
GPT 与 Claude 都适合严肃开发任务。生产使用不要只按模型名判断,应结合任务质量、延迟、成本、上下文窗口、工具调用和账号体系做小样本评测。
快速选择
| 场景 | 优先考虑 | 说明 |
|---|---|---|
| 复杂编码 / 多文件重构 | GPT 旗舰模型 / Claude Sonnet 或 Opus | 先用真实仓库任务评测,不要只看公开榜单 |
| 长文档理解 / 大量上下文 | Claude / GPT 长上下文模型 | 重点关注上下文窗口、缓存、召回稳定性 |
| 工具调用 / Agent 工作流 | GPT Responses API / Claude Tool Use | 检查函数调用、MCP、结构化输出和失败恢复 |
| 高吞吐分类 / 抽取 | mini / nano / Haiku 类模型 | 低成本模型更适合批量简单任务 |
| 语音 / 实时交互 | OpenAI Realtime 系列 | Claude 主要用于文本、图像和文档理解 |
| 双模型审查 | GPT + Claude | 重要方案可交叉验证,但最终以测试和代码审查为准 |
评测清单
| 维度 | 要看什么 |
|---|---|
| 质量 | 是否能稳定完成真实任务,失败模式是否可接受 |
| 成本 | 输入、输出、缓存、批处理和重试成本 |
| 延迟 | 首 token、总耗时、并发和排队表现 |
| 上下文 | 是否需要长上下文,长上下文下是否仍能准确引用 |
| 工具 | 函数调用、MCP、文件读写、浏览器或 IDE 工具是否稳定 |
| 结构化输出 | JSON Schema、枚举、字段缺失和非法值处理 |
| 迁移风险 | 旧提示词、旧工具参数和旧评测是否需要重做 |
推荐流程
- 选 10 到 30 个真实任务作为评测集。
- 固定输入、工具和验收标准。
- 同时记录成功率、人工修正量、耗时和 token 成本。
- 新模型只在通过评测后进入默认配置。
- 价格、上下文窗口和可用区域每次发布前重新核对官方页面。

