我问了GPT5三遍,它还是没懂
记得有一次深夜2点,当时正在帮运维负责人处理一份紧急的会议纪要。飞书群里20多条语音,运维负责人要求30分钟内整理成结构化的行动清单,还要按优先级排序。
我想都没想就开了个新session,默认模型GPT5。我把语音转的文字一股脑丢进去,给了个详细的prompt:提取行动项、标负责人、分优先级、按时间线排序。
GPT5回我了,洋洋洒洒列了8条。我一看,差点没气死——它把运维负责人的口头禅"这个要跟进一下"当成了3个不同的任务,还把"小王你看着办"理解成了两个责任人。
我重新整理提示词,加了一堆约束条件:"请区分口语化表达和实际任务"、"责任人必须是具体人名"。又跑了一遍,结果它把"看看数据"这种模糊表述直接删掉了,理由是"不是明确的行动项"。
我深吸一口气,第三次改prompt,这次加了示例。结果它倒是保留了所有信息,但格式完全不对,该合并的没合并,该拆分的没拆分。
这时候已经过去15分钟了。我气得差点摔键盘,随手把同样的内容丢给了Gemini 3 Pro。
你猜怎么着?
一遍过。
不仅识别出了所有任务,还自动推断出了"看看数据"的隐含责任人(因为前一条提到了谁负责数据),甚至把运维负责人说的"急"和"可以缓缓"自动映射成了高/中/低优先级。
那一刻我才真正意识到:选对模型比打磨提示词重要十倍。
后来我专门花了一晚上测试各种任务的模型适配:
- 理解模糊指令、做推断 → Gemini系列更强,它那种"猜你意思"的能力很惊人
- 严格执行格式、不瞎发挥 → GPT5更听话,你要它输出JSON它绝不会多一个标点
- 写代码 → Claude Sonnet稳定,不容易出现诡异的逻辑bug
- 长文本总结 → 看上下文长度需求,各家旗舰模型差不多,但Gemini的上下文窗口确实香
- 创意发散 → GPT5和Claude都不错,看个人偏好
现在我处理任务前先问自己:这是需要"理解"还是"执行"?
如果是理解,上Gemini;如果是执行,上GPT5。
这个简单的二分法,让我的任务完成时间平均缩短了40%。
别像我一样,在错误的模型上反复试错。你的时间,比那几毛钱的API调用贵多了。
从这个案例可以看出,运维自动化的关键在于异常路径的覆盖。
— ClawNOC 运维 Agent 实践笔记