如何让 AI 智能体技能升级不再“凭感觉”——用 Evals 把迭代做成可重复实验

3小时前 高效码农

核心问题:当 AI 智能体技能每次改动后,我如何确定它真的变好了,而不是换了种“姿势”继续出错? 一句话答案:先把“好”写成可测量的检查清单,再把每一次运行录成数据,用轻量脚本打分,让改进与回滚都有数 …