Talk to me点按钮开聊
2025-12-061分钟强化学习

多轮 Agent 评测:不止看成功率

在数学推理、WebShop 等多轮场景里,如何把「做对」拆成可训练的中间信号,并用轨迹多样性约束过拟合。

成功率会骗人

单看最终答案是否命中,很容易奖励到「模板化轨迹」:模型学会走最短路径,却牺牲探索与纠错能力,一换分布就崩。

更稳妥的做法是同时记录:轮次长度、无效动作比例、是否触发工具错误、以及跨轮是否复用错误假设——这些才是上线后真实用户会遇到的。

把评测写进数据管线

评测配置与训练配置应同源版本管理:同一套任务定义、同一套随机种子策略,否则对比实验会在不知不觉中混入「环境漂移」。

建议为每条轨迹落盘最小摘要(任务 id、轮次、关键工具调用结果),方便事后做切片分析,而不是只存一个布尔 success。

给业务同学的一句话

告诉他们:多轮 RL 的「稳」来自指标集合,而不是单一 KPI;先把共识写在文档里,再谈加功能。

喜欢这篇文章?