2025-12-06约1分钟强化学习

多轮 Agent 评测：不止看成功率

在数学推理、WebShop 等多轮场景里，如何把「做对」拆成可训练的中间信号，并用轨迹多样性约束过拟合。

成功率会骗人

单看最终答案是否命中，很容易奖励到「模板化轨迹」：模型学会走最短路径，却牺牲探索与纠错能力，一换分布就崩。

更稳妥的做法是同时记录：轮次长度、无效动作比例、是否触发工具错误、以及跨轮是否复用错误假设——这些才是上线后真实用户会遇到的。

评测配置与训练配置应同源版本管理：同一套任务定义、同一套随机种子策略，否则对比实验会在不知不觉中混入「环境漂移」。

建议为每条轨迹落盘最小摘要（任务 id、轮次、关键工具调用结果），方便事后做切片分析，而不是只存一个布尔 success。

告诉他们：多轮 RL 的「稳」来自指标集合，而不是单一 KPI；先把共识写在文档里，再谈加功能。