2026-01-18约1分钟推理加速

投机解码落地：在异步 RL 里稳住接受率

草稿模型滞后、接受率抖动、回退策略——把投机解码从论文搬进训练流水线时，我们踩过哪些坑，又如何用动态阈值把吞吐拉上去。

为什么异步 RL 特别吃延迟

异步强化学习里，Rollout 与训练器之间的队列长度会直接反映在梯度时效性上：同样的算法，吞吐掉一点，等效 batch 就「变旧」，方差会悄悄变大。

投机解码的本质是用便宜的小步猜测换大模型少次前向；一旦接受率不稳，省下来的算力又会被重算与回退吃掉，整体反而更慢。

一是草稿与主模型的版本差：差太大，接受率断崖；差太小，收益有限。需要把「更新草稿」当成和调学习率同级的例行操作，而不是一次性部署。

二是阈值与温度：把「低于某接受率就暂时关掉投机」做成自动策略，比人工盯盘可靠；阈值要和业务 SLA 对齐，而不是只追 benchmark。

三是观测：至少要有「接受率 / 回退次数 / 队列深度」三条时间序列对齐看，否则很容易把吞吐波动误判成网络或存储问题。

上线前跑一轮「坏草稿」演练：故意推旧版本草稿，看系统是否在 SLA 内降级到全量解码；演练通过再谈放量。

把「何时算恢复」写进 on-call 手册：是接受率回到基线，还是 p99 延迟先恢复——避免指标各自为政。