2025-08-30约1分钟工程

vLLM Rollout：运维侧的几个硬习惯

从容量规划、版本发布到回滚，把推理服务当成「会参与训练的数据源」来运维，而不是普通在线 API。

把 GPU 利用率拆开看

Rollout 阶段的瓶颈经常在 KV cache 与并发调度，而不是单纯 FLOPs；监控里要同时看 batch、序列长度分布与排队时间。

推理镜像升级不要与训练主分支强绑定：为 Rollout 维护可读的配置清单（模型名、tensor parallel、max seq），训练任务只引用版本号。

回滚演练要包含「正在跑的长任务」场景：优雅排空连接比直接 kill 更省重跑成本。

把「谁有权改哪项配置」「改了会影响哪些实验」写进同一页；个人站可以简陋，团队里这是救命钱。