Talk to me点按钮开聊
2025-08-301分钟工程

vLLM Rollout:运维侧的几个硬习惯

从容量规划、版本发布到回滚,把推理服务当成「会参与训练的数据源」来运维,而不是普通在线 API。

把 GPU 利用率拆开看

Rollout 阶段的瓶颈经常在 KV cache 与并发调度,而不是单纯 FLOPs;监控里要同时看 batch、序列长度分布与排队时间。

发布与训练解耦

推理镜像升级不要与训练主分支强绑定:为 Rollout 维护可读的配置清单(模型名、tensor parallel、max seq),训练任务只引用版本号。

回滚演练要包含「正在跑的长任务」场景:优雅排空连接比直接 kill 更省重跑成本。

文档即值班手册

把「谁有权改哪项配置」「改了会影响哪些实验」写进同一页;个人站可以简陋,团队里这是救命钱。

喜欢这篇文章?