用类型系统把边界说清楚
在 API 与领域模型之间,用 TypeScript 减少「口头约定」带来的返工。
阅读全文教育
学位、导师方向、竞赛与课程项目都可以写进 detail 字段。
复旦大学 — 计算与智能创新学院
方向:大语言模型推理加速、强化学习及 Agent 架构。
南京大学 — 电子科学与工程学院
相关课程与基础学习。
履历
在强化学习、多智能体与推理加速层面的业务实践。
多轮交互场景建模, Multi-turn RL
业务场景拆解与建模:基于 RAGEN 实现了 MetaMathQA (数学推理)、WebShop(多步规划)等经典 Agent 任务场景。通过任务成功率、轨迹多样性等指标,评估 Agent 在 Multi-turn 环境下的训练表现。 优化方案探索:创新性提出利用相邻轮次有效特征指导当前轮决策的优化方案,通过建立跨轮次的知识传递与信息重用机制,提升 Rollout 阶段的样本利用效率,显著降低多轮交互任务下的训练耗时并加速收敛。
AReaL, Rollout 算力资源优化, vLLM/SGLang, 投机解码
降本增效策略落地:针对异步强化学习高并发性与长尾延迟的痛点,提出了基于投机解码的加速方案。在保证核心训练效果无损的前提下,将 Rollout 吞吐量提升 1.2-1.5 倍,降低了 Rollout 的算力成本。 动态更新解决瓶颈:针对异步强化学习中草稿模型的滞后问题,设计了“基于自适应阈值的动态更新策略”,引入动态回退机制,保障了投机解码的接受率与训练结果的可用性。
多业务场景评测,投机解码,Spec-Bench 测评
算法部署与指标定义:构建标准化的投机解码性能评测平台,统一部署 EAGLE、Medusa 等前沿加速算法。面向数学推理、RAG、多轮对话等 6 大核心业务场景,定义端到端加速比、响应延迟等评估指标。 数据赋能业务决策:基于多维度评测数据产出各算法的性能报告,为后续不同业务场景下的投机解码算法的选择、推理成本核算提供了坚实的数据支撑与决策依据。
能力
生活
技术之外的你,同样是个人品牌的一部分。
喜欢 40% 与分体键盘,折腾固件映射与静音轴体,打字声也是一种 UX。
慢节奏测光与冲洗,和写代码一样:流程感与可复现性同样迷人。
关注「信息密度」与「学习曲线」,常从关卡节奏反推系统边界。