你好。

Jacob Liu

探索大模型与 Agent 的技术边界。

作为一名计算机背景的研究生,我对大语言模型推理加速、强化学习及 Agent 架构有着深刻理解。能够精准评估 AI 产品的技术边界与算力成本,并熟练运用投机解码等前沿技术优化模型性能表现,拥有敏锐的业务嗅觉与跨团队协作能力。

复旦大学 · 电子信息研究生 · 计算与智能创新学院

教育

教育经历

学位、导师方向、竞赛与课程项目都可以写进 detail 字段。

  1. 电子信息 · 硕士研究生

    2025.09 — 至今

    复旦大学 — 计算与智能创新学院

    方向:大语言模型推理加速、强化学习及 Agent 架构。

  2. 通信工程 · 本科生

    2021.09 — 2025.06

    南京大学 — 电子科学与工程学院

    相关课程与基础学习。

履历

项目经历

在强化学习、多智能体与推理加速层面的业务实践。

  1. Multi-turn AI Agent 强化学习评测与优化

    2026.02 — 至今

    多轮交互场景建模, Multi-turn RL

    业务场景拆解与建模:基于 RAGEN 实现了 MetaMathQA (数学推理)、WebShop(多步规划)等经典 Agent 任务场景。通过任务成功率、轨迹多样性等指标,评估 Agent 在 Multi-turn 环境下的训练表现。 优化方案探索:创新性提出利用相邻轮次有效特征指导当前轮决策的优化方案,通过建立跨轮次的知识传递与信息重用机制,提升 Rollout 阶段的样本利用效率,显著降低多轮交互任务下的训练耗时并加速收敛。

  2. 基于 AReaL 的投机解码加速

    2025.10 — 2026.01

    AReaL, Rollout 算力资源优化, vLLM/SGLang, 投机解码

    降本增效策略落地:针对异步强化学习高并发性与长尾延迟的痛点,提出了基于投机解码的加速方案。在保证核心训练效果无损的前提下,将 Rollout 吞吐量提升 1.2-1.5 倍,降低了 Rollout 的算力成本。 动态更新解决瓶颈:针对异步强化学习中草稿模型的滞后问题,设计了“基于自适应阈值的动态更新策略”,引入动态回退机制,保障了投机解码的接受率与训练结果的可用性。

  3. 大模型投机解码评测平台

    2025.06 — 2025.10

    多业务场景评测,投机解码,Spec-Bench 测评

    算法部署与指标定义:构建标准化的投机解码性能评测平台,统一部署 EAGLE、Medusa 等前沿加速算法。面向数学推理、RAG、多轮对话等 6 大核心业务场景,定义端到端加速比、响应延迟等评估指标。 数据赋能业务决策:基于多维度评测数据产出各算法的性能报告,为后续不同业务场景下的投机解码算法的选择、推理成本核算提供了坚实的数据支撑与决策依据。

能力

相关技能

编程语言

  • Python
  • C++
  • TypeScript
  • Shell

框架与工具

  • vLLM
  • SGLang
  • Linux
  • Docker

AI 与算法底座

  • PyTorch
  • Hugging Face
  • RAGEN
  • Agent

生活

生活与爱好

技术之外的你,同样是个人品牌的一部分。

爱好与长期投入

  • 机械键盘与配列实验

    喜欢 40% 与分体键盘,折腾固件映射与静音轴体,打字声也是一种 UX。

  • 胶片与暗房

    慢节奏测光与冲洗,和写代码一样:流程感与可复现性同样迷人。

  • 独立游戏与关卡设计

    关注「信息密度」与「学习曲线」,常从关卡节奏反推系统边界。

随笔与状态

  • 相信「默认开源」与「文档即产品」能放大团队杠杆。
  • 通勤耳机里多半是合成器浪潮与后摇,写复杂状态机时反而听白噪。
  • 周末会刻意断网几小时:散步、做饭、或把书架上的纸书读完一章。

写作

博客与分享

长文、笔记与可复用的经验;支持 RSS 订阅与一键分享本站。

  • 2025-04-12TypeScript

    用类型系统把边界说清楚

    在 API 与领域模型之间,用 TypeScript 减少「口头约定」带来的返工。

    阅读全文
  • 2025-03-02SRE

    从一次线上事故学到的可观测性清单

    指标、日志、链路之外,更重要的是团队对「何时算恢复」的共识。

    阅读全文