翁家翌:OpenAI 核心研究员深度访谈
来源: WhynotTV Podcast #4 | BV1darmBcE4A 时长: 约 2 小时 嘉宾: 翁家翌(Jiayi Weng)—— OpenAI 核心研究员,GPT-3.5/4/4o/4.5/5 后训练 RL Infra 最核心贡献者
核心论点
翁家翌的故事是一个关于**「卖铲子」**的故事:在 AI 淘金热中,他选择搭建最好的基础设施(RL Infra),而不是成为发论文的那个人。这让他的名字出现在了 OpenAI 每一个大模型的 contributor 列表里。
一、成长轨迹:投资未来的小孩
早年特质
- 奥数天赋:做题极快,但学新东西需要比别人多 2-3 倍时间,靠”睡一觉固化知识”来弥补
- 初中意识:主动提前学高中数学,认为是”投资未来”——这一自驱意识贯穿一生
- 自发兴趣:对数学、编程、网络安全、图形学都有浓厚兴趣,绝非家长驱动
信息竞赛(OI)经历
- 高中参加全国信息学竞赛(NOIP),凭借”最小双员覆盖”70分(全场最高)进入福建省队
- 参加 NOI 铜牌,拿到清华降60分录取资格
- 高中时用 iPad Safari(无编译器)写竞赛代码,练就极强的代码直觉
清华本科:打破信息差
- 开源所有课程作业到 GitHub,现已成为清华流传最广的学习资源
- 理念:“每个人都应该平等拥有信息,我不想让后人重蹈覆辙”
- 导师给出独特评价体系:论文 + 比赛 + GitHub Stars(三位数以上),让他彻底摆脱 GPA 执念
二、强化学习入门:不喜欢但无比重要
随机的”命运之选”
- 大二进朱军老师组,本想学 GAN(以为是图像),稀里糊涂选了强化学习(以为也是图像)
- 第一个项目:在 Vizdoom 游戏环境中用 RL 训练通关,拿了竞赛冠军
- 感受:非常不享受——调参全靠 heuristic,算法改了没用,全是 corner case
关键认知转变
- 与其被这些”toy benchmark”折磨,不如做好让别人更容易卷的工具
- 2019年12月,萌生写 RL 库的念头 → 2020年2月正式开发
三、天授(Tianshou):两周写出的开源框架
诞生过程
- 看了 RLlib(几十万行代码),发现抽象太多、太复杂 → 直接推倒重来
- 两周完成第一版,每个算法实现不到 20 行代码
- 核心设计原则:一致性(Consistency),一个改动只有一个地方能改
成功秘诀
- 抓住了 researcher 的真实需求:好用、好改、看得懂
- 一个人开发保证了极致的 consistent,避免了多人合作的腐化问题
- 现已交由社区维护,有轻微腐化但仍是业界重要的 RL 框架
理念升华
“做天授跟做退学 online 都是做慈善。做一些 non-profit 但能产生影响力的事,让我感觉非常满足。“
四、签证查询系统(tuixue.online)
- 疫情期间自己有查签证需求,顺手写了爬虫并开源
- 总点击量超 100+ 万,后扩展到 1000+ 万
- 第一版完全手动(每天早晚各更新一次),技术极简但需求真实
- 随着疫情结束和领事馆升级完成使命,已下线
五、申请留学与脱离评价体系
受挫的申请季
- 暑研在 Mila(Yoshua Bengio 组)做 MoE 类实验,受限于算力和认知没做出成果
- 申请时只拿到 Master,未能获 PhD offer,一度失望
- 反思:PhD 对想进工业界的人而言是”浪费生命”
新的评价体系
“GPA 是三年后你都不用写在简历上的东西,我只投入最低限度的时间让它达标,多一分都不投。”
翻越体系的过程:
- 接受了导师的建议(论文 + 比赛 + GitHub Stars)
- 意识到”找工作最看重相关经验,不看 GPA”
- 最终建立了自己的评价体系:Impact(能让多少人记得你、有多少人用你的东西)
六、加入 OpenAI:Before ChatGPT
找工作历程(2021年)
- 海投 18 家,只收到 Google + AutoML 面试
- 最终选择范围:OpenAI、DeepSeek(幻方 AR Lab)、英伟达
- 选择 OpenAI 的原因:世界上 RL 最强的 lab(与 DeepMind 并列),想见识工业级科研方法论
与 John Schulman 的面试故事
- Schulman 因翁家翌的 GitHub 看中他(也认可”GitHub Stars”这个评价体系)
- 最终面试:3 小时完成开放性编程题,当场修 bug,留下深刻印象
- “这道题只给两个人测过,一个是我,一个是做 Codex 的 Andrew,我们都通过了”
七、OpenAI 核心贡献:搭建 RL Infra
核心定位
- 在 OpenAI 内部搭建了 Post-Training RL Infra,支撑 GPT 系列所有模型的强化学习训练
- 正因如此,每次大模型发布,他的名字都在 contributor 列表里
“WPi很多 model release 都有我的名字,这是因为我在 WPi 内部搭了整个 post training 的 RL Infra。“
ChatGPT 诞生的真实故事
- 2022年7月入职,当时 ChatGPT 远未立项
- 只是 John Schulman 组在做 WebGPT 的迭代,核心需求是改善用户交互
- 没有人预见到 ChatGPT 会爆款,发布只是为了收集用户数据,预期两周后关闭
- 真正意识到爆了:发布后几天,身边所有人都在讨论
RLHF 的早期挑战
- 最大挑战:如何评估 checkpoint 好坏(reward hacking 导致单一 reward 不可信)
- 解决方案:拉下来人工评估,多人投票——“评 RLHF 还是用 HF(Human Feedback)来 eval”
Infra Engineer vs Researcher
“教一个 researcher 如何做好 engineering,要远比教一个 engineer 如何做好 research 来得难。”
- 当前 AI 研究:拼的是 infra 的正确性
- infra 打好后,单位时间迭代次数线性提升成功率
- 谁修的 bug 越多,谁的模型训得越好
八、OpenAI 组织与竞争观察
组织文化
- 2022年进入时:280人,感觉是”大号实验室”,方法论没想象中那么系统
- 2025年:3000+人,10 倍扩张
- 信息流通是关键:Sam + Greg 保持极高技术敏感度,亲自追踪细节
Sam Altman 被开除事件(内部视角)
- 就是 Ilya 和董事会对 Sam 的不信任,投票开除
- 底下干活的人完全震惊,董事会对员工缺乏透明度
- Sam 最终”胜出”原因:AGI 不只是技术,还需要融资、算力、说服力——Sam 是最难替代的 identity
对 Deep Seek 的反应
- 唯一真正引起警觉的点:Deep Seek 声称迭代速度非常快
- 这直接触发了 OpenAI 重构下一代 Infra 的决定
- “我们很长时间以来都没有为了刷 lm-eval 榜而做什么”
OpenAI 现在是 Infra 速度全球第一吗?
“不是。” 组织大了就是这样,一个小团队的斜率肯定远高于 OpenAI。OpenAI 现在更多是在 trade-off 多种 use case。
九、哲学观:宿命论者的自我和解
核心信念
- 相信世界是确定论的马尔可夫决策过程
- 高中时突然顿悟:“如果人生是一场游戏,游戏的得分是在你死的瞬间记得你名字的人的数量”
- 这成了他追求 impact 的深层动力
自由意志的悖论
- 认为自由意志不存在,一切在宇宙大爆炸那一刻就确定了
- 但仍然”投资未来”,因为那也是确定性的一部分
- 时间可能不是线性的,“未来的我可能在帮助过去的我做决策”
“最好的方式是忘掉这些,假装不知道,然后去体验当前的经历。“
十、未来展望
对 AI PhD 的建议
- 2025年:AI Lab 最需要 infra 工程师
- 对想进 AI Lab 的人:直接进工业界,积累差异化经验比 PhD 更高效
- “AI lab 里的 researcher 可能是最先被 AI 取代的工作”
AGI 的真正瓶颈
- 不是算法,不是 idea,而是 infra throughput(单位时间迭代次数和正确率)
- “先把现有方法、现有 compute 榨干,再说下一步”
个人未来
- 还在 OpenAI 主导重构下一代 RL Infra
- 如果创业,更偏向做有真实用户需求的产品(Product > Research tool)
- 当前有些迷茫:曾经想通了想要什么,但现在又想不通了
- 终极目标:提前退休,有足够资本去找真正想做的事
金句集锦
- “每家的 infra 都有不同程度的 bug,谁修 bug 谁修的 bug 越多,那谁的模型训得就越好。”
- “我不想发 paper,我觉得发 paper 完全没有意义。我喜欢卖铲子。”
- “教一个 researcher 如何做好 engineering,要远比教一个 engineer 如何做好 research 来得难。”
- “如果人生是一场游戏,游戏的得分是你死的瞬间记得你名字的人的数量。”
- “做天授和退学 online 都是做慈善——non-profit 但有 impact,这让我感觉非常满足。”
- “GPA 是三年后你都不用写在简历上的东西,我只投入最低限度的时间。”
- “OpenAI 的 infra cycle time 不是全球第一——但大了都是这样,没有办法。”