翁家翌：OpenAI 核心研究员深度访谈

来源： WhynotTV Podcast #4 | BV1darmBcE4A 时长： 约 2 小时 嘉宾： 翁家翌（Jiayi Weng）—— OpenAI 核心研究员，GPT-3.5/4/4o/4.5/5 后训练 RL Infra 最核心贡献者

核心论点

翁家翌的故事是一个关于**「卖铲子」**的故事：在 AI 淘金热中，他选择搭建最好的基础设施（RL Infra），而不是成为发论文的那个人。这让他的名字出现在了 OpenAI 每一个大模型的 contributor 列表里。

一、成长轨迹：投资未来的小孩

早年特质

奥数天赋：做题极快，但学新东西需要比别人多 2-3 倍时间，靠”睡一觉固化知识”来弥补
初中意识：主动提前学高中数学，认为是”投资未来”——这一自驱意识贯穿一生
自发兴趣：对数学、编程、网络安全、图形学都有浓厚兴趣，绝非家长驱动

信息竞赛（OI）经历

高中参加全国信息学竞赛（NOIP），凭借”最小双员覆盖”70分（全场最高）进入福建省队
参加 NOI 铜牌，拿到清华降60分录取资格
高中时用 iPad Safari（无编译器）写竞赛代码，练就极强的代码直觉

清华本科：打破信息差

开源所有课程作业到 GitHub，现已成为清华流传最广的学习资源
理念：“每个人都应该平等拥有信息，我不想让后人重蹈覆辙”
导师给出独特评价体系：论文 + 比赛 + GitHub Stars（三位数以上），让他彻底摆脱 GPA 执念

二、强化学习入门：不喜欢但无比重要

随机的”命运之选”

大二进朱军老师组，本想学 GAN（以为是图像），稀里糊涂选了强化学习（以为也是图像）
第一个项目：在 Vizdoom 游戏环境中用 RL 训练通关，拿了竞赛冠军
感受：非常不享受——调参全靠 heuristic，算法改了没用，全是 corner case

关键认知转变

与其被这些”toy benchmark”折磨，不如做好让别人更容易卷的工具
2019年12月，萌生写 RL 库的念头 → 2020年2月正式开发

三、天授（Tianshou）：两周写出的开源框架

诞生过程

看了 RLlib（几十万行代码），发现抽象太多、太复杂 → 直接推倒重来
两周完成第一版，每个算法实现不到 20 行代码
核心设计原则：一致性（Consistency），一个改动只有一个地方能改

成功秘诀

抓住了 researcher 的真实需求：好用、好改、看得懂
一个人开发保证了极致的 consistent，避免了多人合作的腐化问题
现已交由社区维护，有轻微腐化但仍是业界重要的 RL 框架

理念升华

“做天授跟做退学 online 都是做慈善。做一些 non-profit 但能产生影响力的事，让我感觉非常满足。“

四、签证查询系统（tuixue.online）

疫情期间自己有查签证需求，顺手写了爬虫并开源
总点击量超 100+ 万，后扩展到 1000+ 万
第一版完全手动（每天早晚各更新一次），技术极简但需求真实
随着疫情结束和领事馆升级完成使命，已下线

五、申请留学与脱离评价体系

受挫的申请季

暑研在 Mila（Yoshua Bengio 组）做 MoE 类实验，受限于算力和认知没做出成果
申请时只拿到 Master，未能获 PhD offer，一度失望
反思：PhD 对想进工业界的人而言是”浪费生命”

新的评价体系

“GPA 是三年后你都不用写在简历上的东西，我只投入最低限度的时间让它达标，多一分都不投。”

翻越体系的过程：

接受了导师的建议（论文 + 比赛 + GitHub Stars）
意识到”找工作最看重相关经验，不看 GPA”
最终建立了自己的评价体系：Impact（能让多少人记得你、有多少人用你的东西）

六、加入 OpenAI：Before ChatGPT

找工作历程（2021年）

海投 18 家，只收到 Google + AutoML 面试
最终选择范围：OpenAI、DeepSeek（幻方 AR Lab）、英伟达
选择 OpenAI 的原因：世界上 RL 最强的 lab（与 DeepMind 并列），想见识工业级科研方法论

与 John Schulman 的面试故事

Schulman 因翁家翌的 GitHub 看中他（也认可”GitHub Stars”这个评价体系）
最终面试：3 小时完成开放性编程题，当场修 bug，留下深刻印象
“这道题只给两个人测过，一个是我，一个是做 Codex 的 Andrew，我们都通过了”

七、OpenAI 核心贡献：搭建 RL Infra

核心定位

在 OpenAI 内部搭建了 Post-Training RL Infra，支撑 GPT 系列所有模型的强化学习训练
正因如此，每次大模型发布，他的名字都在 contributor 列表里

“WPi很多 model release 都有我的名字，这是因为我在 WPi 内部搭了整个 post training 的 RL Infra。“

ChatGPT 诞生的真实故事

2022年7月入职，当时 ChatGPT 远未立项
只是 John Schulman 组在做 WebGPT 的迭代，核心需求是改善用户交互
没有人预见到 ChatGPT 会爆款，发布只是为了收集用户数据，预期两周后关闭
真正意识到爆了：发布后几天，身边所有人都在讨论

RLHF 的早期挑战

最大挑战：如何评估 checkpoint 好坏（reward hacking 导致单一 reward 不可信）
解决方案：拉下来人工评估，多人投票——“评 RLHF 还是用 HF（Human Feedback）来 eval”

Infra Engineer vs Researcher

“教一个 researcher 如何做好 engineering，要远比教一个 engineer 如何做好 research 来得难。”

当前 AI 研究：拼的是 infra 的正确性
infra 打好后，单位时间迭代次数线性提升成功率
谁修的 bug 越多，谁的模型训得越好

八、OpenAI 组织与竞争观察

组织文化

2022年进入时：280人，感觉是”大号实验室”，方法论没想象中那么系统
2025年：3000+人，10 倍扩张
信息流通是关键：Sam + Greg 保持极高技术敏感度，亲自追踪细节

Sam Altman 被开除事件（内部视角）

就是 Ilya 和董事会对 Sam 的不信任，投票开除
底下干活的人完全震惊，董事会对员工缺乏透明度
Sam 最终”胜出”原因：AGI 不只是技术，还需要融资、算力、说服力——Sam 是最难替代的 identity

对 Deep Seek 的反应

唯一真正引起警觉的点：Deep Seek 声称迭代速度非常快
这直接触发了 OpenAI 重构下一代 Infra 的决定
“我们很长时间以来都没有为了刷 lm-eval 榜而做什么”

OpenAI 现在是 Infra 速度全球第一吗？

“不是。” 组织大了就是这样，一个小团队的斜率肯定远高于 OpenAI。OpenAI 现在更多是在 trade-off 多种 use case。

九、哲学观：宿命论者的自我和解

核心信念

相信世界是确定论的马尔可夫决策过程
高中时突然顿悟：“如果人生是一场游戏，游戏的得分是在你死的瞬间记得你名字的人的数量”
这成了他追求 impact 的深层动力

自由意志的悖论

认为自由意志不存在，一切在宇宙大爆炸那一刻就确定了
但仍然”投资未来”，因为那也是确定性的一部分
时间可能不是线性的，“未来的我可能在帮助过去的我做决策”

“最好的方式是忘掉这些，假装不知道，然后去体验当前的经历。“

十、未来展望

对 AI PhD 的建议

2025年：AI Lab 最需要 infra 工程师
对想进 AI Lab 的人：直接进工业界，积累差异化经验比 PhD 更高效
“AI lab 里的 researcher 可能是最先被 AI 取代的工作”

AGI 的真正瓶颈

不是算法，不是 idea，而是 infra throughput（单位时间迭代次数和正确率）
“先把现有方法、现有 compute 榨干，再说下一步”

个人未来

还在 OpenAI 主导重构下一代 RL Infra
如果创业，更偏向做有真实用户需求的产品（Product > Research tool）
当前有些迷茫：曾经想通了想要什么，但现在又想不通了
终极目标：提前退休，有足够资本去找真正想做的事

金句集锦

“每家的 infra 都有不同程度的 bug，谁修 bug 谁修的 bug 越多，那谁的模型训得就越好。”
“我不想发 paper，我觉得发 paper 完全没有意义。我喜欢卖铲子。”
“教一个 researcher 如何做好 engineering，要远比教一个 engineer 如何做好 research 来得难。”
“如果人生是一场游戏，游戏的得分是你死的瞬间记得你名字的人的数量。”
“做天授和退学 online 都是做慈善——non-profit 但有 impact，这让我感觉非常满足。”
“GPA 是三年后你都不用写在简历上的东西，我只投入最低限度的时间。”
“OpenAI 的 infra cycle time 不是全球第一——但大了都是这样，没有办法。”