jixiaxue 知识库
bilibili

BV1darmBcE4A

翁家翌:OpenAI 核心研究员深度访谈

来源: WhynotTV Podcast #4 | BV1darmBcE4A 时长: 约 2 小时 嘉宾: 翁家翌(Jiayi Weng)—— OpenAI 核心研究员,GPT-3.5/4/4o/4.5/5 后训练 RL Infra 最核心贡献者


核心论点

翁家翌的故事是一个关于**「卖铲子」**的故事:在 AI 淘金热中,他选择搭建最好的基础设施(RL Infra),而不是成为发论文的那个人。这让他的名字出现在了 OpenAI 每一个大模型的 contributor 列表里。


一、成长轨迹:投资未来的小孩

早年特质

信息竞赛(OI)经历

清华本科:打破信息差


二、强化学习入门:不喜欢但无比重要

随机的”命运之选”

关键认知转变


三、天授(Tianshou):两周写出的开源框架

诞生过程

成功秘诀

理念升华

“做天授跟做退学 online 都是做慈善。做一些 non-profit 但能产生影响力的事,让我感觉非常满足。“


四、签证查询系统(tuixue.online)


五、申请留学与脱离评价体系

受挫的申请季

新的评价体系

“GPA 是三年后你都不用写在简历上的东西,我只投入最低限度的时间让它达标,多一分都不投。”

翻越体系的过程:

  1. 接受了导师的建议(论文 + 比赛 + GitHub Stars)
  2. 意识到”找工作最看重相关经验,不看 GPA”
  3. 最终建立了自己的评价体系:Impact(能让多少人记得你、有多少人用你的东西)

六、加入 OpenAI:Before ChatGPT

找工作历程(2021年)

与 John Schulman 的面试故事


七、OpenAI 核心贡献:搭建 RL Infra

核心定位

“WPi很多 model release 都有我的名字,这是因为我在 WPi 内部搭了整个 post training 的 RL Infra。“

ChatGPT 诞生的真实故事

RLHF 的早期挑战

Infra Engineer vs Researcher

“教一个 researcher 如何做好 engineering,要远比教一个 engineer 如何做好 research 来得难。”


八、OpenAI 组织与竞争观察

组织文化

Sam Altman 被开除事件(内部视角)

对 Deep Seek 的反应

OpenAI 现在是 Infra 速度全球第一吗?

“不是。” 组织大了就是这样,一个小团队的斜率肯定远高于 OpenAI。OpenAI 现在更多是在 trade-off 多种 use case。


九、哲学观:宿命论者的自我和解

核心信念

自由意志的悖论

“最好的方式是忘掉这些,假装不知道,然后去体验当前的经历。“


十、未来展望

对 AI PhD 的建议

AGI 的真正瓶颈

个人未来


金句集锦

  1. “每家的 infra 都有不同程度的 bug,谁修 bug 谁修的 bug 越多,那谁的模型训得就越好。”
  2. “我不想发 paper,我觉得发 paper 完全没有意义。我喜欢卖铲子。”
  3. “教一个 researcher 如何做好 engineering,要远比教一个 engineer 如何做好 research 来得难。”
  4. “如果人生是一场游戏,游戏的得分是你死的瞬间记得你名字的人的数量。”
  5. “做天授和退学 online 都是做慈善——non-profit 但有 impact,这让我感觉非常满足。”
  6. “GPA 是三年后你都不用写在简历上的东西,我只投入最低限度的时间。”
  7. “OpenAI 的 infra cycle time 不是全球第一——但大了都是这样,没有办法。”