jixiaxue 知识库
bilibili / 2026-04-06-田渊栋访谈大模型真问题与变局

田渊栋访谈大模型真问题与变局

与田渊栋的访谈:大模型的真问题、变局、AI洪水与 The Path Not Taken

频道: 微博访谈 | 嘉宾: 田渊栋(前 Meta FAIR 总监,现独立创业) 日期: 2026-04-06 | 时长: 1:10:10 原视频链接: https://www.bilibili.com/video/BV1ZGSoB5ETo

一句话总结

田渊栋从 Meta 裁员后创业出发,深入剖析了大模型行业的真问题——Scaling Law 不会见顶但受资源约束、大厂组织架构制约创新、Benchmark 刷分掩盖真实能力——并提出人的核心价值在于综合判断力和发现 AI 弱点的能力。

速览

  1. 裁员不是羞耻,是公司帮你做的决定——大公司像笼子,被裁是飞出去的机会,关键是提前准备好离开后做什么
  2. Llama 4 失败的核心是组织问题——团队从几十人膨胀到数百人,层层汇报只传好消息,领导层过高估计进度
  3. Scaling Law 不会见顶,但受资源约束——问题不是”能不能继续涨”,而是”你有多少资源推它上去”
  4. Coding Agent 爆发源于数据飞轮的拐点——AI 代码质量超过人类后,可大量生成训练数据自我加速
  5. 大模型挤占了其他研究方向的资源——Google 和 Meta 都举全公司之力追赶 LLM,多元前沿探索被牺牲
  6. 神经网络训练后涌现的结构是符号性的——未来可能不需要”神经+符号”混合系统,神经表示本身就是更高阶的符号
  7. AI 研究还处于”开普勒阶段”——有很多经验现象和拟合定律,但还没有”牛顿级”的基本原理
  8. 人的核心价值是综合判断力——能发现 AI 在垂直领域的错误并指导它改进的能力,最难被替代
  9. AI 洪水是囚徒困境的必然结果——不应阻止洪水,而应提前找到高处落脚
  10. 科研品位就是走自己想走的路——在所有公共劳动被自动化后,每个人的价值在于选择不同的路径去探索世界

嘉宾简介

核心内容

裁员与大公司困境:笼中鸟与广阔天地

田渊栋公开分享了被 Meta 裁员的经历,认为裁员不应被视为羞耻:「我说出来之后,有同事私信感谢我,因为之前那波裁员公司直接说是 Performance Based,等于给你扣帽子。」

他对大公司的核心判断是:个人在大系统中很渺小,心气和想做的事与能做的事是脱钩的。「你在公司待久了,听老板说什么就做什么,不用想目的和意义。想做一件大事,却发现边界处处——这人没时间、那人说老板不同意。最终你只能在框架里做能做的事。」

离开 Meta 后创业,他体验到了完全不同的反馈循环:「一个人就是一个小闭环。闭环很快的话,你很快知道哪里错了、怎么改进,这个过程非常爽。」

面对裁员焦虑,他建议:做好准备,知道离开公司后要做什么。「如果很天真地期望永远在公司待着、公司会保护你,这个愿望太可能会实现。被裁其实就是公司帮你做的决定——让你去广阔天地进发。」

Llama 的兴衰:从开源先驱到 Llama 4 的组织困局

田渊栋亲历了 Llama 系列的发展。Llama 能诞生,源于 FAIR 的”自下而上”文化:「有个组之前做定理证明,后来转做大模型训练,成功了。FAIR 有很多 bet,有些失败有些成功,一个成功就赚大了。」

但到了 Llama 4,问题变得严重:

核心教训:团队不能太大(几百上千人很难避免信息过滤),必须技术驱动而非 deadline 驱动,技术人员要有话语权。

杨立昆:精神领袖与孤独的布道者

田渊栋回忆了 2010 年见到杨立昆的场景:「一个很大的屋子里只有前两排坐着十几个人,我躲在后面干自己的活。隔壁做特征工程和 SVM 的 workshop 人满为患。他就一个人在讲台上演示神经网络。」

对于杨立昆”大模型可能是死胡同”的观点,田渊栋部分认同:「人脑功率只有 20-30 瓦,不需要太多数据就能获得很好的智能。婴儿在某个阶段之前你灌输再多数据他也学不会,突然某天他就领悟了。大模型的学习过程确实不够高效。但我不赞同说大模型没什么用——它确实学到了一些反映现实世界的本质表示。」

关于杨立昆与 Alexander Wong 的关系,田渊栋引述杨立昆的话:「You don’t tell researchers what to do. You certainly don’t tell researchers like me what to do.」他认为自上而下的命令式方向会压缩研究空间,导致大家跟风从众。

Scaling Law:不会见顶,但关键是资源

田渊栋对 Scaling Law 的判断:「Scaling Law 不会见顶,只要机器资源够多、数据够多,总是可以往上走。问题在于你有没有时间和代价把它推上去。也许下一个数据中心需要核电站供电,再乘 10 倍需要多少核电站?最终整个地球都必须用所有能源为你的数据中心服务。」

他认为需要在 Scaling Law 之外找到新东西:纯粹按 Scaling Law 走不一定能到达 AGI 级别的水平,但在特定领域(如 Coding Agent),模型越来越强后可以生成训练数据自我加速,存在突破的可能。

Coding Agent 爆发的技术本质:数据飞轮的拐点

田渊栋分析了 Coding Agent 快速发展的底层逻辑:存在一个拐点——AI 代码质量超过人类代码后,就可以大量生成高质量训练数据反哺模型。「一开始数据积累很慢,因为 AI 代码质量赶不上人。但某个阶段后 AI 代码够好了,可以大量生成样本放回模型训练,突然就有了起飞。」

他自己的体验:「离开 Meta 后我很多时间自己写代码,但正好赶上这一波——我发现我不用写代码了,回到了以前做管理者的感觉,像指导学生。它 24 小时待命,但确实会犯人肯定不会犯的愚蠢错误。」

大模型对研究生态的挤压

大模型来了之后,需要榨干所有资源。田渊栋和 Google 研究员都观察到同样现象:「Google 过去两年举全公司之力追赶 LLM,牺牲了本来非常多元的前沿探索方向。Meta 也一样。」

这导致了结构性问题:做主流方向的人获得更多资源,不做主流方向的人被挤掉。「从无人注意的角落里迸发自下而上的颠覆性创新,可能性变小了。」

研究进化:从围棋到隐空间推理

田渊栋的研究轨迹是大模型行业的缩影:

神经网络的本质:数据结构决定学习能力

田渊栋对”AI 为什么能学懂东西”的回答:「最本质是靠数据本身的结构。如果数据有结构,就存在某种算法能找到这个结构。一旦被抓住,就能泛化到其他方向——这就是理解。」

他观察到人脑和 AI 的神经网络表示之间存在相关性,两者最终学到的东西可能是一样的,只是训练效率不同。婴儿的学习方式启发他思考:「小孩在某个阶段之前灌再多数据也学不会,只会背诵不会理解。突然某天他就领悟了。人脑有某种更高效的学习系统。」

一个重要发现:神经网络训练后涌现的内部结构实际上是符号性的(有序的、可用符号解释的),这意味着未来可能不需要”神经+符号”的混合系统——神经表示本身就是更高阶的符号表示,能自我学习和迭代。

AI 版牛顿还没有出现

田渊栋将 AI 研究的现状比作 400 年前的物理学:

他自己一直在探索能否从神经网络的基本原理出发,推导出所有实验现象,但「现在还挺难做到」。

AI 洪水与人的价值:找到高处,不要在低洼处筑坝

田渊栋延续了他”AI 是洪水”的比喻:大模型军备竞赛是囚徒困境——「谁不做谁就被落下,2023 年呼吁暂停六个月最终不了了之。」

他提出”费米能级”类比:低于 AI 水位线的能力遍地都是、价值归零;高于水位线的能力指数级稀缺。建议不是阻止洪水,而是在洪水到来前找到有利位置:

科研品位与 The Path Not Taken

田渊栋解释论文名”The Paths Not Taken”的含义:「现实上有很多条路可以通向目的地,有一条路是你自己特别喜欢的。走下去的那条路才是你想要走的东西。」

他认为在所有公共劳动被自动化之后,每个人的价值在于选择不同的路径探索世界。「即便你走错了路,折返再去另一条路,刚才那条路不是白走的——它已经构成了你生命的一部分。」

关于经验的价值:「一个浪潮不足以把我们送到 AGI,可能需要很多浪潮。如何在不同浪潮之间跃迁——知道某种范式什么时候有效、什么时候该切换——这种能力才是最重要的。老兵见过很多思维方式变迁,对转换有更深的理解。」

容易被忽略的碎片

名言金句

  1. 「被裁其实就是公司帮你做的决定——让你去广阔天地进发。」
  2. 「每一层往上汇报都把好话说得更好听,不好的事情不说。很多层传上去后,最高层只听到好话。」
  3. 「一个浪潮不足以把我们送到 AGI,可能需要很多浪潮。如何在不同浪潮之间跃迁,这种能力才是最重要的。」
  4. 「语言只是解释推理过程的工具,不是推理本身。用语言做推理可能不是正确路径。」
  5. 「将来遍地神灯的时代,真正稀缺的不再是实现愿望的能力,而是愿望本身。」

可行建议

资源清单