与田渊栋的访谈:大模型的真问题、变局、AI洪水与 The Path Not Taken
频道: 微博访谈 | 嘉宾: 田渊栋(前 Meta FAIR 总监,现独立创业) 日期: 2026-04-06 | 时长: 1:10:10 原视频链接: https://www.bilibili.com/video/BV1ZGSoB5ETo
一句话总结
田渊栋从 Meta 裁员后创业出发,深入剖析了大模型行业的真问题——Scaling Law 不会见顶但受资源约束、大厂组织架构制约创新、Benchmark 刷分掩盖真实能力——并提出人的核心价值在于综合判断力和发现 AI 弱点的能力。
速览
- 裁员不是羞耻,是公司帮你做的决定——大公司像笼子,被裁是飞出去的机会,关键是提前准备好离开后做什么
- Llama 4 失败的核心是组织问题——团队从几十人膨胀到数百人,层层汇报只传好消息,领导层过高估计进度
- Scaling Law 不会见顶,但受资源约束——问题不是”能不能继续涨”,而是”你有多少资源推它上去”
- Coding Agent 爆发源于数据飞轮的拐点——AI 代码质量超过人类后,可大量生成训练数据自我加速
- 大模型挤占了其他研究方向的资源——Google 和 Meta 都举全公司之力追赶 LLM,多元前沿探索被牺牲
- 神经网络训练后涌现的结构是符号性的——未来可能不需要”神经+符号”混合系统,神经表示本身就是更高阶的符号
- AI 研究还处于”开普勒阶段”——有很多经验现象和拟合定律,但还没有”牛顿级”的基本原理
- 人的核心价值是综合判断力——能发现 AI 在垂直领域的错误并指导它改进的能力,最难被替代
- AI 洪水是囚徒困境的必然结果——不应阻止洪水,而应提前找到高处落脚
- 科研品位就是走自己想走的路——在所有公共劳动被自动化后,每个人的价值在于选择不同的路径去探索世界
嘉宾简介
- 田渊栋:CMU 博士,先后在 Google 无人驾驶和 Meta FAIR 工作十余年,曾任 FAIR 总监。研究覆盖强化学习(围棋 AI)、神经网络理论、大模型推理效率(StreamingLLM、H2O、GaLore)、隐空间推理等方向。2025 年 10 月被 Meta 裁员后创业,同时也是科幻小说作者。
核心内容
裁员与大公司困境:笼中鸟与广阔天地
田渊栋公开分享了被 Meta 裁员的经历,认为裁员不应被视为羞耻:「我说出来之后,有同事私信感谢我,因为之前那波裁员公司直接说是 Performance Based,等于给你扣帽子。」
他对大公司的核心判断是:个人在大系统中很渺小,心气和想做的事与能做的事是脱钩的。「你在公司待久了,听老板说什么就做什么,不用想目的和意义。想做一件大事,却发现边界处处——这人没时间、那人说老板不同意。最终你只能在框架里做能做的事。」
离开 Meta 后创业,他体验到了完全不同的反馈循环:「一个人就是一个小闭环。闭环很快的话,你很快知道哪里错了、怎么改进,这个过程非常爽。」
面对裁员焦虑,他建议:做好准备,知道离开公司后要做什么。「如果很天真地期望永远在公司待着、公司会保护你,这个愿望太可能会实现。被裁其实就是公司帮你做的决定——让你去广阔天地进发。」
Llama 的兴衰:从开源先驱到 Llama 4 的组织困局
田渊栋亲历了 Llama 系列的发展。Llama 能诞生,源于 FAIR 的”自下而上”文化:「有个组之前做定理证明,后来转做大模型训练,成功了。FAIR 有很多 bet,有些失败有些成功,一个成功就赚大了。」
但到了 Llama 4,问题变得严重:
- 团队膨胀:从几十人扩到两三百人
- 层层过滤坏消息:「我上面有好多层 VP,每一层往上汇报都把好话说得更好听、不好的事情不说。很多层传上去后,最高层只听到好话。」
- 过高估计进度:「领导过高估计项目进度,直到模型放出去后发现问题,整个逻辑才崩塌。」
- Benchmark 刷分:「现场的人一定会往数字里面塞东西,看起来不错,但真的用起来就拉垮。」
核心教训:团队不能太大(几百上千人很难避免信息过滤),必须技术驱动而非 deadline 驱动,技术人员要有话语权。
杨立昆:精神领袖与孤独的布道者
田渊栋回忆了 2010 年见到杨立昆的场景:「一个很大的屋子里只有前两排坐着十几个人,我躲在后面干自己的活。隔壁做特征工程和 SVM 的 workshop 人满为患。他就一个人在讲台上演示神经网络。」
对于杨立昆”大模型可能是死胡同”的观点,田渊栋部分认同:「人脑功率只有 20-30 瓦,不需要太多数据就能获得很好的智能。婴儿在某个阶段之前你灌输再多数据他也学不会,突然某天他就领悟了。大模型的学习过程确实不够高效。但我不赞同说大模型没什么用——它确实学到了一些反映现实世界的本质表示。」
关于杨立昆与 Alexander Wong 的关系,田渊栋引述杨立昆的话:「You don’t tell researchers what to do. You certainly don’t tell researchers like me what to do.」他认为自上而下的命令式方向会压缩研究空间,导致大家跟风从众。
Scaling Law:不会见顶,但关键是资源
田渊栋对 Scaling Law 的判断:「Scaling Law 不会见顶,只要机器资源够多、数据够多,总是可以往上走。问题在于你有没有时间和代价把它推上去。也许下一个数据中心需要核电站供电,再乘 10 倍需要多少核电站?最终整个地球都必须用所有能源为你的数据中心服务。」
他认为需要在 Scaling Law 之外找到新东西:纯粹按 Scaling Law 走不一定能到达 AGI 级别的水平,但在特定领域(如 Coding Agent),模型越来越强后可以生成训练数据自我加速,存在突破的可能。
Coding Agent 爆发的技术本质:数据飞轮的拐点
田渊栋分析了 Coding Agent 快速发展的底层逻辑:存在一个拐点——AI 代码质量超过人类代码后,就可以大量生成高质量训练数据反哺模型。「一开始数据积累很慢,因为 AI 代码质量赶不上人。但某个阶段后 AI 代码够好了,可以大量生成样本放回模型训练,突然就有了起飞。」
他自己的体验:「离开 Meta 后我很多时间自己写代码,但正好赶上这一波——我发现我不用写代码了,回到了以前做管理者的感觉,像指导学生。它 24 小时待命,但确实会犯人肯定不会犯的愚蠢错误。」
大模型对研究生态的挤压
大模型来了之后,需要榨干所有资源。田渊栋和 Google 研究员都观察到同样现象:「Google 过去两年举全公司之力追赶 LLM,牺牲了本来非常多元的前沿探索方向。Meta 也一样。」
这导致了结构性问题:做主流方向的人获得更多资源,不做主流方向的人被挤掉。「从无人注意的角落里迸发自下而上的颠覆性创新,可能性变小了。」
研究进化:从围棋到隐空间推理
田渊栋的研究轨迹是大模型行业的缩影:
- 2015-2018:围棋 AI、强化学习应用(一个人写代码做实验)
- 2018-2020:转向神经网络理论分析(长期投入,五到十年慢慢出成果)
- 2023:大模型推理效率(StreamingLLM——只保留前几个和最近的 token,中间全扔掉;H2O——再放几个关键 token 回来)
- 2024:强化学习做推理(发现在答案中间插入思考链可极大提高效率,比 O1 早一年提出快慢思考模式)
- 2024 底:隐空间推理(Latent Space)——用连续向量代替语言做推理。「语言只是解释推理过程的工具,不是推理本身。用语言做推理可能不是正确路径。」这篇被视为该方向的开山之作
神经网络的本质:数据结构决定学习能力
田渊栋对”AI 为什么能学懂东西”的回答:「最本质是靠数据本身的结构。如果数据有结构,就存在某种算法能找到这个结构。一旦被抓住,就能泛化到其他方向——这就是理解。」
他观察到人脑和 AI 的神经网络表示之间存在相关性,两者最终学到的东西可能是一样的,只是训练效率不同。婴儿的学习方式启发他思考:「小孩在某个阶段之前灌再多数据也学不会,只会背诵不会理解。突然某天他就领悟了。人脑有某种更高效的学习系统。」
一个重要发现:神经网络训练后涌现的内部结构实际上是符号性的(有序的、可用符号解释的),这意味着未来可能不需要”神经+符号”的混合系统——神经表示本身就是更高阶的符号表示,能自我学习和迭代。
AI 版牛顿还没有出现
田渊栋将 AI 研究的现状比作 400 年前的物理学:
- “第谷”阶段:大量实验观察到现象
- “开普勒”阶段:把数据归纳成经验定律(如 Scaling Law)
- “牛顿”阶段:从基本原理推导出所有现象——「这个还远远没有做到」
他自己一直在探索能否从神经网络的基本原理出发,推导出所有实验现象,但「现在还挺难做到」。
AI 洪水与人的价值:找到高处,不要在低洼处筑坝
田渊栋延续了他”AI 是洪水”的比喻:大模型军备竞赛是囚徒困境——「谁不做谁就被落下,2023 年呼吁暂停六个月最终不了了之。」
他提出”费米能级”类比:低于 AI 水位线的能力遍地都是、价值归零;高于水位线的能力指数级稀缺。建议不是阻止洪水,而是在洪水到来前找到有利位置:
- 不要被 AI 牵着走:要想想 AI 的决策和思路是不是对的,有专业积累的人能发现 AI 在垂直领域的错误
- 人的核心优势:综合判断力 + 垂直领域深度经验 + 用很少数据找到内在规律的能力
- 不是对抗 AI,而是指导 AI:知道 AI 弱点在哪里,引导它往正确方向走
科研品位与 The Path Not Taken
田渊栋解释论文名”The Paths Not Taken”的含义:「现实上有很多条路可以通向目的地,有一条路是你自己特别喜欢的。走下去的那条路才是你想要走的东西。」
他认为在所有公共劳动被自动化之后,每个人的价值在于选择不同的路径探索世界。「即便你走错了路,折返再去另一条路,刚才那条路不是白走的——它已经构成了你生命的一部分。」
关于经验的价值:「一个浪潮不足以把我们送到 AGI,可能需要很多浪潮。如何在不同浪潮之间跃迁——知道某种范式什么时候有效、什么时候该切换——这种能力才是最重要的。老兵见过很多思维方式变迁,对转换有更深的理解。」
容易被忽略的碎片
- 田渊栋离开 Meta 后用家里一台 C90 机器跑实验,单台机器就完成了论文的实验工作
- 他用 XGBoost(AI 编程工具)合作写论文,原本需要半年的工作一个月完成——「将来的研究会有很大变化」
- Meta 内部不止四个团队在做 AI 研究,「你很难界定到底有多少组,产品组内部也有团队在做」
- Transformer 的创造者当初的动机不是追求效果,而是解决 GPU 内存搬运效率问题——「目的和最后的影响其实不是一个东西」
- 关于 2026 年 AI 行业是否回调,田渊栋认为不会:「倒过来,很多应用真的快要爆发了,Coding 工具可以把两个月的开发压缩到一周」
- 他正在写科幻小说《破晓之中》,其中探讨了强 AI 出现后人类不再是舞台中心的命题
名言金句
- 「被裁其实就是公司帮你做的决定——让你去广阔天地进发。」
- 「每一层往上汇报都把好话说得更好听,不好的事情不说。很多层传上去后,最高层只听到好话。」
- 「一个浪潮不足以把我们送到 AGI,可能需要很多浪潮。如何在不同浪潮之间跃迁,这种能力才是最重要的。」
- 「语言只是解释推理过程的工具,不是推理本身。用语言做推理可能不是正确路径。」
- 「将来遍地神灯的时代,真正稀缺的不再是实现愿望的能力,而是愿望本身。」
可行建议
- 职业准备:不要依赖公司保护,提前想好离开后做什么,被裁反而可能是转型契机
- 对抗 AI 替代:不要被 AI 牵着走,深耕垂直领域,培养发现 AI 错误并指导修正的能力
- 研究方向:关注隐空间推理(用连续向量替代语言做推理)、数据效率提升、持续学习等尚未被充分探索的方向
- 组织管理:大模型团队应控制规模、技术驱动而非 deadline 驱动,避免层层汇报导致的信息过滤
资源清单
- StreamingLLM:田渊栋团队的长上下文推理优化方法(只保留首尾 token)
- H2O:在 StreamingLLM 基础上增加关键 token 的推理效率方法
- GaLore:单卡训练 7B 模型的内存效率优化方法
- Latent Space 推理:用连续向量代替语言做推理的开山之作(2024 年底)
- Hybrid Thinking:快慢思考模式,比 O1 早一年提出
- Stalin:用查表替换 FFN 层提高推理效率的新方法
- 《破晓之中》:田渊栋的科幻小说,探讨强 AI 后的人类处境