与田渊栋的访谈：大模型的真问题、变局、AI洪水与 The Path Not Taken

频道: 微博访谈 | 嘉宾: 田渊栋（前 Meta FAIR 总监，现独立创业）日期: 2026-04-06 | 时长: 1:10:10 原视频链接: https://www.bilibili.com/video/BV1ZGSoB5ETo

一句话总结

田渊栋从 Meta 裁员后创业出发，深入剖析了大模型行业的真问题——Scaling Law 不会见顶但受资源约束、大厂组织架构制约创新、Benchmark 刷分掩盖真实能力——并提出人的核心价值在于综合判断力和发现 AI 弱点的能力。

速览

裁员不是羞耻，是公司帮你做的决定——大公司像笼子，被裁是飞出去的机会，关键是提前准备好离开后做什么
Llama 4 失败的核心是组织问题——团队从几十人膨胀到数百人，层层汇报只传好消息，领导层过高估计进度
Scaling Law 不会见顶，但受资源约束——问题不是”能不能继续涨”，而是”你有多少资源推它上去”
Coding Agent 爆发源于数据飞轮的拐点——AI 代码质量超过人类后，可大量生成训练数据自我加速
大模型挤占了其他研究方向的资源——Google 和 Meta 都举全公司之力追赶 LLM，多元前沿探索被牺牲
神经网络训练后涌现的结构是符号性的——未来可能不需要”神经+符号”混合系统，神经表示本身就是更高阶的符号
AI 研究还处于”开普勒阶段”——有很多经验现象和拟合定律，但还没有”牛顿级”的基本原理
人的核心价值是综合判断力——能发现 AI 在垂直领域的错误并指导它改进的能力，最难被替代
AI 洪水是囚徒困境的必然结果——不应阻止洪水，而应提前找到高处落脚
科研品位就是走自己想走的路——在所有公共劳动被自动化后，每个人的价值在于选择不同的路径去探索世界

嘉宾简介

田渊栋：CMU 博士，先后在 Google 无人驾驶和 Meta FAIR 工作十余年，曾任 FAIR 总监。研究覆盖强化学习（围棋 AI）、神经网络理论、大模型推理效率（StreamingLLM、H2O、GaLore）、隐空间推理等方向。2025 年 10 月被 Meta 裁员后创业，同时也是科幻小说作者。

核心内容

裁员与大公司困境：笼中鸟与广阔天地

田渊栋公开分享了被 Meta 裁员的经历，认为裁员不应被视为羞耻：「我说出来之后，有同事私信感谢我，因为之前那波裁员公司直接说是 Performance Based，等于给你扣帽子。」

他对大公司的核心判断是：个人在大系统中很渺小，心气和想做的事与能做的事是脱钩的。「你在公司待久了，听老板说什么就做什么，不用想目的和意义。想做一件大事，却发现边界处处——这人没时间、那人说老板不同意。最终你只能在框架里做能做的事。」

离开 Meta 后创业，他体验到了完全不同的反馈循环：「一个人就是一个小闭环。闭环很快的话，你很快知道哪里错了、怎么改进，这个过程非常爽。」

面对裁员焦虑，他建议：做好准备，知道离开公司后要做什么。「如果很天真地期望永远在公司待着、公司会保护你，这个愿望太可能会实现。被裁其实就是公司帮你做的决定——让你去广阔天地进发。」

Llama 的兴衰：从开源先驱到 Llama 4 的组织困局

田渊栋亲历了 Llama 系列的发展。Llama 能诞生，源于 FAIR 的”自下而上”文化：「有个组之前做定理证明，后来转做大模型训练，成功了。FAIR 有很多 bet，有些失败有些成功，一个成功就赚大了。」

但到了 Llama 4，问题变得严重：

团队膨胀：从几十人扩到两三百人
层层过滤坏消息：「我上面有好多层 VP，每一层往上汇报都把好话说得更好听、不好的事情不说。很多层传上去后，最高层只听到好话。」
过高估计进度：「领导过高估计项目进度，直到模型放出去后发现问题，整个逻辑才崩塌。」
Benchmark 刷分：「现场的人一定会往数字里面塞东西，看起来不错，但真的用起来就拉垮。」

核心教训：团队不能太大（几百上千人很难避免信息过滤），必须技术驱动而非 deadline 驱动，技术人员要有话语权。

杨立昆：精神领袖与孤独的布道者

田渊栋回忆了 2010 年见到杨立昆的场景：「一个很大的屋子里只有前两排坐着十几个人，我躲在后面干自己的活。隔壁做特征工程和 SVM 的 workshop 人满为患。他就一个人在讲台上演示神经网络。」

对于杨立昆”大模型可能是死胡同”的观点，田渊栋部分认同：「人脑功率只有 20-30 瓦，不需要太多数据就能获得很好的智能。婴儿在某个阶段之前你灌输再多数据他也学不会，突然某天他就领悟了。大模型的学习过程确实不够高效。但我不赞同说大模型没什么用——它确实学到了一些反映现实世界的本质表示。」

关于杨立昆与 Alexander Wong 的关系，田渊栋引述杨立昆的话：「You don’t tell researchers what to do. You certainly don’t tell researchers like me what to do.」他认为自上而下的命令式方向会压缩研究空间，导致大家跟风从众。

Scaling Law：不会见顶，但关键是资源

田渊栋对 Scaling Law 的判断：「Scaling Law 不会见顶，只要机器资源够多、数据够多，总是可以往上走。问题在于你有没有时间和代价把它推上去。也许下一个数据中心需要核电站供电，再乘 10 倍需要多少核电站？最终整个地球都必须用所有能源为你的数据中心服务。」

他认为需要在 Scaling Law 之外找到新东西：纯粹按 Scaling Law 走不一定能到达 AGI 级别的水平，但在特定领域（如 Coding Agent），模型越来越强后可以生成训练数据自我加速，存在突破的可能。

Coding Agent 爆发的技术本质：数据飞轮的拐点

田渊栋分析了 Coding Agent 快速发展的底层逻辑：存在一个拐点——AI 代码质量超过人类代码后，就可以大量生成高质量训练数据反哺模型。「一开始数据积累很慢，因为 AI 代码质量赶不上人。但某个阶段后 AI 代码够好了，可以大量生成样本放回模型训练，突然就有了起飞。」

他自己的体验：「离开 Meta 后我很多时间自己写代码，但正好赶上这一波——我发现我不用写代码了，回到了以前做管理者的感觉，像指导学生。它 24 小时待命，但确实会犯人肯定不会犯的愚蠢错误。」

大模型对研究生态的挤压

大模型来了之后，需要榨干所有资源。田渊栋和 Google 研究员都观察到同样现象：「Google 过去两年举全公司之力追赶 LLM，牺牲了本来非常多元的前沿探索方向。Meta 也一样。」

这导致了结构性问题：做主流方向的人获得更多资源，不做主流方向的人被挤掉。「从无人注意的角落里迸发自下而上的颠覆性创新，可能性变小了。」

研究进化：从围棋到隐空间推理

田渊栋的研究轨迹是大模型行业的缩影：

2015-2018：围棋 AI、强化学习应用（一个人写代码做实验）
2018-2020：转向神经网络理论分析（长期投入，五到十年慢慢出成果）
2023：大模型推理效率（StreamingLLM——只保留前几个和最近的 token，中间全扔掉；H2O——再放几个关键 token 回来）
2024：强化学习做推理（发现在答案中间插入思考链可极大提高效率，比 O1 早一年提出快慢思考模式）
2024 底：隐空间推理（Latent Space）——用连续向量代替语言做推理。「语言只是解释推理过程的工具，不是推理本身。用语言做推理可能不是正确路径。」这篇被视为该方向的开山之作

神经网络的本质：数据结构决定学习能力

田渊栋对”AI 为什么能学懂东西”的回答：「最本质是靠数据本身的结构。如果数据有结构，就存在某种算法能找到这个结构。一旦被抓住，就能泛化到其他方向——这就是理解。」

他观察到人脑和 AI 的神经网络表示之间存在相关性，两者最终学到的东西可能是一样的，只是训练效率不同。婴儿的学习方式启发他思考：「小孩在某个阶段之前灌再多数据也学不会，只会背诵不会理解。突然某天他就领悟了。人脑有某种更高效的学习系统。」

一个重要发现：神经网络训练后涌现的内部结构实际上是符号性的（有序的、可用符号解释的），这意味着未来可能不需要”神经+符号”的混合系统——神经表示本身就是更高阶的符号表示，能自我学习和迭代。

AI 版牛顿还没有出现

田渊栋将 AI 研究的现状比作 400 年前的物理学：

“第谷”阶段：大量实验观察到现象
“开普勒”阶段：把数据归纳成经验定律（如 Scaling Law）
“牛顿”阶段：从基本原理推导出所有现象——「这个还远远没有做到」

他自己一直在探索能否从神经网络的基本原理出发，推导出所有实验现象，但「现在还挺难做到」。

AI 洪水与人的价值：找到高处，不要在低洼处筑坝

田渊栋延续了他”AI 是洪水”的比喻：大模型军备竞赛是囚徒困境——「谁不做谁就被落下，2023 年呼吁暂停六个月最终不了了之。」

他提出”费米能级”类比：低于 AI 水位线的能力遍地都是、价值归零；高于水位线的能力指数级稀缺。建议不是阻止洪水，而是在洪水到来前找到有利位置：

不要被 AI 牵着走：要想想 AI 的决策和思路是不是对的，有专业积累的人能发现 AI 在垂直领域的错误
人的核心优势：综合判断力 + 垂直领域深度经验 + 用很少数据找到内在规律的能力
不是对抗 AI，而是指导 AI：知道 AI 弱点在哪里，引导它往正确方向走

科研品位与 The Path Not Taken

田渊栋解释论文名”The Paths Not Taken”的含义：「现实上有很多条路可以通向目的地，有一条路是你自己特别喜欢的。走下去的那条路才是你想要走的东西。」

他认为在所有公共劳动被自动化之后，每个人的价值在于选择不同的路径探索世界。「即便你走错了路，折返再去另一条路，刚才那条路不是白走的——它已经构成了你生命的一部分。」

关于经验的价值：「一个浪潮不足以把我们送到 AGI，可能需要很多浪潮。如何在不同浪潮之间跃迁——知道某种范式什么时候有效、什么时候该切换——这种能力才是最重要的。老兵见过很多思维方式变迁，对转换有更深的理解。」

容易被忽略的碎片

田渊栋离开 Meta 后用家里一台 C90 机器跑实验，单台机器就完成了论文的实验工作
他用 XGBoost（AI 编程工具）合作写论文，原本需要半年的工作一个月完成——「将来的研究会有很大变化」
Meta 内部不止四个团队在做 AI 研究，「你很难界定到底有多少组，产品组内部也有团队在做」
Transformer 的创造者当初的动机不是追求效果，而是解决 GPU 内存搬运效率问题——「目的和最后的影响其实不是一个东西」
关于 2026 年 AI 行业是否回调，田渊栋认为不会：「倒过来，很多应用真的快要爆发了，Coding 工具可以把两个月的开发压缩到一周」
他正在写科幻小说《破晓之中》，其中探讨了强 AI 出现后人类不再是舞台中心的命题

名言金句

「被裁其实就是公司帮你做的决定——让你去广阔天地进发。」
「每一层往上汇报都把好话说得更好听，不好的事情不说。很多层传上去后，最高层只听到好话。」
「一个浪潮不足以把我们送到 AGI，可能需要很多浪潮。如何在不同浪潮之间跃迁，这种能力才是最重要的。」
「语言只是解释推理过程的工具，不是推理本身。用语言做推理可能不是正确路径。」
「将来遍地神灯的时代，真正稀缺的不再是实现愿望的能力，而是愿望本身。」

可行建议

职业准备：不要依赖公司保护，提前想好离开后做什么，被裁反而可能是转型契机
对抗 AI 替代：不要被 AI 牵着走，深耕垂直领域，培养发现 AI 错误并指导修正的能力
研究方向：关注隐空间推理（用连续向量替代语言做推理）、数据效率提升、持续学习等尚未被充分探索的方向
组织管理：大模型团队应控制规模、技术驱动而非 deadline 驱动，避免层层汇报导致的信息过滤

资源清单

StreamingLLM：田渊栋团队的长上下文推理优化方法（只保留首尾 token）
H2O：在 StreamingLLM 基础上增加关键 token 的推理效率方法
GaLore：单卡训练 7B 模型的内存效率优化方法
Latent Space 推理：用连续向量代替语言做推理的开山之作（2024 年底）
Hybrid Thinking：快慢思考模式，比 O1 早一年提出
Stalin：用查表替换 FFN 层提高推理效率的新方法
《破晓之中》：田渊栋的科幻小说，探讨强 AI 后的人类处境

田渊栋访谈大模型真问题与变局