我在 Lenny Podcast 上关于 Agent 工程的对话精华

来源: Simon Willison’s Weblog | 作者: Simon Willison | 日期: 2026-04-02 原文链接: https://simonwillison.net/2026/Apr/2/lennys-podcast/

一句话总结

2025 年 11 月 GPT 5.1 和 Claude Opus 4.5 的发布标志着 coding agent 跨过了实用拐点，软件工程师的工作模式正在被彻底重塑——瓶颈从写代码转移到了测试和验证，而这种变化将扩展到所有知识工作领域。

速览

十一月拐点——GPT 5.1 和 Claude Opus 4.5 跨过了”代码几乎总是能用”的阈值，从根本上改变了 coding agent 的可用性
瓶颈转移到测试——代码生成变快后，产品验证和用户测试成为新的核心瓶颈，原型设计的价值因此大幅提升
Dark Factory 已成现实——StrongDM 实践了”没人写代码、没人读代码”的模式，Simon 自己 95% 的代码也不是手敲的
中层工程师处境最艰难——AI 放大了资深工程师的经验，也降低了新人的入门门槛，但夹在中间的人两头不靠
Agent 工作令人精神耗竭——并行管理多个 agent 在上午 11 点就能耗尽一天的精力，存在类似赌博的成瘾风险
软件评估标准失效——一小时就能产出有文档有测试的项目，但”作者是否长期使用”成了新的信任信号
中断成本大幅下降——程序员不再需要连续数小时的不中断时间，两分钟提示 agent 后就能去做别的事
Coding Agent 已进入安全研究领域——过去 3-6 个月内 agent 成为可信的安全研究工具，同时垃圾安全报告也在泛滥
软件工程师是知识工作者的风向标——代码对错容易判断，其他知识工作（法律、写作）更难验证 AI 产出质量
唯一通用技能是适应变化——在快速变化的环境中，投资于个人主动性（agency）比任何具体技术技能都重要

核心内容

十一月拐点改变了一切

2025 年 11 月，OpenAI 和 Anthropic 分别发布了 GPT 5.1 和 Claude Opus 4.5。两个模型都只是渐进式提升，但跨过了一个关键阈值：从”代码大部分能用但必须仔细检查”变成了”几乎总是能按指令执行”。这意味着你现在可以让 coding agent 直接构建一个 Mac 应用，拿回来的不再是一堆无法运行的垃圾。Simon 自己在手机上（主要用 Claude iPhone 应用）就能完成大量编程工作，包括遛狗散步的时候。

瓶颈从写代码转移到测试和验证

过去一个需求规格交给工程团队要三周才能拿回实现，现在大约三个小时。瓶颈因此转移到了后续环节——验证和测试。Simon 的做法是：对任何想设计的功能，用 agent 做三种不同方案的原型，因为成本极低。UI 原型现在基本免费，ChatGPT 和 Claude 可以直接做出逼真的 UI。但当你有三个选项而不是一个选项时，如何判断哪个最好？Simon 认为答案可能还是传统的可用性测试。他同时坦承，快速原型设计曾是他整个职业生涯的”超级能力”和独特卖点，而现在任何人都能做到了。

Dark Factory 从概念变为现实

“Dark Factory（黑灯工厂）“的概念源自工厂自动化——如果完全不需要人，就可以关灯让机器在黑暗中运行。StrongDM 在软件领域实践了这个理念，规则是：第一，没有人写代码；第二，没有人读代码。Simon 六个月前觉得这很疯狂，但现在他自己 95% 的代码不是手敲的——最新模型足够好，告诉它重命名变量、重构、加一行代码，它就做了，比自己敲键盘还快。

中层工程师面临两难困境

ThoughtWorks 组织的工程 VP 闭门会议得出一个理论：AI 对资深工程师和新人都很好——放大了前者的经验，降低了后者的入门门槛——但中层工程师两头不靠。Simon 的建议是拥抱变化，有意识地用 AI 放大自身技能而不是被动依赖。他指出”技能退化”的担忧是合理的，但应对方法不是回避，而是更有意识地使用这些工具来学新东西、做更有野心的项目。他强调 AI agent 没有真正的 agency（主动性），人类应该投资于自己的 agency。

Agent 工作的精神消耗与成瘾风险

同时管理四个并行 agent 处理不同问题，到上午 11 点就能耗尽一天的精力。Simon 观察到很多人因此失眠——“我的 coding agent 还可以帮我干活，再多待半小时”，然后凌晨四点就醒了。他认为这是不可持续的，存在类似赌博的成瘾成分，需要每个人找到自己的新极限。

软件评估标准正在重构

一个小时就能做出有完整文档和测试的 Python 库，看起来像花了好几周做的。但 Simon 自己都不相信这些软件——他没有花足够时间来确认质量，更重要的是他从来没用过它们。“做它比用它还快”——这种速度反而削弱了信任。他发现自己在评估别人软件时最在意的是：作者是否已经用了好几个月。同时，他 25 年积累的软件工时估算能力也完全失效了——以前觉得要花两周的项目，现在可能 20 分钟就完成了。很多朋友把积压十几年的副项目全做完了，完成后反而有一种失落感。

Coding Agent 对安全研究的双刃剑效应

过去 3-6 个月内，coding agent 成为了可信的安全研究工具，震动了安全研究行业（Thomas Ptacek 的文章 “Vulnerability Research Is Cooked” 详述了这一点）。但同时，不懂行的人在用 ChatGPT 生成格式精美却未经验证的漏洞报告轰炸开源项目。正确的做法是 Anthropic 与 Firefox 的合作模式——在提交给维护者之前验证每一个安全问题。

记者比其他职业更适合与 AI 合作

Simon 在讨论 Datasette 和数据新闻时指出一个反直觉的现象：记者天天跟不可信的信源打交道，新闻的核心技能就是从谎言中辨别真相。只要记者把 AI 当作又一个不可靠信源来对待，他们实际上比大多数职业更擅长使用 AI。相比之下，律师的情况糟糕得多——AI 幻觉案例数据库已收录 1,228 个案例。

名言金句

“我一天能产出一万行代码，而且大部分能用。这是好事吗？”
“UI 原型现在免费了。任何做产品设计的人如果不在 vibe code 小原型，就错过了最强提升。”
“我做了一些非常酷的软件，但从来没用过。做它比用它还快。”
“AI agent 没有 agency。我甚至会说 AI 永远不可能拥有 agency，因为它没有人类的动机。”
“OpenClaw 基本上就是一只电子鸡，而你买 Mac Mini 就像买了一个鱼缸。“——Drew Breunig

可行建议

利用低成本原型加速产品验证：对每个功能做 2-3 个原型方案，用传统可用性测试来选择最优解
设定 agent 使用边界：识别自己的精力极限，避免”再起一批任务”的成瘾循环
区分 vibe coding 的适用场景：自用项目可以放手做，面向他人的产品必须额外验证
中层工程师应主动利用 AI 拓展能力边界：不是回避而是有意识地用 AI 学新东西、承接更大项目
评估软件时关注”作者是否长期使用”：完善的文档和测试不再是质量信号，实际使用时长才是
不断把你认为 AI 做不到的任务扔给它：偶尔它做到了就是新发现，做不到也能学到模型的边界

资源清单

Lenny’s Podcast 完整节目（YouTube / Spotify / Apple Podcasts）
Simon Willison: November 2025 inflection point 系列文章
StrongDM 的 Dark Factory 实践
ThoughtWorks 工程 VP 闭门会议总结
Thomas Ptacek: Vulnerability Research Is Cooked
Anthropic x Firefox 安全合作
AI 幻觉案例数据库（1,228 案例）
Cloudflare 1,000 实习生计划
When is it OK to vibe code?
鹈鹕骑自行车基准测试系列
鸮鹦鹉 Rakiura 直播

我在 Lenny Podcast 上关于 Agent 工程的对话精华

2026 年 4 月 2 日

我作为嘉宾参加了 Lenny Rachitsky 的播客，新一期标题为 An AI state of the union: We’ve passed the inflection point, dark factories are coming, and automation timelines。节目在 YouTube、Spotify 和 Apple Podcasts 上都能收听。以下是我从对话中提取的精华，附带相关链接。

十一月拐点
软件工程师是其他知识工作者的风向标
在手机上写代码
负责任的 Vibe Coding
Dark Factory 与 StrongDM
瓶颈已经转移到测试环节
这些东西真的很累人
中断的成本大幅降低了
我对软件工时的估算能力崩了
中层工程师处境艰难
评估软件变得更难了
AI 工具很简单是一个误解
Coding Agent 已经可以做安全研究了
OpenClaw
记者天生擅长应对不可靠信源
鹈鹕基准测试
最后，关于鹦鹉的好消息
YouTube 章节列表

十一月拐点

4:19——这两家实验室竭尽全力提升模型编码能力的最终结果是，在十一月，我们迎来了我所说的拐点——GPT 5.1 和 Claude Opus 4.5 发布了。

它们都比上一代模型有渐进式的提升，但这种提升跨过了一个阈值：以前代码大部分能用，但你必须非常仔细地检查它。突然间，我们从那种状态变成了……几乎所有时候它都能按你说的去做，这带来了天壤之别。

现在你可以启动一个 coding agent，说”给我做一个能干这件事的 Mac 应用”，你拿回来的东西不再是一堆无法运行的垃圾代码。

软件工程师是其他知识工作者的风向标

5:49——我一天能产出一万行代码，而且大部分能用。这是好事吗？我们怎么从”大部分能用”走到”全部能用”？我们面临太多新问题了，我认为这让我们成了其他知识工作者的风向标。

代码比你交给这些 agent 的几乎所有其他问题都更容易判断，因为代码明显对或错——要么能跑，要么不能跑。可能有一些隐蔽的 bug，但总体上你能看出来东西能不能用。

如果它给你写一篇文章，给你准备一份诉讼材料，要判断它做得好不好、对不对就难得多了。但这正在发生在我们软件工程师身上。它先冲着我们来了。

我们正在摸索——我们的职业会变成什么样？当团队中过去占大部分时间的工作不再占大部分时间了，团队该怎么协作？这会是什么样子？看这些变化如何扩展到其他知识工作领域会非常有意思。

律师在这方面栽得特别惨。AI 幻觉案例数据库已经收录了 1,228 个案例！

还有节目开头这段：

以前你让 ChatGPT 给你写代码，它吐出来代码，你得自己跑一遍测试。现在 coding agent 替你做了这一步。对我来说一个未解的问题是：还有多少其他知识工作领域也适合这种 agent 循环？

在手机上写代码

8:19——我在手机上写了大量代码。真的很疯狂。我遛狗沿着海滩走的时候也能高效工作，这感觉太好了。

我主要用 Claude iPhone 应用来做这件事，既可以用普通的 Claude 对话（它现在可以执行代码了），也可以用它来控制 Claude Code for web。

负责任的 Vibe Coding

9:55——如果你在给自己 vibe code 一些东西，出了 bug 只有你自己受影响，那放手去做，完全没问题。一旦你把 vibe coding 的代码发布给别人用，你的 bug 可能会伤害到别人，这时候你需要退一步想想了。

另见 When is it OK to vibe code?

Dark Factory 与 StrongDM

12:49——之所以叫”Dark Factory（黑灯工厂）“，是因为工厂自动化中有个概念：如果你的工厂自动化程度高到不需要任何人，你就可以关灯了。机器可以在完全黑暗中运行。对软件来说这意味着什么？[…]

有这样一条规则：没有人写代码——你不能往电脑里敲代码。说实话，六个月前我觉得这太疯了。但今天，我产出的代码中大约 95% 不是我自己敲的。这个世界已经是现实了，因为最新的模型足够好，你可以告诉它们重命名那个变量、重构、在这里加一行……它们就做了——比你自己敲键盘还快。

但下一条规则是：没有人读代码。这就是 StrongDM 去年开始做的事情。

我在二月份写了很多关于 StrongDM 的 Dark Factory 探索的内容。

瓶颈已经转移到测试环节

21:27——以前你写好需求规格，交给工程团队，如果运气好的话，三周后他们会拿回一个实现。现在大概三个小时就行了，取决于 coding agent 在那类任务上的成熟程度。那然后呢？现在瓶颈在哪里？

做过产品的人都知道，你最初的想法总是错的。重要的是验证它们、测试它们。

我们现在可以更快地测试，因为可以更快地做出可用的原型。我自己工作中有一件有意思的事：对于我想设计的任何功能，我通常会做三种不同方案的原型，因为这花不了多少时间。

我一直热爱做原型，而现在原型设计的价值更高了。

22:40——UI 原型现在免费了。ChatGPT 和 Claude 可以直接给你做出你描述的任何东西的逼真 UI。你就应该这样工作。我认为任何做产品设计的人如果不在 vibe code 小原型，就错过了我们在这个环节能获得的最强提升。

但然后你怎么办？当你有三个选项而不是一个选项时，你怎么证明哪个是最好的？对此我没有确定的答案。我觉得这可能就是传统可用性测试派上用场的地方。

后面还谈到了原型设计：

46:35——在我整个职业生涯中，我的超级能力就是做原型。我非常擅长快速搞出能跑的原型。我是那种能在会议上说”看，它可以这样工作”的人。这是我的独特卖点。而现在这个没了。任何人都能做到我以前做的事情。

这些东西真的很累人

26:25——我发现要用好 coding agent，需要动用我 25 年软件工程经验的每一分能力，而且在精神上极其消耗。我可以同时开四个 agent 让它们并行处理四个不同的问题。到上午 11 点，我这一天就耗尽了。[…]

我们需要学会一项个人技能——找到自己的新极限，怎样才不会燃尽自己。

我跟很多人聊过，他们因为这个失眠了，因为他们想”我的 coding agent 还可以帮我干活，我就再多待半小时，再起一批任务”……然后凌晨四点就醒了。这显然不可持续。[…]

我们使用这些工具的方式中，有赌博和成瘾的成分。

中断的成本大幅降低了

45:16——人们说不要打断程序员有多重要，程序员需要两到四小时的连续不中断的工作时间来建立心智模型然后产出代码。这彻底变了。我的编程工作，每隔一段时间我只需要两分钟来告诉 agent 下一步做什么，然后我就可以去做其他事情，再回来。我比以前更经得起打断了。

我对软件工时的估算能力崩了

28:19——我有 25 年的经验来判断做一个东西要花多长时间。这些经验全失效了，因为我会看着一个问题说”这要花两周，不值得做”。但现在可能只要 20 分钟，因为过去要花两周的原因全是那些繁琐的编码工作，而 AI 现在替我们搞定了。

我不断地把我认为 AI 做不到的任务扔给它，因为偶尔它真的做到了。做不到的时候你也能学到东西。但当它确实做到了某件事，尤其是上一代模型做不到的事，那其实就是前沿的 AI 研究。

还有一个相关的小故事：

36:56——我很多朋友都在说他们有一堆积压的副项目，对吧？过去 10 到 15 年，他们有一些从来没做完的项目。有些人说”我现在全做完了”。过去几个月，每天晚上他们就说”把那个项目拿出来完成它”。有些人做完后甚至有一种失落感——“好吧，我的待办列表空了，接下来还做什么？“

中层工程师处境艰难

29:29——ThoughtWorks，那家大型 IT 咨询公司，大约一个月前搞了一次闭门会议，把很多公司的工程 VP 找来讨论这些问题。他们得出的一个有意思的理论是：这些工具对资深工程师特别好，因为它放大了他们的技能。对新人也特别好，因为它解决了很多入门障碍。问题在中间的人。如果你在职业生涯中期，还没到超级资深的程度，但也不是新人，这个群体可能是目前处境最艰难的。

我提到了 Cloudflare 招聘 1,000 名实习生的事，Shopify 也是。

Lenny 问我对被困在中间的人有什么建议：

31:21——你这是给我一个很大的责任啊！我觉得前进的方向是拥抱这些东西，想清楚”我怎么让它帮我变得更强”。

很多人担心技能退化：如果 AI 替你做了，你什么都学不到。我觉得如果你担心这一点，就去对抗它。你需要有意识地思考如何应用这项技术——好，我有了一个能回答任何问题而且经常答对的东西。我怎么用它来放大自己的技能、学习新东西、承接更有野心的项目？[…]

33:05——现在一切变化太快了。唯一通用的技能就是能够随变化滚动。这是我们所有人都需要的。

在这些关于如何在 AI 时代出色工作的讨论中，出现频率最高的词是 agency（主动性）。我认为 agent 其实完全没有 agency。我甚至会说 AI 永远不可能拥有 agency，因为它没有人类的动机。

所以我的建议是投资于你自己的主动性，投资于如何用这项技术来提升你正在做的事，以及去做新的事情。

评估软件变得更难了

因为创建带有详细文档和完善测试的软件变得太容易了，这反而让判断一个项目是否靠谱变得更难了。

37:47——有时候我有个想法——做个 Python 库之类的——我大概一个小时就能搞出来，有文档有测试，一切都有，看起来就像我以前要花好几周做的那种软件。我可以把它放到 GitHub 上。

然而……我不相信它。原因是我跳过了所有那些步骤……我觉得质量可能是好的，但我没有花足够的时间来对质量有信心。最重要的是，我还没用过它。

我发现当我使用别人的软件时，我最在意的是——我希望他们已经用了好几个月了。

我做了一些非常酷的软件，但从来没用过。做它比用它还快！

AI 工具很简单是一个误解

41:31——每个人都说”哦，这一定很简单，不就是个聊天机器人吗”。它不简单。这是 AI 领域最大的误解之一——高效使用这些工具是件简单的事。它需要大量练习，需要大量尝试不奏效的方法和奏效的方法。

Coding Agent 已经可以做安全研究了

19:04——在过去三到六个月里，它们已经开始成为可信的安全研究工具了，这在安全研究行业引起了震动。

参见 Thomas Ptacek：Vulnerability Research Is Cooked。

同时，开源项目正被大量垃圾安全报告轰炸：

20:05——有些不懂行的人让 ChatGPT 找安全漏洞，然后报给维护者。报告看起来很专业，ChatGPT 能写出格式精美的漏洞报告。但这完全是浪费时间，因为根本没有验证这是不是真的漏洞。

一个正确做法的好例子是 Anthropic 与 Firefox 的合作：Anthropic 的安全团队在把安全问题交给 Mozilla 之前，验证了每一个问题。

OpenClaw

当然我们聊到了 OpenClaw！Lenny 在一台 Mac Mini 上跑了一个。

1:29:23——OpenClaw 证明了人们对个人数字助手的渴望如此强烈，以至于他们不仅愿意忽视安全问题，而且安装这个东西也不容易。你得创建 API key、token，安装各种东西。设置起来不简单，但成千上万的人都搞定了。[…]

OpenClaw 的第一行代码写于 11 月 25 日。然后在超级碗上，有一个 AI.com 的广告，本质上是一个贴牌的 OpenClaw 托管服务提供商。所以我们从 11 月写第一行代码到超级碗广告，花了多久？三个半月。

我一直很喜欢 Drew Breunig 对 OpenClaw 的描述——数字宠物：

我一个朋友说 OpenClaw 基本上就是一只电子鸡（Tamagotchi），而你买 Mac Mini 就像买了一个鱼缸。

记者天生擅长应对不可靠信源

在讨论我通过 Datasette 探索 AI 在数据新闻领域的应用时：

1:34:58——你可能觉得 AI 跟新闻业不搭，因为新闻的核心是找到真相。但反过来看，记者天天跟不可信的信源打交道。新闻的艺术就是你跟一堆人聊，有些人对你撒谎，你来搞清楚什么是真的。所以只要记者把 AI 当作又一个不可靠信源来对待，他们实际上比大多数其他职业更适合与 AI 合作。

鹈鹕基准测试

当然我们聊到了鹈鹕骑自行车：

56:10——鹈鹕骑自行车画得有多好跟模型在其他所有方面有多强，看起来有非常强的相关性。没有人能解释为什么。[…]

有人一直问我：如果实验室在这个基准测试上作弊怎么办？我的回答一直是：说真的，我这辈子就想要一张真正好看的鹈鹕骑自行车的图。如果我能骗全世界的 AI 实验室在基准测试上作弊来得到它，那正好达到了我的目的。

59:56——我觉得人们常常忽略的是，这个领域本质上很搞笑。我们有这些极其昂贵、极耗能的、号称史上最先进的计算机，结果你让它画一只骑自行车的鹈鹕，画出来像五岁小孩画的。我觉得这真的很好笑。

最后，关于鹦鹉的好消息

Lenny 问我有没有什么想留给听众的话来结束节目，所以我讲了当前世界上最好的一条消息。

1:38:10——新西兰有一种稀有鹦鹉叫鸮鹦鹉（Kākāpō）。全世界只剩 250 只了。它们是不会飞的夜行鹦鹉——漂亮的绿色胖墩。好消息是它们在 2026 年有一个非常好的繁殖季。

它们只在新西兰的 Rimu 树大量结果时才繁殖，而 Rimu 树自 2022 年以来就没有这样过——所以四年来没有一只鸮鹦鹉宝宝出生。

今年，Rimu 树结果了。鸮鹦鹉在繁殖。已经有数十只新雏鸟出生了。这是一个非常、非常好的时刻。这对新西兰的稀有鹦鹉来说是个好消息，你们应该去搜搜看它们，因为它们真的很可爱。

大家都应该去看 Rakiura 和她两只雏鸟的直播！

YouTube 章节列表

以下是 Lenny 团队为 YouTube 视频定义的完整章节列表：

00:00：Simon Willison 介绍
02:40：2025 年 11 月拐点
08:01：AI 编程现在能做什么
10:42：Vibe coding vs. agentic engineering
13:57：Dark Factory 模式
20:41：瓶颈转移到了哪里
23:36：人脑在哪里仍然有价值
25:32：为软件工程师辩护
29:12：为什么资深工程师效果更好
30:48：如何避免成为永久底层
33:52：利用 AI 放大你的技能
35:12：Simon 为什么说他比以前更努力了
37:23：2022 年以前人类手写代码的市场
40:01：预测：到 2026 年底 50% 的工程师 95% 的代码由 AI 生成
44:34：廉价代码的影响
48:27：Simon 的 AI 工具栈
54:08：用 AI 做研究
55:12：鹈鹕骑自行车基准测试
59:01：AI 的荒诞本质
1:00:52：囤积你会做的事情
1:08:21：Red/Green TDD 模式写出更好的 AI 代码
1:14:43：用好模板起步
1:16:31：致命三件套与 prompt injection
1:21:53：为什么 97% 的有效率是不及格
1:25:19：偏差的正常化
1:28:32：OpenClaw——所有人都在忽视的安全噩梦
1:34:22：Simon 的下一步
1:36:47：零交付物的咨询
1:38:05：关于鸮鹦鹉的好消息