我在 Lenny Podcast 上关于 Agent 工程的对话精华
来源: Simon Willison’s Weblog | 作者: Simon Willison | 日期: 2026-04-02 原文链接: https://simonwillison.net/2026/Apr/2/lennys-podcast/
一句话总结
2025 年 11 月 GPT 5.1 和 Claude Opus 4.5 的发布标志着 coding agent 跨过了实用拐点,软件工程师的工作模式正在被彻底重塑——瓶颈从写代码转移到了测试和验证,而这种变化将扩展到所有知识工作领域。
速览
- 十一月拐点——GPT 5.1 和 Claude Opus 4.5 跨过了”代码几乎总是能用”的阈值,从根本上改变了 coding agent 的可用性
- 瓶颈转移到测试——代码生成变快后,产品验证和用户测试成为新的核心瓶颈,原型设计的价值因此大幅提升
- Dark Factory 已成现实——StrongDM 实践了”没人写代码、没人读代码”的模式,Simon 自己 95% 的代码也不是手敲的
- 中层工程师处境最艰难——AI 放大了资深工程师的经验,也降低了新人的入门门槛,但夹在中间的人两头不靠
- Agent 工作令人精神耗竭——并行管理多个 agent 在上午 11 点就能耗尽一天的精力,存在类似赌博的成瘾风险
- 软件评估标准失效——一小时就能产出有文档有测试的项目,但”作者是否长期使用”成了新的信任信号
- 中断成本大幅下降——程序员不再需要连续数小时的不中断时间,两分钟提示 agent 后就能去做别的事
- Coding Agent 已进入安全研究领域——过去 3-6 个月内 agent 成为可信的安全研究工具,同时垃圾安全报告也在泛滥
- 软件工程师是知识工作者的风向标——代码对错容易判断,其他知识工作(法律、写作)更难验证 AI 产出质量
- 唯一通用技能是适应变化——在快速变化的环境中,投资于个人主动性(agency)比任何具体技术技能都重要
核心内容
十一月拐点改变了一切
2025 年 11 月,OpenAI 和 Anthropic 分别发布了 GPT 5.1 和 Claude Opus 4.5。两个模型都只是渐进式提升,但跨过了一个关键阈值:从”代码大部分能用但必须仔细检查”变成了”几乎总是能按指令执行”。这意味着你现在可以让 coding agent 直接构建一个 Mac 应用,拿回来的不再是一堆无法运行的垃圾。Simon 自己在手机上(主要用 Claude iPhone 应用)就能完成大量编程工作,包括遛狗散步的时候。
瓶颈从写代码转移到测试和验证
过去一个需求规格交给工程团队要三周才能拿回实现,现在大约三个小时。瓶颈因此转移到了后续环节——验证和测试。Simon 的做法是:对任何想设计的功能,用 agent 做三种不同方案的原型,因为成本极低。UI 原型现在基本免费,ChatGPT 和 Claude 可以直接做出逼真的 UI。但当你有三个选项而不是一个选项时,如何判断哪个最好?Simon 认为答案可能还是传统的可用性测试。他同时坦承,快速原型设计曾是他整个职业生涯的”超级能力”和独特卖点,而现在任何人都能做到了。
Dark Factory 从概念变为现实
“Dark Factory(黑灯工厂)“的概念源自工厂自动化——如果完全不需要人,就可以关灯让机器在黑暗中运行。StrongDM 在软件领域实践了这个理念,规则是:第一,没有人写代码;第二,没有人读代码。Simon 六个月前觉得这很疯狂,但现在他自己 95% 的代码不是手敲的——最新模型足够好,告诉它重命名变量、重构、加一行代码,它就做了,比自己敲键盘还快。
中层工程师面临两难困境
ThoughtWorks 组织的工程 VP 闭门会议得出一个理论:AI 对资深工程师和新人都很好——放大了前者的经验,降低了后者的入门门槛——但中层工程师两头不靠。Simon 的建议是拥抱变化,有意识地用 AI 放大自身技能而不是被动依赖。他指出”技能退化”的担忧是合理的,但应对方法不是回避,而是更有意识地使用这些工具来学新东西、做更有野心的项目。他强调 AI agent 没有真正的 agency(主动性),人类应该投资于自己的 agency。
Agent 工作的精神消耗与成瘾风险
同时管理四个并行 agent 处理不同问题,到上午 11 点就能耗尽一天的精力。Simon 观察到很多人因此失眠——“我的 coding agent 还可以帮我干活,再多待半小时”,然后凌晨四点就醒了。他认为这是不可持续的,存在类似赌博的成瘾成分,需要每个人找到自己的新极限。
软件评估标准正在重构
一个小时就能做出有完整文档和测试的 Python 库,看起来像花了好几周做的。但 Simon 自己都不相信这些软件——他没有花足够时间来确认质量,更重要的是他从来没用过它们。“做它比用它还快”——这种速度反而削弱了信任。他发现自己在评估别人软件时最在意的是:作者是否已经用了好几个月。同时,他 25 年积累的软件工时估算能力也完全失效了——以前觉得要花两周的项目,现在可能 20 分钟就完成了。很多朋友把积压十几年的副项目全做完了,完成后反而有一种失落感。
Coding Agent 对安全研究的双刃剑效应
过去 3-6 个月内,coding agent 成为了可信的安全研究工具,震动了安全研究行业(Thomas Ptacek 的文章 “Vulnerability Research Is Cooked” 详述了这一点)。但同时,不懂行的人在用 ChatGPT 生成格式精美却未经验证的漏洞报告轰炸开源项目。正确的做法是 Anthropic 与 Firefox 的合作模式——在提交给维护者之前验证每一个安全问题。
记者比其他职业更适合与 AI 合作
Simon 在讨论 Datasette 和数据新闻时指出一个反直觉的现象:记者天天跟不可信的信源打交道,新闻的核心技能就是从谎言中辨别真相。只要记者把 AI 当作又一个不可靠信源来对待,他们实际上比大多数职业更擅长使用 AI。相比之下,律师的情况糟糕得多——AI 幻觉案例数据库已收录 1,228 个案例。
名言金句
- “我一天能产出一万行代码,而且大部分能用。这是好事吗?”
- “UI 原型现在免费了。任何做产品设计的人如果不在 vibe code 小原型,就错过了最强提升。”
- “我做了一些非常酷的软件,但从来没用过。做它比用它还快。”
- “AI agent 没有 agency。我甚至会说 AI 永远不可能拥有 agency,因为它没有人类的动机。”
- “OpenClaw 基本上就是一只电子鸡,而你买 Mac Mini 就像买了一个鱼缸。“——Drew Breunig
可行建议
- 利用低成本原型加速产品验证:对每个功能做 2-3 个原型方案,用传统可用性测试来选择最优解
- 设定 agent 使用边界:识别自己的精力极限,避免”再起一批任务”的成瘾循环
- 区分 vibe coding 的适用场景:自用项目可以放手做,面向他人的产品必须额外验证
- 中层工程师应主动利用 AI 拓展能力边界:不是回避而是有意识地用 AI 学新东西、承接更大项目
- 评估软件时关注”作者是否长期使用”:完善的文档和测试不再是质量信号,实际使用时长才是
- 不断把你认为 AI 做不到的任务扔给它:偶尔它做到了就是新发现,做不到也能学到模型的边界
资源清单
- Lenny’s Podcast 完整节目(YouTube / Spotify / Apple Podcasts)
- Simon Willison: November 2025 inflection point 系列文章
- StrongDM 的 Dark Factory 实践
- ThoughtWorks 工程 VP 闭门会议总结
- Thomas Ptacek: Vulnerability Research Is Cooked
- Anthropic x Firefox 安全合作
- AI 幻觉案例数据库(1,228 案例)
- Cloudflare 1,000 实习生计划
- When is it OK to vibe code?
- 鹈鹕骑自行车基准测试系列
- 鸮鹦鹉 Rakiura 直播