过去六个月的 LLM 发展，五分钟讲完

来源: Simon Willison’s Weblog | 作者: Simon Willison | 日期: 2026-05-19 原文链接: https://simonwillison.net/2026/May/19/5-minute-llms/

一句话总结

2025 年 11 月以来 LLM 领域发生了两件大事：编程 Agent 跨越了实用门槛，本地可运行的开放权重模型开始大幅超出预期。

速览

2025 年 11 月是拐点——“最好”模型在 Anthropic、OpenAI、Google 之间五次易手，竞争进入白热化
编程 Agent 从”经常能用”变成”大部分能用”——RLVR 训练成果在 11 月集中显现，跨越了日常实用的质量门槛
LLM 狂热与冷静——假期期间开发者过度兴奋，大量项目启动后又悄悄退役
OpenClaw 三个月席卷世界——从 11 月的无名 repo 到 2 月成为现象级个人 AI 助手，催生 “Claw” 通用品类
Mac Mini 成了 Claw 的”鱼缸”——硅谷 Mac Mini 断货，人们用它跑本地 AI 助手
Gemini 3.1 Pro 画出最好的鹈鹕——Google Jeff Dean 亲自发推展示动画 SVG，AI 实验室开始关注 SVG 生成能力
Gemma 4 成为美国最强开放权重模型——Google 在 4 月发布，可在笔记本上运行
GLM-5.1：1.5TB 的开放权重巨兽——中国 AI 实验室发布 754B 参数模型，MIT 协议，效果强但硬件门槛高
本地模型大幅超出预期——Qwen3.6-35B-A3B（20.9GB）在笔记本上运行，鹈鹕测试表现超过 Opus 4.7

核心内容

2025 年 11 月拐点：三巨头争夺”最好模型”

Simon Willison 将 2025 年 11 月称为 LLM 的关键拐点。在一个月内，“最好”模型的头衔五次易手：Claude Sonnet 4.5（9 月底发布）→ GPT-5.1（11 月 13 日）→ Gemini 3（11 月 18 日）→ GPT-5.1 Codex Max（11 月 19 日）→ Claude Opus 4.5（11 月 24 日）。大多数从业者认为 Opus 4.5 在之后的几个月里保持了领先。

Willison 用”生成一只骑自行车的鹈鹕 SVG”作为模型能力的非正式基准测试。理由：鹈鹕难画、自行车难画、鹈鹕不可能骑自行车，且没有 AI 实验室会为此专门训练。

编程 Agent 跨越实用门槛

11 月真正的重大新闻不是模型排名，而是编程 Agent 变得好用了。OpenAI 和 Anthropic 在 2025 年大部分时间里通过 Reinforcement Learning from Verifiable Rewards（RLVR）提升模型编写代码的质量，尤其是与 Codex 和 Claude Code Agent 工具配合时。

11 月这项工作的成果集中显现：编程 Agent 从”经常能用”跨越到”大部分时候能用”。关键变化是用户不再需要把大部分时间花在修复 Agent 的错误上，可以将其作为日常工具完成真实工作。

LLM 狂热与冷静

12 月到 1 月的假期期间，大量开发者利用空闲时间尝试新模型和编程 Agent。Willison 坦承自己也经历了一种”LLM 狂热”（LLM psychosis），启动了各种野心勃勃的项目来测试极限。

他举了一个例子：用 micro-javascript 库实现了一个 JavaScript playground——JavaScript 在 Python 里运行，Python 在 Pyodide 里运行，Pyodide 在 WebAssembly 里运行，WebAssembly 又在浏览器的 JavaScript 里运行。技术上有趣，但没人需要一个有 bug、又慢、又不安全的 Python 版 JavaScript 实现。他有好几个假期项目后来悄悄退役了。

OpenClaw：三个月从零到现象级

11 月底，Pete Steinberger 在 GitHub 上创建了一个叫 Warelay 的 repo。12 月和 1 月经历了多次改名（Warelay → CLAWDIS → CLAWDBOT → Clawdbot → Moltbot → OpenClaw），到 2 月以 OpenClaw 之名席卷世界。

OpenClaw 是一个”个人 AI 助手”，催生了一个通用品类名称——Claw（源自 NanoClaw、ZeroClaw 等变体）。Mac Mini 在硅谷开始断货，因为人们用它跑本地 Claw。Drew Breunig 开玩笑说 Claw 是新的电子宠物，Mac Mini 是它的”鱼缸”。

Willison 对 Claw 最喜欢的比喻是《蜘蛛侠 2》里 Doc Ock 的机械爪：由 AI 驱动，只要抑制芯片没损坏就完全安全——一旦芯片坏了，它们就变邪恶并夺取控制权。

开放权重模型大幅超出预期

4 月连续发布了多个重量级开放权重模型：

Gemma 4（Google，4 月 2 日）：Willison 见过的美国公司发布的最强开放权重模型，26B-A4B 版本仅 17.99GB，可在笔记本上运行
GLM-5.1（中国 GLM 实验室，4 月 7 日）：754B 参数、1.51TB 体积、MIT 协议的开放权重巨兽，效果很强但对硬件要求极高
Qwen3.6-35B-A3B：仅 20.9GB，在笔记本上运行，鹈鹕测试中画出的鹈鹕比 Opus 4.7 更好（后者把自行车车架画歪了）

GLM-5.1 在 SVG 创意方面表现尤为突出：北弗吉尼亚负鼠骑电动滑板车的插图，配上”Cruising the commonwealth since dusk”的文字，其他模型远远不及。

2 月 Gemini 3.1 Pro 画出了带鱼篮子的鹈鹕骑车图，Google Jeff Dean 亲自发推展示了包括骑高轮车的青蛙、开小车的长颈鹿在内的多个动画 SVG。

名言金句

“编程 Agent 从’经常能用’变成了’大部分时候能用’，跨越了一个质量门槛——你可以把它们当日常工具来完成真实工作，而不需要把大部分时间花在修复它们的愚蠢错误上。”
“Mac Mini 是你的 Claw 的完美鱼缸。” ——Drew Breunig
“有人真的需要一个有 bug、又慢、又不安全的半成品 Python 实现的 JavaScript 吗？并不需要。”
“鹈鹕很难画，自行车很难画，鹈鹕不可能骑自行车……而且没有任何 AI 实验室会为这种荒谬的任务专门训练模型。“

可行建议

如果还没尝试过编程 Agent（如 Claude Code、Codex），现在是入手的好时机——它们已跨越实用门槛
关注开放权重模型的发展，Gemma 4 和 Qwen3.6 等模型在笔记本上即可运行，性价比值得评估
对 LLM 新能力保持务实态度——Willison 的假期狂热经历表明，过度兴奋会导致无用项目

资源清单

过去六个月的 LLM 发展，五分钟讲完

2026 年 5 月 19 日

我用自己 annotated presentation tool 的最新版本，整理了这些来自 PyCon US 2026 五分钟闪电演讲的带注释幻灯片。

The last six months in LLMs in five minutes Simon Willison - simonwillison.net PyCon US 2026 Lightning Talk

我在 PyCon US 2026 做了这个闪电演讲，试图用五分钟总结过去六个月 LLM 领域的发展。

The November inflection point

六个月是一个非常方便的时间跨度，因为它恰好涵盖了我所说的 2025 年 11 月拐点。11 月是 LLM 的关键月份，尤其是在编程方面。

The "best" model changed hands 5 times between Anthropic, OpenAI and Google

首先，所谓”最好”的模型（主要取决于使用感受）在三大厂商之间五次易手。

Generate an SVG of a pelican riding a bicycle

一如既往，我用 Generate an SVG of a pelican riding a bicycle 测试来帮助说明不同模型之间的差异。

为什么用这个测试？因为鹈鹕很难画，自行车很难画，鹈鹕不可能骑自行车……而且没有任何 AI 实验室会为这种荒谬的任务专门训练模型。

Five pelicans, one for each of the following models. Varying qualities!

11 月初，公认”最好”的模型是 Claude Sonnet 4.5，于 9 月 29 日发布。它给我画了这只鹈鹕。

11 月，它被 GPT-5.1 超越，然后是 Gemini 3，再然后是 GPT-5.1 Codex Max，最后 Anthropic 凭 Claude Opus 4.5 夺回了王冠。

我觉得 Gemini 3 画的鹈鹕最好，但鹈鹕并非一切。大多数从业者都会同意，Opus 4.5 在之后的几个月里保持了领先。

The coding agents got good

这一点花了一些时间才变得清晰，但 11 月真正的新闻是：编程 Agent 变得好用了。

OpenAI 和 Anthropic 在 2025 年的大部分时间里都在进行 Reinforcement Learning from Verifiable Rewards（可验证奖励的强化学习），以提升模型编写代码的质量，特别是与 Codex 和 Claude Code Agent 工具配合时。

11 月，这项工作的成果显现了。编程 Agent 从”经常能用”变成了”大部分时候能用”，跨越了一个质量门槛——你可以把它们当作日常工具来完成真实工作，而不需要把大部分时间花在修复它们的愚蠢错误上。

Screenshot of "Initial commit" on GitHub to steipete/Warelay

同样在 11 月，这件事发生了——一个叫 Pete 的人在一个当时还默默无闻的 repo “Warelay” 上提交了第一个 commit。

December/January (A little bit of LLM psychosis)

假期期间，从 12 月到 1 月，我们很多人利用假期来尝试这些新模型和编程 Agent，看看它们能做什么。

它们能做很多事！有些人变得有点过于兴奋了。我自己也短暂经历了一种 LLM 狂热，开始发起一些极其宏大的项目来看能推进到什么程度。

micro-javascript playground

JavaScript running in Python running in Pyodide running in WebAssembly running in JavaScript

那个 playground 演示展示了用我的 micro-javascript 库运行的 JavaScript 代码：JavaScript 在 Python 里运行，Python 在 Pyodide 里运行，Pyodide 在 WebAssembly 里运行，WebAssembly 在 JavaScript 里运行，JavaScript 在浏览器里运行！

挺酷的！但有人真的需要一个有 bug、又慢、又不安全的半成品 Python 实现的 JavaScript 吗？

并不需要。我还有好几个那个假期的项目后来已经悄悄退役了！

February 2026