jixiaxue 知识库
blog / simon-willison-blog · 2026-05-19-5-minute-llms

过去六个月的 LLM 发展,五分钟讲完

1 个章节 · 0 条产出 · 1 条证据
2026-05-19

过去六个月的 LLM 发展,五分钟讲完

来源: Simon Willison’s Weblog | 作者: Simon Willison | 日期: 2026-05-19 原文链接: https://simonwillison.net/2026/May/19/5-minute-llms/

一句话总结

2025 年 11 月以来 LLM 领域发生了两件大事:编程 Agent 跨越了实用门槛,本地可运行的开放权重模型开始大幅超出预期。

速览

  1. 2025 年 11 月是拐点——“最好”模型在 Anthropic、OpenAI、Google 之间五次易手,竞争进入白热化
  2. 编程 Agent 从”经常能用”变成”大部分能用”——RLVR 训练成果在 11 月集中显现,跨越了日常实用的质量门槛
  3. LLM 狂热与冷静——假期期间开发者过度兴奋,大量项目启动后又悄悄退役
  4. OpenClaw 三个月席卷世界——从 11 月的无名 repo 到 2 月成为现象级个人 AI 助手,催生 “Claw” 通用品类
  5. Mac Mini 成了 Claw 的”鱼缸”——硅谷 Mac Mini 断货,人们用它跑本地 AI 助手
  6. Gemini 3.1 Pro 画出最好的鹈鹕——Google Jeff Dean 亲自发推展示动画 SVG,AI 实验室开始关注 SVG 生成能力
  7. Gemma 4 成为美国最强开放权重模型——Google 在 4 月发布,可在笔记本上运行
  8. GLM-5.1:1.5TB 的开放权重巨兽——中国 AI 实验室发布 754B 参数模型,MIT 协议,效果强但硬件门槛高
  9. 本地模型大幅超出预期——Qwen3.6-35B-A3B(20.9GB)在笔记本上运行,鹈鹕测试表现超过 Opus 4.7

核心内容

2025 年 11 月拐点:三巨头争夺”最好模型”

Simon Willison 将 2025 年 11 月称为 LLM 的关键拐点。在一个月内,“最好”模型的头衔五次易手:Claude Sonnet 4.5(9 月底发布)→ GPT-5.1(11 月 13 日)→ Gemini 3(11 月 18 日)→ GPT-5.1 Codex Max(11 月 19 日)→ Claude Opus 4.5(11 月 24 日)。大多数从业者认为 Opus 4.5 在之后的几个月里保持了领先。

Willison 用”生成一只骑自行车的鹈鹕 SVG”作为模型能力的非正式基准测试。理由:鹈鹕难画、自行车难画、鹈鹕不可能骑自行车,且没有 AI 实验室会为此专门训练。

编程 Agent 跨越实用门槛

11 月真正的重大新闻不是模型排名,而是编程 Agent 变得好用了。OpenAI 和 Anthropic 在 2025 年大部分时间里通过 Reinforcement Learning from Verifiable Rewards(RLVR)提升模型编写代码的质量,尤其是与 Codex 和 Claude Code Agent 工具配合时。

11 月这项工作的成果集中显现:编程 Agent 从”经常能用”跨越到”大部分时候能用”。关键变化是用户不再需要把大部分时间花在修复 Agent 的错误上,可以将其作为日常工具完成真实工作。

LLM 狂热与冷静

12 月到 1 月的假期期间,大量开发者利用空闲时间尝试新模型和编程 Agent。Willison 坦承自己也经历了一种”LLM 狂热”(LLM psychosis),启动了各种野心勃勃的项目来测试极限。

他举了一个例子:用 micro-javascript 库实现了一个 JavaScript playground——JavaScript 在 Python 里运行,Python 在 Pyodide 里运行,Pyodide 在 WebAssembly 里运行,WebAssembly 又在浏览器的 JavaScript 里运行。技术上有趣,但没人需要一个有 bug、又慢、又不安全的 Python 版 JavaScript 实现。他有好几个假期项目后来悄悄退役了。

OpenClaw:三个月从零到现象级

11 月底,Pete Steinberger 在 GitHub 上创建了一个叫 Warelay 的 repo。12 月和 1 月经历了多次改名(Warelay → CLAWDIS → CLAWDBOT → Clawdbot → Moltbot → OpenClaw),到 2 月以 OpenClaw 之名席卷世界。

OpenClaw 是一个”个人 AI 助手”,催生了一个通用品类名称——Claw(源自 NanoClaw、ZeroClaw 等变体)。Mac Mini 在硅谷开始断货,因为人们用它跑本地 Claw。Drew Breunig 开玩笑说 Claw 是新的电子宠物,Mac Mini 是它的”鱼缸”。

Willison 对 Claw 最喜欢的比喻是《蜘蛛侠 2》里 Doc Ock 的机械爪:由 AI 驱动,只要抑制芯片没损坏就完全安全——一旦芯片坏了,它们就变邪恶并夺取控制权。

开放权重模型大幅超出预期

4 月连续发布了多个重量级开放权重模型:

  • Gemma 4(Google,4 月 2 日):Willison 见过的美国公司发布的最强开放权重模型,26B-A4B 版本仅 17.99GB,可在笔记本上运行
  • GLM-5.1(中国 GLM 实验室,4 月 7 日):754B 参数、1.51TB 体积、MIT 协议的开放权重巨兽,效果很强但对硬件要求极高
  • Qwen3.6-35B-A3B:仅 20.9GB,在笔记本上运行,鹈鹕测试中画出的鹈鹕比 Opus 4.7 更好(后者把自行车车架画歪了)

GLM-5.1 在 SVG 创意方面表现尤为突出:北弗吉尼亚负鼠骑电动滑板车的插图,配上”Cruising the commonwealth since dusk”的文字,其他模型远远不及。

2 月 Gemini 3.1 Pro 画出了带鱼篮子的鹈鹕骑车图,Google Jeff Dean 亲自发推展示了包括骑高轮车的青蛙、开小车的长颈鹿在内的多个动画 SVG。

名言金句

  1. “编程 Agent 从’经常能用’变成了’大部分时候能用’,跨越了一个质量门槛——你可以把它们当日常工具来完成真实工作,而不需要把大部分时间花在修复它们的愚蠢错误上。”
  2. “Mac Mini 是你的 Claw 的完美鱼缸。” ——Drew Breunig
  3. “有人真的需要一个有 bug、又慢、又不安全的半成品 Python 实现的 JavaScript 吗?并不需要。”
  4. “鹈鹕很难画,自行车很难画,鹈鹕不可能骑自行车……而且没有任何 AI 实验室会为这种荒谬的任务专门训练模型。“

可行建议

  • 如果还没尝试过编程 Agent(如 Claude Code、Codex),现在是入手的好时机——它们已跨越实用门槛
  • 关注开放权重模型的发展,Gemma 4 和 Qwen3.6 等模型在笔记本上即可运行,性价比值得评估
  • 对 LLM 新能力保持务实态度——Willison 的假期狂热经历表明,过度兴奋会导致无用项目

资源清单

过去六个月的 LLM 发展,五分钟讲完

过去六个月的 LLM 发展,五分钟讲完

2026 年 5 月 19 日

我用自己 annotated presentation tool最新版本,整理了这些来自 PyCon US 2026 五分钟闪电演讲的带注释幻灯片。

The last six months in LLMs in five minutes  Simon Willison - simonwillison.net  PyCon US 2026 Lightning Talk

我在 PyCon US 2026 做了这个闪电演讲,试图用五分钟总结过去六个月 LLM 领域的发展。

The November inflection point

六个月是一个非常方便的时间跨度,因为它恰好涵盖了我所说的 2025 年 11 月拐点。11 月是 LLM 的关键月份,尤其是在编程方面。

The "best" model changed hands 5 times between Anthropic, OpenAI and Google

首先,所谓”最好”的模型(主要取决于使用感受)在三大厂商之间五次易手。

Generate an SVG of a pelican riding a bicycle

一如既往,我用 Generate an SVG of a pelican riding a bicycle 测试来帮助说明不同模型之间的差异。

为什么用这个测试?因为鹈鹕很难画,自行车很难画,鹈鹕不可能骑自行车……而且没有任何 AI 实验室会为这种荒谬的任务专门训练模型。

Five pelicans, one for each of the following models. Varying qualities!

11 月初,公认”最好”的模型是 Claude Sonnet 4.5,于 9 月 29 日发布。它给我画了这只鹈鹕。

11 月,它被 GPT-5.1 超越,然后是 Gemini 3,再然后是 GPT-5.1 Codex Max,最后 Anthropic 凭 Claude Opus 4.5 夺回了王冠。

我觉得 Gemini 3 画的鹈鹕最好,但鹈鹕并非一切。大多数从业者都会同意,Opus 4.5 在之后的几个月里保持了领先。

The coding agents got good

这一点花了一些时间才变得清晰,但 11 月真正的新闻是:编程 Agent 变得好用了

OpenAI 和 Anthropic 在 2025 年的大部分时间里都在进行 Reinforcement Learning from Verifiable Rewards(可验证奖励的强化学习),以提升模型编写代码的质量,特别是与 Codex 和 Claude Code Agent 工具配合时。

11 月,这项工作的成果显现了。编程 Agent 从”经常能用”变成了”大部分时候能用”,跨越了一个质量门槛——你可以把它们当作日常工具来完成真实工作,而不需要把大部分时间花在修复它们的愚蠢错误上。

Screenshot of "Initial commit" on GitHub to steipete/Warelay

同样在 11 月,这件事发生了——一个叫 Pete 的人在一个当时还默默无闻的 repo “Warelay” 上提交了第一个 commit。

December/January (A little bit of LLM psychosis)

假期期间,从 12 月到 1 月,我们很多人利用假期来尝试这些新模型和编程 Agent,看看它们能做什么。

它们能做很多事!有些人变得有点过于兴奋了。我自己也短暂经历了一种 LLM 狂热,开始发起一些极其宏大的项目来看能推进到什么程度。

micro-javascript playground

JavaScript running in Python running in Pyodide running in WebAssembly running in JavaScript

那个 playground 演示展示了用我的 micro-javascript 库运行的 JavaScript 代码:JavaScript 在 Python 里运行,Python 在 Pyodide 里运行,Pyodide 在 WebAssembly 里运行,WebAssembly 在 JavaScript 里运行,JavaScript 在浏览器里运行!

挺酷的!但有人真的需要一个有 bug、又慢、又不安全的半成品 Python 实现的 JavaScript 吗?

并不需要。我还有好几个那个假期的项目后来已经悄悄退役了!

February 2026

来到二月。还记得 11 月底第一次 commit 的那个 Warelay 项目吗?

Warelay → CLAWDIS → CLAWDBOT → Clawdbot → Moltbot → 🦞 OpenClaw

在 12 月和 1 月,它经历了好几次改名……到 2 月,它以最终名字 OpenClaw 席卷了世界。

对于一个不到三个月的项目来说,它获得的关注程度令人惊叹。

Generic term: Claw

OpenClaw 是一个”个人 AI 助手”,我们实际上有了一个通用术语来称呼这类产品——基于 NanoClaw、ZeroClaw 之类的命名——它们被称为 Claws

An aquarium for your Claw

Mac Mini 在硅谷开始断货,因为人们买它来跑自己的 Claw。

Drew Breunig 跟我开玩笑说,这是因为它们成了新的电子宠物,而 Mac Mini 就是你的 Claw 的完美”鱼缸”。

Alfred Molina's Doc Ock in Spider-Man 2

我对 Claw 最喜欢的比喻是 2004 年电影《蜘蛛侠 2》里 Alfred Molina 饰演的 Doc Ock。他的机械爪由 AI 驱动,只要抑制芯片没损坏就完全安全……一旦芯片损坏,它们就变邪恶并夺取了控制权。

Gemini 3.1 Pro

同样在二月:Gemini 3.1 Pro 发布了,画了一只非常好的骑自行车的鹈鹕。看这个!篮子里甚至还有一条鱼。

Gemini 3 Pro pelican contrasted with Gemini 3.1 Pro, as animated SVGs

然后 Google 的 Jeff Dean 发了一条推,展示了一个骑自行车的鹈鹕动画,还有骑高轮车的青蛙、开小车的长颈鹿、穿旱冰鞋的鸵鸟、玩滑板翻板的乌龟、以及开加长豪华轿车的腊肠犬。

所以也许 AI 实验室一直在关注这个!

April 2026

仅仅在过去一个月就发生了很多事。

Gemma 4 26B-A4B (17.99GB)

Google 发布了 Gemma 4 系列模型,这是我见过的美国公司发布的最强大的开放权重模型。

GLM-5.1 MIT, 754B parameter, 1.51TB!

同样在上个月,中国 AI 实验室 GLM 发布了 GLM-5.1——一个 1.5TB 的开放权重巨兽!这是一个非常有效的模型……前提是你负担得起运行它的硬件。

GLM-5.1 pelican

GLM-5.1 给我画了这只非常称职的骑自行车鹈鹕。

The bike is wonky, the pelican is floating.

……不过当它尝试做动画时,自行车弹飞到了顶部,车架也变形了。

Screenshot of Bluesky - North Virginia Opossum on an E-Scooter

Bluesky 上的 Charles 建议我试试画一只北弗吉尼亚负鼠骑电动滑板车。

NORTH VIRGINIA OPOSSUM CRUISING THE COMMONWEALTH SINCE DUSK

它画出了这个!我在其他模型上试过,它们远远不如。“Cruising the commonwealth since dusk”(黄昏以来巡游联邦)太完美了。它还是有动画的

Qwen3.6-35B-A3B is a 20.9GB file that runs on my laptop

Claude Sonnet 4.5 pelican for comparison.

这是 9 月份 Claude Sonnet 4.5 画的鹈鹕,作为对比。

The themes of the past 6 months

这就是过去六个月的两大主题。编程 Agent 变得非常好用……而笔记本电脑上可运行的模型,虽然比前沿模型弱很多,但已经开始大幅超出预期。

证据原始数据 (1 条)
transcript-raw
/Users/shanfang/Documents/pe/jixiaxuegong/blog/simon-willison-blog/2026-05-19-5-minute-llms/transcript-raw.md