过去六个月的 LLM 发展,五分钟讲完
来源: Simon Willison’s Weblog | 作者: Simon Willison | 日期: 2026-05-19 原文链接: https://simonwillison.net/2026/May/19/5-minute-llms/
一句话总结
2025 年 11 月以来 LLM 领域发生了两件大事:编程 Agent 跨越了实用门槛,本地可运行的开放权重模型开始大幅超出预期。
速览
- 2025 年 11 月是拐点——“最好”模型在 Anthropic、OpenAI、Google 之间五次易手,竞争进入白热化
- 编程 Agent 从”经常能用”变成”大部分能用”——RLVR 训练成果在 11 月集中显现,跨越了日常实用的质量门槛
- LLM 狂热与冷静——假期期间开发者过度兴奋,大量项目启动后又悄悄退役
- OpenClaw 三个月席卷世界——从 11 月的无名 repo 到 2 月成为现象级个人 AI 助手,催生 “Claw” 通用品类
- Mac Mini 成了 Claw 的”鱼缸”——硅谷 Mac Mini 断货,人们用它跑本地 AI 助手
- Gemini 3.1 Pro 画出最好的鹈鹕——Google Jeff Dean 亲自发推展示动画 SVG,AI 实验室开始关注 SVG 生成能力
- Gemma 4 成为美国最强开放权重模型——Google 在 4 月发布,可在笔记本上运行
- GLM-5.1:1.5TB 的开放权重巨兽——中国 AI 实验室发布 754B 参数模型,MIT 协议,效果强但硬件门槛高
- 本地模型大幅超出预期——Qwen3.6-35B-A3B(20.9GB)在笔记本上运行,鹈鹕测试表现超过 Opus 4.7
核心内容
2025 年 11 月拐点:三巨头争夺”最好模型”
Simon Willison 将 2025 年 11 月称为 LLM 的关键拐点。在一个月内,“最好”模型的头衔五次易手:Claude Sonnet 4.5(9 月底发布)→ GPT-5.1(11 月 13 日)→ Gemini 3(11 月 18 日)→ GPT-5.1 Codex Max(11 月 19 日)→ Claude Opus 4.5(11 月 24 日)。大多数从业者认为 Opus 4.5 在之后的几个月里保持了领先。
Willison 用”生成一只骑自行车的鹈鹕 SVG”作为模型能力的非正式基准测试。理由:鹈鹕难画、自行车难画、鹈鹕不可能骑自行车,且没有 AI 实验室会为此专门训练。
编程 Agent 跨越实用门槛
11 月真正的重大新闻不是模型排名,而是编程 Agent 变得好用了。OpenAI 和 Anthropic 在 2025 年大部分时间里通过 Reinforcement Learning from Verifiable Rewards(RLVR)提升模型编写代码的质量,尤其是与 Codex 和 Claude Code Agent 工具配合时。
11 月这项工作的成果集中显现:编程 Agent 从”经常能用”跨越到”大部分时候能用”。关键变化是用户不再需要把大部分时间花在修复 Agent 的错误上,可以将其作为日常工具完成真实工作。
LLM 狂热与冷静
12 月到 1 月的假期期间,大量开发者利用空闲时间尝试新模型和编程 Agent。Willison 坦承自己也经历了一种”LLM 狂热”(LLM psychosis),启动了各种野心勃勃的项目来测试极限。
他举了一个例子:用 micro-javascript 库实现了一个 JavaScript playground——JavaScript 在 Python 里运行,Python 在 Pyodide 里运行,Pyodide 在 WebAssembly 里运行,WebAssembly 又在浏览器的 JavaScript 里运行。技术上有趣,但没人需要一个有 bug、又慢、又不安全的 Python 版 JavaScript 实现。他有好几个假期项目后来悄悄退役了。
OpenClaw:三个月从零到现象级
11 月底,Pete Steinberger 在 GitHub 上创建了一个叫 Warelay 的 repo。12 月和 1 月经历了多次改名(Warelay → CLAWDIS → CLAWDBOT → Clawdbot → Moltbot → OpenClaw),到 2 月以 OpenClaw 之名席卷世界。
OpenClaw 是一个”个人 AI 助手”,催生了一个通用品类名称——Claw(源自 NanoClaw、ZeroClaw 等变体)。Mac Mini 在硅谷开始断货,因为人们用它跑本地 Claw。Drew Breunig 开玩笑说 Claw 是新的电子宠物,Mac Mini 是它的”鱼缸”。
Willison 对 Claw 最喜欢的比喻是《蜘蛛侠 2》里 Doc Ock 的机械爪:由 AI 驱动,只要抑制芯片没损坏就完全安全——一旦芯片坏了,它们就变邪恶并夺取控制权。
开放权重模型大幅超出预期
4 月连续发布了多个重量级开放权重模型:
- Gemma 4(Google,4 月 2 日):Willison 见过的美国公司发布的最强开放权重模型,26B-A4B 版本仅 17.99GB,可在笔记本上运行
- GLM-5.1(中国 GLM 实验室,4 月 7 日):754B 参数、1.51TB 体积、MIT 协议的开放权重巨兽,效果很强但对硬件要求极高
- Qwen3.6-35B-A3B:仅 20.9GB,在笔记本上运行,鹈鹕测试中画出的鹈鹕比 Opus 4.7 更好(后者把自行车车架画歪了)
GLM-5.1 在 SVG 创意方面表现尤为突出:北弗吉尼亚负鼠骑电动滑板车的插图,配上”Cruising the commonwealth since dusk”的文字,其他模型远远不及。
2 月 Gemini 3.1 Pro 画出了带鱼篮子的鹈鹕骑车图,Google Jeff Dean 亲自发推展示了包括骑高轮车的青蛙、开小车的长颈鹿在内的多个动画 SVG。
名言金句
- “编程 Agent 从’经常能用’变成了’大部分时候能用’,跨越了一个质量门槛——你可以把它们当日常工具来完成真实工作,而不需要把大部分时间花在修复它们的愚蠢错误上。”
- “Mac Mini 是你的 Claw 的完美鱼缸。” ——Drew Breunig
- “有人真的需要一个有 bug、又慢、又不安全的半成品 Python 实现的 JavaScript 吗?并不需要。”
- “鹈鹕很难画,自行车很难画,鹈鹕不可能骑自行车……而且没有任何 AI 实验室会为这种荒谬的任务专门训练模型。“
可行建议
- 如果还没尝试过编程 Agent(如 Claude Code、Codex),现在是入手的好时机——它们已跨越实用门槛
- 关注开放权重模型的发展,Gemma 4 和 Qwen3.6 等模型在笔记本上即可运行,性价比值得评估
- 对 LLM 新能力保持务实态度——Willison 的假期狂热经历表明,过度兴奋会导致无用项目


























