OpenMythos:Claude Mythos 架构的理论重建
来源:OpenMythos GitHub README(Kye Gomez)+ Parcae 研究博客(Sandy Research / ML 系统实验室) 作者:Kye Gomez(OpenMythos);Hayden Prairie、Zachary Novack、Taylor Berg-Kirkpatrick、Dan Fu(Parcae) 日期:2026-04-18(OpenMythos 发布)/ 2026-04-14(Parcae 发布) 原文链接:
- https://github.com/kyegomez/OpenMythos
- https://sandyresearch.github.io/parcae/ 中文解读参考:有人把 Claude Mythos 的架构逆向出来了(见同目录
commentary-wechat.md)
一句话总结
Anthropic 没公开 Claude Mythos 的架构,但研究社区基于公开证据推断出一个强共识:Mythos 是一个循环深度变换器(RDT)——同一批权重反复循环 T 次,在单次前向传播的连续潜在空间里完成多步推理,配合稀疏 MoE 提供知识广度、ACT 自适应停机防止过度思考、LTI 谱约束(ρ(A) < 1)保证训练稳定;实证上 770M 循环模型就能达到 1.3B 固定深度模型的质量。
速览
- 核心架构——三段式
Prelude → Recurrent Block (loop ×T) → Coda;中间块同权重循环 T 次,每次都重新注入原始输入e,更新规则h_{t+1} = A·h_t + B·e + Transformer(h_t, e)。 - 隐式推理——每次循环 ≈ 一步 chain-of-thought,但在连续潜在空间完成,不输出任何 token;Saunshi 等(2025)已形式化证明。
- 行为证据——Mythos 在新问题上的”质变”对应循环模型独有的两个性质:系统性泛化(三阶段 grokking,第三阶段相变式出现)与深度外推(5 跳训练推广到 10 跳推理)。
- 训练稳定性——两个失败模式(残差爆炸、loss spike)都对应注入矩阵谱半径 ρ(A) ≥ 1;Parcae 的方案是用
A := Diag(-exp(log_A))+ ZOH 离散化,让 ρ(A) < 1 在构造上恒成立。 - 规模律——同 FLOP 预算下,增循环数、减 token 数优于最小循环 + 更多数据;推理时循环数服从可预测的饱和指数衰减;770M 循环模型 ≈ 1.3B 固定深度模型质量。
- 深度 × 广度——循环提供深度,稀疏 MoE 提供广度;每次循环可能路由到不同专家子集,让共享权重做出计算上不同的事;~5% 激活率可以支撑数千亿总参数。
- 停机机制——ACT(自适应计算时间)让每个 token 学一个停机信号,避免过度思考(循环过深反而损害预测);该机制在特定假设下让模型图灵完备。
- 部署效率——连续深度批处理允许同一 batch 内不同 token 在不同深度退出循环,理论吞吐 2-3×。
核心内容
论点一:为什么”循环”能解释 Mythos 那种”像在想”的手感
标准 Transformer 把几十上百个互不相同的层叠起来,每层走一次。循环深度变换器(RDT)不一样——它把中间一块”循环块”跑 T 次,每次用完全相同的权重。推理的”深度”不靠参数堆出来,靠循环次数撑出来。
三段结构:
输入 → [Prelude] → [Recurrent Block × T(每步注入 e)] → [Coda] → 输出
循环块更新规则:
h_{t+1} = A·h_t + B·e + Transformer(h_t, e)
每次循环重新注入 e(Prelude 编码的原始输入)是关键——它防止隐藏状态在循环中”漂走”,让模型始终记得它最初在处理什么问题。
为什么这对应 Mythos 的观察:
- 不需要显式 CoT 的多步推理:每次循环相当于一步隐式 CoT,全在潜在空间完成。Saunshi 等(2025)形式化证明了 T 次循环等价模拟 T 步 CoT。
- 并行探索多条推理路径:连续潜在状态不像离散 token 需要”提交”一个方向,可以同时编码多条可能路径,接近宽度优先搜索而非贪心推理。
- 系统性泛化:循环模型能通过”三阶段 grokking”走到分布外的新组合——记忆 → 分布内泛化 → 分布外泛化。第三阶段相变式出现,而不是渐进浮现。普通 Transformer 停在第二阶段。
- 深度外推:5 跳训练、10 跳测试——普通 Transformer 失败,循环 Transformer 只要推理时多跑几圈就能成功。
论点二:循环模型历史上难训,Parcae 用谱约束解决了
训练循环模型有两个典型失败模式:残差爆炸(隐藏状态跨循环无界增长)与 loss spike(训练中途突然发散)。
动力系统视角:忽略 Transformer 的非线性贡献,循环简化成一个离散 LTI 系统 h_{t+1} = A·h_t + B·e,稳定性完全由 A 的谱半径 ρ(A) 决定:
ρ(A) < 1→ 稳定、收敛ρ(A) ≥ 1→ 不稳定、发散
经验对照非常干净:每一次发散的 run 都学出了 ρ(A) ≥ 1,每一次收敛的 run 都保持 ρ(A) < 1。
Parcae 的解法:把约束烧进参数化设计,不靠训练自己找到稳定点。
- A 参数化为连续负对角矩阵
- ZOH/Euler 离散化:
A_discrete = exp(Δt · A_continuous) - 强制负值:
A := Diag(-exp(log_A)),配合可学习的标量Δt - 结果:无论学习率多高、batch 噪声多大,ρ(A) < 1 恒成立
OpenMythos 把这个检查直接暴露为 API:
A = model.recurrent.injection.get_A()
print(f"Spectral radius ρ(A) max: {A.max().item():.4f} (must be < 1)")
Parcae 实证(FineWeb-Edu):把强 Transformer 基线改造成循环模型时,朴素的 RDM 实现会发散,Parcae 仍可训,下游质量还更高。
| 参数规模 | 模型 | Val. PPL | Core | Core-Extended |
|---|---|---|---|---|
| 140M | Transformer | 21.48 | 13.00 ± 0.15 | 8.80 ± 0.21 |
| 140M | Parcae | 19.06 | 14.04 ± 0.20 | 9.67 ± 0.28 |
| 370M | Transformer | 15.79 | 17.46 ± 0.03 | 11.71 ± 0.22 |
| 370M | Parcae | 14.49 | 20.00 ± 0.06 | 12.75 ± 0.31 |
| 770M | Transformer | 13.08 | 22.42 ± 0.20 | 14.20 ± 0.63 |
| 770M | Parcae | 12.49 | 25.07 ± 0.33 | 15.19 ± 0.43 |
| 1.3B | Transformer | 11.95 | 25.45 ± 0.08 | 15.90 ± 0.23 |
| 1.3B | Parcae | 11.42 | 28.44 ± 0.28 | 17.08 ± 0.09 |
(770M Parcae 的 Core 分数 25.07 已经超过 1.3B Transformer 的 25.45,接近这是”半参数同质量”这一核心主张的直接佐证。)
论点三:循环提供深度,稀疏 MoE 提供广度
循环解释了 Mythos 的”推理深度”,但不解释”知识广度”。用同一批权重处理代码、数学、文学、科学、法律——那批权重覆盖的面太广。推测解法是循环块里的每一个 FFN 都是稀疏 MoE:
- 每个 FFN 被切分为很多小专家(各为正常大小的 1/m)
- 路由器根据学到的亲和度,每 token 选 top-mK 个专家
- 少数共享专家始终激活,吸收跨领域通用知识(语法、基础推理、通用上下文),避免被每个路由专家冗余学习
- 路由 logits 上加一个动态调整的偏置项,防止路由坍塌、保持专家负载均衡——且不扭曲 loss 信号
循环与 MoE 的组合效应:随着隐藏状态跨循环演进,路由器在每次循环可能选中不同的专家子集。同一批权重,但每次循环在做计算上不同的事——这让循环块的有效表达力远超”同样权重重复跑”。
参数效率的含义:~5% 激活率意味着 Mythos 可以持有数千亿总参数,而每 token 只激活一小部分。一旦公布参数量,那也是存储数字,不是算力数字。
论点四:ACT 自适应停机——循环不是无限好
超过某个深度,过度循环会让隐藏状态漂过正确解、掉进噪声。这叫”过度思考”(overthinking)。
解法来自 Universal Transformer(Dehghani 2018)的 ACT(自适应计算时间)机制:每个位置学一个标量停机信号,动态决定何时停止循环——难的 token 多循环,简单的 token 早停。
Mythos 几乎肯定有某种版本的 ACT——不可能所有输入都跑满最大循环数。ACT 还让模型在特定假设下图灵完备,对它能处理的问题类别有深远理论含义。
论点五:规模律——循环比参数更值得投资
Parcae 给循环训练建立了第一套可预测的规模律:
- 训练时:固定 FLOP 预算 + 固定参数量,增循环数、减 token 数 比 “最小循环 + 更多数据” 的验证损失更低。最优循环数与最优 token 数都服从幂律,指数跨规模一致。
- 推理时:更多循环 → 更好质量,但服从可预测的饱和指数衰减——收益真实存在但递减。这与 chain-of-thought 的推理时规模律高度相似。
Pareto 前沿对比(Core 分数 vs FLOPs):
| FLOPs (×10^18) | 最优循环 (140M) | 固定深度 (140M) |
|---|---|---|
| 1 | 7.6 | 7.9 |
| 4 | 11.2 | 10.7 |
| 16 | 14.6 | 13.0 |
| 64 | 16.2 | 15.0 |
应用到 Mythos:如果它按这套规模律训练,真实参数效率可能远高于表面——能力有相当大比例来自循环深度,而不是原始参数量。Anthropic 一直不公布 Mythos 参数量或许正是这个原因:公布数字会让人误解模型的计算深度。
论点六:几项进阶设计(差异化、权重共享、吞吐优化)
循环块在每次迭代都完全相同吗?同一套权重必须同时负责”早期模式匹配”和”后期精炼”,这是个很紧的约束。三个补救设计把它撑开:
- 循环索引嵌入(Loop Index Embedding):类似 RoPE,给每一步注入”我现在是第几次循环”的位置信号。同样权重能在不同迭代表现出功能上不同的操作,就像 RoPE 让同一注意力头在不同序列位置表现不同一样。每一次循环变成”独立的计算阶段”,共享权重但运行在不同表示状态。
- LoRA 深度适配(Relaxed Recursive Transformers,Bae 2024):每次循环共享一个大的基础权重矩阵,外加一个小的秩-r 适配矩阵按迭代深度微调行为。参数开销很小,但把”纯权重绑定(最省但表达力弱)“与”完全独立层(最强但无节省)“之间的空间填起来。Mythos 很可能位于这个光谱上某处。
- 连续深度批处理(Continuous Depth-wise Batching):由于所有 token 共享同一循环块,模型可以让不同 token、不同序列在不同深度退出——简单输入快速处理、困难输入多跑几圈,全部在同一 batch 内完成。理论吞吐提升 2-3×。对 Mythos 这种同时服务大量用户的部署,这是很实质的效率增益。
论点七:记忆-推理的结构性权衡
循环模型有一个干净的二分性:循环结构优化”迭代组合”,但并不天然改善”死记硬背”。架构在结构上偏向组合,不偏向记忆。
这与 Mythos 的一个可观察特征吻合:在从未见过的新问题上推理出色,但事实召回有时不稳定。
Saunshi 等(2025)的循环正则化方案提供了平衡思路:推理任务用更强的循环约束,检索任务则放松,让同一个模型能同时胜任两边。
论点八:Parcae 命名的冷知识
“PaRCae”指罗马神话中的三位命运女神:
- Nona → Prelude(启动计算)
- Decima → Recurrent(在深度中丈量)
- Morta → Coda(收束输出)
名言金句
- “同一批权重。更多的循环。更深的思考。”
- “这不是 chain-of-thought。中间没有任何 token 输出。所有这些推理都悄无声息地发生在单次前向传播里,完全在连续的潜在空间中进行。”
- “循环提供深度,MoE 提供广度。”
- “一旦公布参数量,那也是存储数字,不是算力数字。”
- “参数数量不是这里最重要的东西。思考的次数,才是。“(微信解读)
可行建议
- 想复现架构:
pip install open-mythos;示例代码带 MLA/GQA 两种注意力配置与稳定性检查(暴露 ρ(A) 的最大值)。 - 想用稳定的循环模型做 LM 训练:直接用 Parcae 的 Hugging Face 模型和训练代码,避免自己实现 LTI 约束踩坑。
- 想理解 Mythos 行为:把能力跃迁理解成相变式出现(三阶段 grokking 的第三阶段)而非线性增长;事实召回不稳定是”循环偏向组合”的结构性副作用,不是 bug。
- 部署循环模型:优先实现”连续深度批处理”——同 batch 不同深度退出可带来 2-3× 理论吞吐提升。
资源清单
项目与博客
- OpenMythos 源码:https://github.com/kyegomez/OpenMythos
- Parcae 研究博客:https://sandyresearch.github.io/parcae/
- Kye Gomez 发布推文:https://x.com/KyeGomezB/status/2045659150340723107
推文讨论(按主题)
- Sigrid Jin——Why Claude Mythos is so good:https://x.com/realsigridjin/status/2044620031410266276
- Yuekun Yao——LT 隐式推理 + 参数化知识的泛化:https://x.com/yuekun_yao/status/2044229171627639004
- rosinality——循环轨迹与输入注入:https://x.com/rosinality/status/2043953033428541853
- Hayden Prairie——Parcae 规模律线程:https://x.com/hayden_prairie/status/2044453231913537927
- davidad——RoPE-like 循环索引嵌入:https://x.com/davidad/status/2044453231913537927
关键论文
- Universal Transformers(Dehghani 2018,ACT 停机机制起源):https://arxiv.org/pdf/1807.03819
- Parcae(Prairie 等 2026,稳定循环训练 + 规模律):https://arxiv.org/abs/2604.12946
- Loop, Think, & Generalize(循环深度变换器的隐式推理):https://arxiv.org/pdf/2604.07822
- Reasoning with Latent Thoughts(Saunshi 等 2025,T 次循环 ≈ T 步 CoT 形式化证明):https://arxiv.org/abs/2502.17416
- Training LLMs to Reason in a Continuous Latent Space:https://arxiv.org/abs/2412.06769
- Relaxed Recursive Transformers(Bae 等 2024,层级 LoRA 参数共享):https://arxiv.org/pdf/2410.20672
- Fine-grained Expert Segmentation in MoE:https://arxiv.org/abs/2401.06066