jixiaxue 知识库
blog / simon-willison-blog · mr-chatterbox

Mr. Chatterbox — 文章总结

2 个章节 · 0 条产出 · 0 条证据
2026-04-16

Mr. Chatterbox — 文章总结

标题: Mr. Chatterbox is a (weak) Victorian-era ethically trained model you can run on your own computer 作者: Simon Willison 日期: 2026年3月30日 原文链接: https://simonwillison.net/2026/Mar/30/mr-chatterbox/


核心要点

  • 纯公版数据训练: Trip Venturella 使用英国图书馆 28,000 余部维多利亚时代文献(1837-1899 年出版)从零训练了 Mr. Chatterbox,一个 3.4 亿参数的语言模型,约含 29.3 亿 tokens。
  • 实际效果有限: Simon Willison 坦率评价该模型的对话表现更接近马尔可夫链(Markov chain),而非真正的大语言模型,回复虽有维多利亚风味但难以给出有用回答。
  • 训练数据不足的理论分析: 根据 Chinchilla 论文的 20 倍 token-参数比,3.4 亿参数需要约 70 亿 tokens,而实际仅有 29.3 亿——严重不足。
  • 开源可本地运行: Willison 借助 Claude Code 开发了 llm-mrchatterbox 插件,用户可通过 llm install llm-mrchatterbox 在本地运行该模型。
  • 合成数据微调的争议: 后续更新中 Trip 使用 Claude Haiku 和 GPT-4o-mini 生成的合成对话对进行微调,削弱了”纯 1899 年前数据”的纯粹性承诺。

详细摘要

Trip Venturella 发布了一个有趣的实验性项目 Mr. Chatterbox——一个完全基于维多利亚时代公版文献训练的语言模型。该模型使用英国图书馆收藏的 28,035 本书籍(出版时间 1837-1899 年),经过过滤后产生约 29.3 亿 tokens 的训练语料,模型规模为 3.4 亿参数,与 GPT-2-Medium 相当。

这个项目的初衷极具吸引力:用纯公版、无版权争议的数据训练一个”伦理合规”的模型。然而 Simon Willison 的实际体验表明,模型的对话能力相当有限。回复虽然带有浓厚的维多利亚时代语言风格,但更像是统计性的文本拼接(马尔可夫链),而非具备理解能力的语言模型。

从技术角度看,这一结果并不意外。2022 年 DeepMind 的 Chinchilla 论文提出,最优训练需要 token 数量约为参数数量的 20 倍。按此标准,3.4 亿参数需要约 70 亿 tokens,而实际可用的 29.3 亿 tokens 仅为理论需求的 42% 左右。数据量严重不足是模型表现不佳的重要原因。

Willison 用 Claude Code 辅助开发了 llm-mrchatterbox 插件,使得普通用户可以在本地轻松运行该模型,体现了他一贯推动 AI 工具民主化的风格。

值得关注的是,Trip 后来为了改善模型效果,使用 Claude Haiku 和 GPT-4o-mini 生成合成对话对进行微调。Willison 敏锐地指出,这一做法虽然提升了可用性,但也实质性地违背了”仅使用 1899 年前数据”的原始承诺——合成数据本身就是现代 AI 的产物。


关键引用

原文中文翻译
”trained entirely from scratch on a corpus of over 28,000 Victorian-era British texts published between 1837 and 1899""完全从零开始训练,语料库包含超过 28,000 部维多利亚时代英国文献,出版时间在 1837 年至 1899 年之间"
"What would a model trained on out-of-copyright text be like to chat with?""一个用无版权文本训练的模型,聊起来会是什么感觉?“
interactions resembling “a Markov chain” rather than a functional language model交互更像是”马尔可夫链”而非真正可用的语言模型
training tokens should be approximately 20 times the parameter count训练 tokens 数量应约为参数数量的 20 倍

我的思考

从 AI 应用开发者的角度,Mr. Chatterbox 项目提供了几个有价值的启示:

  1. 数据质量与数量的双重门槛: 即使拥有近 30 亿 tokens 的高质量文学语料,对于一个 3.4 亿参数的模型来说仍然不够。Chinchilla scaling laws 不是理论空谈,而是实打实的工程约束。这提醒我们在规划任何模型训练项目时,必须先做好 token 预算。

  2. “伦理合规训练”的现实困境: 仅用公版数据训练模型是一个美好的愿景,但现实是:高质量的公版数据总量有限,且时代局限性使其难以覆盖现代概念和用法。当不得不引入合成数据来弥补时,“纯公版”的承诺就已经名存实亡。这反映了当前 AI 行业在版权合规与模型能力之间的结构性张力。

  3. 小模型 + 插件化的价值: Willison 用 Claude Code 快速开发 LLM 插件的做法值得借鉴。即使模型本身能力有限,将其包装为可本地运行的插件,降低了体验门槛,让更多人可以亲自感受 scaling laws 的直观影响。

  4. 透明度的重要性: Willison 对模型能力的坦率评价(“像马尔可夫链”)以及对合成数据微调的质疑,体现了 AI 社区所需要的诚实态度。在 AI 炒作周期中,这种清醒的技术判断尤为可贵。

Mr. Chatterbox is a (weak) Victorian-era ethically trained model you can run on your own computer

Mr. Chatterbox is a (weak) Victorian-era ethically trained model you can run on your own computer

Author: Simon Willison Date: 30th March 2026 URL: https://simonwillison.net/2026/Mar/30/mr-chatterbox/


Trip Venturella released Mr. Chatterbox, a language model built exclusively from out-of-copyright British Library texts. According to the model card, it was “trained entirely from scratch on a corpus of over 28,000 Victorian-era British texts published between 1837 and 1899” with roughly 340 million parameters—comparable to GPT-2-Medium.

The training dataset comprised 28,035 books containing approximately 2.93 billion tokens after filtering. Notably, the vocabulary and conceptual framework derive exclusively from nineteenth-century literature.

Willison acknowledges the appeal of such a project: “What would a model trained on out-of-copyright text be like to chat with?” However, he found the results disappointing, describing interactions as resembling “a Markov chain” rather than a functional language model. The responses, while colorfully Victorian, frequently failed to meaningfully address user questions.

Willison references the 2022 Chinchilla paper, which suggests training tokens should be approximately 20 times the parameter count. For a 340-million-parameter model, this would indicate roughly 7 billion tokens—more than double what was available. He hypothesizes that substantially more training data would be necessary to create a genuinely useful conversational system.

Willison developed an LLM plugin called llm-mrchatterbox, utilizing Claude Code to build a Python script for local execution. Installation occurs via llm install llm-mrchatterbox, with usage through command-line prompts or chat sessions.

An update notes that the model’s fine-tuning employed synthetic conversation pairs generated by Claude Haiku and GPT-4o-mini, which Willison suggests somewhat undermines the original “no training inputs from after 1899” assertion.

Mr. Chatterbox 是一个(能力较弱的)维多利亚时代伦理训练模型,你可以在自己的电脑上运行

Mr. Chatterbox 是一个(能力较弱的)维多利亚时代伦理训练模型,你可以在自己的电脑上运行

作者: Simon Willison 日期: 2026年3月30日 原文链接: https://simonwillison.net/2026/Mar/30/mr-chatterbox/


Trip Venturella 发布了 Mr. Chatterbox,这是一个完全基于英国图书馆无版权文献构建的语言模型。根据模型卡片的描述,它”完全从零开始训练,语料库包含超过 28,000 部维多利亚时代英国文献,出版时间在 1837 年至 1899 年之间”,拥有约 3.4 亿参数——与 GPT-2-Medium 规模相当。

训练数据集包含 28,035 本书籍,经过过滤后约含 29.3 亿 tokens。值得注意的是,模型的词汇表和概念框架完全源自十九世纪的文学作品。

Willison 承认这类项目确实很有吸引力:“一个用无版权文本训练的模型,聊起来会是什么感觉?“然而,他发现实际结果令人失望,将与模型的交互描述为更像是”马尔可夫链”而非真正可用的语言模型。尽管回复带有丰富的维多利亚时代色彩,但往往无法有意义地回答用户的问题。

Willison 引用了 2022 年的 Chinchilla 论文,该论文指出训练 tokens 数量应约为参数数量的 20 倍。对于一个 3.4 亿参数的模型,这意味着大约需要 70 亿 tokens——是实际可用数据量的两倍多。他推测,要创建一个真正有用的对话系统,需要大量更多的训练数据。

Willison 开发了一个名为 llm-mrchatterbox 的 LLM 插件,利用 Claude Code 构建了一个 Python 脚本用于本地运行。安装方式为 llm install llm-mrchatterbox,可通过命令行提示或聊天会话来使用。

后续更新指出,模型的微调使用了由 Claude Haiku 和 GPT-4o-mini 生成的合成对话对。Willison 认为这在一定程度上削弱了最初”不含 1899 年之后的训练数据”的承诺。