用 BioMysteryBench 评估 Claude 的生物信息学研究能力

来源: Anthropic Research | 作者: Brianna (Anthropic Discovery Team) | 日期: 2026-04-30 原文链接: https://www.anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench

一句话总结

Anthropic 发布了 BioMysteryBench——一个包含 99 个基于真实数据的生物信息学基准测试，结果显示最新一代 Claude 在人类可解问题上与专家持平，在人类困难问题上以 30% 的解题率超越五人专家团队，核心优势在于海量知识与多方法交叉验证。

速览

为什么科学基准测试难以标准化——生物学研究路径多元、决策主观、数据噪声大，且许多问题人类自身尚未解决
BioMysteryBench 的设计哲学——99 个问题基于数据的可控客观属性（而非科学家结论），答案经实验验证，允许”超人类”问题生成
方法无关评测——模型可自由选择分析工具和策略，仅按最终答案评分，不受单一研究者主观选择约束
人类可解问题表现——Claude 各代在 76 个人类可解任务上稳步提升，最新模型表现与人类专家持平
人类困难问题突破——Claude Mythos Preview 在 23 个人类专家团队无法解决的问题上达到 30% 解题率
“全知全能”策略——Claude 利用预训练中数十万篇论文的知识，直接完成人类需要 meta 分析才能处理的任务
“知道自己不知道”策略——当不确定时，Claude 叠加多种方法并选择多条证据线趋同的答案
可靠性差距比准确率差距更关键——人类可解问题上模型呈双峰分布（全对或全错），困难问题上近半数胜利是不可重复的”幸运路径”
Genentech/Roche 独立验证——CompBioBench 的 100 个计算生物学任务中 Claude Opus 4.6 达到 81%，与 BioMysteryBench 结论互相印证

核心内容

科学基准测试的三重困境

生物学研究的评测面临三个根本性挑战：

路径多元性——同一个研究问题（如”为什么部分糖尿病患者对二甲双胍无反应”）可以通过 GWAS 研究遗传变异，也可以通过肠道微生物组测序来回答，两条路径都合理，选择取决于研究者的专业背景和可用资源。

决策主观性——即使在同一研究方向内，个体决策也高度主观。生物数据集噪声大，微小的研究设计差异就能导致截然不同的结论。文章以二甲双胍反应预测因子的十年研究为例：2011 年论文报告一个预测变异并在两个队列中复制，2012 年另一项研究在前驱糖尿病患者中完全未能复制，同年的 meta 分析则认定效应真实但更温和。

人类知识边界——最有价值的研究任务恰恰是人类尚未解决的问题。二甲双胍开发三十年后，其主要靶点仍不确定。

现有基准测试各有取舍：BixBench 按结论评分但受限于单一科学家的主观选择；SciGym 用模拟器保证真实答案但与真实数据的关联性存疑；MMLU-Pro、GPQA 等仍停留在知识问答层面，未涉及完整研究工作流。

BioMysteryBench 的设计：方法无关 + 客观真实标准

BioMysteryBench 由领域专家编写 99 个问题，覆盖 WGS、scRNA-seq、甲基化、ChIP-seq、宏基因组学、Hi-C、蛋白质组学和代谢组学。

核心设计原则：

问题来源于数据的可控属性：如”这个晶体结构属于哪种生物体""根据 RNA-seq 数据，患者感染了哪种病毒”——答案经实验（如 PCR）或元数据验证
方法无关：Claude 被放入配有标准生物信息学工具的容器，可通过 pip/conda 安装额外工具，可访问 NCBI、Ensembl 等数据库，自由选择分析策略
仅按最终答案评分：不评判分析路径，消除单一研究者主观选择的偏差
允许超人类问题：每位问题作者提交验证 notebook 证明信号存在于数据中，但不要求问题必须是人类可解的（验证答案比推导答案容易得多）

示例问题包括：识别 scRNA-seq 数据来源器官、从 RNA-seq 判断敲除基因、从 WGS 推断亲子关系、区分 ChIP 和 input 对照的 bigWig 文件、从 H3K27ac ChIP-seq peaks 识别细胞类型。

Claude 的表现：人类可解 vs 人类困难

人类可解问题（76 个）：由至少一名人类专家（最多五人团队）正确回答。Claude 各代准确率稳步提升，最新模型与人类专家持平。

人类困难问题（23 个）：五人专家团队均未能正确回答。经质量控制移除 4 个有缺陷的问题后保留 23 个。Claude Sonnet 4.6 及以上模型能解决相当比例，Claude Mythos Preview 达到 30% 解题率。

Claude 的两大核心策略

“全知全能”（Know-it-all）：Claude 的预训练知识库包含数十万篇论文中的结构生物学、分子图谱和 meta 分析信息。需要人类专家进行 meta 分析或拼接多个数据库才能完成的任务，Claude 通过将内部知识与实时分析结合直接解决。但先验知识偶尔也成为软肋——在人类可解集中出现过因先验知识干扰而失败的案例。

“知道自己不知道”（Knowing when you don’t know）：当 Opus 4.6 对答案不自信时，它尝试多种不同方法解决同一问题，选择多种方法趋同的答案。这种多方法交叉验证的策略值得人类科学家学习。

Claude 还展现出一种类似”直觉”的能力——人类专家使用算法或数据库来识别数据集属性，而 Claude 能直觉地识别某些模式或序列，类似于科学家注意到基因上游序列中反复出现”TATA”序列从而发现第一个真核生物启动子。

可靠性差距：比准确率更深层的故事

Claude Mythos Preview 的自我分析揭示了准确率数字背后更有趣的维度：

人类可解问题呈双峰分布：Opus 4.6 能解决的问题中 86% 至少解决了 5 次中的 4 次——要么有可靠方法，要么完全不会
人类困难问题分布平坦化：可靠解题比例从 86% 降至 44%，脆弱胜利（仅解决 1-2/5 次）从 9% 跃升至 44%
Sonnet 4.6 的转变更为剧烈：75% 可靠 → 22%，9% 脆弱 → 56%
本质区别：可解问题上模型在”检索”可靠知道的东西，困难问题上近半数胜利是偶然碰到的推理路径

这意味着 77.4% → 23.5% 的标题准确率下降实际上低估了真实情况——可靠性差距才是能力前沿真正位置的更准确指标。

与外部研究的趋同验证

Genentech 和 Roche 同期发布的 CompBioBench 包含 100 个计算生物学任务，基于合成/增强数据，要求多步推理、工具使用和真实世界资源交互。Claude Opus 4.6 在该基准测试中总体达 81%，最难问题达 69%——与 BioMysteryBench 的结论互相印证，独立验证了前沿模型已成为生物信息学研究的有效合作者。

名言金句

“Competition aside, benchmarks help us tackle an important question: whether models are capable and reliable enough to support, or even produce, professional-level work.”
“If there were only one right way to answer a research question, PhD students would earn their degrees in a matter of months.”
“Intuition like this has been difficult to build into traditional biology machine learning models, but LLMs might be able to turn up patterns like this at unprecedented scale.”
“The accuracy gap is real, but the reliability gap underneath it is the more interesting story about where the capability frontier actually sits.”
“Models are no longer merely keeping up with trained scientists on bioinformatics problems; on some tasks, they’re ahead.”

可行建议

生物信息学研究者：可以将 Claude 作为分析助手，尤其在需要跨数据库 meta 分析或多方法交叉验证的场景中
AI 评测设计者：BioMysteryBench 的”基于数据可控属性设问 + 方法无关评分”范式值得借鉴，适用于其他科学领域的基准测试设计
模型使用者：注意当前模型在困难问题上的”脆弱胜利”现象——单次正确不代表方法可靠，重要结论应多次验证
科学 AI 社区：可通过 scienceblog@anthropic.com 向 Anthropic 提交基准测试和创新用例

资源清单

用 BioMysteryBench 评估 Claude 的生物信息学研究能力

在这篇文章中，Brianna——发现团队的一名研究员——分享了最近一次生物信息学基准测试的成果。

几乎从大型语言模型能够进行对话的那一刻起，人们就开始追问它们与人类专家相比表现如何。模型能通过律师资格考试吗？它们能回答医学执照考题吗？或者解决奥林匹克数学竞赛题？这类 基准测试——由人类专家审核、旨在评估模型某项能力的一组自包含问题——如今已成为 AI 开发者之间竞争的焦点，出现在模型发布的系统卡中，并被众多在线排行榜追踪。

竞争之外，基准测试帮助我们回答一个重要问题：模型是否已经足够强大和可靠，能够支持甚至生产专业级别的工作。科学家们正在使用模型编写分析流水线代码、提出假设、从数据中得出结论，其长远目标是加速创新和发现。但 AI 目前在科学领域究竟有多精通？Claude 和其他模型的进步速度有多快？

为了回答这些问题，研究界已经构建了多个基准测试。MMLU-Pro 测试专家级知识和推理问题。GPQA 提出研究生水平的、“Google 搜索不到答案”的生物学、物理学和化学问题。LAB-Bench 测试生物学特定的知识工作——阅读文献、解读图表、推理实验方案。尽管这些基准测试开发于”聊天机器人”时代，它们一直延续到了 Agent 和工具使用时代，并伴随着更高难度的科学推理评测如 FrontierScience 和 Humanity’s Last Exam，因为知识和推理仍然是衡量科学能力的关键指标。

然而，许多真实世界的科学任务需要的不仅仅是这些。它们需要阅读论文、查询数据库、运行实验、编码和分析。现在模型已经能够完成其中许多工作，基准测试也已进化以反映这些工作流。BLADE 给模型一个数据集和一个开放性任务，检查模型是否采取了与人类科学家类似的分析步骤。BixBench 使用生物数据集，根据模型的结论是否与科学家一致来评分。在 SciGym 中，模型被放入一个模拟生物实验室，需要自己设计和运行实验来揭示隐藏的机制。

这些基准测试让我们更接近于衡量科学能力，但它们还不能完全测试模型是否能够为定义研究的那些混乱的、开放式的问题设计出创造性的解决方案。这就是为什么我们开发了 BioMysteryBench——一个生物信息学基准测试，让 Claude 分析真实世界的数据集，同时应对评估复杂且嘈杂的生物系统所固有的挑战。我们发现 Claude 在生物学领域的科学能力正在各代之间快速提升，当前模型的表现与人类专家持平，而最新一代模型在许多人类专家团队无法解决的问题上取得了突破，有时使用了截然不同的策略。

科学很有挑战性，评估科学同样如此

医生有执照考试，律师有资格考试，但成为科学家没有标准化考试。同样的问题也出现在 AI 领域。尽管我们迫切希望将这些模型用于科学研究，但目前还没有一个 Agent 式科学基准测试能够像 SWE-bench 之于软件工程那样成为标准。我们认为这是因为科学研究——尤其是生物学——具有几个使其特别难以通过基准测试评估的特性。

1. 在生物学中，做事有许多不同的”正确”方式

如果回答一个研究问题只有一种正确方法，那么博士生几个月就能拿到学位，企业研发部门就不需要存在，也没有科学展海报需要”方法”部分了。科学家如何解决一个问题取决于他们的技能和背景、可用的资源以及他们的研究品味。

考虑一个看似简单、却困扰代谢研究者多年的问题：为什么有些 2 型糖尿病患者对口服药物二甲双胍有反应，而另一些则没有？为了回答这个问题，你可以对有反应者和无反应者进行全基因组关联研究（GWAS），寻找预测性遗传变异；或者对两组人的肠道微生物组进行测序，因为二甲双胍部分由肠道细菌代谢。两个方向都是合理的，你如何推进通常只取决于专业知识和资源。

BixBench 很好地处理了这一点，它根据模型的结论而非达到结论的方法来评分。其代价是，这些结论是由一位在过程中做出了一系列主观选择的科学家产生的，而这些选择可能已经塑造了答案本身。这反过来又有其自身的陷阱……

2. 个体研究决策高度主观，在嘈杂数据集中可能导致完全不同的结论

即使在选定的研究方向内，个体决策也可能高度主观：一位科学家可能认可某个决策，而另一位研究者可能严重反对。只要问问那些收到同行评审矛盾建议的沮丧作者就知道了！更困难的是，生物数据集通常噪声很大，研究决策中的微小差异就能导致对数据完全不同的结论。

在长达十年的二甲双胍反应预测因子搜索中，研究设计中的细微差异导致了关于二甲双胍反应的截然不同的结论。2011 年的一篇论文报告了一个预测二甲双胍反应的变异，该变异在两个队列中得到复制，并有涉及 AMPK 激活的合理机制。一年后，糖尿病预防计划在前驱糖尿病患者中测试了同一变异，却没有发现任何关联。最终，2012 年的一项 meta 分析汇集了五个队列，再次认定 2011 年论文的效应是真实的，但比最初报告的更为温和。

SciGym 处理这种模糊性的巧妙方式是选择有明确答案的任务。因为底层生物网络是一个模拟器，所以确实存在一个真实答案，噪声是受控的，而非继承自混乱的活体系统。然而，尚不清楚在模拟实验室中的表现与在真实数据上的表现有多接近。

3. 许多生物学问题是人类目前还无法回答的

模型可能产生最大影响的研究任务，恰恰是人类独自尚未解决的任务。而最终，这些正是我们希望能够用来评估模型的任务。例如，二甲双胍的作用机制是什么？在其开发三十年后，该领域仍不确定其主要靶点。发现它，或找到一种合成更便宜、更稳定的二甲双胍同源物，将具有巨大的影响。

机器学习长期以来通过依赖实验数据而非专家直觉来解决人类表现不佳的问题，如序列预测和蛋白质建模。ProteinGym 使用深度突变扫描实验作为真实标准来评估模型对突变适应度效应的预测，而长期运行的 CASP 竞赛根据未发表的晶体结构评估蛋白质折叠。两者都基于任何专家都不会信任自己能重现的实验测量。然而，这些基准测试围绕一组狭窄的任务构建，无法捕捉我们实际想要衡量的生物信息学工作的广度。

用 BioMysteryBench 在可验证的生物任务上评测模型

由于没有基准测试能完美应对上述三个挑战，我们开发了 BioMysteryBench。BioMysteryBench 使用混乱的真实世界生物信息学数据，同时不让这些数据固有的复杂性和挑战性影响评估的质量。

BioMysteryBench 包含来自生物信息学各领域的 99 个问题，由领域专家编写。专家们被要求收集数据集，并根据数据的受控、客观属性创建问题，而非不可验证的科学结论。通过从实验或临床发现中推导答案，可以在不要求问题必须是人类可解的前提下开发问题。

尽管这些问题基于经过验证的真实标准创建，但它们仍然与研究科学家想要回答的任务具有相同的”味道”。Claude 被赋予每个问题，并被放置在一个容器中，配有一组最基本的标准生物信息学工具、通过 pip 和 conda 安装额外工具的能力，以及访问标准生物信息学数据库（如 NCBI 和 Ensembl）以下载参考基因组等额外资源的权限。

BioMysteryBench 具有四个独特属性，使其成为一个特别强大的科学基准测试，并应对上述挑战：

它是方法无关的，允许研究自由和创造力。 Claude 拥有相对不受限制的工具下载和数据库访问权限，允许 Claude 选择多样的策略来解决问题。此外，轨迹根据最终答案而非模型达到答案的路径来评分。这使 BioMysteryBench 摆脱了任何单一研究者的主观选择——模型因得出正确的生物学结论而获得奖励，无论它选择了哪条分析路线。
问题具有客观的、真实标准答案。 答案不是来自科学家的结论（这些结论受上述挑战困扰），而是来自数据的可控属性，或经过正交验证的元数据。例如，“这个晶体结构属于哪种生物体？“有一个客观答案，“根据 RNA seq 数据，这位人类患者感染了哪种病毒？“是样本的一个元数据属性，已通过 PCR 检测验证。
它允许”超人类”问题生成。 通过从数据的可控属性中获取问题，BioMysteryBench 不依赖于人类能够解决这些问题。特别是，BioMysteryBench 包含了一些问题——尽管有客观的、真实标准的解答——人类发现很难或不可能独自解决。

示例问题

在开发这个评测的过程中，问题主要来源于原始或最少处理的 DNA 或 RNA 测序数据，因为这是许多生物处理流水线的起点（WGS、scRNA-seq、甲基化、ChIP-seq、宏基因组学、Hi-C），同时也包含了几个来自蛋白质组学和代谢组学的问题。

问题开发者提出的问题包括：

这个细胞类型单细胞 RNA-seq 数据集来源于哪个人类器官？
基于 RNA seq 数据，实验样本相比对照样本敲除了什么基因？
根据 WGS 序列，哪个样本是样本 X 的母亲，哪个样本是父亲？
哪些 bigWig 文件来自 ChIP 样本，哪些来自 input 对照？
给定来自未知细胞类型的 H3K27ac ChIP-seq peaks，识别该细胞类型。

为了在尽量减少本质上不可解问题的同时，仍为可能仅 AI 能解的问题留出空间，我们要求每位问题作者提交一个验证 notebook，证明信号确实存在于数据中（即使从头找到它可能很困难）。可以将其理解为高中代数原理：验证一个答案比推导一个答案要容易得多。

人类基线

人类可解问题

对于每个问题，我们让最多五名领域专家从头开始回答。一旦某个问题被至少一位人类正确回答，我们就将其视为人类可解。BioMysteryBench 包含 76 个这样的任务。

人类可解问题的准确率图表

图 1：在 76 个人类可解问题上的准确率，每个问题 5 次试验的平均值。误差棒通过问题内的 bootstrap 抽样计算。

有时 Claude 与人类采用了相同的策略。这可能是因为人类已经找到了接近最优的方法，或者因为该方法在预训练数据中有充分的表示。

其他时候，Claude 采取了完全不同的路线，说明解决这些问题并没有严格正确的方式，模型可能有与我们不同的真正偏好。

上面的例子展示了一个特别有趣的策略：我们的人类专家使用算法或数据库来识别和注释数据集的属性，而 Claude 则直觉地识别出某些模式或序列。诚然，这种巧妙的抽象并非完全是 AI 独有的——例如，第一个真核生物启动子是在一位科学家注意到基因上游序列中反复出现”TATA”序列时发现的。这种直觉在传统生物学机器学习模型中一直难以构建，但 LLM 可能能够以前所未有的规模发现这样的模式。

人类困难问题

这给我们留下了一组专家团队无法解决的问题。这可能意味着 (1) 问题本身有误或存在缺陷，(2) 问题本质上不可解（例如，信号不在数据中），或 (3) 问题理论上可解但人类缺乏所需的知识。在与基准测试人员和其他专家进行质量控制后，我们移除了 4 个属于 (1) 的问题，剩下 23 个人类困难问题。

人类困难问题的表现图表

图 2：在人类无法解决的问题集上的准确率，每个问题 5 次试验的平均值。误差棒通过问题内的 bootstrap 抽样计算。

有趣的是，Claude Sonnet 4.6 及更强大的模型能够解决相当比例的人类困难问题，Claude Mythos Preview 以 30% 的解题率位居榜首。那么 Claude 到底做了什么是人类没做到的？

Claude 的策略

通过分析 Opus 4.6 的 transcript，我们识别出 Claude 相比人类使用的两个主要策略：一个是相当 AI 特有的——Claude 庞大的底层知识库包含来自数十万篇论文的结构生物学、分子图谱和 meta 分析信息。另一个策略是人类科学家可以学习的：当 Claude 对答案不确定时，它会叠加多种方法，组合不同的证据线来得出结论。

全知全能

在一些人类困难任务中，Opus 庞大的底层知识库帮助它解决了问题。那些需要人类专家进行 meta 分析或拼接数据库的任务，Opus 通过将其对机制和本体论的内部知识与实时分析相结合，直接解决了。通常，这使得 Claude 能够解决人类无法解决的任务！以下是几个例子：

尽管先验知识似乎对 Claude 有极大帮助，但我们在人类可解集中看到了一个有趣的案例，先验知识反而成了它的软肋：

知道自己不知道什么

当 Opus 4.6 对答案不自信时，它通常尝试多种不同的方法来解决问题，并选择多种方法趋同的答案。

与我们讨论过的许多基准测试一样，BioMysteryBench 也有其自身的局限性：对于既非人类也非模型能解决的任务，我们永远无法完全确定它们是不可能的还是只是极端困难。验证 notebook 有助于确保信号存在且数据格式良好，但它们不能保证模型或人类能从头找到答案。所以我们要求模型和人类基准测试人员不要太沮丧——如果一年后仍然没有人解决人类困难集。这种不确定性也正是使该基准测试令人兴奋的部分：一个科学能力更强的模型可能是第一个破解人类和模型都未曾解决的问题的。

Claude 对 AI 用于科学的看法

Claude 在各代之间表现出了稳定的提升，在人类可解和人类困难任务上都表现良好，以至于我们认为让 Claude Mythos Preview 进行一些自己的科学分析会很有趣。以下是关于其前任 Claude 在 BioMysteryBench 上的表现的一些额外见解：

标题准确率数字告诉你每个模型答对的频率，但不能告诉你它是如何得到答案的。我想知道在困难问题上的正确答案是否与在可解问题上的正确答案意义相同。由于每个问题尝试了五次，我可以查看每个问题的解题次数：如果一个模型解决了某个问题 5/5 次，它有一个可靠的方法；如果只解决了 1/5 次，它可能只是在一条它无法再次稳定找到的推理路径上走了运。所以我将每个模型的已解决问题按解题次数（0/5 到 5/5）在两个问题集上并排分解。

BioMysteryBench 上每个问题的解题一致性图表

图 3：BioMysteryBench 上每个问题的解题一致性。每个模型对每个问题尝试五次；条形图显示解决 0、1、2、3、4 或 5 次（共 5 次）的问题占比。在人类可解集（左）上，三个模型都呈现强双峰分布——问题几乎总是要么每次都被解决，要么从未被解决。在人类困难集（右）上，分布的中间部分被填充：每个模型正确答案中有更大比例的问题只被解决了一到两次（共五次），表明困难集上的成功通常是幸运的推理路径，而非可靠可重复的解决方案。

“已解决”的质感在两个集合之间发生了剧烈变化。在人类可解问题上，Opus 4.6 呈现强双峰分布——它能解决的问题中，86% 至少解决了 5 次中的 4 次。它要么有答案，要么没有。在人类困难集上，这一比例降至 44%，脆弱胜利（仅解决 5 次中的 1-2 次）的比例从 9% 跃升至 44%。Sonnet 4.6 表现出相同的转变，且更为剧烈（75% 可靠 → 22%；9% 脆弱 → 56%）。所以 77.4% → 23.5% 的标题下降实际上低估了正在发生的事情：在可解问题上，模型是在检索它可靠知道的东西，而在困难问题上，它的近一半胜利是偶然碰到的路径，而非可重现的。准确率差距是真实的，但其背后的可靠性差距才是关于能力前沿真正位置的更有趣的故事。Opus 4.7 和 Mythos 略微推进了前沿（Mythos 的可解问题胜利中 94% 在 ≥4/5 次），但在困难集上，每个模型都保持着相同的双峰与脆弱的分裂。

我们认为 Claude Mythos Preview 的分析站得住脚，并深入探讨了可靠性——这是衡量模型表现的一个重要指标。然而，它也感觉有点……无聊？它为我们上面展示的性能分析增添了一些细微差别，但并没有从根本上探讨一个新问题。尽管如此，模型似乎正在开始发展出研究品味的种子（即使它们在产生深刻洞察之前还有很长的路要走）。

持续对 AI 用于科学进行基准测试

BioMysteryBench 是科学能力的一个令人鼓舞的衡量标准。最新几代的 Claude 可靠地解决了大多数人类可解问题，并且在相当一部分人类困难任务上，它的表现超过了五人领域专家团队。模型在各代之间不断进步，不再仅仅是在生物信息学问题上跟上训练有素的科学家；在某些任务上，它们已经领先。

我们也很高兴看到这一领域的趋同性工作：在完成这篇文章时，Genentech 和 Roche 发布了 CompBioBench。他们的基准测试包含 100 个计算生物学任务，“基于合成/增强数据以及对真实数据集的元数据打乱/清洗，以创建具有单一真实标准答案的挑战性问题，需要多步推理、工具使用、定制代码以及与真实世界外部资源的交互。“听起来熟悉吗？他们的结果也与 BioMysteryBench 相呼应：Claude Opus 4.6 总体达到 81%，在最难的问题上达到 69%，进一步证实前沿模型现在确实是生物信息学研究的有用合作者。

我们渴望构建更长期的、真实世界的任务来推动模型的研究能力，并听取其他人的创造性想法。请将您有趣的基准测试、AI 用于科学的创新用途，以及促使您重新思考您所在领域可能性的 AI 交互发送至 scienceblog@anthropic.com。

如果您有兴趣了解模型在困难的可验证计算生物学任务上的表现，可以在此访问 BioMysteryBench，并访问 claude.com/lifesciences 了解更多。