AI 产品的核心智能体验，由评测体系定义

会议: 产品力领航者大会 PM × AI · 2026 春季 | 讲者: 张泽逊 | 时间: 2026-04-25 上午 · 大厂 AI 产品探索分会场

一句话总结

AI 产品的核心智能体验藏在评测体系里——评测速度就是迭代速度，迭代速度就是产品核心竞争力，PM 的新角色是从「写需求」转向「定义什么叫好」。

速览

跷跷板团队的病因：反馈又慢、又不准——一直在改但没在进步，核心能力可能默默退化两周都没人发现
学习速度 ≈ 反馈准确度 × 反馈速度——这个等式在 AI 领域有正式名字叫强化学习
让反馈变准：主观信号的三种翻译——抽取可客观验证维度、验证推理逻辑通畅性、配对比较 A vs B
让反馈变快：把人工从批量里解放出来——50 case 纯人工 = 20 人 × 2 天，工程师每天都在改根本跟不上
Eval Pack 把评测变成工程——任务描述 + 评测标准 + 验证脚本 + 参考解法，硬指标用脚本、软指标交给 AI 评分器，人出题、AI 判卷
Before/After：没评测时改 prompt 靠几个同事「好像变好了？」的模糊感觉；有 Eval Pack 后 3 分钟就知道场景 A +12%、场景 B -8%
本质意义：AI 产品的灵魂搬家了——传统产品的灵魂藏在 PRD 里（静态规范），AI 产品的核心智能体验在评测体系里（示范标准）
PM 新角色：从「写需求」→「定义什么叫好」——做 AI 产品，难的不是做出好东西，是定义什么叫好

核心内容

跷跷板团队：一直在改，但没在进步

张泽逊用一个真实的团队画像开场：十几个人，每周发版，士气很高——每个人都觉得「这周又进步了」。

但实际陷入跷跷板：

优化场景 A → 悄悄劣化场景 B
修 B → C 崩了；修 C → A 又退回去
一个核心能力，默默退化了两周，没人发现

病因一句话：反馈又慢、又不准。

这是 AI 产品团队的典型症状——表面在迭代，实际在原地打转，因为没有客观、快速的反馈机制告诉团队「真的变好了还是退化了」。

一个等式解释一切：学习速度 ≈ 反馈准确度 × 反馈速度

评测速度就是迭代速度，迭代速度就是产品核心竞争力。

这个等式在 AI 领域有正式名字——强化学习。无论是模型训练还是产品迭代，本质都是同一回事：每一次行动都需要又准又快的反馈信号，才能持续向上爬升。

由此推导出本次分享的两个核心动作：让反馈变准、让反馈变快。

让反馈变准：主观信号的三种翻译

客观信号容易（脚本就能验证），真正的壁垒是——把「模糊的好」翻译成机器懂的信号。

翻译手段 ①：抽取可客观验证的维度

把「好不好」拆成十个「是/否」判断：

结构完整吗
字数达标吗
有事实错误吗
有重复表达吗

任何一个主观体验问题，都要试着拆成可机器验证的二元问题清单。维度越多越细，越接近主观感知。

翻译手段 ②：验证推理逻辑的通畅性

不看结论对不对，看论据与推理是否自洽、事实是否准确——结论主观，但推理可以审视。

这是处理生成式内容的关键技巧：当无法判断答案是否正确时（比如开放性问题），可以转而判断推理过程是否站得住脚。

翻译手段 ③：配对比较（A vs B）

绝对判断 → 相对判断，难度骤降。让评测人/AI 评一个东西好不好打分难，但让他在 A 和 B 之间挑哪个更好简单得多。

视觉/审美类几乎是唯一靠谱方式——纯审美无法用客观维度拆分，A vs B 是兜底方案。

让反馈变快：把人工从批量里解放出来

一组数字冲击

一个中等复杂的 Agent，全场景覆盖要几百个 case，每个至少跑 3 遍
50 case 纯人工 = 20 人 × 2 天，工程师却每天都在改

意思很清楚：纯人工评测的吞吐量根本跟不上工程师每日改动的速度，团队会被评测拖垮，导致评测频率下降，反馈环失效。

Eval Pack：把评测变成工程

解决思路是用工程化方式封装评测，团队管这个东西叫 Eval Pack：

统一封装：任务描述 + 评测标准 + 验证脚本 + 参考解法
分层验证：硬指标用脚本，软指标交给 AI 评分器
人机分工：人出题，AI 判卷

这个产品化设计让评测从「需要 20 人 × 2 天」变成可以一键触发、随时跑的标准化资产。每次产品改动只需要触发跑一遍 Eval Pack，3 分钟就能拿到全场景表现。

Live Demo：Before / After

	BEFORE 没有评测	AFTER 有 Eval Pack
改一版 prompt	几个同事试用：「好像变好了？」	同一个改动，跑一遍自动化评测
反馈形式	模糊、不可信	3 分钟后：场景 A +12%，场景 B -8%
决策依据	主观感觉	不是「感觉」，是真的知道

3 分钟之内，你就知道自己在前进还是在后退。

这个对比把评测体系的价值具象化：它不是花哨的工具链，而是把「凭感觉改产品」变成「拿数据决策」的基础设施。

这件事的本质意义：灵魂搬家了

传统产品的灵魂藏在 PRD 里。 AI 产品的核心智能体验在评测体系里。

文档	角色
PRD	告诉机器你想要什么（静态规范）
评测体系	告诉模型需要解决的问题是什么、怎么才算解决好（示范标准）

PRD 是「规则」，评测体系是「示范」——AI 时代的产品定义方式从「写规则」变成「给示范」。

PM 的新角色：从「写需求」→ 定义「什么叫好」

这是分享的核心收尾：PM 不再是写功能描述的人，而是定义「什么叫好」的人。

做 AI 产品，难的不是做出好东西，是定义什么叫好。

延伸思考：评测体系的本质是「好的定义」沉淀为可执行、可验证、可迭代的资产。谁定义得准、定义得细、定义得早，谁就掌握了 AI 产品的迭代速度，也就掌握了核心竞争力。

关键金句

「评测速度就是迭代速度，迭代速度就是产品核心竞争力。」——张泽逊

「学习速度 ≈ 反馈准确度 × 反馈速度。」——张泽逊

「人出题，AI 判卷。」——张泽逊

「3 分钟之内，你就知道自己在前进还是在后退。」——张泽逊

「做 AI 产品，难的不是做出好东西，是定义什么叫好。」——张泽逊

可行建议

立即审视团队是否陷入「跷跷板迭代」：核心能力是否在某次改动中默默退化
拒绝「几个同事试用觉得好像变好了」的反馈模式，建立客观评测体系
主观信号翻译三步走：先拆可验证维度、不行就验证推理逻辑、视觉审美用 A vs B
把评测做成 Eval Pack：任务描述 + 评测标准 + 验证脚本 + 参考解法一体化封装
评测分层：硬指标用脚本、软指标交给 AI 评分器
评测目标是 3 分钟拿到全场景结果，跟上工程师每日改动的速度
PM 的精力从「写 PRD」转到「定义评测标准」，把「什么叫好」沉淀为团队资产

关键数据/案例索引

核心等式：学习速度 ≈ 反馈准确度 × 反馈速度（强化学习）
数字冲击：中等复杂 Agent 全场景覆盖几百个 case，每个至少跑 3 遍；50 case 纯人工 = 20 人 × 2 天
Demo 数据：改 prompt 后 3 分钟拿到场景 A +12%、场景 B -8% 的具体结果
核心方法：Eval Pack（任务描述 + 评测标准 + 验证脚本 + 参考解法）
主观信号翻译三法：抽取可客观验证维度（拆成是/否）、验证推理逻辑通畅性（看推理而非结论）、配对比较 A vs B（绝对→相对）
核心隐喻：跷跷板团队、灵魂搬家（PRD → 评测体系）、人出题 AI 判卷
核心对比：PRD = 静态规范 vs 评测体系 = 示范标准
PM 新角色：从「写需求」→ 定义「什么叫好」

AI 产品的核心智能体验，由评测体系定义——关于 AI 产品迭代速度的一些实践心得