AI 产品的核心智能体验,由评测体系定义
会议: 产品力领航者大会 PM × AI · 2026 春季 | 讲者: 张泽逊 | 时间: 2026-04-25 上午 · 大厂 AI 产品探索分会场
一句话总结
AI 产品的核心智能体验藏在评测体系里——评测速度就是迭代速度,迭代速度就是产品核心竞争力,PM 的新角色是从「写需求」转向「定义什么叫好」。
速览
- 跷跷板团队的病因:反馈又慢、又不准——一直在改但没在进步,核心能力可能默默退化两周都没人发现
- 学习速度 ≈ 反馈准确度 × 反馈速度——这个等式在 AI 领域有正式名字叫强化学习
- 让反馈变准:主观信号的三种翻译——抽取可客观验证维度、验证推理逻辑通畅性、配对比较 A vs B
- 让反馈变快:把人工从批量里解放出来——50 case 纯人工 = 20 人 × 2 天,工程师每天都在改根本跟不上
- Eval Pack 把评测变成工程——任务描述 + 评测标准 + 验证脚本 + 参考解法,硬指标用脚本、软指标交给 AI 评分器,人出题、AI 判卷
- Before/After:没评测时改 prompt 靠几个同事「好像变好了?」的模糊感觉;有 Eval Pack 后 3 分钟就知道场景 A +12%、场景 B -8%
- 本质意义:AI 产品的灵魂搬家了——传统产品的灵魂藏在 PRD 里(静态规范),AI 产品的核心智能体验在评测体系里(示范标准)
- PM 新角色:从「写需求」→「定义什么叫好」——做 AI 产品,难的不是做出好东西,是定义什么叫好
核心内容
跷跷板团队:一直在改,但没在进步
张泽逊用一个真实的团队画像开场:十几个人,每周发版,士气很高——每个人都觉得「这周又进步了」。
但实际陷入跷跷板:
- 优化场景 A → 悄悄劣化场景 B
- 修 B → C 崩了;修 C → A 又退回去
- 一个核心能力,默默退化了两周,没人发现
病因一句话:反馈又慢、又不准。
这是 AI 产品团队的典型症状——表面在迭代,实际在原地打转,因为没有客观、快速的反馈机制告诉团队「真的变好了还是退化了」。
一个等式解释一切:学习速度 ≈ 反馈准确度 × 反馈速度
评测速度就是迭代速度,迭代速度就是产品核心竞争力。
这个等式在 AI 领域有正式名字——强化学习。无论是模型训练还是产品迭代,本质都是同一回事:每一次行动都需要又准又快的反馈信号,才能持续向上爬升。
由此推导出本次分享的两个核心动作:让反馈变准、让反馈变快。
让反馈变准:主观信号的三种翻译
客观信号容易(脚本就能验证),真正的壁垒是——把「模糊的好」翻译成机器懂的信号。
翻译手段 ①:抽取可客观验证的维度
把「好不好」拆成十个「是/否」判断:
- 结构完整吗
- 字数达标吗
- 有事实错误吗
- 有重复表达吗
任何一个主观体验问题,都要试着拆成可机器验证的二元问题清单。维度越多越细,越接近主观感知。
翻译手段 ②:验证推理逻辑的通畅性
不看结论对不对,看论据与推理是否自洽、事实是否准确——结论主观,但推理可以审视。
这是处理生成式内容的关键技巧:当无法判断答案是否正确时(比如开放性问题),可以转而判断推理过程是否站得住脚。
翻译手段 ③:配对比较(A vs B)
绝对判断 → 相对判断,难度骤降。让评测人/AI 评一个东西好不好打分难,但让他在 A 和 B 之间挑哪个更好简单得多。
视觉/审美类几乎是唯一靠谱方式——纯审美无法用客观维度拆分,A vs B 是兜底方案。
让反馈变快:把人工从批量里解放出来
一组数字冲击
- 一个中等复杂的 Agent,全场景覆盖要几百个 case,每个至少跑 3 遍
- 50 case 纯人工 = 20 人 × 2 天,工程师却每天都在改
意思很清楚:纯人工评测的吞吐量根本跟不上工程师每日改动的速度,团队会被评测拖垮,导致评测频率下降,反馈环失效。
Eval Pack:把评测变成工程
解决思路是用工程化方式封装评测,团队管这个东西叫 Eval Pack:
- 统一封装:任务描述 + 评测标准 + 验证脚本 + 参考解法
- 分层验证:硬指标用脚本,软指标交给 AI 评分器
- 人机分工:人出题,AI 判卷
这个产品化设计让评测从「需要 20 人 × 2 天」变成可以一键触发、随时跑的标准化资产。每次产品改动只需要触发跑一遍 Eval Pack,3 分钟就能拿到全场景表现。
Live Demo:Before / After
| BEFORE 没有评测 | AFTER 有 Eval Pack | |
|---|---|---|
| 改一版 prompt | 几个同事试用:「好像变好了?」 | 同一个改动,跑一遍自动化评测 |
| 反馈形式 | 模糊、不可信 | 3 分钟后:场景 A +12%,场景 B -8% |
| 决策依据 | 主观感觉 | 不是「感觉」,是真的知道 |
3 分钟之内,你就知道自己在前进还是在后退。
这个对比把评测体系的价值具象化:它不是花哨的工具链,而是把「凭感觉改产品」变成「拿数据决策」的基础设施。
这件事的本质意义:灵魂搬家了
传统产品的灵魂藏在 PRD 里。 AI 产品的核心智能体验在评测体系里。
| 文档 | 角色 |
|---|---|
| PRD | 告诉机器你想要什么(静态规范) |
| 评测体系 | 告诉模型需要解决的问题是什么、怎么才算解决好(示范标准) |
PRD 是「规则」,评测体系是「示范」——AI 时代的产品定义方式从「写规则」变成「给示范」。
PM 的新角色:从「写需求」→ 定义「什么叫好」
这是分享的核心收尾:PM 不再是写功能描述的人,而是定义「什么叫好」的人。
做 AI 产品,难的不是做出好东西,是定义什么叫好。
延伸思考:评测体系的本质是「好的定义」沉淀为可执行、可验证、可迭代的资产。谁定义得准、定义得细、定义得早,谁就掌握了 AI 产品的迭代速度,也就掌握了核心竞争力。
关键金句
「评测速度就是迭代速度,迭代速度就是产品核心竞争力。」——张泽逊
「学习速度 ≈ 反馈准确度 × 反馈速度。」——张泽逊
「人出题,AI 判卷。」——张泽逊
「3 分钟之内,你就知道自己在前进还是在后退。」——张泽逊
「做 AI 产品,难的不是做出好东西,是定义什么叫好。」——张泽逊
可行建议
- 立即审视团队是否陷入「跷跷板迭代」:核心能力是否在某次改动中默默退化
- 拒绝「几个同事试用觉得好像变好了」的反馈模式,建立客观评测体系
- 主观信号翻译三步走:先拆可验证维度、不行就验证推理逻辑、视觉审美用 A vs B
- 把评测做成 Eval Pack:任务描述 + 评测标准 + 验证脚本 + 参考解法 一体化封装
- 评测分层:硬指标用脚本、软指标交给 AI 评分器
- 评测目标是 3 分钟拿到全场景结果,跟上工程师每日改动的速度
- PM 的精力从「写 PRD」转到「定义评测标准」,把「什么叫好」沉淀为团队资产
关键数据/案例索引
- 核心等式:学习速度 ≈ 反馈准确度 × 反馈速度(强化学习)
- 数字冲击:中等复杂 Agent 全场景覆盖几百个 case,每个至少跑 3 遍;50 case 纯人工 = 20 人 × 2 天
- Demo 数据:改 prompt 后 3 分钟拿到场景 A +12%、场景 B -8% 的具体结果
- 核心方法:Eval Pack(任务描述 + 评测标准 + 验证脚本 + 参考解法)
- 主观信号翻译三法:抽取可客观验证维度(拆成是/否)、验证推理逻辑通畅性(看推理而非结论)、配对比较 A vs B(绝对→相对)
- 核心隐喻:跷跷板团队、灵魂搬家(PRD → 评测体系)、人出题 AI 判卷
- 核心对比:PRD = 静态规范 vs 评测体系 = 示范标准
- PM 新角色:从「写需求」→ 定义「什么叫好」