jixiaxue 知识库
blog / pm-conference-2026-04-blog · sessions / 2026-04-25-am-bigtech-down-03-zhangzexun-product-evaluation

AI 产品的核心智能体验,由评测体系定义——关于 AI 产品迭代速度的一些实践心得

0 个章节 · 0 条产出 · 0 条证据
2026-04-25

AI 产品的核心智能体验,由评测体系定义

会议: 产品力领航者大会 PM × AI · 2026 春季 | 讲者: 张泽逊 | 时间: 2026-04-25 上午 · 大厂 AI 产品探索分会场

一句话总结

AI 产品的核心智能体验藏在评测体系里——评测速度就是迭代速度,迭代速度就是产品核心竞争力,PM 的新角色是从「写需求」转向「定义什么叫好」。

速览

  1. 跷跷板团队的病因:反馈又慢、又不准——一直在改但没在进步,核心能力可能默默退化两周都没人发现
  2. 学习速度 ≈ 反馈准确度 × 反馈速度——这个等式在 AI 领域有正式名字叫强化学习
  3. 让反馈变准:主观信号的三种翻译——抽取可客观验证维度、验证推理逻辑通畅性、配对比较 A vs B
  4. 让反馈变快:把人工从批量里解放出来——50 case 纯人工 = 20 人 × 2 天,工程师每天都在改根本跟不上
  5. Eval Pack 把评测变成工程——任务描述 + 评测标准 + 验证脚本 + 参考解法,硬指标用脚本、软指标交给 AI 评分器,人出题、AI 判卷
  6. Before/After:没评测时改 prompt 靠几个同事「好像变好了?」的模糊感觉;有 Eval Pack 后 3 分钟就知道场景 A +12%、场景 B -8%
  7. 本质意义:AI 产品的灵魂搬家了——传统产品的灵魂藏在 PRD 里(静态规范),AI 产品的核心智能体验在评测体系里(示范标准)
  8. PM 新角色:从「写需求」→「定义什么叫好」——做 AI 产品,难的不是做出好东西,是定义什么叫好

核心内容

跷跷板团队:一直在改,但没在进步

张泽逊用一个真实的团队画像开场:十几个人,每周发版,士气很高——每个人都觉得「这周又进步了」。

但实际陷入跷跷板

  • 优化场景 A → 悄悄劣化场景 B
  • 修 B → C 崩了;修 C → A 又退回去
  • 一个核心能力,默默退化了两周,没人发现

病因一句话:反馈又慢、又不准

这是 AI 产品团队的典型症状——表面在迭代,实际在原地打转,因为没有客观、快速的反馈机制告诉团队「真的变好了还是退化了」。

一个等式解释一切:学习速度 ≈ 反馈准确度 × 反馈速度

评测速度就是迭代速度,迭代速度就是产品核心竞争力。

这个等式在 AI 领域有正式名字——强化学习。无论是模型训练还是产品迭代,本质都是同一回事:每一次行动都需要又准又快的反馈信号,才能持续向上爬升。

由此推导出本次分享的两个核心动作:让反馈变准、让反馈变快。

让反馈变准:主观信号的三种翻译

客观信号容易(脚本就能验证),真正的壁垒是——把「模糊的好」翻译成机器懂的信号

翻译手段 ①:抽取可客观验证的维度

把「好不好」拆成十个「是/否」判断:

  • 结构完整吗
  • 字数达标吗
  • 有事实错误吗
  • 有重复表达吗

任何一个主观体验问题,都要试着拆成可机器验证的二元问题清单。维度越多越细,越接近主观感知。

翻译手段 ②:验证推理逻辑的通畅性

不看结论对不对,看论据与推理是否自洽、事实是否准确——结论主观,但推理可以审视。

这是处理生成式内容的关键技巧:当无法判断答案是否正确时(比如开放性问题),可以转而判断推理过程是否站得住脚。

翻译手段 ③:配对比较(A vs B)

绝对判断 → 相对判断,难度骤降。让评测人/AI 评一个东西好不好打分难,但让他在 A 和 B 之间挑哪个更好简单得多。

视觉/审美类几乎是唯一靠谱方式——纯审美无法用客观维度拆分,A vs B 是兜底方案。

让反馈变快:把人工从批量里解放出来

一组数字冲击

  • 一个中等复杂的 Agent,全场景覆盖要几百个 case,每个至少跑 3 遍
  • 50 case 纯人工 = 20 人 × 2 天,工程师却每天都在改

意思很清楚:纯人工评测的吞吐量根本跟不上工程师每日改动的速度,团队会被评测拖垮,导致评测频率下降,反馈环失效。

Eval Pack:把评测变成工程

解决思路是用工程化方式封装评测,团队管这个东西叫 Eval Pack:

  • 统一封装:任务描述 + 评测标准 + 验证脚本 + 参考解法
  • 分层验证:硬指标用脚本,软指标交给 AI 评分器
  • 人机分工人出题,AI 判卷

这个产品化设计让评测从「需要 20 人 × 2 天」变成可以一键触发、随时跑的标准化资产。每次产品改动只需要触发跑一遍 Eval Pack,3 分钟就能拿到全场景表现。

Live Demo:Before / After

BEFORE 没有评测AFTER 有 Eval Pack
改一版 prompt几个同事试用:「好像变好了?」同一个改动,跑一遍自动化评测
反馈形式模糊、不可信3 分钟后:场景 A +12%,场景 B -8%
决策依据主观感觉不是「感觉」,是真的知道

3 分钟之内,你就知道自己在前进还是在后退。

这个对比把评测体系的价值具象化:它不是花哨的工具链,而是把「凭感觉改产品」变成「拿数据决策」的基础设施。

这件事的本质意义:灵魂搬家了

传统产品的灵魂藏在 PRD 里。 AI 产品的核心智能体验在评测体系里。

文档角色
PRD告诉机器你想要什么(静态规范
评测体系告诉模型需要解决的问题是什么、怎么才算解决好(示范标准

PRD 是「规则」,评测体系是「示范」——AI 时代的产品定义方式从「写规则」变成「给示范」。

PM 的新角色:从「写需求」→ 定义「什么叫好」

这是分享的核心收尾:PM 不再是写功能描述的人,而是定义「什么叫好」的人。

做 AI 产品,难的不是做出好东西,是定义什么叫好。

延伸思考:评测体系的本质是「好的定义」沉淀为可执行、可验证、可迭代的资产。谁定义得准、定义得细、定义得早,谁就掌握了 AI 产品的迭代速度,也就掌握了核心竞争力。

关键金句

「评测速度就是迭代速度,迭代速度就是产品核心竞争力。」——张泽逊

「学习速度 ≈ 反馈准确度 × 反馈速度。」——张泽逊

「人出题,AI 判卷。」——张泽逊

「3 分钟之内,你就知道自己在前进还是在后退。」——张泽逊

「做 AI 产品,难的不是做出好东西,是定义什么叫好。」——张泽逊

可行建议

  • 立即审视团队是否陷入「跷跷板迭代」:核心能力是否在某次改动中默默退化
  • 拒绝「几个同事试用觉得好像变好了」的反馈模式,建立客观评测体系
  • 主观信号翻译三步走:先拆可验证维度、不行就验证推理逻辑、视觉审美用 A vs B
  • 把评测做成 Eval Pack:任务描述 + 评测标准 + 验证脚本 + 参考解法 一体化封装
  • 评测分层:硬指标用脚本、软指标交给 AI 评分器
  • 评测目标是 3 分钟拿到全场景结果,跟上工程师每日改动的速度
  • PM 的精力从「写 PRD」转到「定义评测标准」,把「什么叫好」沉淀为团队资产

关键数据/案例索引

  • 核心等式:学习速度 ≈ 反馈准确度 × 反馈速度(强化学习)
  • 数字冲击:中等复杂 Agent 全场景覆盖几百个 case,每个至少跑 3 遍;50 case 纯人工 = 20 人 × 2 天
  • Demo 数据:改 prompt 后 3 分钟拿到场景 A +12%、场景 B -8% 的具体结果
  • 核心方法:Eval Pack(任务描述 + 评测标准 + 验证脚本 + 参考解法)
  • 主观信号翻译三法:抽取可客观验证维度(拆成是/否)、验证推理逻辑通畅性(看推理而非结论)、配对比较 A vs B(绝对→相对)
  • 核心隐喻:跷跷板团队、灵魂搬家(PRD → 评测体系)、人出题 AI 判卷
  • 核心对比:PRD = 静态规范 vs 评测体系 = 示范标准
  • PM 新角色:从「写需求」→ 定义「什么叫好」