从交互到共生:AI-Native 时代的知识产品体验设计
会议: 产品力领航者大会 PM × AI · 2026 春季 | 讲者: 王珊(Google Labs · NotebookLM) | 时间: 2026-04-25 上午 · 硅谷 AI 产品分会场
一句话总结
AI-native 时代知识产品的设计逻辑从 SaaS 时代的「功能驱动」切换到「能力驱动」——产品交付的不再是 features 而是 capabilities,设计师要回答「替用户完成什么认知过程」、把信任设计成可校准的光谱、把 agent 从被动工具变成可审计的常驻合作者,并以一套「观察—定义—约束—埋点」的循环每次发布都跑一遍。
速览
- 范式切换:SaaS-Native → AI-Native——界面从 Buttons/Forms/Menus 变 Intent/Context/Trust,数据从 Schema-first 变 Unstructured-语义优先,成功指标从 Task completion/Clicks 变 Trust/Retention/Autonomy
- 六大底层变化——2M token 上下文、thinking models 推理、多模态融合、Computer Use 自主执行、推理成本 10× 下降、MCP/A2A 互联,让 AI 可以「挥霍智能」
- 不再 ship features,要 ship capabilities——产品的最小单元从功能变成能力,设计师要替用户完成的是「认知过程」而非「点击任务」
- Bloom 认知金字塔 × AI 输出模态——记忆/理解/应用/分析/评估/创造六层认知,分别对应 Flashcards、Chat/Summary、Data Table、Deep Research、Critique/Compare、Studio Multimodal 六种 AI 输出形式
- Deep Research 同一能力三种假设——ChatGPT 假设「用户要结论」、Perplexity 假设「用户要理解」、NotebookLM 假设「用户要驾驭」
- Audio Overview 的「不完美」是功能——主持人的停顿、走神、互相打断刻意保留,因为用户要的不是「听到答案」而是「被陪着想」
- Calibrated Trust:信任是光谱不是开关——从 Provenance/Behavior/Adaptive HITL/Time-to-Trust/Consequence 五维持续校准
- 为非确定性设计:Failure Quadrants——Silent/Catastrophic/Paralysis/Drift 四象限分别配 Provenance、Approval gate、Confidence threshold、Audit log+rollback
- Agent 时代四组范式迁移——不透明执行 → 透明意图、即时输出 → 可回放行为、被动工具 → 常驻合作者、等待拉取 → 主动发起
- 新职能 AI Behavior Designer——PM(定义场景/评估价值)、Designer(编排行为/人格与时机)、Linguist(语气/勘误/提问架构)、Risk Officer(画边界/写降级剧本)四种能力交集
核心内容
范式切换:从 SaaS-Native 到 AI-Native
王珊以 Google Labs / NotebookLM 一线设计师身份,把 AI-native 时代的设计逻辑直接拆成一张对比表。
SaaS-Native(功能驱动):界面是 Buttons / Forms / Menus,交互是 Click / Type / Drag,数据 Schema-first 结构化,成功指标看 Task completion / Clicks。 AI-Native(能力驱动):界面是 Intent / Context / Trust,交互是 Dialog / Delegate / Review,数据 Unstructured 语义优先,成功指标看 Trust / Retention / Autonomy。
切换的底层是六大变化(2026 时点):
| 维度 | 关键变化 | 量级 |
|---|---|---|
| Context 上下文窗口 | 全文档一次读完 | 2M token |
| Reasoning 推理能力 | 从直觉到审慎 | thinking models |
| Multimodal 多模态 | 输入输出都解放 | text · image · video |
| Agency 自主执行 | Claude / ChatGPT 可执行 | Computer Use |
| Cost 推理成本 | 可以「挥霍」智能 | 10× ↓ |
| Interop 互联性 | agent ↔ agent | MCP · A2A |
结论:「我们不再 ship features,我们 ship capabilities」——产品的最小交付单位从「功能」变成「能力」,设计师要重新回答「替用户完成什么认知过程」。
NotebookLM 自身的定位跃迁正是例证:早期定位是「从工具」帮你查 CS 课堂笔记里的 Ada Lovelace、Alan Kay 等概念,演进到「→ 合作者」可以围绕 Ulysses 这种长篇文学组织 5 个 source、提供 Audio/Video Overview、Mind Map、Reports 等多模态产出。
认知任务重构:替用户完成什么认知过程
「问题不是『做什么功能』,而是『替用户完成什么认知过程』。」三件事必须先想清楚:
- Understand:用户要理解什么——输入是文档/对话/数据,输出是什么认知结果?
- Capability:AI 能给什么——什么推理模式 / 什么输出模态 / 配什么 guardrail 和反馈回路?
- Boundary:设计师定义边界——做什么 / 不做什么、谁审批 / 谁负责。
Bloom 认知金字塔 × AI 输出模态
把 Bloom’s Taxonomy(教育目标分类学:Remember / Understand / Apply / Analyze / Evaluate / Create 六层)映射到 AI 输出模态,得到一张可直接抄的对照表:
| Bloom 层级 | 对应 AI 模态 | 形态 |
|---|---|---|
| Remember 记忆 | Flashcards / Retrieval | 间隔重复 · 事实回忆 |
| Understand 理解 | Chat / Summary | 事实问答 · 文档纲要 |
| Apply 应用 | Data Table · Structured | 抽取 · 重组 · 生成表格 |
| Analyze 分析 | Deep Research Report | 多源比较 · 溯源推理 |
| Evaluate 评估 | Critique · Compare | 立场对比 · 批判性反问 |
| Create 创造 | Studio · Multimodal | 视频 · 音频 · 海报 · 游戏 |
Deep Research:同一能力三种认知假设
同样叫「Deep Research」,背后的产品假设完全不同:
- ChatGPT — 假设:用户要「结论」;动作:一键生成长篇报告;成本:速度·简洁;风险:失去思考过程
- Perplexity — 假设:用户要「理解」;动作:逐步展开推理链;成本:信任·透明;风险:信息过载
- NotebookLM — 假设:用户要「驾驭」;动作:限定源、由用户指挥;成本:控制·溯源;风险:上手门槛
2026 NotebookLM 多模态输出矩阵
NotebookLM 2026 版本提供六种输出形态,每种对应不同 Bloom 层:
- Audio Overview(理解):双人播客,两位主持人的「不完美」被刻意保留
- Cinematic Video(创造):视频讲解,10 种预定义 style,设计师手工调教
- Infographics(创造):信息图,Per-slide 可编辑,从「一锤子买卖」到可迭代
- Data Tables(分析):结构化表格,非结构 → 结构,省掉手工画表
- Discover(记忆):主动找源,AI 从 Drive/Web 找资料给用户
- Flashcards 2.0(记忆):间隔重复学习,跨会话保存 · 记忆曲线
用户要的不是答案,是协同想完这件事
Audio Overview 设计中最反直觉的决定:让 AI 输出「有人味」的四个设计杠杆。
| 杠杆 | 做法 |
|---|---|
| Persona 约束 | 固定「两位主持人」而非「单口旁白」——对话本身就是认知脚手架 |
| 保留犹豫 | prompt 显式保留「thinking aloud」和自我修正,不清洗掉 |
| 速度 ≠ 品质 | 故意降低语速,留停顿 = 留认知空间,听众可以跟上推理 |
| 可打断 | Interactive Mode · 听众插话提问 = 从被动听 → 主动参与 |
两位主持人的停顿、走神、互相打断在传统 TTS 里会被优化掉的「杂质」,恰恰是认知代入感的来源。「用户不是要听到答案,是要被陪着想。」
可信与可控:让信任从开关走向刻度
「信任不是二元开关,是一个需要持续校准的光谱。」从传统三要素到 Calibrated Trust 五维:
| 维度 | 设计要点 |
|---|---|
| Provenance | 工具链路透明化 |
| Behavior | 行为监测 > 答对率 |
| Adaptive HITL | 动态人类监督 |
| Time-to-Trust | 信任累积路径 |
| Consequence | 错了谁负责 |
为非确定性设计:Failure Quadrants
按「不可逆程度」与「风险高低」两轴分四象限,每象限配不同设计杠杆:
- Silent Failure(高不可逆 · 低风险,幻觉已落地但看不出来)→ Provenance · citation · diff
- Catastrophic Action(高不可逆 · 高风险,删库 / 误发 / 转账)→ Approval gate · dry-run
- Paralysis(低不可逆 · 低风险,反复确认 · 失去信心)→ Confidence threshold · default
- Drift(低不可逆 · 高风险,一千次小偏差累积)→ Audit log · rollback · replay
底层主张:「好的 AI 产品让信任从开关走向更精确、可调控的刻度。」
Agent 协作:从对话到协作
Agent 时代的四组范式迁移:
| # | 旧范式 | 新范式 | 关键 |
|---|---|---|---|
| 01 | 不透明执行 (Opaque Execution) | 透明意图 (Transparent Intent) | Plan 先于 Act |
| 02 | 即时输出 (Instant Output) | 可回放行为 (Replayable Action) | 过程可审计 |
| 03 | 被动工具 (Reactive Tool) | 常驻合作者 (Ambient Collab.) | AI 常驻上下文 |
| 04 | 等待拉取 (Pull on Request) | 主动发起 (Proactive Init.) | AI 主动发起 |
自主性光谱五档
按 autonomy 高低排成一条光谱,每档对应代表产品:
| 档位 | 模式 | 代表产品 |
|---|---|---|
| Reactive | 被动问答 | ChatGPT · NotebookLM Chat |
| Suggested | AI 建议 · 人手动 | Gmail Smart Reply · Discover v1 |
| Approval-Gated | 计划 → 审核 → 执行 | Claude Code plan · Cursor review |
| Bounded | 边界内自主 + 回放 | Devin · Deep Research · Cursor BG |
| Proactive | AI 主动发起 | ChatGPT Pulse · Gmail Proactive |
Plan 必须先于 Act
「让用户先看到意图,再决定要不要执行。」计划是草稿、是合同,也是一次显式的对齐——核心在于让用户在代价发生之前介入。失败的 agent 在执行完后才让你 review;成功的 agent 把 review 前置到执行前。Google 的 Deep Research 体验就是先弹出 research plan,让用户 Edit plan 或 Start research。
别让用户 review 代码,让用户 review 行为
Code review 已经失效——agent 的产出太快、太多,人眼根本读不过来。取而代之的是 replayable trace:用户不再读 diff,而是回放 agent 在浏览器、终端、IDE 里的每一步。Comet Assistant 在 Google Maps 上「Start from the Tower of London」的演示,整个浏览操作链可逐步回放。
Agent 时时在场
Chat-as-app 是过渡形态。真正改变发生在 AI 被嵌入到既有工作环境——浏览器、邮件、IDE、桌面。AI 和用户共享一个上下文,这改变了设计约束:权限、隐私、打扰度都要重做。
从 user prompts AI 到 AI prompts 用户
AI 不再等待指令,它提出问题。Proactive 的关键在于「proactive 一次的价值 > 噪音」。设计师要回答:什么场景 AI 可以主动?一天几次?用户如何「静音」但不失价值?设计聚焦于意图系统。
Agent 的真正解锁在于它能连上什么
- What changed:Agent 之间讲同一种语言。2024-2026 协议层收敛——AI 能读别家的工具、别家的 agent 能调你家的 workspace,agent 从孤岛变成网络
- Design implication:边界,成为第一设计元素。连接得越多,「允许 / 不允许」越重要。产品要清楚回答:谁的数据、给谁用、多长时间、怎么回收。协议细节不重要,重要的是它们指向同一个方向:agent 能互相调度,用户能统一授权,设计师要在此之上画出清晰的「信任边界」
设计方法论:新职能与可复用循环
新职能 · AI Behavior Designer
四种能力的交集,是 AI-native 时代的新岗位:
- Product Manager:定义场景 · 评估价值
- Designer:编排行为 · 人格与时机
- Linguist:语气 · 勘误 · 提问架构
- Risk Officer:画边界 · 写降级剧本
一套可以复用的设计循环(每次发布都跑一遍)
四步循环,环绕「Each Ship」一次发布:
- OBSERVE 观察 — 「人 + AI」的失败现场
- DEFINE 定义认知过程 — 要完成哪段脑力活?
- CONSTRAIN 画边界与兜底 — 该 / 不该介入 · 如何降级
- INSTRUMENT 埋点与回环 — behavior metric,不是点击数
团队合作实践(四条)
| 实践 | 内容 |
|---|---|
| Behavior Spec 行为规格文档 | 每个 feature 先写「AI 该怎么行为」再写 UI |
| Dogfood First 在工作中使用自己的产品 | 知识工作中使用 NotebookLM——跑不通就不是好方案 |
| Imperfect Launch v0 > 完美发布 | 早发快迭,尽早收集真实 feedback |
| Evals · PM 每周亲跑 Evals | PM 如果不能手判「什么是好的 AI 回答」,PRD 就是空的 |
关键金句
「我们不再 ship features,我们 ship capabilities。」——王珊 「问题不是『做什么功能』,而是『替用户完成什么认知过程』。」——王珊 「用户不是要『听到答案』,是要『被陪着想』。」——王珊 「好的 AI 产品让信任从开关走向更精确、可调控的刻度。」——王珊 「AI-native 时代最稀缺的能力是:在不确定性里保持产品直觉。」——王珊
可行建议
- 每个 feature 先写「AI 该怎么行为」的 Behavior Spec,再写 UI
- PM 每周亲手跑 Evals,否则手里的 PRD 是空的
- 把 review 从执行后前置到执行前——让 Plan 显式可编辑
- 用 replayable trace 替代 code review,让用户读「行为」而非「代码」
- 把信任设计成五维光谱(Provenance / Behavior / Adaptive HITL / Time-to-Trust / Consequence),按 Failure Quadrants 分配设计杠杆
- 在团队里设立 AI Behavior Designer 角色(PM × Designer × Linguist × Risk Officer 四象限交集)
关键数据/案例索引
- 数据点:上下文窗口 2M token;推理成本 10× ↓;NotebookLM 多模态输出 6 种形态
- 方法/框架:SaaS-Native vs AI-Native 对比表(界面/交互/数据/成功指标);六大底层变化(CONTEXT/REASONING/MULTIMODAL/AGENCY/COST/INTEROP);Bloom 认知金字塔 × AI 输出模态映射;Deep Research 三种认知假设;Calibrated Trust 五维;Failure Quadrants 四象限;Agent 时代四组范式迁移;自主性光谱五档;可复用设计循环(OBSERVE/DEFINE/CONSTRAIN/INSTRUMENT)
- 产品/工具:NotebookLM、Audio Overview、Cinematic Video、Infographics、Data Tables、Discover、Flashcards 2.0、ChatGPT、Perplexity、Gmail Smart Reply、Claude Code plan、Cursor review、Devin、Deep Research、Cursor BG、ChatGPT Pulse、Gmail Proactive、Comet Assistant、Google Maps 演示
- 协议/标准:MCP(Model Context Protocol)、A2A(Agent-to-Agent)
- 理论框架:Bloom’s Taxonomy(教育目标分类学)
- 新岗位:AI Behavior Designer = Product Manager + Designer + Linguist + Risk Officer
- 联系方式:王珊 · Google Labs · NotebookLM · WeChat: wangshan1278