AI 时代的企业数据决策机制——方法论和实践案例
会议: 产品力领航者大会 PM × AI · 2026 春季 | 讲者: 韩瞳(小瞳咨询创始人,前字节跳动早期策略产品 / 知乎推荐策略团队负责人 / 百度小说搜推增负责人,《策略产品经理实践 1/2》作者) | 时间: 2026-04-25 下午 · 工作坊(约 3 小时)
一句话总结
AI 时代企业数据决策的核心是「问题定义 + 因果思维 + AB 实验」三件套:用「逻辑层四步(确认问题 → WHAT 假设 → WHY 假设 → 报告)+ 实现层六步(取数 → 清洗 → 模型/可视化/计算新列循环 → 报告)」做分析骨架,以 Pearl 因果三层阶梯(关联/干预/反事实)和因果图为指南针;AI 替代了执行环节但替代不了问题定义与结果审查,判断力杠杆在 AI 时代被放大。
速览
- 慢就是快——「为什么定义问题最重要」是工作坊主标题之一,提出错误问题并定错业务目标的代价巨大(4 个真实失败案例)。
- 数据分析方法论双层模型——逻辑层四步(确认问题 → WHAT 假设 → WHY 假设 → 报告)+ 实现层六步(取数 → 清洗 → 模型/可视化/计算新列循环 → 报告),WHAT 假设对应 EDA、WHY 假设对应 CDA。
- WHY 假设六字口诀——对比、分析、溯源(找统计量 → 看维度差异 → 画因果图溯源根本原因)。
- 业务目标定义三层进阶——入门定义清楚问题 / 进阶定义清楚目标和护栏 / 高级定义清楚 Trade-off;附知乎主场景四级目标分解(公司战略-OKR-工作线-AB 实验)。
- 因果推断 7 大基础知识——相关 ≠ 因果 / Pearl 三层阶梯(关联-干预-反事实)/ 因果图三种基本结构(中介/混杂/对撞)/ 后门准则与前门准则 / Rubin 潜在因果模型 / 群体而非个体 / 策略产品最常用分层匹配,DS 最常用 DID。
- 均值 vs 中位数——做收入/VV 看均值(幂律分布)/ 做留存与新用户体验看中位数(普通用户破零是关键);短剧 App 看 2 部剧集(约 60 分钟)= 留存大幅跃升。
- 数据生成的五种效应速查——加和(正态/钟形)/ 等待(指数/伽马)/ 优势(幂律/长尾)/ 值域 [0,1](Beta)/ 构造(t/卡方/F,假设检验基石)。
- 完整案例 1:红果短剧创业期 三个表面问题(次留达标七留不足 / 投放素材与承接剧不匹配 / 内容冷启动流量不够)→ 因果图 + Claude Code 分析 + 冷启动音频/视觉特征预评级。
- 完整案例 2:短剧精排 AB 实验——CTR 显著提升 10%(p≈0.01)但二类错误约 30% 统计功效未达 80%,用 Claude Code 下钻发现涨幅来自 i2i 召回 + 高频用户,留存优化要走低频用户破零路径。
- AB 实验三大坑 + 两类错误——大盘不显著分性别看显著有效 / 内容曝光涨 3 倍不能直接说显著(曝光此消彼长)/ 实验组对照组天生有差异(Pre-AA / CUPED / 反转实验)。
- AI 替代地图——能替代:取数清洗/可视化/模型执行;不能替代:问题定义/业务假设/结果审查;判断力杠杆增强,执行类杠杆弱化。
- 结语——「数据分析是手段,用户理解是目的;提出正确的问题,AI 给你正确的答案;基础知识是为了知道 AI 说的对不对,批判性思维是当 AI 说错了一半你来挑出哪里错了。」
核心内容
Part 01:为什么今天要聊数据决策
工作坊背景与讲者
韩瞳,策略产品经理,《策略产品经理实践 1/2》作者,现任**「小瞳咨询」**创始人,为企业客户提供 AI Native 组织重构、内容社区、搜推策略、数据科学领域的咨询陪跑服务。
- 字节跳动早期策略产品 / 知乎推荐策略团队负责人 / 百度小说搜推增负责人
- 东北大学数学系,数学建模竞赛国际一等奖,从数学建模的经验走向策略产品岗位
- 擅长企业 AI 转型(1 年)、搜推策略(10 年)、社区生态策略(7 年)、数据分析(10 年)、团队管理(4 年)
工作坊节奏:8 个 Part、约 3 小时(含 10 分钟茶歇):
- Part 1:为什么今天要聊数据决策(10min)
- Part 2:问题定义——一切分析的起点(10min)
- Part 3:数据分析核心方法论(30min)
- Part 4:案例 1 假如你在红果短剧创业期(30min)
- Part 5:因果推断——从相关到因果(20min)
- Part 6:案例 2 短剧精排 AB 实验分析(30min)
- 茶歇休息
- Part 7:AB 实验核心要点与常见坑(15min)
- Part 8:AI 时代的数据决策(10min)
- 框架总结与行动清单(5min)
前情导入:四类熟悉的场景与发言
讲者先用两组「场景共情」让听众对号入座。
前情导入 1:以下哪个场景你最熟悉
- 每周看一堆数据报告,但做不出决策
- 团队说 AB 实验结论很显著,但上线后没效果
- 知道该用 AI,但不知道数据基础设施从哪建起
- 以上全是
「今天讲的方法论和案例,在实际企业落地中通常需要 2-3 个月。涉及团队数据能力诊断、AI 工具链搭建、实验文化建立三个阶段。这也是我和很多企业正在做的事。」
前情导入 2:你熟悉以下的发言吗
| 一线 PM 视角 | 业务负责人视角 |
|---|---|
| 数据获取层面:想看个数据,提了需求排了两周,结果取出来口径不对,又排了一周 | 信任层面:我不懂数据,但我感觉他们在糊弄我——永远只拿有利的数据汇报 |
| 分析能力层面:每次做分析都是想到哪看到哪,没有方法论,感觉靠直觉和运气 | 投入产出层面:请了 3 个数据分析师,产出就是每周几份报告,我花这么多钱就为了看报告? |
| AB 实验层面:实验结果显著,上线后效果没了,老板觉得我在做假数据 | AI 转型层面:我让团队用 AI 提效,但他们把 AI 当搜索引擎用,我觉得不对但也说不出哪不对 |
业务决策时最大的问题
四个真实困境:
- 看了数据但不知道结论
- 有结论但不确信是对的
- 确信对了但推不动落地
- 没有数据基建,不知道要怎么做
「如何决策呢 :(」——这个困境贯穿整个工作坊。
为什么数据分析值得深聊
判断力杠杆 → 扎实基础知识 → 提出好问题 的三段链路:
- AI 时代,执行类工作的杠杆在快速弱化,但判断力的杠杆在增强
- 判断力的底座是:扎实的基础学科知识 + 交叉学科能力
- 会提问、会 Check AI 给的结果、会给下一步指示
小韩的讲解思路(AI 总结)
讲者本工作坊的内容地图:
- 一个核心工具:因果图的画法和使用方法
- 一套分析框架:逻辑层四步法 + 实现层六步法
- 两个完整案例:一个探索性分析(红果短剧创业期)+ 一个 AB 实验验证(短剧精排)
- 一组实战经验:均值 vs 中位数、问题定义、实验的坑
Part 02:问题定义——一切分析的起点
为什么定义问题最重要:慢就是快
四个「提出错误问题并定错业务目标」的真实代价:
案例 1:某社区的视频转型失败
- 应该定供给质量指标,不是消费规模指标
- 本质是定义错了问题,没做「田野调查」,没有定义清楚问题
- 指标定为「6 秒 VV」→ 业务变形 → 强插视频 → 项目关闭
案例 2:某内容产品创作量上不去
- 之前以为曝光量影响发布量 → 给大作者加曝光 → 发布量横盘一年半
- 通过因果分析发现作者更受「是否及时互动」的影响
案例 3:某广告业务收入提升不上去
- 收入模型和 CTR、CVR 直接相关,业务设计了「广告耐受度」指标
- 实际上没有人爱看广告,以至于没有优化广告素材质量,一味增加 ADLOAD 不看 ECPM
案例 4:某短剧 APP 新用户留存上不去
- 几年前 case,本工作坊的核心案例
- 业务团队希望越快越好的把新用户视作一个整体,过往有效的策略手段能上就上,但没有定义问题
- 事实证明「慢就是快」
定义业务问题的方式:五步流程
讲者的标准流程:
- 项目背景:重点向项目组成员说明「为什么」而非「如何做」,从用户视角出发描述问题和期望,按照「是什么 → 为什么」的顺序构建论述
- 项目 OKR:该项目的 O 是什么,KR 是什么
- 定义问题:使用数据分析能力对业务现状做盘点,EDA 为主
- 提出假设:这是最为重要的一步,业务假设通常是一句话,生效逻辑则往往以因果图的方式给出
- 验证假设:实验结束后通过对实验数据的分析解读,证明或者证否了假设
注:笔者和团队沟通方案时常用「策略螺丝」一词比喻逻辑层中我们能干预的一些变量,本质上「策略螺丝」等价于因果图中的随机变量。
Example:过往场景中如何定义业务目标(1)
目标体系:从战略到实验的四级分解
讲者推荐的目标定义方式(以知乎主场景为例,部分数据脱敏):
公司战略:生态第一
↓
团队目标(OKR):留存 + 时长
↓
工作线(4 条主线):生态建设 / 消费体验 / 商业分发 / 算法能力
↓
具体实验:每条工作线下个 AB 实验,每个实验有明确的目标指标和护栏指标
关键原则:目标不是简单的数字,而是多目标的权衡(Trade-off)。
多目标权衡:留存 vs 时长 vs 生态 vs 收入
| 维度 | 核心指标 | 特点 |
|---|---|---|
| 留存 | 老用户次月日留存 / retain 用户次日留存 | 滞后指标,最敏感也最难提升 |
| 时长 | oDAU 人均在屏时长 / 推荐页人均在屏时长 | 即时指标,最容易看到变化 |
| 生态 | 新内容曝光占比 / A3+ 内容曝光占比 / 负反馈率 | 约束条件,不是直接追求的数字 |
| 收入 | 知 + 收入 / adload / CPM | 商业指标,需要与用户体验平衡 |
具体的权衡案例(数据脱敏):
- 案例 1:首刷 top1 不出商业内容——放弃首刷第一位的高价值商业曝光,换取 LT7+xx%、次留+xx%、人均在屏时长+xx%;逻辑:短期收入让步于用户体验和长期留存
- 案例 2:短图文从「按字数」改为「按信息量」分发——放弃原有的字数过滤标准(xx 字以下不分发),换取三留、时长、人均 cardshow 均显著提升;逻辑:旧规则「字数=质量」的假设是错的,短图文占比提升到 xx%
- 案例 3:低频用户的 adload 优化——问题:monthly 用户 adload 过高(xx%),体验差;动作:对低价值商业内容分发优化;结果:adload xx%(xx),低频用户体验改善
Example:过往场景中如何定义业务目标(2)
提升留存的子问题树(脱敏):
提升留存
├── 1. 提升消费促留存(提升时长、提升点击率)
│ ├── 个性化多目标融合模型 → 人均时长+x.x%
│ ├── 精排加入阅读时长/完成度目标 → 人均时长+x.x%
│ └── ListWise 重排序 → 人均时长+x.x%
├── 2. 改善体验促留存(减少负反馈)
│ ├── 显式负反馈建模 → 不感兴趣率+x.x%
│ └── 隐式负反馈建模 → LT7+x.x%
├── 3. 内容供给优化(分发好内容)
│ ├── 新内容冷启动加速 → 7 日内新内容 ctr+x.xx%
│ ├── A1 内容打压 → A1 曝光占比降 x.x%
│ └── 时间衰减 → <180d cardshow+x.xx%
├── 4. 低频用户专项(让「不太来的人」多来)
│ ├── 首屏管理 + 外部信号引入
│ └── monthly 用户人均时长+x.x%,次启 x.x5%
└── 5. 算法基础能力(全链路提效)
├── 粗排实时性(天 → x 分钟)
├── 全链路一致性
└── holdout 机制 → 累积验证整体提升
每个子问题的定义方式表格:
| 子问题 | 目标指标 | 护栏指标 | 时间范围 | 可干预变量 |
|---|---|---|---|---|
| 个性化多目标融合 | 人均时长 | 次留、CTR | AB 实验周期 | 精排融合权重 |
| 负反馈建模 | 负反馈率 | 消费指标、留存 | AB 实验周期 | 精排负反馈目标权重 |
| 新内容冷启 | 新内容 ctr | 整体 ctr、时长 | 冷启 7 天内 | 召回队列入口、冷启保量策略 |
| 短图文分发 | 短图文 cardshow 占比 | 三留、时长 | 全量后持续监控 | 分发规则(字数→信息量) |
| 商业首刷保护 | 次留、LT7 | 知+收入 | AB 实验周期 | 商业内容出位策略 |
指标体系:一个目标的多种测法——知乎主场景对不同用户群体用不同的指标衡量留存:
| 用户群体 | 留存指标 | 为什么 |
|---|---|---|
| 整体 | oDAU 次日留存 | 大盘健康度 |
| retain 用户 | retain 用户次日留存 | 排除新增用户的噪声 |
| 低频用户 | monthly 用户次启、阅读率 | 低频用户破零是关键 |
| 创作者 | ODCU(日创作用户) | 创作者生态健康度 |
这正是「做留存看中位数」的实践体现——不同人群需要不同的测量方式。
Example(3):成熟业务 vs 创业期的问题定义差异
| 维度 | 创业期(短剧 App 案例) | 成熟期(知乎主场景) |
|---|---|---|
| 目标数量 | 1 个(次留或七留) | 4 个维度(留存/时长/生态/收入) |
| 核心矛盾 | 资源不够、数据缺失 | 多目标 Trade-off |
| 指标选择 | 先找信号,再做测量 | 已有完善指标体系 |
| 实验能力 | 可能没有 AB 基础设施 | holdout + 分层实验 |
| 问题定义重点 | 定义清楚问题是什么 | 定义清楚 Trade-off 怎么选 |
问题定义的三个层次(进阶版):
- 第一层(入门):定义清楚问题是什么——时间范围、空间范围、口径定义。适用于:新人、创业期、第一次接触这个问题
- 第二层(进阶):定义清楚目标和护栏——目标指标(你要提升什么)、护栏指标(你绝对不能降低什么)。适用于:有 AB 实验能力的团队
- 第三层(高级):定义清楚 Trade-off——多个目标之间的优先级、短期收益 vs 长期生态。适用于:成熟业务线、管理者
Part 03:数据分析核心方法论
方法论来源:逻辑层 + 实现层
逻辑层(四步):
确认问题 → WHAT 假设 → WHY 假设 → 报告
(其中:WHAT 假设对应 EDA 阶段,WHY 假设对应 CDA 阶段)
逻辑层细化:定义问题(确定数据的时间范围和数据口径,给出数据假设)→ what 假设(四则运算拆解得到关键变量)→ why 假设(绘制因果图,根据因果图理论控制变量对比-分析-溯源)→ 输出数据报告
实现层(六步):
取数 → 清洗 → 模型/可视化/计算新列(循环) → 报告
逻辑层第一步:确认问题
四点要做:
- 业务层面:诊断业务当前主要矛盾
- 数据分析层面:定义数据的时间范围和空间范围
- 好问题 vs 坏问题:
- 好的问题:啥数据涨了 or 跌了,比如评论率从 11-27 开始下跌,跌了 0.32%
- 好的问题:试推组和扩量组的人群属性是否均匀?模型泛化组和训练数据的人群是否一致?
- 坏的问题:今年的数据不好
- 确认问题的关键点:
- 1)要分析的数据存在吗?是不是没有打点,或者有打点但是不准?
- 2)划定数据的时间、空间范围:要分析什么时候到什么时候的数据?什么维度?
逻辑层第二步:分解问题、建立 WHAT 假设
核心方法:四则运算分解——把大指标通过加减乘除拆成小指标,找到「变化最大的变量」。
示例:
- DAU 下降 → DAU = 新增用户 + 老用户 → 新增从 10 万/天降到 1 万/天,老用户没变 → 锁定新增
- 用户停留总时长下降 → 总时长 = 曝光量 × 点击率 × 人均停留时间 → 三个因子哪个掉最多?
- CTR 下降了 → Click 掉了,Show 也掉了 → Click 掉的更多
逻辑层第三步:建立 WHY 假设(最重要的一步)
六字口诀:对比、分析、溯源
- 对比:找统计量——均值/中位数/分位数,和谁比?(同比/环比/AB)
- 分析:看差异在哪——哪个维度变化最多?(渠道/人群/内容/时段)
- 溯源:追问为什么——根本原因是什么?画因果图
案例 1:新增用户下降的 WHY 推导
买量预算 → 渠道曝光量 → 下载量 → 新增用户
假设 1:统计错误 → 排查日志 → 否
假设 2:某买量渠道效果变差 → 供应商停掉 ROI<1 渠道 → 是!
假设 3:竞品抢量 → 检查竞品投放 → 否
案例 2:滴滴的数据分析师发现【重庆地区的叫车时长预估和实际到达时长差距较大】
- 假设 1:「气象条件导致了误差」
- 假设 2:「司机习惯于更晚点击乘客已到达的按钮」「重庆的三维地形结构导致了用二维距离预估失准」——地理知识 ✓
- 假设 3:「重庆路面湿滑,车都跑的快」
逻辑层第四步:报告产出与沟通
关于数据报告的撰写:
- 数据报告需要「渐进整合」,使用多种「聚合性证据」佐证命题
- 数据报告需要清晰易懂,优先级:图片 > 表格 > 文字
实际工作中能得到 100% 符合严谨性的数据分析报告基本是不可能的,数据证据是「渐进整合」而非「大步跃进」的。
AI 时代数据报告产出成本几乎为 0,韩瞳的经验公式是同一个假设累计 60 分即 Solid:
- AB 实验报告 30 分
- Case 主观评估报告 25 分
- 因果推断分析报告 25 分
- 普通 CDA 分析 20 分
- 普通 EDA 分析 15 分
实现层前两步:取数据 + 数据清洗
AI 大提效,数据字典完备情况下,人人可取数,但数据清洗仍需要消耗 40% 时间。
| 常见问题 | 案例 | 处理方式 |
|---|---|---|
| 空值过多 | 用户性别 80% 是 Null | 排查原因,可能旧表废弃 |
| 极端异常值 | 每天阅读 >24 小时 | 占比 < 千分之一可忽略 |
| 收入异常高 | 少数用户贡献极高 | 收入数据通常有意义,重点关注 |
| 机器人爬虫 | 每天看 10000 篇文章 | 标记并上报反作弊团队 |
实现层第 345 步:模型 / 可视化 / 计算新列
01 模型:
- 一般是回归类问题,模型可以搞清楚各个因子之间的关系
- 模型选择:XGBoost(万金油)、决策树(可解释)、LR 回归(简单)
- AI 时代只要要定义清楚问题,AI 可以帮你选模型和执行
02 数据可视化:
- 单变量连续型 → 箱线图(首选)
- 双变量连续 vs 离散 → 箱线图(首选)
- 双变量连续 vs 连续 → 散点图 / 气泡图
- 双变量离散 vs 离散 → 热力图
- (箱线图的妙用:带缺口 + 可变宽度 → 同时展示中位数、置信区间、数据量级、异常值)
03 计算新列:定义某个数值的时候一般想清楚正反比关系,让 AI 给你写个公式:比如 Score = F(x,y,z)。
产品经理的「数据 Sense」很多就是对异常数据的发现能力。
数据的四种类型
| 单一对象 | 多个对象 | |
|---|---|---|
| 单时间点 | 静态数据 | 横截面数据 |
| 多时间点 | 时间序列数据 | 面板数据 |
数据分析的两大分析阶段:EDA + CDA
- EDA(探索性数据分析):无假设时收集数据,从而建立假设
- CDA(验证性数据分析):先建立假设,再收集数据
- EDA 主要靠可视化,CDA 主要靠模型、因果推断和 AB test
- 不清楚现状时候做探索性分析,清楚现状后要控制内生变量,做验证性分析
什么时候看均值,什么时候看中位数
| 业务目标 | 看什么 | 原因 | 对应检验 |
|---|---|---|---|
| 做收入 / VV | 均值 | 少数大 R 贡献大部分价值 | T 检验 |
| 做留存 | 中位数 / P25 | 需要绝大多数人迈过 magic number | 中位数检验 |
| 做新用户体验 | 中位数 | 让破零的人变多 | 中位数检验 |
三层判断:
- 收入场景 — 幂律分布:让穷人花一块钱很难,让富人花一万相对简单——所以看均值(均值反映头部贡献)
- 留存场景 — 需要普通人迈过门槛,看 p25 或者 p50。高频用户你骂他他都来,低频用户的破零体验才是关键——所以看中位数(中位数反映「普通用户」状态)
- 留存场景的 Magic Number:
- 短剧 App:看 2 部剧集(约 60 分钟)→ 留存大幅跃升
- 豆瓣:产生第 1 条对话 → 留存远高于没有的
数据的生成逻辑:五种效应速查
讲者把统计学的核心分布映射到五种现实效应:
| 效应 | 分布 | 典型案例 | 互联网场景 |
|---|---|---|---|
| 加和效应(Additive Effect) | 正态分布 / 钟形曲线 | 大量独立因子叠加(中心极限定理) | 实测两端用户的平均量级、页面加载时间(如网络、服务器、CDN 等多重影响) |
| 时间等待效应(Time Waiting Effect) | 指数分布 / 伽马分布 / 几何分布 | 假设事件未来仍然可发生(过去多久不影响未来发生),那么等待事件发生的时间服从指数分布;如果需要等多次独立事件发生,总等待时间服从伽马分布 | 用户从打开 App 到下一次点击的等待时间;客服系统中等待下一个电话的时间 |
| 优势连接效应(Preferential Attachment) | 幂律分布 / 长尾曲线 | 事物所属一旦带有优势,就更容易获得更多资源,形成滚雪球状的「强者恒强」 | 公司市值、头部几家公司占大部分分布市值;短视频曝光量;用户收入;少数大短剧贡献绝大部分流量;社交网络粉丝数;大 V 重度用户贡献度 |
| 值域 [0,1] 效应(Probability Modeling) | Beta 分布 | 当我们需要「概率本身」建模——比如「这个网页的参与率是多少」——参与率为 0% 到 100%,用 Beta 分布来描述 | AB 实验中用户群组转化率/承接率估计;用户对不同品类偏好的概率建模;威尔逊置信区间的底层原理 |
| 统计学家构造的理想分布 | t/卡方/F 分布——假设检验的基石 | 当我们只有少量样本,不知道总体长什么样时,统计学家通过数学推导构造了三种「理想分布」:t 分布(样本量少时估计均值 → AB 实验中 T 检验的基础)/ 卡方(χ²)分布(度量方差差异 → 检验样本方差与理论方差的差异)/ F 分布(对比两方差异同 → 方差分析 ANOVA 的基础) | AB 实验中比较两组用户的均值差异(T 检验)/ 检验某个因素是否有显著影响(卡方检验)/ 评估模型拟合优度(F 检验) |
5 种效应速查总结:加和 | 等待 | 优势 | [0,1] | 构造。
Part 04:完整案例 1——假如你在红果短剧创业期
案例背景 + 统一分析模板
- 场景设定:假设红果短剧回到今天继续创业,打败现在的自己,你是业务负责人
- 团队规模:3-5 人,高人才密度,Agent 集群工作,短剧资源充沛
- 业务目标:「打造年轻人最喜欢的短剧 App」
- 竞争环境:竞品「黄瓜短剧」已站稳头部,抖音短剧流量巨大
- 主要矛盾:买量获客后留存断崖,数据分析能力跟不上
案例一:业务目标 + 表面问题
业务目标:
- 打造「年轻人最喜欢的短剧 App」
- 核心人群:18-25 岁
- 核心指标:新用户次留 → 七日留存 → ARPU
- 商业模式:广告 + 付费
表面问题:
- 问题 1:新用户买量进来后,次日留存凑合,但七日留存断崖下降
- 问题 2:投放素材和 App 内承接内容不匹配
- 问题 3:内容冷启动流量不够,无法测出「好内容」
因果图是唯一真理
新用户留存因果图(K1 路径系数):
曝光某个短剧 → 点击某个短剧 → 点击并播放某个短剧 → 完成 3 秒播放 → 完成一集播放 → 完成 3 集播放
↓
K9(本质上是 D0 那个指标,单体概率)
↓
次日留存 → 3 日留存 → 7 日留存
因子分类(决定 K1):
- 兴趣因素:剧集和用户兴趣 corr / 看没看过(全网最早发布时间距今)
- 质量因素:封面吸睛程度 / 剧集知名度(热播程度)
因子分类(决定中间转化):
- 质量因素:高光吸睛程度 / 颜值、服化道 / 剧集清晰度
因子分类(决定 3 集播放):
- 质量因素:剧集粘性(测度=AUC)
业务比较深入后会得到右侧图(脱敏)
新用户留存因果图 (DAG) Causal Inference on User Retention — Confounder Identification & Effect Estimation:
混杂因子 (Confounders):
用户来源渠道 / 校园活动用户 / 内容质量评分
处理变量 (Treatment):
Day0 消费深度
中介因子 (Mediator):
继续追剧行为
结果 (Outcome):
次日留存 → 7 日留存
路径系数(脱敏):
Day0 消费深度 +0.18 → 次日留存
Day0 消费深度 +0.13 → 继续追剧行为
继续追剧行为 +0.06 → 次日留存
继续追剧行为 +0.11 → 7 日留存
业务问题如何解决:先定义问题,写 OKR 并拆到项目、拆到人头
主要矛盾是新用户的剧集匹配策略。三个子问题三种解法:
子问题 1:新用户次留达标,七留不足——分析因果图中的次留到七留的因果分析
- 用户动线分析:AI 将 excel 表的 oaid 变为文本,抽样高留存 case vs 低留存 case
- 相关性统计分析:对全局的短剧消费行为做一维统计、二维交叉和三维交叉,做 EDA 看清现状,顺便验埋点
- 统一认知:用户为什么会点 = F(质量, 兴趣, 场景)
子问题 2:新用户素材和承接剧不匹配
- 了解行业现状:投放的剧集和承接的剧集绝大多数情况下都是不一样的
- 不同团队扯皮现象,内容和平台策略互相认为对方差,此时用全网标杆剧解决,两个团队追平标杆
- 以素材为信号,给定素材后,什么样的 Corr (素材, 承接剧) 是平行世界最优解?
子问题 3:内容冷启动流量不够
- 不是所有的剧集都需要冷启动
- 使用 Claude Code 本地分析高爆款的剧集的画面、音频、文本特征,为所有剧集做预评级
问题 2,承接剧:质量因素为主
投放素材相对固定,马太效应极强,作为 Input 的给定信息;质量因素更重要
内容质量评估:AUC 定义
- AUC(Area Under the ROC Curve)衡量一个模型区分「正例」和「负例」的能力
- 在内容质量场景中:正例 = 用户深度消费(播放时长 > P80),负例 = 用户浅度消费或流失
- AUC 越高,说明该内容越能「留住用户」。AUC=0.5 为随机水平,AUC=1.0 为完美预测
- AUC = P(随机正例得分 > 随机负例得分)
MAB 动态实验(Thompson Sampling)
| Arm | 含义 |
|---|---|
| Arm 1 | 投 A 承 A(同剧承接) |
| Arm 2 | 投 A 承 B(综合分最优异剧) |
| Reward | P80 播放 > 3 min 为正例 |
| 后验 | 每臂 Beta(α, β) |
运行流程:
- 从 Beta 分布采样,选择分更高的 Arm
- 观察用户 P80 播放时长
- 正例 → α += 1,负例 → β += 1
- 每 N 个用户输出后验概率
模拟收敛过程(示例:甲等 IP 素材):约 100 人后 Arm1 后验概率 > 0.90,投 A 承 A(P=0.95)显著优于投 A 承 B(P=0.20)。
问题 3,冷启动 Pre 评级(AI 结果,仅展示了音频维度)
3.3 什么样的剧 3 秒完播率高?(冷启动前置打分)
问题:新剧上线没有用户数据,怎么提前预判质量?
方法:
- 对 xx 个高曝光视频的前 3 秒提取音频特征(librosa 库)
- 对 xx 个封面图片做视觉分析
- 对 xx 条内容做标签维度分析
- 构建分类模型预测三秒完播率
音频特征发现:
| 三秒完播率档位 | 平均音量 | 最大音量 | 重音峰值数 |
|---|---|---|---|
| 低 | 0.116 | 0.242 | 8.06 |
| 中 | 0.125 | 0.260 | 8.22 |
| 高 | 0.136 | 0.279 | 8.62 |
关键发现:
- 音量高 17%、重音峰值多 7% → 扇耳光、争吵、爆炸声等高冲击力音频前 3 秒完播率更高
- 核心指标:
mean_onset_strength(平均重音强度/爆发力)
Part 05:因果推断基础知识 & 案例
基础知识 1:相关性 ≠ 因果性
讲者从 2020 年读 Pearl 的《为什么》开始接触因果理论。
- 相关性:X 变量和 Y 变量同涨同跌,或者一个涨一个跌
- 因果性:X 的改变会导致 Y 的改变
一个真实的案例:工作第三年时讲者负责某新闻客户端的 dislike 功能——每个内容推荐卡片后面跟着一个形如「×」的按钮,用户点击后可以选择不感兴趣的理由。
当写周报时讲者提到「通过数据分析发现,dislike 行为和用户的活跃度呈现强相关的关系,所以应该增加用户 dislike 的概率以提升活跃度」。
现在回头看,这是一个颠倒因果的表述。 更有可能的因果方向是:用户对产品已经有比较强的粘性,所以更愿意通过 dislike 功能表达自己的偏好,以调整推荐内容。这种颠倒因果的表述在许多同学的总结中也经常可以见到。
基础知识 2:Pearl 的因果三层阶梯
Pearl 最初的研究领域是贝叶斯网络,后来转向因果理论研究,也因此在 2011 年获得了有「计算机领域的诺贝尔奖」之称的图灵奖。他发现即便是强大的概率模型(如贝叶斯网络),也只能回答「若观察到 X,则 Y 的概率如何变化」这类关联性问题,而无法解释「若强制改变 X,Y 将如何变化」的因果问题。这种局限性促使他构建了「因果关系三层阶梯」理论:
| 阶梯层级 | 解决的问题类型 | 核心数学工具 |
|---|---|---|
| 第一层 关联(Association) | 变量 X 与 Y 是如何共同变化的? | 相关系数、回归模型等 |
| 第二层 干预(Intervention) | 若强制改变 X,Y 会怎样变化? | 后门 / 前门准则、Do 算子 |
| 第三层 反事实(Counterfactuals) | 过去若选择不同,结果会如何? | 结构因果模型、回溯-干预-预测 |
Pearl 通过理论证明,每一个高阶问题都无法用低阶语言描述——第三阶梯的反事实声明需要完整的结构方程模型信息,无法由第二阶梯解决;第二阶梯的干预问题无法通过第一阶梯的纯统计相关性得到唯一解。绝大多数数据分析停留在第一层。AB 实验是第二层的工具,因果推断可以到达第三层。
假如我们考虑的是「吸烟行为 → 肺癌」的因果关系:
- 第一层(相关性):观察到吸烟者中肺癌发生率更高,但这种相关性可能受其他因素(遗传背景、环境暴露等)影响,无法直接说明吸烟是肺癌的直接原因
- 第二层(干预层):在因果图中「切断」那些指向吸烟的入边,模拟一个情形——随机选取一组人,强制要求他们吸烟,然后观察肺癌发生率。对应 Do(Smoking=1) 的操作,这是一个理论假想,并非在现实中真实实施
- 第三层(反事实层):某个吸烟者已经患上了肺癌。在其他条件(年龄、遗传因素、环境暴露等)保持不变的前提下,如果该个体反事实地没有吸烟,肺癌风险会不会降低?
基础知识 3:因果图的三种基本结构
为认识因果关系,就需要了解数据的生成逻辑。在因果图的理论框架中,节点间的有向边代表因果关系的传递通路。三种基本结构:
| 结构 | 名称 | Z 的角色 | 例子 | 控制规则 | 一句话解释 |
|---|---|---|---|---|---|
| X → Z → Y | 链接合(中介因子) | 中介变量,传递 X 到 Y 的因果效应 | 吸烟 → 焦油沉积 → 肺癌(控制焦油沉积后,吸烟与肺癌的因果联系被切断) | 要控制(研究总效应时不控制) | Z 是传递链,控制它就切断了因果通路 |
| X ← Z → Y | 叉接合(混杂因子) | 共同原因,制造虚假关联 | 鞋码 ← 年龄 → 阅读能力(控制年龄后,鞋码与阅读能力的关联消失) | 要控制 | Z 是共同原因,不控制会得到虚假因果 |
| X → Z ← Y | 对撞接合(对撞因子) | 共同结果,X 和 Y 本来独立 | 才能 → 成名 ← 外貌(控制「成名」后,才能和外貌产生虚假负相关) | 不要控制 | Z 是共同结果,控制它反而制造虚假关联 |
对撞因子产生虚假相关的解释:以杀人犯案 — 死亡身体 — 杀人凶器为例,二者本独立,但中心脏病的发作很显然是与杀人无关的独立事件。
基础知识 4:后门准则和前门准则
在 Pearl 的因果理论中,Do 算子的数学表达式 P(Y | do(X)) 与传统的条件概率 P(Y | X) 形成根本区别——后者反映的是被动观察,前者模拟主动干预的实验环境。Do 算子使得因果效应估计首次具有严格的数学基础。
然而,我们无法在数学上直接计算 P(Y | do(X)),因为我们的数据是观察数据而非实验数据。Pearl 的后门准则和前门准则提供了两种将 do(X) 转化为可计算的观察量的路径。
后门准则(Back-Door Criterion):思想是「找到所有从 X 到 Y 的『非因果路径』(后门路径),然后通过控制这些路径上的变量来阻断它们」,从而将 P(Y | do(X)) 转化为 P(Y | X, Z) 的加权形式。
- 后门路径是指所有从 X 出发,经过「←」(反向边)到达 Y 的路径——这些路径不经过 X → Y 的因果方向,而是绕道 Z 的「后门」。控制 Z 就能阻断这些路径
- 操作原则:在因果图中,找到所有从 X 到 Y 的后门路径,识别路径上的混杂因子,然后通过分层、匹配或回归等方式控制这些变量
前门准则(Front-Door Criterion):当混杂因子不可观测(即无法控制 Z)时,后门准则无法直接使用。前门准则提供了另一条路径:如果存在一个中介变量 M,X → M → Y,且 X 和 Y 之间的后门路径可以通过 M 来识别,则可以通过 M 的条件概率链式法则来估计因果效应。
- 前门准则在互联网业务中不太常用,因为大多数情况下混杂因子是可观测的。但在社会科学和医学研究中,当混杂因子不可观测时,前门准则是一种重要的替代方案
基础知识 5:潜在因果模型(Rubin Causal Model)
潜在因果模型的核心思想最早由统计学家 Donald Rubin 在 20 世纪 70 年代提出,称为「Rubin 因果模型」。在因果理论的学派中有 Rubin 和 Pearl 两派,但已经被证明了 Rubin 的潜在因果模型和 Pearl 的因果图模型在数学上是等价的。
本书的观点是将因果图视为思想模型和沟通工具(适合放到数据分析报告里),将潜在因果模型视为实操工具。
核心概念(以「数学培训对学生成绩的影响」为例):
- 处理(Treatment):学生被分配到数学培训的干预状态。参加培训为处理组,未参加为非处理组——和 AB 实验中实验组与对照组的概念一致
- 潜在结果(Potential Outcome):每个学生在不同处理状态下可能获得的成绩。例如学生甲若参加培训可能得 90 分,若未参加可得 75 分。但现实中一个学生只能处于一种状态——要么参加培训并测得成绩,要么未参加并测得另一种成绩。那个「未实现的潜在结果」被称为反事实结果(Counterfactual)
| 用户 | 是否参加培训 (D) | 潜在结果(参加) | 潜在结果(不参加) | 差异 |
|---|---|---|---|---|
| 甲 | 参加 | 95 分 | 65 分(不可观测) | 30 分 |
| 乙 | 参加 | 85 分 | 50 分(不可观测) | 35 分 |
| 丙 | 不参加 | 80 分(不可观测) | 60 分 | 25 分 |
| 丁 | 不参加 | 70 分(不可观测) | 40 分 | 30 分 |
- 平均处理效应(ATE):所有人参加培训的值减去不参加培训的值,取平均:(30 + 35 + 25 + 30) / 4 = 30 分
- 处理组的平均处理效应(ATT):参加培训的甲乙两人的平均:(30 + 35) / 2 = 32.5 分。这是我们最希望得到的因果效应
选择偏差:核心问题在于,我们无法同时观测到一个学生的两种状态。朴素估计会引入选择偏差: A − D = (A − B) + (B − D) = ATT + 选择偏差
其中 A − B 是处理组的平均因果效应(ATT),B − D 是处理组不参加培训时的得分与非处理组得分的差异——参加培训的同学往往更热爱学习,基本功更好,即使不参加培训得分也更高。所以 B − D 就是人群的选择偏差。
这也说明了为什么 AB 实验要随机分流——主要为了尽可能去除选择偏差。
基础知识 6:能做因果推断是因为我们研究群体而非个体
上帝视角与双胞胎姐妹:假设因果方向「dislike 行为 → 次日留存」成立,那么意味着如果我强行增加用户的 dislike 行为,次日留存就会提升。此时干预可以理解为「上帝」进行的干预——上帝对某个用户说:「我强迫你必须使用 dislike 功能,比你之前 dislike 的更多,同时其他行为保持不变」。然后我们站在四维空间的上帝视角进行观察,能发现用户在原来的世界线中 dislike 了 0 次,次日留存为 X%;而被强迫提升 dislike 行为后,dislike 了 1 次,次日留存为 Y%。
四维空间的上帝视角只是很理想的假设。但我们研究的是群体行为,而不是个体行为。 对于单个用户个体而言,我们永远不可能在当前世界线中观测到他在平行世界的行为表现。但如果用户有一个绝对理想的「双胞胎姐妹」——性别、年龄、生活环境都相同,那么她代表的就是你在平行世界中的表现。
在现实情况中,找到绝对相似的双胞胎也是不可能的。但我们可以通过一些数学工具来测量相似度,近似地得到平行世界中的结果。同样,现实生活中我们也不是要找齐所有的变量,而是要找到所有影响因果关系的变量。比如用户是单眼皮还是双眼皮,大概率不会影响到用户的次日留存——所以在构造双胞胎姐妹时很可能我们不需要保持单双眼皮的一致。
有助于抹平双胞胎姐妹之间严格一致性的要素还有群体的平均效应。对统计学有了解的同学可能听过 Fisher,当时他在田间研究肥料对农作物产量的研究时,很聪明地利用了群体效应——农作物产量当然会受到阳光、雨露的影响,但有肥料的组和无肥料的组,通过将实验组和对照组在区块上交替栽培(实验组在 1、3、5 区块,对照组在 2、4、6 区块),在水量和阳光差异上做到了平均。那么最终的产量差异就纯粹是是否引入肥料引起的了。
基础知识 7:策略产品最常用分层/匹配,DS 最常用 DID
数据分析中的实际应用方法——识别出因果图中的混杂因子、中介因子后,需要选择合适的控制方法。以下是五种常用方法:
| 方法 | 说明 | 适用 |
|---|---|---|
| 随机实验(AB 实验) | 黄金标准。通过随机分流确保实验组和对照组在所有可观测维度上同质,从根本上排除选择偏差 | 可线上实验的场景 |
| 匹配法(Matching/PSM) | 通过构建相近的「双胞胎对」来控制变量。实际工作中用于找数据指较短的、未受时间影响的数据。几乎在任何场景都可以使用。经常和双重差分一起使用(PSM-DID 法) | 几乎所有观察数据分析场景 |
| 双重差分法(DID) | 本质上是用和被研究的群体平行的群体作为对照组,适合大多数策略类的拟合分析。在时间序列预数据中使用的较多,一般用来佐证某个 AB 实验的长期效果。难点是「平行趋势检验假设」不太容易满足 | 政策评估、全策略上线后评估 |
| 断点回归法(RDD) | 一般用在某个上线后策略评估中。比如某个邀请码是月发文字数 10000 字以上的作者。网络到 ±200 字的作者票上没有差异,可以借此评估不被激励的作者的表现差异 | 策略阀值实验场景 |
| 合成控制法 | 借自于他国行政方法构建反事实对照组。绝大多数情况下数据推断升不完善,可能存在某几个关键维度上版数据上多的情况。所以构造数据的较低较慢能力 | 复杂特殊场景的辅助分析 |
| 工具变量法(IV) | 几乎是最难的因果理论分析方法,实际很难使用。经典的案例是美国的某个州哪个固定的「教育年限与人入岗实际关系」——该州规定年满 6 岁才能入学,但生存年龄方为工具变量,可通过影响教育年限来影响收入 | 我到合适外生变量的场景 |
匹配法的原理:匹配法是实际工作中最常用的因果推断前置工具。一种相对容易理解的匹配法可以这样比喻:比如用户 1 和用户 2 都是北京市、30-35 岁、女性用户、注册时间都在 100 天左右,喜欢的内容多数都是影视和财经内容,我们可以将用户 1 和用户 2 视为「双胞胎姐妹」。
当然,选取哪些维度建立对应需要遵循因果科学的要求——匹配的维度应该是混杂因子,而不是中介因子或对撞因子。社会科学中也经常使用同期双胞胎做一些实验,在业务上我们建立了多组「双胞胎姐妹」匹配对后,如果发现 B 组在某个时间段、某个子渠道等维度上有更好的数据表现,则可以作为新的数据线索进行下钻分析。
倾向性得分匹配(PSM):当需要匹配的维度很多时,逐个维度精确匹配会变得困难(维度灾难)。倾向性得分匹配(Propensity Score Matching)的核心思想是:将多维特征压缩为一个分数,用这个分数做匹配。
具体来说,对于研究「处理变量 X → 结果 Y」的因果关系:
- 计算倾向分:用 Logistic 回归等模型,以混杂因子 Z 为特征、是否接受处理 X 为标签,预测每个用户接受处理的概率 e(Z) = P(X=1 | Z)
- 匹配:为处理组的每个用户,在对照组中找到倾向分最接近的,组成匹配对
- 估计因果效应:计算匹配对之间结果 Y 的差异,取平均得到 ATT
匹配法的优势在于直观、可解释性强,因为它本质上模拟随机实验场景虽都可以使用。但也有局限:匹配法只能控制可观测的混杂因子,对于不可观测的混杂因子无能为力。因此单纯使用匹配法很难得到完全的因果结论,一般先用匹配法做得到大致的实验方向,然后开启 AB 实验拿到最终收益。
工作流总结:因果图(识别混杂因子)→ 匹配法/分层法(控制可观测混杂)→ AB 实验(黄金验证)。 大多数策略产品的数据分析师都可以遵循这个流程:先用因果图理清逻辑,用匹配法做初步分析拿到数据假设,最后用 AB 实验确认收益。
Part 06:完整案例 2——短剧精排 AB 实验分析
案例二:背景 + 业务目标
- 场景延续:短剧 App 上线一段时间后,推荐系统精排模型需要升级
- 业务目标:核心指标 CTR(点击率);模型变化:单目标 → 多目标(点击 + 完播率)
- 表面问题:实验组 CTR 相对提升 10%,统计显著(P 值 ≈ 0.01);但二类错误约 30%,统计功效未达 80%
定义问题,使用 Claude Code 做实验分析,提出下钻问题
涨幅到底来自哪里?
- Claude 发现:
- 按召回队列拆解 → 涨幅来自 3 个队列:投放承接 / 看了又看 / 标签召回
- 平均点击位置前移 2.87 位 → 排序更精准
- 涨幅主要是少数高频用户,i2i 召回点击了更多
为什么 CTR 涨了但留存没有涨幅?
- Claude 发现:
- CTR 主要是高频用户带动,在因果路径上这部分人群每提升 100 个单位的点击,对次日留存的影响微乎其微
- 优化留存主要需要优化低频用户的体验,如果能将用户从 0 个有效播放变为 1 个有效播放,则次日留存则涨 xx%
新用户流转实验为什么失败?
- 表层原因:让少数高频用户点击的更多,对新用户次日留存的带动较少
- 深层原因:由于短剧行业质量因素比兴趣因素更重要,所以可以观察 item 级别的前后变化,发现性别错配比例升高 + 内容老化
因果分析报告示例(脱敏)
Case Study:内容平台新用户留存 — 因果推断实战
业务背景:某内容平台新用户次日留存约 xx%,行业普遍认为「Day0 观看深度越深,留存越高」。但是一线运营观察到渠道差异、活动激励、内容质量等因子互扰——「真实因果到底是什么?」还是「本来就愿意留下的人看多了?」
分析设计:构建因果图(DAG),识别混杂因子、中介因子和因果路径。使用分层法 + 倾向分匹配(PSM)控制混杂,估计看似对留存的真实因果效应。
数据:xx 新用户,xx 行为事件。
混杂因子(Confounders):用户来源渠道 / 活动激励用户 / 内容质量评分
因果效应估计——朴素估计 vs 控制混杂
40% 的「观看深度效应」其实来自渠道差异和活动用户的混杂偏差
| 路径 1:Day0 消费深度 → 次日留存 | 估计方法 | 效应 | 说明 |
|---|---|---|---|
| 朴素 ATE | 30.1pp | 未控混杂 | |
| 分层(渠道) | 27.3pp | 控制渠道效应 | |
| 分层(渠道 × 活动) | 18.0pp | 双向控制 | |
| PSM-ATT | 18.1pp | 最严格估计 |
| 路径 2:次日留存 → 7 日留存 | 估计方法 | 效应 |
|---|---|---|
| 朴素 ATE | 13.3pp | |
| 分层(消费深度) | 8.6pp | |
| PSM-ATT | 11.3pp |
偏差分解:
- 真实效应 60% / 渠道偏差 25% / 活动偏差 15%
特殊用户:活动激励用户
- Day1 留存 87%,但因果效应 = -1.7pp
- 留存完全由任务驱动,与消费深度无关
消费深度因子(控制混杂后因果解释力):
- 完播率 +0.126 / 观看时长 +0.100 / 播放次数 +0.091 / 页面多样性 +0.066 / 看剧数量 +0.043
- 控制渠道 + 活动后识别各因子的增量 AUC
关键发现与策略启示:控制混杂后,行业常识「时长为王」需要修正——完播率的纯因果信号更强
| +18pp | 完播率 > 时长 | +43pp |
|---|---|---|
| Day0 消费深度 → 次日留存 | 控制混杂的因子排名反转 | 中等质量内容的放大效应 |
| 最大单一杠杆点 | 行业认知需要修正 | 「适合性」 >「顶级制作」 |
| 朴素估计 30pp 中有 40% 是混杂偏差。真实因果效应 18pp,仍有巨大策略价值。20-30min 是最大跳升点(+19.2pp),对应「看完一部并开了第二部的坑」。 | 时长原始 AUC 最高,但有 40% 混杂污染。完播率受渠道混杂影响最小,独立因果信号最强(+0.126)。时长不为王,时长因果最强。 | 中等质量内容 × 深度消费的留存率最高(63.4%)。广谱适口型内容比头部 IP 更能将消费深度转化为留存。 |
Part 07:AB 实验核心要点与常见坑
两类错误的直觉(硬币案例)
| 实际正常 | 实际不正常 | |
|---|---|---|
| 数据看起来正常 | √ 正确 | ✗ 二类错误(漏判) |
| 数据看起来不正常 | ✗ 一类错误(误判) | √ 正确 |
实验分析的三个坑
坑 1:大盘不显著,分性别看显著了——有效吗?
- 有效。用户之间行为独立,分流保证了独立同分布
坑 2:某个内容曝光涨了 3 倍——能说明它显著吗?
- 无效。内容之间不是独立的(曝光总量恒定,此消彼长)
- 要分析是哪个剧被多推导致的涨幅
坑 3:实验组和对照组天生有差异怎么办?
- Pre-AA:正式开实验前先观察两组天然差异
- CUPED:用统计手段把实验前差异「扣除」
- 反转实验:重新分组后做反向验证
20 世纪 vs 21 世纪统计方法
| 20 世纪方法 | 21 世纪方法 | |
|---|---|---|
| 核心思路 | 构造分布(正态/T/F 分布),强假设 | Bootstrap 自助法,有放回抽样 |
| AI 时代 | 公式细节 AI 算 | 思想仍重要,执行交给 AI |
Part 08:AI 时代的数据决策
AI 能替代 vs 不能替代的环节
创意工作不能取代,基础知识和认知是判断力的基础,执行工作基本都可以取代
| 环节 | AI 能否替代 | 原因 |
|---|---|---|
| 取数、清洗 | 能辅助 | 工具属性强 |
| 可视化 | 能 | 描述需求即可 |
| 模型执行 | 能 | AI 比人更准 |
| 问题定义 | 不能 | 什么是好问题需要业务理解 |
| 业务假设 | 不能 | 因果方向靠经验判断 |
| 结果审查 | 不能 | 你要能判断 AI 的结论对不对 |
三个关键命题
提出正确的问题,AI 给你正确的答案。 提出错误的问题,AI 给你错误的答案。 基础知识是为了知道 AI 说的对不对。 批判性思维是当 AI 说错了一半,你来挑出哪里错了。
3 小时总结
- 数据分析 = 逻辑层(确认问题 → WHAT 假设 → WHY 假设 → 报告)+ 实现层(取数 → 清洗 → 模型/可视化/计算新列循环 → 报告)
- 因果关系三层阶梯:关联 → 干预 → 反事实
- 将「必须掌握的知识」和「交给 AI 就可以的知识」区分开来
- 因果图是数据分析的指路罗盘
- AI 时代的策略产品经理:掌握基础理论 + 善用 AI 工具提效
最后一句话(上个价值)
数据分析是手段,用户理解是目的。
问题得到解答了吗?
工作坊呼应开头的四类困境:
- 看了数据但不知道结论 → 对应方法论的逻辑层四步
- 有结论但不确信是对的 → 对应因果推断 + AB 实验交叉验证
- 确信对了但推不动落地 → 对应问题定义 + OKR + 拆人头流程
- 没有数据基建,不知道要怎么做 → 对应小瞳咨询的 2-3 个月企业落地服务
关键金句
「慢就是快——为什么定义问题最重要。」——韩瞳
「因果图是唯一真理。」——韩瞳
「提出正确的问题,AI 给你正确的答案;提出错误的问题,AI 给你错误的答案。」——韩瞳
「基础知识是为了知道 AI 说的对不对,批判性思维是当 AI 说错了一半你来挑出哪里错了。」——韩瞳
「数据分析是手段,用户理解是目的。」——韩瞳
可行建议
- 问题定义先行:开始任何数据分析前先回答「业务层面的主要矛盾是什么」「数据时间空间范围口径」「这个项目的 O 是什么 KR 是什么」
- 业务目标按四级分解:公司战略 → 团队 OKR → 工作线 → 具体 AB 实验,每条工作线下都有目标指标 + 护栏指标
- WHY 假设走六字口诀:对比(找统计量)→ 分析(看维度差异)→ 溯源(画因果图找根本原因)
- 均值 vs 中位数有规则:做收入/VV 看均值(幂律),做留存/新用户体验看中位数(普通用户破零是关键)
- 找 Magic Number:每个产品都应找出自己的「第 N 集 / 第 N 条对话」之类的留存跃升点
- 画因果图三件事:识别混杂因子(控制)/ 识别中介因子(看效应时不控制)/ 识别对撞因子(绝对不控制)
- 策略产品标准工作流:因果图 → 匹配法/分层法 → AB 实验
- AB 实验三件事:Pre-AA / CUPED / 反转实验,规避实验组对照组天生差异
- AI 时代时间分配:把执行类工作(取数清洗可视化模型)交给 AI,把判断力工作(问题定义业务假设结果审查)留给自己
- 判断力的底座:扎实的基础学科知识 + 交叉学科能力,会提问、会 Check AI 给的结果、会给下一步指示
关键数据/案例索引
讲者背景:韩瞳,「小瞳咨询」创始人,《策略产品经理实践 1/2》作者;前字节跳动早期策略产品 / 知乎推荐策略团队负责人 / 百度小说搜推增负责人;东北大学数学系,数学建模竞赛国际一等奖;擅长企业 AI 转型(1 年)、搜推策略(10 年)、社区生态策略(7 年)、数据分析(10 年)、团队管理(4 年)。
核心方法论:
- 数据分析双层框架(逻辑层四步 + 实现层六步)
- WHY 假设六字口诀(对比、分析、溯源)
- 业务目标四级分解(公司战略 - OKR - 工作线 - AB 实验)
- 问题定义三层进阶(入门:定义问题 / 进阶:定义目标和护栏 / 高级:定义 Trade-off)
- 因果推断 7 大基础知识
- Pearl 因果三层阶梯(关联 → 干预 → 反事实)
- 因果图三种基本结构(中介/混杂/对撞)+ 控制规则
- 后门准则 / 前门准则
- Rubin 潜在因果模型 / ATE / ATT / 选择偏差
- 五种常用因果控制方法(AB / 匹配 PSM / 双重差分 DID / 断点回归 RDD / 工具变量 IV / 合成控制法)
- 数据分析报告的 60 分原则
- 5 种数据生成效应(加和/等待/优势/[0,1]/构造)
- AB 实验三大坑(分群独立性 / 内容曝光此消彼长 / 实验组对照组天生差异)
- 两类错误(一类误判 / 二类漏判)
- 20 vs 21 世纪统计方法(构造分布 vs Bootstrap)
完整案例:
- 案例 1:红果短剧创业期——3-5 人 + Agent 集群 / 18-25 岁 / 次留 → 七留 → ARPU / 三个表面问题 / 因果图新用户留存 DAG(Day0 消费深度 +0.18 → 次日留存)/ 三个子问题三种解法 / 冷启动音频特征:音量高 17%、重音峰值多 7% → 完播率更高 /
mean_onset_strength关键指标 - 案例 2:短剧精排 AB 实验——CTR +10%(p≈0.01)但二类错误 30% / Claude Code 下钻 / 平均点击位置前移 2.87 位 / 涨幅来自高频用户 i2i 召回 / 留存优化要走低频用户破零路径 / 性别错配 + 内容老化
- 案例:知乎主场景——四个目标维度(留存/时长/生态/收入)/ 留存子问题树 5 大类 / 不同人群不同留存指标(oDAU/retain/monthly/ODCU)
因果分析报告(内容平台新用户留存):朴素 ATE 30.1pp / 分层后 18.0pp / PSM-ATT 18.1pp(最严格)/ 真实效应 60% + 渠道偏差 25% + 活动偏差 15% / 完播率纯因果信号最强 / 中等质量内容 × 深度消费留存率 63.4% / 20-30min 是最大跳升点(+19.2pp)
Magic Number:
- 短剧 App:2 部剧集(约 60 分钟)→ 留存大幅跃升
- 豆瓣:第 1 条对话 → 留存远高于没有的
4 个失败案例:某社区视频转型(6 秒 VV 变形)/ 某内容产品创作量横盘一年半(曝光 vs 互动的因果颠倒)/ 某广告业务 ADLOAD 不看 ECPM / 某短剧 APP 新用户留存(没定义问题)
指标体系示例(脱敏):
- 知乎留存子问题树:消费促留存 / 体验改善 / 内容供给 / 低频用户专项 / 算法基础能力
- 留存指标分人群:oDAU 次日留存 / retain 用户次日留存 / monthly 用户次启 / ODCU
- 多维数据维度:渠道 / 人群 / 内容 / 时段
- 推荐召回队列:投放承接 / 看了又看 / 标签召回 / i2i 召回
关键人物与文献:
- Pearl(《为什么》/ 因果三层阶梯 / 后门准则 / 前门准则 / Do 算子 / 2011 年图灵奖)
- Donald Rubin(潜在因果模型 / Rubin 因果模型 / 20 世纪 70 年代提出)
- Fisher(农作物肥料实验 / 群体平均效应)
- Donald Rubin / Judea Pearl 两派已经被证明数学等价
工具与技术:
- Claude Code(本地分析)
- librosa 库(音频特征提取)
- AUC(Area Under ROC Curve)/ ROC
- Beta 分布 / 正态分布 / 指数分布 / 伽马分布 / 幂律分布 / t 分布 / 卡方分布 / F 分布
- T 检验 / 中位数检验 / 方差分析 ANOVA / 卡方检验 / F 检验
- XGBoost / 决策树 / LR 回归
- PSM(倾向性得分匹配)/ DID(双重差分)/ RDD(断点回归)/ IV(工具变量)
- MAB 动态实验(Thompson Sampling)
- Bootstrap 自助法
- Pre-AA / CUPED / 反转实验
关键概念词:
- TC-PMF / OKR / KPI
- EDA(探索性数据分析)/ CDA(验证性数据分析)
- Holdout / 分层实验 / 灰度
- ATE / ATT / 反事实结果
- 混杂因子 / 中介因子 / 对撞因子
- 后门路径 / 前门路径
- 一类错误 / 二类错误 / 统计功效
- p 值 / 置信区间
- DAU / oDAU / LT7 / ARPU / CTR / CPM / ADLOAD / ECPM / VV / cardshow
- K1 路径系数 / D0 / Magic Number