AI 时代的企业数据决策机制——方法论和实践案例

会议: 产品力领航者大会 PM × AI · 2026 春季 | 讲者: 韩瞳（小瞳咨询创始人，前字节跳动早期策略产品 / 知乎推荐策略团队负责人 / 百度小说搜推增负责人，《策略产品经理实践 1/2》作者） | 时间: 2026-04-25 下午 · 工作坊（约 3 小时）

一句话总结

AI 时代企业数据决策的核心是「问题定义 + 因果思维 + AB 实验」三件套：用「逻辑层四步（确认问题 → WHAT 假设 → WHY 假设 → 报告）+ 实现层六步（取数 → 清洗 → 模型/可视化/计算新列循环 → 报告）」做分析骨架，以 Pearl 因果三层阶梯（关联/干预/反事实）和因果图为指南针；AI 替代了执行环节但替代不了问题定义与结果审查，判断力杠杆在 AI 时代被放大。

速览

慢就是快——「为什么定义问题最重要」是工作坊主标题之一，提出错误问题并定错业务目标的代价巨大（4 个真实失败案例）。
数据分析方法论双层模型——逻辑层四步（确认问题 → WHAT 假设 → WHY 假设 → 报告）+ 实现层六步（取数 → 清洗 → 模型/可视化/计算新列循环 → 报告），WHAT 假设对应 EDA、WHY 假设对应 CDA。
WHY 假设六字口诀——对比、分析、溯源（找统计量 → 看维度差异 → 画因果图溯源根本原因）。
业务目标定义三层进阶——入门定义清楚问题 / 进阶定义清楚目标和护栏 / 高级定义清楚 Trade-off；附知乎主场景四级目标分解（公司战略-OKR-工作线-AB 实验）。
因果推断 7 大基础知识——相关 ≠ 因果 / Pearl 三层阶梯（关联-干预-反事实）/ 因果图三种基本结构（中介/混杂/对撞）/ 后门准则与前门准则 / Rubin 潜在因果模型 / 群体而非个体 / 策略产品最常用分层匹配，DS 最常用 DID。
均值 vs 中位数——做收入/VV 看均值（幂律分布）/ 做留存与新用户体验看中位数（普通用户破零是关键）；短剧 App 看 2 部剧集（约 60 分钟）= 留存大幅跃升。
数据生成的五种效应速查——加和（正态/钟形）/ 等待（指数/伽马）/ 优势（幂律/长尾）/ 值域 [0,1]（Beta）/ 构造（t/卡方/F，假设检验基石）。
完整案例 1：红果短剧创业期 三个表面问题（次留达标七留不足 / 投放素材与承接剧不匹配 / 内容冷启动流量不够）→ 因果图 + Claude Code 分析 + 冷启动音频/视觉特征预评级。
完整案例 2：短剧精排 AB 实验——CTR 显著提升 10%（p≈0.01）但二类错误约 30% 统计功效未达 80%，用 Claude Code 下钻发现涨幅来自 i2i 召回 + 高频用户，留存优化要走低频用户破零路径。
AB 实验三大坑 + 两类错误——大盘不显著分性别看显著有效 / 内容曝光涨 3 倍不能直接说显著（曝光此消彼长）/ 实验组对照组天生有差异（Pre-AA / CUPED / 反转实验）。
AI 替代地图——能替代：取数清洗/可视化/模型执行；不能替代：问题定义/业务假设/结果审查；判断力杠杆增强，执行类杠杆弱化。
结语——「数据分析是手段，用户理解是目的；提出正确的问题，AI 给你正确的答案；基础知识是为了知道 AI 说的对不对，批判性思维是当 AI 说错了一半你来挑出哪里错了。」

核心内容

Part 01：为什么今天要聊数据决策

工作坊背景与讲者

韩瞳，策略产品经理，《策略产品经理实践 1/2》作者，现任**「小瞳咨询」**创始人，为企业客户提供 AI Native 组织重构、内容社区、搜推策略、数据科学领域的咨询陪跑服务。

字节跳动早期策略产品 / 知乎推荐策略团队负责人 / 百度小说搜推增负责人
东北大学数学系，数学建模竞赛国际一等奖，从数学建模的经验走向策略产品岗位
擅长企业 AI 转型（1 年）、搜推策略（10 年）、社区生态策略（7 年）、数据分析（10 年）、团队管理（4 年）

工作坊节奏：8 个 Part、约 3 小时（含 10 分钟茶歇）：

Part 1：为什么今天要聊数据决策（10min）
Part 2：问题定义——一切分析的起点（10min）
Part 3：数据分析核心方法论（30min）
Part 4：案例 1 假如你在红果短剧创业期（30min）
Part 5：因果推断——从相关到因果（20min）
Part 6：案例 2 短剧精排 AB 实验分析（30min）
茶歇休息
Part 7：AB 实验核心要点与常见坑（15min）
Part 8：AI 时代的数据决策（10min）
框架总结与行动清单（5min）

前情导入：四类熟悉的场景与发言

讲者先用两组「场景共情」让听众对号入座。

前情导入 1：以下哪个场景你最熟悉

每周看一堆数据报告，但做不出决策
团队说 AB 实验结论很显著，但上线后没效果
知道该用 AI，但不知道数据基础设施从哪建起
以上全是

「今天讲的方法论和案例，在实际企业落地中通常需要 2-3 个月。涉及团队数据能力诊断、AI 工具链搭建、实验文化建立三个阶段。这也是我和很多企业正在做的事。」

前情导入 2：你熟悉以下的发言吗

一线 PM 视角	业务负责人视角
数据获取层面：想看个数据，提了需求排了两周，结果取出来口径不对，又排了一周	信任层面：我不懂数据，但我感觉他们在糊弄我——永远只拿有利的数据汇报
分析能力层面：每次做分析都是想到哪看到哪，没有方法论，感觉靠直觉和运气	投入产出层面：请了 3 个数据分析师，产出就是每周几份报告，我花这么多钱就为了看报告？
AB 实验层面：实验结果显著，上线后效果没了，老板觉得我在做假数据	AI 转型层面：我让团队用 AI 提效，但他们把 AI 当搜索引擎用，我觉得不对但也说不出哪不对

业务决策时最大的问题

四个真实困境：

看了数据但不知道结论
有结论但不确信是对的
确信对了但推不动落地
没有数据基建，不知道要怎么做

「如何决策呢 :(」——这个困境贯穿整个工作坊。

为什么数据分析值得深聊

判断力杠杆 → 扎实基础知识 → 提出好问题 的三段链路：

AI 时代，执行类工作的杠杆在快速弱化，但判断力的杠杆在增强
判断力的底座是：扎实的基础学科知识 + 交叉学科能力
会提问、会 Check AI 给的结果、会给下一步指示

小韩的讲解思路（AI 总结）

讲者本工作坊的内容地图：

一个核心工具：因果图的画法和使用方法
一套分析框架：逻辑层四步法 + 实现层六步法
两个完整案例：一个探索性分析（红果短剧创业期）+ 一个 AB 实验验证（短剧精排）
一组实战经验：均值 vs 中位数、问题定义、实验的坑

Part 02：问题定义——一切分析的起点

为什么定义问题最重要：慢就是快

四个「提出错误问题并定错业务目标」的真实代价：

案例 1：某社区的视频转型失败

应该定供给质量指标，不是消费规模指标
本质是定义错了问题，没做「田野调查」，没有定义清楚问题
指标定为「6 秒 VV」→ 业务变形 → 强插视频 → 项目关闭

案例 2：某内容产品创作量上不去

之前以为曝光量影响发布量 → 给大作者加曝光 → 发布量横盘一年半
通过因果分析发现作者更受「是否及时互动」的影响

案例 3：某广告业务收入提升不上去

收入模型和 CTR、CVR 直接相关，业务设计了「广告耐受度」指标
实际上没有人爱看广告，以至于没有优化广告素材质量，一味增加 ADLOAD 不看 ECPM

案例 4：某短剧 APP 新用户留存上不去

几年前 case，本工作坊的核心案例
业务团队希望越快越好的把新用户视作一个整体，过往有效的策略手段能上就上，但没有定义问题
事实证明「慢就是快」

定义业务问题的方式：五步流程

讲者的标准流程：

项目背景：重点向项目组成员说明「为什么」而非「如何做」，从用户视角出发描述问题和期望，按照「是什么 → 为什么」的顺序构建论述
项目 OKR：该项目的 O 是什么，KR 是什么
定义问题：使用数据分析能力对业务现状做盘点，EDA 为主
提出假设：这是最为重要的一步，业务假设通常是一句话，生效逻辑则往往以因果图的方式给出
验证假设：实验结束后通过对实验数据的分析解读，证明或者证否了假设

注：笔者和团队沟通方案时常用「策略螺丝」一词比喻逻辑层中我们能干预的一些变量，本质上「策略螺丝」等价于因果图中的随机变量。

Example：过往场景中如何定义业务目标（1）

目标体系：从战略到实验的四级分解

讲者推荐的目标定义方式（以知乎主场景为例，部分数据脱敏）：

公司战略：生态第一
   ↓
团队目标（OKR）：留存 + 时长
   ↓
工作线（4 条主线）：生态建设 / 消费体验 / 商业分发 / 算法能力
   ↓
具体实验：每条工作线下个 AB 实验，每个实验有明确的目标指标和护栏指标

关键原则：目标不是简单的数字，而是多目标的权衡（Trade-off）。

多目标权衡：留存 vs 时长 vs 生态 vs 收入

维度	核心指标	特点
留存	老用户次月日留存 / retain 用户次日留存	滞后指标，最敏感也最难提升
时长	oDAU 人均在屏时长 / 推荐页人均在屏时长	即时指标，最容易看到变化
生态	新内容曝光占比 / A3+ 内容曝光占比 / 负反馈率	约束条件，不是直接追求的数字
收入	知 + 收入 / adload / CPM	商业指标，需要与用户体验平衡

具体的权衡案例（数据脱敏）：

案例 1：首刷 top1 不出商业内容——放弃首刷第一位的高价值商业曝光，换取 LT7+xx%、次留+xx%、人均在屏时长+xx%；逻辑：短期收入让步于用户体验和长期留存
案例 2：短图文从「按字数」改为「按信息量」分发——放弃原有的字数过滤标准（xx 字以下不分发），换取三留、时长、人均 cardshow 均显著提升；逻辑：旧规则「字数=质量」的假设是错的，短图文占比提升到 xx%
案例 3：低频用户的 adload 优化——问题：monthly 用户 adload 过高（xx%），体验差；动作：对低价值商业内容分发优化；结果：adload xx%（xx），低频用户体验改善

Example：过往场景中如何定义业务目标（2）

提升留存的子问题树（脱敏）：

提升留存
├── 1. 提升消费促留存（提升时长、提升点击率）
│   ├── 个性化多目标融合模型 → 人均时长+x.x%
│   ├── 精排加入阅读时长/完成度目标 → 人均时长+x.x%
│   └── ListWise 重排序 → 人均时长+x.x%
├── 2. 改善体验促留存（减少负反馈）
│   ├── 显式负反馈建模 → 不感兴趣率+x.x%
│   └── 隐式负反馈建模 → LT7+x.x%
├── 3. 内容供给优化（分发好内容）
│   ├── 新内容冷启动加速 → 7 日内新内容 ctr+x.xx%
│   ├── A1 内容打压 → A1 曝光占比降 x.x%
│   └── 时间衰减 → <180d cardshow+x.xx%
├── 4. 低频用户专项（让「不太来的人」多来）
│   ├── 首屏管理 + 外部信号引入
│   └── monthly 用户人均时长+x.x%，次启 x.x5%
└── 5. 算法基础能力（全链路提效）
    ├── 粗排实时性（天 → x 分钟）
    ├── 全链路一致性
    └── holdout 机制 → 累积验证整体提升

每个子问题的定义方式表格：

子问题	目标指标	护栏指标	时间范围	可干预变量
个性化多目标融合	人均时长	次留、CTR	AB 实验周期	精排融合权重
负反馈建模	负反馈率	消费指标、留存	AB 实验周期	精排负反馈目标权重
新内容冷启	新内容 ctr	整体 ctr、时长	冷启 7 天内	召回队列入口、冷启保量策略
短图文分发	短图文 cardshow 占比	三留、时长	全量后持续监控	分发规则（字数→信息量）
商业首刷保护	次留、LT7	知+收入	AB 实验周期	商业内容出位策略

指标体系：一个目标的多种测法——知乎主场景对不同用户群体用不同的指标衡量留存：

用户群体	留存指标	为什么
整体	oDAU 次日留存	大盘健康度
retain 用户	retain 用户次日留存	排除新增用户的噪声
低频用户	monthly 用户次启、阅读率	低频用户破零是关键
创作者	ODCU（日创作用户）	创作者生态健康度

这正是「做留存看中位数」的实践体现——不同人群需要不同的测量方式。

Example（3）：成熟业务 vs 创业期的问题定义差异

维度	创业期（短剧 App 案例）	成熟期（知乎主场景）
目标数量	1 个（次留或七留）	4 个维度（留存/时长/生态/收入）
核心矛盾	资源不够、数据缺失	多目标 Trade-off
指标选择	先找信号，再做测量	已有完善指标体系
实验能力	可能没有 AB 基础设施	holdout + 分层实验
问题定义重点	定义清楚问题是什么	定义清楚 Trade-off 怎么选

问题定义的三个层次（进阶版）：

第一层（入门）：定义清楚问题是什么——时间范围、空间范围、口径定义。适用于：新人、创业期、第一次接触这个问题
第二层（进阶）：定义清楚目标和护栏——目标指标（你要提升什么）、护栏指标（你绝对不能降低什么）。适用于：有 AB 实验能力的团队
第三层（高级）：定义清楚 Trade-off——多个目标之间的优先级、短期收益 vs 长期生态。适用于：成熟业务线、管理者

Part 03：数据分析核心方法论

方法论来源：逻辑层 + 实现层

逻辑层（四步）：

确认问题 → WHAT 假设 → WHY 假设 → 报告
（其中：WHAT 假设对应 EDA 阶段，WHY 假设对应 CDA 阶段）

逻辑层细化：定义问题（确定数据的时间范围和数据口径，给出数据假设）→ what 假设（四则运算拆解得到关键变量）→ why 假设（绘制因果图，根据因果图理论控制变量对比-分析-溯源）→ 输出数据报告

实现层（六步）：

取数 → 清洗 → 模型/可视化/计算新列（循环） → 报告

逻辑层第一步：确认问题

四点要做：

业务层面：诊断业务当前主要矛盾
数据分析层面：定义数据的时间范围和空间范围
好问题 vs 坏问题：
- 好的问题：啥数据涨了 or 跌了，比如评论率从 11-27 开始下跌，跌了 0.32%
- 好的问题：试推组和扩量组的人群属性是否均匀？模型泛化组和训练数据的人群是否一致？
- 坏的问题：今年的数据不好
确认问题的关键点：
- 1）要分析的数据存在吗？是不是没有打点，或者有打点但是不准？
- 2）划定数据的时间、空间范围：要分析什么时候到什么时候的数据？什么维度？

逻辑层第二步：分解问题、建立 WHAT 假设

核心方法：四则运算分解——把大指标通过加减乘除拆成小指标，找到「变化最大的变量」。

示例：

DAU 下降 → DAU = 新增用户 + 老用户 → 新增从 10 万/天降到 1 万/天，老用户没变 → 锁定新增
用户停留总时长下降 → 总时长 = 曝光量 × 点击率 × 人均停留时间 → 三个因子哪个掉最多？
CTR 下降了 → Click 掉了，Show 也掉了 → Click 掉的更多

逻辑层第三步：建立 WHY 假设（最重要的一步）

六字口诀：对比、分析、溯源

对比：找统计量——均值/中位数/分位数，和谁比？（同比/环比/AB）
分析：看差异在哪——哪个维度变化最多？（渠道/人群/内容/时段）
溯源：追问为什么——根本原因是什么？画因果图

案例 1：新增用户下降的 WHY 推导

买量预算 → 渠道曝光量 → 下载量 → 新增用户
假设 1：统计错误 → 排查日志 → 否
假设 2：某买量渠道效果变差 → 供应商停掉 ROI<1 渠道 → 是！
假设 3：竞品抢量 → 检查竞品投放 → 否

案例 2：滴滴的数据分析师发现【重庆地区的叫车时长预估和实际到达时长差距较大】

假设 1：「气象条件导致了误差」
假设 2：「司机习惯于更晚点击乘客已到达的按钮」「重庆的三维地形结构导致了用二维距离预估失准」——地理知识 ✓
假设 3：「重庆路面湿滑，车都跑的快」

逻辑层第四步：报告产出与沟通

关于数据报告的撰写：

数据报告需要「渐进整合」，使用多种「聚合性证据」佐证命题
数据报告需要清晰易懂，优先级：图片 > 表格 > 文字

实际工作中能得到 100% 符合严谨性的数据分析报告基本是不可能的，数据证据是「渐进整合」而非「大步跃进」的。

AI 时代数据报告产出成本几乎为 0，韩瞳的经验公式是同一个假设累计 60 分即 Solid：

AB 实验报告 30 分
Case 主观评估报告 25 分
因果推断分析报告 25 分
普通 CDA 分析 20 分
普通 EDA 分析 15 分

实现层前两步：取数据 + 数据清洗

AI 大提效，数据字典完备情况下，人人可取数，但数据清洗仍需要消耗 40% 时间。

常见问题	案例	处理方式
空值过多	用户性别 80% 是 Null	排查原因，可能旧表废弃
极端异常值	每天阅读 >24 小时	占比 < 千分之一可忽略
收入异常高	少数用户贡献极高	收入数据通常有意义，重点关注
机器人爬虫	每天看 10000 篇文章	标记并上报反作弊团队

实现层第 345 步：模型 / 可视化 / 计算新列

01 模型：

一般是回归类问题，模型可以搞清楚各个因子之间的关系
模型选择：XGBoost（万金油）、决策树（可解释）、LR 回归（简单）
AI 时代只要要定义清楚问题，AI 可以帮你选模型和执行

02 数据可视化：

单变量连续型 → 箱线图（首选）
双变量连续 vs 离散 → 箱线图（首选）
双变量连续 vs 连续 → 散点图 / 气泡图
双变量离散 vs 离散 → 热力图
（箱线图的妙用：带缺口 + 可变宽度 → 同时展示中位数、置信区间、数据量级、异常值）

03 计算新列：定义某个数值的时候一般想清楚正反比关系，让 AI 给你写个公式：比如 Score = F(x,y,z)。

产品经理的「数据 Sense」很多就是对异常数据的发现能力。

数据的四种类型

	单一对象	多个对象
单时间点	静态数据	横截面数据
多时间点	时间序列数据	面板数据

数据分析的两大分析阶段：EDA + CDA

EDA（探索性数据分析）：无假设时收集数据，从而建立假设
CDA（验证性数据分析）：先建立假设，再收集数据
EDA 主要靠可视化，CDA 主要靠模型、因果推断和 AB test
不清楚现状时候做探索性分析，清楚现状后要控制内生变量，做验证性分析

什么时候看均值，什么时候看中位数

业务目标	看什么	原因	对应检验
做收入 / VV	均值	少数大 R 贡献大部分价值	T 检验
做留存	中位数 / P25	需要绝大多数人迈过 magic number	中位数检验
做新用户体验	中位数	让破零的人变多	中位数检验

三层判断：

收入场景 — 幂律分布：让穷人花一块钱很难，让富人花一万相对简单——所以看均值（均值反映头部贡献）
留存场景 — 需要普通人迈过门槛，看 p25 或者 p50。高频用户你骂他他都来，低频用户的破零体验才是关键——所以看中位数（中位数反映「普通用户」状态）
留存场景的 Magic Number：
- 短剧 App：看 2 部剧集（约 60 分钟）→ 留存大幅跃升
- 豆瓣：产生第 1 条对话 → 留存远高于没有的

数据的生成逻辑：五种效应速查

讲者把统计学的核心分布映射到五种现实效应：

效应	分布	典型案例	互联网场景
加和效应（Additive Effect）	正态分布 / 钟形曲线	大量独立因子叠加（中心极限定理）	实测两端用户的平均量级、页面加载时间（如网络、服务器、CDN 等多重影响）
时间等待效应（Time Waiting Effect）	指数分布 / 伽马分布 / 几何分布	假设事件未来仍然可发生（过去多久不影响未来发生），那么等待事件发生的时间服从指数分布；如果需要等多次独立事件发生，总等待时间服从伽马分布	用户从打开 App 到下一次点击的等待时间；客服系统中等待下一个电话的时间
优势连接效应（Preferential Attachment）	幂律分布 / 长尾曲线	事物所属一旦带有优势，就更容易获得更多资源，形成滚雪球状的「强者恒强」	公司市值、头部几家公司占大部分分布市值；短视频曝光量；用户收入；少数大短剧贡献绝大部分流量；社交网络粉丝数；大 V 重度用户贡献度
值域 [0,1] 效应（Probability Modeling）	Beta 分布	当我们需要「概率本身」建模——比如「这个网页的参与率是多少」——参与率为 0% 到 100%，用 Beta 分布来描述	AB 实验中用户群组转化率/承接率估计；用户对不同品类偏好的概率建模；威尔逊置信区间的底层原理
统计学家构造的理想分布	t/卡方/F 分布——假设检验的基石	当我们只有少量样本，不知道总体长什么样时，统计学家通过数学推导构造了三种「理想分布」：t 分布（样本量少时估计均值 → AB 实验中 T 检验的基础）/ 卡方（χ²）分布（度量方差差异 → 检验样本方差与理论方差的差异）/ F 分布（对比两方差异同 → 方差分析 ANOVA 的基础）	AB 实验中比较两组用户的均值差异（T 检验）/ 检验某个因素是否有显著影响（卡方检验）/ 评估模型拟合优度（F 检验）

5 种效应速查总结：加和 | 等待 | 优势 | [0,1] | 构造。

Part 04：完整案例 1——假如你在红果短剧创业期

案例背景 + 统一分析模板

场景设定：假设红果短剧回到今天继续创业，打败现在的自己，你是业务负责人
团队规模：3-5 人，高人才密度，Agent 集群工作，短剧资源充沛
业务目标：「打造年轻人最喜欢的短剧 App」
竞争环境：竞品「黄瓜短剧」已站稳头部，抖音短剧流量巨大
主要矛盾：买量获客后留存断崖，数据分析能力跟不上

案例一：业务目标 + 表面问题

业务目标：

打造「年轻人最喜欢的短剧 App」
核心人群：18-25 岁
核心指标：新用户次留 → 七日留存 → ARPU
商业模式：广告 + 付费

表面问题：

问题 1：新用户买量进来后，次日留存凑合，但七日留存断崖下降
问题 2：投放素材和 App 内承接内容不匹配
问题 3：内容冷启动流量不够，无法测出「好内容」

因果图是唯一真理

新用户留存因果图（K1 路径系数）：

曝光某个短剧 → 点击某个短剧 → 点击并播放某个短剧 → 完成 3 秒播放 → 完成一集播放 → 完成 3 集播放
                                                                                           ↓
                                                                                  K9（本质上是 D0 那个指标，单体概率）
                                                                                           ↓
                                                                                次日留存 → 3 日留存 → 7 日留存

因子分类（决定 K1）：

兴趣因素：剧集和用户兴趣 corr / 看没看过（全网最早发布时间距今）
质量因素：封面吸睛程度 / 剧集知名度（热播程度）

因子分类（决定中间转化）：

质量因素：高光吸睛程度 / 颜值、服化道 / 剧集清晰度

因子分类（决定 3 集播放）：

质量因素：剧集粘性（测度=AUC）

业务比较深入后会得到右侧图（脱敏）

新用户留存因果图 (DAG) Causal Inference on User Retention — Confounder Identification & Effect Estimation：

混杂因子 (Confounders)：
  用户来源渠道 / 校园活动用户 / 内容质量评分

处理变量 (Treatment)：
  Day0 消费深度

中介因子 (Mediator)：
  继续追剧行为

结果 (Outcome)：
  次日留存 → 7 日留存

路径系数（脱敏）：
  Day0 消费深度 +0.18 → 次日留存
  Day0 消费深度 +0.13 → 继续追剧行为
  继续追剧行为 +0.06 → 次日留存
  继续追剧行为 +0.11 → 7 日留存

业务问题如何解决：先定义问题，写 OKR 并拆到项目、拆到人头

主要矛盾是新用户的剧集匹配策略。三个子问题三种解法：

子问题 1：新用户次留达标，七留不足——分析因果图中的次留到七留的因果分析

用户动线分析：AI 将 excel 表的 oaid 变为文本，抽样高留存 case vs 低留存 case
相关性统计分析：对全局的短剧消费行为做一维统计、二维交叉和三维交叉，做 EDA 看清现状，顺便验埋点
统一认知：用户为什么会点 = F（质量, 兴趣, 场景）

子问题 2：新用户素材和承接剧不匹配

了解行业现状：投放的剧集和承接的剧集绝大多数情况下都是不一样的
不同团队扯皮现象，内容和平台策略互相认为对方差，此时用全网标杆剧解决，两个团队追平标杆
以素材为信号，给定素材后，什么样的 Corr (素材, 承接剧) 是平行世界最优解？

子问题 3：内容冷启动流量不够

不是所有的剧集都需要冷启动
使用 Claude Code 本地分析高爆款的剧集的画面、音频、文本特征，为所有剧集做预评级

问题 2，承接剧：质量因素为主

投放素材相对固定，马太效应极强，作为 Input 的给定信息；质量因素更重要

内容质量评估：AUC 定义

AUC（Area Under the ROC Curve）衡量一个模型区分「正例」和「负例」的能力
在内容质量场景中：正例 = 用户深度消费（播放时长 > P80），负例 = 用户浅度消费或流失
AUC 越高，说明该内容越能「留住用户」。AUC=0.5 为随机水平，AUC=1.0 为完美预测
AUC = P(随机正例得分 > 随机负例得分)

MAB 动态实验（Thompson Sampling）

Arm	含义
Arm 1	投 A 承 A（同剧承接）
Arm 2	投 A 承 B（综合分最优异剧）
Reward	P80 播放 > 3 min 为正例
后验	每臂 Beta(α, β)

运行流程：

从 Beta 分布采样，选择分更高的 Arm
观察用户 P80 播放时长
正例 → α += 1，负例 → β += 1
每 N 个用户输出后验概率

模拟收敛过程（示例：甲等 IP 素材）：约 100 人后 Arm1 后验概率 > 0.90，投 A 承 A（P=0.95）显著优于投 A 承 B（P=0.20）。

问题 3，冷启动 Pre 评级（AI 结果，仅展示了音频维度）

3.3 什么样的剧 3 秒完播率高？（冷启动前置打分）

问题：新剧上线没有用户数据，怎么提前预判质量？

方法：

对 xx 个高曝光视频的前 3 秒提取音频特征（librosa 库）
对 xx 个封面图片做视觉分析
对 xx 条内容做标签维度分析
构建分类模型预测三秒完播率

音频特征发现：

三秒完播率档位	平均音量	最大音量	重音峰值数
低	0.116	0.242	8.06
中	0.125	0.260	8.22
高	0.136	0.279	8.62

关键发现：

音量高 17%、重音峰值多 7% → 扇耳光、争吵、爆炸声等高冲击力音频前 3 秒完播率更高
核心指标：mean_onset_strength（平均重音强度/爆发力）

Part 05：因果推断基础知识 & 案例

基础知识 1：相关性 ≠ 因果性

讲者从 2020 年读 Pearl 的《为什么》开始接触因果理论。

相关性：X 变量和 Y 变量同涨同跌，或者一个涨一个跌
因果性：X 的改变会导致 Y 的改变

一个真实的案例：工作第三年时讲者负责某新闻客户端的 dislike 功能——每个内容推荐卡片后面跟着一个形如「×」的按钮，用户点击后可以选择不感兴趣的理由。

当写周报时讲者提到「通过数据分析发现，dislike 行为和用户的活跃度呈现强相关的关系，所以应该增加用户 dislike 的概率以提升活跃度」。

现在回头看，这是一个颠倒因果的表述。 更有可能的因果方向是：用户对产品已经有比较强的粘性，所以更愿意通过 dislike 功能表达自己的偏好，以调整推荐内容。这种颠倒因果的表述在许多同学的总结中也经常可以见到。

基础知识 2：Pearl 的因果三层阶梯

Pearl 最初的研究领域是贝叶斯网络，后来转向因果理论研究，也因此在 2011 年获得了有「计算机领域的诺贝尔奖」之称的图灵奖。他发现即便是强大的概率模型（如贝叶斯网络），也只能回答「若观察到 X，则 Y 的概率如何变化」这类关联性问题，而无法解释「若强制改变 X，Y 将如何变化」的因果问题。这种局限性促使他构建了「因果关系三层阶梯」理论：

阶梯层级	解决的问题类型	核心数学工具
第一层关联（Association）	变量 X 与 Y 是如何共同变化的？	相关系数、回归模型等
第二层干预（Intervention）	若强制改变 X，Y 会怎样变化？	后门 / 前门准则、Do 算子
第三层反事实（Counterfactuals）	过去若选择不同，结果会如何？	结构因果模型、回溯-干预-预测

Pearl 通过理论证明，每一个高阶问题都无法用低阶语言描述——第三阶梯的反事实声明需要完整的结构方程模型信息，无法由第二阶梯解决；第二阶梯的干预问题无法通过第一阶梯的纯统计相关性得到唯一解。绝大多数数据分析停留在第一层。AB 实验是第二层的工具，因果推断可以到达第三层。

假如我们考虑的是「吸烟行为 → 肺癌」的因果关系：

第一层（相关性）：观察到吸烟者中肺癌发生率更高，但这种相关性可能受其他因素（遗传背景、环境暴露等）影响，无法直接说明吸烟是肺癌的直接原因
第二层（干预层）：在因果图中「切断」那些指向吸烟的入边，模拟一个情形——随机选取一组人，强制要求他们吸烟，然后观察肺癌发生率。对应 Do(Smoking=1) 的操作，这是一个理论假想，并非在现实中真实实施
第三层（反事实层）：某个吸烟者已经患上了肺癌。在其他条件（年龄、遗传因素、环境暴露等）保持不变的前提下，如果该个体反事实地没有吸烟，肺癌风险会不会降低？

基础知识 3：因果图的三种基本结构

为认识因果关系，就需要了解数据的生成逻辑。在因果图的理论框架中，节点间的有向边代表因果关系的传递通路。三种基本结构：

结构	名称	Z 的角色	例子	控制规则	一句话解释
X → Z → Y	链接合（中介因子）	中介变量，传递 X 到 Y 的因果效应	吸烟 → 焦油沉积 → 肺癌（控制焦油沉积后，吸烟与肺癌的因果联系被切断）	要控制（研究总效应时不控制）	Z 是传递链，控制它就切断了因果通路
X ← Z → Y	叉接合（混杂因子）	共同原因，制造虚假关联	鞋码 ← 年龄 → 阅读能力（控制年龄后，鞋码与阅读能力的关联消失）	要控制	Z 是共同原因，不控制会得到虚假因果
X → Z ← Y	对撞接合（对撞因子）	共同结果，X 和 Y 本来独立	才能 → 成名 ← 外貌（控制「成名」后，才能和外貌产生虚假负相关）	不要控制	Z 是共同结果，控制它反而制造虚假关联

对撞因子产生虚假相关的解释：以杀人犯案 — 死亡身体 — 杀人凶器为例，二者本独立，但中心脏病的发作很显然是与杀人无关的独立事件。

基础知识 4：后门准则和前门准则

在 Pearl 的因果理论中，Do 算子的数学表达式 P(Y | do(X)) 与传统的条件概率 P(Y | X) 形成根本区别——后者反映的是被动观察，前者模拟主动干预的实验环境。Do 算子使得因果效应估计首次具有严格的数学基础。

然而，我们无法在数学上直接计算 P(Y | do(X))，因为我们的数据是观察数据而非实验数据。Pearl 的后门准则和前门准则提供了两种将 do(X) 转化为可计算的观察量的路径。

后门准则（Back-Door Criterion）：思想是「找到所有从 X 到 Y 的『非因果路径』（后门路径），然后通过控制这些路径上的变量来阻断它们」，从而将 P(Y | do(X)) 转化为 P(Y | X, Z) 的加权形式。

后门路径是指所有从 X 出发，经过「←」（反向边）到达 Y 的路径——这些路径不经过 X → Y 的因果方向，而是绕道 Z 的「后门」。控制 Z 就能阻断这些路径
操作原则：在因果图中，找到所有从 X 到 Y 的后门路径，识别路径上的混杂因子，然后通过分层、匹配或回归等方式控制这些变量

前门准则（Front-Door Criterion）：当混杂因子不可观测（即无法控制 Z）时，后门准则无法直接使用。前门准则提供了另一条路径：如果存在一个中介变量 M，X → M → Y，且 X 和 Y 之间的后门路径可以通过 M 来识别，则可以通过 M 的条件概率链式法则来估计因果效应。

前门准则在互联网业务中不太常用，因为大多数情况下混杂因子是可观测的。但在社会科学和医学研究中，当混杂因子不可观测时，前门准则是一种重要的替代方案

基础知识 5：潜在因果模型（Rubin Causal Model）

潜在因果模型的核心思想最早由统计学家 Donald Rubin 在 20 世纪 70 年代提出，称为「Rubin 因果模型」。在因果理论的学派中有 Rubin 和 Pearl 两派，但已经被证明了 Rubin 的潜在因果模型和 Pearl 的因果图模型在数学上是等价的。

本书的观点是将因果图视为思想模型和沟通工具（适合放到数据分析报告里），将潜在因果模型视为实操工具。

核心概念（以「数学培训对学生成绩的影响」为例）：

处理（Treatment）：学生被分配到数学培训的干预状态。参加培训为处理组，未参加为非处理组——和 AB 实验中实验组与对照组的概念一致
潜在结果（Potential Outcome）：每个学生在不同处理状态下可能获得的成绩。例如学生甲若参加培训可能得 90 分，若未参加可得 75 分。但现实中一个学生只能处于一种状态——要么参加培训并测得成绩，要么未参加并测得另一种成绩。那个「未实现的潜在结果」被称为反事实结果（Counterfactual）

用户	是否参加培训 (D)	潜在结果（参加）	潜在结果（不参加）	差异
甲	参加	95 分	65 分（不可观测）	30 分
乙	参加	85 分	50 分（不可观测）	35 分
丙	不参加	80 分（不可观测）	60 分	25 分
丁	不参加	70 分（不可观测）	40 分	30 分

平均处理效应（ATE）：所有人参加培训的值减去不参加培训的值，取平均：(30 + 35 + 25 + 30) / 4 = 30 分
处理组的平均处理效应（ATT）：参加培训的甲乙两人的平均：(30 + 35) / 2 = 32.5 分。这是我们最希望得到的因果效应

选择偏差：核心问题在于，我们无法同时观测到一个学生的两种状态。朴素估计会引入选择偏差： A − D = (A − B) + (B − D) = ATT + 选择偏差

其中 A − B 是处理组的平均因果效应（ATT），B − D 是处理组不参加培训时的得分与非处理组得分的差异——参加培训的同学往往更热爱学习，基本功更好，即使不参加培训得分也更高。所以 B − D 就是人群的选择偏差。

这也说明了为什么 AB 实验要随机分流——主要为了尽可能去除选择偏差。

基础知识 6：能做因果推断是因为我们研究群体而非个体

上帝视角与双胞胎姐妹：假设因果方向「dislike 行为 → 次日留存」成立，那么意味着如果我强行增加用户的 dislike 行为，次日留存就会提升。此时干预可以理解为「上帝」进行的干预——上帝对某个用户说：「我强迫你必须使用 dislike 功能，比你之前 dislike 的更多，同时其他行为保持不变」。然后我们站在四维空间的上帝视角进行观察，能发现用户在原来的世界线中 dislike 了 0 次，次日留存为 X%；而被强迫提升 dislike 行为后，dislike 了 1 次，次日留存为 Y%。

四维空间的上帝视角只是很理想的假设。但我们研究的是群体行为，而不是个体行为。 对于单个用户个体而言，我们永远不可能在当前世界线中观测到他在平行世界的行为表现。但如果用户有一个绝对理想的「双胞胎姐妹」——性别、年龄、生活环境都相同，那么她代表的就是你在平行世界中的表现。

在现实情况中，找到绝对相似的双胞胎也是不可能的。但我们可以通过一些数学工具来测量相似度，近似地得到平行世界中的结果。同样，现实生活中我们也不是要找齐所有的变量，而是要找到所有影响因果关系的变量。比如用户是单眼皮还是双眼皮，大概率不会影响到用户的次日留存——所以在构造双胞胎姐妹时很可能我们不需要保持单双眼皮的一致。

有助于抹平双胞胎姐妹之间严格一致性的要素还有群体的平均效应。对统计学有了解的同学可能听过 Fisher，当时他在田间研究肥料对农作物产量的研究时，很聪明地利用了群体效应——农作物产量当然会受到阳光、雨露的影响，但有肥料的组和无肥料的组，通过将实验组和对照组在区块上交替栽培（实验组在 1、3、5 区块，对照组在 2、4、6 区块），在水量和阳光差异上做到了平均。那么最终的产量差异就纯粹是是否引入肥料引起的了。

基础知识 7：策略产品最常用分层/匹配，DS 最常用 DID

数据分析中的实际应用方法——识别出因果图中的混杂因子、中介因子后，需要选择合适的控制方法。以下是五种常用方法：

方法	说明	适用
随机实验（AB 实验）	黄金标准。通过随机分流确保实验组和对照组在所有可观测维度上同质，从根本上排除选择偏差	可线上实验的场景
匹配法（Matching/PSM）	通过构建相近的「双胞胎对」来控制变量。实际工作中用于找数据指较短的、未受时间影响的数据。几乎在任何场景都可以使用。经常和双重差分一起使用（PSM-DID 法）	几乎所有观察数据分析场景
双重差分法（DID）	本质上是用和被研究的群体平行的群体作为对照组，适合大多数策略类的拟合分析。在时间序列预数据中使用的较多，一般用来佐证某个 AB 实验的长期效果。难点是「平行趋势检验假设」不太容易满足	政策评估、全策略上线后评估
断点回归法（RDD）	一般用在某个上线后策略评估中。比如某个邀请码是月发文字数 10000 字以上的作者。网络到 ±200 字的作者票上没有差异，可以借此评估不被激励的作者的表现差异	策略阀值实验场景
合成控制法	借自于他国行政方法构建反事实对照组。绝大多数情况下数据推断升不完善，可能存在某几个关键维度上版数据上多的情况。所以构造数据的较低较慢能力	复杂特殊场景的辅助分析
工具变量法（IV）	几乎是最难的因果理论分析方法，实际很难使用。经典的案例是美国的某个州哪个固定的「教育年限与人入岗实际关系」——该州规定年满 6 岁才能入学，但生存年龄方为工具变量，可通过影响教育年限来影响收入	我到合适外生变量的场景

匹配法的原理：匹配法是实际工作中最常用的因果推断前置工具。一种相对容易理解的匹配法可以这样比喻：比如用户 1 和用户 2 都是北京市、30-35 岁、女性用户、注册时间都在 100 天左右，喜欢的内容多数都是影视和财经内容，我们可以将用户 1 和用户 2 视为「双胞胎姐妹」。

当然，选取哪些维度建立对应需要遵循因果科学的要求——匹配的维度应该是混杂因子，而不是中介因子或对撞因子。社会科学中也经常使用同期双胞胎做一些实验，在业务上我们建立了多组「双胞胎姐妹」匹配对后，如果发现 B 组在某个时间段、某个子渠道等维度上有更好的数据表现，则可以作为新的数据线索进行下钻分析。

倾向性得分匹配（PSM）：当需要匹配的维度很多时，逐个维度精确匹配会变得困难（维度灾难）。倾向性得分匹配（Propensity Score Matching）的核心思想是：将多维特征压缩为一个分数，用这个分数做匹配。

具体来说，对于研究「处理变量 X → 结果 Y」的因果关系：

计算倾向分：用 Logistic 回归等模型，以混杂因子 Z 为特征、是否接受处理 X 为标签，预测每个用户接受处理的概率 e(Z) = P(X=1 | Z)
匹配：为处理组的每个用户，在对照组中找到倾向分最接近的，组成匹配对
估计因果效应：计算匹配对之间结果 Y 的差异，取平均得到 ATT

匹配法的优势在于直观、可解释性强，因为它本质上模拟随机实验场景虽都可以使用。但也有局限：匹配法只能控制可观测的混杂因子，对于不可观测的混杂因子无能为力。因此单纯使用匹配法很难得到完全的因果结论，一般先用匹配法做得到大致的实验方向，然后开启 AB 实验拿到最终收益。

工作流总结：因果图（识别混杂因子）→ 匹配法/分层法（控制可观测混杂）→ AB 实验（黄金验证）。 大多数策略产品的数据分析师都可以遵循这个流程：先用因果图理清逻辑，用匹配法做初步分析拿到数据假设，最后用 AB 实验确认收益。

Part 06：完整案例 2——短剧精排 AB 实验分析

案例二：背景 + 业务目标

场景延续：短剧 App 上线一段时间后，推荐系统精排模型需要升级
业务目标：核心指标 CTR（点击率）；模型变化：单目标 → 多目标（点击 + 完播率）
表面问题：实验组 CTR 相对提升 10%，统计显著（P 值 ≈ 0.01）；但二类错误约 30%，统计功效未达 80%

定义问题，使用 Claude Code 做实验分析，提出下钻问题

涨幅到底来自哪里？

Claude 发现：
- 按召回队列拆解 → 涨幅来自 3 个队列：投放承接 / 看了又看 / 标签召回
- 平均点击位置前移 2.87 位 → 排序更精准
- 涨幅主要是少数高频用户，i2i 召回点击了更多

为什么 CTR 涨了但留存没有涨幅？

Claude 发现：
- CTR 主要是高频用户带动，在因果路径上这部分人群每提升 100 个单位的点击，对次日留存的影响微乎其微
- 优化留存主要需要优化低频用户的体验，如果能将用户从 0 个有效播放变为 1 个有效播放，则次日留存则涨 xx%

新用户流转实验为什么失败？

表层原因：让少数高频用户点击的更多，对新用户次日留存的带动较少
深层原因：由于短剧行业质量因素比兴趣因素更重要，所以可以观察 item 级别的前后变化，发现性别错配比例升高 + 内容老化

因果分析报告示例（脱敏）

Case Study：内容平台新用户留存 — 因果推断实战

业务背景：某内容平台新用户次日留存约 xx%，行业普遍认为「Day0 观看深度越深，留存越高」。但是一线运营观察到渠道差异、活动激励、内容质量等因子互扰——「真实因果到底是什么？」还是「本来就愿意留下的人看多了？」

分析设计：构建因果图（DAG），识别混杂因子、中介因子和因果路径。使用分层法 + 倾向分匹配（PSM）控制混杂，估计看似对留存的真实因果效应。

数据：xx 新用户，xx 行为事件。

混杂因子（Confounders）：用户来源渠道 / 活动激励用户 / 内容质量评分

因果效应估计——朴素估计 vs 控制混杂

40% 的「观看深度效应」其实来自渠道差异和活动用户的混杂偏差

估计方法	效应	说明
朴素 ATE	30.1pp	未控混杂
分层（渠道）	27.3pp	控制渠道效应
分层（渠道 × 活动）	18.0pp	双向控制
PSM-ATT	18.1pp	最严格估计

路径 2：次日留存 → 7 日留存	估计方法	效应
	朴素 ATE	13.3pp
	分层（消费深度）	8.6pp
	PSM-ATT	11.3pp

偏差分解：

真实效应 60% / 渠道偏差 25% / 活动偏差 15%

特殊用户：活动激励用户

Day1 留存 87%，但因果效应 = -1.7pp
留存完全由任务驱动，与消费深度无关

消费深度因子（控制混杂后因果解释力）：

完播率 +0.126 / 观看时长 +0.100 / 播放次数 +0.091 / 页面多样性 +0.066 / 看剧数量 +0.043
控制渠道 + 活动后识别各因子的增量 AUC

关键发现与策略启示：控制混杂后，行业常识「时长为王」需要修正——完播率的纯因果信号更强

+18pp	完播率 > 时长	+43pp
Day0 消费深度 → 次日留存	控制混杂的因子排名反转	中等质量内容的放大效应
最大单一杠杆点	行业认知需要修正	「适合性」 >「顶级制作」
朴素估计 30pp 中有 40% 是混杂偏差。真实因果效应 18pp，仍有巨大策略价值。20-30min 是最大跳升点（+19.2pp），对应「看完一部并开了第二部的坑」。	时长原始 AUC 最高，但有 40% 混杂污染。完播率受渠道混杂影响最小，独立因果信号最强（+0.126）。时长不为王，时长因果最强。	中等质量内容 × 深度消费的留存率最高（63.4%）。广谱适口型内容比头部 IP 更能将消费深度转化为留存。

Part 07：AB 实验核心要点与常见坑

两类错误的直觉（硬币案例）

	实际正常	实际不正常
数据看起来正常	√ 正确	✗ 二类错误（漏判）
数据看起来不正常	✗ 一类错误（误判）	√ 正确

实验分析的三个坑

坑 1：大盘不显著，分性别看显著了——有效吗？

有效。用户之间行为独立，分流保证了独立同分布

坑 2：某个内容曝光涨了 3 倍——能说明它显著吗？

无效。内容之间不是独立的（曝光总量恒定，此消彼长）
要分析是哪个剧被多推导致的涨幅

坑 3：实验组和对照组天生有差异怎么办？

Pre-AA：正式开实验前先观察两组天然差异
CUPED：用统计手段把实验前差异「扣除」
反转实验：重新分组后做反向验证

20 世纪 vs 21 世纪统计方法

	20 世纪方法	21 世纪方法
核心思路	构造分布（正态/T/F 分布），强假设	Bootstrap 自助法，有放回抽样
AI 时代	公式细节 AI 算	思想仍重要，执行交给 AI

Part 08：AI 时代的数据决策

AI 能替代 vs 不能替代的环节

创意工作不能取代，基础知识和认知是判断力的基础，执行工作基本都可以取代

环节	AI 能否替代	原因
取数、清洗	能辅助	工具属性强
可视化	能	描述需求即可
模型执行	能	AI 比人更准
问题定义	不能	什么是好问题需要业务理解
业务假设	不能	因果方向靠经验判断
结果审查	不能	你要能判断 AI 的结论对不对

三个关键命题

提出正确的问题，AI 给你正确的答案。 提出错误的问题，AI 给你错误的答案。 基础知识是为了知道 AI 说的对不对。 批判性思维是当 AI 说错了一半，你来挑出哪里错了。

3 小时总结

数据分析 = 逻辑层（确认问题 → WHAT 假设 → WHY 假设 → 报告）+ 实现层（取数 → 清洗 → 模型/可视化/计算新列循环 → 报告）
因果关系三层阶梯：关联 → 干预 → 反事实
将「必须掌握的知识」和「交给 AI 就可以的知识」区分开来
因果图是数据分析的指路罗盘
AI 时代的策略产品经理：掌握基础理论 + 善用 AI 工具提效

最后一句话（上个价值）

数据分析是手段，用户理解是目的。

问题得到解答了吗？

工作坊呼应开头的四类困境：

看了数据但不知道结论 → 对应方法论的逻辑层四步
有结论但不确信是对的 → 对应因果推断 + AB 实验交叉验证
确信对了但推不动落地 → 对应问题定义 + OKR + 拆人头流程
没有数据基建，不知道要怎么做 → 对应小瞳咨询的 2-3 个月企业落地服务

关键金句

「慢就是快——为什么定义问题最重要。」——韩瞳

「因果图是唯一真理。」——韩瞳

「提出正确的问题，AI 给你正确的答案；提出错误的问题，AI 给你错误的答案。」——韩瞳

「基础知识是为了知道 AI 说的对不对，批判性思维是当 AI 说错了一半你来挑出哪里错了。」——韩瞳

「数据分析是手段，用户理解是目的。」——韩瞳

可行建议

问题定义先行：开始任何数据分析前先回答「业务层面的主要矛盾是什么」「数据时间空间范围口径」「这个项目的 O 是什么 KR 是什么」
业务目标按四级分解：公司战略 → 团队 OKR → 工作线 → 具体 AB 实验，每条工作线下都有目标指标 + 护栏指标
WHY 假设走六字口诀：对比（找统计量）→ 分析（看维度差异）→ 溯源（画因果图找根本原因）
均值 vs 中位数有规则：做收入/VV 看均值（幂律），做留存/新用户体验看中位数（普通用户破零是关键）
找 Magic Number：每个产品都应找出自己的「第 N 集 / 第 N 条对话」之类的留存跃升点
画因果图三件事：识别混杂因子（控制）/ 识别中介因子（看效应时不控制）/ 识别对撞因子（绝对不控制）
策略产品标准工作流：因果图 → 匹配法/分层法 → AB 实验
AB 实验三件事：Pre-AA / CUPED / 反转实验，规避实验组对照组天生差异
AI 时代时间分配：把执行类工作（取数清洗可视化模型）交给 AI，把判断力工作（问题定义业务假设结果审查）留给自己
判断力的底座：扎实的基础学科知识 + 交叉学科能力，会提问、会 Check AI 给的结果、会给下一步指示

关键数据/案例索引

讲者背景：韩瞳，「小瞳咨询」创始人，《策略产品经理实践 1/2》作者；前字节跳动早期策略产品 / 知乎推荐策略团队负责人 / 百度小说搜推增负责人；东北大学数学系，数学建模竞赛国际一等奖；擅长企业 AI 转型（1 年）、搜推策略（10 年）、社区生态策略（7 年）、数据分析（10 年）、团队管理（4 年）。

核心方法论：

数据分析双层框架（逻辑层四步 + 实现层六步）
WHY 假设六字口诀（对比、分析、溯源）
业务目标四级分解（公司战略 - OKR - 工作线 - AB 实验）
问题定义三层进阶（入门：定义问题 / 进阶：定义目标和护栏 / 高级：定义 Trade-off）
因果推断 7 大基础知识
Pearl 因果三层阶梯（关联 → 干预 → 反事实）
因果图三种基本结构（中介/混杂/对撞）+ 控制规则
后门准则 / 前门准则
Rubin 潜在因果模型 / ATE / ATT / 选择偏差
五种常用因果控制方法（AB / 匹配 PSM / 双重差分 DID / 断点回归 RDD / 工具变量 IV / 合成控制法）
数据分析报告的 60 分原则
5 种数据生成效应（加和/等待/优势/[0,1]/构造）
AB 实验三大坑（分群独立性 / 内容曝光此消彼长 / 实验组对照组天生差异）
两类错误（一类误判 / 二类漏判）
20 vs 21 世纪统计方法（构造分布 vs Bootstrap）

完整案例：

案例 1：红果短剧创业期——3-5 人 + Agent 集群 / 18-25 岁 / 次留 → 七留 → ARPU / 三个表面问题 / 因果图新用户留存 DAG（Day0 消费深度 +0.18 → 次日留存）/ 三个子问题三种解法 / 冷启动音频特征：音量高 17%、重音峰值多 7% → 完播率更高 / mean_onset_strength 关键指标
案例 2：短剧精排 AB 实验——CTR +10%（p≈0.01）但二类错误 30% / Claude Code 下钻 / 平均点击位置前移 2.87 位 / 涨幅来自高频用户 i2i 召回 / 留存优化要走低频用户破零路径 / 性别错配 + 内容老化
案例：知乎主场景——四个目标维度（留存/时长/生态/收入）/ 留存子问题树 5 大类 / 不同人群不同留存指标（oDAU/retain/monthly/ODCU）

因果分析报告（内容平台新用户留存）：朴素 ATE 30.1pp / 分层后 18.0pp / PSM-ATT 18.1pp（最严格）/ 真实效应 60% + 渠道偏差 25% + 活动偏差 15% / 完播率纯因果信号最强 / 中等质量内容 × 深度消费留存率 63.4% / 20-30min 是最大跳升点（+19.2pp）

Magic Number：

短剧 App：2 部剧集（约 60 分钟）→ 留存大幅跃升
豆瓣：第 1 条对话 → 留存远高于没有的

4 个失败案例：某社区视频转型（6 秒 VV 变形）/ 某内容产品创作量横盘一年半（曝光 vs 互动的因果颠倒）/ 某广告业务 ADLOAD 不看 ECPM / 某短剧 APP 新用户留存（没定义问题）

指标体系示例（脱敏）：

知乎留存子问题树：消费促留存 / 体验改善 / 内容供给 / 低频用户专项 / 算法基础能力
留存指标分人群：oDAU 次日留存 / retain 用户次日留存 / monthly 用户次启 / ODCU
多维数据维度：渠道 / 人群 / 内容 / 时段
推荐召回队列：投放承接 / 看了又看 / 标签召回 / i2i 召回

关键人物与文献：

Pearl（《为什么》/ 因果三层阶梯 / 后门准则 / 前门准则 / Do 算子 / 2011 年图灵奖）
Donald Rubin（潜在因果模型 / Rubin 因果模型 / 20 世纪 70 年代提出）
Fisher（农作物肥料实验 / 群体平均效应）
Donald Rubin / Judea Pearl 两派已经被证明数学等价

工具与技术：

Claude Code（本地分析）
librosa 库（音频特征提取）
AUC（Area Under ROC Curve）/ ROC
Beta 分布 / 正态分布 / 指数分布 / 伽马分布 / 幂律分布 / t 分布 / 卡方分布 / F 分布
T 检验 / 中位数检验 / 方差分析 ANOVA / 卡方检验 / F 检验
XGBoost / 决策树 / LR 回归
PSM（倾向性得分匹配）/ DID（双重差分）/ RDD（断点回归）/ IV（工具变量）
MAB 动态实验（Thompson Sampling）
Bootstrap 自助法
Pre-AA / CUPED / 反转实验

关键概念词：

TC-PMF / OKR / KPI
EDA（探索性数据分析）/ CDA（验证性数据分析）
Holdout / 分层实验 / 灰度
ATE / ATT / 反事实结果
混杂因子 / 中介因子 / 对撞因子
后门路径 / 前门路径
一类错误 / 二类错误 / 统计功效
p 值 / 置信区间
DAU / oDAU / LT7 / ARPU / CTR / CPM / ADLOAD / ECPM / VV / cardshow
K1 路径系数 / D0 / Magic Number