X 风格复刻 — 五层深度萃取方法论
核心发现:风格复刻 = 从数据到规则的逐层抽象过程,五层缺一不可
输入:目标账号的 X handle
产出:风格指南 + 写作模板库 + AI System Prompt
方法论概览
第 1 层:数据采集 ← 原始数据(300+ 条帖子,3+ 个月)
↓
第 2 层:量化分析 ← 发帖节奏、类型分布、长度 vs 互动、高低互动特征对比
↓
第 3 层:语言风格分析 ← 开头钩子、句式结构、人称、情绪基调、口头禅、论证方式
↓
第 4 层:内容策略逆向 ← 话题矩阵、叙事线、推广模式、高/低互动公式
↓
第 5 层:风格凝练产出 ← 风格指南 + 写作模板 + AI System Prompt
第 1 层:数据采集
目标
获取目标账号的完整帖子数据(文本 + 互动指标)。
采集要求
| 维度 | 最低要求 | 推荐 |
|---|
| 帖子数量 | 300 条 | 500+ 条 |
| 时间跨度 | 3 个月 | 6 个月 |
| 数据字段 | 文本、时间、likes | 文本、时间、likes、reposts、replies、media类型、是否含链接 |
采集方式
使用 bb-browser daemon + Chrome CDP 带登录态爬取:
- 启动 bb-browser daemon,确保已有 X 登录态
- 导航到目标账号的 timeline
- 滚动加载所有帖子,提取结构化数据
- 输出为 JSON 格式,存入
evidence/tweets-raw.json
注意事项
- 必须带登录态:X 对未登录用户限制内容展示
- 排除回复和引用转发:只采集原创帖子(非以 @ 开头的帖子)
- 排除转发贴(Retweet):转发贴是别人的内容,混入会污染风格分析,把别人的风格学过来
- 记录媒体类型:区分纯文字、含图片、含视频、含链接
- 数据清洗:去除置顶帖的重复计数
第 2 层:量化分析
分析维度
2.1 发帖节奏
| 分析项 | 产出 |
|---|
| 日均/周均发帖量 | 频率基线 |
| 工作日 vs 周末分布 | 是否区分工作/生活 |
| 各日发帖量 | 哪天最活跃 |
| 小时分布(注意时区) | 发帖时段偏好 |
| 月度趋势 | 频率和质量的演化方向 |
2.2 帖子类型分布
按媒体类型分类统计:
- 纯文字
- 含图片(无视频)
- 含视频
- 含链接(无图/视频)
2.3 长度 vs 互动分析
| 分析项 | 方法 |
|---|
| 长度分桶 | 按字符数分 4-5 个区间 |
| 各桶平均互动 | 找出最优长度区间 |
| 平均/中位数长度 | 基线参考 |
2.4 互动数据分析
| 分析项 | 方法 |
|---|
| 平均 likes/reposts/replies | 互动基线 |
| Top 25% vs Bottom 25% 特征对比 | 按长度、媒体类型、是否含链接对比 |
| Top 5 帖子共性 | 提取高互动帖的共同模式 |
2.5 回复与互动模式
- 原创帖 vs 回复帖比例
- 是否使用 Thread 格式
- @提及频率和对象
第 3 层:语言风格分析
分析维度
3.1 开头钩子分类
对所有帖子的第一句话进行分类,统计各类型的:
常见分类:叙事钩子、产品发布、个人反思、对比/反转、How-to、直接断言、问题式、类比、列表式、引用他人。
3.2 句式结构
| 分析项 | 关注点 |
|---|
| 平均句长 | 短句型 vs 长句型 |
| 换行频率 | 呼吸感/节奏感 |
| 列表式写作占比 | 是否偏好步骤式 |
| 节奏模式 | 短-短-长?长-短? |
3.3 人称与视角
统计 I/You/We 系词频,分析各人称的使用场景。
3.4 情绪基调
- 语气词频率(love、insane、wow 等)
- 标点使用(感叹号、问号、省略号频率)
- 整体基调定性:是真诚型、hype 型、讽刺型、学术型?
3.5 口头禅与标志性表达
- 高频核心词汇
- 标志性短语
- 标志性句式(如 “X is the new Y”)
3.6 论证方式
统计论证类型分布:数据/数字、个人故事、类比、反问、步骤式教程等。
3.7 CTA 模式
- CTA 类型和频率
- CTA 风格(显式 vs 隐式)
3.8 帖子结构
第 4 层:内容策略逆向
分析维度
4.1 内容矩阵
按话题域分类所有帖子,统计各话题的:
- 帖子数量和占比
- 平均互动
- 互动效率评级(S/A/B/C/D)
4.2 话题轮换节奏
- 是否按日程表轮换?还是”主题浪潮”模式?
- 高产日的触发场景
- 月度演化趋势
4.3 热点借势策略
分析账号如何与行业热点互动:
4.4 个人叙事线
提取 2-4 条核心叙事线:
- 每条叙事线的主题是什么?
- 如何交织出现?
- 哪条叙事线互动最高?
4.5 产品推广模式
如果目标账号有推广行为,分析:
- 从软到硬排列所有推广方式
- 各方式的互动效果
- 软植入 vs 硬推的比例
4.6 高互动公式
Top 20% 分析:
- 互动门槛是多少?
- 共性特征(长度、话题、媒体、开头方式)
- 提取 5-10 种高互动帖模板
Bottom 20% 分析:
互动引爆点提取:
第 5 层:风格凝练产出
产出物清单
| 产出 | 用途 | 内容 |
|---|
| 风格指南 | 人类写作参考 | 硬规则(可量化)+ 语言规则 + 内容策略 + 禁忌清单 + 20 条标杆帖批注 |
| 写作模板库 | 套用写帖子 | 10 个高互动帖子模板(附原帖示例 + 填空结构) |
| AI System Prompt | 给 AI 代笔 | 中英双版 System Prompt,覆盖语气/句式/用词/内容规则/禁忌 |
风格指南结构
## 一、硬规则(可量化)
- 发帖频率、最优长度、类型配比、链接策略、Thread 策略、CTA 策略、Emoji 策略
## 二、语言规则
- 句式、用词、人称、情绪
## 三、内容策略
- 话题配比(按互动效率排序)
- 核心叙事线
- 产品推广方式
## 四、禁忌清单
- 10 条"绝不会做的事"
## 五、标杆帖原文 + 批注
- Top 20 帖子逐条批注
写作模板结构
每个模板包含:
- 适用场景
- 填空结构
- 原帖示例(附互动数据)
AI System Prompt 结构
涵盖:Voice & Tone → Sentence Structure → Word Choice → Perspective → Content Rules → Core Narrative → Post Structures → Prohibitions
产出目录规范
所有产出存入 style_clone/X/<账号名>/,目录结构如下:
X/<账号名>/
├── _brief.md # 账号画像摘要(handle、定位、粉丝量级、采集时间等元信息)
├── evidence/
│ └── tweets-raw.json # 第 1 层:原始帖子数据(JSON 格式)
├── 0-量化特征与语言风格.md # 第 2-3 层:量化分析 + 语言风格分析
├── 1-内容策略与高互动公式.md # 第 4 层:内容策略逆向 + 高互动公式
└── 产出/
├── 风格指南.md # 硬规则 + 语言规则 + 内容策略 + 禁忌清单 + 标杆帖批注
├── 写作模板库.md # 10 个高互动帖子模板(填空结构 + 原帖示例)
└── AI写作Prompt.md # 中英双版 System Prompt,可直接用于 AI 代笔
命名说明
| 文件/目录 | 说明 |
|---|
_brief.md | 下划线前缀表示元信息文件,非分析产出 |
evidence/ | 存放原始数据,不做人工编辑 |
0-、1- 编号 | 按分析层级递进编号,对应方法论的第 2-4 层 |
产出/ | 最终交付物,可独立使用 |
执行检查清单
方法论来源
本方法论从 Zara Zhang (@zarazhangrui) 的风格萃取实践中抽象而来。首次应用于 457 条帖子的分析,验证了五层递进结构的有效性。