Phase 2-3 合并编码 + 三角验证
统计
- 原始编码:303 条(A系列 147 + B系列 68 + C系列 88)
- 合并后核心原则:72 条
- 矛盾/差异点:6 处
核心原则表(合并后)
一、基础认知(P001-P006)
| 编号 | 核心原则 | 置信度 | 来源数 | 来源编号 | 分类 | 适用条件 |
|---|---|---|---|---|---|---|
| P001 | LLM 是概率预测引擎,不是知识库:理解这一本质才能设计好 prompt——没有 prompt 锚定时模型会随机采样训练数据 | ★★★★★ | 3 | C027, C028, C029, A036 | 通用 | 始终适用,是所有 PE 的理论基础 |
| P002 | Prompt Engineering 是迭代的科学过程,不是”基本提问”——需要 Plan→Draft→Evaluate→Refine→Deploy 的生命周期 | ★★★★★ | 4 | A056, A067, A109, B003, B048 | 通用 | 始终适用 |
| P003 | 不是所有问题都适合 PE 解决:延迟和成本有时换模型更有效;简单任务不需要复杂 prompt | ★★★★☆ | 2 | A068, A103 | 通用 | 评估阶段决策 |
| P004 | 上下文工程 > Prompt 工程:管理整个上下文状态(token 预算、信息新鲜度、上下文腐烂),而非只写好指令 | ★★★★☆ | 3 | A140, A141, A142, A147 | 通用 | agent/长对话场景尤其重要 |
| P005 | PE 是技能组合:需要混合搭配多种策略,包括安全、工具集成、领域知识注入等全栈能力 | ★★★★☆ | 2 | C065, C066 | 通用 | 始终适用 |
| P006 | 模型对模式敏感:你犯错它犯错,你聪明它聪明——拼写、语法、格式都会传染给输出 | ★★★★★ | 3 | A018, A019, A083, C052 | 通用 | 始终适用 |
二、Prompt 结构与组织(P007-P018)
| 编号 | 核心原则 | 置信度 | 来源数 | 来源编号 | 分类 | 适用条件 |
|---|---|---|---|---|---|---|
| P007 | 系统提示词是行为锚点:在 user turn 之前提供上下文、指令和指南,精心编写能显著提升表现 | ★★★★★ | 4 | A001, A002, B006, C031 | 通用 | 所有 API 场景 |
| P008 | 推荐的系统提示结构:Identity/角色 → Instructions/规则 → Examples/示例 → Context/数据。复杂 prompt 有 10 个标准元素 | ★★★★★ | 5 | A041, A043-A054, B006, C001, C004-C009 | 通用 | 中等以上复杂度的 prompt |
| P009 | 长文档/数据放在 prompt 顶部,查询/指令放在底部——查询在末尾可提升响应质量达 30% | ★★★★★ | 4 | A078, A079, A050, A051, A113, B068 | 通用 | 含长文档的场景;另见矛盾 M003 |
| P010 | 用 XML 标签分隔内容边界:将变量数据与指令分离,用一致的描述性标签名,支持嵌套反映层级 | ★★★★★ | 5 | A015, A016, A021, A049, A076, A077, B008, C051 | 通用 | Claude 专门训练过 XML 识别,但所有模型都受益 |
| P011 | 用 Markdown 标题和列表传达层级关系:编号列表用于顺序和完整性重要时 | ★★★★★ | 3 | A070, B007, C047 | 通用 | 始终适用 |
| P012 | 结构化模板比散乱技巧更高效:像代码模块一样设计 prompt,一次创建、无限适配 | ★★★★☆ | 3 | A020, C001, C002, C021 | 通用 | 生产环境/重复任务 |
| P013 | Prompt 模板化:固定骨架 + 可替换变量({{variable}} 或 <Variable>),实现重复任务的标准化 | ★★★★★ | 3 | A020, B014, C010 | 通用 | 生产环境 |
| P014 | 在长 prompt 末尾重申即时任务:比放在开头效果更好 | ★★★★☆ | 3 | A050, A057, B022 | 通用 | 长 prompt(>1000 tokens) |
| P015 | 高频复用内容放在 prompt 开头以利用缓存降低成本和延迟 | ★★★★☆ | 2 | B009, A078 | 通用 | API 生产环境 |
| P016 | 多文档场景用结构化包裹:<document index="n"> + 唯一 ID,便于引用和追踪 | ★★★★☆ | 3 | A080, C053, B045 | 通用 | 多文档/多源处理 |
| P017 | 输出格式明确指定:语言、语法、结构化格式(JSON/XML/Markdown)和样式偏好,放在 prompt 末尾 | ★★★★★ | 5 | A022, A053, A107, B041, B051, C019, C025, C054 | 通用 | 需要程序化消费输出时必须 |
| P018 | Prompt 可用多种格式承载:Markdown(默认推荐)、JSON、YAML。Markdown 表格适合同类数据,JSON 适合嵌套数据 | ★★★★☆ | 3 | C014, C047, C048, C049 | 通用 | 根据数据结构选择 |
三、指令编写原则(P019-P030)
| 编号 | 核心原则 | 置信度 | 来源数 | 来源编号 | 分类 | 适用条件 |
|---|---|---|---|---|---|---|
| P019 | 像对新员工一样清晰地解释任务:模型除了你告诉的内容之外没有任何上下文 | ★★★★★ | 3 | A005, A006, C032 | 通用 | 始终适用 |
| P020 | 直接要求你想要的行为(“Just Ask”原则):想让它做选择就明确说,想跳过前言就直接说 | ★★★★★ | 4 | A007, A008, A009, A069, A086, B052 | 通用 | 始终适用 |
| P021 | 告诉模型”做什么”而非”不做什么”:正面指令比否定约束更有效。避免过于宽泛的否定如”do not infer” | ★★★★★ | 3 | A082, B063, C039 | 通用 | 始终适用 |
| P022 | 提供指令背后的原因/动机:解释”为什么”能让模型更好地泛化,比单纯禁止更有效 | ★★★★★ | 3 | A071, A072, B063 | 通用 | 始终适用 |
| P023 | 明确约束范围,防止模型扩展超出请求:只做直接要求的,不加额外功能和”改进” | ★★★★★ | 4 | B019, B035, A130, A131, A132 | 通用 | 编码和生产环境尤其重要 |
| P024 | 遇到模糊指令时选择最简单的合理解释,或主动问澄清问题 | ★★★★☆ | 3 | B020, B025, C012 | 通用 | 另见矛盾 M001 |
| P025 | 提供明确的长度/格式约束:默认多长、简单问题多长、复杂问题用什么结构 | ★★★★☆ | 3 | B015, B016, B017, A118, A126 | 通用 | 需要一致性输出时 |
| P026 | 不要复述用户请求;直奔主题,跳过填充词、前言和不必要的过渡 | ★★★★★ | 3 | B018, B052, A127 | 通用 | 始终适用 |
| P027 | 定义明确的”退出机制”:告诉模型可以说不知道、可以拒绝、可以保持原答案不修改 | ★★★★★ | 4 | A037, A060, A115, B054 | 通用 | 减少幻觉的关键手段 |
| P028 | 高风险场景做自检:重新扫描未声明假设、不实数字、过强措辞 | ★★★★☆ | 3 | B028, A094, B026, B027 | 通用 | 法律/财务/合规/医疗场景 |
| P029 | ”通用指令优于规定性步骤”:‘think thoroughly’ 往往比手写步骤更好,模型推理能力可能超过人类预设 | ★★★★☆ | 2 | A092, A095 | 通用 | 新一代推理模型(Sonnet 4/Opus 4 等) |
| P030 | 不同模型需要不同提示策略:推理模型给高层目标,基础模型给精确指令 | ★★★★★ | 3 | B001, A089, A090, B046 | 通用 | 模型选择/迁移时 |
四、角色与人格(P031-P034)
| 编号 | 核心原则 | 置信度 | 来源数 | 来源编号 | 分类 | 适用条件 |
|---|---|---|---|---|---|---|
| P031 | 角色提示改变风格、语气和回答深度:可以放在系统提示或 user turn 中 | ★★★★★ | 4 | A010, A011, A012, A013, C003 | 通用 | 始终适用 |
| P032 | 像写人格画像而非流程手册:赋予世界观、动机、价值体系比列步骤更有效 | ★★★★☆ | 2 | C020, A010 | 通用 | 复杂角色/长对话场景 |
| P033 | Persona 会被模型严肃对待,可能优先于其他指令——需仔细审查避免歧义 | ★★★☆☆ | 1 | B066 | Gemini专属 | 需跨模型验证 |
| P034 | 显式列举能力(Skills)和局限(Limitations),而非隐含期望模型推断 | ★★★★☆ | 2 | C006, C015, C016 | 通用 | 复杂角色设定 |
五、示例与 Few-shot(P035-P040)
| 编号 | 核心原则 | 置信度 | 来源数 | 来源编号 | 分类 | 适用条件 |
|---|---|---|---|---|---|---|
| P035 | Few-shot 示例是最有效的 PE 工具:既能得到正确答案,又能得到正确格式。示例 > 冗长描述 | ★★★★★ | 5 | A032, A033, A034, A046, A048, B010, C067 | 通用 | 始终适用 |
| P036 | 示例要满足三要求:相关、多样、结构化。展示多样化输入范围,覆盖边缘案例,用 <example> 标签包裹 | ★★★★★ | 4 | A073, A074, A047, A106, A116, B010, C017 | 通用 | 始终适用 |
| P037 | 建议 3-5 个示例获取最佳效果;更多通常更好 | ★★★★☆ | 2 | A074, A048 | 通用 | 取决于 token 预算 |
| P038 | Few-shot 的格式比内容更重要:即使用随机标签,有格式也比没格式好得多;标签空间和输入分布比标签正确性更重要 | ★★★★☆ | 2 | C068, C069 | 通用(学术发现) | 理解 few-shot 工作机制时 |
| P039 | 在示例中展示思维链/内心独白,让模型学会推理过程 | ★★★★★ | 3 | C018, A093, A047 | 通用 | 需要推理的任务 |
| P040 | 用困难用例作为示例来训练模型处理边缘情况 | ★★★★☆ | 2 | C017, A047 | 通用 | 有已知边缘案例时 |
六、思维链与推理(P041-P048)
| 编号 | 核心原则 | 置信度 | 来源数 | 来源编号 | 分类 | 适用条件 |
|---|---|---|---|---|---|---|
| P041 | 给模型”思考时间”(CoT)能显著提升复杂任务准确性:让模型展示推理过程 | ★★★★★ | 5 | A026, A027, A030, C055, C071 | 通用 | 复杂推理/数学/逻辑任务 |
| P042 | 明确拼出思考步骤比笼统说”think step by step”更有效;用 XML 标签(<thinking> <scratchpad>)隔离思考区域 | ★★★★★ | 4 | A030, A031, A114, C057 | 通用 | 需要精确控制推理过程时 |
| P043 | 思考只有”大声”输出时才算数——不能要求只输出答案不输出思考过程(不适用于有 extended thinking 的模型) | ★★★★☆ | 2 | A027, C058 | 通用 | 无 extended thinking 的模型 |
| P044 | Zero-shot CoT:仅需”Let’s think step-by-step”即可触发推理,但需要”足够大的模型” | ★★★★★ | 3 | C056, C072, C070 | 通用 | 大参数模型 |
| P045 | Self-Consistency:采样多条推理路径,选最一致的答案——适用于算术和常识推理 | ★★★★☆ | 2 | C074, C075 | 通用 | 可多次采样的场景 |
| P046 | Tree of Thoughts(ToT):维护思维树 + 搜索算法(BFS/DFS)进行系统性探索,适用于需要前瞻的复杂任务 | ★★★☆☆ | 1 | C076, C077, C078, C079 | 通用(学术) | 复杂探索任务 |
| P047 | 让模型先列出正反论点再作判断,可改善复杂判断质量 | ★★★★☆ | 2 | A028, A112 | 通用 | 需要平衡分析的场景 |
| P048 | 先验证信息/能力是否存在,再生成答案(Split-Step Verification) | ★★★★☆ | 2 | B064, A038 | 通用 | 减少幻觉 |
七、减少幻觉(P049-P053)
| 编号 | 核心原则 | 置信度 | 来源数 | 来源编号 | 分类 | 适用条件 |
|---|---|---|---|---|---|---|
| P049 | 让模型先提取相关引用再回答——减少长文档场景下的幻觉 | ★★★★★ | 4 | A038, A039, A081, B024, C053 | 通用 | 长文档/多文档场景 |
| P050 | 将断言锚定到具体章节而非泛泛而谈;引用关键细节(日期、阈值、条款) | ★★★★☆ | 2 | B023, B024 | 通用 | 事实密集型任务 |
| P051 | 不确定时避免编造——用”Based on the provided context…”替代绝对断言;缺失字段设为 null 而非猜测 | ★★★★★ | 3 | B026, B027, B043, B044 | 通用 | 始终适用 |
| P052 | 假设场景中明确声明”提供的上下文是唯一事实来源” | ★★★★☆ | 2 | B067, A123 | 通用 | 与模型训练知识冲突的场景 |
| P053 | 降低 temperature 减少幻觉:temperature 0 最接近确定性输出 | ★★★★☆ | 2 | A040, B055(反面) | 通用 | 另见矛盾 M002 |
八、工具使用与 Agent(P054-P060)
| 编号 | 核心原则 | 置信度 | 来源数 | 来源编号 | 分类 | 适用条件 |
|---|---|---|---|---|---|---|
| P054 | 工具描述本身就是 PE:简洁 1-2 句说明做什么和何时使用,描述必须精确 | ★★★★★ | 3 | A139, B036, A065 | 通用 | 所有工具使用场景 |
| P055 | 鼓励并行工具调用以降低延迟 | ★★★★★ | 3 | A091, B037 | 通用 | 多工具场景 |
| P056 | 需要新鲜或用户特定数据时优先使用工具而非内部知识 | ★★★★★ | 3 | B039, C040, C041 | 通用 | agent 场景 |
| P057 | 写操作后简短重述改了什么;高影响操作需要验证步骤 | ★★★★☆ | 2 | B040, B038 | 通用 | 有副作用的操作 |
| P058 | 命令语法的抽象层级是关键:太具体不灵活,太底层模型会幻觉;用大量描述和示例对抗幻觉 | ★★★★☆ | 2 | C045, C046 | 通用 | 自定义工具设计 |
| P059 | Agent 更新应简短(1-2句):只在新阶段或计划变更时发送,避免叙述常规工具调用过程 | ★★★★☆ | 2 | B032, B033, B034, A128 | 通用 | agent 场景 |
| P060 | 子代理架构:专门化代理处理聚焦任务,用干净的上下文窗口,返回压缩摘要 | ★★★★☆ | 2 | A138, A146 | 通用 | 复杂/长对话 agent |
九、上下文管理(P061-P065)
| 编号 | 核心原则 | 置信度 | 来源数 | 来源编号 | 分类 | 适用条件 |
|---|---|---|---|---|---|---|
| P061 | 上下文是有限资源:找到”最大化预期结果概率的最小高信号 token 集合” | ★★★★★ | 3 | A142, A147, C034 | 通用 | 始终适用 |
| P062 | 上下文截断策略:滑动窗口、优先保留 bot 回复、LLM 摘要替代历史消息 | ★★★★☆ | 2 | C035, A146 | 通用 | 长对话 |
| P063 | 动态修改上下文是好体验的关键:根据用户意图实时更换隐藏提示中的数据(RAG/语义搜索) | ★★★★★ | 4 | C042, C043, C044, B012, A145 | 通用 | 需要外部知识的场景 |
| P064 | Reminder 机制对抗长对话中的上下文丢失:强制模型在每次回复前回顾关键设定 | ★★★★☆ | 2 | C013, B031 | 通用 | 长多轮对话 |
| P065 | Just-in-time 上下文策略:保持轻量级标识符,动态加载相关信息 | ★★★★☆ | 2 | A145, C042 | 场景特定 | agent/工具使用场景 |
十、安全与约束(P066-P069)
| 编号 | 核心原则 | 置信度 | 来源数 | 来源编号 | 分类 | 适用条件 |
|---|---|---|---|---|---|---|
| P066 | 永远假设用户可以看到 hidden prompt 内容:永远不要在 prompt 中放不能让用户看到的信息 | ★★★★★ | 2 | C030, C038 | 通用 | 所有生产环境 |
| P067 | 约束针对正常用户设计,假设恶意用户可绕过所有约束;防越狱最佳实践是将最重要约束放在末尾 | ★★★★☆ | 2 | C036, C037 | 通用 | 面向公众的应用 |
| P068 | 破坏性操作执行前确认:用户批准一次不代表所有上下文都批准 | ★★★★★ | 2 | A136, A137 | 通用 | 有副作用的操作 |
| P069 | Fine-tuning 安全红线:永远不要用真实客户数据做微调——模型会记住并泄露 | ★★★★☆ | 1 | C061 | 通用 | fine-tuning 场景 |
十一、评估与迭代(P070-P072)
| 编号 | 核心原则 | 置信度 | 来源数 | 来源编号 | 分类 | 适用条件 |
|---|---|---|---|---|---|---|
| P070 | 先定义成功标准和评估方法,再开始 PE;构建评估体系监控提示性能 | ★★★★★ | 3 | A067, B003, B048 | 通用 | 始终适用 |
| P071 | 模型迁移时先不改 prompt,只换模型——一次只变一个因素,每次小改动后重跑 eval | ★★★★★ | 3 | B046, B048, A089 | 通用 | 模型升级/迁移 |
| P072 | 生产环境应锁定模型快照版本以保证行为一致性 | ★★★★☆ | 1 | B002 | 通用 | 生产环境 |
关系网络
前置依赖
- P001 → P006:理解”LLM 是概率引擎”是理解”模型对模式敏感”的前提
- P001 → P041:理解概率本质才能理解为什么 CoT 有效——显式输出推理步骤改变了 token 序列的条件概率
- P007 → P008:先理解系统提示的作用,再学习其推荐结构
- P019 → P020:先理解”模型没有上下文”,才能理解为什么要”直接要求”
- P035 → P036:先知道 few-shot 有效,再学习如何设计好的示例
- P035 → P038:先知道 few-shot 有效,再理解其工作机制(格式 > 内容)
- P041 → P044:先理解 CoT 原理,再学 zero-shot CoT 简化用法
- P041 → P045:CoT 是 Self-Consistency 的前提
- P041 → P046:CoT 是 ToT 的前提
- P070 → P002:先有评估标准,才能进入迭代循环
互补组合
- P010 + P011:XML 标签(内容边界)+ Markdown(层级关系)= 完整的 prompt 组织体系
- P020 + P022:直接要求行为 + 解释为什么 = 更好的指令效果
- P021 + P023:正面指令 + 约束范围 = 精准控制模型行为
- P027 + P049:给退出机制 + 要求先引用再回答 = 系统性减少幻觉
- P035 + P039:few-shot 示例 + 展示思维链 = 教会模型如何推理
- P041 + P042:要求思考 + 明确思考步骤/隔离思考区域 = 可控的推理过程
- P054 + P058:工具描述精确 + 抽象层级适中 = 可靠的工具使用
- P012 + P013:结构化模板 + 模板变量化 = 可规模化的 prompt 管理
- P063 + P065:动态上下文 + JIT 加载 = 高效的上下文管理
- P070 + P071:先有评估体系 + 单变量迭代 = 科学的 prompt 优化
上下位关系
- P004 ⊃ P061:上下文工程是上位概念,上下文有限是其核心原则之一
- P041 ⊃ P044, P045, P046:CoT 是上位,Zero-shot CoT、Self-Consistency、ToT 是特化技术
- P008 ⊃ P007, P009, P017:推荐结构是上位,系统提示、数据位置、输出格式是其组成元素
- P035 ⊃ P036, P037, P038, P039, P040:few-shot 有效性是上位,下属各条是其最佳实践
条件分支
- 场景:模型类型
- 推理模型(o1/o3/Gemini thinking/Claude extended thinking)→ P029(通用指令优于规定性步骤)
- 基础模型(GPT-4.1/Claude Sonnet)→ P042(明确拼出思考步骤)
- 场景:任务复杂度
- 简单提取/分类 → P020(直接要求),无需 CoT
- 复杂推理/多步逻辑 → P041 + P042(CoT + 结构化思考)
- 极复杂探索 → P046(ToT)
- 场景:输出用途
- 程序消费 → P017(严格格式)+ P025(JSON/XML schema)
- 人类阅读 → P025(适当长度约束)+ P026(直奔主题)
- 场景:数据格式
- 同类多条数据 → P018(Markdown 表格)
- 嵌套复杂数据 → P018(JSON)
- Token 紧张的嵌套数据 → P018(关系型 Markdown 表格)
- 场景:上下文长度
- 短对话(<4k tokens)→ 标准 prompt 即可
- 长对话(>10k tokens)→ P062(截断策略)+ P064(Reminder 机制)
- Agent 超长会话 → P060(子代理)+ P065(JIT 上下文)
矛盾/差异分析
矛盾 M001:模糊指令时——澄清还是覆盖所有意图?
- 方 A 观点:主动问 1-3 个精确澄清问题,或给出 2-3 种解释(B025, A037, Claude 倾向)
- 方 B 观点:不要问澄清问题,直接覆盖所有可能意图(B050, GPT-5.2 指南)
- 初步分析:条件消歧。这不是真矛盾,是适用场景不同:
- 交互式场景(聊天、对话)→ 澄清更好,因为覆盖所有意图会导致冗长且大部分无用的回复
- 单次调用场景(API、批处理、搜索)→ 覆盖所有意图更好,因为没有追问机会
- GPT-5.2 指南明确标注这是在”深度研究”场景下的建议,而非通用建议
- 裁决:根据交互模式选择策略。P024 保留两种路径。
矛盾 M002:温度设置——降低温度减少幻觉 vs 保持默认 1.0
- 方 A 观点:降低 temperature 可减少幻觉,temperature 0 最接近确定性输出(A040, Anthropic/OpenAI 通行做法)
- 方 B 观点:Gemini 3 必须保持默认 1.0,降低会导致循环或退化(B055)
- 初步分析:模型专属差异,非真矛盾。
- Gemini 3 的采样架构与 Claude/GPT 不同——其 thinking/推理机制在 temperature < 1.0 时可能产生概率退化
- Claude 和 GPT 系列:降低温度减少幻觉是经过广泛验证的通行做法
- 裁决:通用原则”低温度 = 更确定性”仍成立(P053),但 Gemini 3 是明确的例外。使用任何模型前应查阅其官方温度建议。
矛盾 M003:关键指令位置——开头还是末尾?
- 方 A 观点:重要指令放在系统提示开头/用 XML 标签强调(Anthropic 实践,A043, A078);长文档放顶部、查询放底部(A078, A079)
- 方 B 观点:核心请求和关键限制放在提示最后一行(B065, Gemini 建议);最重要约束靠近末尾(C037, 防越狱)
- 初步分析:部分真矛盾,但可条件消歧。
- 三方实际上达成了一个共识:查询/即时任务放在末尾(A050, A051, A079, B065 都同意)
- 分歧在于约束/规则的位置:Anthropic 习惯放在系统提示靠前位置用 XML 标签强调;Gemini 发现早期约束容易被丢失,建议放末尾
- Brex 指南(C037)从安全角度建议关键约束放末尾——与 Gemini 一致
- 裁决:两种策略可以组合——约束既在开头声明(完整版),又在末尾重申(简短版)。这恰好是 A050(“在长 prompt 末尾重申即时任务”)已经建议的做法。P009 + P014 组合覆盖此矛盾。
矛盾 M004:消息角色层级——显式优先级 vs 无区分
- 方 A 观点:OpenAI 明确区分 developer > user > assistant 优先级,developer 消息优先于 user 消息(B004)
- 方 B 观点:Claude 用 system 角色,无显式 developer/user 优先级区分(A001, A003);Gemini 用 system instruction 也无显式层级
- 初步分析:平台差异,非真矛盾。
- OpenAI 独有 developer 角色是为了解决第三方应用中”开发者指令 vs 用户输入”的信任层级问题
- Claude 和 Gemini 通过 system prompt 的隐式优先级实现类似效果
- 裁决:概念相通(系统指令 > 用户输入),实现方式不同。P007 中不纳入具体角色 API,只保留”系统提示优先于用户输入”的通用原则。
矛盾 M005:数据与问题的顺序——数据在前还是在后?
- 方 A 观点:Claude 通常建议指令在前、数据在后(Anthropic 教程的多数示例);长文档放顶部查询放底部(A078, A079)
- 方 B 观点:将问题放在数据之后,用”Based on the entire document above”锚定推理(B068, Gemini 建议)
- 初步分析:实际不矛盾。仔细看 A078-A079 说的是”长文档放顶部,查询放底部”——这恰好就是”数据在前、问题在后”,与 B068 的建议一致。Anthropic 和 Gemini 在这一点上完全一致。表面矛盾源于 T1 编码时的误判。
- 裁决:三方共识——数据/文档在前,查询/问题在后。P009 已正确反映。
矛盾 M006:新模型的激进语言——需要还是不需要?
- 方 A 观点:旧 prompt 经验中用”CRITICAL: You MUST use this tool”等激进语言强调重要行为
- 方 B 观点:新模型对系统提示更敏感,激进语言会导致过度触发;应降级为正常表述(A089, A090)
- 初步分析:时效性差异,非真矛盾。
- 这反映了模型代际差异:早期模型(GPT-3.5、Claude 2)需要强调语气来确保遵从;新一代模型(GPT-4.1+、Claude Sonnet 4+、Gemini 3)的指令遵从能力大幅提升,激进语言反而有害
- C022(惩罚机制/strike rule)也属于”旧时代技巧”,在新模型上可能过度
- 裁决:P030(不同模型需要不同策略)已覆盖。对新模型使用正常语气;只有当模型确实不遵从时才逐步加强语气,而非默认激进。
附录:未合并的模型专属/平台专属编码
以下编码具有参考价值但不纳入通用原则:
| 来源 | 内容 | 原因 |
|---|---|---|
| B004, B005, B011, B013, B014 | OpenAI developer/user 角色、instructions 参数、Stored Prompts | GPT 平台特性 |
| B029, B030 | OpenAI compaction 端点 | GPT 平台特性 |
| B047 | reasoning_effort 参数 | GPT 参数 |
| B055, B056, B057, B058, B059, B060, B061, B062 | Gemini 温度、thinking_level、Thought Signatures、media_resolution 等 | Gemini 平台特性 |
| A003, A004, A023, A024, A025, A035, A054, A066, A084, A085, A087, A088 | Claude 消息规则、预填、stop_sequences、行为标签 | Claude 平台特性 |
| A089, A090, A091, A093, A096 | Claude 新模型行为调优 | Claude 版本特定 |
| A125, A126, A127-A139 | Claude.ai/Claude Code 系统提示词设计 | Claude 产品特定 |
| C022 | 惩罚机制(strike rule) | 旧模型技巧,新模型慎用 |
| C073, C076, C079, C080-C083 | Auto-CoT、ToT 自评估、ReAct 实现细节 | 学术/高级技术 |
| C059, C060, C062 | Fine-tuning 劣势、GPT-4 vs GPT-3.5 差异 | 历史参考 |
合并映射速查
每条原则的完整来源追溯。
| 合并原则 | 原始编码(去重后) |
|---|---|
| P001 | A036, C027, C028, C029 |
| P002 | A056, A067, A109, B003, B048 |
| P003 | A068, A103 |
| P004 | A140, A141, A142, A147 |
| P005 | C065, C066 |
| P006 | A018, A019, A083, C052 |
| P007 | A001, A002, B006, C031 |
| P008 | A041, A043-A054, B006, C001, C004-C009 |
| P009 | A050, A051, A078, A079, A113, B068 |
| P010 | A015, A016, A017, A021, A049, A076, A077, B008, C051 |
| P011 | A070, B007, C047 |
| P012 | A020, C001, C002, C021 |
| P013 | A020, B014, C010 |
| P014 | A050, A057, B022 |
| P015 | B009, A078 |
| P016 | A080, C053, B045 |
| P017 | A022, A053, A107, B041, B051, C019, C025, C054 |
| P018 | C014, C047, C048, C049, C050 |
| P019 | A005, A006, C032 |
| P020 | A007, A008, A009, A069, A086, B052 |
| P021 | A082, B063, C039 |
| P022 | A071, A072, B063 |
| P023 | B019, B035, A130, A131, A132, A133 |
| P024 | B020, B025, C012 |
| P025 | B015, B016, B017, A118, A126 |
| P026 | B018, B052, A127 |
| P027 | A037, A060, A115, B054, A121 |
| P028 | B026, B027, B028, A094, B044 |
| P029 | A092, A095 |
| P030 | B001, A089, A090, B046 |
| P031 | A010, A011, A012, A013, C003 |
| P032 | C020, A010 |
| P033 | B066 |
| P034 | C006, C015, C016 |
| P035 | A032, A033, A034, A046, A048, B010, C067 |
| P036 | A047, A073, A074, A106, A116, B010, C017 |
| P037 | A074, A048 |
| P038 | C068, C069 |
| P039 | A093, C018, A047 |
| P040 | C017, A047 |
| P041 | A026, A027, A030, C055, C071 |
| P042 | A030, A031, A114, C057 |
| P043 | A027, C058 |
| P044 | C056, C070, C072 |
| P045 | C074, C075 |
| P046 | C076, C077, C078, C079 |
| P047 | A028, A112 |
| P048 | B064, A038 |
| P049 | A038, A039, A081, B024, C053 |
| P050 | B023, B024 |
| P051 | B026, B027, B043, B044 |
| P052 | B067, A123 |
| P053 | A040 |
| P054 | A139, B036, A065 |
| P055 | A091, B037 |
| P056 | B039, C040, C041 |
| P057 | B038, B040 |
| P058 | C045, C046 |
| P059 | B032, B033, B034, A128 |
| P060 | A138, A146 |
| P061 | A142, A147, C034 |
| P062 | C035, A146 |
| P063 | B012, C042, C043, C044, A145 |
| P064 | C013, B031 |
| P065 | A145, C042 |
| P066 | C030, C038 |
| P067 | C036, C037 |
| P068 | A136, A137 |
| P069 | C061 |
| P070 | A067, B003, B048 |
| P071 | B046, B048, A089 |
| P072 | B002 |