ToB「零容错」场景下的 AI Agent 工程化落地实录与架构演进

会议: 产品力领航者大会 PM × AI · 2026 春季 | 讲者: 梅容（ToB AI 产品 / 工程实践者，专注法律/合规等”零容错”业务场景） | 时间: 2026-04-24 下午 · AI 重塑 ToB 产业应用分会场

副标题: 从合同审查到法律合规：用工程化确定性”驾驭” LLM 不确定性

一句话总结

ToB「零容错」场景的核心痛点不是模型不强，而是单体大模型的”事实/逻辑/遵循”三类幻觉无法满足”可复现的正确结果”——必须放弃 Prompt 单体路线，走 Agentic Workflow 工程化拆解：用「规则设计 / 流程搭建 / 评测演进 / 反思闭环」四步把 SOP 原子化、用多 Agent 解析-规则-裁判流水线把质量从 60% 拉到 90%+，并通过来源分层、置信度评分、HITL 拦截、Skill 化扩展把合同智能体演进为可信法律技能矩阵。

速览

ToB 要的是”可复现的正确结果”——B 端写错合同条款是百万级索赔风险，C 端写诗是创造力，模型强不等于产品能落地。
法律场景的「三高」决定了对可控的极致要求——高专业性 / 高风险性 / 高组织性，确定性交付是唯一标准，不能满足确定性的 AI 无法被业务信任。
旧范式的”三类幻觉”难题——事实性幻觉（编造法条）/ 逻辑性幻觉（多重嵌套判断时迷失）/ 遵循度波动（同一 Prompt 输出忽好忽坏）。
单体「全能型」模型不适配 ToB——推理链越长，错误累积率越高（合同→提取→法规→漏洞→建议）；通用与发散的设计初衷不匹配 ToB 的专业与收敛。
新解法：放弃 Prompt 单体，引入 Agentic Workflow——把 SOP 原子化拆解，让 LLM 仅在被严格限制的特定节点上做逻辑判断，并补齐确定性评测机制。
核心方法 = 工程化框架 4 步——规则设计（标准化、知识结构化）→ 流程搭建（任务拆解、智能协同）→ 评测演进（交叉验证、持续优化）→ 反思闭环（专家介入、持续迭代）。
法大大 iTerms AI 合同智能体落地——准确率从 ~60%（Demo 级）跨越至 90%+ 商用标准，目标向 95%+ 生产红线逼近；100+ 规则类型 × 单类合同 160+ 审查项；超长合同审查不丢内容、条款完整识别。
关键架构：解析 Agent + 规则 Agent + 裁判 Agent 三段式——“并行审查 + 多重共识”流水线，用算力冗余换最终结果的极端稳定。
AI 演进 5 阶段（L1-L5）——辅助审查 → 标准核对 → 条件自动化 → 自主决策 → 战略智能；行业现状（2026）大多数企业卡在 L3 → L4 过渡期。
架构跃迁三件套：Richee.ai + Harness + Skills 化——把”硬编码”场景升级为可插拔的能力模块单元，把法律工程转化为可评测、可复用的技能矩阵。

核心内容

Module 1：行业洞察——为什么 ToB 是「零容错」战场

B 端 vs C 端的根本差异：

C 端：写诗（满满创造力），AI 是想象力的催化剂，开放场景中浪漫无限可能；
B 端：错误合同条款（零容错场景的灾难），「采购合同（终稿）」一旦把”乙方未能完成约定的开发任务，甲方有权要求乙方支付 20% 违约金”改成”1,000 万”，会带来百万级索赔风险。

法律场景的根本特殊性——「三高」：

维度	含义	关键要素
高专业性	规之有据、精确可证	规则严格（适用法律、法规、司法解释等，必须精确无误）/ 证据要求（结论必须基于事实、完整、可核验的证据链）/ 可审计性（严格遵循法定程序与行业规范，确保流程在合理时间内完成）
高风险性	失控即不可逆，后果不可控	错误代价高（0.1% 的概率会带来百万级损失）/ 不可逆补偿（事实性幻觉造成误读，可能引发不可逆的合规风险或损失）/ 可审计追溯（每一步操作必须留痕，便于事后溯源与审计）
高组织性	协同闭环、流程闭环	多人协作（跨团队协同，分工明晰，权责清晰可追溯）/ 审批闭环（关键节点须按节奏推进，形成闭环管理）/ 证据留痕（操作可记录、归档，确保合规与责任追溯）

核心底线：确定性交付是法律场景的唯一标准，不能满足确定性的 AI，无法被业务信任。

Module 2：产品范式——从 Prompt 到 Agentic Workflow

旧范式下的「三类幻觉」难题：

事实性幻觉——模型煞有介事地编造完全不存在的法条、条款或历史事件，带来直接的致命风险；
逻辑性幻觉——在处理”违约责任不对等”这类需要多重条件嵌套判断的长文本时，模型极易在复杂逻辑中迷失；
遵循度波动——同一个提示词，在不同时间或上下文中，输出忽好忽坏，无法形成稳定一致的 SOP 标准化作业。

痛点解析：单体”全能型”模型不适配 ToB：

推理链越长，错误累积率越高——阅读合同 → 提取实体 → 应用法规 → 发现漏洞 → 撰写建议，单体模型一口气完成，任何一个中间环节失误都会被放大并带入最终结果；
全能型路线不适配严肃业务——单体大模型的设计初衷是通用与发散，而 ToB 的要求是专业与收敛，指望黑盒处理高门槛专业决策不符合工程学的可靠性原则；
无法形成 SOP 标准化交付——输出无法稳定复现就意味着无法自动化质检、无法被整合进现有业务系统中成为生产力环节。

全球视野：法律 AI 正从通用大模型外壳演进为垂直领域智能体引擎：

Harvey 法律界的”OpenAI”——以 Harvey 为代表的合同顾问崛起，估值达 80 亿美元，核心是 GPT-5 等模型的优先微调机制，并与法律界建立深度合作生态；
Claude 打造新一代”商业智能平台”——Claude Coworker 从”工具”向”智能要素”平台转型，模块化智能体（MCP 协议与本地 MCP 执行）成为主流架构演化方向。

法律 AI 智能体进化路径分三阶段：第一阶段通用大模型 + 提示词调（低准确率、受限于上下文）→ 第二阶段基础 RAG + 向量检索（结合工程化、提高准确性）→ 第三阶段多智能体 + 法律本体（多智能体审查、法条溯源、合同要素映射）。

新解法：从 Prompt 走向 Agentic Workflow（PPT 给出 3 步骤）：

新解法提出——放弃单体路线，引入 Agentic Workflow：不再追求一个庞大复杂的 Prompt 让模型完成所有工作，而是将整体流程拆解为多个独立的步骤；
经验萃取——基于专家经验进行 SOP 原子化拆解：把复杂的企业标准作业程序（SOP）进行原子化拆解，让 LLM 仅在被严格限制的特定节点上（如信息提取、简单分类）做逻辑判断；
关键补齐——确定性评测机制：建立可回归、可量化、可验收的评测标准，将每一步的输出约束在预期格式内，结合校验程序，从而锁死结果的下限。

Module 3：落地方法——法大大 iTerms AI 合同智能体

iTerms AI 合同智能体介绍——「拟·申请 → 签·履行 → 管·存」协议全生命周期闭环：

知识库：智能存储库并自动提取关键条款，将内容转化为可搜索的结构化数据，形成企业的「合同资产」（数据结构化、条款固化）；
工作流：工作流编排可实现无代码构建从审查、签署到履行的全部流程化工作，实现业务流程智能化（无代码、自动化）；
AI 智能辅助：AI 助手自动识别条款风险、签署提醒与要素，跨他签后自动结入系统，提升 B 端用户的体验与使用效率（智能识别、降本增效）；
协议全生命周期闭环：合同起草/变更 → 协同拟审 → 合同审批 → 电子签署 → 合同履约 → 合同档案管理。

底层数据资产覆盖模板库、条款库、智能审查、相对方审查、身份认证、意愿校验、多端签署、多终端管理、合同修改、合同变更、合同解除、信息提取、报表分析、证据报告、合同归档、诉讼策略等环节。

运行机制：沉淀多年的合同条款 & 规则数据资产，叠加 Lawyer in the Loop 的 AI 自学习机制：

行业和私有数据的结合沉淀：

沉淀法律、合同知识库——外部法律法规、内建企业公司海内外资料、法律持续退化的样品资料；
法律专家顾问参与的持续优化——内部审查规则与场景动态依据结合，AI 法务系统持续升级。

AI 赋能的项目 SOP 体系：

健全的 SOP 体系——具备售前、售后、售后内容的标准化流程管理，构建 SOP 工序；
经验沉淀的 AI 交付助手——搭建了 AI 交付助手，覆盖合同任务下规则智能化、定义、规则定级，审查通过任务模板、服务报告自动生成。

在法律这一严肃领域，没有「人机协作」的 AI 是昂贵的玩具。Lawyer in the Loop 坚持「透明的人机协同」，确保 AI 的每个决策都可评测、可追溯、可调优。

角色	AI 智能体职责	人类专家职责
主线	条款标准（自动智能交易背景和条款定型，智能分配审查规则）	高价值谈判（聚焦战略级合同的核心条款博弈）
中段	智能初审（快速打结合风险点，自动核注疑虑条款，一键修订）	专业判定（AI 预警暂时疑点，由专业人类深思决策）
末段	效率提升（自动比对模板和关联条款，识别遗漏错误，减少重复劳动）	质量把关（对 AI 的初审结果进行复核确认）

核心价值：以 15% 的精度跃升、10 类的广度覆盖、零丢失的稳定保障，解决业务与法务间「反复拉扯」的低效协同流程。

核心方法：工程化框架实现多层严格执行和验证

在专业法律场景中，为达到专业级的「最小可行信任」，必须采用将生成文本进行拆解、交叉验证的流水线式架构。

Step 1 规则设计——规则标准化、知识结构化：将模糊的专家经验固化成大模型能无歧义执行的「原子级判断条件」。输出：标准化规则库；底层支撑：企业级私有知识库提供确定性的规则来源（沉淀法律法规法、合同知识、历史案例、内部流程等，确定可执行性、可量化、可验证）。

Step 2 流程搭建——任务拆解、智能协同：将复杂任务拆解为可执行的子步骤，确保每个 Agent 顺利、可追溯。输出：标准化执行流程；底层支撑：权威可信、结构化管理。

Step 3 评测演进——交叉验证、持续优化：通过多重交叉验证与指标评测，持续迭代优化、识别错误与遗漏，提升验出风险的准确率。输出：可信赖测结果；底层支撑：安全和可控。

Step 4 反思闭环——专家介入、持续迭代：引入专家反馈反思闭环，持续模式化推进、流程与规则、模型系统的自我进化。输出：持续优化闭环；底层支撑：持续迭代。

方法一：规则设计——专家经验失效的破解之道

必须将高度主观的行业 Know-How，降维成大模型可遵守执行的绝对判断条件。

❌ 大白话提示词（低效）：模糊、笼统、缺乏结构，AI 难以精准理解。例如「帮我看看这个租赁合同有没有问题」。

✓ CoT 思维链拆解（高效）：结构化、可执行、可追溯，AI 精准理解并深度推理。Super Prompts（超级提示词）结构包含：

提取要素：租赁期——从合同中提取「租赁期限」相关条款及数值；
条件判断：是否 > 20 年——判断租赁期限是否超过 20 年；
风险定级——若超过 20 年，判定为高风险；否则为低风险。

方案：将经验翻译成原子级可执行规则——3 个推进步骤：

翻译专家经验——拆解为绝对判断：将模糊专家经验拆解为原子级可执行规则；原模糊版本（粗放陈述原有问题描述）→ 原子级新解（“租赁期超过 20 年”、“未明确起算日期”、“缺失支付时机”）；
真实样本评测验证——清晰的边界等于高检出率：通过真实样本评测验证，从主观判断走向确定性结果（规则颗粒度越细、AI 的判断边界越清晰；边界清晰程度更高、覆盖率攀升下降；大模型微调更”是/否”的具象选择，而非主观判定）；
跨领域复用性——提炼通用规则库：将规则结构化沉淀为可复用资产，跨领域快速适用（基于历史沉淀的专家经验，提炼出”原子化拆解”；可在相似业务场景中快速复用，大幅提升潜在效率）。

核心价值：经验结构化 → 规则可证验 → 能力可复用，从模糊经验到确定规则，从高成本试错到低成本迭代。

方法二：流程搭建——长路径导致稳定性崩溃

问题（PPT 用一张机械流水线插画展示）：百万复杂合同 → 精细化的提示词 → 算法侧理论瓶颈 → 单步推理路径长 → 上下文窗口内信息密度大 → 认知超载、注意力漂移 → 稳定性差、易翻车（标 Fail）。最后通过 AI 工程侧解法实现工程化解决。

方案：明确职责的多 Agent 协同工作流——机制重塑：并行审查 + 多重共识。不再让一个大模型「包打天下」，而是构建一条职责分明的流水线：

解析 Agent——从合同条款拆分中，精准抠出结构化法律要素（如「租期：5 年」）；
规则 Agent——拿着提取要素与原子化标准匹配对比，给初筛判定（如「租期不超过 10 年」，条款约定在规则内）；
裁判 Agent——收集并行审查结果，取并集去重，输出最终漏洞报告（如「租期条款无风险」）。

方法三：评测演进——告别无休止的”人工纠偏”

痛点：如何由结果推导有问题的节点？在系统上线初期，虽然能够拦截风险，但法务专家需要花费大量时间去人工修改、剔除 AI 的”误报”或补齐”漏报”。业务效率提升感知不强。

收益：通过分工审查、交叉验证与共识裁判的机制，系统屏蔽了单次生成可能出现的概率性错误，结果相对稳定。

质的飞跃：跨越生死线：准确率从初期的 ~60%（Demo 级别）直接跨越至 90% 以上的可商用标准。目前的目标是向代表人类专家业务验收标准的 95%+ 生产红线逼近。

核心需求：建立 Workflow 上核心节点的评测标准，用可衡量的机制找出”有短板”的节点，有的放矢地优化。

执行方案 3 步：

正确样本采集——收集过往审查批注过的合同样本，将修改前后的条款抓取标注上，映射到对应的审查规则中；
规则答案标注——针对审查规则，由法务给出过往审查合同的条款上、植入陷阱条款用于 AI 评测质量的评估；
批量样本测试——基于批量的真实合同进行审查，给出准确率评分，确保准确率不受样本差异的影响。
- Recall（召回率） = （模型检出的风险点）/（合同实际存在的风险点）；
- Precision（准确率） = （模型检出的正确风险点）/（模型检出的所有风险点）。

方法四：反思闭环——让 AI 能够”从错误中学习”

本质诊断（静态系统的僵局）：初期的 Agent 架构缺乏从专家的人工纠偏动作中”学习”的机制，导致每次回答错误，下一轮换个内容格式依然错误。主要表现：纠错依赖人工干预，无法持续优化；错误模式重复出现，改错成本高；缺乏概率评估，无法衡量正确性。

核心需求（自学习的能力）：解决方向——优秀的生产系统，必须把专家纠错的”沉没成本”，转化为大模型能力升级的”燃料”。关键能力：纠错反馈自动捕获与归因；概率评估与置信度动态更新；规则与模型策略持续优化迭代。

价值目标：持续学习 → 降低错误率 → 提升确定性 → 构建可进化的智能系统。

方案：构建「反馈-反思-优化」闭环（Lawyer in the Loop）：

四步纠错点捕获：当业务人员在界面上点击「反馈」：

输入错误上下文——自动获取当前条款、错误原因及系统提示词；
定位错误片段——系统自动检索相关条款片段与原判断逻辑；
用户修正判断——业务人员给出正确判断与修改意见；
更新知识与规则——系统沉淀为新规则，提升后续判断准确率。

AI 的反向推演迭代：针对错误问题反馈，自动调用推演模块分析溯源——这是因为提示词边界模糊？是底层知识库缺少某一条法规？还是原子规则本身的逻辑存在漏洞？

针对 Recall 不足：优化 RAG 召回阶段。检查 Chunk Size 是否过小导致上下文断裂，或引入”多路召回”策略；
针对 Precision 不足：优化 Prompt 策略。给出 good case 参考，或引入 Few-shot（思维链示例）。

落地成效：真实客户项目应用效果

维度	成果	细节
超高准确率	领先 15%+	复杂合同 85%、标准合同 95%，相比大模型 70%-75% 水平；实现稳定可落地的精度提升
全面审查覆盖	10 类审查规则	10 个规则类型 × 单类合同 160+ 审查项；不仅覆盖法律审查，还扩展至订单、审计、财务等业务规则；从单一风险检测升级为多维度审查体系
超长文本处理	文本逻辑不丢失	超长合同审查不丢内容，条款完整识别；解决行业普遍”长文本信息丢失”问题；保证全量条款参与审查，结果更可靠

核心价值：以 15% 的精度跃升、10 类的广度覆盖、零丢失的稳定保障，解决业务与法务间「反复拉扯」的低效协同流程。

适用性自评：AI 是否应用于零容错项目的评估维度

从四个关键维度进行自评：

场景复杂度评估——你的业务场景是否存在高度主观、涉及多变量深度耦合的复杂决策环境？
容错底线评估——如果 AI 模型出现错误输出，它是否会导致企业面临严重的经济赔偿或合规风险？
知识壁垒评估——业务运作逻辑的核心，是否强依赖于那些高度垂直、未公开结构化的行业 Know-How？
数据链路评估——在当前的数字化系统架构下，是否具备条件建立起「业务端专家反馈 → 模型层持续优化」的活水闭环？

评估目标：识别关键风险 → 量化评估准确性 → 确认应用可行性 → 建立可控的智能闭环。

评估决策：AI 工具和架构的升级，永远是为了业务的确定性服务。基于自评结果，合理规划 AI 落地的可行性：

在项目启动期，理性评估”AI 介入度”：如果对照前述四项维度，自查得分偏低（例如 < 60 分），强烈建议项目初期不要强行推进全自动化 Agent。先从提供线索的”辅助决策工具（Copilot 模式）“做起，稳步探索；
强制设立 HITL 关键拦截节点：针对”容错底线”极高（一旦出错即面临罚款/诉讼）的核心业务环节，无论模型评测表现多好，现阶段都必须在产品交互设计中，强制保留”人类专家复核（Human-In-The-Loop）“的关键节点。把风险管控权还给人。

实施策略：拆解关键节点的实现方案——4 个对策：

对策	内容
复杂场景必须”原子化”解构	如果场景复杂，请勿将所有任务丢给一条 Prompt。将 1 个复杂决策强制拆解为至少 5 个独立的单点逻辑判断
低容错环节必加”校验锁”	若容错极低，必须在架构层面引入”多 Agent 交叉校验”或”并行盲审机制”，绝不轻信单次推理
强绑定专家知识	高知识壁垒不能仅靠大模型微调来解决。必须构建精准的动态检索增强（RAG），并与人工梳理的专家规则库进行强绑定
”评测纠偏”是核心功能	在系统产品设计之初，就必须将”反馈与纠偏机制”置于核心交互层，将其设计为业务 SOP 的自然环节

Module 4：迁移升级——从合同智能体到全场景法律技能

AI 演进之路：从工具到能力的 5 个进化阶段：

阶段	名称	含义	本质
L1	辅助审查（工具层）	AI 仅做关键词提取与信息定位，人类完成 90% 判断	效率工具，不承担决策最终责任
L2	标准核对（规则校验层）	AI 对照”标准范本”识别差异，人类逐条确认	规则匹配，但无推理能力
L3	条件自动化（逻辑推理层）	AI 理解条款间逻辑关系，能运行基础风险判断，人类仅介入高风险决策节点	智能交互，从”匹配”到”理解”
L4	自主决策（多 Agent 协同层）	AI 可独立完成复杂推理并输出关键建议，人类从”执行者”转为”审核者”	决策协助，从工具到半自动 → 决策系统
L5	战略智能（可信决策系统）	AI 基于平则体系 + 数据来源 + 目标约束进行自我优化，自动管理业务全闭环，人类设定宏观策略边界	AI 成为”决策引擎”，不是工具

行业现状（2026）：多数企业卡在 L3 → L4 过渡期。

架构跃迁：从 AI 功能走向 Skills 能力扩展生态：

产品形态	核心进化	迁移关键
睿契（Richee.ai）桌面智能体	基于审查经验的 AI 协作	经验沉淀与能力起点：基于合同审查的 AI”原子规则” + 多 Agent 协作的成功经验，从单一工作流向更复杂的通用业务场景演进
Harness 工程能力重构	从场景”硬编码”到能力”模块化”	能力工程化与复用枢纽：不再是有多个场景”硬编码”，而是将不同场景下的专属规则、评测标准好成独立的、可插拔的模块化能力单元
Skills 技能化	从单一产品到能力生态	技能生态与跨域扩展：把复杂的法律工程转化为一套”可评测、可复用”的技能矩阵。合同审查成为一个 Skill，跨境法律合规研究成为另一个 Skill

架构升级：应用于法规检索、法律研究、审核意见和文书生成类扩展场景——7 层架构：

层	内容	技术细节
输入层	合同 → 制度 → 案件材料 → 业务请求（用户指令）	支持格式：PDF/Word/文本/图片；预处理：OCR 光学识别 + 自然语言解析
识别层	场景分类 → 风险分级 → 权限识别	分类器：法律专用预训练模型；风险等级：高/中/低
知识与推理	检索 → 抽取 → 比对 → 生成 → 推理	向量数据库/法律知识图谱/思维链；大模型：智谱、豆包、DeepSeek
证据增强层	引用绑定 → 版本识别 → 来源定位	幻觉拦截：启用；来源置信度阈值 ≥ 85%
风控与协同	输出约束 → 人工复核 → 审批流 → 版本管理	人机协同门控：启用；回滚策略：版本快照
输出与治理	正式结果 → 操作日志 → 结果回放 → 责任留痕	存储：审计日志/思维链；合规：数据安全

升级方案一：从逻辑校验到来源分层的数据源可信机制

零容错的第一步：给 AI 的输出打上明确的来源「权威等级」标签，锁死事实幻觉。

等级	名称	来源
L1	法条原文（100% 确定）	官方数据库，最高置信度
L2	权威指南（高可信）	商务部、律协指南
L3	专业评论分析	顶级律师的行业深度洞察
L4	AI 辅助线索（待核实）	仅作为搜索索引和初步大意总结

核心价值：来源透明可追溯 → 可信度分层管理 → 降低事实幻觉 → 为决策提供可靠依据。

升级方案二：资源智能匹配与强置信度评分的技能构建机制

逻辑迁移：意图识别与智能库匹配——面对跨境多法域问题（如越南海外业务），Skill 会通过意图识别，自动锁定针对”越南法域”的 L1/L2 资源池，而非盲目检索全文。并启动”中英/中越双语交叉验证”流，确保知识准确与合规。价值：更精准的资源命中率，更高的知识可量化性。
闭环迁移：引入严苛的置信度评分系统——只有当 AI 提取到的信息源于 L1（官方版）且在 1 个月内更新时，系统才允许打上「✅ 确定」的标识。价值：可量化的置信度标准，减少误判与幻觉风险。
对于模糊信息的”强制红线”——任何来自 L3/L4 或硬性久远的模糊检索，系统都会强制标黄「⚠️ 待核实」，并必须同时提供供手动查找的跳转指引，将决策风险显性化。价值：风险前置预警，决策链路可追溯。

核心目标：精准匹配资源 → 置信度可量化 → 风险显性可控 → 决策更可靠。

升级方案三：技能评测和可审计机制——基于风险分层的单次任务闭环逻辑：

发起任务 → 识别任务类型 → 风险分级分类器：

低风险：直接生成结果 → 强制记录来源 → OUTPUT
中风险：检索增强生成（RAG）→ 强制带依据展示 → OUTPUT
高风险：强制输出约束（规则+策略）→ 强调人工复核（人机共审）→ OUTPUT

操作日志 & 思考过程留痕，反馈知识与规则迭代。设计价值：风险分层处理保障安全可控 → 强制留痕可审计提升透明度 → 人机协同闭环降低误判风险 → 知识与规则迭代持续优化能力。

Module 5：总结与展望

零容错应用的六大核心能力——构建可信专业系统：

专业正确性——在目标任务里能稳定产出可接受的专业绩效；
责任可分配——系统边界、人工确认节点与责任归属清晰界定；
来源可追溯——任何结论都能清晰回答”依据是什么”；
输出可解释——透明呈现结论、依据、推理过程与不确定性；
数据可控制——权限隔离、本地化部署与履行策略明确；
流程可复核——支持批注、修改、审批流与版本管理。

构建零容错应用的四大工程化方法：

规则设计——将专家业务经验翻译、拆解成大模型能无歧义执行的”原子级判断条件”；
流程搭建——通过多 Agent”并行审查 + 多重共识”流水线，以算力冗余换取最终结果的极端稳定；
评测演进——通过分工审查、交叉验证与共识裁判的机制，形成可衡量的确定性交付结果；
反思闭环——构建”专家纠偏-AI 反思-规则优化”的闭环数据链路，让人在环路（HITL）真正起效。

零容错应用的产品演进路线图：

定义可应用场景（找准切入点）——先定义高频闭环场景，而不盲目自由模型泛化能力；
构建最小可信闭环（跑通闭环）——萃取专家经验，完善数据源、解释与复核机制，跑通发现业务可验证场景闭环；
解决治理与风控（建立治理底座）——厘清权限界、数据备力与组织内部责任界，建立审核点和权限偶式（可信、安全、可追源）；
核心业务流程融合（深度融合）——在可控边界内，将 AI 能力接入核心业务系统，将进化效果落实实现自治和自动化。

结语：用严谨的工程架构”驾驭”大模型的不确定：

维度	内容
竞争的新维度：不在参数，在于确定性	2026 年，AI 产品的核心壁垒早已不是底层模型参数的较量。真正拉开差距的，是对垂直业务 SOP 的理解深度，以及打磨「工程化确定性」的落地能力
抛弃神之迷信，回归严谨工程	不能再指望一个通用模型”无所不能”。必须用最严谨的工程架构（原子规则拆解、多 Agent 并行审查、权威信源对齐），去驾驭 LLM 的不可控与发散，把不确定性锁定在可控范围内
ToB 产品人的护城河	构建基于可插拔 Skill（技能）的、行业专家数字孪生体。把业内炎兴的新标准与风险瓶颈，用确定性的架构封装成能力。这才是 ToB 产品真正的护城河，也是未来持续领先的根本

关键金句

「ToB 要的是『可复现的正确结果』——模型强不等于产品能落地。」——梅容

「在法律这一严肃领域，没有『人机协作』的 AI 是昂贵的玩具。」——梅容

「优秀的生产系统，必须把专家纠错的『沉没成本』，转化为大模型能力升级的『燃料』。」——梅容

「2026 年，AI 产品的核心壁垒早已不是底层模型参数的较量，真正拉开差距的，是对垂直业务 SOP 的理解深度，以及打磨『工程化确定性』的落地能力。」——梅容

「将 1 个复杂决策强制拆解为至少 5 个独立的单点逻辑判断。」——梅容（实施策略）

可行建议

入场前先做四维自评：场景复杂度 / 容错底线 / 知识壁垒 / 数据链路。得分低于 60 分先做 Copilot，不做全自动 Agent；
强制 HITL 关键拦截节点：高罚款/诉讼风险的核心环节，模型再好也保留人类复核；
复杂场景原子化：1 个复杂决策强制拆为至少 5 个独立单点判断；
多 Agent 三段式标配：解析 Agent + 规则 Agent + 裁判 Agent，并行审查 + 多重共识；
Super Prompts 替代大白话提示词：「提取要素 → 条件判断 → 风险定级」结构化思维链；
评测指标双轨：Recall（召回）+ Precision（准确），批量真实合同跑评分；
反馈闭环要落地：四步纠错（捕获上下文 → 定位片段 → 用户修正 → 更新规则）+ AI 反向推演（针对 Recall 优化 RAG，针对 Precision 优化 Prompt）；
来源分层 L1-L4：法条原文 100% / 权威指南 / 专业评论 / AI 辅助待核实，置信度阈值 ≥ 85%；
架构跃迁三件套：Richee.ai 桌面智能体（经验沉淀） + Harness（能力模块化） + Skills 化（技能矩阵）。

关键数据/案例索引

核心产品/品牌：

法大大 iTerms AI 合同智能体
睿契（Richee.ai）桌面智能体
Harness 工程能力重构
Lawyer in the Loop（人机协作机制）

全球同类标杆：

Harvey（法律界的”OpenAI”，估值 80 亿美元）
Claude Coworker（商业智能平台、MCP 协议）
智谱、豆包、DeepSeek（推理引擎层模型）

关键数字：

准确率从 ~60%（Demo 级）→ 90%+（商用标准）→ 95%+（生产红线，目标）
复杂合同 85%、标准合同 95%（相比大模型 70%-75%）
领先 15%+ 的精度跃升
10 类审查规则 × 单类合同 160+ 审查项
1 个复杂决策 → 至少 5 个独立单点判断
来源置信度阈值 ≥ 85%
自评得分 < 60 分建议不要做全自动 Agent

核心架构组件：

Agentic Workflow（替代单体 Prompt）
解析 Agent + 规则 Agent + 裁判 Agent（三段式工作流）
Super Prompts（提取要素 → 条件判断 → 风险定级）
HITL（Human-In-The-Loop）关键拦截节点
RAG（多路召回策略）+ Few-shot（思维链示例）
CoT 思维链拆解
KV-Cache、向量数据库、法律知识图谱

评测指标：

Recall（召回率）= 模型检出的风险点 / 合同实际存在的风险点
Precision（准确率）= 模型检出的正确风险点 / 模型检出的所有风险点

AI 演进 5 阶段：L1 辅助审查 / L2 标准核对 / L3 条件自动化 / L4 自主决策 / L5 战略智能（行业现状卡在 L3 → L4）

来源分层 4 级：L1 法条原文 / L2 权威指南 / L3 专业评论 / L4 AI 辅助待核实

零容错三高：高专业性 / 高风险性 / 高组织性

三类幻觉：事实性幻觉（编造法条）/ 逻辑性幻觉（多重嵌套迷失）/ 遵循度波动（输出不稳）

工程化框架四步：规则设计 / 流程搭建 / 评测演进 / 反思闭环

适用性自评四维：场景复杂度 / 容错底线 / 知识壁垒 / 数据链路

六大核心能力：专业正确性 / 责任可分配 / 来源可追溯 / 输出可解释 / 数据可控制 / 流程可复核