jixiaxue 知识库
blog / pm-conference-2026-04-blog · sessions / 2026-04-24-pm-tob-01-meirong-zero-tolerance-agent

ToB「零容错」场景下的 AI Agent 工程化落地实录与架构演进

0 个章节 · 0 条产出 · 0 条证据
2026-04-24

ToB「零容错」场景下的 AI Agent 工程化落地实录与架构演进

会议: 产品力领航者大会 PM × AI · 2026 春季 | 讲者: 梅容(ToB AI 产品 / 工程实践者,专注法律/合规等”零容错”业务场景) | 时间: 2026-04-24 下午 · AI 重塑 ToB 产业应用分会场

副标题: 从合同审查到法律合规:用工程化确定性”驾驭” LLM 不确定性

一句话总结

ToB「零容错」场景的核心痛点不是模型不强,而是单体大模型的”事实/逻辑/遵循”三类幻觉无法满足”可复现的正确结果”——必须放弃 Prompt 单体路线,走 Agentic Workflow 工程化拆解:用「规则设计 / 流程搭建 / 评测演进 / 反思闭环」四步把 SOP 原子化、用多 Agent 解析-规则-裁判流水线把质量从 60% 拉到 90%+,并通过来源分层、置信度评分、HITL 拦截、Skill 化扩展把合同智能体演进为可信法律技能矩阵。

速览

  1. ToB 要的是”可复现的正确结果”——B 端写错合同条款是百万级索赔风险,C 端写诗是创造力,模型强不等于产品能落地。
  2. 法律场景的「三高」决定了对可控的极致要求——高专业性 / 高风险性 / 高组织性,确定性交付是唯一标准,不能满足确定性的 AI 无法被业务信任。
  3. 旧范式的”三类幻觉”难题——事实性幻觉(编造法条)/ 逻辑性幻觉(多重嵌套判断时迷失)/ 遵循度波动(同一 Prompt 输出忽好忽坏)。
  4. 单体「全能型」模型不适配 ToB——推理链越长,错误累积率越高(合同→提取→法规→漏洞→建议);通用与发散的设计初衷不匹配 ToB 的专业与收敛。
  5. 新解法:放弃 Prompt 单体,引入 Agentic Workflow——把 SOP 原子化拆解,让 LLM 仅在被严格限制的特定节点上做逻辑判断,并补齐确定性评测机制。
  6. 核心方法 = 工程化框架 4 步——规则设计(标准化、知识结构化)→ 流程搭建(任务拆解、智能协同)→ 评测演进(交叉验证、持续优化)→ 反思闭环(专家介入、持续迭代)。
  7. 法大大 iTerms AI 合同智能体落地——准确率从 ~60%(Demo 级)跨越至 90%+ 商用标准,目标向 95%+ 生产红线逼近;100+ 规则类型 × 单类合同 160+ 审查项;超长合同审查不丢内容、条款完整识别。
  8. 关键架构:解析 Agent + 规则 Agent + 裁判 Agent 三段式——“并行审查 + 多重共识”流水线,用算力冗余换最终结果的极端稳定。
  9. AI 演进 5 阶段(L1-L5)——辅助审查 → 标准核对 → 条件自动化 → 自主决策 → 战略智能;行业现状(2026)大多数企业卡在 L3 → L4 过渡期。
  10. 架构跃迁三件套:Richee.ai + Harness + Skills 化——把”硬编码”场景升级为可插拔的能力模块单元,把法律工程转化为可评测、可复用的技能矩阵。

核心内容

Module 1:行业洞察——为什么 ToB 是「零容错」战场

B 端 vs C 端的根本差异

  • C 端:写诗(满满创造力),AI 是想象力的催化剂,开放场景中浪漫无限可能;
  • B 端:错误合同条款(零容错场景的灾难),「采购合同(终稿)」一旦把”乙方未能完成约定的开发任务,甲方有权要求乙方支付 20% 违约金”改成”1,000 万”,会带来百万级索赔风险。

法律场景的根本特殊性——「三高」

维度含义关键要素
高专业性规之有据、精确可证规则严格(适用法律、法规、司法解释等,必须精确无误)/ 证据要求(结论必须基于事实、完整、可核验的证据链)/ 可审计性(严格遵循法定程序与行业规范,确保流程在合理时间内完成)
高风险性失控即不可逆,后果不可控错误代价高(0.1% 的概率会带来百万级损失)/ 不可逆补偿(事实性幻觉造成误读,可能引发不可逆的合规风险或损失)/ 可审计追溯(每一步操作必须留痕,便于事后溯源与审计)
高组织性协同闭环、流程闭环多人协作(跨团队协同,分工明晰,权责清晰可追溯)/ 审批闭环(关键节点须按节奏推进,形成闭环管理)/ 证据留痕(操作可记录、归档,确保合规与责任追溯)

核心底线:确定性交付是法律场景的唯一标准,不能满足确定性的 AI,无法被业务信任。

Module 2:产品范式——从 Prompt 到 Agentic Workflow

旧范式下的「三类幻觉」难题

  1. 事实性幻觉——模型煞有介事地编造完全不存在的法条、条款或历史事件,带来直接的致命风险;
  2. 逻辑性幻觉——在处理”违约责任不对等”这类需要多重条件嵌套判断的长文本时,模型极易在复杂逻辑中迷失;
  3. 遵循度波动——同一个提示词,在不同时间或上下文中,输出忽好忽坏,无法形成稳定一致的 SOP 标准化作业。

痛点解析:单体”全能型”模型不适配 ToB

  • 推理链越长,错误累积率越高——阅读合同 → 提取实体 → 应用法规 → 发现漏洞 → 撰写建议,单体模型一口气完成,任何一个中间环节失误都会被放大并带入最终结果;
  • 全能型路线不适配严肃业务——单体大模型的设计初衷是通用与发散,而 ToB 的要求是专业与收敛,指望黑盒处理高门槛专业决策不符合工程学的可靠性原则;
  • 无法形成 SOP 标准化交付——输出无法稳定复现就意味着无法自动化质检、无法被整合进现有业务系统中成为生产力环节。

全球视野:法律 AI 正从通用大模型外壳演进为垂直领域智能体引擎

  • Harvey 法律界的”OpenAI”——以 Harvey 为代表的合同顾问崛起,估值达 80 亿美元,核心是 GPT-5 等模型的优先微调机制,并与法律界建立深度合作生态;
  • Claude 打造新一代”商业智能平台”——Claude Coworker 从”工具”向”智能要素”平台转型,模块化智能体(MCP 协议与本地 MCP 执行)成为主流架构演化方向。

法律 AI 智能体进化路径分三阶段:第一阶段通用大模型 + 提示词调(低准确率、受限于上下文)→ 第二阶段基础 RAG + 向量检索(结合工程化、提高准确性)→ 第三阶段多智能体 + 法律本体(多智能体审查、法条溯源、合同要素映射)。

新解法:从 Prompt 走向 Agentic Workflow(PPT 给出 3 步骤):

  1. 新解法提出——放弃单体路线,引入 Agentic Workflow:不再追求一个庞大复杂的 Prompt 让模型完成所有工作,而是将整体流程拆解为多个独立的步骤;
  2. 经验萃取——基于专家经验进行 SOP 原子化拆解:把复杂的企业标准作业程序(SOP)进行原子化拆解,让 LLM 仅在被严格限制的特定节点上(如信息提取、简单分类)做逻辑判断;
  3. 关键补齐——确定性评测机制:建立可回归、可量化、可验收的评测标准,将每一步的输出约束在预期格式内,结合校验程序,从而锁死结果的下限。

Module 3:落地方法——法大大 iTerms AI 合同智能体

iTerms AI 合同智能体介绍——「拟·申请 → 签·履行 → 管·存」协议全生命周期闭环:

  • 知识库:智能存储库并自动提取关键条款,将内容转化为可搜索的结构化数据,形成企业的「合同资产」(数据结构化、条款固化);
  • 工作流:工作流编排可实现无代码构建从审查、签署到履行的全部流程化工作,实现业务流程智能化(无代码、自动化);
  • AI 智能辅助:AI 助手自动识别条款风险、签署提醒与要素,跨他签后自动结入系统,提升 B 端用户的体验与使用效率(智能识别、降本增效);
  • 协议全生命周期闭环:合同起草/变更 → 协同拟审 → 合同审批 → 电子签署 → 合同履约 → 合同档案管理。

底层数据资产覆盖模板库、条款库、智能审查、相对方审查、身份认证、意愿校验、多端签署、多终端管理、合同修改、合同变更、合同解除、信息提取、报表分析、证据报告、合同归档、诉讼策略等环节。

运行机制:沉淀多年的合同条款 & 规则数据资产,叠加 Lawyer in the Loop 的 AI 自学习机制

行业和私有数据的结合沉淀:

  • 沉淀法律、合同知识库——外部法律法规、内建企业公司海内外资料、法律持续退化的样品资料;
  • 法律专家顾问参与的持续优化——内部审查规则与场景动态依据结合,AI 法务系统持续升级。

AI 赋能的项目 SOP 体系:

  • 健全的 SOP 体系——具备售前、售后、售后内容的标准化流程管理,构建 SOP 工序;
  • 经验沉淀的 AI 交付助手——搭建了 AI 交付助手,覆盖合同任务下规则智能化、定义、规则定级,审查通过任务模板、服务报告自动生成。

在法律这一严肃领域,没有「人机协作」的 AI 是昂贵的玩具。Lawyer in the Loop 坚持「透明的人机协同」,确保 AI 的每个决策都可评测、可追溯、可调优。

角色AI 智能体职责人类专家职责
主线条款标准(自动智能交易背景和条款定型,智能分配审查规则)高价值谈判(聚焦战略级合同的核心条款博弈)
中段智能初审(快速打结合风险点,自动核注疑虑条款,一键修订)专业判定(AI 预警暂时疑点,由专业人类深思决策)
末段效率提升(自动比对模板和关联条款,识别遗漏错误,减少重复劳动)质量把关(对 AI 的初审结果进行复核确认)

核心价值:以 15% 的精度跃升、10 类的广度覆盖、零丢失的稳定保障,解决业务与法务间「反复拉扯」的低效协同流程。

核心方法:工程化框架实现多层严格执行和验证

在专业法律场景中,为达到专业级的「最小可行信任」,必须采用将生成文本进行拆解、交叉验证的流水线式架构。

Step 1 规则设计——规则标准化、知识结构化:将模糊的专家经验固化成大模型能无歧义执行的「原子级判断条件」。输出:标准化规则库;底层支撑:企业级私有知识库提供确定性的规则来源(沉淀法律法规法、合同知识、历史案例、内部流程等,确定可执行性、可量化、可验证)。

Step 2 流程搭建——任务拆解、智能协同:将复杂任务拆解为可执行的子步骤,确保每个 Agent 顺利、可追溯。输出:标准化执行流程;底层支撑:权威可信、结构化管理。

Step 3 评测演进——交叉验证、持续优化:通过多重交叉验证与指标评测,持续迭代优化、识别错误与遗漏,提升验出风险的准确率。输出:可信赖测结果;底层支撑:安全和可控。

Step 4 反思闭环——专家介入、持续迭代:引入专家反馈反思闭环,持续模式化推进、流程与规则、模型系统的自我进化。输出:持续优化闭环;底层支撑:持续迭代。

方法一:规则设计——专家经验失效的破解之道

必须将高度主观的行业 Know-How,降维成大模型可遵守执行的绝对判断条件。

❌ 大白话提示词(低效):模糊、笼统、缺乏结构,AI 难以精准理解。例如「帮我看看这个租赁合同有没有问题」。

✓ CoT 思维链拆解(高效):结构化、可执行、可追溯,AI 精准理解并深度推理。Super Prompts(超级提示词)结构包含:

  1. 提取要素:租赁期——从合同中提取「租赁期限」相关条款及数值;
  2. 条件判断:是否 > 20 年——判断租赁期限是否超过 20 年;
  3. 风险定级——若超过 20 年,判定为高风险;否则为低风险。

方案:将经验翻译成原子级可执行规则——3 个推进步骤:

  1. 翻译专家经验——拆解为绝对判断:将模糊专家经验拆解为原子级可执行规则;原模糊版本(粗放陈述原有问题描述)→ 原子级新解(“租赁期超过 20 年”、“未明确起算日期”、“缺失支付时机”);
  2. 真实样本评测验证——清晰的边界等于高检出率:通过真实样本评测验证,从主观判断走向确定性结果(规则颗粒度越细、AI 的判断边界越清晰;边界清晰程度更高、覆盖率攀升下降;大模型微调更”是/否”的具象选择,而非主观判定);
  3. 跨领域复用性——提炼通用规则库:将规则结构化沉淀为可复用资产,跨领域快速适用(基于历史沉淀的专家经验,提炼出”原子化拆解”;可在相似业务场景中快速复用,大幅提升潜在效率)。

核心价值:经验结构化 → 规则可证验 → 能力可复用,从模糊经验到确定规则,从高成本试错到低成本迭代。

方法二:流程搭建——长路径导致稳定性崩溃

问题(PPT 用一张机械流水线插画展示):百万复杂合同 → 精细化的提示词 → 算法侧理论瓶颈 → 单步推理路径长 → 上下文窗口内信息密度大 → 认知超载、注意力漂移 → 稳定性差、易翻车(标 Fail)。最后通过 AI 工程侧解法实现工程化解决。

方案:明确职责的多 Agent 协同工作流——机制重塑:并行审查 + 多重共识。不再让一个大模型「包打天下」,而是构建一条职责分明的流水线:

  1. 解析 Agent——从合同条款拆分中,精准抠出结构化法律要素(如「租期:5 年」);
  2. 规则 Agent——拿着提取要素与原子化标准匹配对比,给初筛判定(如「租期不超过 10 年」,条款约定在规则内);
  3. 裁判 Agent——收集并行审查结果,取并集去重,输出最终漏洞报告(如「租期条款无风险」)。

方法三:评测演进——告别无休止的”人工纠偏”

痛点:如何由结果推导有问题的节点?在系统上线初期,虽然能够拦截风险,但法务专家需要花费大量时间去人工修改、剔除 AI 的”误报”或补齐”漏报”。业务效率提升感知不强。

收益:通过分工审查、交叉验证与共识裁判的机制,系统屏蔽了单次生成可能出现的概率性错误,结果相对稳定。

质的飞跃:跨越生死线:准确率从初期的 ~60%(Demo 级别)直接跨越至 90% 以上的可商用标准。目前的目标是向代表人类专家业务验收标准的 95%+ 生产红线逼近。

核心需求:建立 Workflow 上核心节点的评测标准,用可衡量的机制找出”有短板”的节点,有的放矢地优化。

执行方案 3 步

  1. 正确样本采集——收集过往审查批注过的合同样本,将修改前后的条款抓取标注上,映射到对应的审查规则中;
  2. 规则答案标注——针对审查规则,由法务给出过往审查合同的条款上、植入陷阱条款用于 AI 评测质量的评估;
  3. 批量样本测试——基于批量的真实合同进行审查,给出准确率评分,确保准确率不受样本差异的影响。
    • Recall(召回率) = (模型检出的风险点)/(合同实际存在的风险点);
    • Precision(准确率) = (模型检出的正确风险点)/(模型检出的所有风险点)。

方法四:反思闭环——让 AI 能够”从错误中学习”

本质诊断(静态系统的僵局):初期的 Agent 架构缺乏从专家的人工纠偏动作中”学习”的机制,导致每次回答错误,下一轮换个内容格式依然错误。主要表现:纠错依赖人工干预,无法持续优化;错误模式重复出现,改错成本高;缺乏概率评估,无法衡量正确性。

核心需求(自学习的能力):解决方向——优秀的生产系统,必须把专家纠错的”沉没成本”,转化为大模型能力升级的”燃料”。关键能力:纠错反馈自动捕获与归因;概率评估与置信度动态更新;规则与模型策略持续优化迭代。

价值目标:持续学习 → 降低错误率 → 提升确定性 → 构建可进化的智能系统。

方案:构建「反馈-反思-优化」闭环(Lawyer in the Loop)

四步纠错点捕获:当业务人员在界面上点击「反馈」:

  1. 输入错误上下文——自动获取当前条款、错误原因及系统提示词;
  2. 定位错误片段——系统自动检索相关条款片段与原判断逻辑;
  3. 用户修正判断——业务人员给出正确判断与修改意见;
  4. 更新知识与规则——系统沉淀为新规则,提升后续判断准确率。

AI 的反向推演迭代:针对错误问题反馈,自动调用推演模块分析溯源——这是因为提示词边界模糊?是底层知识库缺少某一条法规?还是原子规则本身的逻辑存在漏洞?

  • 针对 Recall 不足:优化 RAG 召回阶段。检查 Chunk Size 是否过小导致上下文断裂,或引入”多路召回”策略;
  • 针对 Precision 不足:优化 Prompt 策略。给出 good case 参考,或引入 Few-shot(思维链示例)。

落地成效:真实客户项目应用效果

维度成果细节
超高准确率领先 15%+复杂合同 85%、标准合同 95%,相比大模型 70%-75% 水平;实现稳定可落地的精度提升
全面审查覆盖10 类审查规则10 个规则类型 × 单类合同 160+ 审查项;不仅覆盖法律审查,还扩展至订单、审计、财务等业务规则;从单一风险检测升级为多维度审查体系
超长文本处理文本逻辑不丢失超长合同审查不丢内容,条款完整识别;解决行业普遍”长文本信息丢失”问题;保证全量条款参与审查,结果更可靠

核心价值:以 15% 的精度跃升、10 类的广度覆盖、零丢失的稳定保障,解决业务与法务间「反复拉扯」的低效协同流程。

适用性自评:AI 是否应用于零容错项目的评估维度

从四个关键维度进行自评:

  1. 场景复杂度评估——你的业务场景是否存在高度主观、涉及多变量深度耦合的复杂决策环境?
  2. 容错底线评估——如果 AI 模型出现错误输出,它是否会导致企业面临严重的经济赔偿或合规风险?
  3. 知识壁垒评估——业务运作逻辑的核心,是否强依赖于那些高度垂直、未公开结构化的行业 Know-How?
  4. 数据链路评估——在当前的数字化系统架构下,是否具备条件建立起「业务端专家反馈 → 模型层持续优化」的活水闭环?

评估目标:识别关键风险 → 量化评估准确性 → 确认应用可行性 → 建立可控的智能闭环。

评估决策:AI 工具和架构的升级,永远是为了业务的确定性服务。基于自评结果,合理规划 AI 落地的可行性:

  • 在项目启动期,理性评估”AI 介入度”:如果对照前述四项维度,自查得分偏低(例如 < 60 分),强烈建议项目初期不要强行推进全自动化 Agent。先从提供线索的”辅助决策工具(Copilot 模式)“做起,稳步探索;
  • 强制设立 HITL 关键拦截节点:针对”容错底线”极高(一旦出错即面临罚款/诉讼)的核心业务环节,无论模型评测表现多好,现阶段都必须在产品交互设计中,强制保留”人类专家复核(Human-In-The-Loop)“的关键节点。把风险管控权还给人。

实施策略:拆解关键节点的实现方案——4 个对策:

对策内容
复杂场景必须”原子化”解构如果场景复杂,请勿将所有任务丢给一条 Prompt。将 1 个复杂决策强制拆解为至少 5 个独立的单点逻辑判断
低容错环节必加”校验锁”若容错极低,必须在架构层面引入”多 Agent 交叉校验”或”并行盲审机制”,绝不轻信单次推理
强绑定专家知识高知识壁垒不能仅靠大模型微调来解决。必须构建精准的动态检索增强(RAG),并与人工梳理的专家规则库进行强绑定
”评测纠偏”是核心功能在系统产品设计之初,就必须将”反馈与纠偏机制”置于核心交互层,将其设计为业务 SOP 的自然环节

Module 4:迁移升级——从合同智能体到全场景法律技能

AI 演进之路:从工具到能力的 5 个进化阶段

阶段名称含义本质
L1辅助审查(工具层)AI 仅做关键词提取与信息定位,人类完成 90% 判断效率工具,不承担决策最终责任
L2标准核对(规则校验层)AI 对照”标准范本”识别差异,人类逐条确认规则匹配,但无推理能力
L3条件自动化(逻辑推理层)AI 理解条款间逻辑关系,能运行基础风险判断,人类仅介入高风险决策节点智能交互,从”匹配”到”理解”
L4自主决策(多 Agent 协同层)AI 可独立完成复杂推理并输出关键建议,人类从”执行者”转为”审核者”决策协助,从工具到半自动 → 决策系统
L5战略智能(可信决策系统)AI 基于平则体系 + 数据来源 + 目标约束进行自我优化,自动管理业务全闭环,人类设定宏观策略边界AI 成为”决策引擎”,不是工具

行业现状(2026):多数企业卡在 L3 → L4 过渡期。

架构跃迁:从 AI 功能走向 Skills 能力扩展生态

产品形态核心进化迁移关键
睿契(Richee.ai)桌面智能体基于审查经验的 AI 协作经验沉淀与能力起点:基于合同审查的 AI”原子规则” + 多 Agent 协作的成功经验,从单一工作流向更复杂的通用业务场景演进
Harness 工程能力重构从场景”硬编码”到能力”模块化”能力工程化与复用枢纽:不再是有多个场景”硬编码”,而是将不同场景下的专属规则、评测标准好成独立的、可插拔的模块化能力单元
Skills 技能化从单一产品到能力生态技能生态与跨域扩展:把复杂的法律工程转化为一套”可评测、可复用”的技能矩阵。合同审查成为一个 Skill,跨境法律合规研究成为另一个 Skill

架构升级:应用于法规检索、法律研究、审核意见和文书生成类扩展场景——7 层架构:

内容技术细节
输入层合同 → 制度 → 案件材料 → 业务请求(用户指令)支持格式:PDF/Word/文本/图片;预处理:OCR 光学识别 + 自然语言解析
识别层场景分类 → 风险分级 → 权限识别分类器:法律专用预训练模型;风险等级:高/中/低
知识与推理检索 → 抽取 → 比对 → 生成 → 推理向量数据库/法律知识图谱/思维链;大模型:智谱、豆包、DeepSeek
证据增强层引用绑定 → 版本识别 → 来源定位幻觉拦截:启用;来源置信度阈值 ≥ 85%
风控与协同输出约束 → 人工复核 → 审批流 → 版本管理人机协同门控:启用;回滚策略:版本快照
输出与治理正式结果 → 操作日志 → 结果回放 → 责任留痕存储:审计日志/思维链;合规:数据安全

升级方案一:从逻辑校验到来源分层的数据源可信机制

零容错的第一步:给 AI 的输出打上明确的来源「权威等级」标签,锁死事实幻觉。

等级名称来源
L1法条原文(100% 确定)官方数据库,最高置信度
L2权威指南(高可信)商务部、律协指南
L3专业评论分析顶级律师的行业深度洞察
L4AI 辅助线索(待核实)仅作为搜索索引和初步大意总结

核心价值:来源透明可追溯 → 可信度分层管理 → 降低事实幻觉 → 为决策提供可靠依据。

升级方案二:资源智能匹配与强置信度评分的技能构建机制

  1. 逻辑迁移:意图识别与智能库匹配——面对跨境多法域问题(如越南海外业务),Skill 会通过意图识别,自动锁定针对”越南法域”的 L1/L2 资源池,而非盲目检索全文。并启动”中英/中越双语交叉验证”流,确保知识准确与合规。价值:更精准的资源命中率,更高的知识可量化性。
  2. 闭环迁移:引入严苛的置信度评分系统——只有当 AI 提取到的信息源于 L1(官方版)且在 1 个月内更新时,系统才允许打上「✅ 确定」的标识。价值:可量化的置信度标准,减少误判与幻觉风险。
  3. 对于模糊信息的”强制红线”——任何来自 L3/L4 或硬性久远的模糊检索,系统都会强制标黄「⚠️ 待核实」,并必须同时提供供手动查找的跳转指引,将决策风险显性化。价值:风险前置预警,决策链路可追溯。

核心目标:精准匹配资源 → 置信度可量化 → 风险显性可控 → 决策更可靠。

升级方案三:技能评测和可审计机制——基于风险分层的单次任务闭环逻辑

发起任务 → 识别任务类型 → 风险分级分类器:

  • 低风险:直接生成结果 → 强制记录来源 → OUTPUT
  • 中风险:检索增强生成(RAG)→ 强制带依据展示 → OUTPUT
  • 高风险:强制输出约束(规则+策略)→ 强调人工复核(人机共审)→ OUTPUT

操作日志 & 思考过程留痕,反馈知识与规则迭代。设计价值:风险分层处理保障安全可控 → 强制留痕可审计提升透明度 → 人机协同闭环降低误判风险 → 知识与规则迭代持续优化能力。

Module 5:总结与展望

零容错应用的六大核心能力——构建可信专业系统:

  1. 专业正确性——在目标任务里能稳定产出可接受的专业绩效;
  2. 责任可分配——系统边界、人工确认节点与责任归属清晰界定;
  3. 来源可追溯——任何结论都能清晰回答”依据是什么”;
  4. 输出可解释——透明呈现结论、依据、推理过程与不确定性;
  5. 数据可控制——权限隔离、本地化部署与履行策略明确;
  6. 流程可复核——支持批注、修改、审批流与版本管理。

构建零容错应用的四大工程化方法

  • 规则设计——将专家业务经验翻译、拆解成大模型能无歧义执行的”原子级判断条件”;
  • 流程搭建——通过多 Agent”并行审查 + 多重共识”流水线,以算力冗余换取最终结果的极端稳定;
  • 评测演进——通过分工审查、交叉验证与共识裁判的机制,形成可衡量的确定性交付结果;
  • 反思闭环——构建”专家纠偏-AI 反思-规则优化”的闭环数据链路,让人在环路(HITL)真正起效。

零容错应用的产品演进路线图

  1. 定义可应用场景(找准切入点)——先定义高频闭环场景,而不盲目自由模型泛化能力;
  2. 构建最小可信闭环(跑通闭环)——萃取专家经验,完善数据源、解释与复核机制,跑通发现业务可验证场景闭环;
  3. 解决治理与风控(建立治理底座)——厘清权限界、数据备力与组织内部责任界,建立审核点和权限偶式(可信、安全、可追源);
  4. 核心业务流程融合(深度融合)——在可控边界内,将 AI 能力接入核心业务系统,将进化效果落实实现自治和自动化。

结语:用严谨的工程架构”驾驭”大模型的不确定

维度内容
竞争的新维度:不在参数,在于确定性2026 年,AI 产品的核心壁垒早已不是底层模型参数的较量。真正拉开差距的,是对垂直业务 SOP 的理解深度,以及打磨「工程化确定性」的落地能力
抛弃神之迷信,回归严谨工程不能再指望一个通用模型”无所不能”。必须用最严谨的工程架构(原子规则拆解、多 Agent 并行审查、权威信源对齐),去驾驭 LLM 的不可控与发散,把不确定性锁定在可控范围内
ToB 产品人的护城河构建基于可插拔 Skill(技能)的、行业专家数字孪生体。把业内炎兴的新标准与风险瓶颈,用确定性的架构封装成能力。这才是 ToB 产品真正的护城河,也是未来持续领先的根本

关键金句

「ToB 要的是『可复现的正确结果』——模型强不等于产品能落地。」——梅容

「在法律这一严肃领域,没有『人机协作』的 AI 是昂贵的玩具。」——梅容

「优秀的生产系统,必须把专家纠错的『沉没成本』,转化为大模型能力升级的『燃料』。」——梅容

「2026 年,AI 产品的核心壁垒早已不是底层模型参数的较量,真正拉开差距的,是对垂直业务 SOP 的理解深度,以及打磨『工程化确定性』的落地能力。」——梅容

「将 1 个复杂决策强制拆解为至少 5 个独立的单点逻辑判断。」——梅容(实施策略)

可行建议

  • 入场前先做四维自评:场景复杂度 / 容错底线 / 知识壁垒 / 数据链路。得分低于 60 分先做 Copilot,不做全自动 Agent;
  • 强制 HITL 关键拦截节点:高罚款/诉讼风险的核心环节,模型再好也保留人类复核;
  • 复杂场景原子化:1 个复杂决策强制拆为至少 5 个独立单点判断;
  • 多 Agent 三段式标配:解析 Agent + 规则 Agent + 裁判 Agent,并行审查 + 多重共识;
  • Super Prompts 替代大白话提示词:「提取要素 → 条件判断 → 风险定级」结构化思维链;
  • 评测指标双轨:Recall(召回)+ Precision(准确),批量真实合同跑评分;
  • 反馈闭环要落地:四步纠错(捕获上下文 → 定位片段 → 用户修正 → 更新规则)+ AI 反向推演(针对 Recall 优化 RAG,针对 Precision 优化 Prompt);
  • 来源分层 L1-L4:法条原文 100% / 权威指南 / 专业评论 / AI 辅助待核实,置信度阈值 ≥ 85%;
  • 架构跃迁三件套:Richee.ai 桌面智能体(经验沉淀) + Harness(能力模块化) + Skills 化(技能矩阵)。

关键数据/案例索引

核心产品/品牌

  • 法大大 iTerms AI 合同智能体
  • 睿契(Richee.ai)桌面智能体
  • Harness 工程能力重构
  • Lawyer in the Loop(人机协作机制)

全球同类标杆

  • Harvey(法律界的”OpenAI”,估值 80 亿美元)
  • Claude Coworker(商业智能平台、MCP 协议)
  • 智谱、豆包、DeepSeek(推理引擎层模型)

关键数字

  • 准确率从 ~60%(Demo 级)→ 90%+(商用标准)→ 95%+(生产红线,目标)
  • 复杂合同 85%、标准合同 95%(相比大模型 70%-75%)
  • 领先 15%+ 的精度跃升
  • 10 类审查规则 × 单类合同 160+ 审查项
  • 1 个复杂决策 → 至少 5 个独立单点判断
  • 来源置信度阈值 ≥ 85%
  • 自评得分 < 60 分建议不要做全自动 Agent

核心架构组件

  • Agentic Workflow(替代单体 Prompt)
  • 解析 Agent + 规则 Agent + 裁判 Agent(三段式工作流)
  • Super Prompts(提取要素 → 条件判断 → 风险定级)
  • HITL(Human-In-The-Loop)关键拦截节点
  • RAG(多路召回策略)+ Few-shot(思维链示例)
  • CoT 思维链拆解
  • KV-Cache、向量数据库、法律知识图谱

评测指标

  • Recall(召回率)= 模型检出的风险点 / 合同实际存在的风险点
  • Precision(准确率)= 模型检出的正确风险点 / 模型检出的所有风险点

AI 演进 5 阶段:L1 辅助审查 / L2 标准核对 / L3 条件自动化 / L4 自主决策 / L5 战略智能(行业现状卡在 L3 → L4)

来源分层 4 级:L1 法条原文 / L2 权威指南 / L3 专业评论 / L4 AI 辅助待核实

零容错三高:高专业性 / 高风险性 / 高组织性

三类幻觉:事实性幻觉(编造法条)/ 逻辑性幻觉(多重嵌套迷失)/ 遵循度波动(输出不稳)

工程化框架四步:规则设计 / 流程搭建 / 评测演进 / 反思闭环

适用性自评四维:场景复杂度 / 容错底线 / 知识壁垒 / 数据链路

六大核心能力:专业正确性 / 责任可分配 / 来源可追溯 / 输出可解释 / 数据可控制 / 流程可复核