ToB「零容错」场景下的 AI Agent 工程化落地实录与架构演进
会议: 产品力领航者大会 PM × AI · 2026 春季 | 讲者: 梅容(ToB AI 产品 / 工程实践者,专注法律/合规等”零容错”业务场景) | 时间: 2026-04-24 下午 · AI 重塑 ToB 产业应用分会场
副标题: 从合同审查到法律合规:用工程化确定性”驾驭” LLM 不确定性
一句话总结
ToB「零容错」场景的核心痛点不是模型不强,而是单体大模型的”事实/逻辑/遵循”三类幻觉无法满足”可复现的正确结果”——必须放弃 Prompt 单体路线,走 Agentic Workflow 工程化拆解:用「规则设计 / 流程搭建 / 评测演进 / 反思闭环」四步把 SOP 原子化、用多 Agent 解析-规则-裁判流水线把质量从 60% 拉到 90%+,并通过来源分层、置信度评分、HITL 拦截、Skill 化扩展把合同智能体演进为可信法律技能矩阵。
速览
- ToB 要的是”可复现的正确结果”——B 端写错合同条款是百万级索赔风险,C 端写诗是创造力,模型强不等于产品能落地。
- 法律场景的「三高」决定了对可控的极致要求——高专业性 / 高风险性 / 高组织性,确定性交付是唯一标准,不能满足确定性的 AI 无法被业务信任。
- 旧范式的”三类幻觉”难题——事实性幻觉(编造法条)/ 逻辑性幻觉(多重嵌套判断时迷失)/ 遵循度波动(同一 Prompt 输出忽好忽坏)。
- 单体「全能型」模型不适配 ToB——推理链越长,错误累积率越高(合同→提取→法规→漏洞→建议);通用与发散的设计初衷不匹配 ToB 的专业与收敛。
- 新解法:放弃 Prompt 单体,引入 Agentic Workflow——把 SOP 原子化拆解,让 LLM 仅在被严格限制的特定节点上做逻辑判断,并补齐确定性评测机制。
- 核心方法 = 工程化框架 4 步——规则设计(标准化、知识结构化)→ 流程搭建(任务拆解、智能协同)→ 评测演进(交叉验证、持续优化)→ 反思闭环(专家介入、持续迭代)。
- 法大大 iTerms AI 合同智能体落地——准确率从 ~60%(Demo 级)跨越至 90%+ 商用标准,目标向 95%+ 生产红线逼近;100+ 规则类型 × 单类合同 160+ 审查项;超长合同审查不丢内容、条款完整识别。
- 关键架构:解析 Agent + 规则 Agent + 裁判 Agent 三段式——“并行审查 + 多重共识”流水线,用算力冗余换最终结果的极端稳定。
- AI 演进 5 阶段(L1-L5)——辅助审查 → 标准核对 → 条件自动化 → 自主决策 → 战略智能;行业现状(2026)大多数企业卡在 L3 → L4 过渡期。
- 架构跃迁三件套:Richee.ai + Harness + Skills 化——把”硬编码”场景升级为可插拔的能力模块单元,把法律工程转化为可评测、可复用的技能矩阵。
核心内容
Module 1:行业洞察——为什么 ToB 是「零容错」战场
B 端 vs C 端的根本差异:
- C 端:写诗(满满创造力),AI 是想象力的催化剂,开放场景中浪漫无限可能;
- B 端:错误合同条款(零容错场景的灾难),「采购合同(终稿)」一旦把”乙方未能完成约定的开发任务,甲方有权要求乙方支付 20% 违约金”改成”1,000 万”,会带来百万级索赔风险。
法律场景的根本特殊性——「三高」:
| 维度 | 含义 | 关键要素 |
|---|---|---|
| 高专业性 | 规之有据、精确可证 | 规则严格(适用法律、法规、司法解释等,必须精确无误)/ 证据要求(结论必须基于事实、完整、可核验的证据链)/ 可审计性(严格遵循法定程序与行业规范,确保流程在合理时间内完成) |
| 高风险性 | 失控即不可逆,后果不可控 | 错误代价高(0.1% 的概率会带来百万级损失)/ 不可逆补偿(事实性幻觉造成误读,可能引发不可逆的合规风险或损失)/ 可审计追溯(每一步操作必须留痕,便于事后溯源与审计) |
| 高组织性 | 协同闭环、流程闭环 | 多人协作(跨团队协同,分工明晰,权责清晰可追溯)/ 审批闭环(关键节点须按节奏推进,形成闭环管理)/ 证据留痕(操作可记录、归档,确保合规与责任追溯) |
核心底线:确定性交付是法律场景的唯一标准,不能满足确定性的 AI,无法被业务信任。
Module 2:产品范式——从 Prompt 到 Agentic Workflow
旧范式下的「三类幻觉」难题:
- 事实性幻觉——模型煞有介事地编造完全不存在的法条、条款或历史事件,带来直接的致命风险;
- 逻辑性幻觉——在处理”违约责任不对等”这类需要多重条件嵌套判断的长文本时,模型极易在复杂逻辑中迷失;
- 遵循度波动——同一个提示词,在不同时间或上下文中,输出忽好忽坏,无法形成稳定一致的 SOP 标准化作业。
痛点解析:单体”全能型”模型不适配 ToB:
- 推理链越长,错误累积率越高——阅读合同 → 提取实体 → 应用法规 → 发现漏洞 → 撰写建议,单体模型一口气完成,任何一个中间环节失误都会被放大并带入最终结果;
- 全能型路线不适配严肃业务——单体大模型的设计初衷是通用与发散,而 ToB 的要求是专业与收敛,指望黑盒处理高门槛专业决策不符合工程学的可靠性原则;
- 无法形成 SOP 标准化交付——输出无法稳定复现就意味着无法自动化质检、无法被整合进现有业务系统中成为生产力环节。
全球视野:法律 AI 正从通用大模型外壳演进为垂直领域智能体引擎:
- Harvey 法律界的”OpenAI”——以 Harvey 为代表的合同顾问崛起,估值达 80 亿美元,核心是 GPT-5 等模型的优先微调机制,并与法律界建立深度合作生态;
- Claude 打造新一代”商业智能平台”——Claude Coworker 从”工具”向”智能要素”平台转型,模块化智能体(MCP 协议与本地 MCP 执行)成为主流架构演化方向。
法律 AI 智能体进化路径分三阶段:第一阶段通用大模型 + 提示词调(低准确率、受限于上下文)→ 第二阶段基础 RAG + 向量检索(结合工程化、提高准确性)→ 第三阶段多智能体 + 法律本体(多智能体审查、法条溯源、合同要素映射)。
新解法:从 Prompt 走向 Agentic Workflow(PPT 给出 3 步骤):
- 新解法提出——放弃单体路线,引入 Agentic Workflow:不再追求一个庞大复杂的 Prompt 让模型完成所有工作,而是将整体流程拆解为多个独立的步骤;
- 经验萃取——基于专家经验进行 SOP 原子化拆解:把复杂的企业标准作业程序(SOP)进行原子化拆解,让 LLM 仅在被严格限制的特定节点上(如信息提取、简单分类)做逻辑判断;
- 关键补齐——确定性评测机制:建立可回归、可量化、可验收的评测标准,将每一步的输出约束在预期格式内,结合校验程序,从而锁死结果的下限。
Module 3:落地方法——法大大 iTerms AI 合同智能体
iTerms AI 合同智能体介绍——「拟·申请 → 签·履行 → 管·存」协议全生命周期闭环:
- 知识库:智能存储库并自动提取关键条款,将内容转化为可搜索的结构化数据,形成企业的「合同资产」(数据结构化、条款固化);
- 工作流:工作流编排可实现无代码构建从审查、签署到履行的全部流程化工作,实现业务流程智能化(无代码、自动化);
- AI 智能辅助:AI 助手自动识别条款风险、签署提醒与要素,跨他签后自动结入系统,提升 B 端用户的体验与使用效率(智能识别、降本增效);
- 协议全生命周期闭环:合同起草/变更 → 协同拟审 → 合同审批 → 电子签署 → 合同履约 → 合同档案管理。
底层数据资产覆盖模板库、条款库、智能审查、相对方审查、身份认证、意愿校验、多端签署、多终端管理、合同修改、合同变更、合同解除、信息提取、报表分析、证据报告、合同归档、诉讼策略等环节。
运行机制:沉淀多年的合同条款 & 规则数据资产,叠加 Lawyer in the Loop 的 AI 自学习机制:
行业和私有数据的结合沉淀:
- 沉淀法律、合同知识库——外部法律法规、内建企业公司海内外资料、法律持续退化的样品资料;
- 法律专家顾问参与的持续优化——内部审查规则与场景动态依据结合,AI 法务系统持续升级。
AI 赋能的项目 SOP 体系:
- 健全的 SOP 体系——具备售前、售后、售后内容的标准化流程管理,构建 SOP 工序;
- 经验沉淀的 AI 交付助手——搭建了 AI 交付助手,覆盖合同任务下规则智能化、定义、规则定级,审查通过任务模板、服务报告自动生成。
在法律这一严肃领域,没有「人机协作」的 AI 是昂贵的玩具。Lawyer in the Loop 坚持「透明的人机协同」,确保 AI 的每个决策都可评测、可追溯、可调优。
| 角色 | AI 智能体职责 | 人类专家职责 |
|---|---|---|
| 主线 | 条款标准(自动智能交易背景和条款定型,智能分配审查规则) | 高价值谈判(聚焦战略级合同的核心条款博弈) |
| 中段 | 智能初审(快速打结合风险点,自动核注疑虑条款,一键修订) | 专业判定(AI 预警暂时疑点,由专业人类深思决策) |
| 末段 | 效率提升(自动比对模板和关联条款,识别遗漏错误,减少重复劳动) | 质量把关(对 AI 的初审结果进行复核确认) |
核心价值:以 15% 的精度跃升、10 类的广度覆盖、零丢失的稳定保障,解决业务与法务间「反复拉扯」的低效协同流程。
核心方法:工程化框架实现多层严格执行和验证
在专业法律场景中,为达到专业级的「最小可行信任」,必须采用将生成文本进行拆解、交叉验证的流水线式架构。
Step 1 规则设计——规则标准化、知识结构化:将模糊的专家经验固化成大模型能无歧义执行的「原子级判断条件」。输出:标准化规则库;底层支撑:企业级私有知识库提供确定性的规则来源(沉淀法律法规法、合同知识、历史案例、内部流程等,确定可执行性、可量化、可验证)。
Step 2 流程搭建——任务拆解、智能协同:将复杂任务拆解为可执行的子步骤,确保每个 Agent 顺利、可追溯。输出:标准化执行流程;底层支撑:权威可信、结构化管理。
Step 3 评测演进——交叉验证、持续优化:通过多重交叉验证与指标评测,持续迭代优化、识别错误与遗漏,提升验出风险的准确率。输出:可信赖测结果;底层支撑:安全和可控。
Step 4 反思闭环——专家介入、持续迭代:引入专家反馈反思闭环,持续模式化推进、流程与规则、模型系统的自我进化。输出:持续优化闭环;底层支撑:持续迭代。
方法一:规则设计——专家经验失效的破解之道
必须将高度主观的行业 Know-How,降维成大模型可遵守执行的绝对判断条件。
❌ 大白话提示词(低效):模糊、笼统、缺乏结构,AI 难以精准理解。例如「帮我看看这个租赁合同有没有问题」。
✓ CoT 思维链拆解(高效):结构化、可执行、可追溯,AI 精准理解并深度推理。Super Prompts(超级提示词)结构包含:
- 提取要素:租赁期——从合同中提取「租赁期限」相关条款及数值;
- 条件判断:是否 > 20 年——判断租赁期限是否超过 20 年;
- 风险定级——若超过 20 年,判定为高风险;否则为低风险。
方案:将经验翻译成原子级可执行规则——3 个推进步骤:
- 翻译专家经验——拆解为绝对判断:将模糊专家经验拆解为原子级可执行规则;原模糊版本(粗放陈述原有问题描述)→ 原子级新解(“租赁期超过 20 年”、“未明确起算日期”、“缺失支付时机”);
- 真实样本评测验证——清晰的边界等于高检出率:通过真实样本评测验证,从主观判断走向确定性结果(规则颗粒度越细、AI 的判断边界越清晰;边界清晰程度更高、覆盖率攀升下降;大模型微调更”是/否”的具象选择,而非主观判定);
- 跨领域复用性——提炼通用规则库:将规则结构化沉淀为可复用资产,跨领域快速适用(基于历史沉淀的专家经验,提炼出”原子化拆解”;可在相似业务场景中快速复用,大幅提升潜在效率)。
核心价值:经验结构化 → 规则可证验 → 能力可复用,从模糊经验到确定规则,从高成本试错到低成本迭代。
方法二:流程搭建——长路径导致稳定性崩溃
问题(PPT 用一张机械流水线插画展示):百万复杂合同 → 精细化的提示词 → 算法侧理论瓶颈 → 单步推理路径长 → 上下文窗口内信息密度大 → 认知超载、注意力漂移 → 稳定性差、易翻车(标 Fail)。最后通过 AI 工程侧解法实现工程化解决。
方案:明确职责的多 Agent 协同工作流——机制重塑:并行审查 + 多重共识。不再让一个大模型「包打天下」,而是构建一条职责分明的流水线:
- 解析 Agent——从合同条款拆分中,精准抠出结构化法律要素(如「租期:5 年」);
- 规则 Agent——拿着提取要素与原子化标准匹配对比,给初筛判定(如「租期不超过 10 年」,条款约定在规则内);
- 裁判 Agent——收集并行审查结果,取并集去重,输出最终漏洞报告(如「租期条款无风险」)。
方法三:评测演进——告别无休止的”人工纠偏”
痛点:如何由结果推导有问题的节点?在系统上线初期,虽然能够拦截风险,但法务专家需要花费大量时间去人工修改、剔除 AI 的”误报”或补齐”漏报”。业务效率提升感知不强。
收益:通过分工审查、交叉验证与共识裁判的机制,系统屏蔽了单次生成可能出现的概率性错误,结果相对稳定。
质的飞跃:跨越生死线:准确率从初期的 ~60%(Demo 级别)直接跨越至 90% 以上的可商用标准。目前的目标是向代表人类专家业务验收标准的 95%+ 生产红线逼近。
核心需求:建立 Workflow 上核心节点的评测标准,用可衡量的机制找出”有短板”的节点,有的放矢地优化。
执行方案 3 步:
- 正确样本采集——收集过往审查批注过的合同样本,将修改前后的条款抓取标注上,映射到对应的审查规则中;
- 规则答案标注——针对审查规则,由法务给出过往审查合同的条款上、植入陷阱条款用于 AI 评测质量的评估;
- 批量样本测试——基于批量的真实合同进行审查,给出准确率评分,确保准确率不受样本差异的影响。
- Recall(召回率) = (模型检出的风险点)/(合同实际存在的风险点);
- Precision(准确率) = (模型检出的正确风险点)/(模型检出的所有风险点)。
方法四:反思闭环——让 AI 能够”从错误中学习”
本质诊断(静态系统的僵局):初期的 Agent 架构缺乏从专家的人工纠偏动作中”学习”的机制,导致每次回答错误,下一轮换个内容格式依然错误。主要表现:纠错依赖人工干预,无法持续优化;错误模式重复出现,改错成本高;缺乏概率评估,无法衡量正确性。
核心需求(自学习的能力):解决方向——优秀的生产系统,必须把专家纠错的”沉没成本”,转化为大模型能力升级的”燃料”。关键能力:纠错反馈自动捕获与归因;概率评估与置信度动态更新;规则与模型策略持续优化迭代。
价值目标:持续学习 → 降低错误率 → 提升确定性 → 构建可进化的智能系统。
方案:构建「反馈-反思-优化」闭环(Lawyer in the Loop):
四步纠错点捕获:当业务人员在界面上点击「反馈」:
- 输入错误上下文——自动获取当前条款、错误原因及系统提示词;
- 定位错误片段——系统自动检索相关条款片段与原判断逻辑;
- 用户修正判断——业务人员给出正确判断与修改意见;
- 更新知识与规则——系统沉淀为新规则,提升后续判断准确率。
AI 的反向推演迭代:针对错误问题反馈,自动调用推演模块分析溯源——这是因为提示词边界模糊?是底层知识库缺少某一条法规?还是原子规则本身的逻辑存在漏洞?
- 针对 Recall 不足:优化 RAG 召回阶段。检查 Chunk Size 是否过小导致上下文断裂,或引入”多路召回”策略;
- 针对 Precision 不足:优化 Prompt 策略。给出 good case 参考,或引入 Few-shot(思维链示例)。
落地成效:真实客户项目应用效果
| 维度 | 成果 | 细节 |
|---|---|---|
| 超高准确率 | 领先 15%+ | 复杂合同 85%、标准合同 95%,相比大模型 70%-75% 水平;实现稳定可落地的精度提升 |
| 全面审查覆盖 | 10 类审查规则 | 10 个规则类型 × 单类合同 160+ 审查项;不仅覆盖法律审查,还扩展至订单、审计、财务等业务规则;从单一风险检测升级为多维度审查体系 |
| 超长文本处理 | 文本逻辑不丢失 | 超长合同审查不丢内容,条款完整识别;解决行业普遍”长文本信息丢失”问题;保证全量条款参与审查,结果更可靠 |
核心价值:以 15% 的精度跃升、10 类的广度覆盖、零丢失的稳定保障,解决业务与法务间「反复拉扯」的低效协同流程。
适用性自评:AI 是否应用于零容错项目的评估维度
从四个关键维度进行自评:
- 场景复杂度评估——你的业务场景是否存在高度主观、涉及多变量深度耦合的复杂决策环境?
- 容错底线评估——如果 AI 模型出现错误输出,它是否会导致企业面临严重的经济赔偿或合规风险?
- 知识壁垒评估——业务运作逻辑的核心,是否强依赖于那些高度垂直、未公开结构化的行业 Know-How?
- 数据链路评估——在当前的数字化系统架构下,是否具备条件建立起「业务端专家反馈 → 模型层持续优化」的活水闭环?
评估目标:识别关键风险 → 量化评估准确性 → 确认应用可行性 → 建立可控的智能闭环。
评估决策:AI 工具和架构的升级,永远是为了业务的确定性服务。基于自评结果,合理规划 AI 落地的可行性:
- 在项目启动期,理性评估”AI 介入度”:如果对照前述四项维度,自查得分偏低(例如 < 60 分),强烈建议项目初期不要强行推进全自动化 Agent。先从提供线索的”辅助决策工具(Copilot 模式)“做起,稳步探索;
- 强制设立 HITL 关键拦截节点:针对”容错底线”极高(一旦出错即面临罚款/诉讼)的核心业务环节,无论模型评测表现多好,现阶段都必须在产品交互设计中,强制保留”人类专家复核(Human-In-The-Loop)“的关键节点。把风险管控权还给人。
实施策略:拆解关键节点的实现方案——4 个对策:
| 对策 | 内容 |
|---|---|
| 复杂场景必须”原子化”解构 | 如果场景复杂,请勿将所有任务丢给一条 Prompt。将 1 个复杂决策强制拆解为至少 5 个独立的单点逻辑判断 |
| 低容错环节必加”校验锁” | 若容错极低,必须在架构层面引入”多 Agent 交叉校验”或”并行盲审机制”,绝不轻信单次推理 |
| 强绑定专家知识 | 高知识壁垒不能仅靠大模型微调来解决。必须构建精准的动态检索增强(RAG),并与人工梳理的专家规则库进行强绑定 |
| ”评测纠偏”是核心功能 | 在系统产品设计之初,就必须将”反馈与纠偏机制”置于核心交互层,将其设计为业务 SOP 的自然环节 |
Module 4:迁移升级——从合同智能体到全场景法律技能
AI 演进之路:从工具到能力的 5 个进化阶段:
| 阶段 | 名称 | 含义 | 本质 |
|---|---|---|---|
| L1 | 辅助审查(工具层) | AI 仅做关键词提取与信息定位,人类完成 90% 判断 | 效率工具,不承担决策最终责任 |
| L2 | 标准核对(规则校验层) | AI 对照”标准范本”识别差异,人类逐条确认 | 规则匹配,但无推理能力 |
| L3 | 条件自动化(逻辑推理层) | AI 理解条款间逻辑关系,能运行基础风险判断,人类仅介入高风险决策节点 | 智能交互,从”匹配”到”理解” |
| L4 | 自主决策(多 Agent 协同层) | AI 可独立完成复杂推理并输出关键建议,人类从”执行者”转为”审核者” | 决策协助,从工具到半自动 → 决策系统 |
| L5 | 战略智能(可信决策系统) | AI 基于平则体系 + 数据来源 + 目标约束进行自我优化,自动管理业务全闭环,人类设定宏观策略边界 | AI 成为”决策引擎”,不是工具 |
行业现状(2026):多数企业卡在 L3 → L4 过渡期。
架构跃迁:从 AI 功能走向 Skills 能力扩展生态:
| 产品形态 | 核心进化 | 迁移关键 |
|---|---|---|
| 睿契(Richee.ai)桌面智能体 | 基于审查经验的 AI 协作 | 经验沉淀与能力起点:基于合同审查的 AI”原子规则” + 多 Agent 协作的成功经验,从单一工作流向更复杂的通用业务场景演进 |
| Harness 工程能力重构 | 从场景”硬编码”到能力”模块化” | 能力工程化与复用枢纽:不再是有多个场景”硬编码”,而是将不同场景下的专属规则、评测标准好成独立的、可插拔的模块化能力单元 |
| Skills 技能化 | 从单一产品到能力生态 | 技能生态与跨域扩展:把复杂的法律工程转化为一套”可评测、可复用”的技能矩阵。合同审查成为一个 Skill,跨境法律合规研究成为另一个 Skill |
架构升级:应用于法规检索、法律研究、审核意见和文书生成类扩展场景——7 层架构:
| 层 | 内容 | 技术细节 |
|---|---|---|
| 输入层 | 合同 → 制度 → 案件材料 → 业务请求(用户指令) | 支持格式:PDF/Word/文本/图片;预处理:OCR 光学识别 + 自然语言解析 |
| 识别层 | 场景分类 → 风险分级 → 权限识别 | 分类器:法律专用预训练模型;风险等级:高/中/低 |
| 知识与推理 | 检索 → 抽取 → 比对 → 生成 → 推理 | 向量数据库/法律知识图谱/思维链;大模型:智谱、豆包、DeepSeek |
| 证据增强层 | 引用绑定 → 版本识别 → 来源定位 | 幻觉拦截:启用;来源置信度阈值 ≥ 85% |
| 风控与协同 | 输出约束 → 人工复核 → 审批流 → 版本管理 | 人机协同门控:启用;回滚策略:版本快照 |
| 输出与治理 | 正式结果 → 操作日志 → 结果回放 → 责任留痕 | 存储:审计日志/思维链;合规:数据安全 |
升级方案一:从逻辑校验到来源分层的数据源可信机制
零容错的第一步:给 AI 的输出打上明确的来源「权威等级」标签,锁死事实幻觉。
| 等级 | 名称 | 来源 |
|---|---|---|
| L1 | 法条原文(100% 确定) | 官方数据库,最高置信度 |
| L2 | 权威指南(高可信) | 商务部、律协指南 |
| L3 | 专业评论分析 | 顶级律师的行业深度洞察 |
| L4 | AI 辅助线索(待核实) | 仅作为搜索索引和初步大意总结 |
核心价值:来源透明可追溯 → 可信度分层管理 → 降低事实幻觉 → 为决策提供可靠依据。
升级方案二:资源智能匹配与强置信度评分的技能构建机制
- 逻辑迁移:意图识别与智能库匹配——面对跨境多法域问题(如越南海外业务),Skill 会通过意图识别,自动锁定针对”越南法域”的 L1/L2 资源池,而非盲目检索全文。并启动”中英/中越双语交叉验证”流,确保知识准确与合规。价值:更精准的资源命中率,更高的知识可量化性。
- 闭环迁移:引入严苛的置信度评分系统——只有当 AI 提取到的信息源于 L1(官方版)且在 1 个月内更新时,系统才允许打上「✅ 确定」的标识。价值:可量化的置信度标准,减少误判与幻觉风险。
- 对于模糊信息的”强制红线”——任何来自 L3/L4 或硬性久远的模糊检索,系统都会强制标黄「⚠️ 待核实」,并必须同时提供供手动查找的跳转指引,将决策风险显性化。价值:风险前置预警,决策链路可追溯。
核心目标:精准匹配资源 → 置信度可量化 → 风险显性可控 → 决策更可靠。
升级方案三:技能评测和可审计机制——基于风险分层的单次任务闭环逻辑:
发起任务 → 识别任务类型 → 风险分级分类器:
- 低风险:直接生成结果 → 强制记录来源 → OUTPUT
- 中风险:检索增强生成(RAG)→ 强制带依据展示 → OUTPUT
- 高风险:强制输出约束(规则+策略)→ 强调人工复核(人机共审)→ OUTPUT
操作日志 & 思考过程留痕,反馈知识与规则迭代。设计价值:风险分层处理保障安全可控 → 强制留痕可审计提升透明度 → 人机协同闭环降低误判风险 → 知识与规则迭代持续优化能力。
Module 5:总结与展望
零容错应用的六大核心能力——构建可信专业系统:
- 专业正确性——在目标任务里能稳定产出可接受的专业绩效;
- 责任可分配——系统边界、人工确认节点与责任归属清晰界定;
- 来源可追溯——任何结论都能清晰回答”依据是什么”;
- 输出可解释——透明呈现结论、依据、推理过程与不确定性;
- 数据可控制——权限隔离、本地化部署与履行策略明确;
- 流程可复核——支持批注、修改、审批流与版本管理。
构建零容错应用的四大工程化方法:
- 规则设计——将专家业务经验翻译、拆解成大模型能无歧义执行的”原子级判断条件”;
- 流程搭建——通过多 Agent”并行审查 + 多重共识”流水线,以算力冗余换取最终结果的极端稳定;
- 评测演进——通过分工审查、交叉验证与共识裁判的机制,形成可衡量的确定性交付结果;
- 反思闭环——构建”专家纠偏-AI 反思-规则优化”的闭环数据链路,让人在环路(HITL)真正起效。
零容错应用的产品演进路线图:
- 定义可应用场景(找准切入点)——先定义高频闭环场景,而不盲目自由模型泛化能力;
- 构建最小可信闭环(跑通闭环)——萃取专家经验,完善数据源、解释与复核机制,跑通发现业务可验证场景闭环;
- 解决治理与风控(建立治理底座)——厘清权限界、数据备力与组织内部责任界,建立审核点和权限偶式(可信、安全、可追源);
- 核心业务流程融合(深度融合)——在可控边界内,将 AI 能力接入核心业务系统,将进化效果落实实现自治和自动化。
结语:用严谨的工程架构”驾驭”大模型的不确定:
| 维度 | 内容 |
|---|---|
| 竞争的新维度:不在参数,在于确定性 | 2026 年,AI 产品的核心壁垒早已不是底层模型参数的较量。真正拉开差距的,是对垂直业务 SOP 的理解深度,以及打磨「工程化确定性」的落地能力 |
| 抛弃神之迷信,回归严谨工程 | 不能再指望一个通用模型”无所不能”。必须用最严谨的工程架构(原子规则拆解、多 Agent 并行审查、权威信源对齐),去驾驭 LLM 的不可控与发散,把不确定性锁定在可控范围内 |
| ToB 产品人的护城河 | 构建基于可插拔 Skill(技能)的、行业专家数字孪生体。把业内炎兴的新标准与风险瓶颈,用确定性的架构封装成能力。这才是 ToB 产品真正的护城河,也是未来持续领先的根本 |
关键金句
「ToB 要的是『可复现的正确结果』——模型强不等于产品能落地。」——梅容
「在法律这一严肃领域,没有『人机协作』的 AI 是昂贵的玩具。」——梅容
「优秀的生产系统,必须把专家纠错的『沉没成本』,转化为大模型能力升级的『燃料』。」——梅容
「2026 年,AI 产品的核心壁垒早已不是底层模型参数的较量,真正拉开差距的,是对垂直业务 SOP 的理解深度,以及打磨『工程化确定性』的落地能力。」——梅容
「将 1 个复杂决策强制拆解为至少 5 个独立的单点逻辑判断。」——梅容(实施策略)
可行建议
- 入场前先做四维自评:场景复杂度 / 容错底线 / 知识壁垒 / 数据链路。得分低于 60 分先做 Copilot,不做全自动 Agent;
- 强制 HITL 关键拦截节点:高罚款/诉讼风险的核心环节,模型再好也保留人类复核;
- 复杂场景原子化:1 个复杂决策强制拆为至少 5 个独立单点判断;
- 多 Agent 三段式标配:解析 Agent + 规则 Agent + 裁判 Agent,并行审查 + 多重共识;
- Super Prompts 替代大白话提示词:「提取要素 → 条件判断 → 风险定级」结构化思维链;
- 评测指标双轨:Recall(召回)+ Precision(准确),批量真实合同跑评分;
- 反馈闭环要落地:四步纠错(捕获上下文 → 定位片段 → 用户修正 → 更新规则)+ AI 反向推演(针对 Recall 优化 RAG,针对 Precision 优化 Prompt);
- 来源分层 L1-L4:法条原文 100% / 权威指南 / 专业评论 / AI 辅助待核实,置信度阈值 ≥ 85%;
- 架构跃迁三件套:Richee.ai 桌面智能体(经验沉淀) + Harness(能力模块化) + Skills 化(技能矩阵)。
关键数据/案例索引
核心产品/品牌:
- 法大大 iTerms AI 合同智能体
- 睿契(Richee.ai)桌面智能体
- Harness 工程能力重构
- Lawyer in the Loop(人机协作机制)
全球同类标杆:
- Harvey(法律界的”OpenAI”,估值 80 亿美元)
- Claude Coworker(商业智能平台、MCP 协议)
- 智谱、豆包、DeepSeek(推理引擎层模型)
关键数字:
- 准确率从 ~60%(Demo 级)→ 90%+(商用标准)→ 95%+(生产红线,目标)
- 复杂合同 85%、标准合同 95%(相比大模型 70%-75%)
- 领先 15%+ 的精度跃升
- 10 类审查规则 × 单类合同 160+ 审查项
- 1 个复杂决策 → 至少 5 个独立单点判断
- 来源置信度阈值 ≥ 85%
- 自评得分 < 60 分建议不要做全自动 Agent
核心架构组件:
- Agentic Workflow(替代单体 Prompt)
- 解析 Agent + 规则 Agent + 裁判 Agent(三段式工作流)
- Super Prompts(提取要素 → 条件判断 → 风险定级)
- HITL(Human-In-The-Loop)关键拦截节点
- RAG(多路召回策略)+ Few-shot(思维链示例)
- CoT 思维链拆解
- KV-Cache、向量数据库、法律知识图谱
评测指标:
- Recall(召回率)= 模型检出的风险点 / 合同实际存在的风险点
- Precision(准确率)= 模型检出的正确风险点 / 模型检出的所有风险点
AI 演进 5 阶段:L1 辅助审查 / L2 标准核对 / L3 条件自动化 / L4 自主决策 / L5 战略智能(行业现状卡在 L3 → L4)
来源分层 4 级:L1 法条原文 / L2 权威指南 / L3 专业评论 / L4 AI 辅助待核实
零容错三高:高专业性 / 高风险性 / 高组织性
三类幻觉:事实性幻觉(编造法条)/ 逻辑性幻觉(多重嵌套迷失)/ 遵循度波动(输出不稳)
工程化框架四步:规则设计 / 流程搭建 / 评测演进 / 反思闭环
适用性自评四维:场景复杂度 / 容错底线 / 知识壁垒 / 数据链路
六大核心能力:专业正确性 / 责任可分配 / 来源可追溯 / 输出可解释 / 数据可控制 / 流程可复核