企业 AI 转型——从”装了 AI”到”AI 化的组织”

一个具体的等待

研发要建测试库。需要审批人签字。审批人在开会。跨周末没回应。两天后审批通过,但研发同事的思路已经断了——他改 context 去做别的事了。

这种”等”在过去能接受。但当 AI 已经能让审批、流程、数据流转都跑得更快时,它开始显得格格不入。它不是某个 SOP 的瑕疵,是组织设计的产物。

我们公司不是从 0 开始。员工已经知道有 AI、有授权、能在电脑上调用。公司级建制有一层薄底——AI 请求中转站(基本网关 + 请求日志)。但中转站之上没接任何业务逻辑,它能告诉我谁调了什么模型,说不出这次调用属于哪个 SOP 的哪一步。系统分层 6 层架构里只搭了最底两层,其他四层基本为零。

这篇要讨论的就是怎么从这种”散点 + 薄网关”的状态,演化成 AI 化的组织。

🤔 装了 AI ≠ AI 化的组织

行业平均水平对这件事并不乐观。McKinsey 的统计——70% 的组织变革失败,根因都是”软维度跟不上”。Gartner——只有 5% 的 AI pilot 进入了规模化部署。MIT Sloan——95% AI 砸钱企业还没赚到钱。

这些数字背后是同一个现象:大部分公司装了 AI,但组织还是原来那个组织。员工有个 ChatGPT 账号,管理者用 Copilot 做 PPT,IT 部署了一些 RAG 工具。这些都是”装了 AI”,不是”AI 化的组织”。

差别在哪?把 McKinsey 的 7S 框架(战略 / 结构 / 流程 / 技能 / 领导 / 人员 / 文化)拆开看,传统组织和 AI 化组织在战略和工具维度的差异其实有限——都可以用 AI 优化或重塑业务,都可以买同样的工具。真正的差异在四个更难改的维度上:结构(传统是 5-7 层金字塔,AI 化是扁平、决策权下沉到一线)、流程(传统流程为人协调人设计,AI 化流程为人和 AI 协作设计)、领导(传统是层级化决策,AI 化是一线员工配 AI 直接做大量决定)、文化(传统是稳定 + 流程 + 怕错,AI 化是速度 + 实验 + 不可逆决策慎重)。

这四个维度,买工具不能解决。它们是组织设计的起点。McKinsey 的判断是:转型 70% 取决于组织能力,20% 取决于度量,10% 才是技术。把 AI 转型当 IT 项目交给 CIO/CTO 的公司,基本都失败了。

📏 衡量 AI 转型的尺度

转型应该按什么衡量?最直接的方式是问:组织里那些”等待”——审批、跨部门对齐、信息上下传递——有没有在减少?

这跟”装了多少 AI 工具”是两回事。一家公司可以买了 100 个 AI 工具,但流程一步没改,等待一秒没缩短。也可以一个工具不买,但通过共享上下文层把跨部门反复对齐的次数砍掉。

具体的尺度可以拆成两个维度:SOP 的精细化程度 × Agent 嵌入的程度。

SOP 的精细化程度——一个 SOP 是不是有清晰的流程、可流转的数据、明确的评估标准。如果一个流程靠老员工经验、关键判断在 IM 群里口头交付、对错凭感觉,那它根本接不上 Agent。补足这三件事是接 Agent 的前提。做不到这一步,AI 转型只是表面文章——再多工具都救不了一条流程在脑子里、数据在 IM 里、对错凭感觉的 SOP。

Agent 嵌入的程度——SOP 里有多少步骤被 Agent 接管,以及在多大程度上 Agent 能”端到端”跑通。如果是某一步用 AI 帮忙生成、其他步骤还是手工搬运,那是 AI 辅助,不是 Agent 驱动。Agent 驱动指的是默认轨道由 Agent 跑,人在事先约定的判断点把关。

两个维度的乘积决定了 AI 嵌入的真实程度。它的两面性也决定了转型路径——存量维度上是已有 SOP 接入 Agent,目标是缩短”等待”,这是初级和中级阶段的主战场;增量维度上是原本不存在的 SOP,因为 Agent 让某些事变得可行而被设计出来。Anthropic 自己的工程师 27% 的工作”以前不会做”——这部分不属于被替代的工作,是借 Agent 才能完成的能力扩展,这是高级阶段的核心特征。

具体到组织里”等待”长什么样,我们公司常见的有三类:

基础设施单点审批(仓库创建 / 测试库 / 启动新项目)。研发或业务团队提个申请,等单一审批人签字,1-N 天起,周末更长。这类 SOP 本身不复杂——命名规则 / 资源配额 / 权限模板都是确定的。卡的是”等他签字”。Agent 解法是把申请做成 SOP,自动校验配额 / 合规 / 命名,自动调 GitHub API 或权限 API 创建。涉及生产数据 / 敏感权限 / 超额申请时转人审批,其他直接跑通。审批人的工作从”逐单签批”转向”维护 SOP 规则”。

结算三方反复对齐(财务 / 运营 / 结算技术)。财务做表对账,跟运营和结算技术多次开会对齐字段口径、规则细节、口径变化。卡的是没有共享上下文底座——每次沟通都是”重新解释一遍”,上次怎么定的、边界场景怎么处理,三方理解永远不完全一致。Agent 解法是建一个共享业务知识库(数据层),口径 / 规则 / 历史争议都沉淀在里面;Agent 接进三方对话,实时把讨论同步到共享底座。三方从”重新解释”变成”共同补充”。

运营-技术 + 任务上下传导。横向上,运营有新想法找技术评估,同一个要点反复讲(换人 / 换迭代 / 换表达)。垂直上,上层指令向下传 + 一线反馈向上传,过每一层都被压缩、改写、丢细节。卡的本质是一样的——业务上下文没有共享底座。Agent 解法是让需求方直接用 Claude Code / Codex 把想法落成 Skill 文档(背景 + 约束 + 期望 + 边界场景),提交到 Skill 库。下游成员拉 Skill 就有完整上下文。

研究里有个数据值得记住——延君晨的实测,大部分企业决策链上,“等”的时间是”做事”时间的 3-5 倍。70-80% 的时间链是停的。

🪜 三阶段:从散点到 SOP 涌现

按”SOP × Agent 融合度”切,转型有三个清晰的阶段。每阶段由三个维度共同决定:工具的完善度、SOP 的 Agent 应用数量、SOP 的 Agent 应用深度。

初级阶段——让”用 AI”这件事有路可走

初级阶段的目标是建一个能跑的最小闭环。不追覆盖度,先求”有路可走”。具体五件事:公司有初级的基础设施(统一 AI 网关 + 基础权限审计);知识管理支持录入到云端;电脑端可调用 AI;每个部门有 1-2 个完整 SOP 接入 Agent;数据流转端到端 Agent 化(默认 Agent 跑 + 人在关键判断点把关)。

每个部门挑 SOP 时,要选完整的端到端流程,而不是孤立步骤。比如运营挑”周报生成”或”竞品分析”全流程,而不是”用 AI 写一句标题”。一个完整流程比十个零散 prompt 技巧有用。

我们公司当前严格说还在这个阶段之前——是”散点 + 薄网关”。员工知道有 AI,公司有中转站,但中转站之上没接任务管理。员工的使用都是”个人零散使用”,不是”部门级流程”。知识仍散落在个人电脑、IM、邮件里,没有公司级载体。

要进入初级阶段,核心动作有三件——扩展中转站到任务管理层(让每个 AI 请求都关联到具体的任务 ID 和 SOP 节点)、建立公司级知识统一索引(选一个载体,把会议纪要 / 决策 / 部门核心文档都导入)、试点 1-2 个部门级 SOP(端到端跑通)。

第一件事最优先——这是从”流量级”升到”业务级”的桥梁。中转站现在能告诉你”调用量”和”模型选择”,但说不出”这次调用是为了什么 SOP / 哪一步”。光有流量数据,后面所有的业务级度量都做不了。

而且越早开始这件事越好。员工已经形成了”我有自己一套”的本地最优,后面统一收敛时会遇到阻力——“我现在用得好好的,为什么要换”。越早收敛代价越小,拖到中级阶段才统一,会撞上死亡谷里的”中层协同”那一关。

中级阶段——半数核心流程接入 Agent

中级阶段的核心信号:50% 的核心 SOP 都接入了 Agent。员工开始普遍依赖 AI(不依赖就掉队),管理层开始依赖任务面板看团队动态。这是组织运转方式的实质改变。

中级阶段需要的能力比初级多得多。除了延续初级的基础,还要做到几件事:SOP 状态全员可见(执行人 + 上下游协作人 + 跨部门 stakeholder + 管理者都能看到瓶颈节点,显示对象是 SOP 的状态而不是”谁做了什么”)、工具支持动态扩展(Skill 库 + AI 编程工具给业务方 + MCP 接入协议)、任务管理 + Agent 行为可审计(追的是 Agent 行为不是员工工时)、权限隔离(角色 × 任务 × 数据的三维矩阵)。

注意 SOP 状态面板这条很容易做歪——一旦面板做成管理者专属、监控数据进绩效评估,就回到了”用 AI 监控员工”的老路。整篇讨论的目的从”消除等待摩擦”被劫持成”管理升级”。设计的时候要把面板设计为全员可见,数据用来改 SOP 而不是评估个人。

高级阶段——SOP 自己长出来

高级阶段的标志是组织能力发生质变——从”消化已知 SOP”变成”持续生成新 SOP”。员工不只用 Agent 跑既有流程,Agent 在使用过程中暴露出原本不存在的新流程,这些新流程反过来成为产品。

Anthropic 是最清晰的样本。他们的 Computer Use 是怎么来的?内部用 Claude 操作电脑跑工作流,跑着跑着发现这个能力可以独立成为产品 → 涌现为对外 API。Code Review Agent 是怎么来的?工程师人均代码产出 +200% 后,PR Review 撑不住 → 被迫产品化为 Code Review Agent。Skills 系统是 Claude 内部使用沉淀提示模板沉淀出来的;Growth Marketing 是 1 个非技术人员自建 Figma 插件让创意产出提升到 10 倍;Security Engineering 团队工程师按需写 custom slash commands,最后写出了公司里 50% 的 slash commands。共同模式是先用,用着用着发现 SOP 的形状,把它产品化。

具体到这个阶段需要什么能力:SOP AI 化覆盖率达到 80%-100%(这里的 80% 指核心 SOP,剩下的部分通常是合规 / 法律 / 客户体验场景必须保留人);手机端可操控(交互层延伸到移动场景,核心定位是管理 Agent 跑的任务,而不是单纯”用 AI”的备份入口);任务可动态扩展新 SOP(业务方直接用 Claude Code / Codex 落 Skill,提交到 Skill 库;好用的 prompt / workflow 在使用过程中沉淀;跨部门 Skill 涌现成公司能力)。

关于”任务可动态扩展新 SOP”,有一点需要明确——这不是”AI 自动从历史挖 SOP”。Anthropic Security 那 50% 的 slash commands 也是工程师主动写的,AI 起草、人沉淀。“AI 全自动从历史挖 SOP”现在还不成熟,别指望平台自己会”长出”Skill。

🚧 死亡谷:95% 的公司倒在中间

研究里最关键的判断:95% 的公司死在 L2 → L3 跨越——也就是中级阶段。这个数据 Gartner / MIT / Anthropic 三方独立统计指向同一结论。

为什么?从”1-2 个 SOP”到”50% SOP”需要的不是更多工具,是组织能力的同步升级。任务管理层、跨部门协同、文化容忍这些”软能力”的进步,通常比技术建设慢。工具堆得再多也跨不过去。

具体说,死亡谷是四件事必须同步发生:中层协同(不抗拒、主动推。AI 转型 KPI 占考核 ≥ 30% 才有效,持续抵制 6 个月以上的中层必须替换)、文化跟上(流程层强制使用——会议必须 AI 转录、文档必须 AI 起草,作为公司层面的硬要求)、度量到位(5 个 P0/P1 指标到位 + 全公司月度公开 dashboard)、AI 总线建好(数据层 / 权限网关 / 模型 / 工具 / 日志 / 任务管理 6 层架构就位 + Agent 独立身份 + 调用链可追溯)。少一件,卡 6-12 个月怀疑人生。

中层那一条值得多说一句——这是最反直觉的。中层抗拒往往不是因为不理解 AI,反倒是因为他们对 AI 影响的认识比谁都清楚。AI 在吃掉中层最值钱的两件事:开会协调和信息中介。理解越深,抗拒越强。McKinsey 的数据是 30-50% 的中层会被冲击。所以解决方案不是”教育中层理解 AI”,是把中层从”被改造对象”变成”主导者”——任命 AI Champion、给 AI 转型 KPI、给晋升通道。

🏗️ 撑起三阶段的三个支柱

主轴是 SOP × Agent,但单靠主轴跑不通。三个支柱要同步建——技术 / 组织 / 度量,缺任何一环,其他两个也会失效。只建技术不动组织,工具会空转;只改组织不建技术,改革缺抓手;两者都做但没度量,无法判断转型在不在前进。

技术支柱:6 层架构

支撑三阶段的工程蓝图是 6 层架构 + 横切的贯穿能力 + 横切的治理层。每一层对应具体落地点。

[图：6 层架构图]

从上到下:交互层(电脑端在初级即支持,手机端在高级阶段完整支持);权限网关层(决定谁能调什么模型 / 工具 / Skill / 数据,初级阶段不必建——只有 1-2 个 SOP 时模型层附带的基础权限够用,中级阶段才需要独立网关);任务管理层(任务编排 + 进度追踪 + Agent 行为审计 + 中间决策审核——这是中级阶段死亡谷里最关键的一层);中间三层并行——模型层(LLM 路由 + 多模型编排 + 时效降级,我们公司的 AI 中转站就在这层)、工具层(MCP / Skill / 外部 API)、数据层(主动整理的知识 / 隐形知识 / 三方文档,带权限分级);日志层(调用留痕 + 链路追溯)。

横切的贯穿能力(模型编排 / Context 流转 / 隐形知识记录 / 共享上下文层)和治理层(每个 Agent 独立身份 / 每次调用留痕 / 跨系统调用链可追溯)不能脱离分层独立建——它们的状态等于它们依赖的分层中最弱那个的状态。

我们公司在 6 层里的状态:模型层已有(中转站);日志层有薄底(请求日志已有,但还是流量级,没接任务);任务管理层完全缺失(整个架构最大的缺口);数据层、工具层、权限网关层基本为零。落地优先级是先做任务管理层——它是模型层 + 日志层升级到业务级的桥梁。做完这一步,日志层升级到业务级,后面所有层才有钩子建上去。

值得提一句的是关于”瓶颈转移”的判断。Anthropic CPO Mike Krieger 说过:“Writing code is no longer the bottleneck. Knowing what to build and merging fast enough are.”(写代码不再是瓶颈,决定建什么 + Code Review 吞吐才是新瓶颈。)Anthropic 已经踩到这个坑——人均代码产出 +200% 直接把 Code Review 撑爆,被迫产品化为 Code Review Agent。这意味着到了某个阶段,组织面临一个组织设计的选择:让 Code Review 也 Agent 化(解决吞吐瓶颈但有 Self-Automator 风险)、保持人工 Review(安全但人成新瓶颈)、还是 Agent 做初筛 + 人做关键判断(吞吐和判断兼顾,但需要明确”哪些是关键判断点”)。

组织支柱:CEO / 中层 / AIQ / 文化

组织维度有四个核心点。

CEO 必须亲自下场。29 个国际 + 中国大厂转型案例 100% 命中——CEO 不公开站台 = AI 转型必败。Tobi Lütke 在 Shopify 内部 memo 写的”Before asking for more headcount and resources, teams must demonstrate why they cannot get what they want done using AI” 是个典型样本。但 CEO 站台是必要不充分条件——Microsoft Copilot 自家 CEO 抨击但仅 3.3% 付费率,证明光靠 CEO 还不够,还需要完整体系 + 时间。

中层是最大阻力,也是最大杠杆。前面已经讨论过——中层的抗拒源于对 AI 影响的清晰认识,不来自无知。把中层赋权为 AI Champion、给 AI 转型 KPI、给晋升通道,转型成功率会大幅提升。极端情况(持续抵制 6 个月以上)才考虑替换。

AIQ 5 级——员工的 AI 协作能力可以分成 L1 接触者(偶尔用)、L2 使用者(日常写邮件 / 总结 / 翻译)、L3 协作者(把 AI 嵌进工作流,自己写 prompt 模板 / 用 Cursor / 调用多 AI)、L4 设计者(能设计 AI 工作流给团队用)、L5 编排者(一人指挥多个 Agent 干大事)。多数员工到 L3 就够用,L4-L5 是少数(经验值 < 20%)。要并行推两条线——你的 3 阶段是公司维度,AIQ 5 级是个人维度,光升级公司 SOP 不升员工能力,工具会闲置。培训按 ADKAR 五步:让人知道(Awareness)→ 让人想用(Desire)→ 教会怎么用(Knowledge)→ 给时间和工具(Ability)→ 长期巩固(Reinforcement),少一步就回到原状。

文化转变。从”稳定 + 流程 + 怕错”到”速度 + 实验 + 不可逆决策慎重”,这是物种差异里最难改的。文化变化的真正杠杆不在喊口号、单纯示范或激励上,而是靠流程把”不用 AI”那条路堵死——会议必须 AI 转录、文档必须 AI 起草、临时协作必须留痕到 AI 可索引层,作为公司层面的硬要求,让 AI 使用变成默认行为。

度量支柱:看 DAU/MAU,不看 License 部署率

度量上最常见的踩坑是只看 License 部署率。Microsoft Copilot 的反例最典型——License 部署率 95%,但只有 3.3% 付费率。CEO 自己抨击。

正确的指标是 DAU(今天真在用 AI 的人数)、MAU(这个月真用过的人数)、DAU/MAU(粘性比)。Microsoft 内部公开的健康基线可以直接抄:激活率(分配后 30 天内首次用过)≥ 80%,MAU ≥ 70%,DAU ≥ 40%,DAU/MAU ≥ 60%,任务时间缩短 30-40%。Accenture 74 万人部署 Copilot 做到 89% MAU——这是行业金标准。

5 个 P0/P1 指标 2 周内可以起步:DAU/MAU(全公司 + 部门级)、Token 用量人均日均(分部门 / 分模型,看趋势不横比)、SOP 跑通率(等中级”中转站 → 任务管理层”做完才有钩子,这是”50% SOP 嵌入”的核心度量)、AIQ 自评分(全员季度问卷)、任务时间缩短率(选 3-5 个典型 SOP 做 Agent 化前后对比)。

5 个常见踩坑——只看 License 部署率(假成功);Token 当 KPI(员工会”走过场”刷消耗,而且 Token 量级受任务类型 / 模型 / 推理深度影响,不能横比);用度量做个人绩效评估(管理回潮——员工反向博弈,假装高 AIQ 或刷指标);指标过多导致没人看(先做 5 个,3-6 个月后扩展);度量数据只 CEO 看团队不知道(全公司 dashboard 月度公开是基本要求)。

⚠️ 几条不能走的路

研究里有 4 个深度反模式,分别对应不同的失败路径。

Replit 的激进重组。2024 年 Replit 团队 130 人,2025 年 CEO Amjad Masad 砍半到 65 人。但这不是一刀切——是两阶段手术。2024 年 5 月先公开裁了 30 人(20% 员工),配 4 个月遣散费,口径是”为了公司长期成功的痛苦决定”;后续 Masad 抽调精英组建”Agent Task Force”闭门冲刺产品,没被选进 Task Force 的人”觉得自己没在做重要的事”,大量自然流失。Masad 在 Semafor 访谈里直白承认:“我们丢了一半的人。原本 130,现在大约 65。“数据上 ARR 从 280 万美元飙到 2025 年 9 月的 1.5 亿,估值 2026 年 3 月达 90 亿——但代价具体:Glassdoor 离职评论指控”恐吓文化、随时威胁解雇”,Masad 自己在 YC 播客也承认”某个时间点我们把文化搞砸了,不得不做一次重置”。头数到 2025 年 10 月已经回弹至 110 人——“砍半”是临时低谷,实际呈现短期收缩 + 长期回补的剧烈震荡。把”AI 让一人产出顶 N 人”误读为”砍掉 N-1 人就能等效”,忽略了组织的冗余韧性——非显性协作、文化记忆、跨项目知识传承,这些不在产出 KPI 上,但都是持续运转的隐性基石。ARR 暴涨是 Agent 产品市场窗口的功劳,不是”砍人砍出来的”——但暴涨掩盖了组织伤口,等回补时才显现”砍掉的人原来还要再雇回来”。

中国大厂的内部小工具受困。字节小美 / 阿里通义企业版 / 腾讯混元企业版这些公司级 AI 工具,自家产品自家用不好。业务线之间数据口径不一,部门墙导致跨业务线索引覆盖不全,数据治理基础差导致知识库无法真正打通。结果是大厂不缺 AI 模型,缺的是”让自家工具在自家用得好”的组织能力。AI 总线和数据底座要全公司同频建好,部门各干各的等于零。

Big Four 应届招聘削减。2024-2025 年 PwC / Deloitte / EY / KPMG 在 UK 削减应届招聘 6-30%,理由是 AI 接管初级会计 / 审计工作。短期省成本忽视长期人才储备。中级转高级需要”初级历练”——没了初级,几年后就没了中级,高级人才空洞,组织能力坍塌。所谓”AI 替代初级”等于在给自家组织挖坟。要这么做的话,初级岗位减少必须配套”加速培养中级”机制,把省下来的成本投到 IC 的 AIQ 培训上——让原本 5 年才能出师的人,2 年就能 IC 级。

Self-Automator 组织病。HBS WP 26-036 在 244 名 BCG 顾问中做了实证,三种协作姿势的占比是 60% Cyborg(人 + AI 深度融合,健康——领域专长不变,AI 技能上升)、14% Centaur(选择性用 AI,人保持主控,健康——领域专长上升)、27% Self-Automator(把判断完全交给 AI,危险——领域专长下降,AI 技能也不变)。Self-Automator 是组织病——短期看效率高,客户不抱怨,管理者看指标挺好。但两年后会发现公司里没人真正理解业务了。这个组织病的隐蔽性在于:发作时业务指标看不出来——产出仍然达标,客户还没投诉。等回头看,才发现公司里已经没人能在 agent 出错时做判断了。

🎯 人在 AI 化组织里的位置

讨论”主导权”的时候不要预设立场。Agent 主导还是人主导,这个判断按场景做。3 条准则:

可逆性——错了能撤回的事,Agent 可以主导;不可逆决策(动用大笔资金、对外承诺、影响合规),人最终拍板。

风险面——影响小的,Agent 直接做;影响大的(客户体验、财务、合规),人介入。

领域积累——Agent 替员工做的判断越多,员工领域能力越下降。这是 Self-Automator 风险的根源。关键设计决策是哪些判断保留给人,哪些可以让 Agent 接手。

实证锚点上,这三条准则跟 Anthropic / Klarna / Big Four 的经验是一致的——Anthropic 工程师 27% 任务”以前不会做”,借 Agent 扩展能力边界;Klarna 客服全 Agent 化反弹,客户体验场景丢了 escalation path;Big Four 应届削减破坏 talent pipeline。

那怎么避免组织变成 Self-Automator?有四件事可以做:产品默认项停在人可介入的位置(不让 agent 给最终答案后用户点接受就完事;给判断 + 依据,让人勾选才能进入下一步;agent 做完不自动提交,停在 review 位);强制人参与关键判断点(对应任务管理层”中间决策审核”——SOP 里显式标注”哪些步是关键判断,Agent 不能独走”);培训重点是判断力(评估员工能不能识别 AI 输出问题、设计验证、做评判;培训不只教用 AI,更教怎么判断 AI 用得对不对);业绩考核加领域专长维度(三维度交叉评估:自评 + 实操测试 + 同事反馈,实操测试是关键——能发现”嘴上 vs 实际”的差距)。

Anthropic 是怎么做的?Boris Cherny 100% 代码 AI 化,但他在”决定建什么”和”PR Review 把关”上不交给 Agent。Mike Krieger 那句”决定建什么 + Code Review 吞吐才是新瓶颈”,本质上就是主动让人保留关键判断的位置。dogfooding 原则也是——工程师用 Claude 的目标是”测 Claude 的极限,自己深度使用”,同时对 Claude 的输出保留判断。这种姿态接近 Cyborg 模式,远离 Self-Automator。

设计 SOP 时,不同的默认交互对应不同的协作姿势:agent 给最终答案 + 用户点接受,倾向 Self-Automator;agent 给判断 + 依据 + 人勾选,倾向 Centaur;人和 agent 持续对话、共建,倾向 Cyborg。在默认交互上明确”人介入的位置”,而不是默认让 agent 跑到底。

🛠️ 落地

按依赖关系排序——每家公司节奏不同,这里不绑具体时长。

起步动作:打通”AI 中转站 → 任务管理层”的钩子(中转站请求带任务 ID + SOP 节点关联);选 1-2 个高频 SOP 候选(从前面三类摩擦场景里挑),按”合格 SOP 3 条件”自查能不能接 Agent;CEO 开始持续使用 AI(不复杂,关键是持续)。这三件事是后面所有事情的前提——没有这些,后面建不起来。

主体建设:选定的 1-2 个 SOP 端到端 Agent 化,跑通后再扩;公司级 Skill 库立起来,业务方配上 Claude Code / Codex;AIQ 自评问卷做一次基线;5 个 P0/P1 度量指标接入 dashboard,全公司月度公开。

中级达标(死亡谷的另一边):50% 核心 SOP 嵌入 Agent;任务管理层 + 权限网关层 + 治理层全部到位;各部门有明确的 AI Champion 和 AI 转型 KPI;文化层”流程层强制”——会议必须 AI 转录、文档必须 AI 起草。

回到最初的问题

衡量 AI 转型是否真在发生,有一个比”装了多少工具”更实在的指标——组织里典型的等待场景是不是在减少。

转型路径上有几条贯穿全文的判断需要留下来:

转型 70% 取决于组织,20% 度量,10% 技术。把 AI 转型当 IT 项目交给 CIO/CTO 必败,CEO 不亲自下场必败。

SOP × Agent 才是衡量尺度。装多少工具不重要,重要的是有多少 SOP 真接入了 Agent,以及 Agent 嵌得有多深。

死亡谷在中级阶段——95% 的公司倒在那里。从 1-2 个 SOP 跨到 50% SOP,需要的不是更多工具,是组织能力的同步升级。

Agent 主导还是人主导,按场景判断,不预设立场。人不可替代的位置在 Context 输入和品味判断这两端,中间执行层会被 AI 越来越多地接管。

最后一句——读完这篇,如果只能记住一件事,那就是:问的不是”我们用了多少 AI”,是”我们组织里那些日常的’等’,到底有没有少一些”。