3 minute read

GPT-5.5、Claude Opus 4.7 双双发布之后,AI 圈最热的叙事是”模型自主、agent 接管、编排消失”。但在保险理赔、医疗诊断、金融风控这些垂直场景里,真正在升值的不是模型自主性,而是工具的可解释性和编排的确定性。

这篇文章想说清楚一件反常识的事:通用 agent 越自动化,垂直场景的”原子工具 + 确定性编排”越值钱。

一、先把这两周的噪音听清楚

从 4 月 16 日到 4 月底,半个月时间。

4 月 16 日,OpenAI 给 Codex 装上了 computer use、跨应用记忆、90 多个插件,让它能读 Google Docs 评论、拉 Slack 上下文、给你一个优先级清单——也就是从”代码 agent”扩展为”工作流 agent”。同一天,Anthropic 发布 Claude Opus 4.7,主打 Adaptive Thinking——让模型自己判断什么时候需要深推理,本质是路由层优化。两家在同一天完成一轮重磅出击,这个时间撞车本身就是答案。

4 月 21 日,OpenAI 发布”Scaling Codex to enterprises worldwide”+ 启动 Codex Labs,把 Codex 从开发者产品系统化推向企业工作场——四周内 Codex 周活跃从 300 万跳到 400 万。4 月 23 日,OpenAI 直接拍出 GPT-5.5(据 Axios 等报道,内部代号 Spud),定位写得明明白白:”a new class of intelligence for real work”,第二天 5.5 Pro 开放 API。4 月 30 日,Codex CLI v0.128.0 落地持久化 /goal 工作流——可以让 Codex 自己围绕一个目标跨多轮持续推进、暂停、恢复。

两周完成一轮模型升级 + 产品形态升级 + 商业化叙事升级。这个节奏本身就是答案。

把数字摆出来:

GPT-5.5 在 Artificial Analysis Intelligence Index 综合 10 项严苛评估上领先 Claude Opus 4.7 约 3 分。Terminal-Bench 2.0 跳到 82.7%(GPT-5.4 是 75.1%),ARC-AGI-2 从 73.3% 升到 85.0%,FrontierMath Tier 4 从 27.1% 跳到 35.4%。但有意思的是 SWE-Bench Pro 上 Claude Opus 4.7 仍然占优(64.3% vs 58.6%)。

API 价格:GPT-5.5 是每百万 token 输入 5 美元、输出 30 美元,正好是 GPT-5.4 的两倍。OpenAI 的官方话术是:”价格更高,但 token 消耗减少,整体更高效。”翻译过来就是:用效率升级的叙事兑现一次温和涨价。OpenAI 自己测算的口径是——虽然 token 单价翻倍,但 GPT-5.5 用约 40% 更少的 output token 完成同样任务,所以实际综合成本涨约 20%。

OpenAI 自己披露的数字:85% 的员工每周使用 Codex。NVIDIA 自己披露:超过 1 万名员工每周使用 GPT-5.5 驱动的 Codex。这些不是给开发者看的,是给资本市场看的——它们是 ARR 故事的素材。

所以这不是”创造力升级”,是估值兑现期到了。

这件事在收入面上有个戏剧性的拐点——而正是这个拐点,在解释为什么这两周大家都在拼命发产品。

把时间往前推半个月。4 月 7 日,Anthropic 宣布年化收入运行率超过 300 亿美元——这一数字按 gross 口径已经反超 OpenAI 的约 240-250 亿(OpenAI 反驳说按 net 口径 Anthropic 约为 220 亿,会回落到自己之下,口径之争尚未定论)。无论按哪个口径,两家的差距都比一年前预期的小得多——这意味着双方现在都没有”无敌护城河”的安全感。要支撑各自的估值叙事,必须用产品速度持续兑现路线图。所谓”卷”的真实含义是:在算力成本(GB200 NVL72 集群投入)和 IPO/估值压力的双向挤压下,把单 token 价值标得更高,把用户工作流绑得更深。

到这里为止,是噪音的部分。


二、被忽略的范式转换

噪音之下有件事真的发生了,但很少有人讲清楚。

GPT-5.5 的训练目标本身就发生了变化。OpenAI 的官方表述是:”Instead of carefully managing every step, you can give GPT-5.5 a messy, multi-part task and trust it to plan, use tools, check its work, navigate through ambiguity, and keep going.”

翻译:你不再需要管每一步。把一个乱糟糟的任务(messy task,OpenAI 官方用语,指多步骤、需要规划与试错的复合任务)丢给它——规划、用工具、自检、应对模糊性、坚持下去——它自己搞定。

这意味着什么?在通用场景里,模型层正在吞掉一部分编排层。

过去一年,AI 工程社区争论”agent orchestration 框架”——LangGraph、CrewAI、AutoGen、各种 multi-agent 模式——本质是在解决一个问题:模型本身不会做长程任务,所以需要在外面套一层工程化的编排逻辑。Skills、AGENTS.md、工具选择路由、子任务分解、状态机管理,这些都是编排层的工作。

GPT-5.5 的训练目标直接把这层工作收编进了模型本身。它的演示视频里:模型自主打开浏览器解决魔方、通过 Gmail/Slack 自动化 PR 合并检查、从财务数据生成完整 PowerPoint 摘要并创建幻灯片。这些不是”一步提示”能完成的,是多阶段、容错、需要规划与迭代的真实工作流——而它们现在不需要外部编排框架。

这件事在开发者社区被当作好消息:模型变强了,工程负担变轻了。

需要先说清楚一点:这不是 OpenAI 一家在做。Anthropic 的 Claude Code 走的是同一条路,Cowork(Anthropic 的桌面 agent 产品,2026 年 1 月公布)把”agent 操作桌面”的故事讲在了 OpenAI 之前;Adaptive Thinking 本质也是”让模型自己决定推理深度”,只是把决策权下沉得更克制一些。两家是同向竞争,不是路线分歧。这是产业大势,不是某一家公司的产品策略。

但要看清楚另一件事:OpenAI 自己其实并没有宣告”外部编排过时”。

打开它的 Agents SDK 官方文档,你会看到一组刺眼的关键词:orchestration and handoffs、guardrails and human review、results and state、integrations and observability。Codex 与 Agents SDK 的官方指南直接把目标写成”deterministic, reviewable workflows”,并保留 hand-offs、guardrails 和完整的 trace。

也就是说,它一边把通用执行细节(怎么用工具、怎么拆分子任务、怎么自检)下沉给模型本身,一边把审批、追踪、治理这些东西更显式地产品化。通用编排在下沉,治理编排在升值——这才是完整的事实。那些以为”模型够强就不需要编排了”的人,只看到了下沉的一半。

顺便说一件容易被忽略的事:Anthropic 自己在《Building Effective Agents》里就讲过——大多数生产任务用 workflow(确定性流程)就够了,只在简单方案确实不够时才引入 agent。OpenAI 把通用 agent 推到极致的同一时间,Anthropic 自己写了一篇划边界的论文。两家产品姿态不同,底层判断一致。这件事比 GPT-5.5 的 benchmark 更值得记下来。

但即便如此,这种”模型自主执行 + 治理编排兜底”的范式还有一个被严重低估的副作用:模型黑箱化加深了。

当编排逻辑外置在 LangGraph 里,每一步工具调用、每一次状态转移、每一次重试,都是工程师写出来的代码——可读、可调试、可回归测试。当编排逻辑被吞进模型本体,这些过程变成模型内部的黑箱推理。你看到的只有输入和输出,中间的”它怎么决定先做 A 再做 B 而不是反过来”——只能事后通过日志和 trace 反推。

更要命的是,这个黑箱在产品层面正在被显式地拉黑。Anthropic 的官方 API 文档明文写道:”Starting with Claude Opus 4.7, thinking content is omitted from the response by default”——thinking display 的默认值从”summarized”改成”omitted”,你必须显式设置才能看到模型的思考摘要。同时,Opus 4.7 把 budget_tokens(让你显式设置思考预算)以及 temperature、top_p、top_k 全部改成 400 错误——这些参数被直接禁掉了。OpenAI 这边也是类似的方向:reasoning summary 需要显式 opt-in,而 reasoning.encrypted_content 是给模型多轮续接用的不透明 state,不是给人审计的因果链。

模型越来越会做事,不等于系统越来越容易解释。很多原本在外部编排层里可见、可测、可回放的中间状态,正在被压缩成摘要,或干脆下沉到模型内部。

OpenAI 自己也清楚这点。Codex v0.128 加的持久化 /goal workflow,本质是给这个黑箱添加一层”让用户能看到模型的目标和子目标”的可观测性。但这只是一层显示,不是一层控制。

模型层吃掉了一部分编排层的能力,同时也吃掉了那部分编排层的可控性。

打个后端老兵都熟悉的比方:这就像把微服务架构里所有的网关、路由、消息队列、服务注册中心全部砸碎,融进一个巨大的、没有日志的单体应用里。好消息是它自己能转,坏消息是它出 bug 的时候,你连堆栈都打不出来。过去十年我们用微服务对抗了单体的不可调试,现在 OpenAI 正在反向把它砸碎成另一种单体。


三、反向命题:黑箱化越深,确定性越值钱

噪音之外,真正值得做出判断的是这一句话。

我之前在《AI 项目死在工程,不是模型》的”放翁七关”里讲过两关——第三关”选最可控的不是最先进的”,第六关”能力边界协议”。GPT-5.5 之后,这两关从”落地经验”变成了”对抗黑箱化的产品形态”。

让我说得更具体:在保险理赔、医疗诊断、金融风控、信贷审核、政务审批、合规审查这些垂直场景里,”模型自己规划、自己用工具”是负资产,不是正资产。

这不是技术保守主义。是三个具体的不可接受。

第一个不可接受:审计回溯不可行。

监管场景下的标配是”每一次决策都要能解释”。客户被拒赔,得告诉他为什么被拒赔;理赔通过了,得告诉再保险公司为什么通过。这个”为什么”必须是确定性的因果链,不是”模型综合判断”。就像 distributed tracing 里你能看到每一个 span,但你永远看不到一个叫”综合判断”的 span。GPT-5.5 的 messy task auto-pilot 可以高准确率地给出结果,但它给不出可审计的因果链——因为这个因果链根本不存在,存在的只是模型内部的隐式推理。

第二个不可接受:流程不可固化。

工程化系统的核心特征是可回归。今天处理 10 万张医疗票据,明天还要再处理 10 万张,后天再 10 万张——每一次处理的流程必须是同一个流程,否则版本管理、错误归因、A/B 测试全部失效。但模型层接管编排意味着每次的工具调用顺序、子任务分解方式都可能不同——你拿什么做回归测试?

第三个不可接受:责任主体模糊。

多 agent 并行更糟。GPT-5.5 配 Codex 现在可以同时跑多个 agent 处理不同任务。在合规场景里,这立刻就是一个法律问题——两个 agent 同时跑核保和反欺诈,某天拒保结论错误,客户起诉。法庭上你拿出的不是结构化决策日志,而是”两个 agent 之间的自然语言协作 trace”——这种证据链,法官能采纳吗?监管能背书吗?这不是技术问题,是法律可执行性问题。

这些问题在通用消费场景里可以模糊处理——大不了用户重试一次。在垂直监管场景里,每一次模糊都是合规风险。

所以反向命题是这样的:

OpenAI 把通用 agent 卷得越自动化,黑箱化越深;黑箱化越深,”可解释的工具 + 确定性编排”在垂直场景里的稀缺性越高;稀缺性越高,溢价越大。


具体长什么样:

可解释的工具: 每一个工具是单一职责的、输入输出严格定义的、行为在测试集上可证伪的小函数。保险里是”匹配理赔条款”;医疗里是”DICOM 影像分割”;金融里是”KYC 字段抽取”;政务里是”证照真伪验证”。共同特征——单一目标、可单测、可回归、可独立部署。

确定性编排: 工具之间的调用顺序、条件分支、重试策略、人工介入节点,全部由工程师显式写出来。可以用状态机、可以用 DAG、可以用规则引擎,但绝不能交给”模型自己决定”。

模型在这套架构里干什么: 模型在每个工具内部做能力增强——用 Qwen-VL 做票据 OCR,用 LLM 做语义匹配,用嵌入做相似度计算。但模型不做编排决策。


2026 年的更新版铁律:原子工具是护城河,确定性编排是保险丝。

护城河决定你的价值上限,保险丝决定你的下限。两者不是替代关系,是在不同时间窗口下被定价权重不同地交替强调。

举一个具体的对比来说明这点。

一笔人伤理赔进来,附带 30 张医疗票据、5 份诊断证明、2 份伤残鉴定。

走 messy task auto-pilot 的路径: 你把所有材料丢给 GPT-5.5,让它”审核这笔理赔,给出建议”。它会自主决定先看哪份材料、用哪个工具识别、怎么交叉验证、最后给一个结论加一段解释。看上去很丝滑。但当客户问”为什么我的伤残等级被定为 X 级”,你只能把模型那段解释复述一遍——这段解释是模型生成的自然语言,不是从结构化规则里推导出来的,无法溯源到具体的鉴定标准条款。

走可解释工具 + 确定性编排的路径: 你定义一组单一职责的工具:票据 OCR 工具、诊断证明结构化工具、伤残等级匹配工具(基于明文规则库)、赔付金额计算工具。编排逻辑是工程师写的状态机:先 OCR 所有票据 → 抽取关键字段 → 匹配条款 → 计算赔付。每一步的输入、输出、调用的规则版本号、模型版本号全部落库。客户问”为什么定 X 级”,你能直接拿出”伤残等级匹配工具在 2026-04-30 14:23:11 调用规则库 v3.2.7 第 14 条第 2 款,输入参数 […],输出 X 级”。

两条路径压在一张表里看更清楚:

维度 messy auto-pilot 路径 原子工具 + 确定性编排
客户问”为什么定 X 级”的回答 重述模型自然语言 拿出工具 + 规则版本号 + 输入参数 + 输出
准确率 可能更高 持平或略低
合规可用性 不可用 可用
回归测试 不可能 标配
责任主体 模糊 明确
能否进监管场景

两条路径在准确率上可能差不多,甚至 messy task 路径更高。但在合规价值上差了一个数量级。这不是技术对比,是产品形态对比——一个能进监管场景,一个进不了。


四、给从业者的判断框架

判断你的场景应该走哪条路,不需要看模型 benchmark,看三个维度。

第一,错误成本。

错一次的代价是什么?

  • 写代码错了:CI 跑红,工程师重试。错误成本 = 5 分钟。
  • 给文档生成摘要错了:用户重新生成。错误成本 = 1 分钟。
  • 个人日程安排错了:用户调整一下。错误成本 = 几分钟尴尬。
  • 保险理赔错赔:客户上访 / 监管处罚 / 媒体曝光。错误成本 = 几十万到几千万。
  • 医疗影像辅诊错诊:可能的人命。错误成本 = 不可量化。

GPT-5.5 的 messy task 能力适合错误成本低的场景。错误成本越高,”自主 agent”的价值越低,”可控编排”的价值越高。

第二,可解释性要求。

下游消费方是不是需要追溯链路?

  • 个人生产力工具:用户自己用,没人要追溯。
  • 团队协作工具:偶尔回顾,要求宽松。
  • B2B 交付工具:客户偶尔会问”这个结果怎么来的”,要求中等。
  • 监管合规系统:每次决策都要能解释,要求严苛。
  • 司法 / 医疗 / 信贷:决策可能要在法庭上被质询,要求极致。

可解释性要求越高,模型层吞掉编排层的代价越大。

第三,工具复用度。

这个流程是跑一次还是跑十万次?

  • 一次性原型:只跑一次,怎么实现都行。
  • 探索性研究:跑几十次,结果差异可以接受。
  • 内部工具:跑几千次,需要稳定但不需要一致。
  • 生产系统:跑十万到百万次,必须每次都一致。

跑得越多、复用越深,确定性编排的工程价值越高。


三个维度交叉之后,会发现一个反直觉的结论:

被推得最凶的领域(编程、内容生成、个人助理),恰好是错误成本低、可解释性要求宽松、复用度变化大的领域——这些领域适合 messy task auto-pilot。

而几乎没被波及的领域(保险理赔、医疗诊断、合规审查、政务办理),恰好是错误成本极高、可解释性极致、复用度极深的领域——这些领域适合”原子工具 + 确定性编排”。

通用 agent 的加速并不会蔓延到所有领域。它只会让两类场景的分化变得更清晰。


五、所以呢

我前几天在《工程师的两条上行路》里讲过,Harness Engineer 的核心工作是”把识别 AI 在哪里会烂的肌肉记忆变成生产能力”。这篇文章就是那条路在 GPT-5.5 时代的具体工作长什么样。

不要被演示视频迷惑。GPT-5.5 在演示里自主操作浏览器、自动合并 PR、生成 PPT——这些都是真的,但它们和你的场景之间,可能隔着一道你没注意到的鸿沟。

我之前讲过——模型给你 85% 的上限,剩下那 15% 决定产品生死。GPT-5.5 把那 85% 又提升了几个百分点,但 15% 的位置没变,只是更难够。

判断标准很简单:如果你的产品里 99% 的请求需要确定性结果(赔不赔、批不批、过不过),那么 GPT-5.5 的”messy task auto-pilot”能力对你是无关变量。它再强,对你的护城河没有任何稀释作用——反而因为它强化了”通用模型 = 黑箱”的认知,让你的”可解释 + 确定性”变得更有溢价空间。

真正的问题不是”我们要不要用 5.5”,而是”在我们的场景下,确定性溢价应该如何定价”。

从业者最容易犯的错,是把”可控性”当成”落后性”。看到友商发布”全自动 agent”,就觉得自己的”工具 + 编排”架构过时了,开始焦虑要不要重构。这是被 OpenAI 的产品叙事拖着走。

OpenAI 的产品叙事服务于 OpenAI 的估值。它需要全世界相信”模型即应用,agent 即未来”,因为只有这套叙事才支撑得起它的估值。但你的估值不和 OpenAI 的估值挂钩——你的估值挂钩在你的客户愿意为你的”可解释 + 确定性”付多少溢价。

下次再有人在你面前推销”自主 agent,端到端搞定”,请他先回答三件事:

  1. 出错时,审计链路怎么提取?
  2. 上线后,回归测试怎么做?
  3. 事故时,责任主体是谁?

如果三个问题里有一个答不上来——无论 benchmark 多漂亮——不只是那个 agent 不能进生产,是这个推销员不该被你接待。


激动人心的噪音会一直有。两周一波大版本,每次都伴随价格涨、能力涨、估值涨。这是 OpenAI 和 Anthropic 的游戏,不是你的游戏。

你的游戏是:在通用 auto-pilot 越来越自动化的同一时间,把”可解释的工具 + 确定性编排”做成你这个垂直场景里别人替代不了的东西。你的工具就是你的微服务,你的编排就是你的 service mesh——你已经做了十年的事,继续做。

这件事不需要你比 OpenAI 跑得快。你只需要不被 OpenAI 的节奏带偏。


「模型之外的事」系列。在 AI 的喧嚣里,替你找到真正能用的东西。不搬运新闻,不贩卖焦虑。