激动人心的噪音里，你的护城河反而变厚了——一个写给 AI 工程化落地从业者的反常识判断

3 minute read

GPT-5.5、Claude Opus 4.7 双双发布之后，AI 圈最热的叙事是”模型自主、agent 接管、编排消失”。但在保险理赔、医疗诊断、金融风控这些垂直场景里，真正在升值的不是模型自主性，而是工具的可解释性和编排的确定性。

这篇文章想说清楚一件反常识的事：通用 agent 越自动化，垂直场景的”原子工具 + 确定性编排”越值钱。

一、先把这两周的噪音听清楚

从 4 月 16 日到 4 月底，半个月时间。

4 月 16 日，OpenAI 给 Codex 装上了 computer use、跨应用记忆、90 多个插件，让它能读 Google Docs 评论、拉 Slack 上下文、给你一个优先级清单——也就是从”代码 agent”扩展为”工作流 agent”。同一天，Anthropic 发布 Claude Opus 4.7，主打 Adaptive Thinking——让模型自己判断什么时候需要深推理，本质是路由层优化。两家在同一天完成一轮重磅出击，这个时间撞车本身就是答案。

4 月 21 日，OpenAI 发布”Scaling Codex to enterprises worldwide”+ 启动 Codex Labs，把 Codex 从开发者产品系统化推向企业工作场——四周内 Codex 周活跃从 300 万跳到 400 万。4 月 23 日，OpenAI 直接拍出 GPT-5.5（据 Axios 等报道，内部代号 Spud），定位写得明明白白：”a new class of intelligence for real work”，第二天 5.5 Pro 开放 API。4 月 30 日，Codex CLI v0.128.0 落地持久化 /goal 工作流——可以让 Codex 自己围绕一个目标跨多轮持续推进、暂停、恢复。

两周完成一轮模型升级 + 产品形态升级 + 商业化叙事升级。这个节奏本身就是答案。

把数字摆出来：

GPT-5.5 在 Artificial Analysis Intelligence Index 综合 10 项严苛评估上领先 Claude Opus 4.7 约 3 分。Terminal-Bench 2.0 跳到 82.7%（GPT-5.4 是 75.1%），ARC-AGI-2 从 73.3% 升到 85.0%，FrontierMath Tier 4 从 27.1% 跳到 35.4%。但有意思的是 SWE-Bench Pro 上 Claude Opus 4.7 仍然占优（64.3% vs 58.6%）。

API 价格：GPT-5.5 是每百万 token 输入 5 美元、输出 30 美元，正好是 GPT-5.4 的两倍。OpenAI 的官方话术是：”价格更高，但 token 消耗减少，整体更高效。”翻译过来就是：用效率升级的叙事兑现一次温和涨价。OpenAI 自己测算的口径是——虽然 token 单价翻倍，但 GPT-5.5 用约 40% 更少的 output token 完成同样任务，所以实际综合成本涨约 20%。

OpenAI 自己披露的数字：85% 的员工每周使用 Codex。NVIDIA 自己披露：超过 1 万名员工每周使用 GPT-5.5 驱动的 Codex。这些不是给开发者看的，是给资本市场看的——它们是 ARR 故事的素材。

所以这不是”创造力升级”，是估值兑现期到了。

这件事在收入面上有个戏剧性的拐点——而正是这个拐点，在解释为什么这两周大家都在拼命发产品。

把时间往前推半个月。4 月 7 日，Anthropic 宣布年化收入运行率超过 300 亿美元——这一数字按 gross 口径已经反超 OpenAI 的约 240-250 亿（OpenAI 反驳说按 net 口径 Anthropic 约为 220 亿，会回落到自己之下，口径之争尚未定论）。无论按哪个口径，两家的差距都比一年前预期的小得多——这意味着双方现在都没有”无敌护城河”的安全感。要支撑各自的估值叙事，必须用产品速度持续兑现路线图。所谓”卷”的真实含义是：在算力成本（GB200 NVL72 集群投入）和 IPO/估值压力的双向挤压下，把单 token 价值标得更高，把用户工作流绑得更深。

到这里为止，是噪音的部分。

二、被忽略的范式转换

噪音之下有件事真的发生了，但很少有人讲清楚。

GPT-5.5 的训练目标本身就发生了变化。OpenAI 的官方表述是：”Instead of carefully managing every step, you can give GPT-5.5 a messy, multi-part task and trust it to plan, use tools, check its work, navigate through ambiguity, and keep going.”

翻译：你不再需要管每一步。把一个乱糟糟的任务（messy task，OpenAI 官方用语，指多步骤、需要规划与试错的复合任务）丢给它——规划、用工具、自检、应对模糊性、坚持下去——它自己搞定。

这意味着什么？在通用场景里，模型层正在吞掉一部分编排层。

过去一年，AI 工程社区争论”agent orchestration 框架”——LangGraph、CrewAI、AutoGen、各种 multi-agent 模式——本质是在解决一个问题：模型本身不会做长程任务，所以需要在外面套一层工程化的编排逻辑。Skills、AGENTS.md、工具选择路由、子任务分解、状态机管理，这些都是编排层的工作。

GPT-5.5 的训练目标直接把这层工作收编进了模型本身。它的演示视频里：模型自主打开浏览器解决魔方、通过 Gmail/Slack 自动化 PR 合并检查、从财务数据生成完整 PowerPoint 摘要并创建幻灯片。这些不是”一步提示”能完成的，是多阶段、容错、需要规划与迭代的真实工作流——而它们现在不需要外部编排框架。

这件事在开发者社区被当作好消息：模型变强了，工程负担变轻了。

需要先说清楚一点：这不是 OpenAI 一家在做。Anthropic 的 Claude Code 走的是同一条路，Cowork（Anthropic 的桌面 agent 产品，2026 年 1 月公布）把”agent 操作桌面”的故事讲在了 OpenAI 之前；Adaptive Thinking 本质也是”让模型自己决定推理深度”，只是把决策权下沉得更克制一些。两家是同向竞争，不是路线分歧。这是产业大势，不是某一家公司的产品策略。

但要看清楚另一件事：OpenAI 自己其实并没有宣告”外部编排过时”。

打开它的 Agents SDK 官方文档，你会看到一组刺眼的关键词：orchestration and handoffs、guardrails and human review、results and state、integrations and observability。Codex 与 Agents SDK 的官方指南直接把目标写成”deterministic, reviewable workflows”，并保留 hand-offs、guardrails 和完整的 trace。

也就是说，它一边把通用执行细节（怎么用工具、怎么拆分子任务、怎么自检）下沉给模型本身，一边把审批、追踪、治理这些东西更显式地产品化。通用编排在下沉，治理编排在升值——这才是完整的事实。那些以为”模型够强就不需要编排了”的人，只看到了下沉的一半。

顺便说一件容易被忽略的事：Anthropic 自己在《Building Effective Agents》里就讲过——大多数生产任务用 workflow（确定性流程）就够了，只在简单方案确实不够时才引入 agent。OpenAI 把通用 agent 推到极致的同一时间，Anthropic 自己写了一篇划边界的论文。两家产品姿态不同，底层判断一致。这件事比 GPT-5.5 的 benchmark 更值得记下来。

但即便如此，这种”模型自主执行 + 治理编排兜底”的范式还有一个被严重低估的副作用：模型黑箱化加深了。

当编排逻辑外置在 LangGraph 里，每一步工具调用、每一次状态转移、每一次重试，都是工程师写出来的代码——可读、可调试、可回归测试。当编排逻辑被吞进模型本体，这些过程变成模型内部的黑箱推理。你看到的只有输入和输出，中间的”它怎么决定先做 A 再做 B 而不是反过来”——只能事后通过日志和 trace 反推。

更要命的是，这个黑箱在产品层面正在被显式地拉黑。Anthropic 的官方 API 文档明文写道：”Starting with Claude Opus 4.7, thinking content is omitted from the response by default”——thinking display 的默认值从”summarized”改成”omitted”，你必须显式设置才能看到模型的思考摘要。同时，Opus 4.7 把 budget_tokens（让你显式设置思考预算）以及 temperature、top_p、top_k 全部改成 400 错误——这些参数被直接禁掉了。OpenAI 这边也是类似的方向：reasoning summary 需要显式 opt-in，而 reasoning.encrypted_content 是给模型多轮续接用的不透明 state，不是给人审计的因果链。

模型越来越会做事，不等于系统越来越容易解释。很多原本在外部编排层里可见、可测、可回放的中间状态，正在被压缩成摘要，或干脆下沉到模型内部。

OpenAI 自己也清楚这点。Codex v0.128 加的持久化 /goal workflow，本质是给这个黑箱添加一层”让用户能看到模型的目标和子目标”的可观测性。但这只是一层显示，不是一层控制。

模型层吃掉了一部分编排层的能力，同时也吃掉了那部分编排层的可控性。

打个后端老兵都熟悉的比方：这就像把微服务架构里所有的网关、路由、消息队列、服务注册中心全部砸碎，融进一个巨大的、没有日志的单体应用里。好消息是它自己能转，坏消息是它出 bug 的时候，你连堆栈都打不出来。过去十年我们用微服务对抗了单体的不可调试，现在 OpenAI 正在反向把它砸碎成另一种单体。

三、反向命题：黑箱化越深，确定性越值钱

噪音之外，真正值得做出判断的是这一句话。

我之前在《AI 项目死在工程，不是模型》的”放翁七关”里讲过两关——第三关”选最可控的不是最先进的”，第六关”能力边界协议”。GPT-5.5 之后，这两关从”落地经验”变成了”对抗黑箱化的产品形态”。

让我说得更具体：在保险理赔、医疗诊断、金融风控、信贷审核、政务审批、合规审查这些垂直场景里，”模型自己规划、自己用工具”是负资产，不是正资产。

这不是技术保守主义。是三个具体的不可接受。

第一个不可接受：审计回溯不可行。

监管场景下的标配是”每一次决策都要能解释”。客户被拒赔，得告诉他为什么被拒赔；理赔通过了，得告诉再保险公司为什么通过。这个”为什么”必须是确定性的因果链，不是”模型综合判断”。就像 distributed tracing 里你能看到每一个 span，但你永远看不到一个叫”综合判断”的 span。GPT-5.5 的 messy task auto-pilot 可以高准确率地给出结果，但它给不出可审计的因果链——因为这个因果链根本不存在，存在的只是模型内部的隐式推理。

第二个不可接受：流程不可固化。

工程化系统的核心特征是可回归。今天处理 10 万张医疗票据，明天还要再处理 10 万张，后天再 10 万张——每一次处理的流程必须是同一个流程，否则版本管理、错误归因、A/B 测试全部失效。但模型层接管编排意味着每次的工具调用顺序、子任务分解方式都可能不同——你拿什么做回归测试？

第三个不可接受：责任主体模糊。

多 agent 并行更糟。GPT-5.5 配 Codex 现在可以同时跑多个 agent 处理不同任务。在合规场景里，这立刻就是一个法律问题——两个 agent 同时跑核保和反欺诈，某天拒保结论错误，客户起诉。法庭上你拿出的不是结构化决策日志，而是”两个 agent 之间的自然语言协作 trace”——这种证据链，法官能采纳吗？监管能背书吗？这不是技术问题，是法律可执行性问题。

这些问题在通用消费场景里可以模糊处理——大不了用户重试一次。在垂直监管场景里，每一次模糊都是合规风险。

所以反向命题是这样的：

OpenAI 把通用 agent 卷得越自动化，黑箱化越深；黑箱化越深，”可解释的工具 + 确定性编排”在垂直场景里的稀缺性越高；稀缺性越高，溢价越大。

具体长什么样：

可解释的工具： 每一个工具是单一职责的、输入输出严格定义的、行为在测试集上可证伪的小函数。保险里是”匹配理赔条款”；医疗里是”DICOM 影像分割”；金融里是”KYC 字段抽取”；政务里是”证照真伪验证”。共同特征——单一目标、可单测、可回归、可独立部署。

确定性编排： 工具之间的调用顺序、条件分支、重试策略、人工介入节点，全部由工程师显式写出来。可以用状态机、可以用 DAG、可以用规则引擎，但绝不能交给”模型自己决定”。

模型在这套架构里干什么： 模型在每个工具内部做能力增强——用 Qwen-VL 做票据 OCR，用 LLM 做语义匹配，用嵌入做相似度计算。但模型不做编排决策。

2026 年的更新版铁律：原子工具是护城河，确定性编排是保险丝。

护城河决定你的价值上限，保险丝决定你的下限。两者不是替代关系，是在不同时间窗口下被定价权重不同地交替强调。

举一个具体的对比来说明这点。

一笔人伤理赔进来，附带 30 张医疗票据、5 份诊断证明、2 份伤残鉴定。

走 messy task auto-pilot 的路径： 你把所有材料丢给 GPT-5.5，让它”审核这笔理赔，给出建议”。它会自主决定先看哪份材料、用哪个工具识别、怎么交叉验证、最后给一个结论加一段解释。看上去很丝滑。但当客户问”为什么我的伤残等级被定为 X 级”，你只能把模型那段解释复述一遍——这段解释是模型生成的自然语言，不是从结构化规则里推导出来的，无法溯源到具体的鉴定标准条款。

走可解释工具 + 确定性编排的路径： 你定义一组单一职责的工具：票据 OCR 工具、诊断证明结构化工具、伤残等级匹配工具（基于明文规则库）、赔付金额计算工具。编排逻辑是工程师写的状态机：先 OCR 所有票据 → 抽取关键字段 → 匹配条款 → 计算赔付。每一步的输入、输出、调用的规则版本号、模型版本号全部落库。客户问”为什么定 X 级”，你能直接拿出”伤残等级匹配工具在 2026-04-30 14:23:11 调用规则库 v3.2.7 第 14 条第 2 款，输入参数 […]，输出 X 级”。

两条路径压在一张表里看更清楚：

维度	messy auto-pilot 路径	原子工具 + 确定性编排
客户问”为什么定 X 级”的回答	重述模型自然语言	拿出工具 + 规则版本号 + 输入参数 + 输出
准确率	可能更高	持平或略低
合规可用性	不可用	可用
回归测试	不可能	标配
责任主体	模糊	明确
能否进监管场景	否	是

两条路径在准确率上可能差不多，甚至 messy task 路径更高。但在合规价值上差了一个数量级。这不是技术对比，是产品形态对比——一个能进监管场景，一个进不了。

四、给从业者的判断框架

判断你的场景应该走哪条路，不需要看模型 benchmark，看三个维度。

第一，错误成本。

错一次的代价是什么？

写代码错了：CI 跑红，工程师重试。错误成本 = 5 分钟。
给文档生成摘要错了：用户重新生成。错误成本 = 1 分钟。
个人日程安排错了：用户调整一下。错误成本 = 几分钟尴尬。
保险理赔错赔：客户上访 / 监管处罚 / 媒体曝光。错误成本 = 几十万到几千万。
医疗影像辅诊错诊：可能的人命。错误成本 = 不可量化。

GPT-5.5 的 messy task 能力适合错误成本低的场景。错误成本越高，”自主 agent”的价值越低，”可控编排”的价值越高。

第二，可解释性要求。

下游消费方是不是需要追溯链路？

个人生产力工具：用户自己用，没人要追溯。
团队协作工具：偶尔回顾，要求宽松。
B2B 交付工具：客户偶尔会问”这个结果怎么来的”，要求中等。
监管合规系统：每次决策都要能解释，要求严苛。
司法 / 医疗 / 信贷：决策可能要在法庭上被质询，要求极致。

可解释性要求越高，模型层吞掉编排层的代价越大。

第三，工具复用度。

这个流程是跑一次还是跑十万次？

一次性原型：只跑一次，怎么实现都行。
探索性研究：跑几十次，结果差异可以接受。
内部工具：跑几千次，需要稳定但不需要一致。
生产系统：跑十万到百万次，必须每次都一致。

跑得越多、复用越深，确定性编排的工程价值越高。

三个维度交叉之后，会发现一个反直觉的结论：

被推得最凶的领域（编程、内容生成、个人助理），恰好是错误成本低、可解释性要求宽松、复用度变化大的领域——这些领域适合 messy task auto-pilot。

而几乎没被波及的领域（保险理赔、医疗诊断、合规审查、政务办理），恰好是错误成本极高、可解释性极致、复用度极深的领域——这些领域适合”原子工具 + 确定性编排”。

通用 agent 的加速并不会蔓延到所有领域。它只会让两类场景的分化变得更清晰。

五、所以呢

我前几天在《工程师的两条上行路》里讲过，Harness Engineer 的核心工作是”把识别 AI 在哪里会烂的肌肉记忆变成生产能力”。这篇文章就是那条路在 GPT-5.5 时代的具体工作长什么样。

不要被演示视频迷惑。GPT-5.5 在演示里自主操作浏览器、自动合并 PR、生成 PPT——这些都是真的，但它们和你的场景之间，可能隔着一道你没注意到的鸿沟。

我之前讲过——模型给你 85% 的上限，剩下那 15% 决定产品生死。GPT-5.5 把那 85% 又提升了几个百分点，但 15% 的位置没变，只是更难够。

判断标准很简单：如果你的产品里 99% 的请求需要确定性结果（赔不赔、批不批、过不过），那么 GPT-5.5 的”messy task auto-pilot”能力对你是无关变量。它再强，对你的护城河没有任何稀释作用——反而因为它强化了”通用模型 = 黑箱”的认知，让你的”可解释 + 确定性”变得更有溢价空间。

真正的问题不是”我们要不要用 5.5”，而是”在我们的场景下，确定性溢价应该如何定价”。

从业者最容易犯的错，是把”可控性”当成”落后性”。看到友商发布”全自动 agent”，就觉得自己的”工具 + 编排”架构过时了，开始焦虑要不要重构。这是被 OpenAI 的产品叙事拖着走。

OpenAI 的产品叙事服务于 OpenAI 的估值。它需要全世界相信”模型即应用，agent 即未来”，因为只有这套叙事才支撑得起它的估值。但你的估值不和 OpenAI 的估值挂钩——你的估值挂钩在你的客户愿意为你的”可解释 + 确定性”付多少溢价。

下次再有人在你面前推销”自主 agent，端到端搞定”，请他先回答三件事：

出错时，审计链路怎么提取？
上线后，回归测试怎么做？
事故时，责任主体是谁？

如果三个问题里有一个答不上来——无论 benchmark 多漂亮——不只是那个 agent 不能进生产，是这个推销员不该被你接待。

激动人心的噪音会一直有。两周一波大版本，每次都伴随价格涨、能力涨、估值涨。这是 OpenAI 和 Anthropic 的游戏，不是你的游戏。

你的游戏是：在通用 auto-pilot 越来越自动化的同一时间，把”可解释的工具 + 确定性编排”做成你这个垂直场景里别人替代不了的东西。你的工具就是你的微服务，你的编排就是你的 service mesh——你已经做了十年的事，继续做。

这件事不需要你比 OpenAI 跑得快。你只需要不被 OpenAI 的节奏带偏。

「模型之外的事」系列。在 AI 的喧嚣里，替你找到真正能用的东西。不搬运新闻，不贩卖焦虑。

Share on

X Facebook LinkedIn Bluesky

Madden Zhang

激动人心的噪音里，你的护城河反而变厚了——一个写给 AI 工程化落地从业者的反常识判断

一、先把这两周的噪音听清楚

二、被忽略的范式转换

三、反向命题：黑箱化越深，确定性越值钱

四、给从业者的判断框架

五、所以呢

Share on

You May Also Enjoy

罗福莉讲的是模型能力，但每一条都藏着对场景落地的启示

工程师的两条上行路：从 Software Engineer 到 Business Builder 和 Harness Engineer

AI 项目死在工程，不是模型

「AI 学得比我快吗？」——你可能问错了问题