New Relic 推出 Agentic Platform:企业做 AI Agent,先把可观测性补上
New Relic 推出 Agentic Platform:企业做 AI Agent,先把可观测性补上
先说结论
如果你的团队已经在试 AI Agent,这次 New Relic 的动作值得看:它不是在卷“更聪明的模型”,而是在补“可控上线”的基础设施。AI Agent 可观测性正在从可选项变成上线门槛。
这件事的核心问题
过去一年很多团队都能做出 demo 级 agent,但一进生产环境就暴露三个问题:
- 任务链跨系统,出错点难定位;
- token、延迟、调用成本不可见;
- 出问题只能“人工接管”,没有标准化回滚路径。
New Relic 在 2026-02-24 公布的 Agentic Platform,核心是把 agent 运行态纳入它已有的 observability 体系,并把 OpenTelemetry 纳入主叙事。换句话说,agent 不再是“黑盒插件”,而是“可监控、可治理、可追责”的系统组件。
关键机制拆解
1) 无代码编排降低了试点门槛
它提供 no-code builder,让 SRE/Ops 能直接搭建并治理 agent 工作流,不必每次都由平台工程团队写胶水代码。
2) Agent 不是单点能力,而是运行链路
平台强调“从被动观察到主动执行”,重点不是聊天,而是把告警、排障、响应动作串成闭环。
3) OpenTelemetry 是跨栈对齐层
当团队已有多家供应商工具时,OTel 能把 trace/metric/log 对齐到同一语义层,减少“每个 agent 一套日志口径”的维护成本。
4) MCP/外部数据连接改变了调试方式
TechCrunch 报道里提到其支持 MCP(Model Context Protocol)能力,意味着 agent 的外部上下文接入更标准化。调试重点从“模型为什么这么答”转向“上下文是如何被喂进去的”。
5) 可观测性从指标看板变成治理系统
本质变化是把 agent 视为“生产服务单元”:需要 SLO、需要审计轨迹、需要策略边界,而不是仅看成功率。
两个常见误区
-
误区一:先上 agent,稳定后再补监控。
实操里通常相反:没有观测,根本不知道哪里不稳定,也谈不上“稳定后”。 -
误区二:用了 OTel 就自动可治理。
OTel 解决的是数据标准化,不会自动给你策略、权限、回滚和责任边界。
案例 / 类比
可以把 AI Agent 上线看成把“实习生”接入生产系统:
- 没有工单系统和审批流,效率看似高,风险也最高;
- 有了监控、审计、权限和回滚,才可能扩大授权范围。
在电商或金融客服场景,这种差异会直接体现在 MTTR(平均恢复时间)和误操作损失上。
对你的实际影响
- 个人开发者: 只会写 prompt 已不够,得会看 trace 与失败链路。
- 小团队: 要优先做“最小治理闭环”,否则 agent 数量一上来就失控。
- 企业: 采购重点会从“模型榜单”转向“可观测+治理+集成能力”。
可执行建议
- 先选 1 条高频、低风险流程做 agent 化(如告警分诊),不要一上来改核心交易链路。
- 为每个 agent 定义三类指标:成功率、平均耗时、单任务成本。
- 建立“自动执行阈值”:超过阈值自动降级为建议模式并通知人工。
- 用 OTel 统一 telemetry 字段命名,避免多工具并行时口径冲突。
- 每周做一次失败复盘:按“数据缺失、策略错误、权限越界、外部依赖”四类归因。
风险与不确定性
- 厂商生态可能导致一定锁定,迁移成本需提前评估。
- 无代码平台提速明显,但复杂场景最终仍会回到代码治理。
- MCP 与 OTel 相关实践还在快速演化,最佳实践可能在半年内变化。
**置信度:中高。**原因是核心信息来自厂商发布与主流媒体报道,方向明确;但落地效果仍取决于企业数据质量、权限模型和组织执行力。
一句话复盘
2026 年的分水岭不是“谁先做出 AI Agent”,而是谁先把 AI Agent 可观测性做成可复制的工程能力。