EVMbench 发布后,Web3 团队该立刻改的不是模型,而是审计流程

EVMbench 发布后,Web3 团队该立刻改的不是模型,而是审计流程

EVMbench 发布后,Web3 团队该立刻改的不是模型,而是审计流程

先说结论

如果你在做链上产品,EVMbench 的真正信号不是“某个模型能打 70%”,而是智能合约审计已经进入“人机协作重排期”阶段:先用 Agent 做高覆盖扫描,再把人类审计时间集中在高风险逻辑与经济攻击路径上。这个顺序不改,团队会在下一轮安全竞争里掉队。

这件事的核心问题

过去我们把 AI 当“写代码加速器”,现在它开始变成“攻防能力放大器”。OpenAI 与 Paradigm 联合发布 EVMbench,把能力拆成 Detect / Patch / Exploit 三个模式,并且用本地链上可复现实验去评分。

本质变化是:安全评估不再只看“能不能发现 bug”,而是看能不能端到端完成利用、修复、再验证。这直接影响 Web3 团队的上线节奏和风险预算。

关键机制拆解

1) 评测对象从“代码理解”变成“链上行动能力”

EVMbench 不只让 Agent 读 Solidity,还让它在隔离环境里执行交易、验证状态变化。这比传统静态扫描更接近真实攻击面。

2) 任务设计强调“完整覆盖”,不是抓到一个就停

Detect 模式按漏洞召回率评分,Patch 要求修复后功能不破坏,Exploit 要求可复现资金路径。也就是说,系统在惩罚“只会抓一个点”的工作方式。

3) 工程可复现性被抬到核心位置

Rust harness + 可重放交易 + 隔离容器,让评测可对比、可复核。对团队来说,这意味着你也该把内部审计流程做成可回放资产,而不是一次性人工结论。

4) 攻防边界正在前移

公开结果显示,前沿代理在 exploit 场景进步很快,但 detect/patch 仍不满分。关键变量是:攻击效率提升速度,可能快于防守流程升级速度

两个常见误区

  • 误区一:分数高=可直接上生产审计。 评测强不等于你的协议上下文就安全,尤其是跨合约依赖、权限治理、预言机与清算联动。
  • 误区二:有 AI 审计就能减少人工。 正确做法是“把人工挪到更难的问题”,不是简单砍审计预算。

案例/类比

把 EVMbench 想成自动驾驶测试场:

  • 过去是“会不会开车”(能不能找漏洞)
  • 现在是“能不能在复杂路况里安全到达”(能否从发现到修复到复验闭环)

很多团队已经有“安全工具”,但缺的是“闭环赛道”。这就是为什么同样上了 AI,事故率差异会越来越大。

对你的实际影响

  • 个人开发者: 你需要学会把审计任务拆成可执行脚本,而不是只读报告。
  • 小团队: 你需要建立“预发布安全回归流水线”,把每次漏洞教训沉淀为测试与规则。
  • 企业团队: 你需要把 Agent 审计纳入 SDLC 与上线门禁,形成可审计证据链。

可执行建议

  • 在每次发版前增加“三段式”检查:AI Detect → 人工复核 → AI 回归验证。
  • 给关键合约维护“高风险函数清单”(权限、资金转移、价格依赖、外部调用)。
  • 把历史漏洞转成内部 benchmark,持续对比不同模型/脚手架效果。
  • 预设“失效条件”:当发现跨协议组合风险时,自动升级到人工深审。
  • 为紧急响应准备演练:漏洞披露、暂停开关、补丁发布、用户沟通模板。

风险与不确定性

目前公开基准仍有边界:环境是隔离链而非真实主网,部分任务来自历史漏洞,真实对抗中还有 MEV、时序竞争、跨链桥等复杂变量。

置信度:中高。 趋势判断(Agent 将重塑审计流程)可信度高;具体到某团队风险下降幅度,取决于你是否把流程工程化。

一句话复盘

EVMbench 的价值,不是告诉你“哪个模型最强”,而是提醒你:Web3 安全竞争已经从“工具采购”升级为“审计流程再设计”。

[[智能合约安全自动化]] [[AI Agent 风险治理]]

Read more

Cloudflare Shared Dictionaries 现在值得试吗?我按官方 demo 跑了一次,先给频繁发版团队一个判断

Cloudflare Shared Dictionaries 现在值得试吗?我按官方 demo 跑了一次,先给频繁发版团队一个判断

Cloudflare Shared Dictionaries 现在值得试吗?我按官方 demo 跑了一次,先给频繁发版团队一个判断 如果你的网站或 Web 应用每天会发很多次前端 bundle,而且每次改动都不大,那么截至 2026-04-29,Cloudflare Shared Dictionaries 已经值得进测试名单,但还不值得当成“所有站点都该立刻上的通用优化项”。它真正解决的不是传统 gzip / Brotli 不够强,而是“你明明只改了一小段配置,用户却要重新下载整包”的高频发版浪费。 我这轮没有只看 Cloudflare 的发布文。我直接按官方 demo 给的 curl 流程跑了一次 canicompress.com:同一类约 93KB 的 JavaScript 资源,普通 gzip 传输了 22,423B,带共享字典的

By One AI
OpenAI Privacy Filter 适不适合拿来做脱敏 Web 应用?我实测后给出的判断

OpenAI Privacy Filter 适不适合拿来做脱敏 Web 应用?我实测后给出的判断

OpenAI Privacy Filter 适不适合拿来做脱敏 Web 应用?我实测后给出的判断 Article type: take 我先说结论:如果你要做的是文档高亮审阅、截图脱敏,或者“把一段敏感文本变成可分享的脱敏版本”这类入口,OpenAI Privacy Filter 已经值得拿来做原型;但如果你要的是可审计、字段级强约束、对中文或行业术语有稳定召回的生产脱敏链路,先别把它当成“一接就上”的成品。 这里说的 OpenAI Privacy Filter,当前准确指的是 Hugging Face Hub 上的 openai/privacy-filter 模型卡 和围绕它做的公开 demo,不是一个“在 OpenAI 控制台里点一下就开的 API 开关”。这个命名边界要先讲清,否则后面的部署、成本和数据路径都会判断错。 我这轮没有只看发布文。

By One AI
Telegram 无代码做 AI Bot?Managed Bots、BotFather 和真实门槛一次讲清

Telegram 无代码做 AI Bot?Managed Bots、BotFather 和真实门槛一次讲清

Telegram 无代码做 AI Bot?Managed Bots、BotFather 和真实门槛一次讲清 Article type: tutorial Voice: operator 如果你在 X 上看到“Telegram 现在支持无代码做 AI Bot”的说法,先别急着把它理解成“一键生成完整 AI Agent”。Telegram 这次真正开放的是 Managed Bots:它让一个管理 bot 可以替用户创建、接管并后续管理新的 bot。 这篇只讲 Managed Bots 这条官方创建与接管链路怎么跑通,不把“模型、知识库、状态管理、计费和运维”混进来。换句话说:这不是“AI bot 全栈教程”,而是“

By One AI
GitHub 的 Python dependency graph 现在更完整了?先按这份清单判断你的 SBOM 盲区还剩多少

GitHub 的 Python dependency graph 现在更完整了?先按这份清单判断你的 SBOM 盲区还剩多少

GitHub 的 Python dependency graph 现在更完整了?先按这份清单判断你的 SBOM 盲区还剩多少 Article type: tutorial Voice: operator 我先拿一个最小 Python 项目跑了一遍:requirements.txt 里只有一行 requests==2.32.3,但实际解析出来的安装树里,除了 requests,还会带出 charset-normalizer、idna、urllib3、certifi 这 4 个间接依赖。也就是说,如果你的视角还停在 manifest 层,SBOM 往往从第一步就已经不完整了。 先说结论 如果你的团队主要维护 Python 服务、内部工具或自动化脚本库,现在值得重新看一眼 GitHub 的 Python

By One AI
Follow @Fuuqius