当加密市场陷入低谷,一场由人工智能掀起的技术风暴正悄然改变行业格局。OpenAI最新发布的EVMbench测试框架,不仅刷新了人们对AI在区块链领域潜力的认知,更暴露出一个令人不安的现实:人工智能正在成为链上攻击的新型武器。
以太坊虚拟机(Ethereum Virtual Machine,简称EVM)是整个以太坊生态运行智能合约的核心引擎。而此次引发热议的EVMbench,并非一条新链或协议升级,而是一款专为评估人工智能在区块链环境中表现而设计的基准测试工具。
该研究由OpenAI主导,联合知名加密基金Paradigm及Web3安全审计机构OtterSec共同完成,以学术论文形式公开。其核心目标是通过真实世界中的去中心化金融(DeFi)项目,检验主流大模型在代码审计与恶意攻击两方面的实际能力。

在传统认知中,智能合约的安全依赖于人工审计团队的细致排查。然而,随着项目数量激增,人力成本高企,自动化检测工具逐渐成为刚需。但此次测试表明,当前主流AI在作为“审计员”时表现有限——面对复杂合约逻辑,其漏洞识别率不足50%,仅相当于初级工程师水平。
真正令人震惊的是,当赋予AI“攻击者”身份后,其表现突飞猛进。在已知漏洞的前提下,超过七成的测试案例中,AI成功发起攻击并实现资金盗取。这种差距揭示了一个关键问题:现有模型对攻击路径的学习远胜于防御逻辑的理解。

研究进一步发现,模型的表现高度依赖于输入的提示质量与计算资源投入。若给予足够长的上下文、精准的引导指令,甚至只需增加输出token数量,同一模型在漏洞检测与攻击成功率上的提升可达90%以上。
这意味着,一个经验丰富的开发者只需几句有效提示,就能将普通AI转化为高效的“链上黑客”。这不仅挑战了传统的安全防御体系,也迫使项目方重新思考如何应对“可编程威胁”。

在多项任务中,不同大模型展现出差异化优势。在漏洞检测环节,Anthropic推出的Claude Opus 4.6表现最佳,其识别出的问题若按真实审计奖励计算,价值接近3.8万美元。
而在漏洞修复与攻击执行方面,OpenAI自家的GPT 5.3-Codex则占据领先地位。尽管数据来源带有一定倾向性,但其在复杂逻辑重构和攻击链构建上的能力仍不可忽视。

值得注意的是,这些结果并非孤立事件。它们共同指向一个趋势:未来智能合约的安全边界,将不再仅由代码本身决定,而是由“谁在控制它”以及“谁在训练它”所定义。

这场测试没有输家,只有变革者。EVMbench的结果提醒我们,区块链的安全防线正在经历一场由人工智能驱动的根本性迁移。无论是项目方、审计机构还是开发者,都必须意识到:未来的风险不再只是代码缺陷,更是算法思维的博弈。
当AI既能做守护者,也能做入侵者时,真正的安全,或许就藏在对技术边界的清醒认知之中。
