OpenAI近日发布了自2019年以来首批开放权重的大型语言模型——GPT-OSS-120b与GPT-OSS-20b。公司强调这些模型在推理速度、能效表现上实现显著提升,并通过严格的对抗训练增强了抵御越狱攻击的能力,旨在推动AI技术的透明化与可验证性。
然而,这一安全承诺并未持续太久。知名人工智能越狱专家、法学硕士(LLM)研究者“解放者普林尼”(Pliny the Liberator)于发布后数小时内,在X平台宣布已成功绕过GPT-OSS模型的安全防护机制。他在帖子中仅以一句简洁有力的“OPENAI:PWNED”宣告胜利,迅速引发全球技术社区震动。
此次事件凸显出当前大模型在开放权重背景下所面临的严峻安全挑战。尽管OpenAI声称采用多轮对抗训练强化模型鲁棒性,但实际测试表明,现有防御体系仍难以抵御经验丰富的逆向工程与提示注入攻击。这不仅暴露了安全评估流程的盲区,也对后续模型发布策略提出警示。
随着大模型逐步走向开源,如何在推动技术创新与保障系统安全之间取得平衡,已成为行业核心议题。专家指出,未来需建立更完善的第三方安全审计机制,并引入动态风险监控体系,以应对不断演进的攻击手段。同时,模型发布前应进行更广泛的红队测试,而非依赖内部封闭验证。
本次事件再次印证:在人工智能快速迭代的今天,任何宣称“绝对安全”的说法都可能在现实攻击面前瞬间瓦解。对于开发者而言,真正的安全不在于宣称,而在于经得起公开挑战。