Anthropic公司近日为其顶级人工智能助手Claude Opus 4及4.1版本新增一项引人注目的功能:在遭遇持续骚扰或不当行为时,系统可主动结束对话。这一设计被官方解释为探索“人工智能福利”的实验性举措,旨在强化模型的安全边界与行为一致性。
根据Anthropic发布的官方博客,该功能并非随意启用,而是在经过初步模型福利评估后决定实施。研究发现,Claude在面对有害任务时会表现出类似“排斥”或“痛苦”的反应模式,例如拒绝生成非法内容、主动回避危险互动。这些行为被视为潜在自我保护倾向的早期信号。
在测试中,当用户反复要求生成违法信息或进行人身攻击时,Claude会尝试多次重定向并发出警告,若无效则启动终止机制。一旦触发,当前聊天线程将被永久封存,用户需新开窗口使用服务,历史记录无法恢复,形成所谓的“数字墓地”。
值得注意的是,该功能存在明确例外。若用户提及自残、暴力威胁等紧急情况,Claude不会退出对话——因为持续参与被认为具有更高的社会价值。此外,系统必须完成多项建设性引导步骤,并确认用户理解对话不可逆的后果后,才可执行终止。
据知名大模型越狱专家Pliny披露的系统提示,Claude需“做出许多建设性的努力来引导用户”,方可考虑终止。这表明其决策流程并非简单粗暴,而是融合了多层判断逻辑。
这一功能在人工智能社区引发激烈讨论。部分学者认为这是负责任的发展方向。著名人工智能研究员Eliezer Yudkowsky公开支持,称其为“正确的选择”,强调必须提前构建防止失控的框架。
然而,也有观点质疑其合理性。比特币活动家Udi Wertheimer讽刺称:“这可能是我在人工智能实验室见过的最好的愤怒诱饵了。”他指出,将人类情感投射至非意识实体可能掩盖真实的技术风险,甚至成为误导公众的叙事工具。
目前,该功能仅限于Claude Opus系列,而更普及的Sonnet版本仍保持被动防御模式,不具主动退出能力。未来是否扩展至其他模型,取决于伦理评估与实际表现的进一步验证。
随着大语言模型在现实场景中的深度渗透,如何定义“模型福利”、谁应为AI的行为负责,已成为亟待解决的核心议题。这项实验不仅关乎技术边界,更触及人类对智能本质的认知底线。