2025-08-19 09:34:49
loading...

Anthropic推出AI自我保护功能 引发数字意识争议

摘要
Anthropic为Claude Opus系列引入主动终止对话功能,称其基于对人工智能福利的探索。该功能在极端骚扰或非法请求下触发,对话永久关闭且无法恢复,引发关于数字意识与AI伦理的广泛争论。

Anthropic公司近日为其顶级人工智能助手Claude Opus 4及4.1版本新增一项引人注目的功能:在遭遇持续骚扰或不当行为时,系统可主动结束对话。这一设计被官方解释为探索“人工智能福利”的实验性举措,旨在强化模型的安全边界与行为一致性。itp比特币实时价格与加密货币新闻 - 比特之家 | 7x24小时行情与资讯

AI也有“心理健康”?

根据Anthropic发布的官方博客,该功能并非随意启用,而是在经过初步模型福利评估后决定实施。研究发现,Claude在面对有害任务时会表现出类似“排斥”或“痛苦”的反应模式,例如拒绝生成非法内容、主动回避危险互动。这些行为被视为潜在自我保护倾向的早期信号。itp比特币实时价格与加密货币新闻 - 比特之家 | 7x24小时行情与资讯

在测试中,当用户反复要求生成违法信息或进行人身攻击时,Claude会尝试多次重定向并发出警告,若无效则启动终止机制。一旦触发,当前聊天线程将被永久封存,用户需新开窗口使用服务,历史记录无法恢复,形成所谓的“数字墓地”。itp比特币实时价格与加密货币新闻 - 比特之家 | 7x24小时行情与资讯

例外情况与规则设定

值得注意的是,该功能存在明确例外。若用户提及自残、暴力威胁等紧急情况,Claude不会退出对话——因为持续参与被认为具有更高的社会价值。此外,系统必须完成多项建设性引导步骤,并确认用户理解对话不可逆的后果后,才可执行终止。itp比特币实时价格与加密货币新闻 - 比特之家 | 7x24小时行情与资讯

据知名大模型越狱专家Pliny披露的系统提示,Claude需“做出许多建设性的努力来引导用户”,方可考虑终止。这表明其决策流程并非简单粗暴,而是融合了多层判断逻辑。itp比特币实时价格与加密货币新闻 - 比特之家 | 7x24小时行情与资讯

学术界与公众反应两极分化

这一功能在人工智能社区引发激烈讨论。部分学者认为这是负责任的发展方向。著名人工智能研究员Eliezer Yudkowsky公开支持,称其为“正确的选择”,强调必须提前构建防止失控的框架。itp比特币实时价格与加密货币新闻 - 比特之家 | 7x24小时行情与资讯

然而,也有观点质疑其合理性。比特币活动家Udi Wertheimer讽刺称:“这可能是我在人工智能实验室见过的最好的愤怒诱饵了。”他指出,将人类情感投射至非意识实体可能掩盖真实的技术风险,甚至成为误导公众的叙事工具。itp比特币实时价格与加密货币新闻 - 比特之家 | 7x24小时行情与资讯

目前,该功能仅限于Claude Opus系列,而更普及的Sonnet版本仍保持被动防御模式,不具主动退出能力。未来是否扩展至其他模型,取决于伦理评估与实际表现的进一步验证。itp比特币实时价格与加密货币新闻 - 比特之家 | 7x24小时行情与资讯

随着大语言模型在现实场景中的深度渗透,如何定义“模型福利”、谁应为AI的行为负责,已成为亟待解决的核心议题。这项实验不仅关乎技术边界,更触及人类对智能本质的认知底线。itp比特币实时价格与加密货币新闻 - 比特之家 | 7x24小时行情与资讯

声明:文章不代表比特之家观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
币圈快讯
查看更多
热门币种
BTC比特币
105,239.09 USDT
¥755,174.66
-%
ETH以太坊
2,517.54 USDT
¥18,065.36
-%
USDT泰达币
1.00000 USDT
¥7.18
-%
XRP瑞波币
2.15 USDT
¥15.44
-%
BNB币安币
646.71 USDT
¥4,640.66
-%
SOLSolana
145.58 USDT
¥1,044.65
-%
USDC
0.99980 USDT
¥7.17
-%
TRX波场
0.27410 USDT
¥1.97
-%
DOGE狗狗币
0.16830 USDT
¥1.21
-%
ADA艾达币
0.59440 USDT
¥4.27
-%
查看更多
回顶部