2025-09-09 12:16:43
loading...
OpenAI罕见发文揭秘AI幻觉根源:评估机制是罪魁祸首
摘要
OpenAI最新论文揭示大模型幻觉的深层原因:当前评估体系奖励猜测而非承认不确定性,导致模型自信编造事实。尽管GPT-5幻觉减少,根本挑战仍未解决。文章解析幻觉成因、评估机制缺陷及改进方向。
AI最臭名昭著的Bug并非代码崩溃,而是「幻觉」——模型自信地生成不真实内容,令人真假难辨。这一根本性挑战阻碍了人们对AI的完全信任。尽管学术界已提出多种缓解方法,但尚未有能彻底根治幻觉的方案。
近日,OpenAI罕见发表题为《Why Language Models Hallucinate》的论文,系统性揭示幻觉的根源。论文指出,幻觉的本质是:模型在缺乏足够信息时,仍会自信地输出错误答案。其核心原因在于训练与评估机制的激励错位——现行标准更倾向于奖励猜测,而非鼓励模型承认不确定。
以多项选择题为例:若模型不知道答案,猜测可能命中正确结果(如生日有1/365概率),而选择「我不知道」则直接得零分。在数千道测试题中,这种策略性猜测反而让模型在准确度指标上表现更优。这导致模型持续学习“猜对”,而非“认错”。
OpenAI强调,谦逊是其核心价值观之一。模型在无法确定时应表达不确定性或请求澄清,而非提供可能错误的信息。然而,主流评估体系仍以准确度为主导,忽略了对错误猜测的惩罚,也未给予诚实退缩应有的加分。
更深层次来看,幻觉源于语言模型的预训练机制。模型通过预测海量文本中的下一个词来学习,但这类任务没有明确的“真/假”标签。对于拼写、语法等有规律的内容,错误可随规模扩大而减少;但对于像个人生日、博士论文标题等低频且任意的事实,模型无法仅凭模式推断,从而产生幻觉。
论文还驳斥了多个常见误解:幻觉并非不可避免,小型模型反而更易识别自身局限;提高准确度也无法彻底消除幻觉,因为现实中部分问题本就无解;测量幻觉不能仅依赖单一评估,必须重构整个评分体系,使表达不确定性的行为获得正向激励。
OpenAI表示,其最新模型幻觉率已显著下降,并将持续优化置信错误控制。同时,公司正重组模型行为团队,由后期训练主管Max Schwarzer领导,原负责人Joanne Jang将启动新项目oai Labs,专注于人与AI协作界面原型设计。
未来,要真正降低幻觉,关键不在于模型本身,而在于重新设计评估范式,让“诚实”胜过“自信”。
声明:文章不代表比特之家观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!