2025-07-27 13:01:42

OpenAI发布GPT-4o语音机器人，支持自然对话与情绪表达

摘要

OpenAI正式推出基于GPT-4o模型的语音聊天机器人，支持多语调识别、实时响应与情绪化语音输出，目前仅限部分ChatGPT Plus用户使用，预计秋季全面开放。该功能引发关于声音版权与内容安全的讨论。

OpenAI近日正式发布新一代人工智能语音聊天机器人，标志着其在智能语音交互领域迈出关键一步。该系统由最新GPT-4o模型驱动，融合语音、文本与视觉处理能力，具备更自然的对话体验和情绪化表达。

GPT-4o语音功能核心亮点

新语音模式支持语调识别、即时中断响应及实时问答，能根据上下文调整语气与情感色彩。其生成的声音经过深度训练，可传达喜悦、关切等多种情绪，显著提升人机交互的真实感。

该功能最初面向“一小部分”ChatGPT Plus订阅用户开放，每月费用为20美元（约144元人民币）。OpenAI表示将在今年秋季向所有Plus用户全面推送，并通过应用程序通知及使用指南引导用户上手。

为防范滥用风险，OpenAI已部署多项安全措施：引入四种预设配音角色以避免声音深度伪造；采用内容过滤器阻止生成受版权保护的音频；并禁止模型模仿真实人物声线。

此前因使用名为“Sky”的语音引发争议，该声音被指与女演员斯嘉丽·约翰逊高度相似。尽管OpenAI否认关联，但已暂停使用该声音。约翰逊表示曾被联系授权未果，对声音被用于演示感到震惊。

在正式发布前，OpenAI联合来自29个国家的100多名外部红队成员进行跨语言压力测试，涵盖45种语言场景，重点评估模型在复杂语境下的稳定性与安全性。

公司同时加强底层基础设施建设，确保未来数百万用户可获得低延迟、高流畅度的实时语音服务。

OpenAI计划逐步扩展语音助手功能，包括视频理解与屏幕共享能力。在早期演示中，用户可通过摄像头上传数学题或共享编程界面，由模型协助解答。这些高级功能虽尚未上线，但预计将在后续版本中实现。

随着语音交互成为下一代人机接口的核心，GPT-4o的推出进一步推动了人工智能从文本为主向多模态融合演进。这一进展不仅强化了OpenAI在大模型领域的领先地位，也加速了全球科技巨头在智能助手赛道的竞争格局演变。

声明：文章不代表比特之家观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！转载请注明出处！侵权必究！