2025-09-25 13:09:47

OpenAI推出GPT-4o语音机器人，支持自然对话与情绪表达

摘要

OpenAI正式上线基于GPT-4o模型的语音聊天机器人，面向部分ChatGPT Plus用户开放。该功能支持自然语调识别、实时响应与情绪化语音表达，预计秋季全面覆盖。公司强化安全机制并暂停争议声音，未来将拓展视频与屏幕共享能力。

比特之家报道：OpenAI近日正式推出基于GPT-4o模型的先进人工智能语音聊天机器人，目前已向部分ChatGPT Plus订阅用户开放测试。这一新功能标志着AI语音助手向更自然交互迈进一步。

GPT-4o驱动：多模态融合提升对话体验

该语音机器人由OpenAI最新发布的GPT-4o模型提供支持，整合了语音、文本与视觉处理能力。相较于传统语音助手如Siri和Alexa，新版本具备更强的理解力与响应速度，能够识别不同语调变化，实现中断对话与即时回应，并通过深度训练优化语音表达，使声音更具情感层次与真实感。

为确保系统稳定与内容安全，OpenAI最初仅对“一小部分”付费用户开放该功能。预计在今年秋季完成对所有ChatGPT Plus用户的全面推送。该服务订阅费用为每月20美元（约合144元人民币），用户可通过App通知获取使用指引。

在发布前，OpenAI邀请来自29个国家的逾百名外部红队测试人员参与评估，涵盖45种语言，重点检测潜在漏洞。为防止音频深度伪造，公司已与专业配音演员合作，设计四种预设声音供选择，明确禁止模型模仿或生成特定人物声线。

此前因使用名为“Sky”的声音引发争议，有用户指出其与女演员斯嘉丽·约翰逊的声音高度相似。对此，约翰逊表示曾被联系但拒绝授权，OpenAI随后宣布暂停该声音的使用。

面对多起版权诉讼，OpenAI已在GPT-4o中引入内容过滤器，用于识别并阻止生成受版权保护的音乐或其他音频内容。同时，公司将文本模型中的安全机制延伸至语音模块，以防范违法或有害信息输出。

OpenAI计划在未来为语音机器人加入视频理解与屏幕共享功能。在5月的演示中，员工已展示通过手机摄像头拍摄数学题并由AI解析，以及通过共享屏幕协助编程调试的能力。尽管这些功能尚未上线，但表明其向全场景智能协作迈进的决心。

声明：文章不代表比特之家观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！转载请注明出处！侵权必究！