OpenAI近日正式发布新一代人工智能语音聊天机器人,标志着其在智能语音交互领域迈出关键一步。该系统由最新GPT-4o模型驱动,融合语音、文本与视觉处理能力,具备更自然的对话体验和情绪化表达。
新语音模式支持语调识别、即时中断响应及实时问答,能根据上下文调整语气与情感色彩。其生成的声音经过深度训练,可传达喜悦、关切等多种情绪,显著提升人机交互的真实感。
该功能最初面向“一小部分”ChatGPT Plus订阅用户开放,每月费用为20美元(约144元人民币)。OpenAI表示将在今年秋季向所有Plus用户全面推送,并通过应用程序通知及使用指南引导用户上手。
为防范滥用风险,OpenAI已部署多项安全措施:引入四种预设配音角色以避免声音深度伪造;采用内容过滤器阻止生成受版权保护的音频;并禁止模型模仿真实人物声线。
此前因使用名为“Sky”的语音引发争议,该声音被指与女演员斯嘉丽·约翰逊高度相似。尽管OpenAI否认关联,但已暂停使用该声音。约翰逊表示曾被联系授权未果,对声音被用于演示感到震惊。
在正式发布前,OpenAI联合来自29个国家的100多名外部红队成员进行跨语言压力测试,涵盖45种语言场景,重点评估模型在复杂语境下的稳定性与安全性。
公司同时加强底层基础设施建设,确保未来数百万用户可获得低延迟、高流畅度的实时语音服务。
OpenAI计划逐步扩展语音助手功能,包括视频理解与屏幕共享能力。在早期演示中,用户可通过摄像头上传数学题或共享编程界面,由模型协助解答。这些高级功能虽尚未上线,但预计将在后续版本中实现。
随着语音交互成为下一代人机接口的核心,GPT-4o的推出进一步推动了人工智能从文本为主向多模态融合演进。这一进展不仅强化了OpenAI在大模型领域的领先地位,也加速了全球科技巨头在智能助手赛道的竞争格局演变。