比特之家报道:OpenAI近日正式推出基于GPT-4o模型的先进人工智能语音聊天机器人,目前已向部分ChatGPT Plus订阅用户开放测试。这一新功能标志着AI语音助手向更自然交互迈进一步。
该语音机器人由OpenAI最新发布的GPT-4o模型提供支持,整合了语音、文本与视觉处理能力。相较于传统语音助手如Siri和Alexa,新版本具备更强的理解力与响应速度,能够识别不同语调变化,实现中断对话与即时回应,并通过深度训练优化语音表达,使声音更具情感层次与真实感。
为确保系统稳定与内容安全,OpenAI最初仅对“一小部分”付费用户开放该功能。预计在今年秋季完成对所有ChatGPT Plus用户的全面推送。该服务订阅费用为每月20美元(约合144元人民币),用户可通过App通知获取使用指引。
在发布前,OpenAI邀请来自29个国家的逾百名外部红队测试人员参与评估,涵盖45种语言,重点检测潜在漏洞。为防止音频深度伪造,公司已与专业配音演员合作,设计四种预设声音供选择,明确禁止模型模仿或生成特定人物声线。
此前因使用名为“Sky”的声音引发争议,有用户指出其与女演员斯嘉丽·约翰逊的声音高度相似。对此,约翰逊表示曾被联系但拒绝授权,OpenAI随后宣布暂停该声音的使用。
面对多起版权诉讼,OpenAI已在GPT-4o中引入内容过滤器,用于识别并阻止生成受版权保护的音乐或其他音频内容。同时,公司将文本模型中的安全机制延伸至语音模块,以防范违法或有害信息输出。
OpenAI计划在未来为语音机器人加入视频理解与屏幕共享功能。在5月的演示中,员工已展示通过手机摄像头拍摄数学题并由AI解析,以及通过共享屏幕协助编程调试的能力。尽管这些功能尚未上线,但表明其向全场景智能协作迈进的决心。