OpenAI推出gpt-realtime语音模型: 支持情感感知、多语言无缝切换
据IT之家了解,这款API主要面向企业与开发者群体,旨在助力他们开发适用于实际场景的语音助手,覆盖客户支持、教育、个人效率提升等领域。其核心组件“gpt-realtime”模型采用端到端Speech-to-Speech架构,可直接生成并处理语音,省去了常规的文本转换步骤。据OpenAI介绍,相比前代版本,该模型响应速度更快、语音更自然,对复杂指令的处理能力也更强。
OpenAI表示,目前gpt-realtime模型能够捕捉笑声等非语言信号,支持对话过程中中途切换语言,还可调整语音语气——例如实现“带法国口音的友好语调”或“语速较快的专业语调”。此外,该模型新增了“Cedar”和“Marin”两种语音,并对现有的8种语音效果进行了优化。
在性能基准测试中,gpt-realtime模型表现显著提升:在BigBenchAudio基准测试中准确率从65.6%升至82.8%,在MultiChallenge基准测试中从20.6%升至30.5%,在ComplexFuncBench基准测试中则从49.7%提升至66.5%。
此次API升级优化了工具集成流程。OpenAI称,该模型能更精准地选择适用工具、在恰当时机触发工具,并正确配置工具参数,大幅提升了函数调用的可靠性。开发者可通过会话初始协议(SIP)与远程媒体控制协议(MCP)服务器,连接外部工具与服务。同时,可复用的提示词功能支持保存不同使用场景下的配置与工具设置,进一步提升开发效率。
该API现已支持图像输入功能。用户在对话过程中可发送截图或照片,模型能参考图像内容进行交互——例如读取图像中的文字,或回答与图像内容相关的问题。开发者可自主控制模型能够获取的图像范围。
此外,API新增了两项实用功能:开发者可设置token使用上限,并对多轮对话内容进行精简处理。这两项功能有助于在较长会话中更好地控制成本。价格方面,gpt-realtime模型的使用成本降低20%,当前定价为:音频输入token每百万个32美元(IT之家注:现汇率约合229元人民币),音频输出token每百万个64美元(现汇率约合457.9元人民币),缓存输入token每百万个0.40美元(现汇率约合2.9元人民币)。
OpenAI表示,该API具备检测问题内容的能力,若对话违反平台政策,可自动终止会话。不过,从语言模型的安全发展历程来看,这不应是唯一的安全保障手段,开发者仍需自行添加专属安全要求。
针对欧盟用户,该API提供了数据本地化存储选项,并为企业用户制定了特殊隐私规则,以符合欧盟地区的数据保护法规。