今天凌晨1点,OpenAI进行了技术直播发布了三款全新语音模型,专用于开发语音AI Agent。 两个是语音转文本模型GPT-40 Transcribe和GPT-4 Mini Transcribe;一个是文本转语音模型GPT-40 Mini TTS。OpenAI还特意开发了一个新网站来展示新功能。 值得一提的是,开发者可以控制GPT-40 Mini TTS模型的语音情绪和风格,包括兴奋、平静、鼓励、严肃、热闹等,这对于搭建不同业务场景的智能体非常有用。 例如,在教育场景中,Agent可以用鼓励的语气激励学生;在客服场景中,Agent可以用温和、耐心的语气解答用户问题。 API地址:https://platform.openai.com/docs/guides/audio 展示地址:https://www.openai.fm/ 三款语音模型简单介绍 GPT-40 Transcribe是高性能版本,基于最新的语音模型架构,经过海量音频数据的训练,能够处理复杂的语音信号并将其准确地转换为文本。其训练数据量达到了前所未有的规模,涵盖了多种语言和方言,使得它在不同语言环境下的转录任务中表现出色。......