通义大模型发布新一代端到端语音交互模型
北京商报,2025-12-23 21:05:05
北京商报讯(记者 陶凤 王天逸)12月23日,通义大模型官方发布了新一代端到端语音交互模型 Fun-Audio-Chat。
据称,该模型不是简单的"能聊天",而是听得懂你的话、感知你的情绪、还能帮你真正干活的AI语音搭子。
技术表现方面,新模型端到端 S2S 架构可以从语音输入直接生成语音输出,无需 ASR + LLM + TTS 多模块拼接,效率更高、延迟更低;Shared LLM 层以 5Hz 帧率 高效处理,SRH 以 25Hz 帧率 生成高质量语音,GPU 计算开销降低近 50%;训练内容覆盖音频理解、语音问答、情感识别、工具调用等真实场景,让模型更"接地气"。