[业界] 阿里通义千问开源Qwen2-Audio 7B语音交互大模型：自由互动，无需输入文本

[复制链接]

刘绪刚

发表于 2024-8-13 15:02:15 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致，我们都是技术控

您需要登录才可以下载或查看，没有账号？立即注册

IT之家 8 月 13 日消息，阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。
作为一个大规模音频语言模型，Qwen2-Audio 能够接受各种音频信号输入，并根据语音指令执行音频分析或直接响应文本，有两种不同的音频交互模式：
语音聊天：用户可以自由地与 Qwen2-Audio 进行语音互动，而无需文本输入
音频分析：用户可以在互动过程中提供音频和文本指令对音频进行分析
官方在一系列基准数据集上进行了测试，Qwen2-Audio 超越了先前的最佳模型。