数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 530|回复: 1

[业界] 百川智能上线开源全模态模型Omni-1.5,称多项能力超GPT-4o mini

[复制链接]
发表于 2025-1-27 18:00:18 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
百川智能宣布,Baichuan-Omni-1.5 开源全模态模型正式上线。该模型不仅支持文本、图像、音频和视频的全模态理解,还具备文本和音频的双模态生成能力。
官方宣称,其在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5 的表现均优于 GPT-4o mini;在多模态医疗应用领域,其具备更突出的领先优势。
Baichuan-Omni-1.5 不仅能在输入和输出端实现多种交互操作,还拥有强大的多模态推理能力和跨模态迁移能力。
其在音频技术领域采用了端到端解决方案,可支持多语言对话、端到端音频合成,还可实现自动语音识别、文本转语音等功能,且支持音视频实时交互。
据介绍,在视频理解能力方面,Baichuan-Omni-1.5 通过对编码器、训练数据和训练方法等多个关键环节进行深入优化,其整体性能大幅超越 GPT-4o-mini。
模型结构方面,Baichuan-Omni-1.5 的模型输入部分支持各种模态通过相应的 Encoder / Tokenizer 输入到大型语言模型中。
而在模型输出部分,Baichuan-Omni-1.5 采用了文本-音频交错输出的设计,通过 Text Tokenizer 和 Audio Decoder 同时生成文本和音频。
百川智能构建了一个包含 3.4 亿条高质量图片 / 视频-文本数据和近 100 万小时音频数据的庞大数据库,且在 SFT 阶段使用了 1700 万条全模态数据。
IT之家附开源地址如下:
GitHub:
  • https://github.com/baichuan-inc/Baichuan-Omni-1.5

模型权重:
  • Baichuan-Omni-1.5:
  • https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5
  • https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5
  • Baichuan-Omni-1.5-Base:
  • https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base
  • https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base

技术报告:
  • https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf


发表于 2025-1-27 18:45:50 | 显示全部楼层
人工智能还是得看中国,英伟达完蛋了!!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-8-3 01:46 , Processed in 0.093600 second(s), 8 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表