[业界] 京东即将开源视觉语言实时交互模型

[复制链接]

刘绪刚

发表于 1 小时前 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致，我们都是技术控

您需要登录才可以下载或查看，没有账号？立即注册

财联社

《科创板日报》17日讯，《科创板日报》记者独家获悉，京东团队即将开源视觉语言实时交互模型JoyAI-VL-Interaction。记者从一份在开源社区和海外AI技术圈受到关注的技术报告获悉，JoyAI-VL-Interaction把多模态大模型从"一问一答"，推进到"实时流式交互"，适合需要AI持续在场的场景。报告将JoyAI-VL-Interaction与豆包、Gemini 的App内视频通话助手进行了人工评测，覆盖监控预警、实时计数、实时翻译、时间感知、直播解说和引导、长程记忆六类场景。在58个案例中，JoyAI-VL-Interaction对豆包的总体胜率为77.6%，对Gemini的总体胜率为87.9%。其中，在监控预警场景中，对两个基线均取得100%胜率。

大模型, 豆包, 京东, 监控