数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 660|回复: 0

[科技] 阿里开源视觉推理模型QVQ-Max上线!看图解题、视频分析全搞定

[复制链接]
发表于 2025-3-29 14:02:35 | 显示全部楼层 |阅读模式
“一张图丢进去,AI不仅能看懂金鱼有几条,还能解考研数学题!”最近,阿里云正式推出多模态大模型QVQ-Max,号称能像人类一样“看图思考”,把图像和视频内容转化为逻辑推理,甚至手把手教你做菜、解物理题。这波操作直接把AI的“视力”和“脑力”拉满,引发开发者圈热议。

一、模型能干啥?看图说话+多模态推理
QVQ-Max基于阿里此前开源的Qwen2-VL-72B模型升级而来,主打“视觉理解+分步推理”。用户只需上传一张图片或视频,配上文字指令,模型就能像学霸一样拆解问题、逐步分析。
例如:

数鱼实验:上传水族馆照片(3条橙色鱼+1条白色鱼),模型会先识别颜色差异,再反复核对数量,最终确认总数。

解题实战:面对2025年考研数学题,它能用泰勒展开、洛必达法则一步步推导出极限值,甚至比ChatGPT o1的解题步骤更详细。

除了学术场景,官方还展示了做饭指导(根据菜谱图生成步骤)、设计辅助(解析插图元素)等应用潜力。

二、性能如何?对标国际顶流模型
根据阿里公布的测试数据,QVQ-Max在四大权威评测中表现亮眼:

MMMU(大学级多模态理解测试):得分70.3,接近Anthropic的Claude 3.5 Sonnet。

MathVista(数学视觉推理):超越ChatGPT o1,尤其在图表分析和代数推理上优势明显。

OlympiadBench(奥赛科学题):处理超8000道双语竞赛题,准确率显著提升。

不过,模型目前仍处于实验阶段,存在语言混合(中英文随机切换)、递归逻辑漏洞(反复绕圈不结论)等问题,需用户自行把控安全性。

三、技术升级:开源+多模态交互
此次发布的QVQ-Max延续阿里Qwen系列开源策略,代码和权重已在GitHub、Hugging Face等平台开放。开发者可基于72B参数版本定制功能,例如:

图像OCR微调:训练手写公式识别。

视频分析扩展:处理动态画面并生成解说。

阿里还计划未来升级三大方向:

提升识别精度:通过“ grounding技术”验证观察结果,减少“幻觉”错误。

复杂任务处理:让模型操控手机、电脑,甚至玩策略游戏。

交互方式拓展:从纯文本扩展到工具调用、视觉内容生成。

四、如何体验?三步上手
想尝鲜的用户可通过以下路径试用:

访问阿里云官方平台chat.qwen.ai。

点击左上角模型列表,选择“QVQ-Max”。

在对话框中上传图片或视频,输入指令即可。

目前模型完全免费,但需注意:因算力限制,单次请求最长支持8192个token(约6000汉字),且暂不支持连续追问,每次需重新提交问题。

从“看图说话”到“奥赛解题”,QVQ-Max的推出标志着多模态AI向高阶推理迈进一步。尽管当前版本仍有局限,但其开源属性和明确的技术路线,已吸引大批开发者加入测试。或许用不了多久,这类模型就能成为学生党的“作业神器”,或是设计师的“智能助手”。

(注:文中测试数据及功能描述均引用自阿里官方技术文档及开源社区报告)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-9-22 04:21 , Processed in 0.156001 second(s), 11 queries , Gzip On, Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表