数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 139|回复: 0

[科技] 腾讯新AI模型Hunyuan-A13B会“偷懒”!智能切换快慢思考模式​

[复制链接]
发表于 3 天前 | 显示全部楼层 |阅读模式
大伙儿最近有没有刷到腾讯开源新模型的消息?这事儿挺有意思。他们新放出来的这个语言模型,名字叫 ​​Hunyuan-A13B​​,主打的就是一个“灵活脑瓜子”——它会根据你问的问题难不难,自动调节自己“动脑筋”的深浅程度!用专业术语讲,这叫“动态推理”。

简单说呢,就跟咱人一样。碰到容易事儿(比如问个时间日期),这个模型就启用“快速模式”,反应贼快,用最省劲儿的方式直接把答案给你。但要是遇上烧脑的难题(比如复杂数学题或者逻辑推理),它可就认真起来了,立马切换到“深度思考模式”,像剥洋葱似的一层一层慢慢想。更妙的是,你还能命令它!敲个“/think”,它就乖乖深度思考;输个“/no_think”,它就切换回快速响应。这自由切换的“脑力调节”功能,算是它最大的亮点了。

这模型本事还不小呢。它用的是一种叫 ​​MoE(混合专家模型)​​ 的架构,肚子里装着 ​​800亿​​ 个参数!不过别担心它“吃电”,实际干活的时候,它每次只会动用其中的 ​​130亿​​ 个参数,挺聪明。而且它“记性”特别好,能同时处理长达 ​​256,000个token(文本单位)​​ 的上下文信息。

​​特别会做“科学题”?​
腾讯在自家的技术报告里说了,这 Hunyuan-A13B 可是花了“血本”训出来的。第一步,就用掉了整整 ​​2万亿个token​​ 的通用数据打底子。接着又针对性地加强“解题能力”,让它更会思考和推理。而且厉害的是,为了让它特擅长科技、工程和数学(STEM)这类活儿,腾讯特意收集了 ​​2500亿个token​​ 的专项学习资料!这里面啥都有:从初高中的数学课本、考试真题,到大学级别的科学文献,再到 GitHub 的开源代码和逻辑谜题集,塞得满满当当。

腾讯挺自信,说自家这 Hunyuan-A13B(尤其是指令微调版本)的表现,跟业界巨头 OpenAI 家的 o1 模型、 Deepseek 的模型,还有阿里巴巴的 Qwen 系列比起来,一点不怵。他们举了个例子:在 ​​2024年的美国数学竞赛(AIME)​​ 测试里,Hunyuan-A13B 的准确率达到了 ​​87.3%​​,比当时 OpenAI o1 的 ​​74.3%​​ 高出一截。

(小提示:看到这成绩别急着下结论!)

有趣的是,如果你翻翻 ​​2025年版本的 AIME 竞赛成绩​​,形势就有点不一样了。同一个 OpenAI o1 模型,在最新的这次比拼中,反过来领先了腾讯模型差不多 ​​3个百分点​​。另外还有个情况值得注意:腾讯拿来比较的 Deepseek-R1 版本,是 ​​2025年1月份​​ 的旧版本。而人家 Deepseek 在 ​​今年5月份(2025年)​​ 已经放出了新版本,这新版本在 2024年和2025年两届 AIME 竞赛里表现突飞猛进,分别拿到了 ​​91.4%​​ 和 ​​87.5%​​ 的好成绩。这么一比,竞争还是很激烈的!

腾讯还特别提到,他们这个模型在搞“自动化小助理”(Agent)这类任务,还有使用工具方面,本领格外突出。在腾讯自家的内部测试排行榜上,Hunyuan-A13B 几乎在所有的 Agent 任务测试项里都排到了第一名。就算测试时把上下文长度一路拉到 ​​128,000个token​​ 这种超长篇幅,它的表现还是稳稳压过 Deepseek-R1 和阿里巴巴 Qwen3-A22B 一头。当然,在同样严苛的测试下,它跟谷歌的 Gemini 2.5 Pro 比起来,还是稍逊一筹。

​​开源好用,拿来就能试​
现在最方便的是,大伙儿都能亲自上手试试了!腾讯已经把 Hunyuan-A13B 在 ​​Hugging Face​​ 和 ​​GitHub​​ 两大平台上线开源了,用的是 ​​Apache 2.0​​ 这个挺宽松的许可协议。嫌麻烦?他们还提供了现成的 ​​Docker 镜像​​,适配多种部署环境,搬回去就能跑。想更方便点?腾讯自家的 ​​腾讯云​​ 提供了 API 接口,或者你直接打开浏览器就能访问他们官方的 ​​在线演示版​​。

​​附赠“考试卷”​​
怕没标准评估?腾讯顺便也扔出来俩新的测试集:一个叫 ​​ArtifactsBench​​,专门考代码生成的本事;另一个叫 ​​C3-Bench​​,是用来考核 Agent 任务能力的。算是有始有终。

​​大家都在玩“快慢切换”?​​
细琢磨腾讯这套“动态思考”的路子,其实不算特别独一份。其他搞 AI 的大厂,比如 Anthropic(他们家 Claude 3.7 Sonnet)、阿里巴巴(Qwen3),最近出的模型也整了类似“自适应推理”的功夫。看来在提高模型“智商”的同时省点“力气”,这思路成了个新趋势。

​​从视频到文本的AI路​​
话说腾讯在语言模型上这么使劲,也不是突然袭击。去年年底(​​2024年12月​​)他们就已经亮过一招了,搞了个叫 ​​HunyuanVideo​​ 的视频生成模型。接着到今年三月份(​​2025年3月​​),又推出了重心在推理能力上的大语言模型 ​​Hunyuan-T1​​。腾讯那时候就说,这 Hunyuan-T1 的水平,跟 OpenAI 当时的主力模型 o1 比,已经能打个平手了。现在这 Hunyuan-A13B 算是更进一步的成果。

总的来说,腾讯这个新开源模型,玩的核心就是“智能偷懒”——该快时快,该慢时慢,还支持手动控制,方向很明确。最终这本事到底有多大,大家上手试试,或者盯着后续更多独立测试,心里大概就有谱了。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-7-8 07:19 , Processed in 0.109200 second(s), 6 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表