高通“呼朋唤友”推进端侧AI新时代：腾讯混元部署 7B/3B 模型等

数码芝华士 · 发表于 2024-10-22 20:06:33

您需要登录才可以下载或查看，没有账号？立即注册

x

高通公司在今天举办的骁龙峰会上，推出了骁龙 8 至尊版移动平台，这是迄今为止高通最强大且全球速度最快的移动端系统级芯片。峰会首日，高通公司宣布和智谱、腾讯混元合作，共同推动端侧 AI 模型部署和落地。

骁龙 8 至尊版芯片 AI 性能

Hexagon NPU 融合了包含标量（scalar）、向量（vector）和张量（tensor）等 AI 加速器架构，支持 INT4、INT8、INT16 和 FP16 精度，能够利用大型语言模型（LLMs）和大型动作模型（LAMs），以支持全球最大的生成 AI 生态系统。

更多 AI 方面的细节，可以参考IT之家此前文章《骁龙 8 至尊版芯片开启端侧 AI 新时代：Hexagon NPU 性能最高提升 12 倍，全面增强拍照、连接等》。

腾讯混元

骁龙 8 至尊版通过支持基于硬件的 INT4 量化技术，实现腾讯混元大模型 7B 和 3B 版本的终端侧部署，可以大幅提升腾讯混元大模型在终端侧的运行效率，端侧推理实现首个 token 生成时延达到 150ms，解码速率达到超过 30 tokens / 秒。

腾讯混元大模型已为腾讯内部超过 700 个业务场景和 C 端应用提供底层技术支持，在骁龙 8 至尊版芯片上部署后，能更好地满足广泛的终端侧业务需求。

例如腾讯手机管家短信智能识别功能通过海量数据结合深度神经网络与预训练，能够更准确地理解短信意图，让短信召回率大幅提高将近 200%，识别准确率提升 20%。

智谱

高通与智谱合作，为骁龙 8 至尊版适配优化 GLM-4V 端侧视觉大模型，支持丰富的多模态交互方式。

GLM-4V 端侧视觉大模型能够实现令人惊叹的处理能力，以超过 70 tokens / 秒的速度在终端侧高速运行。

此外通过与骁龙 8 至尊版进行深度适配和推理优化，终端侧多模态应用 ChatGLM 能够支持三种终端侧交互方式：使用相机进行实时语音对话、上传照片进行对话、上传视频进行对话。

丰富的多模态输入输出方式赋能智能助手 ChatGLM 实现了跨家庭、出行、工作和教育等多个场景的应用，例如：

网易

网易公司和高通合作，基于高通骁龙 8 至尊版芯片，采用一系列 Snapdragon Elite Gaming 特性，并在终端侧带来全新升级的 AI 队友功能，打造创新的《永劫无间》手游体验。

高通技术公司和网易还针对线程调度进行联合调优，并应用骁龙遮挡剔除（Snapdragon Occlusion Culling）等 Snapdragon Elite Gaming 特性，从而打造更加稳定的游戏体验。

在《永劫无间》手游极致画质下，与前代平台相比，骁龙 8 至尊版的平均帧数提升 22 帧，帧率稳定性提升 43%，助力实现更加流畅、稳定的复杂多人竞技场景。

基于骁龙 8 至尊版强大的高通 Hexagon™ NPU，《永劫无间》手游首次将具有 18 亿参数的大语言模型引入终端侧，利用包括软件和工具在内的高通 AI Stack 的全栈优化，打造全新升级的端到端 AI 队友功能。

该功能可以让 AI 队友不仅听懂玩家的语音对战指令并执行，还能够通过语音指导新手游玩；不仅如此，玩家还能够与 AI 队友进行自然的语音交流，获得优质队友的情绪价值。

账号		自动登录	找回密码
密码			立即注册

[业界] 高通“呼朋唤友”推进端侧AI新时代：腾讯混元部署 7B/3B 模型等