数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 26|回复: 0

[业界] 腾讯混元AI Infra核心技术开源,推理吞吐提升30%

[复制链接]
发表于 前天 10:35 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x

IT之家 2 月 4 日消息,腾讯混元 AI Infra 团队今日宣布推出开源生产级高性能 LLM 推理核心算子库 HPC-Ops
该算子库宣称基于生产环境痛点,采用 CUDA 和 CuTe 从零构建,通过抽象化工程架构、微架构深度适配及指令级极致优化等,降低底层算子开发门槛,将核心算子性能逼近硬件峰值,实现了性能突破。
HPC-Ops 算子库架构图
在真实场景下,基于 HPC-Ops,混元模型推理 QPM 提升 30%,DeepSeek 模型 QPM 提升 17%。同时,在单算子性能方面,HPC-Ops 实现 Attention 相比 FlashInfer / FlashAttention 最高提升 2.22 倍;GroupGEMM 相比 DeepGEMM 最高提升 1.88 倍;FusedMoE 相比 TensorRT-LLM 最高提升 1.49 倍。
在未来的发展规划中,HPC-Ops 将持续深耕大模型推理性能的突破方向:
一方面,将重点研发稀疏 Attention 算子,针对性解决长上下文大模型的内存与算力瓶颈;
另一方面,会拓展更丰富的量化策略,覆盖 4bit/8bit 混合精度等更多量化方案,进一步平衡推理速度与模型精度;
此外,算子库还将布局计算-通信协同优化的内核,通过融合多 GPU 间的计算逻辑与通信流程,大幅降低分布式推理场景下的通信开销,为超大规模大模型的高效部署提供底层支撑。
IT之家附 HPC-Ops 开源地址如下:
https://github.com/Tencent/hpc-ops





您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2026-2-7 07:26 , Processed in 0.171600 second(s), 10 queries , Gzip On, Redis On.

Powered by Discuz!

© 2006-2026 MyDigit.Net

快速回复 返回顶部 返回列表