数码之家

 找回密码
 立即注册
搜索
查看: 154|回复: 0

[科技] DeepSeek代码库开源进度1/5:为Hopper GPU优化的高效MLA解码内核

[复制链接]
发表于 2025-2-25 01:00:34 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册

x
DeepSeek 今日启动“开源周”,首个开源的代码库为 FlashMLA—— 针对 Hopper GPU 优化的高效 MLA 解码内核,专为处理可变长度序列而设计。据介绍,FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。
IT之家附开源地址:https://github.com/deepseek-ai/FlashMLA
官方对其的介绍大意如下:
需求:
  • Hopper GPU
  • CUDA 12.3 及以上版本
  • PyTorch 2.0 及以上版本

安装: python setup.py installbenchmark: python tests/test_flash_mla.py
使用 CUDA 12.6,H800 SXM5 在内存受限配置下可达 3000 GB/s 带宽,在计算受限配置下可达 580 TFLOPS 算力。
用法: from flash_mla import get_mla_metadata flash_mla_with_kvcachetile_scheduler_metadata num_splits = get_mla_metadata(cache_seqlens s_q * h_q // h_kv h_kv)for i in range(num_layers): o_i lse_i = flash_mla_with_kvcache( q_i kvcache_i block_table cache_seqlens dv, tile_scheduler_metadata num_splits causal=True, )引用: @misc{flashmla2025, title={FlashMLA: Efficient MLA decoding kernel}, author={Jiashi Li}, year={2025}, publisher = {GitHub}, howpublished = {\url{https://github.com/deepseek-ai/FlashMLA}},}

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-16 17:32 , Processed in 0.093600 second(s), 7 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表