|
本帖最后由 Meise 于 2025-1-30 14:47 编辑
TOP2 1月30日消息:在全球AI竞赛进入白热化阶段之际,中国人工智能公司深度求索(DeepSeek)凭借自主研发的突破性训练技术,在受限硬件条件下创造了令业界瞩目的性价比奇迹。其最新发布的DeepSeek-V3大语言模型仅耗费550万美元训练成本,却实现了媲美OpenAI顶尖产品的性能表现,这背后暗藏的革命性技术创新引发全球科技界高度关注。
据最新披露的论文显示,该团队在2048块英伟达H800加速卡集群上,通过独创的DualPipe并行算法突破硬件性能桎梏,仅用279万GPU小时就完成了14.8万亿token的模型训练。值得关注的是,这批H800 GPU实为H100的"性能阉割版",若采用AMD Instinct加速器或将展现更大潜力。这一成就不仅刷新了AI训练的经济性纪录,更开创了在受限算力环境下实现超大规模模型训练的技术先河。
技术核心在于其创新的混合专家(MoE)架构与自研DualPipe算法的完美融合。该模型拥有6710亿总参数规模,却通过智能门控机制实现每token仅激活370亿参数的动态计算,配合革命性的通信优化方案,成功将传统训练中的算力损耗降至最低。论文详细披露,研发团队通过定制化跨节点全连接通信内核,将InfiniBand网络与NVLink高速互联的硬件特性发挥到极致,创造性地在GPU内部构建虚拟化数据处理单元。
"这本质上是将DPU(数据处理单元)的功能虚拟化集成到GPU内部,"行业专家解读称,"DualPipe通过精妙的计算-通信重叠机制,动态调配流处理器资源,使数据传输不再是扩展瓶颈。"具体而言,该技术突破性地实现前向传播与反向传播的时序交错,在降低40%管道气泡的同时,将跨节点通信效率提升至理论带宽的92%,这一指标远超当前主流训练框架表现。
在工程实现层面,研发团队开创了通信-计算联合优化范式。通过深度定制MoE门控算法与集群网络拓扑的协同设计,构建起从芯片级到集群级的立体优化体系。其自研的分布式通信内核不仅支持动态负载均衡,更实现了流式多处理器(SM)在计算与通信任务间的智能切换,这使得在万卡级扩展时仍能保持线性加速比。
这场来自中国团队的算力突围战,不仅为全球AI产业提供了超大规模模型训练的经济性范本,更揭示了在复杂国际技术生态下实现自主创新的可行路径。随着AMD Instinct等新型加速器的入局,这场关乎算力效能的革命或将开启新的篇章。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|