数码之家

 找回密码
 立即注册
搜索
数码之家 首頁 数智时代 查看内容

数据中心AI加速之战:NVIDIA占据主导地位;AMD硬件强,软件优化仍需努力 ...

2025-2-5 14:16| 发布者: 香瑶| 查看: 185| 评论: 0|原作者: 土耳鸡烤鸡

众所周知,数据中心的AI加速之战竞争异常激烈,NVIDIA凭借其全面的软件堆栈占据了市场主导地位。然而,近年来AMD试图通过其专为AI和高性能计算设计的Instinct MI300X APU系列来分得一杯羹,吸引了不少超大规模企业和OEM厂商的关注。尽管AMD在硬件方面表现出色,但其软件生态系统的完善程度仍与NVIDIA存在较大差距。据SemiAnalysis公司的最新研究报告显示,他们在过去五个月中对Instinct MI300X进行了详细的训练和基准测试。结果显示,尽管AMD拥有先进的硬件设施,但在其软件堆栈(如ROCm平台)的优化上仍有待提升,这使得整体性能表现不尽如人意。这一发现揭示了在激烈的市场竞争中,软件生态的重要性不亚于硬件性能本身。

SemiAnalysis 指出,在将 NVIDIA 的 GPU 与 AMD 的 MI300X 进行比较时,尽管 MI300X 在纸面上拥有诸多优势,但在实际应用中这些潜力并未完全发挥。这是因为 AMD 公开发布的软件堆栈不完善,且缺乏足够的测试支持。报告进一步分析称,AMD 的软件体验充斥着各种错误,使得用户难以直接上手进行训练任务。尽管我们期望 AMD 能成为 NVIDIA 在训练工作负载方面的有力竞争者,但遗憾的是,截至目前,这一期望尚未实现。

NVIDIA 在软件方面拥有显著优势。SemiAnalysis 报告强调,AMD 试图弥补与 CUDA 护城河之间的差距,而 NVIDIA 的工程师们则不断通过新功能、库及性能更新来巩固这一优势。Tinybox 和 Tinybox Pro 的开发商 Tinygrad 在其 X 资料中多次确认了这一点,该资料此前也提到过 AMD 软件存在的严重问题。这表明,即便硬件层面有所进展,AMD 在软件生态上的不足仍制约了其整体竞争力。

对比2023年的AMD Instinct MI300X与NVIDIA的H100/H200芯片,MI300X在性能方面明显占据优势。其FP16计算速度高达1,307 TFLOP/s,远超NVIDIA H100的989 TFLOP/s。MI300X配备了192GB的HBM3内存,并拥有5.3TB/s的内存带宽,这些参数不仅超越了NVIDIA H100,也优于H200的141GB HBM3e内存和4.8TB/s的内存带宽。此外,AMD芯片还提供了更低的总体拥有成本(TCO)模型,仅网络成本就降低了40%。尽管从技术规格上看,AMD的Instinct MI300X似乎全面领先NVIDIA的Hopper系列,但在实际应用中,NVIDIA凭借其强大的生态系统和软件支持依然具备竞争力。

AMD 的内部团队目前在开发和优化 ROCm 软件堆栈方面遇到了不小的挑战,主要原因是他们难以直接利用 GPU 集群进行相关工作。作为解决方案之一,Tensorwave 成为了关键合作伙伴,它是全球领先的 AMD GPU 云服务提供商,不仅拥有大量的 GPU 设备,还慷慨地为 AMD 工程师提供了按需硬件支持,使他们能够更高效地修复和改进软件问题。值得注意的是,Tensorwave 不仅向 AMD 提供免费的 GPU 硬件资源,同时它也支付相应的 GPU 使用费用,这表明了双方合作的互惠互利性质。尽管如此,SemiAnalysis 还提到,虽然 AMD 的软件堆栈已经根据他们的建议得到了显著改进,但要达到与 NVIDIA 的 CUDA 相媲美的稳定性和性能水平,AMD 仍有相当长的一段路要走。


Ps8C8zXdm2RggTRH.jpg

路过

雷人

握手

鲜花

鸡蛋

相关阅读

最新评论

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-4-28 03:56 , Processed in 0.093600 second(s), 19 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

返回顶部