数据中心AI加速之战：NVIDIA占据主导地位；AMD硬件强，软件优化仍需努力 ...

2025-2-5 14:16| 发布者: 香瑶| 查看: 776| 评论: 0|原作者: 土耳鸡烤鸡

众所周知，数据中心的AI加速之战竞争异常激烈，NVIDIA凭借其全面的软件堆栈占据了市场主导地位。然而，近年来AMD试图通过其专为AI和高性能计算设计的Instinct MI300X APU系列来分得一杯羹，吸引了不少超大规模企业和OEM厂商的关注。尽管AMD在硬件方面表现出色，但其软件生态系统的完善程度仍与NVIDIA存在较大差距。据SemiAnalysis公司的最新研究报告显示，他们在过去五个月中对Instinct MI300X进行了详细的训练和基准测试。结果显示，尽管AMD拥有先进的硬件设施，但在其软件堆栈（如ROCm平台）的优化上仍有待提升，这使得整体性能表现不尽如人意。这一发现揭示了在激烈的市场竞争中，软件生态的重要性不亚于硬件性能本身。

SemiAnalysis 指出，在将 NVIDIA 的 GPU 与 AMD 的 MI300X 进行比较时，尽管 MI300X 在纸面上拥有诸多优势，但在实际应用中这些潜力并未完全发挥。这是因为 AMD 公开发布的软件堆栈不完善，且缺乏足够的测试支持。报告进一步分析称，AMD 的软件体验充斥着各种错误，使得用户难以直接上手进行训练任务。尽管我们期望 AMD 能成为 NVIDIA 在训练工作负载方面的有力竞争者，但遗憾的是，截至目前，这一期望尚未实现。

NVIDIA 在软件方面拥有显著优势。SemiAnalysis 报告强调，AMD 试图弥补与 CUDA 护城河之间的差距，而 NVIDIA 的工程师们则不断通过新功能、库及性能更新来巩固这一优势。Tinybox 和 Tinybox Pro 的开发商 Tinygrad 在其 X 资料中多次确认了这一点，该资料此前也提到过 AMD 软件存在的严重问题。这表明，即便硬件层面有所进展，AMD 在软件生态上的不足仍制约了其整体竞争力。

对比2023年的AMD Instinct MI300X与NVIDIA的H100/H200芯片，MI300X在性能方面明显占据优势。其FP16计算速度高达1,307 TFLOP/s，远超NVIDIA H100的989 TFLOP/s。MI300X配备了192GB的HBM3内存，并拥有5.3TB/s的内存带宽，这些参数不仅超越了NVIDIA H100，也优于H200的141GB HBM3e内存和4.8TB/s的内存带宽。此外，AMD芯片还提供了更低的总体拥有成本（TCO）模型，仅网络成本就降低了40%。尽管从技术规格上看，AMD的Instinct MI300X似乎全面领先NVIDIA的Hopper系列，但在实际应用中，NVIDIA凭借其强大的生态系统和软件支持依然具备竞争力。

AMD 的内部团队目前在开发和优化 ROCm 软件堆栈方面遇到了不小的挑战，主要原因是他们难以直接利用 GPU 集群进行相关工作。作为解决方案之一，Tensorwave 成为了关键合作伙伴，它是全球领先的 AMD GPU 云服务提供商，不仅拥有大量的 GPU 设备，还慷慨地为 AMD 工程师提供了按需硬件支持，使他们能够更高效地修复和改进软件问题。值得注意的是，Tensorwave 不仅向 AMD 提供免费的 GPU 硬件资源，同时它也支付相应的 GPU 使用费用，这表明了双方合作的互惠互利性质。尽管如此，SemiAnalysis 还提到，虽然 AMD 的软件堆栈已经根据他们的建议得到了显著改进，但要达到与 NVIDIA 的 CUDA 相媲美的稳定性和性能水平，AMD 仍有相当长的一段路要走。