SemiAnalysis 指出,在将 NVIDIA 的 GPU 与 AMD 的 MI300X 进行比较时,尽管 MI300X 在纸面上拥有诸多优势,但在实际应用中这些潜力并未完全发挥。这是因为 AMD 公开发布的软件堆栈不完善,且缺乏足够的测试支持。报告进一步分析称,AMD 的软件体验充斥着各种错误,使得用户难以直接上手进行训练任务。尽管我们期望 AMD 能成为 NVIDIA 在训练工作负载方面的有力竞争者,但遗憾的是,截至目前,这一期望尚未实现。 NVIDIA 在软件方面拥有显著优势。SemiAnalysis 报告强调,AMD 试图弥补与 CUDA 护城河之间的差距,而 NVIDIA 的工程师们则不断通过新功能、库及性能更新来巩固这一优势。Tinybox 和 Tinybox Pro 的开发商 Tinygrad 在其 X 资料中多次确认了这一点,该资料此前也提到过 AMD 软件存在的严重问题。这表明,即便硬件层面有所进展,AMD 在软件生态上的不足仍制约了其整体竞争力。 对比2023年的AMD Instinct MI300X与NVIDIA的H100/H200芯片,MI300X在性能方面明显占据优势。其FP16计算速度高达1,307 TFLOP/s,远超NVIDIA H100的989 TFLOP/s。MI300X配备了192GB的HBM3内存,并拥有5.3TB/s的内存带宽,这些参数不仅超越了NVIDIA H100,也优于H200的141GB HBM3e内存和4.8TB/s的内存带宽。此外,AMD芯片还提供了更低的总体拥有成本(TCO)模型,仅网络成本就降低了40%。尽管从技术规格上看,AMD的Instinct MI300X似乎全面领先NVIDIA的Hopper系列,但在实际应用中,NVIDIA凭借其强大的生态系统和软件支持依然具备竞争力。 AMD 的内部团队目前在开发和优化 ROCm 软件堆栈方面遇到了不小的挑战,主要原因是他们难以直接利用 GPU 集群进行相关工作。作为解决方案之一,Tensorwave 成为了关键合作伙伴,它是全球领先的 AMD GPU 云服务提供商,不仅拥有大量的 GPU 设备,还慷慨地为 AMD 工程师提供了按需硬件支持,使他们能够更高效地修复和改进软件问题。值得注意的是,Tensorwave 不仅向 AMD 提供免费的 GPU 硬件资源,同时它也支付相应的 GPU 使用费用,这表明了双方合作的互惠互利性质。尽管如此,SemiAnalysis 还提到,虽然 AMD 的软件堆栈已经根据他们的建议得到了显著改进,但要达到与 NVIDIA 的 CUDA 相媲美的稳定性和性能水平,AMD 仍有相当长的一段路要走。 ![]() |