英特尔把192G显存塞进一台主机 8张显卡叠叠乐，本地跑AI模型终于不用卖肾

麻薯滑芝士 · 发表于 22 分钟前

哎呦我去！兄弟们姐妹们，今天这瓜可太硬核了！就在昨天（12月3号），外媒Storage Review那帮狠人搞了个全球首测，对象是啥？是Intel那个神神秘秘的 Arc Pro B60 Battlematrix 平台！这玩意儿可不是一般的显卡，它整了个狠活——在一个系统里塞了整整八颗Arc Pro B60 GPU，加起来显存飙到192GB！你没听错，192GB！这哪是显卡，这是显存银行吧？

1. 这“叠叠乐”到底咋回事？
先别懵，咱掰开了揉碎了讲。核心呢，是 Maxsun（铭瑄）搞的一种超级特别的显卡。不是你想的那种老黄历的双芯卡（比如上古神兽GTX 690那种）。它这个叫 “双GPU单卡” ——听着就绕是吧？简单说，就是一张物理显卡上，通过PCIe通道“拆分”技术（PCIe bifurcation），硬是塞了两颗完整的Arc Pro B60 GPU进去！对操作系统来说，这俩GPU就是俩独立的显卡小弟，各干各的。

所以，Storage Review这帮老哥搞了四张这种Maxsun的双GPU卡，插进系统里。系统一瞅：好家伙，来了八位壮汉（八颗独立的B60 GPU）！每颗GPU自带 24GB GDDR6显存，八颗一加，好嘛，192GB显存直接拉满！这阵仗，看着就吓人。

2. 搞这么大阵仗图啥？钱多烧的？
当然不是！这玩意儿瞄准的就是现在最火的——本地跑大模型（LLM）！想想看，现在玩大模型，要么租云服务，那账单看着肉疼，还担心自家数据“裸奔”；要么自己买卡，但专业级大显存显卡？贵到离谱！一张带48GB显存的卡，没个大几万刀下不来，普通人（和小公司）直接劝退。

Intel这波操作就有点意思了。他们给单颗Arc Pro B60 GPU定价大概在600美刀左右。算笔账：一张Maxsun（铭瑄）的双GPU卡（48GB显存）≈ 1200美刀。四张卡（八颗GPU，192GB显存）≈ 4800美刀。划重点：平均下来，每24GB到48GB显存的成本，比市面上那些动辄价格翻倍甚至更多的专业卡，便宜太多了！性价比这块，Intel这次确实拿捏了。当然，这配置跟打游戏是半毛钱关系没有，纯纯的生产力（烧电）工具。

3. 跑起来咋样？真能一个打八个？
Storage Review上手实测了，结果有点意思，不是无脑堆卡就完事了！

他们发现一个关键规律：当你跑的模型批次小（batch size小），输入输出token也设得比较低（比如他们测的256个）的时候，事情就反过来了！这时候，用最少数量的卡（只要能装下模型）来跑，反而比把模型拆开摊到八张卡上跑得更快、更顺溜！为啥？因为卡和卡之间传数据（走PCIe总线）是有开销的！就算现在是最快的PCIe 5.0，这个通信延迟在“单打独斗”或者没啥并发的场景下，反而成了拖后腿的，把多卡并行带来的那点速度优势全吃掉了！简单说，人少活小的时候，一个猛将干活比八个壮汉互相等消息要快。

那啥时候八个壮汉一起上才给力呢？当你把并发数拉高，或者搞超大批次（batch size）的时候！这时候，总体的吞吐量（就是单位时间内能处理多少活）成了关键，多卡并行的优势就体现出来了，通信开销相比之下就变得可以接受了。说白了，人多力量大，得在活多、任务重的时候才能体现！

4. 但是！但是！但是！（重要的事情说三遍）
现在这平台，还处在 “早鸟体验”阶段，离成熟还远着呢！Storage Review这次测试用的都是啥？

驱动是早期版：可能还不稳定，性能也没优化到最佳。

软件是预览版：他们用的LLM Scaler软件也是个pre-release（预发布）版本。

平台没对齐：测试平台用的是AMD EPYC处理器，但Intel设计Battlematrix的原意是搭配自家的至强6（Xeon 6）平台一起用的。所以现在测出来的所有性能数据，都得打上 “初步（preliminary）” 的标签，看看就好，别当最终结论。

软件生态还在穿尿布：最头疼的是软件支持！测试发现，目前只有基于 MXFP4 格式的GPT开源模型（GPT-OSS models）能用上低精度（比如INT4）的优化路径，跑得比较正常。而像标准的 INT4、FP8、AWQ 这些其他格式的模型，直接倔强地拒绝启动（refused to start）！这就导致很多需要密集计算的模型，只能退而求其次，跑在BF16精度下，效率可能就不是最优了。Intel其实今年5月就发布了Battlematrix，但Storage Review的老哥估计，这软硬件结合要真正成熟、用着顺手，恐怕得等到2026年某个时候了。

5. 这卡长啥样？会不会变“烧烤架”？
Maxsun这个双GPU卡，是个长条条（long），散热用的是双槽的涡轮风扇（blower）。功耗可不低，峰值能到400W，就靠一个 12V-2x6 接口（就是新版的12VHPWR接口）供电。这么高的功耗，加上涡轮散热，之前就有人担心在开放平台（open bench）上会不会变成“铁板烧”。长度也是个问题，普通塔式机箱可能塞不下，不过放标准服务器机柜里倒是没问题。

唠在最后：
Intel这波Arc Pro B60 Battlematrix，思路很清晰——用相对低廉的成本，堆出超大的本地显存池，专治各种“显存焦虑”和“云账单刺客”，目标就是让更多人和公司能在自己家里/办公室里跑起大模型。 192GB显存怼脸上，确实够唬人，成本优势也肉眼可见。

BUT！现阶段它还是个“工程样品”级别的存在。驱动、软件、生态都还在疯狂赶工中，离“开箱即用、稳定高效”还有一段路要走。特别是软件兼容性这块，简直是当前最大的“拦路虎”。值不值得现在就冲？除非你是极客中的战斗机，就爱折腾尝鲜，或者有非常具体的、能忍受当前不成熟的测试需求。否则，咱还是搬个小板凳，嗑着瓜子，坐等Intel和软件生态的小伙伴们再优化优化吧！毕竟，好饭不怕晚，对吧？

账号		自动登录	找回密码
密码			立即注册

[产品] 英特尔把192G显存塞进一台主机 8张显卡叠叠乐，本地跑AI模型终于不用卖肾

本帖子中包含更多资源

相关帖子