数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 28|回复: 0

[产品] 英特尔把192G显存塞进一台主机 8张显卡叠叠乐,本地跑AI模型终于不用卖肾

[复制链接]
发表于 22 分钟前 | 显示全部楼层 |阅读模式
哎呦我去!兄弟们姐妹们,今天这瓜可太硬核了!就在昨天(12月3号),外媒Storage Review那帮狠人搞了个全球首测,对象是啥?是Intel那个神神秘秘的 Arc Pro B60 Battlematrix​ 平台!这玩意儿可不是一般的显卡,它整了个狠活——在一个系统里塞了整整八颗Arc Pro B60 GPU,加起来显存飙到192GB!​ 你没听错,192GB!这哪是显卡,这是显存银行吧?

1. 这“叠叠乐”到底咋回事?
先别懵,咱掰开了揉碎了讲。核心呢,是 Maxsun(铭瑄)​ 搞的一种超级特别的显卡。不是你想的那种老黄历的双芯卡(比如上古神兽GTX 690那种)。它这个叫 “双GPU单卡”​ ——听着就绕是吧?简单说,就是 一张物理显卡上,通过PCIe通道“拆分”技术(PCIe bifurcation),硬是塞了两颗完整的Arc Pro B60 GPU进去!​ 对操作系统来说,这俩GPU就是俩独立的显卡小弟,各干各的。

所以,Storage Review这帮老哥搞了 四张​ 这种Maxsun的双GPU卡,插进系统里。系统一瞅:好家伙,来了 八位壮汉(八颗独立的B60 GPU)!每颗GPU自带 24GB GDDR6显存,八颗一加,好嘛,192GB显存直接拉满!这阵仗,看着就吓人。

2. 搞这么大阵仗图啥?钱多烧的?
当然不是!这玩意儿瞄准的就是现在最火的——本地跑大模型(LLM)!​ 想想看,现在玩大模型,要么租云服务,那账单看着肉疼,还担心自家数据“裸奔”;要么自己买卡,但专业级大显存显卡?贵到离谱!一张带48GB显存的卡,没个大几万刀下不来,普通人(和小公司)直接劝退。

Intel这波操作就有点意思了。他们给 单颗Arc Pro B60 GPU定价大概在600美刀左右。算笔账:一张Maxsun(铭瑄)的双GPU卡(48GB显存)≈ 1200美刀。四张卡(八颗GPU,192GB显存)≈ 4800美刀。划重点:平均下来,每24GB到48GB显存的成本,比市面上那些动辄价格翻倍甚至更多的专业卡,便宜太多了!​ 性价比这块,Intel这次确实拿捏了。当然,这配置跟打游戏是半毛钱关系没有,纯纯的生产力(烧电)工具。

3. 跑起来咋样?真能一个打八个?
Storage Review上手实测了,结果有点意思,不是无脑堆卡就完事了!

他们发现一个关键规律:当你跑的模型批次小(batch size小),输入输出token也设得比较低(比如他们测的256个)的时候,事情就反过来了!​ 这时候,用最少数量的卡(只要能装下模型)来跑,反而比把模型拆开摊到八张卡上跑得更快、更顺溜!​ 为啥?因为 卡和卡之间传数据(走PCIe总线)是有开销的!​ 就算现在是最快的PCIe 5.0,这个通信延迟在“单打独斗”或者没啥并发的场景下,反而成了拖后腿的,把多卡并行带来的那点速度优势全吃掉了!简单说,人少活小的时候,一个猛将干活比八个壮汉互相等消息要快。

那啥时候八个壮汉一起上才给力呢?当你把并发数拉高,或者搞超大批次(batch size)的时候!​ 这时候,总体的吞吐量(就是单位时间内能处理多少活)成了关键,多卡并行的优势就体现出来了,通信开销相比之下就变得可以接受了。说白了,人多力量大,得在活多、任务重的时候才能体现!

4. 但是!但是!但是!(重要的事情说三遍)
现在这平台,还处在 “早鸟体验”阶段,离成熟还远着呢!Storage Review这次测试用的都是啥?

驱动是早期版:​ 可能还不稳定,性能也没优化到最佳。

软件是预览版:​ 他们用的LLM Scaler软件也是个pre-release(预发布)版本。

平台没对齐:​ 测试平台用的是AMD EPYC处理器,但Intel设计Battlematrix的原意是搭配自家的 至强6(Xeon 6)​ 平台一起用的。所以现在测出来的所有性能数据,都得打上 “初步(preliminary)”​ 的标签,看看就好,别当最终结论。

软件生态还在穿尿布:​ 最头疼的是软件支持!测试发现,目前只有基于 MXFP4​ 格式的GPT开源模型(GPT-OSS models)能用上低精度(比如INT4)的优化路径,跑得比较正常。而像标准的 INT4、FP8、AWQ​ 这些其他格式的模型,直接 倔强地拒绝启动(refused to start)!这就导致很多需要密集计算的模型,只能退而求其次,跑在BF16精度下,效率可能就不是最优了。Intel其实今年5月就发布了Battlematrix,但Storage Review的老哥估计,这软硬件结合要真正成熟、用着顺手,恐怕得等到2026年某个时候了。

5. 这卡长啥样?会不会变“烧烤架”?
Maxsun这个双GPU卡,是个长条条(long),散热用的是 双槽的涡轮风扇(blower)。功耗可不低,峰值能到400W,就靠一个 12V-2x6​ 接口(就是新版的12VHPWR接口)供电。这么高的功耗,加上涡轮散热,之前就有人担心在开放平台(open bench)上会不会变成“铁板烧”。长度也是个问题,普通塔式机箱可能塞不下,不过放标准服务器机柜里倒是没问题。

唠在最后:
Intel这波Arc Pro B60 Battlematrix,思路很清晰——用相对低廉的成本,堆出超大的本地显存池,专治各种“显存焦虑”和“云账单刺客”,目标就是让更多人和公司能在自己家里/办公室里跑起大模型。​ 192GB显存怼脸上,确实够唬人,成本优势也肉眼可见。

BUT!​ 现阶段它还是个“工程样品”级别的存在。驱动、软件、生态都还在疯狂赶工中,离“开箱即用、稳定高效”还有一段路要走。特别是软件兼容性这块,简直是当前最大的“拦路虎”。值不值得现在就冲?除非你是极客中的战斗机,就爱折腾尝鲜,或者有非常具体的、能忍受当前不成熟的测试需求。否则,咱还是搬个小板凳,嗑着瓜子,坐等Intel和软件生态的小伙伴们再优化优化吧!毕竟,好饭不怕晚,对吧?







本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-12-4 21:31 , Processed in 0.109200 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表