|
|
各位在高校实验室里跑分子动力学模拟跑到服务器冒烟的研究员、在公司里训大模型训到显卡温度居高不下的算法工程师、在生物信息学中心里每天跟基因序列打交道的科学家、还有那些在数据中心里盯着功耗表和散热账单发愁的基础设施负责人——今天这条消息,你们看了之后大概率会忍不住搓手。尤其是那些正在做癌症检测模型训练、搞气候模拟、或者折腾基因组组装这类超级吃算力的项目的团队,以及那些天天在琢磨怎么在有限的机架空间里塞进更多算力的运维老哥们——戴尔这边刚刚扔出来一个大家伙,而且这个家伙的规格参数,怎么说呢,属于那种你看一眼就会觉得“这玩意儿是认真的吗”的程度。
事情是这样的。戴尔科技正式发布了一款名叫PowerEdge XE8812的新服务器,这款服务器是戴尔AI工厂产品线的最新成员,而且是跟英伟达联合打造的。它的定位非常明确——专门用来跑这个星球上最变态的高性能计算和人工智能工作负载。那它到底有多猛呢?一个机架里面最多可以塞进144块GPU。你没看错,144块。而且这些GPU用的是英伟达最新的Vera Rubin NVL4架构。这个消息的来源是Techpowerup,发布时间就在这几天。
那为什么戴尔要在现在这个时间点推出这么一款猛兽级的服务器呢?原因很简单——现有的基础设施已经快要跟不上需求了。随着AI和高性能计算仿真这两类工作负载越来越融合在一起,它们的规模和速度正在快速增长,传统的渐进式硬件升级已经快撑不住了。你今年多加几台机器、明年换个好一点的CPU,这种玩法在面对现在的AI训练和科学计算任务时,已经开始显得力不从心。与此同时,各个机构和企业正在不断推高科学研究和工业应用的边界,他们需要的不是小修小补,而是一代跨越式的平台升级。
全球范围内对AI创新的追逐,正在加速推动对高性能基础设施的需求。企业和研究机构希望把数据、算力和控制权掌握在自己需要的地方。根据相关的市场预测,2026年AI投资的年增长率预计将达到44%,也就是比前一年增长接近一半。而且有87%的机构表示,创新和AI是他们业务战略的核心组成部分。这个比例已经高到了一个相当惊人的程度,说明AI已经不再是少数先行者的试验田,而是成为了主流共识。
戴尔这次就是冲着这个需求去的。他们想给那些有大抱负的机构提供真正能用的基础设施,让他们把AI和仿真的野心转化成实实在在的成果。
那这款PowerEdge XE8812到底有什么过人之处呢?咱们一项一项来看。
首先,这台服务器是无风扇设计的,用的是直接液体冷却技术。你没有听错,没有风扇,全靠液体循环带走热量。对于那些在数据中心里被风扇噪音吵到头大的运维人员来说,这简直是一种福音。而且100%的CPU和GPU都采用了直接液体冷却,这意味着散热效率极高,能源效率也更好。
其次,它的计算密度非常恐怖。戴尔表示,这将是在基于ORv3标准的开放式机架规格下,行业内密度最高的平台之一。一个机架能塞进144块GPU,整机功率支持超过300千瓦。300千瓦是什么概念?相当于一个小型工厂的用电量。这么多的电力消耗,如果没有高效的液冷方案,光是散热就能把数据中心的空调系统逼疯。
再说内存。跟上一代产品相比,XE8812在每个CPU插槽的内存容量上提升了50%,GPU内存也有大幅增加。这意味着什么呢?意味着那些规模庞大的模型和仿真任务,可以完全在内存里面跑完,而不需要把数据从主机内存或者存储设备里面来回搬运。做过大规模计算的人都知道,数据搬运是最耗时的环节之一,哪怕只是微秒到毫秒级别的延迟,累积起来也会让整体性能大打折扣。现在有了更大的内存,这些延迟就被直接消除了,有效带宽得到了极大的提升。
这台服务器的架构还有一个很关键的特点——它是开放的,基于ORv3这个开放标准来设计的。这意味着它不是一套封闭的专用系统,而是可以跟其他符合这个标准的设备和机架兼容。对于数据中心来说,开放性意味着更高的灵活性和更低的长期运营成本。部署之后,各种系统管理工具可以帮助降低运维风险、简化操作。比如说,戴尔的Integrated Dell Remote Access Controller,也就是iDRAC,可以让IT团队随时随地远程部署、更新和监控这些PowerEdge服务器。IT团队还可以通过戴尔的Integrated Rack Controller和OpenManage Enterprise获得机架级别的可视化管理,这些工具利用实时遥测数据和自动泄漏检测功能来及早发现问题,降低风险,并在整个系统范围内提供统一的支持。
另外,戴尔还提供了一个叫PowerRack的交钥匙部署方案。对于那些要大规模部署高性能计算和AI系统的机构来说,PowerRack可以提供工厂集成、预先验证过的机架级系统,大大降低了部署复杂度,帮助客户更快地实现运营价值和投资回报。搭配戴尔的ProDeploy白手套服务,这些PowerRack机架可以取代传统的手动集成工作,变成出厂即就绪的状态,从运抵现场到跑上实际工作负载,只需要六个多小时就能完成。六个多小时是什么概念?以前部署一个同等规模的集群,从拆箱、上架、布线、调试到正式跑任务,花上几天甚至几周都是常有的事。现在压缩到六小时,效率的提升是肉眼可见的。
说完了产品本身,咱们再来看看这台服务器在全球范围内的实际应用案例。戴尔AI工厂目前已经在全球部署了超过5000家客户,这个数字本身就说明了市场对这类基础设施的旺盛需求。而这5000多家客户的分布范围非常广,从主权AI基础设施到AI驱动的工程研发,再到基因组科学,涵盖了各种不同类型的工作负载。
在美国,戴尔、英伟达和美国能源部的国家能源研究科学计算中心正在联手建造一台名为Doudna的新一代超级计算机。这台超算将以劳伦斯伯克利国家实验室为大本营,基于戴尔PowerEdge XE8812服务器和英伟达Vera Rubin NVL4架构构建,并通过英伟达Quantum-X800 InfiniBand网络互联。它将驱动更大规模的高性能计算工作负载、AI训练和推理任务,以及数据密集型的工作流程。这台超算的目标是加速从分子层面到天文学领域的科学突破,重塑科学研究和日常生活。顺便说一句,Doudna这个名字来自于CRISPR基因编辑技术的先驱之一詹妮弗·杜德纳,从这个命名就能看出这台超算在生命科学领域的雄心。
在法国,戴尔和英伟达正在支持一家人工智能公司InstaDeep,帮助他们扩展名为Kyber的超算集群。这个集群基于戴尔AI工厂与英伟达的合作架构打造,可以提供大约0.5 exaFLOPs的FP16算力。0.5 exaFLOPs是什么概念?每秒可以进行50亿亿次半精度浮点运算。这个算力可以用来进行大规模的AI模型训练和复杂的工业设计任务,包括印刷电路板的自动化设计。印刷电路板是消费电子到工业系统里一切设备的核心组件,能够用AI来自动设计这些东西,对制造业的意义不言而喻。
在英国,Wellcome Sanger研究所正在使用戴尔PowerEdge XE系列服务器配合英伟达GPU,以前所未有的规模解码DNA。这个研究所现在每七个小时就能生成一个完整的基因组组装,并且在本地管理着超过100PB的精选遗传数据。他们的工作是Wellcome Sanger研究所“生命之树”计划的核心支柱,而且已经为全球的“地球生物基因组计划”贡献了超过70%的基因组数据。70%这个数字意味着,全球范围内大部分已知物种的基因组数据,都是从这个研究所出来的。
在澳大利亚,莫纳什大学与戴尔、英伟达和CDC数据中心合作,开发并部署了一套名为MAVERIC的超算系统。这套系统采用了液冷的戴尔PowerRack机架,搭载戴尔PowerEdge XE9712服务器和英伟达GB200 NVL72架构。它将驱动大规模AI和数据密集型工作负载,支持包括癌症检测、气候行动和基因组学在内的多个研究领域。
最后,咱们来看看戴尔和英伟达两边的高管是怎么评价这款产品的。
戴尔科技负责计算和网络的高级副总裁阿伦·纳拉亚南说了一段话,大意是:那些在做世界上最重要研究工作的机构——比如解码人类基因组、建模未来的能源系统、建设国家赖以生存的主权AI基础设施——他们值得拥有能够匹配他们工作雄心的基础设施。PowerEdge XE8812反映了戴尔致力于突破可能的边界的承诺,给这些机构提供了他们所需的计算密度、内存容量和开放架构,去攻克那些曾经被认为是不可能的工作负载。
英伟达负责企业平台的副总裁克里斯·马里奥特则表示:AI和高性能计算的融合正在重新定义机构对基础设施的期望。戴尔和英伟达正在一起把标准抬得更高,将英伟达Vera Rubin NVL4架构和CUDA-X库与戴尔的工程能力和大规模部署经验结合起来,为全球最严苛的AI和科学计算工作负载提供所需的性能、效率和开放性。
至于这款服务器什么时候能买到,戴尔给出的时间是明年年初,也就是2027年初在全球范围内上市。对于那些正在规划下一代超算中心的机构来说,这个时间点正好可以用来做前期的评估和预算准备。而对于咱们这些普通围观群众来说,虽然大概率用不上这种级别的设备,但看看这些庞然大物是怎么一步步把科技的边界往前推的,本身也是一件挺有意思的事情。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|