|
|
哎哟喂!家人们!这周一在旧金山那场贼拉硬核的 IEEE国际电子器件大会 (IEDM 2025) 上,半导体圈儿的“扫地僧”——比利时微电子研究中心 imec ——甩出了一份王炸级研究报告!炸的啥?就是现在AI圈儿疯狂内卷的 “3D HBM-on-GPU” 这玩意儿!简单说就是把 HBM超高速内存 像叠汉堡一样,直接摞在 GPU显卡核心 脑门儿上!这操作猛是猛,但有个致命问题——烫!烫到能煎鸡蛋! 但imec这回掏出了“退烧秘方”,直接把GPU核心温度从 吓死人的141.7°C 干到了 舒爽的70.8°C!这波操作有多骚?咱必须掰开了揉碎了唠!
先唠背景:为啥非玩“叠叠乐”?AI算力快卷上天了!
现在搞AI训练,那数据量大的跟洪水似的,GPU和内存之间传数据的速度就成了大瓶颈!现在主流方案是 “2.5D封装” ——想象一下:一个硅片中介层(就像个高级电路板)上,GPU芯片放中间,HBM内存条像护法一样围一圈儿(通常就一两个GPU配几个HBM)。这方案稳是稳,但架不住AI胃口越来越大啊!
于是乎,芯片界开始整狠活了:3D HBM-on-GPU! 简单粗暴——把HBM内存堆栈,直接用微焊点(microbumps)怼到GPU芯片正上方! 好处简直逆天:
算力密度爆炸: 一个封装里能塞下 4个GPU!(对比2.5D通常就一两个)
内存管饱: 每个GPU能分到的HBM内存大大滴有!
带宽起飞: GPU和HBM贴脸输出,数据传输快如闪电!
听着美滋滋是吧?BUT!物理定律教你做人! 这么个叠法,热量全憋在GPU和HBM那几层“楼”里了,散热通道窄得像毛细血管!结果就是——局部功率密度爆炸,热量往上蹿贼困难(垂直热阻贼大),GPU核心分分钟给你表演 “原地烧烤”!之前模拟显示,跑真实AI训练任务时,GPU峰值温度能冲到 141.7°C!这温度别说稳定运行了,芯片没当场自焚都算体质好!对比之下,传统2.5D方案在同样散热条件下才 69.1°C,简直凉快得能穿毛衣。
imec出手:退烧组合拳!技术+系统双管齐下!
imec这帮技术老炮儿可不是吃素的。他们搞了个贼精细的热模拟模型:一个GPU顶盖上直接叠 4个HBM堆栈,每个堆栈由 12层DRAM芯片 用混合键合(hybrid bonding)技术粘得死死的。散热器?就老老实实压在HBM最顶上(想象一下给汉堡包顶上加个冰块)。然后,他们祭出了 “系统-技术协同优化 (STCO)” 大法,意思就是:别光在芯片层瞎鼓捣,散热设计、软件调度这些系统层的大招也得一起上!
他们的“退烧秘方”分两路:
技术层猛药:
HBM堆栈合并术: 可能通过优化堆栈结构或材料,减少热阻。
热优化硅材料: 用导热更好的特殊硅材料,让热量散得更溜。
系统层骚操作:
双面水冷大法! 不光HBM顶上加散热,GPU屁股底下也给它安排上散热器!双面夹击,透心凉!
GPU频率“降压锁帧”: 简单说就是——降频保命! 别让GPU跑那么疯,发热自然就下来了。
效果炸裂:温度腰斩!算力居然还更香?
这套组合拳打下去,效果直接炸穿天花板!在模拟真实AI训练负载时:
GPU峰值温度从141.7°C → 直接干到70.8°C! 降温幅度超过 70℃!跟传统2.5D方案的69.1°C几乎平起平坐!烫手山芋秒变温润如玉!
重点来了!imec的大佬 James Myers(系统技术项目总监)爆料:光靠 把GPU核心频率砍一半 这一招,就能把峰值温度从120°C压到100°C以下,这温度HBM内存就能稳如老狗了!虽然频率砍半导致 AI训练速度慢了28%(相当于算力打了72折),BUT!因为3D叠叠乐本身 算力密度和吞吐量太逆天,整个芯片封装的总性能居然还是吊打了传统2.5D方案! 这就好比:你跑马拉松,我让你降速慢跑(降频),但你因为穿了火箭推进鞋(3D集成高密度),最后成绩还是比我快!就问你服不服!
James大佬还透露,他们正用这方法研究其他姿势,比如 把GPU翻过来压在HBM上面(GPU-on-HBM),提前给未来更变态的芯片散热难题探路。
幕后大佬:imec的“跨界优化王炸”——XTCO!
这波神操作的背后,其实是imec在2025年刚祭出的 “跨界技术协同优化 (XTCO)” 计划的处女秀!imec的逻辑技术副总裁 Julien Ryckaert 说得很直白:现在芯片系统越来越复杂,光在自家小领域折腾(比如只搞制程或只搞设计)根本玩不转!XTCO就是要把 芯片制造技术路线图 和 业界头疼的系统级难题(比如算力密度、供电、散热、内存带宽)强行对齐!靠的就是把imec的STCO/DTCO(系统/设计-技术协同优化)思维,和他们家 横跨多个领域的祖传技术绝活 揉在一起!这组合,全球独一份!
Julien大佬直接喊话:芯片圈儿的各位爸爸们(Fabless设计公司、系统大厂)!别单打独斗了!赶紧加入俺们的XTCO联盟,一起攻克这些要命的系统级瓶颈啊!
唠在最后:
imec这波研究,绝对给火热的3D芯片集成赛道打了一针强心剂!它证明了:“叠叠乐”不是找死,只要技术(材料、结构)+ 系统(散热、调度)双管齐下,高温这个拦路虎是能按住的! 而且降频保命这种“牺牲”,在高密度带来的巨大性能优势面前,完全值得!这为未来那些算力怪兽级AI芯片指明了一条活路。芯片散热这出大戏,越来越有看头了!坐等更多“退烧黑科技”登场!
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|