|
本帖最后由 麻薯滑芝士 于 2025-9-16 18:08 编辑
不知道各位是否注意到,每当ChatGPT偶尔回应"我好像有点累了",或是Midjourney生成图片需要等待好几秒时,背后很可能不是AI在"偷懒",而是遇到了实实在在的硬件瓶颈。这个问题最近被韩国科学技术院(KAIST)的金正浩教授在9月15日的行业研讨会上重点指出:当今的Transformer模型在处理长达百万级token序列时,数据总量经常达到TB级别,这相当于每次推理都要搬运一个小型图书馆的数据量。
让我们先来看看这个问题的历史渊源。现代计算机使用的冯·诺依曼架构诞生于1945年,这个已经服役80年的老将让处理器和内存物理分离,就像让两个好朋友必须通过狭窄的走廊传递纸条。在AI需要每秒进行数千次数据读写的场景下,这种架构瓶颈愈发明显。金教授用了个形象的比喻:这就好比让一条双车道高速公路承担整个城市的早晚高峰流量,不堵车才怪。
转机出现在今年二月。存储巨头闪迪(SanDisk)在投资者日活动中展示了一项突破性技术:高带宽闪存(HBF)。这项技术的精妙之处在于,它借鉴了HBM的堆叠式设计,通过TSV硅通孔技术将16层NAND闪存垂直堆叠,创造性地用NAND闪存替代了传统DRAM。最终实现单堆栈512GB的惊人容量,比当前HBM高出8到16倍,同时保持相当的带宽性能。
深入了解技术细节会发现更多亮点。第一代HBF将采用最新的BiCS9 NAND技术,接口速度提升至4.8Gb/s,能耗反而降低10%-34%。八个堆栈组合后可提供4TB容量,足以将GPT-4这类超大模型完全存储在GPU本地,彻底告别反复读写的性能瓶颈。
HBF的技术路线选择体现了独特的工程智慧。虽然NAND闪存的延迟性能比DRAM高,但AI推理任务本质上是"读取密集型"操作,对延迟相对不敏感,反而对容量有着近乎贪婪的需求。金教授预测,未来如果AI要处理电影长度视频生成这类任务,内存需求将是现在的上千倍,这时候HBF"以容量换速度"的策略就显得尤为明智。
行业内的布局也在加速。今年八月,闪迪与SK海力士签署了具有里程碑意义的合作备忘录,双方将共同制定HBF开放标准。按照路线图,2026年下半年将提供工程样品,2027年初首批搭载HBF的AI推理设备就将上市。这种产学研用的快速推进,显示出行业对这项技术的高度期待。
技术优势明显,但挑战也不容忽视。NAND闪存固有的写入耐久性问题仍然存在,目前闪迪通过pSLC技术来平衡耐用性和成本。而且HBF主要瞄准推理场景,模型训练仍然需要HBM的高性能支持。这种分工明确的定位,反而让HBF在特定领域能够大展拳脚。
更值得关注的是架构创新。HBF支持与HBM的混合配置方案,例如可以设计"3072GB HBF + 48GB HBM"的组合,让HBM作为高速缓存处理即时数据,HBF作为主存储容纳完整模型。这种架构不仅显著降低成本,还可能让移动设备运行参数量高达640亿的模型,真正推动边缘AI的发展。
行业大佬的站台也增添了这项技术的分量。闪迪组建的技术顾问委员会吸引了Google杰出工程师David Patterson和AMD前架构师Raja Koduri等重量级人物。Patterson认为"HBF将推动推理负载突破现有极限",Koduri则预言这项技术将"开启边缘智能的新纪元"。甚至华邦电子也在开发类似的CUBE技术,目标带宽超过1TB/s,功耗控制在10W以内,存储领域的创新竞赛正在升温。
从市场角度看,当前HBM虽然占据DRAM市场20%的份额,但价格居高不下;而HBF凭借NAND闪存的成本优势,在提供更大容量的同时还能控制成本。这种性价比优势可能改变AI硬件的市场格局。如果2027年能量产,AI推理的成本门槛将大幅降低,届时电影级视频生成、实时大模型推理等现在需要昂贵硬件支持的任务,也许在普通移动设备上就能实现。
让我们把目光放得更远一些。随着多模态AI和具身智能的发展,未来AI对内存的需求只会越来越强烈。HBF代表的不仅是一项技术创新,更是一种发展思路的转变:从单纯的性能竞赛转向性价比优化,从追求极致带宽转向平衡带宽与容量。这种转变可能让AI技术更快地普及到更多应用场景中。
纵观全局,AI内存技术的发展重点正在从单纯的带宽竞赛转向"带宽+容量"的双重优化。HBF代表的异构存储方案很可能成为未来十年的关键技术路径。到2027年,我们或许将见证AI硬件领域迎来一轮重新洗牌,这场变革不仅会影响技术发展路线,更将重塑整个AI产业生态。
(通过深入分析存储技术的发展脉络和AI硬件需求的变化趋势,可以看出HBF这类创新技术正在推动整个行业向更高效、更经济的方向演进。这不仅关乎技术本身的进步,更将影响AI应用的普及速度和创新节奏,最终改变人们与AI交互的方式。)
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|