IBM发布微型AI模型Granite 4.0预览版！消费级显卡就能跑128K长文本

Meise · 发表于昨天 12:50

各位科技迷注意！IBM近日搞了波神仙操作，把自家未来要发布的Granite 4.0系列AI模型里体积最小的那个版本——Granite 4.0 Tiny预览版提前开源了！这事儿我给大家捋一捋：

现在这个预览版虽说是"半成品"（只训练了2.5万亿token），但已经有两把刷子了。实际性能追平去年发布的Granite 3.3的20亿参数版本，但内存需求狂降72%！更关键的是，它用8位浮点精度运行时，价格不到350刀的平民显卡（比如RTX 4060这种级别的）就能同时跑好几个128K长文本任务。

这波技术升级背后是IBM憋了个大招——全新的混合架构。模型总参数70亿，但每次推理只用10亿参数活动（类似于开关只开七分之一）。最关键的是它结合了Mamba-2的速度和Transformer的精准性，这技术是和Mamba模型创始人团队合作研究的。

现在这个1.0版本已经能在Hugging Face上白嫖（遵守Apache 2.0协议），不过IBM官方提醒企业用户暂时别急着上生产环境。等到今年夏天正式发布时，还会有Small和Medium版本来组队。配套工具方面，Ollama和LMStudio这些平台会在正式版发布时同步支持本地运行。

要说这模型最厉害的还是开挂般的内存管理！很多企业级AI动不动就要H100这种万元显卡伺候，这个预览版却能让多实例推理在平价显卡上跑得飞起。IBM团队说他们专门针对长文本和多任务并发做了优化，打工人最关心的实际使用场景都给考虑到了。

据内部消息，完整版性能要干翻去年发布的Granite 3.3的80亿参数版本！网友们现在就可以去Hugging Face试玩（虽然需要手动安装依赖），具体应用开发教程估计很快会跟上。话说IBM研究院正在憋更多王炸，相关技术细节估计会在明年（2026年）的Think大会上曝光。

账号		自动登录	找回密码
密码			立即注册

[产品] IBM发布微型AI模型Granite 4.0预览版！消费级显卡就能跑128K长文本

本帖子中包含更多资源

相关帖子

浏览过的版块