|
本帖最后由 土耳鸡烤鸡 于 2024-12-19 16:48 编辑
Apple Intelligence 致力于开发生成式人工智能功能,一直坚持不依赖 NVIDIA GPU 来处理云端任务。作为一家总部位于加利福尼亚州的技术巨头,Apple 在其服务器中始终坚持使用定制化硅芯片,这些芯片预计最终将被尚未发布的 M4 Ultra 芯片所取代,以进一步提升其大型语言模型(LLM)的处理速度。然而,近期 Apple 发布的一篇博客文章显示,为了实现共同目标——即通过 LLM 加速内容生成性能,Apple 及其工程师并不排除与 NVIDIA 合作的可能性。
Apple近日发布了一项名为“循环起草器”(ReDrafter)的革命性新技术,并决定将其开源,此举标志着其在自然语言处理领域取得了突破性的进展。据官方博客介绍,ReDrafter技术集成了两种核心算法:束搜索(Beam Search)与树注意力机制(Tree Attention Mechanism),这两种先进技术的结合显著提升了文本生成的效率与质量。
通过自主开发并携手NVIDIA,Apple成功地将ReDrafter技术整合到TensorRT-LLM平台中。TensorRT-LLM是一个专为加速大型语言模型在NVIDIA GPU上运行而设计的优化工具,ReDrafter的加入进一步增强了这一平台的功能,使其能够更高效地处理复杂计算任务。与此同时,该技术还有效缩短了响应时间,大幅降低了设备的整体能耗,从而提高了系统的运行效率与稳定性。
这项研究工作取得了显著成果,但其更大的价值在于能够通过应用以加速大型语言模型(LLM)的推理过程。为了确保这一进展能够在实际生产环境中充分发挥作用,我们与NVIDIA紧密合作,将ReDrafter集成至NVIDIA的TensorRT-LLM推理加速框架之中。
尽管TensorRT-LLM已经支持了众多开源LLM以及Medusa预测解码方法,但ReDrafter所采用的波束搜索及树注意力机制依赖于此前未曾应用于此类场景的新运算符。为实现ReDrafter的成功集成,NVIDIA不仅添加了必要的新运算符,还开放了一些已有的运算符,从而显著提升了TensorRT-LLM对于复杂模型及解码策略的支持能力。借助NVIDIA GPU,机器学习开发人员现在能够更加便捷地享受到ReDrafter带来的加速效果,进而利用TensorRT-LLM为其生产级LLM应用程序提供强大的推理加速功能。
在NVIDIA GPU上对包含数百亿参数的生产级模型进行基准测试时,采用NVIDIA TensorRT-LLM推理加速框架,并结合ReDrafter技术,我们观察到贪婪解码模式下的每秒生成令牌速度提升了2.7倍。这一系列基准测试结果表明,所采用的技术能够显著降低用户可能遭遇的延迟问题,同时大幅减少GPU资源的占用。
尽管此次合作表明苹果与 NVIDIA 达成协议的可能性较低,我们依然坚信,基于这两家科技巨头过往的合作经历,此类紧密的合作关系难以实现。未来我们或许仍能看到短暂的合作机会,但具有深远意义的商业伙伴关系似乎已渐行渐远。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|