|
本帖最后由 土耳鸡烤鸡 于 2024-12-30 14:50 编辑
近日,一个名为EXO Labs的组织在社交媒体上发布了一段引人注目的视频,展示了在一台已服役26年的奔腾II电脑上成功运行大型语言模型(LLM)的情景。这台机器运行着经典的Windows 98系统。EXO Labs不仅撰写了一篇详细的博客文章,介绍如何在Windows 98上运行Llama,还在社交媒体上的简短视频中展示了这一惊人成就。
视频中,一台古老的Elonex Pentium II 350 MHz电脑启动至Windows 98界面,随后,EXO团队启动了一个基于Andrej Karpathy的Llama2.c编写的自定义推理引擎。他们向这个在26年前硬件上运行的强大AI模型提出了一个挑战:生成一篇关于“Sleepy Joe”的故事。令人惊讶的是,该系统不仅完成了任务,而且是以相当流畅的速度生成了故事内容。这段视频不仅展示了技术的魅力,还引发了人们对计算历史与现代AI技术融合可能性的深刻思考。
对于EXO团队而言,从eBay淘到一台古老的Windows 98 PC作为项目的基础,看似简单,实则充满挑战。EXO团队解释说,将数据导入那台Elonex品牌的Pentium II电脑是一项艰巨的任务。最终,他们不得不采用传统的FTP方法,通过这台古董级机器的以太网端口来传输文件。而为Windows 98编译现代代码更是难上加难。幸运的是,EXO团队找到了Andrej Karpathy的llama2.c代码,这段代码可以简要描述为“一段700行的纯C语言代码,能在Llama 2架构的模型上运行”。借助这一宝贵资源,结合老旧的Borland C++ 5.02集成开发环境及编译器,并进行了少量调整,他们成功地将代码转化为与Windows 98兼容的可执行文件并顺利运行。
EXO 团队中的关键成员 Alex Cheema 特别感谢了 Andrej Karpathy 提供的代码,并对其表现赞叹不已。使用 Llama 架构的 260K LLM 在 350 MHz 的单核 PC 上实现了“35.9 tok/s”的处理速度。值得一提的是,Karpathy 曾是特斯拉的 AI 总监,也是 OpenAI 创始团队的一员。尽管 260K LLM 的规模相对较小,但它在旧设备上的表现依然可圈可点。根据 EXO 的博客报道,升级到 15M LLM 后,生成速度略微提升至1 tok/s。相比之下,Llama 3.2 1B 的速度则明显慢了许多,仅为0.0093 tok/。
EXO Labs的目标远不止于在Windows 98机器上运行LLM。他们在博客文章中进一步阐述了其对未来的展望,并希望通过BitNet实现人工智能的普及。BitNet是一种使用三元权重的transformer架构,使用这种架构,一个70亿参数的模型只需要1.38GB的存储空间,这对于现代硬件甚至十年前的设备来说都非常轻量级。此外,BitNet是“CPU优先”的,避免了对昂贵GPU的依赖,据称这种类型的模型比全精度模型效率高50%,并且可以在单个CPU上以人类阅读速度运行一个1000亿参数的模型。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|