EXO Labs突破技术障碍：古老奔腾II电脑也能运行AI

土耳鸡烤鸡 · 发表于 2024-12-30 10:13:27

本帖最后由土耳鸡烤鸡于 2024-12-30 14:50 编辑

近日，一个名为EXO Labs的组织在社交媒体上发布了一段引人注目的视频，展示了在一台已服役26年的奔腾II电脑上成功运行大型语言模型（LLM）的情景。这台机器运行着经典的Windows 98系统。EXO Labs不仅撰写了一篇详细的博客文章，介绍如何在Windows 98上运行Llama，还在社交媒体上的简短视频中展示了这一惊人成就。

视频中，一台古老的Elonex Pentium II 350 MHz电脑启动至Windows 98界面，随后，EXO团队启动了一个基于Andrej Karpathy的Llama2.c编写的自定义推理引擎。他们向这个在26年前硬件上运行的强大AI模型提出了一个挑战：生成一篇关于“Sleepy Joe”的故事。令人惊讶的是，该系统不仅完成了任务，而且是以相当流畅的速度生成了故事内容。这段视频不仅展示了技术的魅力，还引发了人们对计算历史与现代AI技术融合可能性的深刻思考。

对于EXO团队而言，从eBay淘到一台古老的Windows 98 PC作为项目的基础，看似简单，实则充满挑战。EXO团队解释说，将数据导入那台Elonex品牌的Pentium II电脑是一项艰巨的任务。最终，他们不得不采用传统的FTP方法，通过这台古董级机器的以太网端口来传输文件。而为Windows 98编译现代代码更是难上加难。幸运的是，EXO团队找到了Andrej Karpathy的llama2.c代码，这段代码可以简要描述为“一段700行的纯C语言代码，能在Llama 2架构的模型上运行”。借助这一宝贵资源，结合老旧的Borland C++ 5.02集成开发环境及编译器，并进行了少量调整，他们成功地将代码转化为与Windows 98兼容的可执行文件并顺利运行。

EXO 团队中的关键成员 Alex Cheema 特别感谢了 Andrej Karpathy 提供的代码，并对其表现赞叹不已。使用 Llama 架构的 260K LLM 在 350 MHz 的单核 PC 上实现了“35.9 tok/s”的处理速度。值得一提的是，Karpathy 曾是特斯拉的 AI 总监，也是 OpenAI 创始团队的一员。尽管 260K LLM 的规模相对较小，但它在旧设备上的表现依然可圈可点。根据 EXO 的博客报道，升级到 15M LLM 后，生成速度略微提升至1 tok/s。相比之下，Llama 3.2 1B 的速度则明显慢了许多，仅为0.0093 tok/。

EXO Labs的目标远不止于在Windows 98机器上运行LLM。他们在博客文章中进一步阐述了其对未来的展望，并希望通过BitNet实现人工智能的普及。BitNet是一种使用三元权重的transformer架构，使用这种架构，一个70亿参数的模型只需要1.38GB的存储空间，这对于现代硬件甚至十年前的设备来说都非常轻量级。此外，BitNet是“CPU优先”的，避免了对昂贵GPU的依赖，据称这种类型的模型比全精度模型效率高50%，并且可以在单个CPU上以人类阅读速度运行一个1000亿参数的模型。