图 3 一个数据分析的AutoGen流程
资料来源:With Autogen, Microsoft Simplifies Putting Large Language Models to Real Work(www.bigtechwire.com)
三是,大语言模型可以通过RAG、微调和迁移学习等技术,根据具体应用场景进行定制和优化,使其可以适应各种不同的业务需求和数据情况,形成行业专属大模型或知识库系统。如彭博(Bloomberg)基于开源的BLOOM大模型,使用公司超过7 000亿词例(Tokens)的大型金融训练语料库进行训练,开发了一个专用的金融大语言模型——Bloomberg GPT,实现了市场情绪分析、新闻分类和问题回答等功能。
从本质上说,大模型是一个存储了神经网络权重的参数文件,其所具备的推理、知识检索、代码生成等功能都依赖于神经网络参数的质量。因此大模型的性能具有“0 or all”的特点,即要么全面领先,要么全面落后,很难做到在某几个领域领先。因为如果需要专业领域的模型,使用先进的大模型进行微调训练即可,无需进行重新开发,赢家通吃的效应非常明显。
从行业竞争趋势看,虽然OpenAI的ChatGPT依然处于头部位置,但从多项测试表现看,谷歌、Meta、亚马逊、微软、Mistral AI、xAI等公司的产品也在逐步缩小与OpenAI的差距。在此格局下,当前大模型厂商依然会继续大规模投入GPU算力,进行大模型的训练,以期望在竞争中胜出。从图 4我们可以看到,大模型在算力上的竞争依然在持续。因此从行业发展看,大模型对英伟达GPU仍将在相当一段时期内保持大量的需求。
图 4 主要大模型训练阶段消耗的算力
注:petaFLOP指每秒进行1000万亿次数学运算
资料来源:Epoch (2023) – with minor processing by Our World in Data. “Training dataset size” [dataset]. Epoch, “Large Language Model Performance and Compute” [original data].
图 9 大模型MMLU测试成绩与训练数据规模关系
资料来源:Epoch (2023) – with minor processing by Our World in Data. “Training dataset size” [dataset]. Epoch, “Large Language Model Performance and Compute” [original data].
注:MMLU是一个大规模、多任务的语言理解项目,旨在评估和提升语言模型在各种语言理解任务上的能力,包括历史、文学、科学、数学等。MMLU并不能完全代表大语言模型的性能。
从大模型训练过程看,未来大模型的算力竞赛依然会持续相当长的一段时间,对GPU会存在大量的需求,这一市场基本被英伟达所垄断,可以预测英伟达的高速增长依然会持续。
在推理阶段,英特尔和AMD的异构CPU会逐渐成为主流。双方的技术路线也比较一致,预计会保持现有的竞争格局。值得注意的是高通(ARM架构CPU)的入局。ARM多核心、低功耗的架构,在过去依赖单核性能的时代是其一大劣势。而在今天操作系统和软件对多线程的优化越来越成熟,多线程运算需求越来越大,ARM架构将逐渐获得更多的应用场景(超级计算机富岳采用的就是ARM架构的CPU)。苹果M系列CPU的优势是统一内存架构,显存与内存不做区分,这在PC内存普遍配置较低的时代具有一定的优势。但随着PC异构计算的推广、内存配置的增加,苹果的这一优势难以持续,AI时代苹果面临的挑战似乎更加严峻。