爱科技、爱创意、爱折腾、爱极致,我们都是技术控
您需要 登录 才可以下载或查看,没有账号?立即注册
x
美好的长假即将过去,我们又该忙起来了。在AI领域,这两年最忙的一项基础技术应该非大模型莫属。 随着最近AI绘画、AI生成视频等能力不断刷新大众对AI技术边界的认知,站在AI创作家们背后的大模型的地位也跟着水涨船高。轰轰烈烈的“炼大模型”运动似乎来到了丰收时节。 但在大模型愈发火爆的同时,我们不难看到一个问题:预训练大模型虽然在众多领域都表现出了良好的应用效果,但这些效果所产生的商业价值,却很难与大模型的训练成本、基础设施投入成本画上等号。 事实上,表面光鲜的大模型正在经历一个有些艰难的转型阶段:大模型不断表现出的“神奇”效果,引发了资本、产业、学术界的巨大关注。随着一个又一个大模型被训练完成,推向市场,却会发现大模型的应用场景与商业价值虽然有,但并不充沛。如何从“炼大模型”,走向“用大模型”,正在成为关键考验。尤其值得注意的是,中国AI行业对大模型的投资、建设更加激进,那么大模型的应用转型考验也将更加显著、先觉地浮现于中国市场。 AI预训练大模型在目前阶段的境况,让我想到一个词:白垩纪。 白垩纪是地质年代中,中生代的最后一个纪元。这时候全球开始变暖,大陆架结构开始定型。恐龙依旧统治着世界,但哺乳动物已经开始活跃。 大模型似乎也处在这样一个阶段里。被BERT、GPT-3夯定的大模型思路依旧笼罩在AI产业头顶。但如何让大模型走向新的应用纪元,已经成为一个非常热切,同时略带迷茫的必答题。 新物种开始出现,老物种依旧占据主流 在讨论大模型的转型之前,我们还是需要用一点篇幅回溯一下大模型的发展思路与应用逻辑。 所谓的预训练大模型,是指在大规模宽泛数据上进行训练的基础模型。它抓住了深度学习算法数据越多模型鲁棒性越强的基础特点,对模型进行暴力地“数据投喂”。经过大规模数据的预训练后,模型可以适应更多种类、更为复杂的下游任务,从而最终获得更好的智能体验。 大规模预训练模型,其实并不是一种技术路径上的创新,而是更接近把握技术特征之后的工程创新。大模型之路被广泛认可,开始于谷歌在2018年10跃发布BERT。它利用BooksCorpus和维基百科的大规模数据进行模型训练,在11个下游任务上刷新了当时的业界纪录。 我们可以将大规模预训练模型理解为一种“预制菜”。既然用户自己烹饪的难度太高,费工费火,那就不妨由商家先行预制。用户将菜买回后加热一下,加入自己喜欢的调料就能上桌食用。大模型的思路也是如此,它通过上游进行模型预训练,下游进行任务微调的方式来使更多产业能给应用到效果好、质量高的AI模型。 而经过几年的发展,大模型如今已经来到了一个新旧交替的临界点。这里的新旧交替可以分为两个层面进行理解。首先大模型本身不断进行技术层面的革新。我们知道,业界最具典型性,也最为出圈的大模型OpenAI在2020年5月发布的GPT-3。这一大模型具有1750亿参数,在非常多文本生成类任务上有着出众表现。而无论是BERT还是GPT-3,都是自然语言处理领域的大模型。而在GPT-3之后,大模型一方面在模型参数上不断提升,同时也在技术上进行迭代。比如机器视觉大模型已经成为行业的新主流,同时多模态大模型与行业知识紧密结合的大模型开始出现。推动大模型的能力覆盖从语言走向视觉,继而走向更复杂的综合任务。 另一个层面的大模型新旧交替,体现在产业侧对大模型应用的呼唤上。随着几年时间过去,“我们必须赶快有一个大模型”的热情开始消退;转而产生了“我们确实有大模型,然后呢?”这样的应用焦虑。尤其对于中国市场来说更是如此。在美国AI界,大模型一直都是少数科技巨头、学术组织在做,其中很多大模型的基础定位就是AI技术投资的一部分。但在中国则不同,怀揣着对技术竞争的重视,大量互联网、云计算企业都加入了大模型的构建竞赛,这些大模型必须找到有效的商业出口才能收回投资。同时,也有大量科研机构、院校加入其中。于是我们可以在中国看到雨后春笋般发布的大模型,这样做的优势是中国AI在大模型数量上遥遥领先,同时,也带来了如此多的大模型项目应该要如何消化和使用的问题。 目前阶段,大模型产业的特征是那些直接对标GPT-3的大模型项目依旧占据主流,或者说并没有给出太多有说服力的超越价值。同时,新的大模型技术思路与产业转型思路也已经开始出现。这正是白垩纪的特点:恐龙和哺乳动物共处一地,而新生物种正期待着更多变化到来。 大模型的野蛮生长,已经陷入某种枯竭 几年来,炼大模型成了AI领域最热门,同时也最能引起舆论、资本关注的一件事。伴随着大量大模型项目的快速上马,我们很难判断其中有哪些是抱着“竞争对手在做,所以我也要做”的互联网心态来推动,又有哪些项目是为了与新基建、科技举国体制等热门概念挂靠火速上线。 整体来看,跑马圈地式的大模型产业发展,为整个AI领域提供了一种积极昂扬的氛围。推动大模型与各个行业、各科研领域结合变得比较轻松。与此同时,我们也很容易将大模型与更多AI技术,甚至VR、元宇宙、区块链等同样被称为风口的技术进行类比,并且发现大模型的发展轨迹,也有着诸多“野蛮生长”的痕迹。
|