德国研究实锤！人类语言正被ChatGPT带偏，文化多样性遇冷

Meise · 发表于 2025-7-16 13:31:09

不知道大伙儿最近有没留意，自个儿或者身边朋友说话，好像不知不觉带上了点“AI味儿”？这不是错觉。德国顶尖研究机构马克斯·普朗克人类发展研究所的一组科学家，刚刚发布了一项挺有意思的研究。他们说：不管你喜不喜欢，以ChatGPT为代表的大语言模型，确实在改变着世界，连带着也影响了咱们人类开口说话的习惯。更紧要的是，这种影响时间一长，搞不好会让原本丰富多彩的语言文化变得单一无聊。

这份研究还是预印本形式，意思是暂时没经过同行专家们的正式评议。研究团队干了些啥呢？他们把目光投向了自打2022年年底ChatGPT横空出世之后，网络上人们说话用词的微妙变化。研究手段很实在——他们扎扎实实分析了数量惊人的公开音频内容：足有360,445段来自YouTube平台的学术报告录像，以及整整771,591期各种播客节目。然后他们有了个发现：有些特定词汇，正好是ChatGPT这类大模型挺爱优先使用的，如今在真人日常讲话里，出现次数明显变多了。

研究团队给这些词取了个名叫“GPT词汇”。具体都有哪些呢？例如“comprehend”（领会、理解）、“boast”（吹嘘、自夸）、“swift”（迅捷、麻利）、“meticulous”（细致入微、一丝不苟），当然，还有里头最拔尖儿的那位——“delve”（深入探究）。经过前后对比分析，结论清清楚楚：“delve”、“swift”、“meticulous”，再加上一个“inquiry”（探究），这几个都是领跑的代表词汇。它们的出镜率在不同主题的播客和讲座视频里，都有了可查证的增长。

研究人员做的事情，目前阶段就是通过统计这些词的出现频率变化，用数据说话，指出词汇使用确实在变。至于这种现象是好事儿还是坏事儿，研究者本人目前没有盖棺定论。不过呢，这个现象足够促使人们思考一个更要紧的问题：看起来冰冷的大语言模型，它们运行的模式背后，是不是自己形成了一种“偏好文化”？这种由代码和数据构成的无形文化，已经开始有形地影响我们人类的语言文化了吗？

研究者原话是这么表述的：“GPT偏爱的词汇在真实的人类对人类的互动中不断被采纳，表明背后有着更深层的认知过程在起作用。” 听起来挺玄乎的，意思就是人们可能是下意识开始模仿AI说话。不过，具体这个过程到底是怎么发生的？人脑又是怎么接受和选用这些词的？他们老实地承认：“这个实际的采纳机制究竟是啥样，现在还没完全弄明白呢。”

然而，这种AI和人之间你来我往的语言互动，持续久了可能产生深远的后果。研究者们点出了一种可能的未来图景：人工智能系统和人类使用者，可能在语言上会形成一个“封闭的文化反馈循环”。啥意思？就是说某些语言习惯或表达方式，会像是打乒乓球一样，在人和机器之间来回传递、互相影响，最终搞不好双方说话风格会越来越像。

从长远看，这种演变也许有种观察物种演化般的趣味。然而，科学家们心头是沉甸甸的担忧。他们指出，假以时日，如果大语言模型在人类沟通中的影响力变得足够深广，那么一个不太妙的结果就可能出现——全球各地的语言文化多样性会被削弱，走向“同质化”，也就是“语言趋同、文化趋同”。

他们在报告里写得明明白白：“要是人工智能系统不由自主地过度‘偏爱’某些特定文化背景下的表达习惯，那么，它们就可能会加速全球语言文化多样性的消逝。” 而更大的隐患在于一个现实的困境：未来研发的新一代人工智能模型，它们学习的基础数据会是什么呢？很大程度上，会是现在网络上已经被ChatGPT这些工具风格“涂抹”过一遍的信息！这些信息里面已经不知不觉融入了AI的表达倾向。新一代模型学它们、再用它们生成内容；人们看了这些AI产出的内容，说话又跟着变……研究者担心这会变成一个越来越狭窄的自我强化圈套：“未来的AI模型会在越来越被当前AI影响的数据上训练，而人类的采纳使用又进一步放大了这些被AI影响的语言表达特征，结果就在一个周而复始的循环中，更加推助了语言的同质化倾向。”

简单点说，当下这会儿，AI们正用它们那套“快准狠”（swift and meticulous）的方式，“深入剖析”（delve into）着世界的含义，尝试“理解”（comprehend）万物运转。然而时间线拉长，倘若按研究指出的趋势走下去，恐怕未来某天，大伙儿日常聊天的语言标准，都得看AI“脸色”了，那将是一个单调乏味、没啥个性色彩的沟通未来。

想想这幅画面，已经够让心里发凉的了。更愁人的是，研究里还提到一个概念，叫“模型崩溃”（Model Collapse）。它可不是什么安全阀门，反而是个额外的麻烦制造者。

研究人员讲得挺清楚：“一旦某些特定的语言表达模式被少数几个有影响力的大模型给‘垄断’了，‘模型崩溃’的风险就会冒头，而且还是通过一条新路径加重：就算你千方百计把人类互动的新数据再塞回去给模型学习训练，到头来这些新数据本身，可能也早就不够‘多样化’了。说白了，根源上的多样性枯竭了，往后的模型训练就可能走进死胡同，生成的东西越来越次，越来越偏。”

讲到底，这份研究最核心的建议，可以说是对广大用户的一记善意的提醒：各位朋友们，咱们日常聊天表达，最好还是谨慎点，别太指望连自己说的啥可能都没全搞懂的AI程序来做语言导师啦，成不？