数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 222|回复: 0

[科技] Anthropic新研究揭秘:大语言模型为何总爱"胡编乱造"?

[复制链接]
发表于 2025-3-29 22:32:02 | 显示全部楼层 |阅读模式
本帖最后由 Meise 于 2025-3-29 22:36 编辑

你是否也被AI助手突如其来的"即兴创作"搞得哭笑不得?Anthropic实验室近期连发两篇重量级论文,首次从神经网络层面破解了这个困扰行业许久的难题。让我们跟着研究人员的显微镜,看看大语言模型的"脑回路"到底哪里搭错了线。

故事要从去年五月说起。当时这家专注AI安全的公司开发出"稀疏自编码器"技术,成功捕捉到Claude模型中负责特定概念的神经元集群——比如当出现"金门大桥"或"程序漏洞"时,对应的神经元群就会集体亮灯。最新研究在此基础上更进一步,完整还原了从概念识别到应答决策的完整神经链路。

研究团队发现,经过专门训练的AI助手版本内置了类似"安全开关"的神经机制。当输入信息包含陌生名词(比如虚构人物"Michael Batkin"),模型会激活"知识盲区"识别系统,触发"这个问题超出我的知识范围"的标准话术。但若遇到知名人物(如篮球传奇Michael Jordan),对应的神经元就会压制安全机制,开启自由应答模式。

这种设计解释了AI时而保守时而奔放的表现。更有趣的是,科学家通过人工增强"已知实体"神经元活跃度,竟能让Claude对完全虚构的人物侃侃而谈。当被问及AI专家Andrej Karpathy的论文时,模型虽然能识别出人名,却因缺乏具体记忆,现场编造出《基于深度卷积神经网络的ImageNet分类》这种看似专业实则虚构的标题。

研究指出,这种"认知偏差"源于大语言模型的底层设计逻辑。本质上它们仍是根据海量文本预测下文,面对模糊信息时,其算法本能会优先保证回答的连贯性。虽然安全训练给AI套上了"缰绳",但现有神经网络的认知精度仍显粗糙。

目前这项研究仅能解析Claude模型中部分神经活动,要完全破译AI的"思考"过程,仍需开发更强大的分析工具。不过该发现为提升AI可靠性指明新方向——如果能精准绘制模型的知识边界图谱,或许就能有效遏制那些令人啼笑皆非的"创造性发挥"。

(本文基于Anthropic实验室2025年3月发布的最新科研成果整理)



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-7-21 08:50 , Processed in 0.218400 second(s), 11 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表