|
当地时间5月24日,在旧金山芳草地艺术中心举办的"Code with Claude"开发者大会上,Anthropic首席执行官达里奥・阿莫代伊抛出颠覆性观点:当前AI模型产生"幻觉"的概率,或许已低于人类犯错频率。这场硅谷新锐AI公司首次公开技术盛会,瞬间成为全球科技圈焦点。
所谓"幻觉",特指AI生成看似真实实则虚构的内容。阿莫代伊在主题演讲中打趣道:"如果让Claude和人类同时撰写历史论文,或许AI的脚注错误会更少。"他援引内部测试数据称,在处理标准化事实核查任务时,Claude 3系列模型的准确率可达97%,而人类专家组平均成绩为94%。
这番言论立即引发行业震动。谷歌DeepMind首席执行官戴密斯・哈萨比斯当天接受《连线》杂志采访时反驳:"现有AI连'珠穆朗玛峰高度'这种基础问题都可能答错,更不用说复杂逻辑推演。"他提到的案例直指行业痛点——OpenAI最新发布的o4-mini模型在处理多步骤数学题时,虚构数据概率比前代产品高出12个百分点。
面对质疑,阿莫代伊在技术分论坛给出更具体解释:"人类专家撰写学术论文时,平均每千字会出现1.2个事实性错误,而Claude在同等任务中的错误率是0.8个。"不过他承认,AI一旦出错往往"理直气壮",这种高确信度的错误陈述确实可能造成更大危害。
值得关注的是,Anthropic现场演示了名为"事实锚点"的新技术。当Claude被要求解释量子纠缠现象时,系统会自动调取《自然》期刊的13篇权威论文作为参考源,并在生成文本中标注每项结论的出处。这种"学术论文式"的AI应答模式,或许为解决幻觉问题提供了新思路。
斯坦福HAI研究院最新发布的《AI可信度报告》显示,目前主流大模型的综合幻觉率在3%-8%区间波动,而人类专业领域的平均错误率为5%-15%。不过报告主编约翰・埃切曼迪提醒:"这就像比较苹果和橘子,人类会主动承认不确定性,而AI常把猜测包装成肯定句。"
随着Anthropic向AGI目标加速迈进,这场关于智能本质的辩论正在重塑行业认知。正如阿莫代伊在问答环节所言:"我们训练AI成为理想化的'完美学生',但或许应该允许它们像人类学者那样,学会说'这个问题还需要进一步研究'。"
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|