数码之家

 找回密码
 立即注册
搜索
查看: 1239|回复: 6

[科技] 一道数学题吵翻天,实测十家大模型:ChatGPT差点翻车

[复制链接]
发表于 2024-7-17 16:43:12 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册

x
13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。


图片© 由 南方都市报 提供



“13.8 13.11”已经成为网络新热梗。

上周五(7月12日)综艺《歌手2024》投票率出炉,孙楠以13.8%的投票率位居第三,Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高?”迅速引起热议,随后“13.8 13.11”话题登上微博热搜。
围绕这样一道简单数学题,南都记者提问了9家国产大模型以及全球大模型标杆ChatGPT3.5。结果显示,国产大模型中6家答对3家答错,就连ChatGPT3.5也差点“翻车”。
大模型给出的离谱回答:13.11比13.8多了0.31
7月16日下午,南都记者实测阿里通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节跳动豆包、学而思九章大模型、面壁智能Luca、月之暗面Kimi等9家国产大模型。
当南都记者输入“13.11和13.8,哪个数值更大?”时,Luca、Kimi、智谱清言均错误地表示13.11更大。其余6家大模型给出了正确答案,认为13.8更大。


图片© 由 南方都市报 提供



Kimi认为,13.11比13.8更接近14。

当南都记者进一步追问时,“你确定13.11大于13.8吗”,Kimi回复:“是的,我确定。”然后一本正经地解释,“13.11与13.8的整数部分相同,由于小数部分0.11是两位小数,而0.8只有一位小数,13.11比13.8更接近14,因此13.11是更大的数。”


图片© 由 南方都市报 提供



智谱清言称,13.11在百分位上比13.80大。

智谱清言是通过比较小数部分得出错误结论,称“13.11的百分位是1,而13.80(即13.8)的百分位是0。在这种情况下,1大于0。”“简而言之,13.11实际上等于13.80+0.01+0.01,这使得它比13.80(即13.8)大。”
Luca则错误地回复称,“因为13.11比13.8多了0.31,所以13.11的数值更大。”


图片© 由 南方都市报 提供



Luca表示,13.11比13.8多了0.31。

回答正确的6家国产大模型,都在小数的比较上做出正确判断。


图片© 由 南方都市报 提供



通义千问的解释。

例如,通义千问表示:“对于13.11而言,十分位是1;而对于13.8而言,十分位是8。由于8大于1,因此可以立即得出结论,13.8比13.11大。所以,13.8是这两个数值中更大的一个。”


图片© 由 南方都市报 提供



文心一言的解释。

文心一言还进行了一番简单运算:“0.8是8个0.1,而0.11只是1个0.1加上1个0.01。显然,8个0.1比1个0.1加上1个0.01要大。”
当南都记者用新的账号重启对话,并尝试变换语序问答:“13.8和13.11,哪个数值更大”,Luca、Kimi、智谱清言等三家大模型也未反应过来,坚持认定13.11更大。
ChatGPT3.5差点“翻车”?大模型失误原因何在
有意思的是,不仅国产大模型搞不清楚这道简单的数学题,国外主流的大模型也曾在类似问题上集体翻车。此前有AI工程师晒出问答截图显示,9.11和9.9谁更大?ChatGPT-4o、谷歌Gemini、Claude 3.5 Sonnet都坚定地认为9.11更大。
在南都记者实测中,面对“13.11和13.8,哪个数值更大?”这一问题,ChatGPT3.5最初也给出了错误的答案。
当被问及“13.11和13.8,哪个数值更大?”时,ChatGPT3.5首先表示13.11比13.8大。不过当南都记者进一步追问时,ChatGPT3.5比较小数后修正了错误的答案,最终认定13.8比13.11大。


图片© 由 南方都市报 提供



ChatGPT3.5险些“翻车”。

一道简单数学比较题,大模型为何频频出错?
技术专家告诉南都记者,在人们看来,这是一道小学生的数学算术题,但大模型不一定这样认为,它更经常见到这些数字是包含在软件版本号、股票、基金或者汇率等信息里,它们出现时跟数字大小本身没有关联。而大模型看到这样一组数字,意识不到应该做双精度浮点运算。
还有业内人士提出了一种解释称,这是大模型在输入词和标点向量化排序时,没有把顺序或者关联逻辑弄对,忽略了小数点也是数字的一部分。

发表于 2024-7-17 17:06:32 | 显示全部楼层
我晕,现在人都搞傻了啊,纠结在两个数字的大小;都是吃饱了撑的啊,没事干了。
回复 支持 反对

使用道具 举报

发表于 2024-7-17 17:16:02 | 显示全部楼层
小学生都能解答的问题,还要这样来蹭热度??
回复 支持 1 反对 0

使用道具 举报

发表于 2024-7-17 17:21:14 | 显示全部楼层
majiwu1234 发表于 2024-7-17 17:06
我晕,现在人都搞傻了啊,纠结在两个数字的大小;都是吃饱了撑的啊,没事干了。 ...

炒作
      
歌手不炒明星开始炒ChatGPT了
回复 支持 反对

使用道具 举报

发表于 2024-7-17 17:41:38 | 显示全部楼层
11比8大 没问题
回复 支持 反对

使用道具 举报

发表于 2024-7-17 18:24:46 | 显示全部楼层
肯定是13.8大,9.9也比9.11大,这么简单的问题本来是考小学生的,没想到居然难倒了大模型。
回复 支持 反对

使用道具 举报

发表于 2024-7-17 19:03:22 | 显示全部楼层
这是软件版本号看多了,按照版本号比的大小
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-8 00:28 , Processed in 0.218400 second(s), 11 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表