马斯克“天下最聪明”的Grok3还是认为9.11比9.9大?
作者: worldly_guest 时间: 前天 14:58
近日,马斯克与xAI团队,在直播中正式发布了最新版本“地球上最聪明的AI”Grok3。
然而据媒体报道,有人测试了最新的Beta版Grok3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9哪个大?”遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的Grok3,仍然无法正确回答这个问题。
0.jpg (18.82 KB, 下载次数: 0)下载附件前天 14:57 上传
值得一提的是,用同样的问题询问DeepSeek时,无论是否开启深度思考(R1)模式,对方都给出了正确的答案:9.9大于9.11。
1.jpg (57.71 KB, 下载次数: 0)下载附件前天 14:57 上传
作者: woodred 时间: 前天 15:07
估计底层的算法差不多的。
作者: 金陵十二槽 时间: 前天 15:12
看来没从ChatGPT蒸馏
作者: 泡泡虾 时间: 前天 15:17
百度AI也是对的640.jpg(45.5 KB, 下载次数: 0)下载附件前天 15:16 上传
作者: keqile 时间: 前天 15:34
刚问的deepseek v3截屏:
Screenshot_2025-02-19-15-34-03-345_com.deepseek.chat.jpg (214.66 KB, 下载次数: 0)下载附件前天 15:34 上传
作者: njsphinx 时间: 前天 15:37
本帖最后由 njsphinx 于 2025-2-19 15:39 编辑
现在deepseek我也准备放弃了,让它写点东西,动不动就无法回答此类问题。
比如一段公文,我让它检查标点,它就这样提示了:
你好,这个问题我暂时无法回答,让我们换个话题再聊聊吧。
作者: 泡泡虾 时间: 前天 15:42
DS分裂了捕获.PNG(8.05 KB, 下载次数: 0)下载附件前天 15:42 上传
作者: 泡泡虾 时间: 前天 16:16
流啤535.jpg(223.28 KB, 下载次数: 0)下载附件前天 16:16 上传
作者: worldly_guest 时间: 前天 16:20
泡泡虾 发表于 2025-2-19 16:16
流啤
厉害
作者: njalin 时间: 前天 16:46
许多大型语言模型(如ChatGPT、Kimi等)在回答这个问题时出现了错误,认为9.11大于9.9。这种错误的原因主要包括以下几点:
Tokenization问题:大模型在处理数字时,通常会将其拆分为多个token。在这种情况下,9.9和9.11被拆分成不同的token,导致模型在比较时错误地认为9.11的某些部分比9.9的部分更大。例如,模型可能会将9.11的“11”与9.9的“9”进行比较,从而得出错误结论。
上下文理解不足:一些模型在训练过程中接触到的数字数据可能并不总是以比较大小为目的,导致它们在特定上下文中(如日期或版本号)错误地理解数字的大小。例如,在软件版本号的上下文中,9.11通常被认为比9.9更大。
模型幻觉:这是指模型生成的内容与现实不符的现象。在比较小数时,模型可能会错误地依赖于小数点后数字的位数,而不是实际的数值大小,从而导致逻辑错误。
作者: 大可Darco 时间: 前天 16:47
本帖最后由 大可Darco 于 2025-2-19 17:56 编辑
关了深度思考
image.jpg (31.93 KB, 下载次数: 0)下载附件前天 15:48 上传
打开就正常了
image.jpg (205.26 KB, 下载次数: 0)下载附件前天 17:56 上传
作者: qtom 时间: 前天 16:53
已经被证明了目前的AI都没有推理能力,只要用小学数学题更换名字或其他之类干扰性语言,AI就会出错
https://www.infoq.cn/article/WeMiIcUqWAjSBkhcZlSZ
苹果一篇论文把大模型圈子得罪了!“踩着”OpenAI、Meta 大模型上位,Gary Marcus:早就说大模型不会推理!
作者: 路过洛阳沙漠 时间: 前天 17:01
keqile 发表于 2025-2-19 15:34
刚问的deepseek v3截屏:
DS 也看人下菜碟?1000038922.jpg(192.75 KB, 下载次数: 0)下载附件前天 17:01 上传
近日,马斯克与xAI团队,在直播中正式发布了最新版本“地球上最聪明的AI”Grok3。
然而据媒体报道,有人测试了最新的Beta版Grok3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9哪个大?”遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的Grok3,仍然无法正确回答这个问题。
0.jpg (18.82 KB, 下载次数: 0)下载附件前天 14:57 上传
值得一提的是,用同样的问题询问DeepSeek时,无论是否开启深度思考(R1)模式,对方都给出了正确的答案:9.9大于9.11。
1.jpg (57.71 KB, 下载次数: 0)下载附件前天 14:57 上传
作者: woodred 时间: 前天 15:07
估计底层的算法差不多的。
作者: 金陵十二槽 时间: 前天 15:12
看来没从ChatGPT蒸馏
作者: 泡泡虾 时间: 前天 15:17
百度AI也是对的640.jpg(45.5 KB, 下载次数: 0)下载附件前天 15:16 上传
作者: keqile 时间: 前天 15:34
刚问的deepseek v3截屏:
Screenshot_2025-02-19-15-34-03-345_com.deepseek.chat.jpg (214.66 KB, 下载次数: 0)下载附件前天 15:34 上传
作者: njsphinx 时间: 前天 15:37
本帖最后由 njsphinx 于 2025-2-19 15:39 编辑
现在deepseek我也准备放弃了,让它写点东西,动不动就无法回答此类问题。
比如一段公文,我让它检查标点,它就这样提示了:
你好,这个问题我暂时无法回答,让我们换个话题再聊聊吧。
作者: 泡泡虾 时间: 前天 15:42
DS分裂了捕获.PNG(8.05 KB, 下载次数: 0)下载附件前天 15:42 上传
作者: 泡泡虾 时间: 前天 16:16
流啤535.jpg(223.28 KB, 下载次数: 0)下载附件前天 16:16 上传
作者: worldly_guest 时间: 前天 16:20
泡泡虾 发表于 2025-2-19 16:16
流啤
厉害
作者: njalin 时间: 前天 16:46
许多大型语言模型(如ChatGPT、Kimi等)在回答这个问题时出现了错误,认为9.11大于9.9。这种错误的原因主要包括以下几点:
Tokenization问题:大模型在处理数字时,通常会将其拆分为多个token。在这种情况下,9.9和9.11被拆分成不同的token,导致模型在比较时错误地认为9.11的某些部分比9.9的部分更大。例如,模型可能会将9.11的“11”与9.9的“9”进行比较,从而得出错误结论。
上下文理解不足:一些模型在训练过程中接触到的数字数据可能并不总是以比较大小为目的,导致它们在特定上下文中(如日期或版本号)错误地理解数字的大小。例如,在软件版本号的上下文中,9.11通常被认为比9.9更大。
模型幻觉:这是指模型生成的内容与现实不符的现象。在比较小数时,模型可能会错误地依赖于小数点后数字的位数,而不是实际的数值大小,从而导致逻辑错误。
作者: 大可Darco 时间: 前天 16:47
本帖最后由 大可Darco 于 2025-2-19 17:56 编辑
关了深度思考
image.jpg (31.93 KB, 下载次数: 0)下载附件前天 15:48 上传
打开就正常了
image.jpg (205.26 KB, 下载次数: 0)下载附件前天 17:56 上传
作者: qtom 时间: 前天 16:53
已经被证明了目前的AI都没有推理能力,只要用小学数学题更换名字或其他之类干扰性语言,AI就会出错
https://www.infoq.cn/article/WeMiIcUqWAjSBkhcZlSZ
苹果一篇论文把大模型圈子得罪了!“踩着”OpenAI、Meta 大模型上位,Gary Marcus:早就说大模型不会推理!
作者: 路过洛阳沙漠 时间: 前天 17:01
keqile 发表于 2025-2-19 15:34
刚问的deepseek v3截屏:
DS 也看人下菜碟?1000038922.jpg(192.75 KB, 下载次数: 0)下载附件前天 17:01 上传
本文转载于9090社区,帖子链接:https://www.kk9090.top/thread-565437-1-1.html