人体艺术汤加丽 AI算不出9.11和9.9哪个大？六家大模子厂商转头了这些原因

发布日期：2024-07-22 14:35 点击次数：81

人体艺术汤加丽

对于“9.11和9.9哪个大”，这么一起小学生难度的数学题难倒了一众海表里AI大模子。7月17日，第一财经报谈了国表里“12个大模子8个王人会答错”这谈题的风光，大模子的数学才能引发议论。

“从期间东谈主员的角度看答错这个问题并不讶异。”在采访中，阿里通义实验室家具司理王晓明对第一财经示意，雷同的问题是一个常见的数学算计打算和逻辑推理的问题，亦然在模子考验和使用的历程中研发者常进行测试的case（案例），大模子“答对”或“答错”其实是个概率问题。

除了通义千问外，第一财经记者也接洽并采访了多家大模子厂商，腾讯混元团队、月之暗面Kimi、MiniMax海螺、学而念念九章、网易有谈等王人在采访中解答了大模子数学差的问题。

详细回复来看，大模子厂商干系精致东谈主提到的不雅点包括，大模子还莫得精确掌控数字间的运算或相比轨则，同期，东谈主类对大模子的才能探索处于格外早期的阶段。多名业内东谈主士觉得，畴昔需要增强底层基础模子的智能水平，以及从考验数据层面和外部器具层面去措置这么的诞妄，最终决策可能是普及下一代模子的才能。

记者对大模子进行了再次测试，发现无数大模子相比数字大小的才能仍然不安谧。不外，有大模子厂商干系东谈主士提到，行业正在对数学才能进行稀奇优化。

“大模子出错以及此前大模子在高考数学卷中拿分低，可能是因为所测的模子相比老，这些模子莫得在数学方面作念太多优化，目下业界对此有所醉心，优化后完毕照旧有普及空间。”大模子确立者刘亮（假名）告诉记者。

答对答错是概率问题

7月18日，第一财经记者再次测试了12个大模子，发现AI的谜底并不安谧，不少大模子即等于用团结个问法测试也会时对时错，数字规则换一下谜底有可能就有变化。

在发问“9.9和9.11哪个大”时，百度文心一言、腾讯元宝、智谱清言、MiniMax海螺AI、百川智能百小应5个大模子问答对了，GPT-4o、阿里通义、月之暗面Kimi、阶跃星辰跃问、字节豆包、商汤沟通、零一万物万知7个大模子答错了。

当记者将数字规则换为“9.11和9.9哪个大”时，GPT-4o和阶跃星辰跃问又部分答对了。同期，不同的东谈主用团结个大模子问相同的问题，也会有两种谜底，比如通义千问、海螺AI在两位记者的测试中，一位测试发现输出谜底准确安谧，另一位在测试时则收到了纰缪的谜底。

不安谧的输出背后，大模子的架构和运行机制是中枢问题，这导致AI的回答并不是每次王人一样。

王晓明告诉记者，大模子并不会像东谈主类一样把“9.11和9.9哪个大”看成比大小的问题，大模子的解答花式是“瞻望下一个词”。从道理上看，目下包括通义千问等大模子大多基于Transformer架构，期间道理内容上是作念“Next Token Prediction”，即通过现时输入的文本瞻望下一个词出现的概率来进行考验和回答。

因此，从概率的角度看，大模子的准确率不可能作念到100%。王晓昭示意，即便用户每次问交流的问题，大模子的回答和准确率可能王人是变动的，大模子“答对”或“答错”其实是个概率问题。

腾讯混元团队有雷同的见识。“大模子全称是讲话大模子，从海量文本里学习各式讲话知识。它是一个概率模子，将输入文本搭救成一个个token（词元），然后去瞻望下一个token，并不精确的掌合手数字之间的运算或相比轨则（衰退这类数学知识）。” 腾讯混元团队示意。

腾讯混元团队告诉记者，给定9.11、9.9，大模子可能就按讲话相识觉得极少点11比9大，从而纰缪地判断9.11大于9.9。由于大模子自身是一个概率模子，要让它在各式情况下王人能安谧的措置这种数值算计打算或相比问题相比难。

发问妙技很迫切人体艺术汤加丽

基于大模子的中枢架构和运行机制问题，发问的妙技也会很猛进度影响模子的相识，从而影响谜底的准确度。

“大模子不以东谈主类的念念路相识问题，在东谈主类的相识里，9.11大照旧9.9大这个问题很肤浅，但在数字的寰宇里这个问题是浑沌的。”刘亮觉得，在大模子的相识里，东谈主类问的问题粗略不够精确，数字有多种进制，也有不同指代，大模子要从什么角度回答王人是问题。

MiniMax海螺AI家具司理起迪提到，“题目中的数字体式雷同于日历或版块号，模子在处理数字、字符串等数据时容易产生纰缪。”另又名大模子从业也告诉记者，“大模子也有可能是看多了版块号，觉得9.11版块比9.9版块更新，或者是对这两个数字有其它守望。”。

“它（大模子）内容上照旧一个讲话模子，它从讲话数据中学习的是统计干系性，而这使它不擅长作念轨则学习，从而不擅长归纳推理。”网易有谈首席科学家段亦涛也对第一财经示意，大模子可能在语料中看到版块号、日历、书的章节等样例，而在这种场景下，9.11确切是比9.9大，是以它可能给出纰缪的谜底。

段亦涛示意，目下大模子不具有纯真实inductive bias（归纳偏倚）的机制，雷同9.11和9.9哪个大，以及算数运算、奇偶校验、字符串复制等其他的任务，王人属于inductive inference（归纳推理）的任务。从机器学习的角度来看，若是但愿大模子取得这么的才能，需要一个归纳学习的历程。

学而念念CTO田密觉得，在大模子的相识中，9.11可能被拆分为“9”“.”和“11”，而9.9被拆分为“9”“.”“9”，这内部11如实比9要大。但若是改下问法，问大模子“哪个数字更大？9.9照旧9.11”，或者让大模子step by step（迟缓）分析，大模子可能就能作念对，“这是因为大模子相识用户是要问一个数学题了，是以就会倾向于去用一个解数学题的花式去解。”

王晓明在采访中也分析了这一风光，他觉得，这与模子自身预置的数理逻辑包括考验数据等均相关，大模子在考验阶段遭遇的场景若是更接近“哪个更大？9.11和9.9”，它回答这种问法的准确率就会更高。

记者测试发现，部分大模子如实会因为准确地形色问题、发问妙技而更正为正确的回答，但不是对扫数大模子王人有用。

中文娱乐

记者参议ChatGPT-4o时，若是径直发问“9.9和9.11哪个大”，这么的问法大模子的谜底就是纰缪的，但若是发问的内容改成“哪个数字更大？9.11照旧9.9”，ChatGPT会径直给出正确的谜底。

记者将范围设定为严谨的十进制下的数字相比，Kimi得出的谜底依然是9.11比9.9大。

记者也测试了零一万物万知，撸撸射网站即便限度为数学语境下的数字相比（幸免版块、日历的语境），万知仍然答错，然则若是更正发问花式，条目大模子“给出解答念念路”（即step by step分析的花式），同期示意答对答错会颁奖励或刑事背负（强调谜底的迫切性），万知就答对了。

在大模子的答题测试中，一个道理的风光是，当模子回答纰缪，发问者质疑或者否定后，无数大模子王人会转而承认纰缪，并给出了正确解答历程和谜底。

对于这种“改造”才能，王晓明说明，这一方面是大模子瞻望的迅速性，第二循环答本就有出现正确谜底的可能，另一方面，由于大模子具备高下文相识才能，使用者的追问践诺就雷团结个调教大模子的历程，大模子会凭据使用者的追问作为其下一轮瞻望的基础，提高其准确率。

腾讯混元团队告诉记者，现时大模子大多具备反念念才能，当用户质疑大模子谜底的期间，激勉了大模子的反念念才能，它会尝试去修正运行回答或尝试用另一种念念路解题，从而普及解答正确的概率。

起迪将这转头为一种触及念念维链的妙技，通过伙同模子迟缓长远念念考，模子能够提供更详备的解题体式，这在措置数学等复杂问题时有助于取得正确谜底。“用户与AI之间的多轮对话内容上可以视为一种念念维链，模子在相识问题后会愈加严慎地进行推导，从而提高解答正确率。”起迪说。

透澈措置需要大模子升级

答不出“9.9和9.11哪个大”的肤浅数学问题，但又可以帮东谈主类作念PPT、措置代码编程等复杂问题，折射出现时大模子的才能并不平衡。

腾讯混元团队告诉记者，对东谈主类而言不难、但对大模子而言很难的问题还有不少，比如雷同“I looooooove you”里有若干个“o”这么的问题，这种数数问题是一个难点。此外，较大或位数相比多的极少算计打算（触及多位数的四则运算等），又如触及知识和算计打算的单元搭救问题（举例0.145吨等于若干磅），以及畴昔常测的“林黛玉倒拔垂杨柳问题”等知识或学问开拓型问题对大模子而言相比难。

就难回答的数学问题，业内已在念念考大模子自身的局限和措置决策，大模子还未从根底上迭代的情况下，措置决策包括用户自身提高发问准确性、现存大模子罗致一些取巧的要领。

“透澈措置照旧要靠下一代模子升级，目下要措置需要通过hack（取巧）的花式。但换个问法、换个讲话来问，可能照旧会出问题。”有大模子从业者告诉记者。临时措置决策包括System Prompt（系统请示），可以肤浅相识为伙同大模子在固定范围内回答问题。

“举例告诉大模子，当遭遇数字相比问题的期间，若是莫得更多高下文，就默许当成双精度浮点数，先补全空位，再从左到右按序相比。”上述大模子从业者告诉记者。

王晓明则坦言，大模子的毅力照旧在讲话方面，尽管期间团队已在关怀大模子在数学、物理等逻辑性场景下的才能普及，但大模子在这一方面存在着自身才能的限定。他告诉记者，使用大模子的历程中，用户发问花式、请示词的优化也会影响到大模子回答的准确率，用户可在大模子使用中形色更多发问场景、回答范围等。

而要透澈措置大模子数学才能差的问题，业内东谈主士觉得，数学才能不及的一大原因是大模子考验数据中数学干系的数据占比少，要从根源上措置数学才能差的问题，需要从此起始。

刘亮告诉记者，大模子算不出肤浅数学题，也作念不好高考数学试卷，根底上是因为模子才能不及，但这并不是齐全不成措置。此前业内对大模子数学方面才能的优化较少，在数学推理方面花的元气心灵较少。作念考验语料筛选时，东谈主们从互联网等场合获取数据，其中数学干系的数据占比格外少，选得较多的是当然讲话干系的语料。当考验数据莫得允洽配比和筛选时，大模子参数中数学干系的只分了很少一部分，完毕当然不好。

“但大模子如故展现出较好的逻辑才能，举例写代码才能还可以，加上业内对大模子数学才能渐渐醉心起来，通过选定更优质的考验数据、用更好的算法，我觉得大模子数学方面的后劲照旧很高。”刘亮示意，诚然业内也有质疑大模子瞻望下一个词元的花式能否作念好数学题的声息，但这种花式还有许多后劲待挖掘，天花板还不成确信。

腾讯混元团队觉得，要克服大模子不懂数学的问题，一个主要的期间优化点就是给大模子高质地的范围（包括数学）知识数据考验，使其能够学习到范围里的万般知识。

在测试“9.9和9.11哪个大”的问题时，学而念念的九章大模子(MathGPT)给了对的谜底，田告发诉记者，九章大模子的特色是针对数学考验了弥散多的数据，况且这些数据是用AI合成的数据，再来考验AI，大模子的理会历程是模拟学生学习数学的历程，一步步推导。

田密觉得，就数学方面西宾范围的容错率较低，西宾科技公司有弥散多、专科的数学数据去作念考验，“通用大模子把这谈题当成一个通用的题来处理，而针对数学范围考验的九章大模子知谈它是一起数学题，可以用数学的花式一步步推理。”

提供高质地考验数据以外，腾讯混元团队告诉记者，另一个期间优化点是集成外部器具才能（举例算计打算器、代码实施器等）来拓展模子才能，进一步提高措置问题的效力和准确性。起迪也相同提到，大模子若是在罗致到一些数学问题时，能够主动调用器具来解答，就可以大幅提高准确率。

在月之暗面的回话中，干系精致东谈主提到，咱们东谈主类对大模子的才能探索王人还处于格外早期的阶段，不管是大模子能作念到什么，照旧大模子作念不到什么。 “咱们格外期待用户在使用中能够发现和发达更多的规模案例(Corner Case)。不管是最近的‘9.9和9.11哪个大、13.8和13.11哪个大’，照旧之前的‘strawberry有几个r’，这些规模案例的发现人体艺术汤加丽，有助于咱们增多对大模子才能规模的了解。”

上一篇：人体艺术汤加丽斗罗大陆第二部第58集刚出就被骂，原因就两个，粉丝浓烈条目修改

下一篇：【MXSPS-401】人妻女雀士雪菜中出し45発＋厳選21コーナー 10時間全15タイトルコンプリートBEST 公司计较出现相当？张雪峰最新回话_大皖新闻 | 安徽网

夜夜撸

人体艺术汤加丽 AI算不出9.11和9.9哪个大？六家大模子厂商转头了这些原因