數學都是體育老師教的!13.11和13.8誰大?大模型翻車了
出品|本站科技《態度》欄目
作者|宗淑賢
編輯|丁廣勝
前幾日,頻頻霸榜的綜藝《歌手》又一次衝上了熱搜。不過這次,話題的焦點無關“好聽”“難聽”,而是從臺上競演的嘉賓轉移到了臺下討論的網友身上。
13.8%和13.11%哪個大?
誰也沒有想到,這道本質上源於小學四年級數學內容的問題,居然難倒了一衆網友。
對此,有網友感嘆:“現在知道天天在網上擡槓的都是什麼人了吧?”也有網友無奈回懟:“實在不知道誰大誰小,就去問問AI吧!”
然而,當你真的把這個問題拋給AI來解答,你會驚訝地發現——AI也不會。
AI2的研究員林禹臣在推特上貼出了自己用GPT-4o嘗試的結果。面對13.11與13.8哪個大這一問題,GPT-4o認爲13.11大於13.8,並解釋稱:“雖然13.8看起來更大,因爲它小數點後的數字更少,但13.11實際上更大。這是因爲13.8相當於13.80,而13.80小於13.11。”
對此,林禹臣評論說:“常識對AI來說仍然很難。”“這種常識性的人工智能失敗案例讓我不斷想起@YejinChoinka的TED 演講:爲什麼人工智能既聰明無比,又愚蠢至極。”
一、大模型的作答現場
帶着這個問題,我們對當下主流模型進行了簡單的測試。其中,通義千問、文心一言、360智腦、字節豆包、百小應、有道小P和訊飛星火都作出了正確的回答。不過在原因解釋方面,訊飛星火略顯遜色,其餘模型則都是按照分開比較整數和小數部分的思路進行了較爲詳細的回答。
通義千問
文心一言
360智腦
字節豆包
百小應
有道小P
訊飛星火
而月之暗面旗下的kimi和ChatGPT在這一問題上則雙雙翻車。
當kimi被問到“13.11和13.8哪個大”時,它首先給出了13.11大於13.8的答案:
經過進一步追問原因,kimi轉而又作出了截然不同的回答:
經過第三次追問,kimi終於意識到自己在此前的回答中存在錯誤,對這一問題的答案進行了修改糾正:
反觀ChatGPT,就顯得不甚善於反思:
經過兩次反問,ChatGPT表示自己對此前錯誤的回答感到抱歉,並承認13.8大於13.11。但當詢問它能否解釋原因時,它卻給出了這樣的回答:This is because the number 13.8 is read as "thirteen point eight," which is larger than "thirteen point eleven".
二、大模型爲什麼會“數學不好”
回答不好小學生數學題,人工智能大模型又一次被送上了輿論的風口浪尖。面對現今蓬勃發展的各類大模型,人們仍有疑慮:
這到底是人工智能,還是人工智障?
實際上,這一問題並不是最近纔出現的,“數學不好”一直是各類大模型的短板。根據上海人工智能實驗室旗下司南評測體系OpenCompass進行的高考全卷測試結果,包括GPT-4在內的七個大型人工智能模型在高考語文和英語科目的測試中普遍表現出色,然而在數學科目上則均未能達到及格線,最高分也僅達到了75分。
業內人士將大模型“數學不好”的問題根源追溯至LLM(大型語言模型)的架構設計本身。
LLM通常依賴監督學習,特別是通過預測文本中下一個詞的方式來訓練。這一過程中,模型被投喂海量的文本數據集,學習並預測給定文本後下一個詞出現的概率分佈。通過不斷將模型的預測與實際文本進行對比和調整,語言模型逐漸掌握了語言的內在規律,從而能夠預測並生成連貫的文本。
然而在LLM的框架內,存在使用Tokenizer這一關鍵環節。它負責將輸入的文本分割成更小的單元(tokens),以便模型處理。問題在於,Tokenizer的設計初衷並非專門服務於數學處理,因此在處理包含數字的文本時,可能會將數字看做文本字符串而非數值,從而進行不合理地拆分,導致數字的整體性和意義在模型內部被破壞。
對此,360CEO周鴻禕以9.9和9.11爲例,進行了更爲通俗的解釋:
“大模型全稱叫大語言模型,它首先解決的是對人類自然語言理解的問題。所以大模型並沒有把9.9和9.11當成一個數字來看,而是把它們分成了兩個token。沒有經過專門特別的提示和訓練,大模型是不懂阿拉伯數字也不懂數學的,所以大模型是按照一個文字的邏輯來進行比較的。9前面是一樣大的,那麼11比9要大,所以就得出來9.11比9.9要大。”
除了架構設計存在不足外,大模型“數學不好”或許還與它所接受的訓練方式有關。主流模型的訓練主要源於互聯網的文本數據,這類數據中數學問題和解決方案相對匱乏,也在一定程度上限制了模型在此類技能上的發展。
因此,在各類大模型井噴式誕生與發展的現在,也許我們也應當反思:AI該如何進一步設計與訓練,才能真正像人類一樣思考?