ChatGPT 數學能力差的根源究竟何在?

如果您曾經嘗試將 ChatGPT 用作計算器,您幾乎肯定留意到了它的計算障礙:這個聊天機器人數學很差。在這方面,它在人工智能中並非獨一無二。

Anthropic 的 克勞德解決不了 基本的文字問題。雙子座搞不懂 二次方程。而 Meta 的 羊駝做簡單的 加法都很費勁。

那麼,這些機器人怎麼能寫出獨白,卻被小學水平的算術絆倒呢?

標記化與之有關。把單詞“fantastic”拆分爲音節“fan”、“tas”和“tic”,標記化有助於人工智能對信息進行密集編碼。但由於標記器——執行標記化的人工智能模型——並不真正知道數字是什麼,它們常常最終破壞了 數字之間的關係。例如,標記器可能把數字“380”視作一個標記,卻將“381”表示成一對數字(“38”和“1”)。

但標記化並非人工智能數學薄弱的唯一原因。

人工智能系統屬於統計機器。通過大量示例的訓練,它們學習這些示例中的模式來進行預測(例如,在電子郵件中,短語“to whom”通常位於短語“it may concern”之前)。例如,給定乘法問題 57897×12832,ChatGPT——由於見過大量乘法問題——可能會推斷,以“7”結尾的數字和以“2”結尾的數字相乘,其乘積末尾數字將是“4”。但它會在中間部分遇到困難。ChatGPT 給我的答案是 742,021,104;正確答案是 742,934,304。

雲田·鄧(Yuntian Deng)是滑鐵盧大學專門研究人工智能的助理教授,在今年早些時候的一項研究中對 ChatGPT 的乘法能力進行了徹底測試。他和共同作者發現,默認模型GPT-4o在處理每個都包含超過四位數的兩個數字相乘時(例如 3,459 x 5,284)會遇到困難。

“GPT-4o 在多位數乘法上表現欠佳,在四位數乘四位數及以上的問題中準確率低於 30%,”鄧告訴 TechCrunch。“對於語言模型來說,多位數乘法具有挑戰性,因爲任何中間步驟中的錯誤都可能累積,導致最終結果不正確。”

那麼,ChatGPT 會永遠都缺乏數學技能嗎?或者是否有理由相信這個機器人有朝一日或許會像人類(或者就這方面來說,像 TI-84 計算器)一樣精通數字?

鄧滿懷希望。在這項研究中,他和他的同事還測試了o1,OpenAI 的“推理”模型,該模型最近被應用於 ChatGPT。o1 在回答問題之前會逐步思考問題,其表現比 GPT-4o 好得多,在解決九位數乘以九位數的乘法問題時,正確率大約爲一半。

“該模型解決問題的方式可能與我們手動解決的方式不同,”鄧說。“這使我們對模型的內部方法以及它與人類推理的差異產生好奇。”

鄧認爲,這一進展表明,至少某些類型的數學問題——乘法問題便是其中之一——最終將被類似 ChatGPT 的系統“完全解決”。“這是一項有着明確算法且定義清晰的任務,”鄧說。“我們已經看到從 GPT-4 到 GPT-1 有了顯著的改進,所以很明顯推理能力正在提高。”

只是別太快扔掉你的計算器。