☰

ChatGPT 數學能力差的根源究竟何在？

如果您曾經嘗試將 ChatGPT 用作計算器，您幾乎肯定留意到了它的計算障礙：這個聊天機器人數學很差。在這方面，它在人工智能中並非獨一無二。

Anthropic 的克勞德解決不了基本的文字問題。雙子座搞不懂二次方程。而 Meta 的羊駝做簡單的加法都很費勁。

那麼，這些機器人怎麼能寫出獨白，卻被小學水平的算術絆倒呢？

標記化與之有關。把單詞“fantastic”拆分爲音節“fan”、“tas”和“tic”，標記化有助於人工智能對信息進行密集編碼。但由於標記器——執行標記化的人工智能模型——並不真正知道數字是什麼，它們常常最終破壞了數字之間的關係。例如，標記器可能把數字“380”視作一個標記，卻將“381”表示成一對數字（“38”和“1”）。

但標記化並非人工智能數學薄弱的唯一原因。

人工智能系統屬於統計機器。通過大量示例的訓練，它們學習這些示例中的模式來進行預測（例如，在電子郵件中，短語“to whom”通常位於短語“it may concern”之前）。例如，給定乘法問題 57897×12832，ChatGPT——由於見過大量乘法問題——可能會推斷，以“7”結尾的數字和以“2”結尾的數字相乘，其乘積末尾數字將是“4”。但它會在中間部分遇到困難。ChatGPT 給我的答案是 742,021,104；正確答案是 742,934,304。

雲田·鄧（Yuntian Deng）是滑鐵盧大學專門研究人工智能的助理教授，在今年早些時候的一項研究中對 ChatGPT 的乘法能力進行了徹底測試。他和共同作者發現，默認模型GPT-4o在處理每個都包含超過四位數的兩個數字相乘時（例如 3,459 x 5,284）會遇到困難。

“GPT-4o 在多位數乘法上表現欠佳，在四位數乘四位數及以上的問題中準確率低於 30%，”鄧告訴 TechCrunch。“對於語言模型來說，多位數乘法具有挑戰性，因爲任何中間步驟中的錯誤都可能累積，導致最終結果不正確。”

那麼，ChatGPT 會永遠都缺乏數學技能嗎？或者是否有理由相信這個機器人有朝一日或許會像人類（或者就這方面來說，像 TI-84 計算器）一樣精通數字？

鄧滿懷希望。在這項研究中，他和他的同事還測試了o1，OpenAI 的“推理”模型，該模型最近被應用於 ChatGPT。o1 在回答問題之前會逐步思考問題，其表現比 GPT-4o 好得多，在解決九位數乘以九位數的乘法問題時，正確率大約爲一半。

“該模型解決問題的方式可能與我們手動解決的方式不同，”鄧說。“這使我們對模型的內部方法以及它與人類推理的差異產生好奇。”

鄧認爲，這一進展表明，至少某些類型的數學問題——乘法問題便是其中之一——最終將被類似 ChatGPT 的系統“完全解決”。“這是一項有着明確算法且定義清晰的任務，”鄧說。“我們已經看到從 GPT-4 到 GPT-1 有了顯著的改進，所以很明顯推理能力正在提高。”

只是別太快扔掉你的計算器。

ChatGPT 數學能力差的根源究竟何在？

相關資訊