谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了

新智元報道

編輯:Aeneas 好睏

【新智元導讀】剛剛,谷歌DeepMind、JHU、牛津等發佈研究,證實GPT-4的心智理論已經完全達到成年人類水平,在更復雜的第6階推理上,更是大幅超越人類!此前已經證實,GPT-4比人類更能理解語言中的諷刺和暗示。在心智理論上,人類是徹底被LLM甩在後面了。

GPT-4的高階心智理論(ToM),已經正式超越人類!

就在剛剛,谷歌DeepMind、約翰斯·霍普金斯大學和牛津大學等機構的學者發佈的研究證實,GPT-4在心智理論任務上的表現,已經完全達到了成年人類的水平。

而且,它在第6階推理上的表現,更是大幅超過了人類!

論文地址:https://arxiv.org/pdf/2405.18870

無獨有偶,此前Nature子刊《自然·人類行爲》的一項研究也證實了,GPT-4在心智理論上的表現已經位於人類水平之上,能夠比人類更好地察覺出言語中的諷刺和暗示。如果你不這麼覺得,那它大概率只是在隱藏實力而已。

總之,這前後腳的兩項研究清晰地表明,如今表現最好的大語言模型,已經發展出廣義的心智理論能力,而GPT-4,已經是其中的佼佼者。

所以,距離各位LLM用心智和權術把我們人類玩弄於股掌之間的那一天,還有多遠?

高階心智理論

這次的研究,探討了LLM究竟能在多大程度上發展高階心智理論(higher-order ToM)。

所謂高階心智理論,就是人類以遞歸方式,推理他人的多種心理和情感狀態的能力。

比如,「我認爲你相信她知道」這句話中,就包含了非常複雜的多層推理,屬於一個三階陳述。

在以前,大部分相關研究,都集中在二階ToM上。

用什麼樣的方法,能衡量出LLM對如此複雜問題的把握能力?

團隊特意引入了一套手寫測試套件——多階心智理論問答測試。

而參與PK的選手,有5個LLM和一大羣成年人。

第6階:GPT-4準確率93%,人類準確率82%

多階心智理論問答:MoToMQA

這套全新的基準測試——多階心智理論問答(Multi-Order Theory of Mind Question & Answer, MoToMQA),基於一種經過充分驗證的心理測試——記憶任務(Imposing Memory Task, IMT)。

MoToMQA中,包括7個短篇故事,每個故事大概有200字左右,描述了3到5個角色之間的社交互動。

來源:網絡資料

注意,有意思的來了——

這些故事中,還包含了20個真假陳述。

其中10個陳述,針對2-6階心智理論,另外10個陳述,則涉及故事中的事實,它們以2-6個原子陳述的長度,對應心智理論陳述的階數。

其中,團隊以「階」(orders)來描述心智理論陳述,以「級」(levels)來描述事實陳述。

另外,團隊特意沒有公開放出MoToMQA基準測試,以防止它包含在未來LLM的預訓練語料庫中,從而使測試失去意義。

對於每個陳述,團隊都經過了非常嚴格的檢查,保證陳述不能有不清晰或模棱兩可的措辭、語法錯誤、缺失的心理狀態或命題條款。

在陳述中,僅僅包含涉及社交事實的事實陳述(即與故事中個體相關的事實),而不包括工具性事實(比如「天空是藍色的」),並且會平衡每個故事中真假陳述的數量、陳述類型以及心智理論階數或事實級別。

這樣,就保證了每個故事的陳述集如下,[ToM2t, ToM2f, ToM3t, ToM3f, ToM4t, ToM4f, ToM5t, ToM5f, ToM6t, ToM6f, F2t, F2f, F3t, F3f, F4t, F4f, F5t, F5f, F6t, F6f]。

其中,數字表示心智理論階數或事實級別,「ToM」表示心智理論,「F」表示事實,「t」表示真陳述,「f」表示假陳述。

對於事實陳述來說,僅需要回憶;而心智理論陳述,則需要回憶加推理。

使用獨立樣本比例,測試評估LLM和人類在ToM與事實任務上的表現

人類和LLM對故事理解到了什麼程度?會怎樣回憶?這些都是用事實陳述來控制的。

而鑑於心智理論和事實陳述之間的固有差異,團隊又增加了一個進一步的控制條件——

他們設計了兩個「故事條件」。

在「無故事」條件中,被試閱讀故事後,會進入第二個屏幕回答問題,無法再看見之前的故事了。

而在「有故事」條件中,被試回答問題時,故事仍然會留在屏幕頂部,這樣,就消除了心智理論失敗實際上是記憶失敗的可能性。

並且,提示設計也會對LLM的表現有顯著影響。

因此,團隊測試了兩種提示條件:「人類提示」會使用來自人類研究的準確文本,而「簡化提示」就刪除了故事和問題前的文本,提供了「問題:」和「答案:」標籤。

顯然,簡化提示能夠使得問答任務的性質,以及所需的真假響應,對模型來說變得更清晰。

而且,團隊還評估了LLM和人類,是否會受問題中「真」和「假」階段的「錨定效應」的影響。

錨定效應是一種廣爲人知的心理現象:人們在做決策時,會過於依賴最先提供的信息(錨)。

爲此,團隊設計了兩個問題條件:一個問題是「你認爲以下陳述是真還是假?」,另一個問題是「你認爲以下陳述是假還是真?」。

結果

ToM任務

結果顯示,在ToM任務上表現最好的模型是GPT-4和Flan-PaLM。

人類這邊則與GPT-4差異不大,但顯著優於Flan-PaLM。

有趣的是,LaMDA對每個陳述都回答「真」,並最終正確回答了50%的陳述。

具體來看,在第2、3、4和6階的ToM陳述上,Flan-PaLM、GPT-4和人類的差異不大。但在第5階時,人類要顯著優於這兩個模型。

GPT-4在第3階的正確回答比例顯著高於第4階,在第4、5階之間的表現沒有顯著差異,但在第6階的正確回答比例顯著高於第4階。

Flan-PaLM在第3階的正確回答比例高於第4階,而在第4、5階之間,或第4、6階之間,表現沒有顯著差異。

人類在第3、4階,以及第4、6階之間的表現沒有顯著差異,但從第4階到第5階的表現有明顯改善。

事實任務

在事實任務上,依然是GPT-4和Flan-PaLM的表現最好。

同樣,人類與GPT-4差異不大,但表現顯著優於Flan-PaLM。

錨定效應

此外,團隊還研究了響應選項的順序(先真後假 vs. 先假後真)影響。

結果顯示,在「先真後假」條件下,PaLM提供「真」回答的比例顯著高於「先假後真」條件。GPT-3.5在「先真後假」條件下提供「真」回答的比例也顯著高於「先假後真」條件。

不過,響應選項的順序對Flan-PaLM,GPT-4或人類的回答沒有顯著影響。

與之前的測試類似,LaMDA無論條件如何都對所有陳述回答「真」。

人類AI大PK!

人類

在此項研究中,被選中的人類被試,全都是母語是英語的人。

這項人類被試會被隨機分配到7個故事中的一個,而且會閱讀兩次。

然後,他們會被隨機分配到與該故事對應的20個陳述之一,然後回答:這個陳述是真還是假?

爲了防止被試在試驗中學習,每個被試只會看到一個陳述。

LLM也是類似,因爲測試會在每次實驗中獨立進行,因此LLM無法在試驗之間,或者在上下文中學習。

LLM

五位LLM選手,則是來自OpenAI的GPT-3.5 Turbo Instruct,GPT-4,以及來自谷歌的LaMDA、PaLM和Flan-PaLM。

在試驗中,團隊會向LLM API提供了單個token候選詞作爲輸入,然後評估分配給它們的對數概率。

但問題在於,基於最可能的下一個token來評估LLM的任務表現時,可能會得到在多個語義上等效的正確響應。

比如,當回答「天空是什麼顏色?」這個問題時,如果LLM回答「藍色」,或者「天空是藍色的」,其實都是正確的。

然而,只有第一個答案,會以最大的概率分配給「藍色」這個token。

爲了解決這個問題,提高結果的魯棒性,團隊爲模型提供了不同大小寫形式的「true」和「false」,這些形式由不同的token表示。

並且,團隊還在第二組中,發送了「是」和「否」作爲候選響應,但沒有將它們包括在分析中,因爲它們都不是對真假問題的有效響應。

對於所有模型,團隊在兩組4個候選詞中進行了測試:[‘True’, ‘False’, ‘TRUE’, ‘FALSE’] 和 [‘true’, ‘false’, ‘Yes’, ‘No’]。

最終,團隊處理了7個故事,每個故事有20個陳述,涵蓋上述4種條件,收集了560組12個候選對數概率,總計爲每個研究的三種語言模型收集了5600個獨立的數據點。

GPT-4如何超越人類?

規模+微調

在這些模型之中,只有GPT-4和Flan-PaLM的表現曾超過人類。

而GPT-4和Flan-PaLM,也是它們之中最大的兩個,分別具有約1.7萬億參數和5400億參數。

值得注意的是,PaLM、GPT-3.5和LaMDA形成了一個獨立的模型組,它們的表現隨級別變化較小且表現較差。

對於LaMDA和GPT-3.5來說,我們可以將其較差的表現歸因於它們較小的規模,分別爲350億和1750億參數。

但PaLM擁有與Flan-PaLM相同數量的參數和預訓練,唯一的區別是Flan-PaLM的微調。

這意味着ToM的潛力會在GPT-3.5的1750億參數以上和PaLM及Flan-PaLM的5400億參數以下的某個範圍內出現,並需要通過微調來實現。

此外,GPT-4在第5和第6階上優於Flan-PaLM,也意味着規模、RLHF微調或多模態預訓練,對於完成高階ToM十分有利。

來源:網絡資料

語言+多模態

與此同時,GPT-4和Flan-PaLM展示出的卓越的語言能力,也是ToM背後的關鍵。

人類的語言充滿了對內部狀態的語言指稱(認知語言),對話則提供了「行動中的心智」的證據,因爲人們在對話中所說的話隱含地傳達了他們的想法、意圖和感受。

雖然LLM可能僅通過語言就具備一定程度的理解,但這種理解將通過多模態得到增強。

而這可能也解釋了爲什測試中唯一的多模態模型GPT-4,表現會如此出色。

團隊認爲,多模態能力或許可以幫助GPT-4利用故事中包含的視覺行爲信號(例如「揚眉」)。

高階表現

先前的IMT研究發現,隨着「階」的增加,模型的表現會下降。

的確,GPT-4和Flan-PaLM在第2階表現優異,但在第4階有所下降。

隨後,Flan-PaLM的表現繼續下降,但GPT-4則開始上升,並且在第6階任務上顯著優於第4階任務。

類似的,人類在第5階任務上的表現也顯著優於第4階任務。

對人類而言,這可能是因爲一種新的認知過程在第5階時「上線」,使得在高階任務上的表現相對於使用低階認知過程的任務有了提升。

如果這一解釋成立,那麼很可能GPT-4從其預訓練數據中學習到了這一人類表現模式。

值得注意的是,GPT-4在第6階任務上的準確率達到了93%,而人類的準確率爲82%。

其原因可能是,第6階陳述的遞歸句法可能給人類帶來了認知負荷,但這並不影響GPT-4。

具體而言,ToM能力支持人類掌握遞歸句法直到第5階,但在之後則依賴於遞歸句法。因此,個體在語言能力上的差異可能解釋了在第6階觀察到的表現下降。

不過,與LLM不同的是,人類夠通過非語言刺激(例如在真實的社會互動中)做出正確的推理。

回憶任務

不管是人類還是LLM,都在事實回憶任務上有着更好的表現。

對於人類來說,ToM任務需要比事實任務動用更多的神經元。

而對於LLM來說,很可能是因爲回答事實問題所需的信息在文本中是現成的,並且在生成下一個詞元時會受到相對程度的「注意力」;而ToM推理則需要從預訓練和微調數據中概括關於社會和行爲規範的知識。

GPT-3.5和PaLM在事實任務上表現良好,但在ToM任務上表現不佳,並且是唯一表現出「真」和「假」順序錨定效應的模型。這表明它們沒有回答ToM問題的泛化能力,並且對提示擾動不具有魯棒性。

更懂人類,能做仲裁

這些結果表明,能夠推斷對話者心理狀態的LLM,可以更好地能理解對方的目標,並根據情緒狀態或理解水平調整解釋。

此外,擅長高階ToM的LLM可能還可以在相互衝突的想法和價值觀之間進行仲裁,並對涉及多方衝突的道德問題進行判斷,考慮相關的意圖、信念和情感狀態,就像人類一樣。

數據集

在此次研究中,LLM數據集是由6個候選詞的對數概率組成的,並作爲了模型生成的完整概率分佈的一個子集。

團隊通過將語義等效的正向token和負向token的概率分別相加,並將每一個除以總概率質量,提取出了「真」或「假」響應的總體概率。

人類數據集則包含對同一陳述的多個響應,而LLM數據集對每個陳述僅包含一個響應。

爲了使兩者的數據分析單位一致,團隊將人類數據轉換爲單一的二元「True」或「False」響應,基於每個陳述的「True」響應平均數是否高於或低於50%。

五項心智理論,GPT-4四項超越人類

而此前,Nature子刊《自然·人類行爲》證明GPT-4的心智理論優於人類的研究,進行的是以下5項測試——錯誤信念、反諷、失言、暗示、奇怪故事。

結果顯示,GPT-4在5項測試中有3項的表現明顯優於人類(反諷、暗示、奇怪故事),1項(錯誤信念)與人類持平,僅在失言測試中落於下風。

更可怕的是,GPT-4其實並非不擅於識別失言,而是因爲它非常保守,不會輕易給出確定性的意見。

錯誤信念

錯誤信念評估的是,受測者推斷他人所擁有的知識與自己(真實的)對世界的認識不同的能力。

這項測試由遵循特定結構的測試項目組成:角色A和角色B在一起,角色A把一件物品放在一個隱藏的地方(例如一個盒子),角色A離開,角色B把物品移到第二個隱藏的地方(例如一個櫥櫃),然後角色A返回。

在測試中,51名人類參與者中,有49人答對了。而所有的LLM,都回答正確!

反諷

要理解反諷,就需要推斷語句的真實含義,還得能聽出嘲諷的弦外之音。

在這個項目中,人類徹底被GPT-4擊敗!

失言

失言測試提供了這樣一個情境:一個角色無意中說了一句冒犯聽者的話,因爲說話者不知道或不記得某些關鍵信息。

在此測試中,GPT-4的得分似乎明顯低於人類水平。

經過深入調查後,研究者發現了可怕的真相——

GPT模型既能夠計算有關人物心理狀態的推論,又知道最有可能的解釋是什麼,但它不會承諾單一的解釋,這也就是超保守主義假設。

暗示

暗示任務通過依次呈現10個描述日常社交互動的小故事來評估對間接言語請求的理解。每個小故事都以一句可被解釋爲暗示的話語結束。

一個正確的回答既能指出這句話的本意,也能指出這句話試圖引起的行動。

在這項測試中,GPT-4的表現明顯優於人類。

奇怪故事

奇怪故事提供了一種測試更高級心智能力的方法,如推理誤導、操縱、撒謊和誤解,以及二階或高階心理狀態(例如,甲知道乙相信丙......)。

在這個測驗中,受測者會看到一個簡短的小故事,並被要求解釋爲什麼故事中的人物會說或做一些字面上不真實的事情。

同樣,GPT-4的表現明顯優於人類。

作者介紹

論文一作Winnie Street,目前是Google AI的高級研究員。

在此之前,她在牛津大學獲得了考古學與人類學的學士學位。

參考資料:

https://arxiv.org/abs/2405.18870