用「AI人」模擬社會學實驗,居然成功了?斯坦福、NYU用GPT-4模仿人類,準確度驚人!

新智元報道

編輯:Aeneas

【新智元導讀】斯坦福和NYU的研究者發現,GPT-4這樣的「AI人」,可以被用來複制社會科學實驗了。調查了1萬個AI,結果比真人還真?

最近,斯坦福和NYU的一項研究發現,GPT-4能夠很好地模擬人類,高精度地複製社會科學實驗了!

論文地址:https://docsend.com/view/qeeccuggec56k9hd

通過提示,AI可以以隨機人口統計特徵的形式回答調查問題,調查了數千名「AI人」後,一份社會科學實驗報告就順利出爐了。

點進這個頁面,就可以使用這個演示,模擬被試生成預測的實驗效果了

社會科學實驗中最困難的過程之一,就是田野調查了。

而現在,可以採用LLM預測社會科學實驗的結果了?

不過有個問題:用LLM模擬真實的人類,結果能準嗎?

研究者發現,在70項研究中,模擬效果和觀察到的效果,存在驚人的一致性。

準確性超越人類專家

用LLM進行社會科學實驗,預測的準確性有多高?

研究者使用GPT-4,從70個實驗中預測了465種效應。

其中包括

-通過NSF資助的TESS計劃進行的50項調查實驗

-20項額外的重複研究

給模型的提示詞,是(a)從美國人的代表性數據集中提取的人口統計資料和(b)實驗刺激。

通過彙總模型響應估計的效果,可以看出它們與實際的實驗效果密切相關!

另外研究者們還發現,隨着模型的演進,它們的預測準確性越來越高。

到了GPT-4時,已經超越了美國人在線樣本(N=2,659)的預測。

這裡就有人要問了:有沒有可能,LLM只是從訓練數據中檢索和重現已知的實驗結果呢?

研究者找到了證據,證明並非如此。

他們特意找到了GPT-4訓練數據截止時未發表的研究,發現預測的準確性仍然很高。

我們找到了反對這一點的證據:僅分析 GPT4 訓練數據截止時「未發表」的研究,我們發現預測準確性很高。

不過還有一個問題,此前人們曾發現,訓練數據中的歧視,會引發LLM的偏見。

這些偏差是否會影響實驗結果預測的準確性呢?

爲此,研究者從以下三方面,對結果進行了比較:

- 女性和男性

- 黑人和白人

- 民主黨和共和黨

結果顯示,儘管已知訓練數據不平等,但LLM得出的預測準確性,在各個亞組之間仍然具有可比性。

然而,研究的實驗效果幾乎沒有異質性,因此,還需要更多的研究,來評估LLM實驗結果的預測是否存在偏差,以及是怎樣的偏差。

此外,研究者還評估了大型研究的預測準確性,比較了大量干預措施的影響。

通過9項調查和實地大型研究可以發現,LLM得出的預測相當準確。

尤其值得注意的是,它們的準確性已經等同或超過了人類預測專家。

最後,研究者發現LLM可以準確預測對社會有害結果的影響,例如FB上antivax的帖子對vax意圖的影響。

這種能力,可能產生積極的用途,比如幫助內容審覈,不過也同時凸顯了濫用的風險。

總的來說,這項研究發現,LLM在實驗中給出的預測,要比外行和人類專家的樣本都更準確。

這種能力,在科學和實踐方面有多種應用。

比如,運行低成本的試點,來確定有希望的干預措施,或模擬可能對參與者有害的實驗。

不過也存在侷限性和風險,包括偏見、過度使用和誤用。

用LLM複製社會科學實驗,可行嗎?

LLM是一種最新的機器學習模型,經過大量人類語言語料庫的訓練後,它們具有驚人的能力來模擬人類如何思考、交流和行爲。

因此,它們能夠模仿廣泛的人類高級能力,例如社會互動和協調、道德判斷、談判、情感支持和說服。

隨着LLM越來越能夠模擬人類語言的使用,那它們能否被用於社會和行爲科學的研究呢?

在這項研究中,研究者探討了LLM是否可以用於準確預測行爲的結果實驗。如果有效,這種能力就能爲建立科學理論和行爲干預帶來無數好處。

他們檢查了先進的公開LLM——GPT-4,是否可用於預測在大量有力的、預先註冊的、具有全國代表性的實驗中觀察到的原始實驗效果(a)NSF 資助的多學科社會科學分時實驗(TESS)計劃和(b)最近複製研究的檔案,它們共同代表了廣泛的不同領域(例如社會心理學、政治學、社會學、公共政策、公共衛生)。

研究者讓GPT-4模擬了大量不同人口的美國人樣本對實驗刺激的反應。

然後,他們比較了不同實驗條件下的平均響應,以生成LLM預測的實驗效應大小,然後將其與原始實驗效應相關聯。

研究者評估了LLM得出的預測對一般美國人和具有獨特學術興趣的幾個亞羣體的準確性,系統地對LLM用於預測調查實驗中觀察到的干預效應的能力進行了基準測試。

最後,他們超越了這個初步的測試檔案,收集並分析多種大型多處理實驗,包括涉及行爲測量的研究、干預措施的現場測試和政策影響評估,以更好地評估LLM預測實驗結果的價值和當前侷限。」

結果顯示,LLM雖然不會取代人類被試,但廉價、快速且可能大量開展基於LLM的試點研究的能力,可以幫助研究人員確定更有前途的研究想法,促進理論和假設的建立,更好地估計未知的效應大小,以確定所需的效果樣本大小,並優先考慮需要復現的已發表研究。

這種能力也可能具有應用價值。例如,政策制定者可以利用LLM來有效評估許多公共信息傳遞方法,以鼓勵理想的行爲(例如公共衛生行爲、福利計劃註冊)。

目前,預測實驗結果的最佳可用工具是從專家或非專業預測者那裡收集預測。

然而,雖然有時具有預測性,但系統地收集預測既耗時又昂貴,而基於LLM的低成本工具,可以使預測性預測廣泛可用。

研究者研究了LLM在代表性樣本調查實驗中準確模擬人類反應的能力。

他們使用LLM,來模擬了人類對各種主題(包括人格特質、道德判斷和政治態度)的調查問題的反應,並取得了不同程度的成功。

研究概述

他們研究了是否可以利用當前一代的LLM,來準確預測在美國進行的社會科學實驗效果的方向和程度。

他們首先建立了一個大型的多學科測試檔案,其中包含通過美國國家科學基金會資助的50個調查實驗——2016年至2022年社會科學共享實驗(TESS)項目,全部在全國代表性概率樣本上進行。

我們通過最近的複製項目中的另外20項實驗對此進行了補充,這些實驗也是在全國代表性樣本上進行的。

對於每個實驗,他們都重新分析了原始的、公開的數據集,使用一致的分析方法估計所有實驗對比。

這個測試檔案有幾個優點。

首先,實驗質量高:它們都是高度統計、預先註冊、同行評審、針對全國代表性樣本進行,並且材料是開放獲取的。

使用具有全國代表性的美國人樣本特別有價值,使他們能夠評估LLM對人口亞組的預測的準確性。

其次,檔案內容廣泛且多樣化。

這些實驗由來自不同領域(例如政治學、心理學、社會學、社會政策、公共衛生、傳播學)的77名社會和行爲科學家設計,並測試了許多不同類型的實驗治療的效果(例如框架效應、顯着性)主題、啓動社會身份對一系列結果(如政治、文化和宗教態度、對少數羣體的偏見、幸福)的影響。

第三,研究者不依賴他人的分析,而是採用致的分析方法來估計實驗治療效果。這樣做可以讓他們避免研究人員的偏見,還可以估計所有可能的實驗對比,包括原始研究人員沒有假設的那些影響,因爲它們不太可能在已發表或公開發表的論文中出現。

第四,在GPT-4訓練數據窗口結束時,大量實驗的結果尚未發表或公開發布,這樣研究者就能專門測試LLM在GPT-4無法接觸過的實驗中的預測能力。

當然,測試檔案也有重要的侷限性。最關鍵的是,它只包含代表美國人口的研究,無法在該範圍之外進行評估。

此外,雖然它包括來自多個學科的研究,但許多學科並未包括在內(例如認知心理學、行爲經濟學、發展經濟學、營銷學)。

最後,檔案完全由基於文本的刺激和自我報告的相關測量的調查實驗組成,不包括現場實驗、行爲因變量或圖像或視頻刺激。

爲了開始解決主要測試檔案的一些侷限性,研究者對下面的補充數據集進行了額外的分析。

他們的研究設計如下圖所示。爲了對測試檔案中的實驗結果生成基於LLM的預測,他們獲得了原始研究材料,包括所有實驗條件、結果變量和反應量表的刺激文本。

從廣義上講,LLM可以被提示(a)直接預測實驗結果,或(b)模擬個體參與者對實驗刺激的反應。

這裡,研究者採用了後一種策略。

他們向LLM提出了:

(a)介紹性信息(如「您將被要求預測人們對各種信息的反應」),包括對研究背景的簡要描述;

(b)研究參與者的具體人口統計概況模仿——包括有關性別、年齡、種族、教育、意識形態和黨派偏見的信息,從具有全國代表性的大型樣本中隨機抽取;

(c)實驗刺激的文本;

(d)用於評估結果的問題文本變量,以及結果啦應量表和標籤。

然後,他們提示LLM估計參與者在受到實驗刺激後將如何迴應結果問題。

他們使用了集成方法來減少對任何單一提示格式的特殊響應。

對於每個實驗條件和結果測量,研究者都對所有LLM的響應進行了平均。

結果

爲了評估當前一代的LLM是否可以用來預測實驗中的干預效應,研究者首先檢查了GPT-4預測的干預效應與實際估計的干預效應之間的相關性。

在對從存檔中的70個實驗計算出的476個實驗效果進行分析時,可以發現GPT-4得出的預測與原始效果大小密切相關。

僅檢査在原始實驗中具有統計顯著效果的成對對比,可以發現對於90%的對比,GPT-4得出的預測方向是正確的。

以下幾個圖,顯示了LLM在美國進行的基於文本的社會科學實驗中,得到了準確的預測效果。

(a)在包含70個基於文本的實驗(具有476個效果)的數據集中,LLM得出的對許多提示的干預效應的估計,與原始干預效應密切相關。

(b)LLM得出的預測的準確性,在幾代LLM中得到了提高,其準確性超過了從一般人羣中收集的預測。

(c)對於那些不可能出現在LLM訓練數據中的研究,LLM得出的預測仍然高度準確,因爲這些研究沒有在LLM訓練數據截止日期之前發佈。

(d)在各個實驗子集的穩健性檢査分析中,LLM得出的預測的準確性仍然很高。在面板A和中,不同的顏色代表不同的研究。

LLM得出的預測(a)在各個亞組中的準確性相似,並且(b)當存在效應異質性時,交互效應相當準確。圖中描繪了減弱的相關性。

參考資料:

https://www.treatmenteffect.app/