召喚100多位學者打分,斯坦福新研究:「AI科學家」創新確實強

機器之心報道

編輯:Panda、蛋醬

近日,一篇關於自動化 AI 研究的論文引爆了社交網絡,原因是該論文得出了一個讓很多人都倍感驚訝的結論:LLM 生成的想法比專家級人類研究者給出的想法更加新穎!

我們都知道通過調節 LLM 的溫度值確實可以調整它們的隨機性和創造性,但在科學研究方面比人類還懂創新?這還是超乎了很多人的想象 —— 至少很多人沒想到這會來得這麼快。難道 AI 科學家真的要來了?

那麼,這項來自斯坦福大學的研究究竟得出了什麼樣的結論呢?

LLM 能生成新穎的研究思路嗎?

爲了準確地對比 LLM 與人類在科研思路創新方面的能力,斯坦福大學的這個研究團隊招募了 104 位 NLP 研究者,讓其中 49 位寫下創新研究想法,然後再讓 79 位專家對 LLM 和人類給出的思路進行盲測。請注意,其中有 24 位人類專家既寫了想法,也參與了盲測,當然他們並不評估自己寫的內容。

模型(或者按該團隊的說法:思路生成智能體)方面,該團隊使用了 claude-3-5-sonnet-20240620 作爲骨幹模型。具體來說,給定一個研究主題(比如:可以提升 LLM 事實性並降低其幻覺的提示方法),讓 LLM 生成一系列對 Semantic Scholar API 的函數調用。這個論文檢索動作空間包括 {KeywordQuery (keywords), PaperQuery (paperId), GetReferences (paperId)} 。每個動作生成都基於之前的動作和已執行的結果。

該研究使用的研究主題有 7 個:偏見、編程、安全性、多語言、事實性、數學和不確定性。下表是各個主題的想法數量:

研究過程如下圖所示:

這裡我們不細說其詳細的設置和評估過程,詳見原論文。總結起來就是比較人類專家與 AI 智能體生成的科研思路的新穎程度。我們直接來看結論。

根據該團隊思路評分(Idea Ranking)規則,他們對人類和 AI 提出科研思路進行了打分,見圖 2 和表 7:

其中 Human Ideas 是指招募的專家研究者提出的思路,而 AI Ideas 則是 LLM 智能體給出的排名第一的思路。AI Ideas + Human Rerank 是指由 AI 生成思路但由本研究一作 Chenglei Si 手動從排名靠前的思路中選擇他認爲最好的一個。

可以看到,在新穎度方面,不管是 AI Ideas 還是 AI+Rerank,都顯著優於 Human Ideas(p < 0.01)。在激動人心(excitement)分數上,AI 生成的思路的優勢更是明顯(p<0.05)。並且 AI Ideas + Human Rerank 的整體分數也優於人類(p<0.05)。不過 AI 生成的思路在另外兩方面(可行性和有效性)與人類的差別不大。

當然,我們也能看出,這項調查研究有一些明顯的侷限,比如其調查範圍較小,樣本量太少了,評價很主觀。另外作者也指出人類研究者可能會「藏私」,可能並不會分享自己的最佳想法。

不管怎樣,這項研究證明了一點:讓 AI 參與到科學研究中多半是有利的。尤其是當你靈感枯竭、思維阻塞時,問一問 LLM 或許就能有意想不到的收穫。

生成創新想法的 AI 工具,正在不斷涌現

實際上,已經有研究團隊在打造專用於此類任務的 AI 工具了。比如近日一位專注於開發 LLM 應用的研究者 Shubham Saboo 就在社交網絡分享了使用 Cursor 構建一個多智能體 AI 研究者的過程。他表示整個過程用時不到 5 分鐘!參見如下視頻:

視頻鏈接:https://mp.weixin.qq.com/s/XHrQ2espDn9SdB9LlcOBvw

也有人分享了自己的一項相關研究,表示可以使用 LLM 和因果圖譜自動生成心理學假設,並生成比 GPT-4 和博士生表現都好:

近日,印度科學學院(Indian Institute of Science,IISc)的研究者發現,AI 在設計創意方面也比人類更有想法。具體來說,AI 可通過一種新的人工智能會話式「主動構思」(Active Ideation)界面來生成新創意。作爲一種創意構思生成工具,它可幫助新手設計師緩解一部分的初始延遲和構思瓶頸。

具體來說,這是一種動態、交互、上下文響應式方法,通過大型語言模型(LLM)主動參與,爲不同的設計問題生成多個潛在創意陳述。論文稱之爲「主動構思場景」,它有助於促進基於對話的持續互動、對上下文敏感的對話以及多產的構思生成。

在當前的很多研究設計中,從書面信息到基於關鍵詞的在線資源檢索的轉變至關重要。這強調了文本在轉變思維模式和通過發展高級設計語言促進系統化構思方面的重要性。下表 1 總結了最常用的傳統構思技術、其過程、侷限性、涉及的認知原則以及在產生創意方面的預期結果。

雖然這些傳統方法已被廣泛使用,但它們往往無法爲新手設計師提供積極的支持。在產生新穎想法的過程中,原創性和多樣性主要依賴於設計者。這一空白標誌着將人工智能與構思相結合的潛力。

這篇論文就深入探討了對話式人工智能(CAI)系統的設計、開發和潛在使用案例,重點是比較基於 CAI 的構思工具與傳統方法的效率。

有兩個有趣的特點使 CAI 系統看起來很智能:(a) 能夠就給定主題生成智力上可接受的文章,(b) 能夠在先前交互的基礎上生成對後續詢問的回覆。這使得交互成爲關於特定主題的連貫對話。因此,如果特徵(a)是對一個觀點的描述,那麼特徵(b)就可以被構建爲對該觀點的闡述和澄清。

如圖 3 所示,這項研究設計並開發了一個主動構思界面,使用了生成式預訓練 Transformer(GPT)對話式人工智能系統,該系統嵌入了一個交互式情緒板(moodboard)。GPT 爲自然語言交互提供了基礎,使其能夠根據用戶輸入做出響應並生成創意陳述,情緒板提供了一種快速記錄這些想法的手段。因此,該界面爲設計師提供了一個對話式的直觀平臺,由 GPT 驅動創意生成。

由於本研究調查的是建議的基於 CAI 的構思界面對新手設計師的潛在益處,因此招募了 30 名產品設計研究生(下圖),分爲 A 和 B 兩組。

論文對這 30 名新手設計師進行了試點研究,讓他們使用傳統方法和基於 CAI 的新界面,針對給定問題產生創意。然後,讓專家小組使用流暢性、新穎性和多樣性等關鍵參數對結果進行了定性比較。

研究結果表明,本文所提出的 AI 工具在生成多產、多樣和新穎的想法方面非常有效。通過在每個構思階段加入提示設計的結構化對話風格,使界面更加統一,更方便設計者使用。結果發現,這種結構化 CAI 界面所產生的反應更加簡潔,並與隨後的設計階段(即構思階段)保持一致。

從圖 5(a)中可以看出,68% 的專家認爲 GPT 產生的想法更有意義。此外,圖 5 (b) 顯示,GPT 生成的語句的得票率始終高於設計者生成的想法。

下表是 A 和 B 兩組的想法陳述對比:

以下是不同維度下,人類與 GPT 構思的評估結果對比:

更多研究細節,可查看原論文。

結語

創新,長久以來被視爲人類不可被機器觸及的領地,然而,LLM 所展現的「幻覺」現象卻悄然打開了這扇門,揭示了創新機制可能並非我們想象中那般高不可攀。

近期在 AI 創造性研究領域的突破,預示着 AI 在創意之路上或將迎來前所未有的廣闊天地。展望未來,或許在不遠的將來,我們將見證 AI 科學家、AI 導演、AI 設計師們紛紛揮灑創意,它們的作品將點亮 AI 應用的嶄新篇章。