MIT華人博士共同一作:用概率程序建模,破解世界模型!
新智元報道
編輯:Joey
【新智元導讀】前不久Meta剛發佈了「類人」的人工智能模型 I-JEPA,而近日,來自MIT和斯坦福的學者,又提出了世界模型的新架構——理性意義構建模型( Rational Meaning Construction),首次將自然語言的神經模型與概率模型相結合。
語言如何影響思維?人類如何從語言中獲取意義?
這兩個基本問題是我們構建類人智能的關鍵。
長久以來,理想中的AI,一直是通往人類水平的AI,爲此業界大牛Yann LeCun還曾提出了「世界模型」的構想。
他的願景是,創造出一個機器,讓它能夠學習世界如何運作的內部模型,這樣它就可以更快速地學習,爲完成複雜任務做出計劃,並且隨時應對不熟悉的新情況。
而最近麻省理工大學和斯坦福的學者提出了一個理性意義構建模型( Rational Meaning Construction),這是一種用於語言信息思維的計算框架,可將自然語言的神經模型與概率模型相結合。
論文第一作者是來自麻省理工大學大腦與認知科學學院的一名五年級博士生。
他們將語言意義定義爲從自然語言到概率思維語言(PLoT)的上下文相關映射——概率、生成世界建模的通用符號基礎。
這種架構集成了兩種以前從未結合在一起的強大計算工具:他們用概率程序對思維進行建模,並通過大型語言模型(LLM)對意義構建進行建模。
論文鏈接:https://arxiv.org/abs//2306.12672
Github鏈接:https://github.com/gabegrand/world-models
現在以ChatGPT爲代表的大語言模型大熱,一會兒語言模型一會兒自然語言處理的一下容易搞不清楚,這裡的「語言」又和語言學有什麼關係?
首先從學科劃分來說,語言學是語言學,大語言模型和自然語言處理則屬於人工智能學,第一個概念是一個學科,第二、三個概念屬於另一個學科。
大語言模型和自然語言處理不是「與」的關係,也即不是並列關係。自然語言處理是研究如何用人工智能的方式來處理文本內容,方式有很多,其中有一種叫「語言模型」的方式。
從人工智能的角度來看,語言模型與其說是一種模型,不如說是一種用於訓練模型的預測任務。
通俗來講,是根據給定一串文本要求模型預測下一個詞,或者在一串文本中間挖走一個詞要求模型做完形填空。模型通過不斷迭代提升預測性能。
有網友還貼心的歸納了世界模型的迭代規律。
說了那麼多,下面來看看這次提出的模型架構。
模型架構
語言信息思維的計算方法依賴於神經符號連續體:一方面,經典符號模型(Classical symbol models)(右上)產生系統的、結構化的推論,但通常僅限於狹窄的語言領域,並且通常需要手工設計。
另一方面,大型語言模型(左上)在開放域自然語言方面取得了非凡的能力,但難以在支持連貫的推論、預測和計劃的一致的世界狀態中進行推理。
而我們的理性意義構建框架將語言信息思維分解爲兩個模塊:
意義函數將自然語言轉換爲概率編程語言(PPL)語句,這些語句代表符號世界模型的語言意義。
推理函數計算可能世界空間上與語言信息一致並以語言信息爲條件的概率。
與傳統的認知觀點一樣,思維的核心是構建通用表示,用於對世界上的實體和事件進行建模,足以支持不確定性下的理性、連貫的推論,並規劃實現我們目標的行動。
然後,我們考慮語言如何與該架構相關聯,以支持基於語言的思維——語言如何建立世界建模和推理,以指導、約束和驅動我們的下游思維,並培養新的思維能力。
接下來是構成本文推理核心的四個領域:
概率推理(Probabilistic reasoning)需要整合稀疏的證據來預測不確定事件的結果,例如拔河比賽的獲勝者
關係推理(Relational reasoning)涉及基於關係信息維護和更新有關結構化領域(例如家譜)的連貫信念
感知和物理推理(Perceptual and physical reasoning)將語言與我們對外部世界物體的感覺和直觀物理知識聯繫起來,例如桌面上的廚房用品。
社會推理(Social reasoning)涉及對其他智能主體的思想進行推理,例如他們的目標、偏好和環境如何影響他們在世界中航行時的行爲
在所有領域,我們提出了一個統一的框架,將語言轉換爲概率編程語言的代碼,以促進類人推理。
他們從理性、概率的角度對生物智能和人類語言進行了三項觀察:
對智能思維的理性視角
生物智能包含許多計算能力。我們在這裡關注的基本思想概念集中在理性推理和決策上爲自己的目標服務,從這個角度來看,思想包含了對世界進行建模的系統。
對語言的理性看法
與思想一樣,語言也包含許多系統和能力,我們對語言採取廣泛的理性視角——我們認爲語言是一種以目標爲導向的行動系統,用於將思想外化並與其他智能生物進行交流。
對語言和思想的資源理性視角
最後,我們對語言和思維的綜合計算方法建立在人類是資源理性思考者的廣泛證據之上,在時間和內存有限的約束下,我們合理分配計算資源,以便做出有用的推論。
爲了說明我們的框架,讓我們考慮一個具體場景,重點關注在給定預先指定的世界模型的情況下根據語言進行推理。
假設一位朋友正在向您講述之前發生的一場拔河比賽:
(A) 生成模型定義了兩個潛在特徵,即「力量和懶惰」,並指定了它們如何相互作用以確定團隊強度。通過結合 (A) 和 (B),我們可以少量提示LLM進行翻譯,將開放式自然語言 (C) 轉化爲 Church 語句 (D),捕獲該領域的語言意義。
由此產生的概率推論透明地代表了模型的信念,並且自然地捕捉關於玩家潛在特徵的類似人類的直覺。
面對世界模型的不確定性,我們輸入問題如,「如果他們再次比賽,喬什會擊敗加布嗎?」
在我們的框架中,我們將問題轉化爲Church中的查詢語句,以評估興趣的數量。
調用查詢會觸發概率計算,模擬模型下可能的世界,並受到迄今爲止任何觀察的約束。
查詢表達式在每個模擬世界中進行評估,產生多個樣本,這些樣本形成感興趣值的後驗分佈。
在本工作的整個示例中,我們自由地交織查詢和條件語句,就像自然對話中的事實陳述之間偶爾會出現問題一樣。
此行爲是通過讀取-評估-打印循環 (REPL) 實現的,該循環根據出現的所有條件語句評估查詢對話歷史中的那一點。
在我們的模型中,我們假設用戶指定每個話語是否是條件或查詢,但大語言模型可能可以準確地對未註釋的話語進行分類。
結論
人類語言的意義理論應該解釋語言如何與我們的思想相關,這一願景是人類語言和意義理論的核心,但人工智能最廣泛的願景長期以來也是計算機共享我們的語言,能夠像我們期望被其他人理解的那樣有意義地理解我們。
當今的大型語言模型在許多重要方面都在構建這一現實方面取得了驚人的進步,我們第一次構建了能夠流利地與我們對話的計算機系統。
不過,我們還需要做更多的工作來捕捉我們自己與語言的關係。我們不像大型語言模型那樣學習語言。我們首先思考,然後從少得多的輸入中學習語言如何映射到我們的思想中。
我們自己的世界模式和信仰並不是我們從語言中收集到的脆弱的副產品——它們是我們認知的基礎和核心,是爲了我們的意圖和願望而有目的地構建和維護的。
通過使用神經模型將句子翻譯成概率程序,我們解決了世界模型如何從描述不確定情況、關係結構、具體情況和目標導向推理的語言中提取含義並推理引擎如何推理。
同時也留下了許多懸而未決的問題,例如如何將該框架擴展到更復雜的語言,以及如何自動化爲新領域構建意義表示的過程。
這些問題共同爲解決跨越人工智能和認知科學的許多子領域建模語言、推理及其交互方面的核心挑戰提供了路線圖。
參考資料:
https://arxiv.org/pdf/2306.12672.pdf
https://twitter.com/arankomatsuzaki/status/1672048278886658049