☰

整合海量公共數據，谷歌開源AI統計學專家DataGemma

新智元報道

編輯：alan

【新智元導讀】近日，谷歌推出了自己籌劃已久的大型開源公共統計數據庫，以及在此基礎上誕生的大模型。——「AI統計學專家」能解決幻覺嗎？

準確的統計數據、時效性強的信息，一直是大語言模型產生幻覺的重災區。

知識是現成的，但學是不可能學的。

並非此身惰怠，只因現實太多阻礙。

對於這個問題，谷歌在近日推出了自己籌劃已久的大型數據庫Data Commons，以及在此基礎上誕生的大模型DataGemma。

論文地址：https://docs.datacommons.org/papers/DataGemma-FullPaper.pdf

Data Commons是一個龐大的開源公共統計數據存儲庫，包含來自聯合國 (UN)、疾病控制與預防中心 (CDC) 、人口普查局、衛生部、環境機構、經濟部門、非政府組織和學術機構等可信來源的大量統計數據。

目前，整個語料庫包含超過2500億個數據點和超過2.5萬億個三元組。

數據有了，模型要怎麼處理？

本文提出了一種將LLM橋接到數據的通用架構，並探討了需要解決的三個問題。

首先，LLM必須學會在適當的時機選擇，是使用存儲在模型參數中的知識，還是從外部獲取信息。

當然了，關於何時查詢外部源這件事，需要LLM學到自己的參數裡，這可以採用多種機制來實現。

其次，需要決定應該從哪個外部源查詢所需的信息，因爲可用的信息源可能很多而且是動態的。在本文中，作者直接使用單一外部信息源來包含大量數據源。

最後，一旦明確了需要哪些外部數據，LLM就需要生成一個或多個查詢來獲取這些數據。

一般來說，不同的來源會產生不同類型的數據，如果LLM還要專門去學習各種API就有點麻煩了。因此，作者開發了用於外部數據和服務的單一通用API。

API的靈感來自於Robert McCool在1993年設計的URL參數編碼接口，雖然簡單，卻經受住了時間的考驗，是目前在網絡上最接近通用API的接口。

作者使用自然語言來表達查詢，返回的答案可以用mime-type來增強，以允許非文本答案。

搞定了這些，一個能夠充分利用最新最全外部數據的「AI統計學家」（或者叫統計學魔術師）就誕生了。

DataGemma

對於Data Commons這麼龐大的數據源，想要被LLM正常使用，需要面對一些現實的挑戰：

比如「世界上排名前5的二氧化碳排放國是哪些國家？」；更復雜一點的比如「加利福尼亞州是世界上最大的經濟體嗎？」（這裡面暗含了所比較的實體——加利福尼亞州與其他國家/地區相比，而不是美國各州）；或者「煤發電量高的美國各州，慢性阻塞性肺病發病率也很高嗎？」（這涉及到實體和指標之間的比較）。

之前的工作利用了兩種方法來緩解這些問題：使用工具和檢索增強生成（RAG）。

前一種方法會調整LLM來生成一種標記語言，能夠將自然文本與對外部工具的函數調用穿插在一起。爲了對抗幻覺，工具可能會查詢數據庫或搜索引擎。

而在RAG中，輔助檢索系統從大型語料庫中識別與用戶查詢相關的背景知識，然後用這些知識來增強用戶的查詢。

本文作者以谷歌開源的Gemma和Gemma-2模型爲基礎，分別利用檢索交錯生成（RIG）和RAG微調出兩個新的版本。

開源模型：https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

數據共享

Data Commons的數據共享涉及兩項創新。

首先，研究人員花了數年時間訪問大量公開可用的數據集，追蹤數據背後的假設，並使用Schema.org（一種用於編碼結構化數據的開放詞彙表）對它們進行規範化，最終形成了一個包含所有數據的通用知識圖譜。

其次，研究人員使用LLM創建一個自然語言界面，允許用戶用通用語言提出問題，並通過圖表等方式來探索龐大的數據庫。

需要明確的是，LLM只是將查詢轉換爲Data Commons中的詞彙表，不會與底層數據交互，也不會生成輸出，因此不必擔心出現幻覺之類的問題。

當前的方法是利用這個自然語言接口，教導LLM何時以及如何與Data Commons的接口進行通信。

對齊方面，作者採用LIMA（一種指令調整和強化學習方法），遵循少即是多的原則，利用數量少但質量很高的一組示例，使最終任務與用戶偏好保持一致。

RIG 與 RAG

接下來介紹將LLM與Data Commons連接的兩種不同方法：

RIG

檢索交錯生成 (RIG)，是一種受使用工具啓發的方法，將LLM進行微調以生成自然語言數據共享查詢，然後，多模型管道將此查詢轉換爲結構化數據查詢，用於從Data Commons數據庫檢索答案。

如上圖所示，這裡擴展了RIG管道的步驟。首先是經過微調以生成自然語言查詢的模型；接着是後處理器，將自然語言查詢轉換爲結構化數據查詢；最後一個組件是查詢機制，從Data Commons檢索統計答案並使用LLM生成。

當向LLM提出統計查詢時，通常會生成包含數字答案的文本（如下圖所示）。這時可以根據數字（LLM-SV）相關的上下文，在Data Commons數據庫中匹配最相關的值（DC-SV），作爲事實檢查機制一起返回給用戶。

研究人員選擇了大約700個用戶查詢（對應不同的統計問題）。

對於每個問題，都會從基本模型中選擇帶有統計數據的答案（約400個），然後將這些響應提供給功能更強大的LLM（Gemini 1.5 Pro），指示它圍繞統計數據點引入自然語言數據共享調用。

所使用的提示包含三個示例作爲指導，要求註釋出統計值和單位，還要指示數據共享調用包括地名、指標和日期等。最後會進行人工審查，並手動重寫不符合要求的數據共享調用。

爲了評估單個測試查詢響應，這裡需要子字符串級別的詳細反饋。研究人員採用了上圖所示的可視化工具。

人工評估人員能夠瀏覽所有查詢，並檢查每個查詢響應中的所有Data Commons調用，首先快速檢查是否存在任何明顯的事實不準確之處，然後對響應中存在的每項統計數據進行評估。

上表顯示了RIG方法的事實準確性指標（Data Commons中的統計數據與101個查詢中的LLM響應進行比較的情況）。總體而言，RIG方法提高了真實性，從5-17%提高到約58%。

RAG

RAG管道同樣包含多個組件。首先，用戶查詢被傳遞到一個小型的、經過微調的LLM，它會生成與用戶查詢相關的自然語言查詢；然後，通過Data Commons的自然語言接口來獲取相關的表；最後，將原始用戶查詢和檢索到的表交給長上下文LLM（Gemini 1.5 Pro）。

原始用戶查詢以及結果表可能會相當長。例如，比較查詢可能包括來自美國所有50個州或全球194個國家的多個表的多年數據。

在綜合查詢集中，平均輸入長度爲38,000個token，最大輸入長度爲348,000個token。由於輸入量很大，因此必須使用長上下文LLM，用戶響應如上圖所示。

對於RAG方法，人類評估者評估LLM生成的細粒度問題及其相應的數據共享響應的質量。首先驗證是否生成了足夠且相關的問題來解決用戶查詢（上圖）；然後評估每個單獨問題的質量及其相應的數據共享響應（下圖）。

下表的結果表明，LLM在引用數字時通常是準確的 (99%)，當根據這些說法進行推論時，準確性會下降，在6-20%的時間內得出錯誤的推論。

參考資料：

https://venturebeat.com/ai/datagemma-googles-open-ai-models-mitigate-hallucination-on-statistical-queries/

整合海量公共數據，谷歌開源AI統計學專家DataGemma

相關資訊