☰

谷歌 Gemini 與 GPT-4 哪家強？

美國時間12月6日，谷歌正式發佈了 Gemini 大模型。按照谷歌的說法， Gemini 可以像人類一樣理解世界，處理代碼、文字、音頻、圖像和視頻通通不在話下。

Google DeepMind團隊稱，Gemini在32項基準性能測試中的30項上超過了GPT-4。

“我們離新一代人工智能模型的願景越來越近了。”進行完一系列視頻演示後，Google DeepMind產品副總裁Eli Collins（伊萊·柯林斯）對包括第一財經在內的媒體說，這是Google迄今爲止功能最強大、最通用的大模型。

谷歌CEO Sundar Pichai(桑達爾·皮查伊) 評價，Gemini 這一新時代的模型代表了 Google 作爲一家公司在科學和工程方面所做的最大努力之一。他同時提到，這也是 Google 今年早些時候成立 Google DeepMind 時的願景首次實現。

Gemini的各種能力

谷歌稱，Gemini 是一種“原生多模態”AI模型。這意味着它從一開始就經過預先訓練，可以處理用戶基於文本和圖像的提示詞任務，支持文本和圖像的服務。

據悉，Gemini 包含三個不同尺寸，分別是Gemini Ultra、Gemini Pro、Gemini Nano。其中，Gemini Nano主要應用於設備端，Pixel 8 Pro將是第一款搭載 Gemini Nano 的智能手機；Gemini Pro 則適用於在各種任務中擴展，谷歌便計劃用 Gemini Pro 來升級旗下的聊天機器人 Bard，以及包括搜索、廣告、Chrome等在內的更多谷歌產品中。

對於功能最強悍的 Gemini Ultra，谷歌稱目前正在進行信任和安全檢查，以及通過微調和基於人類反饋的強化學習（RLHF）進一步完善模型，預計明年初向開發人員和企業客戶推出。

·理解文本、圖片、音頻

Gemini模型經過海量數據訓練，可以很好識別和理解文本、圖像、音頻等內容，並可以回答複雜主題相關的問題。所以，非常擅長解釋數學和物理等複雜學科的推理任務。

·生成代碼

Gemini可以生成和理解Python、Java、C++和Go等主流代碼。Gemini Ultra在多個編碼基準測試中表現出色，包括HumanEval，這是評估編碼任務性能的重要行業標準。

谷歌還基於Gemini模型開發了專業的代碼模型AlphaCode 2。與前一代相比，AlphaCode 2的性能提升了至少50%以上。

·複雜推理

Gemini的多模態功能，使其能在視覺理解、文本生成等方面有非常強的功能。例如，從數十萬字的小說中整理出重要觀點；

從200頁的金融報告中找出最有價值的內容。這對於金融、科技、醫療的科研和業務人員來說幫助巨大。

支持Bard

目前，谷歌的Bard已經集成了 Gemini Pro 模型，「AIGC開放社區」體驗了一下，其圖片理解和文本生成能力比之前強很多，尤其是代碼生成和審查能力很出色。

谷歌方面表示，Gemini 將通過谷歌產品推向數十億用戶。目前，谷歌計劃通過谷歌雲將 Gemini 授權給客戶，供他們在自己的應用程序中使用。12月13日開始，開發者和企業客戶可以通過谷歌AI Studio或谷歌 Cloud Vertex AI 中的 Gemini API（應用程序編程接口）訪問 Gemini Pro，安卓開發人員可以使用 Gemini Nano 完成構建。

能打敗GPT4嗎？

過去八年，谷歌一直把 AI-first 作爲公司戰略，2016年打敗人類圍棋冠軍的 AlphaGo 便是出自谷歌之手。毫不誇張地說，是谷歌掀起的一股AI浪潮，但現在，它亟需在大模型領域證明自己。

今年4月，Google 將曾經誕生了Tensorflow 與Transformer 的 Google Brain 團隊，和憑藉AlphaGo掀起上一輪AI熱潮、創造了AlphaFold 預測蛋白質摺疊的DeepMind 團隊合併，成立 Google DeepMind，這一團隊也被外界調侃是“AI復仇者聯盟”。

Gemini 被視作是 Google 在AI大模型領域放出的“大招”。Gemini 發佈後，外界最關心的是其對 OpenAI GPT4 的挑戰。

谷歌在MMLU、DROP 、HellaSwag、GSM8K等主流評測中，將 Gemini 與 OpenAI 的 GPT-4 和 GPT-4 V 進行深度評測。

DeepMind的CEO Demis Hassabis稱，谷歌運行了32種完善的基準指標相關測試，對比Gemini和GPT-4這兩個模型，既有諸如多任務語言理解這類廣泛的整體測試，到生成Python代碼這種單一能力的測試。32種基準指標中，Gemini有30項都“遙遙領先”。

在性能測試上，Gemini Ultra在32個大語言模型基準測試中的30箇中超過了當前最優成績，另外在MMLU（大規模多任務語言理解）中，Gemini Ultra的得分爲90%，成爲首個超越人類專家的大模型。

據悉，MMLU通過結合數學、物理、歷史、法律、醫學和倫理學等57個科目，來測試大模型對世界知識和解決問題的能力。此前，GPT-4在該測試中的成績爲86.4%，而人類專家的成績爲89.8%。

而在MMMU基準測試中，Gemini Ultra取得了59.4%的最高得分，GPT-4V的成績爲56.8%，該項測試由跨越不同領域的多模態任務組成。

黛米斯·哈薩比斯稱，在測試圖像基準過程中，Gemini Ultra 在沒有來自圖像字符識別（OCR）系統的幫助下，就超越了此前最先進的模型。這些基準測試凸顯了Gemini的多模態能力，也展現出其具有更復雜推理能力的早期跡象。

“我們將Gemini設計爲原生多模態，它從一開始就針對不同模態進行了預訓練，然後我們使用額外的多模態數據對其進行微調，以進一步提高其效果。”黛米斯·哈薩比斯介紹道，“這幫助Gemini從頭開始就能無縫理解和推理各種輸入，遠遠優於現有的多模態模型，而且其能力在幾乎所有領域都達到了最先進的水平。”

此外，Gemini 具有到目前爲止所有谷歌AI模型中最全面的安全評估，包括對偏見和有害信息的評估。同時，爲了識別內部評估方法中的盲點，谷歌還在與各種外部專家和團隊合作，對Gemini 模型在各種問題上進行壓力測試。

另外值得關注的是，Gemini的訓練是基於谷歌自己的張量處理單元(TPUs)——v4 和 v5e。在這些TPUs上，Gemini比谷歌之前的模型運行速度更快、成本更低。所以除了新模型外，谷歌還宣佈將推出新的TPU系統——Cloud TPU v5p，這是專爲訓練尖端AI模型而設計的，也將用於Gemini的開發。

聖達菲研究所的AI研究員Melanie Mitchell對媒體表示，Gemini基準測試的表現令人印象深刻，這的確說明Gemini是一個非常複雜的人工智能系統，但她指出，自己並沒有明顯感受到Gemini和GPT-4在實際能力上的差距。

Mitchell還指出，Gemini在語言和代碼基準測試上的表現要比在圖像和視頻上表現更好：“多模態基礎模型仍然有很長的路要走，才能在許多任務裡大範圍、可靠地應用。”

斯坦福大學基礎模型研究中心主任Percy Liang也對媒體表示，雖然Gemini具有良好的基準分數，但由於訓練數據中的內容保密，很難知道如何解釋這些數字。

多位科技分析人士認爲，雖然 Gemini 的性能的確優於現有的多模態模型，但它和GPT-4的差距並沒有那麼誇張。從谷歌放出的演示視頻來看，很少有什麼我們在過去一年的AI炒作狂潮裡沒見過的東西。

更大的問題在於，如果以谷歌的算力資源、研發能力和豐富的數據都僅能做到勉強擊敗GPT4，Gemini或許就是以人類目前的技術，能夠打造的大模型的上限了。

責任編輯：張薇

谷歌 Gemini 與 GPT-4 哪家強？

相關資訊