☰

谷歌放大招：推出AI模型Gemini挑戰GPT-4

（本文首發於《紫金商業評論》，授權紫金財經發布，轉載請註明來源）

谷歌的全新“大殺器”Gemini終於來了！

當地時間12月6日，谷歌宣佈推出人工智能模型Gemini，谷歌方面表示，這是其迄今爲止功能最強大、最通用的大語言模型。

按照谷歌的說法，它可以像人類一樣理解我們周圍的世界，處理代碼、文字、音頻、圖像和視頻等，通通不在話下。此外，它還可以完成複雜的數學、物理等科學領域任務，並能理解和生成各種編程語言的高質量代碼。

根據谷歌給出的基準測試結果，Gemini 在許多測試中都表現出了“最先進的性能”，甚至在大部分基準測試中完全擊敗了OpenAI的GPT-4。

消息一出，社交媒體瞬間炸了鍋。英偉達AI科學家Jim Fan評論道：這是OpenAI王座的有力競爭者。

ChatGPT的挑戰者來了

過去幾年，谷歌一直把AI-first作爲公司戰略，2016年打敗人類圍棋冠軍的AlphaGo便是出自谷歌之手。

自OpenAI一年前推出ChatGPT以來，谷歌一直在努力開發能夠與這家公司相抗衡的人工智能軟件，證明自己在人工智能領域的實力。

在今年5月舉行的谷歌I/O全球開發者大會上，谷歌首次透露其正在開發的AI大模型Gemini，時隔7個月，Gemini終於來了。

據谷歌官方公衆號消息，Gemini是由谷歌大腦團隊開發的全新大模型，它具有更強的生成能力以及更高的可靠性，是迄今爲止構建的最強大的AI大模型。

在谷歌發佈的不同版本中，Gemini Ultra被描述爲規模最大且功能最強大的模型，適用於高度複雜的任務；Gemini Pro則被視爲適用於各種任務的最佳模型；而Gemini Nano則是專門爲手機等設備設計的最高效的模型。

現場演示中，測試者給Gemini展示了一張煎蛋卷在平底鍋中烹飪的圖片，並說話問它煎蛋餅是否已經煮熟，它回答說：“它還沒做好，因爲雞蛋還流着水。”

Gemini發佈後，外界最關心的是其對OpenAI GPT4的挑戰。在採訪中，記者提問谷歌DeepMind產品副總裁Eli Collins(伊萊·柯林斯)：“Gemini能打敗市面上包括GPT4在內所有的大模型嗎?”

Eli Collins在回答中表示，團隊一直在對Gemini模型進行嚴格的測試並評估其在各種任務中的性能。從自然圖像、音頻和視頻理解到數學推理，在大型語言模型(LLM)研究和開發中廣泛使用的32項學術基準中，Gemini Ultra的性能有30項都超過了目前最先進的水平。

爲了證明自己的產品比OpenAI的ChatGPT更出色，谷歌更是甩出了數張成績單。

根據谷歌給出的數據，在MMLU（大規模多任務語言理解）測試中，Gemini Ultra的得分率爲90%，是第一個在 MMLU測試中超過人類專家的模型。作爲對比，人類專家的得分率爲89.8%，GPT4得分率爲86.4%。

AI進入多模態時代

現今，絕大部分多模態大模型都是在大語言模型LLM之上生長出多模態的應用，而並非從頭開始訓練的多模態的大模型。不同於一般通用大模型主打的窗口對話，業界的共識是，多模態大模型纔是未來。

相比之下，Gemini是一個真正原生的多模態大模型。

在設計之初，多模態就是Gemini計劃的一部分，從最初的預訓練數據開始，Gemini就在針對不同模態的模型進行訓練，因此其功能在每個重大領域都達到了SOTA（State of the art，特指領先水平的大模型）。

基於此，谷歌稱其多模態爲原生多模態（natively multimodal），可以“無縫”理解、操作和組合不同類型的信息，擁有了強大的交互能力。

在推理方面，Gemini 1.0具有複雜的多模態推理能力，可幫助理解複雜的書面和視覺信息。這使得它具有獨特的技能，可以在海量的數據中發掘難以辨別的知識內容。它擁有通過閱讀、過濾以及理解信息，從數十萬份文件中提取見解的卓越能力，將有助於在從科學到金融等多個領域以數字化速度實現新的突破。

而在編碼方面，Gemini 1.0能夠理解、解釋和生成世界上最流行的編程語言（如Python、Java、C++和Go）的高質量代碼。

與此同時，Gemini 1.0經過訓練，可以同時識別並理解文本、圖像、音頻等，因此它能更好地理解具有細微差別的信息，回答與複雜主題相關的問題。這就讓它尤其擅長解釋數學和物理等複雜科目中的推理。

據悉，在Gemini 1.0版本中包含三個不同尺寸，分別是Gemini Ultra、Gemini Pro、Gemini Nano。

其中，Gemini最強大的滿血版Gemini Ultra，還需要等待幾個月才能和公衆見面。谷歌稱，Ultra版目前只會提供給部分客戶、開發者、合作伙伴以及安全與責任專家使用。

相關資訊