谷歌放大招:推出AI模型Gemini挑戰GPT-4

(本文首發於《紫金商業評論》,授權紫金財經發布,轉載請註明來源)

谷歌的全新“大殺器”Gemini終於來了!

當地時間12月6日,谷歌宣佈推出人工智能模型Gemini,谷歌方面表示,這是其迄今爲止功能最強大、最通用的大語言模型。

按照谷歌的說法,它可以像人類一樣理解我們周圍的世界,處理代碼、文字、音頻、圖像和視頻等,通通不在話下。此外,它還可以完成複雜的數學、物理等科學領域任務,並能理解和生成各種編程語言的高質量代碼。

根據谷歌給出的基準測試結果,Gemini 在許多測試中都表現出了“最先進的性能”,甚至在大部分基準測試中完全擊敗了OpenAI的GPT-4。

消息一出,社交媒體瞬間炸了鍋。英偉達AI科學家Jim Fan評論道:這是OpenAI王座的有力競爭者。

ChatGPT的挑戰者來了

過去幾年,谷歌一直把AI-first作爲公司戰略,2016年打敗人類圍棋冠軍的AlphaGo便是出自谷歌之手。

自OpenAI一年前推出ChatGPT以來,谷歌一直在努力開發能夠與這家公司相抗衡的人工智能軟件,證明自己在人工智能領域的實力。

在今年5月舉行的谷歌I/O全球開發者大會上,谷歌首次透露其正在開發的AI大模型Gemini,時隔7個月,Gemini終於來了。

據谷歌官方公衆號消息,Gemini是由谷歌大腦團隊開發的全新大模型,它具有更強的生成能力以及更高的可靠性,是迄今爲止構建的最強大的AI大模型。

在谷歌發佈的不同版本中,Gemini Ultra被描述爲規模最大且功能最強大的模型,適用於高度複雜的任務;Gemini Pro則被視爲適用於各種任務的最佳模型;而Gemini Nano則是專門爲手機等設備設計的最高效的模型。

現場演示中,測試者給Gemini展示了一張煎蛋卷在平底鍋中烹飪的圖片,並說話問它煎蛋餅是否已經煮熟,它回答說:“它還沒做好,因爲雞蛋還流着水。”

Gemini發佈後,外界最關心的是其對OpenAI GPT4的挑戰。在採訪中,記者提問谷歌DeepMind產品副總裁Eli Collins(伊萊·柯林斯):“Gemini能打敗市面上包括GPT4在內所有的大模型嗎?”

Eli Collins在回答中表示,團隊一直在對Gemini模型進行嚴格的測試並評估其在各種任務中的性能。從自然圖像、音頻和視頻理解到數學推理,在大型語言模型(LLM)研究和開發中廣泛使用的32項學術基準中,Gemini Ultra的性能有30項都超過了目前最先進的水平。

爲了證明自己的產品比OpenAI的ChatGPT更出色,谷歌更是甩出了數張成績單。

根據谷歌給出的數據,在MMLU(大規模多任務語言理解)測試中,Gemini Ultra的得分率爲90%,是第一個在 MMLU測試中超過人類專家的模型。作爲對比,人類專家的得分率爲89.8%,GPT4得分率爲86.4%。

AI進入多模態時代

現今,絕大部分多模態大模型都是在大語言模型LLM之上生長出多模態的應用,而並非從頭開始訓練的多模態的大模型。不同於一般通用大模型主打的窗口對話,業界的共識是,多模態大模型纔是未來。

相比之下,Gemini是一個真正原生的多模態大模型。

在設計之初,多模態就是Gemini計劃的一部分,從最初的預訓練數據開始,Gemini就在針對不同模態的模型進行訓練,因此其功能在每個重大領域都達到了SOTA(State of the art,特指領先水平的大模型)。

基於此,谷歌稱其多模態爲原生多模態(natively multimodal),可以“無縫”理解、操作和組合不同類型的信息,擁有了強大的交互能力。

在推理方面,Gemini 1.0具有複雜的多模態推理能力,可幫助理解複雜的書面和視覺信息。這使得它具有獨特的技能,可以在海量的數據中發掘難以辨別的知識內容。它擁有通過閱讀、過濾以及理解信息,從數十萬份文件中提取見解的卓越能力,將有助於在從科學到金融等多個領域以數字化速度實現新的突破。

而在編碼方面,Gemini 1.0能夠理解、解釋和生成世界上最流行的編程語言(如Python、Java、C++和Go)的高質量代碼。

與此同時,Gemini 1.0經過訓練,可以同時識別並理解文本、圖像、音頻等,因此它能更好地理解具有細微差別的信息,回答與複雜主題相關的問題。這就讓它尤其擅長解釋數學和物理等複雜科目中的推理。

據悉,在Gemini 1.0版本中包含三個不同尺寸,分別是Gemini Ultra、Gemini Pro、Gemini Nano。

其中,Gemini最強大的滿血版Gemini Ultra,還需要等待幾個月才能和公衆見面。谷歌稱,Ultra版目前只會提供給部分客戶、開發者、合作伙伴以及安全與責任專家使用。