海通證券:Gemini 2.0發佈 帶動谷歌進入“智能體時代”
智通財經APP獲悉,海通證券發佈研報稱,Gemini 2.0在原生用戶界面操作能力、多模態推理、長文本理解、複雜指令跟隨和規劃能力、組合函數的調用,原生工具使用以及延遲優化等一系列領域進行了優化改進,這更使得Gemini 2.0在增強應用能力和構建AI智能體方面擁有了更突出的優勢,未來AI應用落地和AI智能體發展也有望持續加速。
海通證券主要觀點如下:
Gemini 2.0發佈,在低延遲、多模態等方面進步明顯。
12月12日,谷歌發佈 Gemini 2.0系列模型中的第一個模型:Gemini 2.0 Flash的體驗版。這是谷歌的主力模型,具有低延遲特性,而且在谷歌大規模技術前沿中展現了卓越的性能。與1.5 Flash相比,Gemini 2.0 Flash在同樣快速的響應時間下性能進一步增強。值得一提的是,2.0 Flash在關鍵基準測試中甚至超越了1.5 Pro,其速度是1.5 Pro的兩倍。
同時2.0 Flash還具有新功能,除了能夠支持圖片、視頻和音頻等多模態輸入,2.0 Flash現在還可以支持多模態輸出,例如可以直接生成圖像與文本混合的內容,以及原生生成可控的多語言文本轉語音(TTS)音頻。它還可以原生調用Google Search、代碼執行以及第三方用戶定義的函數等工具。2025年初,谷歌還會將Gemini 2.0擴展到更多Google產品中。
谷歌高度關注AI智能體領域,Gemini 2.0成爲重要助力。
AI智能體在現實中的應用是一個令人振奮且充滿可能性的研究領域。Gemini 2.0使谷歌能夠構建新的AI智能體,從而讓谷歌離構建通用助手的願景更進一步。
Project Astra:使用多模態理解現實世界的智能體。
Project Astra是谷歌於5月發佈的高級視覺和對話響應智能體,其用於構建構建未來的AI助理。基於Gemini 2.0,Project Astra產生了多項改進:
更流暢的對話:Project Astra現在可以在多種語言和混合語言之間進行對話,並且能夠更好地理解不同口音和生僻單詞。
新工具的使用:藉助Gemini 2.0,Project Astra可以使用Google Search、Google Lens和 Google Maps,從而在日常生活中更好地發揮助手作用。
更強的記憶力:谷歌增強了Project Astra的記憶能力,同時確保用戶可以掌控對話。現在,它最多可以記住長達10分鐘的會話內容,並且可以回憶起過去與它進行的更多對話,以便爲用戶提供更好的個性化服務。
更低的延遲:藉助新的流式處理技術和原生音頻理解能力,該智能體能夠以近於人類對話的延遲來理解語言。
Project Mariner:幫用戶完成複雜任務的智能體。
Project Mariner是使用Gemini 2.0構建的早期研究原型,旨在從用戶的瀏覽器開始,探索人機交互的未來。作爲研究原型,它能夠理解和推理瀏覽器頁面中的信息,包括像素和文本、代碼、圖像和表單等網頁元素,然後通過實驗性的Chrome擴展程序使用這些信息爲用戶完成任務。在 WebVoyager 基準測試(該測試針對智能體在端到端的真實世界網頁任務的性能)中,Project Mariner作爲單個智能體設置實現了83.5%的工作效率,達到了最先進的水平。
Jules:面向開發者的智能體。
接下來,谷歌會探索人工智能智能體如何通過Jules(一種實驗性的AI代碼智能體,它可以直接集成到GitHub工作流程中)來協助開發者。它可以解決問題、制定並執行計劃,所有這些都在開發者指導和監督下進行。這項工作是谷歌長期目標的一部分,即構建可在所有領域(包括編碼)中提供幫助的AI智能體。
遊戲和其他領域的智能體。
谷歌使用Gemini 2.0構建了智能體,它們可以幫助用戶在電子遊戲中做出更明智的決策,可以根據屏幕上的實時畫面,分析遊戲情況,併爲用戶提供下一步行動建議。谷歌正與Supercell等頂尖遊戲開發團隊合作,探索智能體在遊戲領域的應用。谷歌通過測試它們在各種遊戲中的表現,來評估它們理解遊戲規則、應對挑戰的能力。這些智能體還可以通過Google Search讓用戶接觸到豐富的遊戲相關的知識。谷歌還將Gemini 2.0的空間推理能力應用於機器人領域,嘗試讓智能體在現實世界中提供幫助。
風險提示:AI技術發展不及預期,AI應用落地不及預期。
本文源自:智通財經網