谷歌發佈Gemini 2.0 AI 大舉押注人工智能代理

谷歌週三向所有人發佈了Gemini 2.0,這是該公司迄今爲止“最強大”的人工智能模型套件。

去年12月,該公司向開發人員和值得信賴的測試人員提供了訪問權限,並將一些功能打包到谷歌產品中,但據谷歌稱,這是一個“通用版本”。

這套模型包括2.0 Flash,它被稱爲“主力模型,最適合大規模的高容量、高頻率任務”;2.0 Pro Experimental,主要關注編碼性能;2.0 Flash-Lite, 谷歌稱其爲“迄今最具成本效益的模式”。

Gemini Flash的文本、圖像和視頻輸入每百萬代幣的成本爲10美分,而其成本更低的版本Flash- lite的成本爲0.75美分。

隨着科技巨頭和初創公司之間的人工智能軍備競賽白熱化,這些持續發佈的產品是大舉投資“人工智能代理”的更廣泛戰略的一部分。

Meta、亞馬遜、微軟、OpenAI和Anthropic也在朝着人工智能的方向發展,即能夠代表用戶完成複雜的多步驟任務的模型,而不是讓用戶親自完成每一步。

谷歌在去年12月的一篇博客文章中寫道:“在過去的一年裡,我們一直在投資開發更多的代理模型,這意味着它們可以更多地瞭解你周圍的世界,提前考慮多個步驟,並在你的監督下代表你採取行動。”谷歌補充說,Gemini 2.0“在多模態方面取得了新的進展,比如原生圖像和音頻輸出。以及本地工具的使用”,並且模型家族“將使我們能夠構建新的人工智能代理,使我們更接近我們對通用助手的願景。”

Anthropic是亞馬遜支持的人工智能初創公司,由OpenAI前研究高管創立,是開發人工智能代理的主要競爭對手。去年10月,這家初創公司表示,它的人工智能代理能夠像人類一樣使用計算機完成複雜的任務。這家初創公司表示,Anthropic的電腦使用能力使其技術能夠解讀電腦屏幕上的內容,選擇按鈕,輸入文本,瀏覽網站,並通過任何軟件和實時互聯網瀏覽執行任務。

Anthropic的首席科學官賈裡德·卡普蘭(Jared Kaplan)當時在接受採訪時表示,該工具“基本上可以像我們一樣使用計算機”。他說,它可以完成“幾十甚至幾百步”的任務。

OpenAI最近發佈了一個類似的工具,引入了一個名爲Operator的功能,可以自動執行計劃假期、填寫表格、預訂餐廳和訂購雜貨等任務。這家微軟支持的初創公司將Operator描述爲“一個可以上網爲你執行任務的代理”。

本週早些時候,OpenAI宣佈了另一個名爲“深度研究”的工具,該工具允許人工智能代理編寫複雜的研究報告,並分析用戶選擇的問題和主題。谷歌在12月推出了一個類似的同名工具——深度研究——它的作用是“研究助理,探索複雜的主題,並代表你編寫報告。”

去年12月,谷歌將在2025年初推出幾項人工智能功能。

“在歷史上,你不需要總是第一,但你必須執行得很好,成爲同類產品中最好的,”首席執行官桑達爾·皮查伊當時在一次戰略會議上說。“我認爲這就是2025年的意義所在。”

本文源自:金融界