Microsoft 的 Magma AI 可以操控和控制機器人

Microsoft 剛剛推出了 Magma,這是一款新型人工智能模型,旨在幫助機器人更智能地觀察、理解和行動。與傳統的 AI 模型不同,Magma 可以同時處理不同類型的數據——Microsoft 稱這是朝着"主動式 AI"(即能夠代表用戶規劃和執行任務的系統)邁出的重要一步。

這個結合了視覺和語言處理的模型,通過視頻、圖像、機器人數據和界面交互進行訓練,使其比以往的模型更加多功能。

在其 Github 頁面上,Microsoft 研究團隊概述了 Magma 如何執行任務,比如操控機器人和導航用戶界面(如點擊按鈕)等功能。

爲了開發這項技術,該公司與馬里蘭大學、威斯康星大學麥迪遜分校和華盛頓大學的研究人員展開合作。

在各大科技巨頭競相開發能夠自動化日常生活更多方面的 AI 代理之際,這項技術應運而生。Google 一直在推進面向機器人的語言模型,而 OpenAI 的 Operator 工具則旨在通過在專用瀏覽器中進行打字、點擊和滾動來處理預訂、訂購雜貨和填寫表格等日常任務。

該項目的首席研究員楊建偉 (Jianwei Yang) 告訴 CNET,AI 的未來不僅僅是爲聊天機器人開發多模態基礎模型。

他表示:"我們認爲 AI 的下一個重要步驟在於開發能夠無縫理解和交互數字和物理環境的代理。"

他說,Magma 的重要性在於其彌合多模態 AI 代理差距的能力,因爲傳統 AI 模型在語言智能方面表現出色,但在規劃和現實世界行動方面往往力不從心。

他解釋道:"如今的機器人往往依賴於特定領域數據的特定任務訓練,導致它們處理簡單日常任務的能力有限,更不用說適應新任務和環境了。Magma 通過顯著提升它們的語言和空間智能改變了這一點,使機器人能夠基於數字或物理環境準確有效地執行動作。"

同時,Forrester 首席分析師兼《Random Acts of Automation》作者 Craig Le Clair 表示,這一消息與該市場研究公司預測的"2025 年 25% 的機器人項目將結合認知和物理自動化"相符。不過,他說,關於這個公告和其他類似公告是否代表真正的轉折點,還是僅僅是大語言模型的又一次嘗試,爭論仍在繼續。

Le Clair 說:"Microsoft 提供了重要的開發者能力,但現在需要在指導富有成效且安全的人機交互方面展現領導力。"