對話宇樹科技王興興:機器人AI還不太夠,大語言模型只是一部分

過去一兩年的全球科技浪潮中,在大語言模型技術影響下,機器人成爲熱門賽道之一。在2024世界機器人大會期間,宇樹科技創始人王興興接受了新京報貝殼財經等媒體採訪。他表示,機器人行業目前最大限制是AI(人工智能)還“不太夠”,真正解放機器人AI能力是“讓它幹活”,實現這一願景不能只依靠大語言模型,需要發展真正的機器人模型。

“當有人願意採購產品、社會對它有認可度時,我們纔去做。”宇樹科技入局人形機器人是順勢而爲,但不會“All in”,仍與四足機器人一起“雙線並重”。面對資本熱潮,王興興相對剋制,一如他的創業經歷:從他腦海裡誕生小機器狗的想法到他正式扎進機器人賽道大約歷時三年。相比之下,在預測通用機器人的iPhone時刻時,他又相對樂觀:“不會超過5年”。

機器人行業最大限制還是AI不太夠

貝殼財經:近期人形機器人火熱,但早期業界普遍不看好,請問你如何看待?在人形機器人發展戰略上,宇樹科技有明確規劃,還是更多隨着社會共識變化而變化?

王興興:基本還是追尋整個社會共識。2020年前,全球人形機器人控制技術做得不是特別理想,性能上不去,沒辦法看到它有實用價值或者讓它去幹活。

2021年到2022年,全球科技非常關注人形機器人。並且在2022年底大語言模型出來後,大家已經看到AI賦能機器人的潛力。在2022年底,雖然我們還沒做人形機器人,但已經有客戶想買。我們覺得社會共識、熱度、客戶的期待程度已經足夠,所以在2023年正式開始做人形機器人。

貝殼財經:機器人瘋狂受關注,這背後存在AI帶來機器人進步的判斷,這其實忽視了機器人本身的技術進步。目前宇樹科技在機械和動力等方面有哪些重要突破?

王興興:目前這波機器人浪潮主要是AI帶來的。但真正解放AI的能力,還需要讓機器人去幹活。我認爲現階段機器人行業一個最大的限制還是AI不太夠:AI模型、訓練數據集、場景落地部署這些都遠遠不夠。硬件目前也不夠,但它是工程問題,可以預估時間。減速器壽命、負載能力、靈巧操作精度、視覺感知分辨率、執行速度等這些硬件方面當然要繼續完善,但不是最大限制。

要發展真正的機器人模型只是大語言模型還不夠

貝殼財經:從目前人形機器人研發的角度看,大模型可以重點解決哪些技術問題,主要應用在哪些方向?大模型和人工智能的應用有望降低研發成本嗎?

王興興:大語言模型或多模態模型可以運用在機器人領域,但真正的機器人模型要發展,只是大語言模型還不夠。機器人模型本質上跟大語言模型有很大區別,大語言模型是機器人模型的一部分,例如與機器人溝通需要語言。對機器人或具身智能來說,最主要的還是讓它幹活,而不是在家裡聽你的嘮叨或和你對話。

讓機器人幹活還是要做出機器人模型,例如加入圖像、機器人關節指令、激光雷達等數據。像特斯拉直接招人採集數據,然後訓練。這部分訓練和大語言模型關係不大,更多是模仿學習。這個模型結構和大語言模型也偏差較大,這是目前的方向,但整個體系不像大語言模型那麼成熟。

在機器人具身智能領域,大家的想法、技術路線,包括共性都不太一樣。這有點類似ChatGPT出來的前一兩年:大家已經發現要往某個方向做,但沒有哪家敢打保票說我的方向絕對正確。

談電動Atlas和宇樹科技G1“撞車”:產品或技術浪潮發展相對成熟時,趨同不可避免

貝殼財經:宇樹科技和電動Atlas都採用的三指,可以詳細介紹爲什麼三指剛剛夠用,而不是兩指或者四指?

王興興:目前具身智能或人形機器人的技術方案不是特別統一,典型代表就是手指。爲什麼用三指?因爲大部分產品只用三隻手指也能抓住一個很小的東西。從實用性出發當然希望硬件越來越簡單,甚至只有一個爪子,爪子裡只有一個電機,就儘量把活幹了。

目前,一個電機確實能幹活,例如把物體抓到某個位置。但如果要做更小的事,例如拿一個電烙鐵做焊接或拿一雙筷子,只用兩隻手指或只有一兩個關節的手指很難實現,但三隻手指基本能完成。隨着AI技術的成熟,大家對硬件的自由度、數量、外觀、靈活度及要求也越低。

貝殼財經:人形機器人電動Atlas上線,在不久之後的5月,宇樹科技公佈G1。這兩款前後出現的人形機器人,在靈活度和外形上都有一定的相似性,爲什麼會出現這種巧合?G1會率先在哪些場景實現應用?

王興興:一個產品或一項技術浪潮發展相對成熟時,趨同不可避免。G1不僅運用於工業,可能更多還是一個通用硬件平臺的概念。它比較小,工業使用相對大的機器人,它們的負載能力、操作空間更大。我們歡迎在G1基礎上做算法的開發落地應用,包括商業端或家用場景。

貝殼財經:關於成本問題,其實市場對G1價格反應還蠻大,爲什麼通過自研能夠做到這麼大幅度的降本?能不能具體講一講您對降本這個事情的看法?

王興興:目前人形機器人體量還沒有完全起來,如果定價太低,可能對所有人、對我們、對整個行業都不是好事。如果後續整個體量有所提升,例如到明後年,機器人的能力也會越來越強,價格可以有更好的調整。

另外,降本就是要把所有的零部件各方面設計得比較極致,哪怕是一顆螺絲釘,還要在生產上做到相應的極致管理。另外,“有量就降成本”這件事毋庸置疑,但它也是公認的。某種程度上,公認的事情不是最有競爭力的,很多人也知道在設計階段就要降成本。汽車也一樣,如果找比亞迪拆車拆機視頻來比對,大概就知道它爲什麼成本做得相對低,這值得學習。

不會All in人形機器人,離通用機器人iPhone時刻不超過5年

貝殼財經:今年很多人形機器人宣佈進廠打工,你怎麼看這個現象?

王興興:這是一個趨勢,目前基本還處於試點階段,沒有到真正商業閉環的階段,例如達到一臺機器人可能比人還能降低成本的階段。

貝殼財經:人形機器人的快速發展,對四足機器人來說是機遇還是挑戰?今年宇樹科技在四足機器人上有哪些研發計劃?

王興興:四足機器人以及它的硬件、電控系統、軟件、OTA升級平臺、後臺、AI算法等與人形機器人共用的地方非常多,能共用的地方儘量共用。

今年我們在人形機器人上投入會更多,我們目前沒辦法每年都有全新的四足機器人產品,但都有一些硬件、軟件升級。可能明年也會有新的四足機器人產品,並不All in人形機器人,基本還是兩條路線並重。

貝殼財經:通用機器人領域什麼時候會出現一個iPhone時刻?

王興興:我比較樂觀,在今年年底之前,全球至少有一家公司或實驗室能做出通用型的機器人AI模型。對於iPhone時刻,還是希望在工業或服務業能真正出現終端產品,並且這個行業出貨量暴增。iPhone時刻可能還要3年或4年,但不會超過5年。

新京報貝殼財經記者 韋英姿

編輯 王進雨

校對 盧茜