最後一塊技術拼圖“接上”!人形機器人從炫技走向服務 但何時落地家庭應用業內現分歧|行業觀察
財聯社9月29日訊(記者 汪斌 羅禕辰)身高一米七、體重60千克的五八智能科技人形機器人,正在展區演示如何進廠“打工”:物料搬運、精密加工、掃碼貼紙等樣樣精通;特斯拉人形機器人既能手握雞蛋,也能搬運重物,在舉重若輕和舉輕若重之間遊刃有餘;宇樹科技的人形機器人不但起坐自如,還會敲核桃、開瓶蓋以及進行電焊作業……至於端茶送水、按摩、擁抱、清掃垃圾等技能,對人形機器人來說早已不在話下。
近日,第三屆全球數字貿易博覽會(簡稱“數貿會”)在杭州舉行。值得關注的是,今年數貿會首次設立機器人專區,實現35家以上機器人企業齊聚、60個以上智能機器人齊展、20個以上互動場景落地,涵蓋人形、雲端、工業等全模式機器人。其中,具身智能新產品憑藉亮眼表現,佔據人工智能展區的絕對“C位”。
2024年被業界廣泛認爲是具身智能的元年。財聯社記者發現,現場的機器人越來越“類人”,其功能也正從炫技走向服務。多家參展的人形機器人企業告訴記者,人形機器人有望3-5年逐步走進“尋常百姓家”。但科大訊飛(002230.SZ)機器人首席科學家季超對記者預測,“可能近10年內人形機器人都不可能進入到家庭。”
人形機器人是否必須“像人”?
“我們認爲具身智能將會是人形機器人最後一塊技術拼圖,這也是剛剛起步。”數貿會期間,在由杭州市會展集團和藍色光標集團主辦的Transform·2024全球數字生態大會上,人形機器人(上海)有限公司首席科學家江磊如是說。
然而,對於人形機器人外觀是否必須像人的問題,與會專家卻持有不同觀點。現場總體來看,“一腦多形”的看法在此次討論中被廣泛接受。
江磊認爲,人類花了幾百萬年才從四肢行走進化爲直立行走,解放了雙手和大腦,但人類的大腦只發展了一萬年左右,就創造了現在的人類文明。因此,具身智能和進化理論有關,可能是人類形體逼出來的智能。其強調,具身智能是嵌入在物理實體的智能,研究人形可能是這場科技革命所有的出發點;如果不堅持這點,或許後面研究的所有動力都是不足的。
“今天大家在討論用具身智能來解決未來的問題,而不是用具身智能解決我們過去的問題,這是一個很重要的出發點。” 江磊指出,目前看到的人形機器人也只能是“簡單像人”,“逼近像人”根本還不存在。
在銀河通用合夥人張直政看來,人形機器人不必在所有的場景、所有的行業都具備擬人形態,但是要有類人甚至超人的能力。“發展和製造機器人是希望拓展人的能力,幫助完成一些人達不到的事情或者取代人去做一些危險的工作。我們會深入地思考每個行業的需求是什麼樣的,再結合行業需求設計對應的硬件形態,再配合大模型通用泛化的能力給大家提供實際有效的幫助。”
埃斯頓酷卓創始人、總經理李遠平表示,在不同的場景下,具身智能的形態需要依據任務、場景來定義優化,即“一腦多形”。他舉例,在家庭中,人形的形態還是很重要的;但回到工業領域,確實人形特別是下半身肯定不會成爲主流形態。”不過,他認爲人形機器人是比較終極的形態。
“我們更願意稱人形機器人爲通用機器人。它是否像人我認爲並不是關鍵,關鍵是要在自由度、硬件上達到和人一樣的靈活程度,只要能完成相應的任務,同時又具備一些泛化性,同時在一些場景下投入、產出能夠正向測算出來,我們認爲其實就可以了。”季超說。
大模型讓AGI理想照進現實
具身智能的爆火,離不開這兩年大模型及生成式AI的爆發。
具身智能的架構主要包括大腦、小腦和肢體三個重要部分。其中,大腦負責感知和決策,小腦控制肢體生成動作,肢體則通過傳感器、執行器等硬件設備與物理世界進行交互。而大模型的出現給機器人裝上了“大腦”,使其獲得自然語言能力。
更重要的是,大模型還極大降低了機器人的使用門檻,有望推進機器人在各行各業落地。智譜AI COO張帆在會上表示,ChatGPT的現象級增長顯示了大模型的潛力,預計未來80%以上的企業將應用大模型。
記者瞭解到,過去大部分機器人從業者都在關注機器人運動控制,具身智能當時的泛化性並沒有因爲大模型的出現真正達到可應用的門檻,所以大模型出現無疑是將鏈條補足了最後一公里。在大模型的加持下,無疑是將具身智能和機器人的運動控制進行了深度耦合。
張直政直言,“有大語言模型之前,大家談AGI(人工通用智能)只是一個理想。但是大語言模型成功以後,大家對AGI就有了信心。”
“我們認爲大模型給具身通用機器人帶來了非常大的提升空間,首先大模型的思維鏈可以顯著提升機器人在開放場景、複雜任務下的理解能力,能夠真正提供基於常識的推理;第二是感知和行爲能力的提升,通過具身智能的技術,包括具身數據集持續有各行各業機器人從業者的共同努力,我們認爲具身感知和行爲決策模型極大地提升了當前具身通用機器人在真實場景下的多模態感知和理解能力。” 季超表示。
他還提到,科大訊飛的機器人在感知、規劃和決策等方面已取得顯著進展。
江磊表示,未來機器人將不再依賴複雜的代碼編程,而是通過語言大模型實現自然的人機交互。正因如此,現在幾乎所有人形機器人公司首選方式就是用大語言模型來驅動,“國內在這方面的研究正逐步走向成熟,未來的發展路徑已越來越清晰。”
李遠平則多次提醒“大家短期不要太樂觀”,“對於工業領域而言,當前大語言模型當前讓我們(感到)很興奮,但是沒有解決我們的痛點。可能還需要幾年的時間纔會看到一些垂直場景的應用。”
浙江大學人工智能研究所副所長鄭小林亦表示,目前AI技術還處於初級階段。雖然OpenAI和ChatGPT取得了重大進展,但AI的天花板還遠未觸及,Level 3、4、5的能力還有很大提升空間。
預計近10年內人形機器人無法進入家庭
中航證券在9月21日發佈的研報中表示,人形機器人是AI技術落地物理世界的優質載體,近兩年通用大模型的發展賦予人形機器人強大的泛化能力,產業進入商業化落地的初級階段。據其測算,至2030年全球人形機器人需求有望達200萬臺,對應市場空間超5700億元。
值得關注的是,下一個最有潛力的AGI應用熱點將出現在什麼領域?
對此,阿里雲智能資深專家、通義大模型企業解決方案負責人傅傑的答案是,簡單機械性、文本性工作最容易被AI、AGI替換。“下一個AI或者AGI非常容易爆發的點,就是對於生產力的提升。生產力的提升體現在單機械性、文本性工作最容易被AI、AGI替換掉,從這點來看,AGI就可能爆發一些超級應用。”
長遠來看,季超認爲,“不管是人形機器人還是其他機器人,最終都希望落地到家庭場景,因爲 C端纔是智能硬件最大的一塊市場,這也是未來的一個趨勢。但從發展歷程來看,我們認爲時間還比較長。人形機器人不可能直接越過行業,直接進入到家庭。它會先在一些行業落地和積累數據,然後隨着出貨量加大、整機的成本降低之後,再進入到家庭去服務。可能近10年內人形機器人都不可能進入到家庭。”
“落地應用方面,我們認爲端到端是趨勢,但可能在實現過程中依然有中間版本。所以我們傾向‘通專結合’的思路牽引具身智能進一步落地,通過垂直場景,以通用大模型作爲基座,帶動數據飛輪效應形成以多模態、具身智能爲主體一腦多形的標準解決方案,最終走進千家萬戶、千行百業。” 季超進一步表示。