微億智造CEO:具身智能落地工業場景,人形不一定是最優解

關於人形機器人是否有用的爭論還在繼續,比如,工業場景是否需要人形?

「如果工業場景有一個具備感知、認知、執行的能力的智能體,人形並不一定是工業現場中的最優解。」

「工業現場最初是爲人類設計的,所以人形機器人可以第一時間進入到現場,但今天,工業現場的生產並不一定要爲人設計。」

這是微億智造張志琦的觀點,他們剛剛推出了一款具身智能工業機器人「創 TRON」,實現了 LLM 在機器人領域的技術落地和商業化。

大模型在工業場景,相比消費端,在數據上有更多的優勢,「(大模型)集成到工業領域後,我們能夠在每個場景中積累數據,並通過機器人載體有效執行和落地,沉澱有價值的數據。」

最近,在 Founder Park 直播間,Founder Park COO 艾之與微億智造董事長&CEO 張志琦、捷勃特機器人副總裁&CTO 賀巖,一起聊了聊新產品「創 TRON」誕生的幕後,以及工業機器人在今天商業落地的更多可能性。

文章基於直播整理,Founder Park 略有調整。

一些有趣的點:

01「創 TRON」:有自主學習能力的具身智能工業機器人

艾之:這不是你們合作的第一款機械臂產品了,能不能請您先介紹一下,相比之前的產品,「創 TRON」從功能到任務完成上,有哪些突破?

張志琦:「創 TRON」這個產品是微億智造和捷勃特聯合推出的第一款具身智能工業機器人。爲什麼稱它爲具身智能工業機器人,與傳統的機械臂有什麼區別?這個機器人在使用的過程中,真正實現了從傳統的人工編程或手動拖動方式的示教過程,轉變爲自動落地執行。這跟傳統機器人在傳統的機械臂中間加上視覺能力的方式有很大差別。

可以通過視頻看到,這款機器人就像一個學徒。一般在工業現場,師傅帶徒弟時,師傅演示一遍,徒弟在旁邊看一遍,然後自己操作一遍,如果操作正確,徒弟就算合格上崗了。我們的「創 TRON」也是類似的模式,師傅做一遍,機器人通過視覺系統「看」一遍,然後在仿真系統裡學習,再在真實物理環境中操作一遍,所有這些事情成功之後,最後把所有指令下達給工業機器人,工業機器人就能用更高效、更精準的方式完成所有工作。

這就是「創 TRON」與傳統機器人之間的最大差異。過去我們看到的是冷冰冰的自動化設備,而今天的「創 TRON」是一個活生生的、可以和人進行交互的智能化產品。

同時,它在執行過程中如果遇到任何干擾,比如運行線路被阻擋、抓取過程中受到干擾,東西掉了、被拿走等等,它都可以自己感知、修正,繼續執行任務。這是傳統自動化設備無法實現的,而具身智能的工業機器人有能力處理這類任務。

艾之:過去的自動化機械臂生產線上是不存在這樣的任務學習環節的。那傳統的自動化機械臂在生產線上,如何把一個任務分解爲不同機械臂需要協作和執行的指令?

賀巖:傳統工業機器人要在線上工作的話,實際上並不是簡單的把人替換成機器人。這是一個很複雜的過程。

首先,原始材料要規整地排列在固定的位置上,然後要有工程師爲機器人編程,這是需要專業知識的,只有專業的機器人工程師才能編寫程序,告訴機器人去哪個點抓取物品,在哪個點安裝。每一步都要程序化地編好。

這個過程要求兩點:一是上料必須規整,二是編程初始化。這是傳統工業機器人替代工人的過程,非常複雜。而「創 TRON」就像一個學徒,能在師傅示範下學習並完成任務,這是一個革命性的突破。

艾之:大家挺關心機器人在實際應用中的穩定性,機器人在跟真實的人交互的時候,表現的穩定性如何?

賀巖:實話實說,我們確實有失敗的案例,但我認爲,失敗的案例在整個過程中給我們提供了很多學習機會。同時,我覺得「示教」這個切入點選得非常好。

正如志琦總提到的,大多數工業場景對可靠性、容錯性要求很高,而「示教」這件事本身是有一定容錯性的。比如我示範一次,你做錯了,我告訴你錯了,再做一遍,直到你做對爲止。這個過程就像 ChatGPT 一樣,你回答錯了,我告訴你錯了,再來一次,直到你答對爲止。在「示教」環節,目前這個狀態下,它是可用的,並且能創造很大的價值。

艾之:對,在一些對容錯率要求相對寬鬆的場景裡,它已經達到了實際可用的狀態。

張志琦:我們在現場演示時分爲兩部分,一部分是學習區,另一部分是工廠的執行區。坦白說,在學習過程中它確實有時會出錯。因爲背後的操作流程是機器人先在仿真環境中學習,再在實際環境中執行。就像人類員工,能力稍弱的徒弟第一次不一定能學會,沒學會,師傅就得再教一遍。而在每次教學的過程中,系統其實會通過這些失敗的樣本,進一步將數據迴流到模型中,進行進一步提升。而在執行區,也就是工廠那一側,成功率非常高,因爲那部分是在高效環境下執行的。

所以,「創 TRON」這個產品本質上就是對標人類員工的。人有時會犯錯,它也會,但我們有機制來糾正和提升。同樣的,我們的機器人在執行時也有監督機制,類似於自動駕駛的 L1-L5 級別的過渡,今天我們的產品大概是 L2、L3 級別。它需要人類監督,在執行時,發現問題,及時糾正,而這些糾正會幫助模型在下一次的能力提升中表現得更好。這是我們覺得比較有意思的一點。

當然,在實際現場我們也遇到過一些意外情況。比如這次國際工業博覽會上,很多媒體對設備感興趣,拿着閃光燈猛拍,結果我們突然發現,一個機器人的「眼睛」暫時失明瞭,因爲閃光燈太強烈了。這其實是個很好的 Badcase。接下來我們就要考慮怎樣讓模型更好地處理這種干擾,快速修正和恢復,確保在學習過程中能更有效地執行。

所以,我們認爲,AI 和具身智能類產品最不怕失敗,只有在這種模式下,纔能有效提升模型能力。不過,我們需要解決的核心問題是,如何在工業現場中將這些失敗變爲可控因素,從而讓產品能夠真正落地和執行。如果產品一直不穩定,坦白講,像人類員工一樣,如果他一直不穩定,早就被解僱了。如果我們的產品也不穩定,肯定也沒人用。

因此,在示教的過程中,我們允許一定程度的失敗,人類在這個過程中會不斷對它進行矯正,一旦模型穩定下來,它就能快速落地執行,且效率極高。以前,我們可能需要編程來讓設備理解人的指令,要花費幾天甚至幾周時間。今天通過示教和修正,機械設備可以在幾個小時內快速實現。

02工業機器人不需要是人形,但需要比人做得好

艾之:作爲一直深耕工業領域的人,具身智能概念火起來之後,給這個行業帶來哪些變化?

賀巖:具身智能這個概念興起之後,尤其是馬斯克公佈了他的人形機器人計劃,讓人們對未來有了更高的期望,比如我可以做百萬臺甚至上千萬臺低成本的機器人。我切身的感覺是,可選的供應商變得越來越多了,因爲越來越多供應商對這件事充滿了希望,會在之前比較小衆的零部件上投入更多資源。

對於我們來說,可以想象一下,如果人形機器人售價是 2 萬美金,那麼單個手臂的成本可能會低至 2,000 美金,這樣的話,在很多場合,我們可能不需要整個人形機器人,只需要一個手臂就能完成很多任務,怎麼算賬都算得過來。

張志琦:人形機器人火了之後,讓工業場景也變得更熱鬧了。大家看到打工人突然多了一個「鋼鐵之身」,能夠幫助我們解放人力。

傳統的流水線設計,把人當機器一樣去「使用」。通過流程和 SOP 標準化,去除個體差異。當這種模式穩定後,再逐步用機械設備替代人力。但現在突然出現了一個「鋼鐵之身」,這個機器人具備人類的理解和認知能力,能夠基於感知來思考,同時在執行側又能夠像人一樣靈活應對執行任務。它在突然間就改變了我們對自動化的許多思考。

以前自動化追求的是高效率,犧牲的是柔性和個性,大家一直認爲效率和柔性是矛盾的。而現在,好像來了一個新事物,可能有機會把效率和柔性統一起來。

柔性化:一般機器的小批量快速量產能力,相對於通用的定製化,需要有更多靈活性。

當然,目前人形機器人在工業現場的效率還不夠高,需要加快,還在努力解決柔性化的問題。但我們想通過「創 TRON」這款產品,讓行業理解,實際上我們是有機會將柔性化和高效率結合起來的,因爲這纔是真正意義上工業的需求——就是要做到比人更好,才能真正用設備去替代人力。

艾之 :當我們談論具身智能這個概念時,大多數人可能首先想到的是人形機器人。具身智能工業機器人(Embodied Intelligent Industrial Robots, EIIR)這個品類是如何一步步被創造出來的?與傳統工業機器人的差別是什麼?

賀巖:在工業機器人普及的過程中,調試和傳統示教是非常複雜的過程。企業如果要使用工業機器人,需要招聘有資質、有專業背景且有經驗的人,才能把機器人用起來,這極大限制了工業機器人的應用範圍。很多企業主寧願用人,因爲人可以適應各種隨意的來料,而且人還可以做別的事,只要去吩咐他就行了。

佈置一個機器人是非常繁瑣的,如果有這樣一種示範教學的模式,工業機器人可以被應用的場合會大幅增多。

關於二者的分野,我覺得「智能」這個詞是有時效性的,比如說我們現在管手機叫「智能手機」,但是我覺得我女兒不會這麼認爲,她會覺得手機不就是現在這樣嗎,爲什麼還要強調智能兩個字?我們對具身智能的理解是,終極目標是讓它把我們操心的事情都幹了。現階段的第一步任務是,怎樣更方便的向機器人傳達指定任務?不用專業支持就能夠把我想要的事情交給機器人來做。這是從傳統工業機器人向具身智能機器人邁出的重要的邁進。

張志琦:我從通俗的角度再聊一聊。我們在設計具身智能工業機器人時,實際上是根據我們在機器人使用過程中發現的許多問題來做的。

微億智造從成立以來就是一家使用機器人「很深」的企業,我們最早是從產品外觀檢測開始,也在大量使用機器人來實現針對機構側的要求,就像人的手一樣。同時,我們也在光學、AI、模擬方面做了很多能力的提升。

在使用機器人的過程中,首先就像賀總提到的,確實很難操作,必須有專業知識來進行有效調整。我們走訪了許多企業後發現,不僅僅是我們難,整個製造業都難。很多企業老闆寧願僱個臨時工來解決生產力問題,也好過去買一個機械臂。以前是因爲很多人覺得機械臂太貴,今天國內市場上的機械臂已經很便宜了,但爲什麼企業還不用?很多老闆吐苦水說,買了幾萬塊的機械臂,還得配一個月薪幾萬的工程師來調教它,而且訂單和產線經常變化,工程師還需要時間去不斷調整。相比之下,我今天招一個臨時工來,或者讓老師傅帶一下,幾乎就可以立即上崗。這是現實中的情況。

我們從很多第三方的市場報告中看到,每萬名工人的機械臂使用量,幾年前是 200-300 臺,現在達到 300-400 臺,甚至在發達製造地區達到了 400-500 臺。

這個數字看起來有點奇怪,爲什麼每萬名工人只用 500 臺機械臂?剩下的 9500 名工人到底在做什麼?其實就是因爲,傳統固化的機器人使用場景無法覆蓋那麼多崗位。很多企業主跟我們聊,他們設定了指標,每年要用一萬臺機械臂替代工人,但生產主管覺得真的好難,不知道能在哪些場景使用,能用的場景都用了,但是真的還是有太多場景還是要依靠人來解決。雖然工人難招,相對流動性大,不斷要做培訓。

今天是否能有一臺設備能真正意義上像人一樣學習,還能在執行過程中動態處理問題,最終以完成任務爲核心?

這就是我們「創 TRON」這款具身智能工業機器人的核心目標,希望它能像工人一樣通過學習完成工作,安裝到現場,跟老師學一遍,就能把活兒幹了。

艾之:這裡面的鴻溝其實是,教人比教機器要簡單太多了,專業人才的缺口應該仍然很大。高端人才一方面成本高,一方面供應量也未必能滿足工廠需求。因此,具身智能的核心定義應該是「像人一樣」。但到底是像人的外形,還是像人的思考和解決問題的能力?可能後者纔是核心的概念。

張志琦:是的,這兩年大家對具身智能的理解越來越深入了,人形機器人也幫助了大衆理解具身智能的能力。看到一個人形設備能夠在現場解決很多人做的事情,突然間對這個能力有很大認可。但在工業場景上,我們也要解決「如何算得過來賬」的問題。

我們的具身智能工業機器人基本上可以讓工廠在一個比較低的成本的情況下去應用,基於使用的過程積累數據,不斷提升能力,從而真正讓這個產品不光是「算得過來」,同時產品本身的能力還能持續提升,這是這個閉環中的最核心的點。

艾之:你們覺得工業場景中最終需要人形機器人嗎?還是說結論並不一定?

張志琦:從我的觀點來看,人形機器人不一定是工業現場的最佳解決方案。機械臂不一定要是兩隻手,也可能是四隻手,甚至更多。也不一定要有雙足,可以是輪子或者其他更高效的移動方式。

工業現場最初是爲人類設計的,所以人形機器人可以第一時間進入到現場,但今天,工業現場的生產並不一定要爲人設計。

就像以前我們做勞動防護時還得帶上防毒面具,各方面考慮,它也不可能實現 24 小時不間斷的生產。今天這些設備都可以超越人的能力,不見得是人的形態,但是它能夠更好地發揮效益。所以,人形並不一定是工業現場中的最優解。如果有一個具備感知、認知、執行的能力的智能體,工業現場可能更需要這樣的產品。

賀巖:我感覺可以把具身智能體比作硅基生物。現在的情況有點像寒武紀時期的生物大爆發,氧氣增加帶來生命的爆發式增長。現在的「氧氣」是算力、數據和算法,這些技術的成熟帶來了具身智能體的爆發式增長。

前段時間看到騰訊推出的「騰訊 5 號」養老機器人,這是一個家用機器人,主要是幫助老年人,但它不是雙足機器人。因爲現在雙足機器人走路比老年人還要顫顫巍巍,怎麼能幫助老年人呢?所以它的支撐結構做得非常穩固。其次,它沒有頭。當它幫助老人從輪椅轉移到牀上時,如果有頭反而會成爲干擾。沒有頭會讓人感覺更舒服。如果它長出一個頭來,反而顯得多餘。

這樣的例子讓我看到未來多種多樣的硅基生物的可能性,具身智能體會以各種形態出現,但最終會是什麼形態我沒有辦法做出預測。

艾之:這有點像人類本身,不是在每個場景中都需要發揮所有能力。比如走路時是小腦在控制,讀論文時大腦的核心區域正在被激活。

其實有點像去把人這樣一個已經進化得非常好的超級智能體的能力重新排列組合。如果只是單獨實現其中一個模塊的話,成本其實是要低很多的。不需要在每一個場景裡面都放一個特別厲害的技工,或者說特別厲害的一個人。

我想稍微做一下推演,如果以機械臂爲例,像自動駕駛一樣有 L1-L5 的分級,賀巖總,您覺得「創 TRON」這款機器人大概屬於哪個級別?如果往更高的級別發展,它會是什麼樣的?

賀巖:自動駕駛的過程,是隨着等級提升,對人的依賴越來越低。目前的工業機器人,是要有「駕照」才能用,需要專業操作人員才能使用。而「創 TRON」可以實現在「沒有駕照」的情況下,在特定領域內,沒有專業背景的情況下,也能夠用起來。

L1,就像是在自動倒車入庫這樣的場景中,不用專業的技能,普通用戶也能自動完成。

L2、L3 的話,相當於在高速公路上跟車的這些功能,可以在沒有專業技能的情況下自動完成。我認爲「創 TRON」大概相當於 L2-L3 級別。

進化到 L4 或 L5 級別時,用戶只需要告訴機器人我要完成什麼任務,完全不需要任何專業技能。那時,它就真的像一位聰明的工人了。

03智能臂的新可能:一個集裝箱裡生產 iPhone

艾之:具身智能工業機器人和消費類機器人是針對不同場景和目標設計的。兩者在技術路徑上應該有很大的區別吧?在發展過程中要攻克的技術難題,以及難題的優先級,是否存在很大的不同?

張志琦:對,二者的技術路徑上和場景有一定的差別。

工業場景相對來說是一個閉環。它不像開放的世界那樣,可能會受到各種外界因素的干擾。

舉個例子,像消費類機器人在不同環境中幫助老人時,物理世界的干擾因素很多;但在工業場景中,在工廠內部,干擾相對有限。

在工廠裡,操作的對象可能是物料、生產設備,或者生產過程中的工人,環境相對封閉。它需要理解和處理的物理世界的量更加有限,這使得工業場景在模型訓練和技術實現上相對容易一些。但工業場景也有它的難點,比如對精度和效率沒有容忍度。在 C 端場景中,如果機器人沒抓住杯子,可以再試一次;但在工業場景中,任何錯誤和失誤都是不可接受的,精度必須極高,效率也必須算得過來。如果執行速度太慢,工廠可能寧願繼續使用人力,因爲我們的競爭對手始終是人。

因此,我們要做的所有具身智能產品的核心目標就是,在工業現場中做得比人更好,這樣才能讓工廠接受並引入設備。這也是工業場景比生活場景更復雜的地方。

我們在某些方面相對容易,比如在目標對象的訓練、對世界模型和環境的理解上,工業場景的範圍更小,數據集也更小。但困難之處在於,執行的操作精度和效率必須極高,因此需要更強的技術手段來落地實現。

兩者在技術路徑上存在差異,尤其是在落地性上,工業場景裡有一個大挑戰:工廠老闆算不過來賬,他就不用。AI 產品都是越用越好的,數據越來越多,能力越用越強。如果一開始在商業化模式上算不過來,可能就變成了一個「秀場」,大家鼓個掌,但無法實際落地。

然而,一旦可以算得過來賬,能夠產生實際的數據和業務價值,它就會有巨大的市場潛力。因此,這一點是我們需要跨越的。

艾之:總結起來,核心就是成本、工作效率和任務執行的準確度,要在這三者之間找到最優解。當然這個成本並不是一個靜態的標價,而是在做所有的技術方案組合的時候,要去不斷計算的。產品上線之後,它至少要和人類表現得一樣好,甚至在某些任務上比人類更出色。

有觀衆問到,機械臂有了智慧後,是否可以降低配套設備的要求?因爲產線上不只是機械臂,還有很多其他系統設備。

張志琦:這兩年我們也和很多大型製造集團交流過,包括像蘋果、特斯拉這樣在全球製造領域中相對走到最前端的技術部門。大家過去看到的生產線可能很壯觀,上百米長,充滿了機械設備整齊如一。但最近跟全球頂級的這些客戶溝通的時候發現,大家在這兩年的思路有很大變化,探討的其中一個新話題是:有沒有可能在一個集裝箱大小的空間內完成一臺 iPhone 的生產?

艾之:這是一個非常大膽的場景設想。

張志琦:如果能實現這個目標,將會對整個製造行業產生巨大的影響。過去我們聽過「黑燈工廠」的概念,但現在都很少提這個話題,因爲大家突然間發覺它生產的東西很有限,它的柔性化程度較低。

黑燈工廠:Dark Factory,即智慧工廠,因爲從原材料到最終成品,所有的加工、運輸、檢測過程均在空無一人的「黑燈工廠」內完成,無需人工操作。

現在的問題是,能否有一個工廠,生產過程可以動態調配?

如果我今天僱了一幫工人來,今天培訓什麼,他們就能幹什麼。明天再培訓其他內容,他們就能生產其他的東西。從這個角度上說,人的柔性化程度是最高的。

如果我們把這些思路結合在一塊的話,你會發覺,這樣一來,原來的自動化設備只能做單一的任務,而未來應該能夠執行多項任務,甚至如果下面有一個抽屜的話,它還能找到不同的工具完成各類操作。

這纔是「在一個集裝箱裡生產出一臺 iPhone」的核心點。

在集裝箱的這個範圍內,只要給到足夠的工具和材料,人也能幹,但今天,我們能不能用這類的設備去幹?這是我們在現在和將來,在智能製造上要去考慮的問題。

的確,具身智能設備的應用會簡化整個製造過程中上下游設備的要求。因爲人和人之間能夠直接進行溝通和交流,具身智能設備之間同樣可以通過更靈活的方式完成各工序的銜接,從而進一步簡化流程。設想未來某一天,具身智能機器人被廣泛應用時,只需下發一個指令,只要有原材料的,這些設備就能自動化地完成生產任務。這正是我們對未來製造場景的美好願景。

04多模態大模型是智能臂落地關鍵,工業場景不缺數據

艾之:微億團隊可能主要負責算法部分,讓機械臂學習人類的動作和任務,其中有哪些關鍵環節?大模型在這一過程中發揮了哪些作用?

張志琦:其實,這項技術能夠真正落地,本質上得益於人工智能的進步。在過去的自動化領域,實現這種技術是不可能的。我們可以簡單拆解一下這個過程。首先,關鍵在於操作對象是什麼,必須讓機械臂識別這個對象,讓它能夠操作。第二,有了這個操作對象之後,如何完成這個任務?在三維空間中,需要去動態規劃和執行。因此,這個過程包括感知、認知、規劃、驅動和執行,它會把每個部分都緊密結合。

在感知方面,我們會基於視覺的能力,以前的機械臂只能通過電機傳感信號瞭解自身的位置,而沒有視覺能力。但今天我們爲機器人裝上了「眼睛」,它多了視覺的能力,不僅能感知操作對象,還能感知到自己和環境,在感知上我們就必須把三個感知的能力要融合在一起。

感知完成後,我們需要進行認知。以前的認知過程非常簡單,可能就像我們做質檢時,認知只是在拍攝的圖片上進行分析和判別。但現在的認知必須結合三種不同的感知能力,真正理解整件事情。就像我們之前提到的,人類以目標和任務爲核心,具體是怎麼完成某項工作的?我們需要有效地將任務拆解爲子任務,並在執行過程中將這些任務重新整合在一起。

完成認知後,接下來就是規劃,需要用什麼樣的流程和方式去完成這個任務,同時還要和機械臂更深度結合,把驅動和執行有效地結合起來。在驅動和執行的過程中,因爲我們知道實際操作中可能會遇到干擾,或者出現異常,需要動態地修正和重新規劃,基於新的感知和認知,形成新的規劃和執行。這個過程必須嚴絲合縫地形成高速執行的結果,動態地完成過程中的規劃和修正,才能真正實現任務的落地執行。

這與傳統自動化完全不一樣。傳統自動化就是通過編程,按照固定任務和結果執行。而現在的流程,在各個環節中都需要大量的循環往復,把感知、認知、規劃、驅動和執行緊密結合,才能真正完成任務。

因此,如果只從算法側,微億是做不了這件事的,必須與捷勃特,特別是機械臂的本體之間進行深度的整合,纔能有效結合動態規劃和執行,把感知、認知與執行機構緊密銜接。只有這樣,才能將這些環節像人類一樣去操作、去落地。

艾之:在具身智能領域,我們都知道可能會有不同的技術路徑。有些原本專注於機器人制造的公司,在解決這一命題時會思考,算法如何更好地與機械本體的控制系統、驅動系統結合。能否更形象地展開一下,算法真正與機械本體深度融合的難點究竟在哪裡?

賀巖:舉個例子,因爲我們的攝像頭是安裝在機械臂上,相當於你的「眼睛」一直在移動。當你看到一幅畫面時,首先要知道我的眼睛到底在哪裡,因爲它不是固定的,而是動態的。因此,這需要一個非常高速的數據交互能力,系統能夠獲取攝像頭的當前位置,將這兩組數據拼起來,才能形成準確的空間感知,否則就會出現混亂。

另外,如果系統要規劃機械臂的運動,機械臂的物理能力是有上限的。如果速度過快,電機會損壞,所有的物理系統都有極限。我們需要在不超過物理極限的情況下,儘可能提高機械臂的效率,這就要求將動力學模型深度集成到這套系統中。這是一個非常深度的綁定,一般的合作關係很難打通,我們在一起緊密合作才實現了這樣的技術突破。

艾之:剛纔提到的視覺模塊,它捕捉的是視頻的連續幀信息,還是靜態照片信息?

張志琦:其實我們是從連續的信息中抽取幀,一幀一幀地抽出來。

前面我們也談到,工業現場的第一個問題就是要把賬算清楚。今天許多與人形機器人相關的成本,一部分是在執行結構上,比如關節的成本很高。另一部分是,人形機器人在感知能力上比較強,它們用了大量傳感器,從激光雷達到 3D 相機,能裝的設備幾乎都裝上了,保證有足夠的信息量,提升設備的環境感知能力。但坦白說,這些傳感器都是成本。

如果我們把這種模式應用到工業現場,問題就很難解決,賬是算不過來的。所以我們給團隊設定了一個預設條件——不能使用貴的傳感器,也不能用更貴的技術來實現這些目標。

艾之:先把上限卡死。

張志琦:對,我必須設定一個上限,在受限的環境中解決問題。這增加了團隊的難度,比如在二維圖像的方案中,我們看到的都是一張張 2D 的照片。如何基於 2D 照片判斷對象物體的位置、擺放方式、與我們的相對距離。所有這些都需要將 2D 轉換爲 3D 的空間信息,而且精度必須非常高。工業現場不能容忍超過 1 毫米以上的公差,否則機械臂就抓不起來,或者無法正確操作。因此,我們必須在受限的環境中實現這些目標,這是一個較大的難題。

正是因爲完成了這項工作,具身智能工業機器人在成本上才與傳統工業機械臂接近。它沒有增加昂貴的感知設備,而是依靠算法能力,通過機器人的相對空間位置和視覺捕捉的對象物體畫面,同時參考對象物體的 3D CAD 圖紙,完成空間建模,從而進行 3D 空間計算、執行。這背後的技術難度比較高。

就像前面提到,「AI 教母」李飛飛,最近也在做與空間智能相關的工作,通過一張 2D 照片就能理解背後的物理關係。今天,我們在工業現場實現了類似的方式,通過一張或一組連續的照片,判斷對象物體與機器人本體的相對位置、物理環境和空間座標,完成特定任務。這是其中比較難的點。

艾之:這個模型是端側的小模型,還是多模態模型?它是由幾個模型配合完成的嗎?

張志琦:今天具身智能的難點在於它使用了大量不同能力的組合。比如說對象物體的識別,它涉及 2D 到 3D 的模型能力的轉化,但它本質上是一個小模型,難點在於算法精度必須非常高,訓練數據集也要足夠小,訓練時間要短。

過去,我們的第一個版本需要一天的時間,通過拍攝幾千張不同位置的照片才能完成空間建模。現在,我只需要 200 張以內的照片,在幾個小時內就能完成,這在速度上有了極大的提升,但本質上仍是一個參數級不高的小模型。

同時,我們也有大模型在背後支持。當人類操作時,實際上處理的是一組連續的視頻,我們通過大模型技術來理解視頻中的語義,從而理解人類是如何操作對象物體的,再將這些操作拆解成不同的任務,進行編排和執行。這是有大模型在背後支撐的。當然,這其中存在錯誤的概率,因爲大家都知道,大模型在初期輸出時會有不穩定性,有時它學錯了動作,還需要我們修正。

本質上,這背後是由一個視頻語義理解的大模型來落地執行。但在每個子任務級,它又是由一堆高精度的小模型指揮機器人完成不同的運動規劃任務的集合,過程中要去跟機器人自身運動的動力學算法打通,確保機器人在執行時達到最高效率。所以在這個過程中,其實是融合了大量技術。

這也是爲什麼大家覺得具身智能產品「很難」,難點就在於,它必須將各種技術捏合在一起,才能完成特定任務。而且,還得把實驗室級別的技術和實際落地的工程化產品結合起來,因爲最終落地的還是一個工程化的產品,要能夠被客戶使用。這是其中最難的部分。

艾之:感覺你們絕對是屬於務實派,直接坦誠地告訴我們,其實有些 badcase,不要抱太高的預期,不過在精度要求不那麼高的場景下,已經可以使用了。

你們團隊的研發風格也是,設定了明確的上限,堅守在這個成本範圍內尋求最優解,而不是無限制地投入研發經費去追求更好的技術參數或零部件。因爲即便投入再多,如果最終算不過來,也無法真正投產。

這種務實的思維,可能是來自長期紮根工業場景的經驗。這個可能也是工業機器人出身的團隊,或者說一直紮根在工業場景裡面的團隊去創新時,可能會有的一些不同的思維和切入角度。

剛纔我們講了大致的實現路徑,我想請教一下賀巖總,您怎麼看待微億和捷勃特的技術路徑與端到端模型算法的路徑?您對這些技術路徑的未來有怎樣的判斷?

賀巖:首先在端到端路徑上,它必須是在容錯率非常高的場景中,可以一步步走向實用和成熟。而在工業成熟的場景中,我相信,不得不採用這種,一部分基於訓練,一部分基於規則的拼裝組合的方式。因爲越多的落地場景,越多的數據,就越能推動技術的發展。因爲首先我得在一個場景中落地,越落地越有數據,可能越成熟。

艾之:得先讓這個飛輪轉起來。

賀巖:對,而且在中國這樣一個製造業強國,我們有大量的數據源可以利用。所以只要這些數據被有效使用,我們就能逐步走向成熟。最終,這兩條路徑應該是殊途同歸的。但先得落地,接觸場景和佈局是非常重要的,如果無法接觸到這些場景,就很難爬上這坡。

艾之:關於模型的能力。今天大模型能力還在不斷迭代,像 OpenAI 最近發佈了新模型,我們看到了推理和 agent 能力的提升。這種基礎模型的提升,能否在工業場景中帶來同等比例的能力提升?

張志琦:是的,今天我們的「創 TRON」1.0 在工業現場能應對的場景還是有限的。我們目前主攻四個場景:上料下料、裝配、打磨和質檢。這些都是製造業中常見的場景。隨着基礎模型能力的提升,我們可以針對不同的工業場景,進一步提升能力,提高不同領域中的任務複雜度,逐步讓機器人越來越像有經驗的人一樣應對各種場景。

所以從大模型的技術能力提升上來說,工業現場的場景化應用的能力也是會越來越豐富的。有時候大家談到工業大模型和通用化大模型,很多人覺得難,因爲沒有足夠的數據。這也是工業 AI 導入速度偏慢的原因之一。但通過具身智能工業集成,我們能夠在每個場景中積累數據,並通過機器人載體有效執行和落地,沉澱有價值的數據。

我們經常開玩笑說,工業具身智能機器人是一個學徒,跟着老師傅去學習,其實就是把人腦裡的知識倒出來,通過數字化載體記錄和儲存下來,以前好工人的經驗是口口相傳的,而今天是,用一個有數字化能力的產品把這部分經驗和知識沉澱下來。

所以,可以暢想一下,雖然目前我們只支持四個場景,但隨着底層模型能力的提升,我們能夠應對更多複雜場景,逐漸替代部分人工。

回過頭來看,具身智能工業機器人的終極目標非常簡單。如果今天某些地區有一萬名工人,有 500 臺機械臂,那我們的目標很簡單,就是希望通過機械臂替代這 9500 個工人,把人從整個製造的環節裡完全釋放出來。

艾之:模型算法每次迭代更新需要多長時間?你們有具體數據或案例嗎?

張志琦:學習上需要花一些時間,切換上速度是極其快的。

目前,對於操作對象物體的處理,基本上是在小時級。機器人學習一遍後,基於任務的複雜度,也能在小時級完成所有模型構建。一般在工廠培訓新員工也需要花半天時間,而我們的設備基本可以在同樣時間內實現落地。但在執行過程中,設備的效率一定比人高,一方面執行速度更快,另一方面設備可以 7x24 小時不間斷工作。一旦學完一遍,產線的切換就可以在秒級完成,也就是可以非常快地在不同的模型之間進行有效的轉化。

05以前是人適應機器,現在是機器人去理解人

艾之:中國作爲製造業大國,很多場景下人力成本仍然低於機器成本。我們現在有個大前提,就是希望成本儘量可控,讓機器人順利進入生產線。其次,我們需要大量的數據,不斷完善和提升模型能力。

賀巖總,從您的角度來看,像「創 TRON」這樣的機器人,或者未來更先進的版本,如何才能順利進入生產線?對於客戶來說,用新的解決方案替代掉老生產線上的方案,他們的核心動力是什麼?如何讓他們更願意接受這些新方案?這些客戶肯定是非常精打細算、成本敏感的,怎麼讓他們願意做出這種切換?

賀巖:對於成熟的生產線,如果沒有升級的需求,它們可能會繼續使用傳統方法。問題在於,很多工廠和企業主想用機器人,但用不起來。這限制了工業機器人適用的範圍。

「創 TRON」的出現解決了幾個問題。首先,自動化設備,對上下料的要求不高。其次,我不需要招有學歷、有資質的專業人員來實施這套系統,這對企業來說是一個巨大的優勢。現在工業機器人替代工人的滲透率還很低,比如 1 萬名工人中只有五六百臺機器人,這是因爲很多場景上,工業機器人根本就用不起來。

我相信,現在使用工業機器人的那些成熟生產線會繼續存在下去,但「創 TRON」的目標市場是那些剩下的 9000 多個崗位。它能夠真正解決的是想用但是沒法用的企業主的問題。

張志琦:我再補充一下,坦白講,機器人市場每年的增長幅度其實有限。

近年來協作機械臂的興起,替代了一些傳統工業機械臂的場景,但協作機械臂的應用量仍然有限。以前它解決的最核心問題是安全性問題,比如在人和設備共處時,設備碰到人會自動停下來,避免傷害。儘管協作機械臂在一些生活場景中應用增加,但整體市場的增長量每年也就 20% 左右,這裡面協作機械臂的量甚至蠶食了部分工業機械臂的市場份額。

這也明確地迴應到剛纔賀巖總提到的話題,今天其實仍然是一個傳統市場,爲什麼增長幅度沒有那麼的快?就是因爲太多的場景,不是今天的工業機器人或者工業機器人加上傳統的協作機器人能夠去覆蓋的場景,還是需要依靠人力去做。

而我們的「創 TRON」這一類產品,一方面是能夠比傳統機器人在使用上更加簡潔。我們真正的目標市場是那些無法靠工業機器人或協作機器人解決問題的市場,因爲這些場景需要靈活性和應對多種變化,而傳統工業機器人對此無能爲力。但今天,我們有機會依靠具身智能產品,用人類的方式來完成這些任務。既然這些任務今天是由人來做的,我們就有機會用這類產品替代人力,實現自動化。這纔是我們這款產品真正的目標市場和用戶羣體。

艾之:確實有很多場景,大家想用機器人但覺得太難,甚至不是成本問題,而是技術能力的鴻溝問題,這在過去這一直是一個編程和翻譯的難題——如何將工藝翻譯成機械臂和機器人能理解的數字語言?

張志琦:現在很多專業人員的工作是「幫機器人理解業務和人類需求」,而「創 TRON」這類產品的終極目標是讓機器去更好地理解人,而不是讓人去適應機器。這是是我們產品的核心點。

艾之:我有個外行問題,現在我們的機械臂像個學徒,去學習老師傅的工藝。那麼,在工業製造領域,工藝的數字化水平大概是什麼樣的?

賀巖:工藝是生產某個產品時專業的 know-how,關於「我怎麼把這件事情做好」。

未來的生產應該是,機器人的使用者只需要知道如何生產出好的產品,只需要知道自己怎麼把這個東西做好,然後能夠通過自己的專業語言讓機器人聽懂就可以了,而不需要懂得機器人的專業知識。這是「創 TRON」的目標。

張志琦:對,其實這也涉及到另一個話題。

機器人市場發展了幾十年,很多海外頭部的機器人廠商已經在不同的場景中已經積累了大量經驗,這些經驗逐漸成爲他們另一個最核心的盈利產品,就是所謂的工藝包或 SDK 庫。比如說在焊接或塗膠等領域,他們有很多這樣的庫,能夠幫助專業人員更好地翻譯業務上的訴求和需求,同時能夠在機器人運動控制和操作對象方面快速適應。然而,回到國內來看,許多汽車廠商在這方面的積累相對有限。

爲什麼積累有限?首先,起點不同,國外廠商發展了幾十年,而國內很多廠商相對年輕。其次,這與市場原則有關。因爲工藝包本質上是一個軟件包,軟件包的成本是很低的。今天,國外的機器人在硬件上已經被國內廠商捲到掙不到什麼錢的程度了,但在這一部分軟件包上,還是保持了很大的利潤。而在國內,機器人工程師和集成商的人工成本還相對偏低,因此集成商往往不會購買國外的 SDK 庫和工藝包,而是手動調試,調整到能基本滿足需求的程度就可以了。但這樣做的柔性化程度會變得更低,機器人廠商也難以在這一領域積累經驗。因此,這就是爲什麼在這類工藝包上的數據積累較少。

同時,國內還有沒有機會解決這個問題呢?這也是一個「先有雞還是先有蛋」的問題。

可能一部分有支付能力的廠商不加思考地就選擇了國外的機器人和工藝包,能夠把這類場景覆蓋掉,這樣就沒有國產機器人的事了。但國產機器人廠商又因爲集成商的手動調試,無法積累數據,這就導致國產廠商難以在這方面進一步提升能力。

但是,像「創 TRON」這樣的產品恰恰解決了這個問題,因爲它能夠在數據能力上不斷積累,去對於生產中間的所有的過程數據,不管是 good case 還是 bad case,它都可以有效記錄,不斷提升模型能力。

因此,以前想在這些場景中「彎道超車」其實是不太可能的。而今天通過 AI 技術,我們實際上是換了條道。依靠具身智能產品,我們有機會去實現這個目標。

艾之:確實,大模型技術讓我們看到了另一種可能性,就像從另一個坡爬上去,可能可以把中間的四五步並作兩三步,直接達到同樣的目標。因爲像工業 4.0、柔性製造這些概念,已經喊了很多年了,本身是從國外興起的。

06我們既不怕被抄,也歡迎大家來抄

艾之:從整個國外的產業基礎來看,他們的數字化和信息化積累還是非常紮實的。不過,可能他們也存在原有的路徑依賴,比如你們在工業博覽會上展示機械臂的時候,我聽說「四大家族」也都在。能不能給我們分享一下傳統工業機器人「四大家族」的最新嘗試?我們在全球範圍內的競爭力現在處於什麼樣的水平?

注:傳統工業機器人領域的「四大家族」指的是瑞士的 ABB、德國的 KUKA、日本的 FANUC(發那科)和安川電機(Yaskawa)。

賀巖:我們的展臺在「四大家族」展區的中心位置,因此我們也觀察了一圈。老實說,我們沒有看到像「創 TRON」這樣的創新產品,至少在展會上沒有看到特別亮眼的具身智能技術。

張志琦:其實看完之後我們更加有信心了,哈哈。應該這樣說,「四大家族」確實有很大的包袱。

艾之:對,這就是我剛纔提到的路徑依賴問題,之前他們的基礎太紮實了。

張志琦:坦白講,很多時候這種路徑依賴會抑制創新能力。所以今年看到的四大家族,還是在機器人的底層技術上不斷精進,比如運動控制和系統控制。機器人已經發展了幾十年,這些方面能提升的空間是有限的。但反觀國產機器人的展館就熱鬧得多,各種類型的機器人都有,比如幫人按摩、鍼灸、衝咖啡的,各種各樣的展示非常豐富。

艾之:是的,衝咖啡的都是入門基礎款。

張志琦:對,現場很熱鬧。我們也看到一些廠商放的視頻,展示的功能和我們的「創 TRON」有些接近,向大家展示大模型如何與機器人技術結合。但坦白說,在實際操作上,還沒有誰敢真正搬一臺設備到現場,和大家互動演示。這一點其實很有意思。我們的展臺上有很多友商,氣氛也很熱鬧。國外的機器人廠商和國內的同行都來看,大家對我們的設備評價都很高。

艾之:剛纔提到另闢蹊徑,找到了一些技術紅利,走了一條創新的路徑。想請教一個外行問題,如果別人想抄我們的技術,好抄嗎?

張志琦:本質上來說,產品的理念和設計並不是別人完全想不到的。今天,「創 TRON」這個產品的技術分解後,會發現其中有很多複雜問題,涉及技術、工程等一系列難題,必須將這些問題整合起來,才能真正落地。

從一家 AI 公司成長爲一家機器人公司很難,從一家機器人公司成長爲一家 AI 公司也很難。像「創 TRON」這種具身智能產品,必須是硬件與軟件、機器人與 AI 的深度結合。今天很多人形機器人公司動輒有 400-500 人的團隊,至少需要 200 多人的硬件團隊,100 多人的算法和軟件團隊,才能逐步將產品做起來。

如果沒有這樣的團隊配置,基本上就是缺胳膊少腿,很難做到。我們在做具身智能工業集成時,如果沒有兩家在技術上的深度合作,這件事幾乎不可能實現。許多同行在工博會上看到我們的產品時,都說這確實很難做到。外行可能覺得機器人很聰明,但內行看門道,他們能看出我們在技術上涉及了很多細節,超越了很多技術能力已經不錯的公司。

從我的角度來說,我希望「創 TRON」這個產品能以點帶面。首先,它能引導微億和捷勃特的產品更好地向具身智能方向發展。其次,我也希望同行能看到這個產品的價值,進入這個賽道。工業賽道的天花板非常高,不僅是微億和捷勃特兩家公司能夠完成的。雖然門檻高,但如果大家一起努力前行,整個中國的製造業就有機會登上珠穆朗瑪峰。無論我們是從北坡攀登,還是友商從南坡攀登,或者我們爲後來的公司踩出了一些腳印,讓他們能夠更快前進,對整個中國製造業登頂珠峰都有幫助。所以我們既不怕被抄,也歡迎大家來抄。

艾之:先把蛋糕做大再說,對吧?

賀巖:對,我從另一個角度稍微補充一下。

我們剛纔說的門檻,首先是微億智造和捷勃特在工業場景中的深厚積累和理解。我們要做具身人工智能,但客戶到底需要什麼,這需要我們在行業裡深耕多年積累的經驗。第二,是微億團隊對 AI 技術的強大把控能力。

再有,捷勃特機器人的自研率非常高。所以當微億智造問能否實現某個功能時,我們都能做到,因爲所有的技術都是自主研發的。

還有一點非常重要,就是雙方之間深厚的互信。我把我的技術開放給你,你也開放給我,這都建立在彼此深層的信任基礎上。

所以,這幾方面都是很高的門檻。

艾之:未來你們的產品和技術路線上,可能會帶來什麼樣的機械臂或具身智能工業機器人?

賀巖:首先我們要把「創 TRON」這款產品真正落地。因爲從成功率和效率的角度看,離「爲客戶創造價值」,我們還有很多事可以做,如果能夠把這個事情做到更好,本身就是一件偉大、蠻有挑戰的事。從產品展示到找到種子客戶,再到讓客戶真正意識到這款產品的價值,這中間還有一段路要走,希望能踏實地把這條路走好,走穩。

艾之:先讓更多的工廠和生產線用起來,這是關鍵。

張志琦:對的,其實按照我們和捷勃特的時間規劃,明年上半年我們計劃完成產品的小批量生產,下半年會完成大批量生產。就像賀巖總說的,產品工程化過程中還有很多工作要快速落地和實現。同時我們的第一批種子客戶已經逐步開始導入這些設備,完成第一期項目的落地。我們也希望在這批項目中儘快看到成果,爲更多同行業甚至跨行業的客戶提供一個良好的基礎。

賀巖:從長遠來看,未來我們可能會結合力學和觸覺,現在我們已經結合了視覺,接下來還會賦予機器人更多像人一樣的感覺——有眼睛、有大腦、再加上重量感。未來還有很多事情可以做。