00後CEO楊豐瑜:回國創業,五個月造出首款「可量產」人形機器人

人類正在迎來人工智能領域的爆炸式更新,技術向未知拓展的每一步,幾乎都引起驚人的關注度。

在人工智能邊界擴張的過程中,重要賽道的技術路線創新與分歧並存。技術先鋒者的判斷和選擇,影響着衆多跟隨者的腳步。

過去一年,機器之心獨家率先將月之暗面、生數科技、愛詩科技、無問芯穹等優秀公司介紹給大家,爲他們在互聯網世界留下了第一份 “萬字訪談底稿”。在技術路線尚未收斂的階段,我們看到了到真正擁有信念、勇氣以及系統化認知的 AI 創業者的引領力量。

因此,我們推出 “AI Pioneers” 的專欄,希望繼續尋找和紀錄 AGI 時代人工智能各細分賽道具有領袖氣質的創業者,介紹 AI 賽道最出衆、高潛的創業公司,分享他們在 AI 領域最前沿、鮮明的認知。

作者:姜菁玲

機器之心報道

即使年輕的學術天才已成爲當下AGI公司創始人的主流背景之一,2000年出生的楊豐瑜,還是年輕得讓人意外。

本科密歇根大學計算機專業,耶魯大學計算機專業博士生,年僅23歲的楊豐瑜,在去年開始了自己的具身智能機器人事業。

2024年,由他創辦的UniX AI具身智能公司,在五個月內完成了一款輪式人形機器人的研發製造,這款帶有「餐後清潔」以及「洗衣服」等功能的機器人將於九月開始量產,並對外銷售。

在很多具身智能機器人仍然停留在實驗室的階段,這是一個很快的商業化速度。在蘇州,UniX AI公司的機器人量產工廠已經超過兩千五百平。

這家在去年幾乎沒人聽說過的公司,在大半年內網羅了多位機器人行業內的資深技術人才。「有頭部服務機器人的研發總監幫我們做底盤,也有一些頭部的人形機器人公司頂尖人才在負責我們的硬件」。2024年7月,上海交大著名機器人專家王賀升教授,宣佈正式加入UniX AI擔任首席科學家。

在UniX AI釋放出的首支技術展示視頻中,名爲Wanda的輪式人形機器人能夠完成抓起豆腐、協助分類衣物、將衣物拿到洗衣機清洗等任務。當下具身智能公司難以解決的「柔性任務」問題,UniX AI似乎已經找到解決方案。

「我不覺得年輕有什麼不好,從技術層面來講,當下很多新技術、新產品,很多是由擁有深厚學術背景的年輕人創造的」,令我們有些意外的是,作爲00後,楊豐瑜本人在談吐中表現出超越年齡的成熟,對於公司管理和具身智能的技術階段擁有非常清晰的認知。

我們對UniX AI的好奇集中在,一個在創投圈幾乎沒有任何消息的具身智能公司,爲何能做到如此快的發展速度;作爲極少的由00後操刀建立的具身智能公司,UniX AI如何實現從0到1的發展?UniX AI的具身智能終局路線圖又是什麼樣的?

帶着這些問題,機器之心與楊豐瑜展開了他創業以來的第一次公開媒體對話。

耶魯00後

投身具身智能創業

機器之心:你現在已經畢業了嗎?

楊豐瑜:我是本科直博到的耶魯,博士畢業的論文要求我基本都達到了,就拿今年來說吧,我中了4篇CVPR,加上其他,總共有十多篇人工智能和機器人的頂會文章。

機器之心:你的精力很旺盛。

楊豐瑜:(笑),經常熬夜到凌晨三點半,前段時間還去打吊針。主要是因爲團隊在一起,經常不看手錶,一擡頭就已經很晚了。

機器之心:是什麼時候開始想到要創業的?

楊豐瑜:我一直認爲創業是“天時地利人和”。

去年我們看到感知層面在技術上有很大進步,包括視覺、語言模型和觸覺等多模態的一些大模型或基座模型都有了很大的發展,這讓我們看到了實現目標的可能性。另外國家也有一系列的支持政策推出,爲創業提供了一個良好環境。這是“天時”。

“地利”:毋庸置疑,通用人形機器人是繼新能源汽車之後的下一個發展方向,中國在供應鏈方面有着無可比擬的優勢,而且長三角這邊的高科技人才也非常多。

一開始,我們做了一些調研,去弄清楚目前機器人行業的工程化水平進展到哪個階段、市場需求在哪裡、上一代機器人解決了哪些問題以及它未來的機會在哪裡?

能夠成事,關鍵還是找到對的人。今年,我們正式組建團隊,快速集結了很多方面的專家,有頭部掃地機器人的研發總監,也有一些頭部人形機器人公司頂尖人才,負責我們的硬件。在算法層面,我在美國以及歐洲招募了一批人才,包括我的一些同學、師兄,這是“人和”。

作爲創始人和CEO,最重要的是集合資源。UniX AI是一個全球化的公司,把全世界不同國家在機器人軟件、硬件、供應鏈的優勢結合起來;同時我們有國際化的規劃,通過一年、三年、五年計劃的不斷努力,實現Robots For All的公司願景。

機器之心:簡單介紹一下你的學術經歷吧

楊豐瑜:小學到高中是在國內,本科去密歇根大學讀了計算機專業。一開始接觸的是視覺和機器學習,後來在導師「多模態學習」的影響下,開始進行視觸覺的研究。

本科期間發表了5篇機器人視觸覺論文,其中“Touch and Go: Learning from Human-Collected Vision and Touch”是世界上現今最大的視觸覺傳感數據集,被人工智能和機器學習領域的頂級會議NuerIPS接收。

在另外一個工作裡,我們第一次引入diffusion model完成了對視覺和觸覺之間的相互轉化,成果被ICCV接收。

對於機器人來說,觸覺很重要。一件衣服,是滌綸、棉紡還是絲,靠肉眼不太能夠觀察得出,只有真正摸上去,才能分辨不一樣的質地。另外在一些精細活動上,比如將充電線插入充電口,也需要通過觸覺不斷調整,單靠視覺無法完成。

機器之心:然後你就來到了耶魯。

楊豐瑜:因爲在機器人視觸覺方面的一些工作,特別是視觸覺的轉化和在大語言模型中的泛化運用,我獲得了北美計算機協會傑出本科科學家稱號,是學校有史以來第一人。最終選擇耶魯大學進行博士深造。

在這期間,我陸續發表了一些論文,其中《Binding touch to everything: Learning unified multimodal tactile representations》(CVPR, 2024, pp.26340-26353),在這篇論文中,我提出了世界首個適用於多款不同觸覺傳感器的觸覺大模型 UniTouch,適用於與視覺、語言和聲音等多種模態相連的基於視覺的觸覺傳感器。

另外一篇論文《Tactile-Augmented Radiance Fields》(CVPR, 2024, pp.26529-26539),則建立了世界上第一個可以在場景級泛化的3D視觸覺模型TARF,UniX AI人形機器人的泛化能力也是基於該模型。

機器之心:你覺得00後的身份對你來講是更有利還是更有弊?

楊豐瑜:創業公司,創始人是靈魂。很多人會覺得我很年輕,但我覺得00後的身份不是問題。

從技術層面講,在迎接這一輪的科技變革和賽道創新的浪潮中,年輕人具有非常強的推動作用。很多新技術、新產品是由當下的年輕人創造的,特別是高科技行業,准入門檻相對較高。Sora核心團隊的成員之一也是我同學,他在密歇根大學時就展現出了很強的技術能力。

從認知和經驗層面講,我覺得快速學習、快速糾錯也是一種路徑。另外是個性,要肯堅持有韌性,想盡一切辦法,有“逢山開路,遇水搭橋”的精神,畢竟創業最後都是拿結果說話。

當然,UniX AI團隊中也有很多有經驗的專家,他們在結構、電子等方面有豐富的從業經驗,我們之間有效配合,才能在短時間內推出我們的產品。

視觸覺+操作

提升機器人可泛化能力

機器之心:觸覺的提升爲什麼對機器人是重要的?

楊豐瑜:人是一個多感官動物,你的行動決策通常是多個感官共同傳遞過來的信息綜合影響,智能機器人理論上也是這樣。

觸覺是最重要的感官信息之一,跟視覺反饋相比,它產生在機器人與環境交互之後,而視覺反饋是在之前。當機器人抓取一個物體時,物體發生了形變,本質上,這個交互動作發生後,機器人獲得的增量信息都來自於觸覺——它摸起來是怎樣的。

擁有觸覺信息能夠讓機器人在一些更復雜更細膩的任務上表現得更好,大大提高抓取任務的成功率,尤其是在柔性物體的抓取中,觸覺的作用更加明顯,可以說是從基本不可能完成任務到能夠完成任務的質的提升。

比如,我們的輪式人形機器人Wanda已經實現捏雞蛋、抓豆腐、洗衣服等任務,純靠視覺去做,機器人得不到反饋,是很難執行下來的。

爲什麼現在機器人主要依靠視覺做判斷,是因爲視覺方面的數據相較於其他,是最直接、容易獲取且被訓練起來的,有大量數據可以用。但是在機器人往具身方向更進一步去走的時候,僅僅依靠視覺是肯定不夠的。

作爲一種依賴交互產生的感官信息,能夠將觸覺信息合理運用的意義還在於,機器人能夠逐步在與世界的真實交互中不斷學習,變得更加可用和泛化。

機器之心:爲什麼加入觸覺後,機器人對柔性物體的控制水平會提升,原理是什麼?

楊豐瑜:原理主要在於柔性物體與剛性物體在抓取和操作時有很大的不同。剛性物體在觸碰前後,其物理形狀基本不會改變,因此通過視覺觀察,在抓取時相對容易判斷。然而,柔性物體在抓取之前或操作之前,通過觀察很難確定與它接觸後會發生什麼情況,因爲在抓取過程中會出現大量的遮擋和形變,而這些形變通過視覺是很難準確預測的。

例如,當拿一張紙巾時,一旦將紙巾握到手裡面,就會完全遮擋住視線,此時視覺幾乎無法提供有效的信息來判斷如何抓取或操作。在這種情況下,就只能依靠觸覺等物理信息來完成感知。

機器之心:爲什麼好像很多時候我也不需要去嘗試抓一下物體,我就知道怎麼抓。

楊豐瑜:那是因爲你作爲一個人類來說,已經融合得很好了,以至於你不知道你用了觸覺信息在這裡面。你已經積累了二十多年的觸覺數據,所以你不知道是哪一種感官支持你讓你去完成了這個任務。

機器之心:對大部分機器人任務來說,不同感官的貢獻比會有什麼區別?現階段,觸覺的優先級有多高?

楊豐瑜:對於大部分機器人的任務來說,不同感官在感知、推理決策和行動這三個步驟中的貢獻比例有所不同。

在感知層面上,初期主要依靠視覺和點雲來獲取全局信息,比如知道整個家的佈局、水在哪裡等。目前,通過視覺大模型和3D大模型來感知全局信息的問題已基本解決。

在決策層面上,主要依靠語言引入人類的先驗知識。例如,機器人接到從冰箱拿水的指令後,能進行任務拆解,知道第一步打開冰箱,第二步拿水,第三步關冰箱,這些先驗知識來自大量的互聯網數據。

在行動層面上,視覺可以幫助機器人確定抓取的位置,但在確定抓取力度等方面,觸覺信息起着重要作用。比如在有遮擋的情況下,像拿豆腐時,視覺難以準確判斷抓取方式,而觸覺能提供關鍵信息,幫助機器人完成精確抓取。

此外,觸覺在一些精細力控的場景,如捏雞蛋、抓豆腐等,以及在一些需要判斷物體形變和力的反饋的場景中,發揮着重要作用。

總的來說,不同感官的貢獻比因任務而異,在一些剛性物體的抓取中,視覺可能佔比較高;而在很多柔性物體的抓取中,觸覺的作用更爲關鍵,甚至可以說是從基本無法完成任務到能夠完成任務的質的提升。

機器之心:觸覺這塊有足夠高的壁壘嗎?落地到機器人產品裡有什麼難點?

楊豐瑜:我認爲相對來說是比較高的,在2023年之前,觸覺一直是一個非常小衆的模態,與視覺和聽覺相比,從事觸覺相關工作的人非常少。

在開展觸覺相關工作的初期,傳感器是最大的難題。當時,全世界從事數據相關工作的人並不多,如何製作傳感器是一個關鍵問題。

其次,是如何解析觸覺信息的問題,這涉及到算法和數據兩個層面。數據層面,此前世界上絕大多數觸覺傳感的具體數據並不公開,這可能是由於許多機器人結合的特殊性或其他原因導致,使得機器人領域的數據公開程度不如視覺領域。因此,我們不斷解決數據集的問題,致力於推動全世界觸覺傳感數據集的不斷公開。

在算法層面,觸覺與視覺存在差異,其中包含許多物理的先驗知識。例如,通過傳感器上的marker可以判斷受力情況,但這些信息不像視覺信息那樣易於解釋和識別。

當時還進行過一個實驗,結果表明生成的觸覺信號讓人分辨起來非常困難。因爲如果人沒有經過一些特定的訓練,很難分辨出每一種東西的觸覺傳感信號。我們也在積極努力降低這一壁壘,推動學術界更多的人蔘與其中,以促進整個觸覺域的發展與進步。

機器之心:如果說,觸覺信息不僅面臨現存數據量少的問題,大規模採集成本也很高,那怎麼去做到Scale up?

楊豐瑜:我們之前做的工作其實就是嘗試解決這個問題,如何在大規模採集難以實現的情況下做到Scale up:

第一步,我們把視覺和觸覺打通,通過視覺來預測觸覺,甚至在沒有觸覺採集的場景中,利用視覺和語言等信息來推測觸覺信號。

比如,採集了同類型同材料的桌子的觸覺信息後,到新的家庭或辦公室場景中,即使沒有實際觸摸過過新的桌子,也能通過視覺和語言信息推測其觸覺信號。這樣的話,我們可以做到即使沒有真正物理的接觸,也能夠擴大可用數據集。但是這種方式可能跟真實信號有一些出入,因爲這是預測的。

第二,我們不斷推動觸覺數據集的公開。通過公開數據集,可以讓更多人蔘與到觸覺領域的研究和發展中,從而促進整個領域的進步。

第三,在算法層面上,我們努力降低觸覺信息識別的門檻。例如,通過在傳感器上添加標記(marker),並發現標記在受到不同力時的變化規律,從而利用這些物理的先驗知識來更好地解析觸覺信息。

第四,致力於將不同的信息,如視覺、觸覺、語言等多模態信息結合在一起,以完成各種任務。通過多模態信息的融合,可以在一定程度上彌補觸覺數據量少的不足,提高模型的泛化能力和適應性。

機器之心:大規模採集是否可以實現,需要什麼條件?

楊豐瑜:我認爲這其實是整個具身智能發展的瓶頸,我個人認爲可以實現大規模採集,但這裡有一個商業化的過程。

當機器人走進千家萬戶,有一定量的時候,你就能收集到足夠多的數據,支持更多的場景來做一些泛化。當然你不可能永遠採到每一個點,所以「大規模」這個命題會一直存在。那機器學習的本質就是通過稀疏的採樣,實現稠密分佈的一個模擬擬合和預測。

在數據這方面,我們並不排斥模擬,但我覺得一定量的真機數據是實現具身智能的必要條件。

機器之心:觸覺大模型有哪些關鍵的技術指標?

楊豐瑜:觸覺大模型跟任何大模型一樣,在不同的下游任務裡面都有一些指標。我帶領團隊構建的世界上現存最大的視觸覺數據集Touch and go,是全世界機器人視觸覺預訓練模型重要通用基準之一。

具身智能機器人Wanda

九月開始量產

機器之心:決定創業之後,打算做一個怎樣的具身智能公司?

楊豐瑜:創業的本質是爲社會創造價值。UniX AI是世界上少數幾家把C端定爲第一戰略的具身智能機器人公司。

TO C雖然有很長的一段路要走,但背後的潛力是巨大的。從產業層面講,人形機器人已經進入硬件+AI的技術融合期,發展飛速,越來越具備實用性。而且我樂觀估計,這個融合進程要比原先業內人士預估的要快很多。

人口老齡化,出生率低下,勞動力短缺……這些都是全世界面臨的問題。企業的責任是要爲社會解決問題,這是UniX AI的機會點和價值點,也是我創業的初心。現在這個賽道大致的落地路徑基本上是工業——商業——家庭,我們會覆蓋商業和家庭,這也是服務TO C用戶的主要場景。

UniX AI的願景是Robots For All,打造通用的人形機器人,在運動能力與智慧程度方面都做到領先,實現體力勞動和智能陪伴。

機器之心:爲什麼一開始選擇家庭場景去做?

楊豐瑜:事實上我們不只侷限於家庭場景,我們也做泛商業的場景,比如辦公室等。

To B 場景從技術上來說相對難度低一些,重複率高,對泛化性要求沒有那麼高。但To B的場景往往是強替代邏輯,這就對機器人的速度、操作準確率要求會非常高。

家庭場景很複雜,千變萬化,每個家都是一個小生態,要求機器人具備很強的泛化能力。這當然對我們的產品提出了更高的要求。同時,我們在家庭場景中也會有很多L2級別的功能,更多地提升了產品在複雜場景的適應性和可玩性。

總的來說,我們的技術棧無論是 To B 還是 To C,都能覆蓋。做好了家庭場景,我覺得其他場景都能遊刃有餘。從最難的骨頭開始啃,一方面體現了UniX AI的技術實力,一方面也是我們切入市場的戰略路徑。

機器之心:像類似工廠這樣的To B場景也會去做嗎?

楊豐瑜:我們對所有場景都不排斥,UniX AI的模塊化硬件方案相對來說可以適配很多不同的場景。同時,我們有一套感知和操作解耦的運動基元算法可以最大程度地利用數據,我們對場景的遷移性會非常強。雖然每一款產品都有其邊界,我們願意在各種場景中進行嘗試和拓展。我們也在跑通一些重要的商業場景,幫助到消費者。

機器之心:所謂的供應鏈成本優勢是什麼?

楊豐瑜:我們團隊中有一批經驗豐富的供應鏈管理專家,他們掌握量產級的成本控制方法,並能將其應用到機器人供應鏈中。雖然機器人行業目前尚未大規模卷價格,但我們從一開始就按照量產級來控制成本,以確保產品能達到消費者可接受的價格。我們有信心通過有效的成本控制,使產品在價格上具有極強競爭力,爲公司發展提供有力支持。

機器之心:即將推出的產品價格在什麼區間?

楊豐瑜:這個現在我不是很方便披露,但我可以保證,一定是一個很驚喜的價格。

機器之心:你們打算怎麼走向終局?

楊豐瑜:我們走向終局的邏輯很簡單,需要一定量的高質量真實數據。關鍵就在於如何獲取這些數據,比如拿自動駕駛舉例,特斯拉的FSD能夠走到終局,是因爲花了6到8年時間,不斷有車子在路上跑並收集數據。

機器人行業有所不同,大家期望機器人能夠自動乾點事兒。我們首先開發出若干單點場景的功能,讓大家覺得機器人有用或好玩,而且在消費能力承受範圍內,這樣大家纔會願意購買。

我們的供應鏈有優勢,能把價格降下來,這是很關鍵的一點。通過用戶的不斷反饋,我們不斷優化迭代產品,最終打造出通用的具身智能機器人。

機器之心:機器人量產的難度和意義在哪裡?

楊豐瑜:做DEMO其實很容易,只要在實驗室做出來一臺,就是成功。量產的難度,在於不是一臺,而是一百臺、一千臺真正進入到用戶家中,考驗產品的數據安全性、操作穩定性、底層控制可靠性,背後需要強大的售後團隊和不斷迭代的技術團隊。另外工藝也很重要,這也是考驗量產能力的重要指標。

它的意義當然毋庸置疑,一方面體現出供應鏈的競爭力,一方面展現了技術的成熟度。誰是第一個吃螃蟹的人?誰又吃得又快又好?另外,量產可以得到一定的先發優勢。

機器之心:決定創業以後,初始團隊構建思路和團隊組建情況目前大概是怎樣的?

楊豐瑜:從0-1,初創團隊很重要。我做事習慣先有頂層規劃,再慢慢部署到每個層級,像瀑布流一樣,從上往下。先找到最核心的關鍵人,幹起來之後,再向下延伸不斷完善團隊,讓整個輪子轉起來。

從去年年底到現在,我們的團隊發展非常快,已經迭代了三代產品。目前團隊規模已經初具規模,但後期我們還會根據需要,不斷調整和完善,讓公司的競爭力愈來愈強。

獲取人才這件事,是創業公司最重要的事情之一,我們公司大部分的人才我都親自看過面過。很多時候,CEO不僅是首席執行官,更是“首席意義官”,需要跟同行者解釋我們做的事情,它的價值和意義在哪裡。讓他們認同,一起上路,這非常重要。

同時,這個階段我的管理半徑很大,管理的顆粒度也很細,非常辛苦但很有必要。只有當自己全盤掌握,確認公司前進方向正確和穩定之後,才能花更多時間在別的方面。

機器之心:你怎麼吸引這些人才?

楊豐瑜:本質上吸引大家的,還是如何走向具身智能終局這個路徑,除此之外是怎麼做的問題。

我們有幾個亮點,第一有非常強的供應鏈成本優勢,其次我們團隊的執行力很強,迭代速度非常快,很多候選人可能第一次知道我們時,覺得我們不過爾爾,但幾周後再來,發現場景已經跑通了,進展很快。我們也有一些國內頂尖機器人公司的人才,主動要求加入進來。

機器之心:目前的資金來源是?

楊豐瑜:我們會在合適的時候統一披露。

機器之心:是否有外部融資計劃?

楊豐瑜:目前投資人反饋非常踊躍,歡迎和我們有共同通用具身智能願景的投資人,和我們長期走下去。

機器之心:再詳細介紹一下你們即將推出的產品,以及未來的市場計劃?

楊豐瑜:我們即將量產的機器人叫Wanda,是一款輪式人形雙臂機器人。在我們發佈的首支技術視頻中,大家可以看到它的一些功能特點,但這不是全部,等到九月份我們面向消費者公開發售的時候,會有更多驚喜細節。

最終,UniX AI希望交付給消費者的產品,是一款通用的具身智能機器人,不僅服務於家庭,更可以陪伴人們去往更多更遠的地方,提供更多的功能,這需要我們在技術上不斷髮展,也需要公司和用戶之間的協同共創。不積跬步無以至千里,那我們先從第一步開始。