☰

VAST宋亞宸：3D生成邁入秒級時代，今年將做到Midjourney V5/V6水平丨GenAICon 2024

智東西作者 GenAICon 2024

2024中國生成式AI大會於4月18-19日在北京舉行，在大會第二天的主會場AIGC應用專場上，VAST創始人兼CEO宋亞宸以《大模型Tripo驅動3D生成邁入秒級時代》爲主題發表演講。

從文字、圖片到視頻、3D，信息載體不斷升級，宋亞宸談道，3D的體驗質量、信息密度不斷提升且更具互動性。他認爲目前3D生成已經達到類似Midjourney V3的效果，今年9月將達到類V4效果，年底達到類V5/V6效果，實現真正可用，甚至通過圖靈測試。

VAST是3D生成模型領域的第一梯隊玩家，已打造全球最大的幾個3D生成開源社區，並與Stability共同開源了全球最大、0.5秒圖生3D模型TripoSR。其創始人兼CEO宋亞宸也是首位在計算機圖形學頂會SIGGRAPH上發表主舞臺主題演講的中國創業者。

據宋亞宸分享，VAST的3D大模型Tripo上線百餘天內生成了超過200萬個3D模型。爲了應對3D生成創作成本和門檻過高的挑戰，VAST將3D內容平臺和大衆級創作者平臺結合。當前這家創企已擁有超過200家B端客戶，並基於其平臺開發出原生AI爆款小遊戲，一週突破10萬用戶。

以下爲宋亞宸的演講實錄：

AIGC會使遊戲的創作門檻和成本無限降低，這就是我們做的事情。

我們是做3D大模型的公司，產品核心就是將用戶輸入的文字或者圖片快速生成3D模型。3D模型可以在遊戲、動畫、影視、元宇宙、3D打印等行業中直接使用，其本身帶有Mesh、貼圖、材質，你可以進入傳統管線二次編輯，進行驅動、渲染等。3D模型還可以擁有帶骨骼、帶動作等格式，出現很多種有意思的使用方式。

那麼，我們爲什麼要做3D這件事？

文字、圖片、視頻、3D中，3D是非常特殊的品類，從文字、圖片、視頻到3D是信息載體不斷升維的過程，3D也被認爲是最終的信息載體，其信息密度、體驗質量都在不斷提升，同時擁有雙向互動性。

因此，我們相信世界正在進入一個3D新時代。

一、3D生成迎新拐點，今年做到Midjourney V5/V6水平

爲什麼現在做3D生成這件事情？OpenAI的GPT-3剛發佈時，關注的人並不多，在其基礎上做的應用、開發也相對較少，僅有如Replika等少數幾個應用，大家對它的認知比較少，使其很難進行商業化。

直到2022年11月份，ChatGPT的發佈成爲了一個非常大的拐點，我們稱其爲用戶的Aha Moment（頓悟時刻）。這一產品對整個行業、逐步進行商業化、用戶量提升都有很大的影響。

Midjourney也類似，2022年7月份V3推出時，用戶量並不多，也沒有收費功能，知道Midjourney的人寥寥無幾。直到半年以後，Midjourney於2022年11月份推出V4，我們認爲這誕生了文生圖的下一個拐點，在這個拐點上有了非常大的提升，其產品的用戶量、收費方式、商業化等都得到了滿足。

再來看3D，我們現在看到的3D生成，類似於Midjourney V3的水平，但已經可以在一些場景使用起來了。

預計到今年9、10月份，3D生成可以達到Midjourney V4的水平；今年年底可以達到類似於Midjourney V5的水平，通過圖靈測試，並帶來一次非常大的商業變革。

從3D生成的演進過程來看，除了像我們這樣的創業公司，谷歌、英偉達、OpenAI、Meta、Adobe等海外企業都已進入到3D生成這個領域。

在學術上，我們從佈局3D原生路線、2D優化路線、多視角生成、編輯動態場景到人物生成，在CVPR、ICLR等國際頂會上都發表了大量論文，並開源了相應技術。

全世界最大的幾個3D生成開源社區都是由我們做的，比如與Stability AI共同開源了全世界最大、效果最好的圖生 3D大模型TripoSR，我們還開源了全世界最大的3D算法框架Threestudio、超火爆的單圖生3D算法Wonder3D，以及TGS、CSD等開源項目。

我們預計2024年年底會把3D生成做到Midjourney V5甚至V6的水平，達到下一個爆發時刻。

3D的核心在於可交互、可體驗，甚至帶一些遊戲性。所以我們會同步做3D動態的內容生成，包括骨骼的自動綁定、動作生成，這已經在我們產品裡上線。

同時，我們認爲在明年或許會實現，每一個人都有能力去生成無限個屬於自己的3D內容，不管是遊戲、XR體驗，還是任何的3D內容，這也是我們對整體3D內容生成趨勢的判斷。

二、3D創作門檻和成本太高，需要大衆化3D內容平臺

我們剛剛講了很多AI 3D技術，但我更希望和大家分享我們是怎麼把AI 3D玩起來的。

我們認爲AI 3D是在拓展人類能力的邊界。我隨便在門口拉個人進來，讓他給我發一個Twitter，可能只需要5秒鐘。我說你再給我發一個TikTok，他做一下剪輯，可能2分鐘就能搞定。如果我讓他做個遊戲，他可能會說：“好，給我3年時間、1000個人、2億美金，我給你做個遊戲。”這是很正常的。

3D爲什麼這麼特殊？是因爲其創作門檻和成本太高，它沒有誕生出一個屬於自己的內容平臺，同時也沒有實現內容的爆發。

我爲什麼這麼說？比如我剛剛舉的例子，文字有微博、貼吧作爲內容平臺，圖片有Instagram、小紅書作爲內容平臺，視頻有TikTok、抖音、快手、YouTube，音樂有Spotify，甚至聲音都有喜馬拉雅，但是3D缺少大衆的內容平臺。核心就是生成門檻和成本太高了。

如果有一天我跟你說，發個小紅書需要給我10萬塊錢、拍個TikTok需要3年，那你可能就不會發布內容了。因此，核心點在於3D內容成本高，如果需要1億美金，我就得賺1億美金回來，自然使得其內容非常少。

但如果有一天，3D內容的成本被降到無限接近於0，是不是每個人都可以低成本創作3D內容？這樣一來，創作3D內容不再是爲了賺錢，而是像發小紅書一樣，宣泄自己的情感、表達自己的想法、炫耀自己的創意，這可能是未來每個人製作3D內容、做虛擬世界、探索各種各樣虛擬玩法最核心的訴求，不需要再考慮怎麼賺錢。

3D創作者也會發生變化，不再是遊戲大廠裡面的建模師、動畫師，可能是我們在座的每一位，所以我們在拓展人類的邊界。

今天在大會上，我們在講文生文、文生圖、文生視頻、文生音樂、文生聲音等各種各樣的生成方式，我今天也學習到了很多。但是我們看到人用鍵盤打字、用手機攝像頭拍照、P圖、拍視頻、加濾鏡等本身都是非常容易的事情，AI只是一個工具。

在所有的內容品類中，除了3D，AI提供的都是Alternative（可被選擇的），只有3D提供的是從0到1的過程，它拓展了人類的能力邊界。

我們做3D生成就是希望降低用戶創作的門檻和成本。並且，我們認爲成本下降後，當3D出現自己的“手機攝像頭”時，就意味着3D出現了類似於“抖音”和“快手”的機會。

因此，我們希望做一個屬於自己的3D內容平臺、自己的大衆級別創作者工具。當大家不斷使用這些創作者工具和內容平臺時，我們就會有更多數據，從而形成數據飛輪，讓更好的技術帶來更好的產品體驗、更多的用戶帶來更多的數據。

當然，我們面向的用戶更爲關鍵，同賽道的一些其他玩家對於拿AI 3D做什麼，大家的答案可能各不相同。

對於我們而言，我們可以給好萊塢、橫店、寶萊塢的導演、攝影師提供“手機攝像頭”。但是“手機攝像頭”給大家帶來的可能是移動互聯網時代的“收錢吧到賬500塊”。例如用“每刻報銷”節省時間報銷，省下來的時間你可以去拍小紅書、拍TikTok，或者創作自己想要做的視頻和圖片內容。這件事情可能對於我們來說更關鍵。

雖然，我們也有很多遊戲、動畫、影視的應用，但長期來說，我們希望服務的是在座的、看直播的每一位，讓每個人都有辦法去創作3D內容。

三、生成3D模型超200萬，AI原生小遊戲一週突破十萬用戶

給大家講一下我們產品上線的情況。

今年年初，我們上線了3D大模型Tripo，百天內生成超過150萬個模型，現在已經生成200萬個模型。

這是什麼概念？上個月在硅谷參加GTC，我們與全世界一些全球頂級的模型交易平臺交流，這些平臺積累了十幾年，每個平臺沉澱的模型大概有190萬~200萬個。而我們在短短三四個月就已經超過他們了，這就是AIGC的力量。

看數據其實很難有感觀，但確實看到社區中有很多很有意思的東西。一些KOL、合作伙伴、有意思的創作者會和Magnific等AI工具結合形成完整的工具流，然後將其放到《堡壘之夜》的UGC平臺、Roblox等場景中，展示給其他的創作者。歡迎大家關注我們的Twitter賬號@tripoai。

在與遊戲公司的合作方面，除騰訊、本站這樣的遊戲大廠，我們也會和5-10個人的遊戲工作室合作。因爲我們的出現，這些遊戲公司不再煩惱沒有足夠的資金去招一線的美術團隊、招十幾個3D美術專家，現在他們只需要使用我們的3D生成能力，就可以快速完成角色設計、場景設計、關卡生成等工作，實現降本增效，打通其遊戲的資產管線。

同時，很有意思的一點在於，它會出現一些原生AI玩法。

例如TripoGO小遊戲，開發者僅用了不到一個月的時間開發，其玩法是你生成一個3D模型，我生成一個3D模型，然後互相打，誰打贏了就可以拿到對面的Prompt（提示詞）。比如你是“胡桃夾子抽雪茄”，我是“路易十四開法拉利”，我把你打贏之後，我就變成了“胡桃夾子抽着雪茄開法拉利”。

雖然這個小遊戲的玩法並不複雜，但是第一天就擁有1萬多個用戶，一個禮拜之內突破了10萬用戶，這就是AI原生玩法的力量。

還有更多的展示，包括動畫生成、場景生成等。很多年輕開發者動手能力非常強，基於我們的3D生成能力做了很多自動化工具，比如ComfyUI的節點、各個引擎的插件等等。他們也會開發自己的Web App小遊戲，並展現出來。

同時，我們還有蘋果Vision Pro的應用，本質上就是你在虛擬世界裡面，可以通過聲音、文字、圖片生成3D模型，生成後將它擺到任何地方，然後讓它跳舞、跟你合照等。所謂的“言出法隨”就是這樣，每個人都變成了3D的“神筆馬良”。

我們的Slogan是爲世界進文明，爲人類造幸福。我們的官方網站tripo3d.ai現在可以免費註冊，同時可以使用我們的開放平臺。

以上是宋亞宸演講內容的完整整理。

VAST宋亞宸：3D生成邁入秒級時代，今年將做到Midjourney V5/V6水平丨GenAICon 2024

相關資訊