OpenAI Sora負責人最新萬字乾貨深訪 · 完整版+視頻

未經許可不得轉自,保留原文出處和公衆號傳送按鈕

文:天空之城·城主

在視頻生成領域,只有兩種模型:OpenAI Sora模型,以及其他不是Sora的模型。

Sora視頻生成的能力相比其他視頻生成模型完全是代際的碾壓,號稱視頻生成的GPT時刻當之無愧。只可惜Sora還沒有發佈時間表,很多時候,關心視頻生成的人只能看着偶爾發佈的幾個生成樣例望梅止渴。

剛剛,NoPriors播客最新發布了Sora項目團隊三位負責人的現場訪談。在這個訪談裡, 三位負責人透露了大量Sora的研究訓練和使用的細節,投資人主持的問題也可圈可點。這可以說是至今關於Sora最詳細的一次探討,非常推薦!

B站傳送門:【精校】OpenAI Sora視頻生成模型團隊最新訪談 2024.4.26【中英】-嗶哩嗶哩】

https://b23.tv/6CCxToW

Sora的核心負責人由三位才華橫溢的年輕研究者組成。他們分別是Tim Brooks、William Peebles(暱稱Bill)和Aditya Ramesh。

Tim Brooks是DALL-E 3的主要作者之一。他本科就讀於卡內基梅隆大學,主修邏輯與計算,輔修計算機科學。去年1月,他順利從加州大學伯克利分校獲得博士學位後,立即加入OpenAI,參與了DALL-E 3和Sora的開發工作。

與Tim同樣畢業於伯克利、只是晚了4個月的William Peebles,是Sora的另一位核心成員。Bill本科就讀於麻省理工學院,主修計算機科學。在校期間,他參與了GAN和text2video的研究,還在英偉達實習,專注於深度學習、自動駕駛和計算機視覺。2022年,Bill在Meta實習期間,與謝賽寧合作發表了DiT模型,開創性地將Transformer與擴散模型結合。這一突破性成果被ICCV 2023錄用爲Oral論文。有趣的是,業界普遍認爲OpenAI的Sora正是基於DiT模型構建的。去年5月,Bill從伯克利畢業後也加入了OpenAI。

相比之下,Aditya Ramesh在OpenAI已經是個"老人"。作爲DALL-E的創造者,他主導了三代DALL-E的研究工作,並在每一版論文中都擔任共同一作。

三位負責人都認爲,像Sora這樣的模型是實現人工智能的關鍵步驟,因爲它能模擬複雜的環境和世界。他們預計,隨着模型的擴大,將能構建類似世界模擬器的東西,任何人都可以與之互動,這是通往人工智能的道路。

目前,Sora模型的訪問權限已提供給一小部分藝術家和紅隊成員,以瞭解其可能產生的影響。他們從藝術家那裡得到了反饋,關於如何讓它成爲對他們最有用的工具,以及從紅隊成員那裡得到了反饋,關於如何讓它安全,如何將它介紹給公衆。這將爲他們未來的研究設定路線圖,並告知他們未來是否最終會推出產品,確切的時間表是什麼。

三位負責人討論了模型的世界模擬功能,接着討論了模型的創新,包括擴散Transformer的概念和應用,以及模型的縮放定律。Sora的開發需要處理大量數據,需要開發新的基礎設施和系統。Sora的架構與其他模型有所不同,它並不是從圖像生成器開始並嘗試添加視頻,而是從頭開始,專注於視頻生成。

Sora的應用可能超越了當前沒有應用端到端深度學習的領域,包括自動駕駛等。Sora的視覺美感引人注目,但其美學並未深入嵌入模型中。然而,Sora的語言理解能力允許用戶以一種比其他模型更難的方式來操縱它。

討論還涉及了Sora的潛在應用,包括教育和娛樂。例如,製作定製的教育視頻或用視頻闡述觀點。此外,Sora也可能應用於數字化身份等領域,但目前團隊的重點仍在於技術的基礎發展,而不是特定的下游應用。

Aditya提到,許多安全緩解措施可以從DALL-E 3移植過來,但也會有新的安全問題需要關注,例如錯誤信息和攻擊性文字的生成。

Tim分享了他對未來產品路線圖的興奮,特別是人們如何利用他們的產品創造新的東西。他期待這項技術能幫助才華橫溢、富有創造力的人創造出他們想要的東西。

Bill討論了讓這項技術更廣泛普及的挑戰,包括如何降低成本,以及如何處理可能出現的錯誤信息和相關風險。他還提到了他們正在研究的一些功能,如更準確的長期物理交互。

Tim比較了Sora過程與人類大腦的工作方式,強調了世界建模在人類智能中的重要性。他對Sora的前景持樂觀態度,認爲它將取代人類的某些能力,並有朝一日超越人類的智慧。並且認爲,隨着規模的擴大,真正有效的方法仍然只是預測數據,這就是他們在Sora中對文本和視覺數據所做的。預測數據是以可擴展的方式學習智能的最佳方法。

Aditya則認爲,只需擴大模型的規模就能賦予它們驚人的能力,這一點在GPT模型中已得到證實。將同樣的方法應用於視頻模型也會帶來非常驚人的能力,Sora 1就是這一觀點的存在證明。

=以下是訪談全文的天空之城書面版=

主持人:

今天,我們有幸能與 OpenAI 的 Sora 項目團隊進行交談。Sora 是一種全新的視頻生成模型,它能根據文本提示生成高清、視覺連貫且長達一分鐘的剪輯。Sora 還探討了這些大型視頻模型是否能成爲世界模擬器的問題,並將可擴展的 Transformers 架構應用於視頻領域。我們今天的嘉賓是 Sora 項目團隊的 Aditya Ramesh、Tim Brooks 和 Bill Peebles。歡迎大家收聽 NoPriors,非常感謝你們接受我們的邀請。

首先,我們希望你們每個人都能簡單介紹一下自己,這樣我們的聽衆就能知道我們正在與誰交談。Aditya,你願意先開始嗎?

Aditya: 好的,我是 Aditya,我與 Tim 和 Bill 一起領導 Sora 項目團隊。

Tim: 大家好,我是 Tim,我也是 Sora 項目團隊的leader。

Bill:我是 Bill,同樣是 Sora 項目團隊的leader。

很好。或許我們可以從 OpenAI 的使命開始談起,那就是實現 AGI,也就是更強大的人工智能。那麼,文本轉視頻的技術是否符合這個使命呢?你們是如何開始研究這個領域的呢?

Bill:是的,我們堅信像 Sora 這樣的模型確實是實現 AGI 的關鍵步驟。我們認爲一個很好的例子就是一羣人在冬天穿過東京的場景。在這個場景中,複雜性無處不在。你可以想象一個攝像機飛過這個場景,有很多人在互動,他們在說話,他們手牽着手,有人在附近的攤位上賣東西。我們真的認爲這個例子說明了 Sora 是如何在神經網絡的權重範圍內模擬極其複雜的環境和世界的。

展望未來,爲了生成真正逼真的視頻,你必須學習一些關於人們如何工作、如何與他人互動、最終如何思考的模型。這不僅包括人,還有動物,以及任何你想要模擬的物體。因此,展望未來,隨着我們繼續擴大像 Sora 這樣的模型,我們認爲我們將能夠構建這些類似世界模擬器的東西,基本上任何人都可以與它們互動。作爲人類,我可以運行自己的模擬器,我可以去給模擬器中的人佈置工作,他們做完後可以帶着工作回來。我們認爲這是通往 AGI 的道路,隨着我們未來擴大 Sora 的規模,AGI 就會實現。

有人說,儘管對消費產品的需求巨大,但我們仍然遙不可及,比如路線圖上的內容是什麼?在更廣泛地使用 Sora 之前,您需要做什麼工作?Tim,你願意談談這個問題嗎?

Tim:是的,我們真的希望能與 OpenAI 以外的人交流,思考 Sora 將如何影響世界,它將如何對人類有用。因此,我們目前還沒有制定產品的即時計劃,甚至沒有制定產品的時間表。然而,我們正在做的是,我們將Sora的訪問權限提供給一小部分藝術家以及紅隊成員,以開始瞭解Sora將產生的影響。我們從藝術家那裡得到了反饋,關於如何讓它成爲對他們最有用的工具,以及從紅隊成員那裡得到了反饋,關於如何讓它安全,如何將它介紹給公衆。這將爲我們未來的研究設定路線圖,並告知我們未來是否最終會推出產品,確切的時間表是什麼。

你能告訴我們你得到的一些反饋嗎?

Aditya:是的,我們已經將Sora的訪問權限提供給了少數藝術家和創作者,只是爲了獲得早期反饋。總的來說,我認爲一件大事就是可控性。目前模型實際上只接受文本作爲輸入。雖然這很有用,但在能夠指定你想要的精確描述方面仍然相當受限。因此,我們正在考慮如何在未來擴展模型的功能,以便您能夠提供除文本之外的輸入。

你們有沒有看到藝術家或其他人用它製作的最喜歡的東西,或者最喜歡的視頻或你覺得非常鼓舞人心的東西?

我知道,當它推出時,很多人都被一些圖像的美麗、引人注目所震撼,你會看到一隻貓在水池中的影子或諸如此類的東西。但我只是好奇,隨着越來越多的人開始使用它,你看到了什麼。

Tim:是的,看到藝術家們用這個模型做了什麼真的很棒,因爲我們有自己的想法去嘗試一些東西。但是,那些以製作創意內容爲職業的人非常有創造力,做了如此令人驚歎的事情。例如,Shy Kids製作了一個非常酷的視頻,他們製作了這個短篇故事Airhead,這個角色有一個氣球。他們真的很喜歡這個故事。看到Sora能夠解鎖並讓這個故事更容易講述,這真的很酷。我認爲這甚至與Sora製作的某個特定剪輯或視頻無關,而與這些藝術家想要講述並能夠分享的故事有關,而Sora可以幫助實現這一點。這真的很棒。

你提到了東京場景。其他的呢?

Bill:我個人最喜歡的我們製作的樣本是Bling Zoo。我在我們推出Sora的那天在Twitter上發佈了這個。它本質上是一個紐約動物園的多鏡頭場景,它也是一家珠寶店。所以你會看到劍齒虎裝飾着閃亮的東西。

這非常超現實。

Bill:是的,我喜歡這些樣本,因爲作爲一個喜歡創造內容但又沒有足夠技能的人,使用這個模型並激發出一堆想法並得到一些非常引人注目的東西是非常容易的。比如,在迭代提示方面,實際生成它所花費的時間真的不到一個小時,我就得到了我真正喜歡的東西。所以我很開心只是玩這個模型來得到這樣的東西。我非常高興地看到藝術家們也熱衷於使用這些模型,並從中創作出精彩的作品。

這些模型在短片或其他領域的廣泛應用的時間表是什麼?如果你回顧皮克斯的發展歷程,你會發現他們最初是製作短片,然後部分短片逐漸演變成了長片。這在很大程度上與他們如何精細模擬頭髮運動等細節有關。觀察上一代技術的發展過程非常有趣,我認爲它已經有30年的歷史了。

我們何時會開始看到來自Sora或其他模型的實際內容,這些內容將由專業人士製作,併成爲更廣泛媒體類型的一部分?

Tim:這是一個好問題。我沒有確切的時間表預測,但我對此非常感興趣,那就是除了傳統電影之外,人們可能會將其用於什麼。我認爲,在接下來的幾年裡,我們會看到人們開始製作越來越多的電影,但我認爲人們也會找到使用這些模型的全新方式,這些方式與我們習慣的當前媒體完全不同。因爲這是一個非常不同的範例,你可以告訴這些模型你希望它們看到什麼,它們可以做出某種反應,也許它們就像真正有創造力的藝術家想出的新內容交互模式。所以我實際上最興奮的是人們將要做的事情,這些事情與我們目前所做的完全不同。

你提到的一點非常有趣,這也是一種進行世界建模的方法。Aditya在OpenAI工作了大約五年,因此你見證了許多模型和公司的發展。最初是機械臂之類的東西,它是遊戲的自動play之類的東西。

當你考慮這個世界模擬模型的功能時,你認爲它會成爲模擬的物理引擎嗎?人們實際上正在模擬風洞?它是機器人技術的基礎嗎?還是別的東西?我對未來可能出現的其他一些前瞻性應用非常好奇。

Aditya:是的,我完全認爲在視頻模型中進行模擬是我們將來某個時候能夠做到的事情。Bill實際上對這種事情有很多想法。

Bill:我認爲你說到了點子上。對於像機器人這樣的應用,你可以從視頻中學到很多東西,而這些不一定能從其他模式中獲得。OpenAI等公司過去在這方面投入了大量資金,比如語言,比如手臂和關節如何在空間中移動的細節,再次回到東京的那個場景,那些腿是如何移動的,它們是如何以物理上準確的方式與地面接觸的。所以,你只需通過對原始視頻的訓練就能學到很多關於物理世界的知識,我們真的相信,這對於未來的物理體現等事情至關重要。

再談談模型本身,這裡有很多非常有趣的創新。所以不是要讓你爲難,Tim,你能向廣大技術受衆描述一下什麼是擴散Transformer嗎?

Tim:所以Sora建立在OpenAI的DALL-E模型和GPT模型的研究之上。擴散是一種數據生成過程,以我們的案例爲例,即視頻生成。這個過程從噪音開始,通過反覆多次去除噪音,直到最終去除了足夠多的噪音,只生成一個樣本。這就是我們生成視頻的過程。我們從一段有噪音的視頻開始,逐步去除噪音。

然而,從架構角度來看,我們的模型必須是可擴展的,它們需要能夠從大量數據中學習,並理解視頻中那些非常複雜且具有挑戰性的關係,這一點至關重要。因此,我們採用了一種類似於GPT模型的架構,稱爲Transformer。因此,將這兩個概念與Transformer架構結合起來的擴散Transformer使我們能夠擴展這些模型。隨着我們投入更多的計算和更多的數據來訓練它們,它們的性能會越來越好。

我們甚至發佈了一份關於Sora的技術報告,展示了在使用較少、中等和更多的計算量時,從同一提示中獲得的結果。我們堅信,通過使用這種方法,隨着你使用越來越多的計算,結果會越來越好。因此,通過使用這種非常簡單的方法,我們將能夠通過增加更多的計算來繼續改進這些模型,添加更多數據,它們將能夠完成我們一直在談論的所有這些令人驚奇的事情,包括更好的模擬和更長期的生成。

我們能否描述一下這種模型的縮放定律是什麼樣的?

Bill:這是一個好問題。正如Tim所提到的,使用Transformer的好處之一是,你可以繼承我們在語言等其他領域看到的所有優秀屬性。因此,你完全可以開始提出視頻而不是語言的縮放定律。這是我們團隊正在積極研究的事情,我們不僅在構建這些模型,還在尋找讓它們變得更好的方法。所以,如果我使用相同數量的訓練計算,我是否可以在不從根本上增加所需計算量的情況下獲得更好的損失?這些都是我們的研究團隊每天要解決的問題,以使Sora和未來的模型儘可能好。

關於在這個領域應用Transformer的問題之一就是標記化(Tokenization),對嗎?順便說一句,我不知道是誰想出了這個名字,但像Latent Spacetime Patches這樣的科幻名字在這裡很棒。你能解釋一下它是什麼以及爲什麼它與此相關嗎?因爲,能夠進行長達一分鐘的生成並獲得視覺和時間連貫性真的很棒。

Tim:我認爲我們想出的並不是一個名字,而是一個描述性的東西,確切地描述了我們稱之爲什麼。

是的,甚至更好。

Tim:因此,LLM範式的一個關鍵成功就是token的概念。如果你看看互聯網,你會發現上面有各種各樣的文本數據。有書籍、代碼和數學。語言模型的妙處在於它們有token這一單一概念,這使得它們能夠在如此廣泛的數據上進行訓練。之前的視覺生成模型真的沒有類似的東西。所以,在Sora之前,非常標準的做法是,你會在256 x 256分辨率的圖像或256 x 256的視頻上訓練圖像生成模型或視頻生成模型,這些視頻正好是四秒長。這個問題的關鍵在於,數據類型的使用受到了嚴重的限制,這使得我們無法充分利用互聯網上大量存在的視覺數據。這種限制也削弱了模型的通用性。因此,在Sora項目中,我們引入了“時空補丁”的概念。這種方法允許我們僅表示數據,而這些數據可以存在於圖像、長視頻和高垂直視頻中,我們只需提取立方體即可。

你可以將視頻想象爲一個堆棧,就像一個垂直堆疊的單個圖像,你可以從中提取這些3D立方體。當我們最終將其輸入Transformer時,這就是我們對token的理解。因此,Sora能夠做的不僅僅是生成固定時長的720p視頻。你可以生成垂直視頻、寬屏視頻,甚至可以在一比二到二比一之間執行任何操作。它還可以生成圖像,這是一個圖像生成模型。

實際上,這是第一個具有廣度的視覺內容生成模型,就像語言模型一樣。這就是我們追求這個方向的真正原因。

在輸入和訓練方面,它同樣重要,因爲它能夠接收不同類型的視頻。

Bill:這個項目的很大一部分實際上是開發基礎設施和系統,以便能夠以以前的圖像或視頻生成系統所不需要的方式處理如此龐大的數據。

Tim:在Sora之前,許多處理視頻的模型實際上都在考慮擴展圖像生成模型。在圖像生成方面有很多出色的工作。許多人一直在做的是使用圖像生成器並對其進行一些擴展,而不是生成一張圖像,你可以生成幾秒鐘的圖像。但對於Sora來說,真正重要的是架構上的差異,而不是從圖像生成器開始並嘗試添加視頻,而是從頭開始,我們從如何製作一分鐘的高清鏡頭的問題開始。這就是我們的目標。

當你有這個目標時,我們知道我們不能僅僅擴展圖像生成器。我們知道,爲了製作一分鐘的高清鏡頭,我們需要可擴展的東西,將數據分解成非常簡單的方式,以便我們可以使用可擴展的模型。所以我認爲這確實是從圖像生成器到Sora的架構演變。

這是一個非常有趣的框架,因爲它感覺可以應用於人們目前沒有應用端到端深度學習的各種其他領域。

Tim: 這是有道理的,因爲在最短的時間內,我們並不是第一個推出視頻生成器的人。很多人,很多人在視頻生成方面做了令人印象深刻的工作,但我們覺得,好吧,我們寧願選擇未來的一個點,然後,花一年時間研究它。而且有這種快速做事的壓力,因爲人工智能太快了。最快的做法是,哦,讓我們採用現在有效的東西,然後添加一些東西。正如您所說,這可能比將圖像轉換爲視頻更爲普遍,還涉及其他方面。然而,有時候我們需要退後一步進行思考,例如,三年後這個問題的解決方案會是什麼樣子?讓我們開始構建它。

確實,最近在自動駕駛領域也出現了類似的轉變,人們從定製的邊緣案例預測和啓發式方法轉向了新模型中的端到端深度學習。因此,看到它在視頻中的應用非常令人興奮。

Sora最引人注目的一點就是它的視覺美感。我對此感到好奇,你是如何調整或製作這種美感的?因爲我知道在一些更傳統的圖像生成模型中,你們都有反饋,有助於影響美感的演變。但在某些情況下,人們實際上是在調整模型。所以我有點好奇你在Sora的背景下是如何考慮這個問題的。

Bill: 實際上,我們並沒有爲Sora投入大量精力。世界很美?這是一個很好的答案。我認爲這可能是對大部分問題的誠實回答。我認爲Sora的語言理解絕對允許用戶以一種比其他模型更難的方式來操縱它。你可以提供很多提示和視覺提示,這些提示將引導模型朝着你想要的代數類型發展。

但美學並不是深深嵌入的。

我認爲展望未來,模型會賦予人們某種力量,讓他們理解你的個人審美感,這將是很多人期待的事情。

我們接觸的許多藝術家和創作者都希望將他們的全部資產上傳到模型中,這樣在寫標題時就可以借鑑大量的作品,並讓模型理解他們設計公司幾十年來積累的術語等等。因此我認爲個性化以及它如何與美學結合在一起將會成爲以後值得探索的一件很酷的事情。

我認爲Tim所說的就像超越傳統娛樂的新應用。我工作、旅行,還有年幼的孩子。所以我不知道這是否是需要評判的事情。但我今天做的事情之一是製作一些類似短篇有聲讀物的東西,裡面有聲音克隆、多莉圖像,還有你知道的,風格類似的故事,比如魔法樹屋之類的,或者圍繞我感興趣的某個話題,比如,哦,和羅馬皇帝十世一起出去玩,對吧?或者女孩們、我的孩子感興趣的東西。

但這在計算上很昂貴,很難,而且不太可能。但我想象每個人都會擁有類似桌面皮克斯的某個版本,我認爲孩子們會首先發現這一點,但我會講述一個故事,並讓神奇的視覺效果實時發生。我認爲這是一種與我們現在完全不同的娛樂模式。

我們會得到它嗎?

Tim:我認爲我們正朝着那個方向前進。還有不同的娛樂模式、不同的教育模式和交流模式。娛樂是其中很重要的一部分,但我認爲一旦真正理解了我們的世界,就會有很多潛在的應用。我們的世界和我們體驗世界的方式很大程度上都是視覺化的。這些模型真正酷的地方在於,它們開始更好地理解我們的世界、我們的生活和我們所做的事情。我們可以利用這些技術來娛樂自己,也可以用它們來教育我們。有時候,當我想學習一些東西時,最有效的方法就是找一個定製的教育視頻來解釋。同樣,如果我想和某人交流一些觀點,可能最好的方式就是製作一個視頻來闡述我的觀點。因此,我認爲娛樂和視頻模型可能有更廣泛的潛在應用。

這是非常合理的。這引起了我的共鳴,我認爲如果你問年輕一代的人,他們會說當今世界上最大的教育推動力是 YouTube。

無論是好是壞。你們有嘗試過將這些技術應用於數字化身份等方面嗎?像 Synesthesia、Heygen 這樣的公司在這個領域做了一些有趣的事情。但是,擁有一種真正能夠以非常深刻和豐富的方式囊括一個人的技術,似乎是一種有趣的潛在適應性方法。我只是好奇你是否已經嘗試過類似的事情,或者這是否不太適用,因爲它更像是文本到視頻的提示。

Tim:到目前爲止,我們並沒有真正專注於其背後的核心技術。因此,我們並沒有過多關注特定的應用,包括化身的概念,這是非常有意義的。我認爲嘗試一下會很酷。我認爲我們現在在 Sora 的軌跡中的位置就像是這種新視覺模型範式的 GPT-1。我們真正在研究基礎研究,以使它們變得更好,使其成爲可以爲所有這些不同事物提供動力的更好的引擎。所以,我們現在的重點只是這項技術的基礎發展,可能比特定的下游應用更重要。這是非常有道理的。

是的,我問化身問題的原因之一是它開始引發有關安全性的問題。所以我有點好奇,你們是如何看待視頻模型中的安全性以及進行深度僞造或惡搞之類的事情的可能性的。

Aditya:是的,我可以談一談這個。這絕對是一個相當複雜的話題。我認爲很多安全緩解措施可能都可以從 DALL-E 3 中移植過來。例如,我們處理色情圖片或血腥圖片的方式,諸如此類。肯定會有新的安全問題需要擔心,例如錯誤信息。或者例如,我們是否允許用戶生成帶有攻擊性文字的圖片?

我認爲這裡要弄清楚的一個關鍵問題是,部署這項技術的公司承擔多少責任?例如,社交媒體公司應該做多少工作來告知用戶他們看到的內容可能不是來自可信來源?用戶在使用這項技術創造某些東西時要承擔多少責任?所以我認爲這很棘手。我們需要認真思考這些問題,以找到我們認爲對人們最有利的立場。這是有道理的。

而且,還有很多先例。就像人們過去使用 Photoshop 處理圖像然後發佈它們一樣。並提出索賠。人們並沒有說,因此,Photoshop 的製造商要爲濫用該技術的人負責。因此,在考慮這些事情方面,似乎有很多先例。

Aditya:確實如此,我們的目標是發佈一些能讓人們真正感受到自由,可以自由表達自己並做他們想做的事情的產品。然而,有時這與做一些負責任的事情以及以人們可以習慣的方式逐步發佈技術相矛盾。

我想向在座的各位提出一個問題,也許可以從Tim開始,如果你能分享這一點,那就太好了。關於未來的產品路線圖、你的發展方向或你接下來要開發的一些功能,你最興奮的是什麼?

Tim:確實,這是一個好問題。我對人們將如何利用我們的產品創造出新的東西感到非常興奮。我認爲有很多才華橫溢、富有創造力的人都有自己想要創造的東西。但有時要做到這一點真的很困難,因爲他們可能缺乏必要的資源、工具或其他東西。這項技術有可能讓許多有才華橫溢、富有創造力的人創造出他們想要的東西。我真的很期待他們將要製作出什麼了不起的東西,以及這項技術將如何幫助他們。

Bill,我想問你一個問題,這是否像你剛纔提到的GPT-1一樣,我們還有很長的路要走。這不是普通大衆有機會嘗試的東西。除了長度等顯而易見的問題之外,你能描述一下你想要解決的侷限性或差距嗎?

Bill:是的,我認爲,在讓這項技術更廣泛地普及方面,有很多服務方面的考慮需要考慮。一個大問題是如何讓這項技術足夠便宜,讓人們可以使用。我們過去說過,在生成視頻方面,這在很大程度上取決於確切的參數,比如你正在製作的視頻的分辨率和時長。但是,這不是即時的。你必須至少等待幾分鐘才能看到我們生成的這些很長的視頻。所以我們正在積極地研究線程,以降低成本,以便更廣泛地普及它。

我認爲,正如Aditya和Sam所暗示的那樣,在安全方面也有很多考慮。因此,爲了讓這項技術真正變得更加廣泛地普及,我們需要確保,特別是在選舉年,我們對可能出現的錯誤信息和任何相關風險非常謹慎。我們今天正在積極努力解決這些問題。這是我們研究路線圖的重要組成部分。

那麼,關於核心問題,比如質量問題,有沒有更好的術語?有沒有具體的事情,比如你正在考慮物體永久性或某些類型的交互?

Bill:是的,當我們展望GPT-2或GPT-3的時刻時,我們真的很高興非常複雜的長期物理交互變得更加準確。舉一個具體例子,如果我有一段某人踢足球的視頻,他們在踢球,在某個時刻,那個球可能會蒸發掉,也許會回來。所以它可以相當可靠地進行某些更簡單的交互,比如人們走路。但這些更詳細的對象與對象之間的交互肯定仍然是一個正在醞釀的功能,我們認爲隨着規模的擴大,它會變得更好。但這是一件值得期待的事情。

我認爲有一個例子可以作爲少數幾個的縮影。當然,這樣的例子有很多,但我曾經見過的一個例子是,一個男人咬了一口漢堡,而這一口在漢堡裡留下的痕跡,就像保持了某種狀態一樣,這非常酷。

Bill:是的,我們對這個非常興奮。還有另一個例子,就像一個女人用水彩在畫布上作畫,畫筆在畫布上真的留下了痕跡。所以,正如你所說,目前的模型中有一些這種能力的閃光點,我們認爲它在未來會變得更好。

你能談談你在Sora項目上的工作是如何影響更廣泛的研究路線圖的嗎?

Tim:是的,我認爲這是關於Sora項目的一個重要方面,即通過查看所有這些視覺數據來了解世界的知識。它理解3D,這是一件很酷的事情,因爲我們還沒有對它進行訓練。我們並沒有明確地將3D信息融入其中。我們只是用視頻數據對它進行了訓練,它學會了3D,因爲這些視頻中存在3D。它還學會了當你咬一口漢堡包時,會留下咬痕。所以它學到了很多關於我們這個世界的東西。當我們與世界互動時,很多都是視覺的。我們一生中看到和學到的東西很多都是視覺信息。所以我們真的認爲,對於智能,對於引導更智能的人工智能模型,更好地理解世界,這對它們來說非常重要,因爲它們需要有這樣的基礎,比如,嘿,這就是我們生活的世界。這裡面有太多的複雜性。有很多關於人們如何互動、事情如何發生、過去的事件如何影響未來的事件的內容,這實際上會導致比生成視頻更廣泛的更智能的人工智能模型。

這幾乎就像你同時發明了未來的視覺皮層和大腦推理部分的某些部分。

Tim: 是的,這是一個很酷的比較,因爲人類擁有的很多智能實際上都與世界建模有關,對吧?當我們思考如何做事時,我們總是在腦海中演繹各種場景。我們會在夢中在腦海中演繹各種場景。我們在做事之前會提前思考。如果我這樣做,這件事就會發生。如果我做另一件事,會發生什麼,對吧?所以我們有一個世界模型,將Sora構建爲世界模型與人類擁有的大部分智能非常相似。

你們如何看待與人類的類比,即擁有一個非常近似的世界模型,而不是像傳統意義上的物理引擎那樣精確的東西,對吧?因爲如果我拿着一個蘋果然後把它扔下,我預計它會以一定的速度掉落,但大多數人並不認爲這是用計算速度來表達路徑。你認爲這種學習在大型模型中就像是並行的嗎?

Bill:我認爲這是一個非常有趣的觀察。我認爲我們思考事物的方式是,它幾乎就像人類的一個缺陷,就是它沒有那麼高的保真度。因此,當你涉及到一組非常狹窄的物理學時,我們實際上無法做出非常準確的長期預測,這是我們可以通過其中一些系統進行改進的。因此,我們對Sora的前景持樂觀態度,認爲它將取代人類的某些能力。從長遠來看,我們相信Sora有朝一日將超越人類的智慧,成爲世界模型的代表。然而,這也是一個明確的證據,表明對於其他類型的智能來說,Sora並非必需。無論如何,這仍然是Sora和未來模型可以改進的地方。

顯然,對於預測投擲足球的軌跡,下一版本的模型將會有更好的表現,比如我的模型就會更好。

Tim:如果我可以補充一點,這與規模範式有關,也與我們希望隨着計算能力的增加,方法能夠不斷改進的一些痛苦經驗有關。在這個範式中,真正有效的方法就是執行簡單但具有挑戰性的任務,即預測數據。你可以嘗試提出更復雜的任務,例如,不直接使用視頻,而是在某種類似的空間中模擬近似的事物。但是,當涉及到方法如何隨着規模的擴大而改進的縮放定律時,所有這些複雜性實際上並沒有帶來任何好處。隨着規模的擴大,真正有效的方法仍然只是預測數據。這就是我們對文本所做的,我們只是預測文本。這也是我們在Sora中對視覺數據所做的,我們並沒有複雜化問題,而是試圖找出一些新的東西來優化。我們認爲,以可擴展的方式學習智能的最好方法就是預測數據,這是非常有道理的。

關於你所說的,預測會變得更好,沒有必要的限制來接近人類。你認爲公衆對視頻模型或Sora有什麼誤解嗎?或者你想讓他們知道什麼?

Aditya:我認爲,對於公衆來說,Sora的發佈可能是最大的更新。正如Bill和Tim所說,在內部,我們一直在將Sora與GPT模型進行比較。當GPT-1和GPT-2問世時,人們開始越來越清楚地認識到,只需擴大這些模型的規模就能賦予它們驚人的能力。目前還不清楚,擴大下一個標記預測的規模是否會產生一個有助於編寫代碼的語言模型。對我們來說,很明顯,將同樣的方法應用於視頻模型也會帶來非常驚人的能力。我認爲Sora 1是一種存在證明,表明現在縮放曲線上有一個點,我們對這將帶來什麼感到非常興奮。

這真是太棒了。我不知道爲什麼這讓每個人都如此驚訝,但痛苦的教訓又一次得到了證實。

是的,我只想說,正如Tim和Aditya所暗示的那樣,我們確實覺得這是GPT-1的時刻,這些模型很快就會變得更好。我們真的很興奮,我們認爲這將給創意世界帶來令人難以置信的好處,這對AGI的長期影響是什麼。

與此同時,我們正在努力非常注意安全考慮,並構建一個強大的堆棧,以確保社會真正從中獲益,同時減輕負面影響。但這是一個令人激動的時刻,我們期待着未來模型能夠實現什麼。

確實,這是一次驚人的發佈,要祝賀各位。