Sora到底發佈不發佈,這事可能並不重要了
作者 | 玄寧郵箱 | wangzhaoyang@pingwest.com
1
Sora是未來的一個碎片
不管你願不願意承認,大模型已經進入了更緩慢迭代的節奏。
從“Scaling Law已經撞牆”,到“OpenAI的下一代GPT遇到瓶頸”,再到“Google和Anthropic們的新模型無法再表現出明顯的提高”,儘管Sam Altman依然用打啞謎的形式喊着“There is no wall”,但所有人都能感到牆就立在那裡,AI們都已經站在了牆的面前。
這對習慣了每天醒來就看到一個模型大更新的人們來說,註定顯得乏味了,於是不少人又開始期待Sora——這個OpenAI一直沒發出來的模型,能奇蹟般的立刻發佈,然後拯救一切。
而消息也適時的出現:最新的流言是,Sora將在本週正式上線。包括Runway的聯合創始人兼CEO在內的行業人士也“散佈”了一下這個流言。
這是個有意思的現象,每當行業沉寂,人們就期待“Sora該出來了”。似乎它能憑一己之力把“大模型又顛覆世界”的事業給續上。
而最近百度創始人李彥宏也被問到了關於Sora的問題,他被問的理由有些不同——因爲他是最早明確表示不會“復刻”一個Sora的人之一。
而他的回答也很有意思:
“Sora本質上是在任意場景下的視頻生成能力。這件事情有沒有意義呢?非常有意義,與此同時又非常難。你想想它的本質是什麼呢?本質是可以做到基本可以預測未來。我們今天看到這麼一個畫面,你可以預測到下一個10秒,這個畫面變成什麼樣子。無人駕駛是一個特殊場景的視頻生成,我現在開到這兒了,那我下一秒怎麼開,會看到什麼樣的景象,如果你都能解決的話,那無人駕駛不用做了,都可以靠那東西,可以做出來。”
“預測未來。”——這是個很有科幻色彩的說法,這意味着他其實比很多人更重視Sora的技術意義——就算再喜歡把AGI放在嘴邊的人也沒幾個從“預測未來”的角度來形容它。但同時,這也意味着這種終極能力是今天尚無法觸碰到的。
“正因爲是這麼大的一件事兒,所以我覺得它需要很長很長時間才能夠做出來。”
也就是說,它更像一個遙遠未來在今天的簡單demo——它確實讓人嚮往,但真的要實現,需要的工作還要很多很多年。
現實也正是如此。
進一步放到今天的現實環境,李彥宏認爲,“如果真的能夠做到任意場景下視頻生成,那可能要很長時間,而且成本很高”。
市場研究機構Factorial Funds發佈過一個報告,估算了Sora的成本。根據這份報告,Sora至少需要在 4200~10500 塊英偉達 H100 GPU 上訓練 1 個月。而如果Sora得到大範圍應用,爲了滿足需求,需要約72萬張Nvidia H100 GPU,如果按照每片英偉達 H100 AI 加速卡3萬美元成本計算,72萬片需要216億美元。
另外,從落地場景來看,今天已經發布了類似Sora的、或者表示已經超過Sora的各類視頻生成產品,在效果上也依然掙扎於“抽卡”,在商業化上也依然在繼續尋找足夠讓收支變得合理的場景。恐怕Sora來了也要遇到同樣的問題。
1
應用驅動,會通往更大可能
所以,今天再去看Sora,它發佈不發佈可能都沒有那麼重要了。
在展示了一些精挑細選的樣片,藉此炸場然後不停跳票後,一切都讓它看起來更像是提前展示給大家的關於未來的一些碎片。這也讓今天行業更加冷靜下來後,可以用一個更現實的角度來看Sora。
其實很多人“崇拜”Sora,是被當時OpenAI那句“Sora是世界的模擬器”所打動,認爲它是自成一派的新東西。但事實上,回到真實世界裡,Sora是OpenAI內部一個小團隊做的一次嘗試,它用了OpenAI一小部分內部資源(相比其他公司,這部分資源依然可觀)孵化的項目。這其實是OpenAI典型的技術創新方式——它的不同團隊會基於OpenAI已有的基礎模型比如GPT系列、圖像模型比如Dalle-3等所積累下來的“要素化”的能力,來組建新的模型和產品,當這個產品成功後,再把它像模塊化一樣積攢下來,供更多的未來項目所用(比如GPT-4o系列等)。所以它並不是自成一派的徹底的新品種。
這個事實自然在當初一聲聲“震撼”和“顛覆”聲中被忽視了。但今天冷靜下來看,除了復刻它,Sora對於AI公司們來說還有更重要的啓發,就是一家真正嚴肅對待AI,以更長期的耐心去做技術的公司,是會有基於技術判斷的屬於自己的技術拼圖的。Sora這樣單一的吸睛產品背後,其實更重要的是判斷哪些是自己技術路線上最重要的板塊,並在技術戰略上做取捨。
好在,有這個意識的科技公司正在變得越來越多,其中百度也算是態度最鮮明的之一。
用李彥宏的話來總結,百度的AI技術路線和相關決策都從一件事出發——應用驅動。
“(百度的底層思考)就是應用驅動。這個和美國很多公司做法很不一樣,美國很多公司一直都是夢想說我要做顛覆性的技術,我要多少年之內做成什麼什麼樣子。我更多希望儘早接觸場景及接觸應用,看在這個過程當中,到底遇到了什麼問題,把這些問題帶回來,我們綜合一下,看大家遇到的最多的問題,就是我們優先解決的問題。”
當明白了應用驅動是百度所有戰略的起點,李彥宏在戰略上放棄Sora類產品的決定就更好理解了。而其他的技術投入方向也會跟着這個原則來確定。
從應用驅動出發,百度的技術方向會圍繞讓應用更好落地展開,而這個過程裡有兩個巨大挑戰,一個是交互,一個是智能。
在交互上,今天的模型需要更好的人與產品、以及產品與物理世界的交互,單純的語言模型無法滿足這樣的需求,需要多模態的能力。
“外界有一種誤解就是百度不做Sora,就等於是百度不做多模態。我們非常非常看好多模態,我們也在多模態上有非常長期的多年投入,在真正有應用場景的地方,我們的多模態能力是非常強的。”李彥宏在最近的對話裡說。
這是百度一直投入的重要方向。Sora的出現讓人們意識到語言之外的視覺模態的重要性,但它遠遠並非“多模態”的全部。人工智能中的多模態指數據或信息的各種表現形式。除了文本,圖像和視頻,還包括音頻模態、傳感器數據(溫度、溼度、觸覺信息)、代碼、數學公式等等。
而在智能上,百度的做法如李彥宏所說——“事實上,我很多的研發資源還是投在了外界看來基礎的能力或者理想主義者看重的東西。我們在做,我們不斷地在這方面加大投入、付出努力。我只是覺得,沒有必要把這些只有極少數人才能夠聽得懂或者說纔會appreciate的東西到處去講。我需要倒出去講的是,更多的人,幾千萬人,幾億人確確實實能夠用得到的東西。”從“讓幾億人可以用到”的實際出發,被幻覺所擾亂的智能不是真的智能。這是李彥宏希望百度去解決的問題。
於是二者結合,百度推出了iRAG技術(檢索增強的文生圖技術 iRAG,image based RAG)。它是多模態和降低幻覺兩個重點技術方向的融合。它將搜索與文心大模型聯合優化,將百度搜索的億級圖片資源跟強大的基礎模型能力相結合。李彥宏在最近的世界大會上,展示了它讓生成的圖片更真實、準確的例子。這樣的效果,能夠大幅降低影視、漫畫,連續畫本等場景裡AI生成圖片的成本。
如典型的百度風格那樣,這些多模態底層能力也在第一時間開始尋找那些更清晰的落地場景。數字人是重要的方向之一。
“我們今天講的多模態,實際上是解決另外一類型的問題。比如數字人,不是純語言模型,你生成的文字要用語音表達出來,語音表達的時候口型要能對得上,手勢應該做什麼,我如果轉頭了,側面的圖像能不能跟正面保持一致等等,看起來都是一個比較簡單的事情,但是你仍然需要解決。靠任意場景下生成視頻的東西,不一定能把這事兒解決得很好。如果真的能夠做到任意場景下視頻生成,也許能夠解決。那可能要很長時間,而且成本很高。”李彥宏說。數字人是一個全面考驗多模態能力的場景,同時也是一個要求更務實方案的真實商業化需求。
“我用簡單的方法,就能夠做到,那我爲什麼不呢?先把這些事兒解決了,讓這個應用能夠跑起來,這是我們的思路。”
據瞭解,其從2019年起就開始佈局數字人領域,在語音克隆、脣形同步、表情動作捕捉等一系列關鍵技術上有多年積累。今天,百度“曦靈”數字人、“慧播星”數字人已廣泛應用於新聞播報、直播電商等場景。
在百度世界大會上,李彥宏也展示了被他稱爲“角色智能體”的多個數字人案例。這些數字人已經可以做到效果自然、動作幅度更大,在一些場景的轉化率已經超過了真人。
“我們非常相信,真人與虛擬人的交互,將創造巨大的產業價值和社會價值。這裡的虛擬人,可能就是現實生活中的一位名師的數字分身,也可能是一位名醫、王牌律師和金牌銷售的數字分身,而你從來沒有像現在這樣離他們如此之近。”李彥宏說。
當然,除了iRAG和數字人,作爲多模態大模型最大的落地場景之一,自動駕駛也是百度多模態能力的重要體現。
2024年7月,百度對外發布了全球首個支持L4級別無人駕駛業務的大模型Autonomous Driving Foundation Model(ADFM),這也是蘿蔔快跑的核心技術。ADFM包括感知大模型和規劃大模型,兩者通過聯合訓練,從原始數據捕捉到油門和轉向輸出,形成端到端的自動駕駛系統。
這款大模型結合硬件產品與安全架構,通過多重安全冗餘與管理策略,確保了車輛的穩定與可靠。Apollo ADFM的引入,標誌着自動駕駛技術的安全性與泛化性達到了前所未有的高度,其性能超越了人類駕駛員十倍以上,成功覆蓋城市級全域複雜場景。
1
空談AGI,不如讓真實的應用來給行業信心
所有重要的技術似乎都逃不開曲折前進的週期,而身處其中的人冷暖自知。今天在AI產業裡蔓延着的普遍情緒是,泡沫正在慢慢破裂,人們已經無法通過聽一些人空談AGI來獲得對未來的信心。
怎麼辦?
當人們從“顛覆性技術”的預期中醒來,建構信心的方式就需要改變。大模型帶來的技術革新依然是巨大的,所以換個角度來看,這個底層技術迭代的“瓶頸期”同時也是各行各業“喘口氣”沉下來理解技術在應用上真正機會的“窗口期”。接下來的信心也將來源於此。
認定AI落地和進步需要應用驅動的百度,也在通過實際的成果嘗試給行業分享更明確的預期。在百度世界大會上,李彥宏在演講過程中在大屏上展示了文心智能體平臺的TOP100智能體。這些應用的分發量、平均對話輪次、用戶喜愛度等指標都令人印象深刻,涵蓋了多個行業,包括智能客服、內容創作、數據分析等多個領域。
這些都是在實際解決問題,能讓人看到實在用處的AI應用。相比於不少人天天討論的“超級應用”,這些千行百業的應用大規模出現,可能是“超級應用”的另一種路線。
此次,目前,百度智能雲已經在能源、電力、製造、金融、交通、政務、互聯網、教育、電商等數十個行業、幾百個場景中落地大模型應用。百度智能雲千帆大模型平臺已經幫助客戶精調了3.3萬個模型、開發了77萬個企業應用、文心大模型日均調用量超過15億次。
有人曾比喻,今天的大模型技術,事實上到了這樣一個階段——巨龍已經被造出,接下來就看誰能更好駕馭它。百度的應用驅動,就是要給各行各業的人們提供更好地駕馭巨龍的可能。
而在這個應用百花齊放的過程裡,技術的週期會繼續前進。今天AI撞上的牆,很大程度來自於數據的枯竭,而像是iRAG這樣的技術,與今天越來越長尾的應用相結合,其實會在更多真實的物理世界的場景裡產生新的行業落地數據,它們在模型的推理階段被收集,再反哺回模型的訓練階段。應用的繁榮最終會促進模型能力的下一次進化。
也許有一天一個 “預測未來”級別的Sora會真正出現,而今天竭盡全力把AI技術轉化爲各種落地應用的公司,可能反而會在這個接地氣的探索中,更早觸碰到通往未來的可能。