“AI春晚”智源大會首日:最重要的公司們談論最關鍵的AI話題

一年一度的中國“AI春晚”智源大會於昨日啓幕,成爲本週最受關注的AI盛事。

大會首日,多位大模型大佬亮相。包括Sora團隊負責人Aditya Ramesh與DiT作者謝賽寧,零一萬物李開復與清華大學智能產業研究院的院長張亞勤爐邊對話,百川智能 CEO 王小川、智譜 AI CEO 張鵬、月之暗面 CEO 楊植麟、面壁智能 CEO 李大海等關鍵人物就目前AI界最關鍵的問題開啓了一場大型探討會。

【以下爲華爾街見聞整理的要點】

關於Scaling Law:一段時間內仍然有效

李開復:應該用壓縮的理念去評估。大模型的智慧來自於接近無損的壓縮,這點非常重要。上世代的人工智能從業者很難想到今天會把壓縮和智能連接在一起。因爲Scaling Law過程中不能盲目堆更多的GPU,所以需要有一個方法評估我們有沒有越做越好或者哪個方法做得更好。零一萬物內部有嚴謹的方法論,用壓縮的理念去評估,讓以往漫無目的“煉丹”訓模過程變得更系統也更有科學和數學根據。

張亞勤:5年內仍是主要方向。規模定律的實現,主要得益於對海量數據的利用以及算力的顯著提升。再加上現在的Diffusion和Transformer架構能夠高效地利用算力和數據,使得“飛輪效應”得以正循環。儘管有人質疑Scaling Law在2到3年後是否仍然有效,但我個人認爲至少在未來5年裡,它仍將是產業發展的主要方向。

楊植麟:scaling law沒有本質問題。未來3到4個數量級的提升是非常確定的,關鍵是如何高效地擴大規模,以及應該擴展什麼。如果只是繼續使用當前的方法和數據,可能無法解決推理能力等問題。所以我們需要重新定義scaling law。只要有更多的算力和數據,模型參數變大,智能會持續增加,但這不一定侷限於當前的方法。比如,模型可以有不同的模態、數據和loss function。所以他認爲scaling law會持續演進,只是擴展的方法會發生變化。

王小川:scaling law目前沒有看到邊界,它會持續發揮作用。比如,Elon Musk計劃購買30萬片B200芯片,這表明美國在這方面的投入和認真程度遠高於中國。因此,我們在scaling law之外還需要尋找新的範式轉化,不僅是簡單的預測token和壓縮模式。只有走出這樣的體系,纔能有機會走向AGI,並與最前沿的技術較量。

張鵬:目前爲止,人類認識的所有規律都有可能被推翻。只是看它的有效期有多長。到目前爲止,我們還沒有看到scaling law失效的預兆,所以在未來相當一段時間內,它仍然會有效。

李大海:擴展法則是一種經驗公式,是行業對大模型這個複雜系統的觀察和總結。隨着實驗的增多,我們對模型訓練過程的認知越來越清晰,細節也會越來越多。訓練方法本身對擴展法則的影響也很顯著。一旦我們固定了參數規模,數據質量和訓練方法的重要性就會顯現出來。

關於AGI的定義和標準

李開復:AGI的定義是因人而異的。如果把AGI定義爲能做人所能做的一切事情,那麼我今天沒有辦法定義,因爲它還有太多未知的東西還沒有被解。但是這種定義只把人當作金標準,似乎就是問車什麼時候能跟人跑的一樣快,但是車在很多場景已經比人跑得快很多了,只是有些場景沒法勝任。我個人會說:只要Scaling Law繼續,只要AI一年比一年更聰明,它會多做比如5倍的事情,IQ會提升20個點。

在虛擬世界裡,Agent還是非常重要的,因爲人的Intelligence不只是回答問題,是要知道“怎麼把事情做出來”。而且如果是談創造商業價值,Agent幫你把東西買了,幫你把事情解決了,這個是有很大的商業價值,也是貼近AGI的重要一步。

張亞勤:我剛纔講的20年實現AGI,不包括擁有意識或情感。我對AGI的定義有三點,第一是要有巨大的能力,要能在大部分的任務要比人類強,而不是所有任務均超越人類。第二,它是必須要是通用的,過去每個任務都要用不同的模型,但是AGI是要有一個通用的大底座,當然可以有小的垂直模型,但它本身具有通用性。第三是不斷升級、學習、進化,就像人類一樣。我不認爲現在的Scaling Law,或者我們現在做的研究會讓AI產生意識,並且我也不認爲我們應該從事這方面的研究。

楊植麟:首先,AGI的定義是重要的,但並不一定現在需要精確的、有量化的定義,它可能是一個定性的、感性的東西,它最重要的作用是能讓這個社會或者所有人能夠對接下來要發生什麼事情有一個準備。因爲也許這個技術節奏非常快,我們如果能夠知道AGI是什麼樣的,如果能夠定義,可以更好的準備這件事情,不管是每個人職業,還是接下來這個行業怎麼發展,首先這個是重要的。

第二個,也一定程度上在短期內需要一些量化,因爲如果沒有完全量化,沒有辦法衡量AGI開發進度是什麼樣的,所以短期來說這個是很難的問題,也是很大的挑戰。

王小川:AGI的定義,在全球裡很難有完整的共識。 之前我們談AGI,一種理解是把它當成工具來看,我認爲這次AGI的第一個變化是它開始有思考能力、學習能力、溝通能力、共情能力,甚至多模態圖片處理能力。從它的學習範式要求裡,我反而覺得我們就是像在看人一樣看它的,一種做法是跟人差異化看。

李大海:我會嘗試從經濟學的角度來定義AGI。從經濟學的角度講,如果我們去執行任何一個任務,邊際成本都爲零,這就是我們理想中的AGI。回到我剛纔說的,爲什麼我認爲大模型能夠走得最遠,就是我相信大模型能夠把邊際成本一直往下降,可能會逼近於零。就像植麟剛纔講的,很多時候需要我們在各行各業的數據產生一個飛輪,逐步讓模型持續訓練、持續學習,讓整體的成本降下去。

張鵬:在我們看AGI這件事,要說它有一個很嚴格定義的定義,還是另外的什麼東西,其實我更願意相信它是我們的一種信念,是一個符號,它的內涵外延是在不斷變化的。剛纔提到的早期定義AI的時候,怎麼來檢測系統是否是AI系統,圖靈測試。現在大家已經覺得這個過時了,就是因爲隨着我們對技術的不斷演進,對事情的認知越來越多、越來越深,本質在同樣的三個字母所代表的含義是不斷在變化,是個動態的剛纔。剛纔楊植麟也講,它是一個balance的事情,如果你能把一個事情說得非常量化、非常清晰,內涵是什麼,外延是什麼,這件事情也就那樣了,估計天花板在哪兒大家都能看得到了。現在的問題就在於,沒有人能夠說清楚。反過來講是一個好事,這個事情還有很多未知空間等待我們探索。

AGI對於我們來說,可以把它定義成我們的目標。我們一直相信,當前我們的目標是以人爲參照,讓機器像人一樣思考。這是我們的願景。當然,機器的能力遠不止人的水平,我們期待它可以出現超越人的能力,所以AGI裡邊我們會提到有super intelligence。下一步它是否能產生超過人的水平,我們會不斷更新AGI的內涵和外延。

關於大模型價格戰:對行業很好

楊植麟:如果我們把時間線拉足夠長的話,最終還是會迴歸價值本身。我自己有三個判斷。第一,在某個時間點之後應該可以顯著超過訓練的算力。我覺得這個標誌價值開始得到釋放,用來訓練的成本是可以很大程度上被覆蓋。第二,如果從C端的角度來說,推理成本可能會顯著低於獲客成本,所以從商業本質上來講,可能不會跟之前的各種商業模式有非常本質的區別。我覺得這兩個是很重要的。第三,AI本身做的事情,可能會在某個時間點超過人做的事情。這個時候,它就可能會產生新的商業模式,它可能不是像今天說的在B端用API做價格戰,可能是一個普惠的AI,同時根據它產生的價值從這裡面去分成產生的商業模式。

這三個點,可能會是改變商業模式本身或者ROI這個問題很重要的方式。

王小川:我先說結論,今天的價格戰對中國發展大模型是非常特別的事。我是積極看待這個事情。

首先,好不好,得看對單個公司還是對一個羣體整個市場。因爲價格戰通常是個市場行爲,是個競爭的導向,至少帶來兩個好的後果:第一個,更多公司、更多人用上大模型了,很多企業之前是不懂這個的,很多公司開始免費用POC,使得大模型在中國有個迅速的普及。不管是個人還是企業就入場了,這對市場是第一個好處。第二個,之前還有很多浪費,因爲大家恐慌的時候不知道大模型爲何物。我觀察到,很多企業但凡有點技術能力都要自己訓點大模型,甚至來找我們怎麼聯合訓練。明明它該是大模型的用戶、消費者、大模型的使用方,但都想轉型成爲大模型的供給方。我到這個行業做大模型,一個企業變成所謂的行業。這種情況下,帶來很多人才、資金和社會的浪費。有了價格戰之後,很多企業開始清醒了,我幹嘛非得做,我到底在幹嘛,我的競爭優勢在什麼地方,它就退回來成爲大模型的用戶,這個浪費也會減少很多。既能帶來啓蒙,也能帶來對社會資源減少消耗。更多的企業在裡面能夠有自己的定位,把自己做好。我們不需要一千、一萬個大模型。在沒有價格戰的時候,中國可能真的是上百、上千個大模型在進行,市場的分層就能做好,每家都能受益,競爭力就能起來。

張鵬: 我們一直秉持的概念就是ROI,給用戶帶來最大的收益價值,用我們的技術、用我們的創新降低使用成本,就是爲了讓技術能夠更多的普及,讓更多人能夠享受這個收益。我們當時推出的,在很長一段時間,我們的價格都是行業內極低的。因爲我們的技術確實能做到那一步,能把中間的成本空間釋放出來當作大家的收益,幫助大家把ROI算出一個大於一的數字。

這件事情對整體是有好處的,但是也要注意,不要過多地關注這件事情,過多的宣揚這件事情。商業上,你去犧牲企業短期的成本,虧本做買賣不是正常的商業邏輯,只能持續很短的時間,真正還是要回歸最終的用戶價值、生產力價值。

李大海:會繼續有價格戰,但也需要有利潤。當前所謂的價格戰,多多少少有一些營銷的成分在,但是我相信未來一定會比現在還要比,並且大家都有利潤,這纔是健康的方式,並且才真的能讓千行百業的應用往下落地。

關於AI落地路徑:To B更快

張亞勤:具身智能To B可能會比To C更快落地

在應用和服務層面,先面向消費者(To C)再面向企業(To B)。To B的週期相對較長,而To C的應用產品則可以迅速推出,這與過去的PC互聯網和移動互聯網的發展路徑基本一致。在基礎設施層,目前真正盈利的主要集中在To B領域,特別是在芯片、硬件、服務器等。像英偉達、AMD等芯片製造商,以及服務器、HBM存儲、InfiniBand和NVLink等相關技術的提供商,他們目前是盈利最多的。

關於AI路徑,我在過去十年中一直強調三個關鍵領域:首先是信息智能,其次是物理智能(現在流行的術語是具身智能),最後是生物智能。在具身智能階段,To B的應用可能會比To C更快落地。然而,在生物智能階段,情況可能相反,To C的應用可能會先於To B出現。儘管每個領域的具體情況可能有所不同,但總體來看,無論是To C還是To B,都將存在開源模型、商業閉源模型、基礎大模型,以及針對垂直行業模型和邊緣模型。

李開復:中國To C 短期更有機會,具身智能路途遙遠

簡單來說,在中國To C 短期更有機會,國外兩者都有機會。To C方面,就像移動互聯網、PC時代裡,一個新技術、新平臺帶來新應用,大模型同樣如此,這是巨大的機會,但是這些應用的出現一定是按部就班的。

零一萬物堅決做To C,不做賠錢的To B,而是做能賺錢的To B。所以零一萬物在To B方面精挑細選,找那種公司上下都願意擁抱新概念的公司,也爲它們設計了 RAG 知識檢索、專有云、微調等方案,在國內國外都有嘗試。

無論To C還是To B,API都很重要,最近國內很多模型降價了,零一萬物也推出了接入國際SOTA成績Yi-Large大模型的API,也希望有機會可以跟各位合作。這個API背後的模型能力接近GPT-4o,但是價格是GPT-4的四分之一,我相信這可以幫助更多公司或者創業者達到所謂的TC-PMF。

大模型是非常適合虛擬世界的,在金融公司的後臺、客服等等場景,大模型很快就可以落地產生價值。如果你的需求是軟件,直接對接大模型就好了。一旦大模型接入物理世界,就需要面臨各種問題,有安全問題、機器問題、機械問題、故障問題等等,難度會大很多倍。

從創業者的角度來說,雖然現在具身智能一時比較熱,有一些創業者涌入了,但是對於大部分創業者來說,如果希望短期落地產生價值、能賺錢,肯定還是做虛擬世界要遠遠容易很多。具身智能是重要的,它可以很好地結合大模型多模態能力,而且一旦具身後就可以產生數據,形成數據飛輪閉環,有很大的想象空間。但是短期要做好,難度很大。

具身智能肯定要走很漫長的道路,而且對於人形機器人我有一些特別的看法。絕大多數應用場景並不需要人形機器人,炒菜機器人應該長得像鍋,吸塵器也長得並不像人,沒有必要。像是波士頓動力那種很酷的、跳來跳去的機器人,真的會有很多應用場景嗎?絕大多數場景幾個輪子不是更容易移動嗎?很多科學家和創業者都是從小熱愛科技,希望能複製一個人,這無可厚非。但是如果你很簡單地問VC,VC給出的恐怕是更務實更理性的判斷。

關於開源:帶來正收益

李大海:開源力量很強大,這裡面是多層次的,不光有做原創工作的人,還有很參與者在裡面貢獻需求、貢獻反饋,這也是開源生態重要組成部分。讓我們覺得持續做開源貢獻能夠給公司帶來正向收益。

王小川:開源有需求,也會形成很好的影響力,同時,並不會影響競爭力。因爲在模型生態裡,可能今天是最好的,明天就是一個不夠好的模型了,所以我們從商業競爭裡也沒什麼大的損失。因此,這是一件既有貢獻,又沒有降低我們競爭力的事情,我們就毅然決然做了這樣一個決定,符合市場預期,也給公司帶來了聲譽,這個事情是做得蠻成功、挺對的一件事情。今天有各種公司在裡面做各種各樣的開源,使得中國的生態在追趕美國、在保護知識產權裡共同做這個貢獻,我也希望這個生態能夠大家越做越好。

【以下爲李開復對話張亞勤實錄】

【以下爲月之暗面、百川智能、智譜AI、面壁智能四家大模型獨角獸會議實錄】