入坑大模型18個月的反思與販私

作者:[Minogame]Link:[https://zhuanlan.zhihu.com/p/717402693]

前幾天開完一個有高層參加的會議,會後組裡的技術大佬直接就開噴“要規劃沒規劃,整天只知道對着幾個糊弄老闆的榜使勁刷”。我下意識地趕緊去拉住他,低聲對他講“你聲音太小了,老闆聽不到的,回頭我領你去大廈的保安室,你用緊急通報的喇叭講給全樓的人聽”。他彷彿意識到了什麼,便回我若要率十餘衆攻入保安室需要準備什麼樣的裝備以及後勤物資,於是會議的內容就這麼愉快的被遺忘了。

做回工位上,暮然回首發現自己已經入了這個坑一年半了,反思起來也收穫確實有一些,例如Megatron/DS/TE/FA等等核心實現,例如強化學習的世界觀以及其與最優化領域世界觀的融合。但是如果要用一個短語來描述我當下的心境,那必然是“跳坑救不了世界”,棄坑從文也救不了,我們這個業界從底層的邏輯上就被運作成了這樣:開源社區成就了一批天命人,天命人自發地凝結成草臺班子,草臺班子又逐漸被開源社區淘汰。而這個循環過程中,這些本該會被淘汰的班子卻會試圖通過閉源與商業化立起牌坊,這就形成了我們這個業界遍地是坑的奇觀。

如果給“坑”這個描述做一個明確定義,那麼大致可以講成“同質化、模式化、低效率、低創新”的競爭系統,頗有當下低端芯片、商業城區、成人教育、新能源汽車、供應鏈金融這些領域的感覺。只不過大模型比這些事情多了一層窗戶紙——黑盒性質,換句話說他不是被設計出來的,而是一種對自然的探索發現,而且又有着極高的資金門檻,所以對一般公衆而言,其有着彷彿大型強子對撞機探索宇宙基本原理一般的隔閡感。然而大語言模型本身又具有極強的人文性,類似於經濟學,這便又給了草臺班子極大的容錯率。

我很早以前就察覺,當下基於qkv attention + next token prediction + scaling的路徑幾乎已經快走到了盡頭,並不是說scaling不能繼續發揮作用,而是說scaling帶來的收益已經遠超出對其的投入。而且我的一個暴論是,scale讓大模型更像大模型,豐富且平庸

,這就是之所以你會感覺到一個回答是大模型生成的原因。雖然反過來講,豐富且平庸的回答並非毫無意義,因爲它至少可以被用來做爲創作的原材料。但是,於智能本身而言這種性質毫無意義,更不要提草臺班子們打着要做智能的旗號最後只做出了一堆豐富且平庸的產品。

當然如果說上面這條路死了,或者有些更悲觀的觀點說聯結主義死了,大模型也不是不能繼續往下發展,因爲顯然除了創作類的需求,在提升生產力的過程中我們也有“理解複雜指令並精確輸出”的需求。在我的腦海中,這種需求會促進“聯結符號主義”的發展,類似於alpha proof中formalizer network、lean與solver network三者之間的協作,而這便是接下來幾年大模型發展最大的一個契機。或許草莓跟獵戶座也是類似的玩意,但是隻可惜這些都是閉源的,草臺班子骨子裡是不太敢真的去碰這些東西的,因爲他們內心中很清楚什麼成就了他們。

所以你們看我黑了這麼久草臺班子,那麼我也給草臺班子做一個定性:一套低配的體制圈子。其低配體現在以下三個方面:制度不成熟、更加的人治;神權(開源社區)的影響力更大;王國之間來去比較自由、對人的行爲缺乏約束。這裡面的諸多問題恕我無法展開來講,一來太招黑,二來也會衝到塔。我唯一能講的給小朋友們的建議就是不要把自己活成高瀚文,或者儘量一開始就不要跳這個坑,如果你的理想真的是詩、智能與遠方。另外其實我覺得國內做開源的幾家都挺好的,比如seek(不是軟文,因爲他們嫌我年齡大直接掛了我的簡歷),主要原因是一來他們背靠金融系,有自己特定的存在價值,不需要爲錢發愁;二來裡面真的有些不錯的傻孩子在裡面爲了夢想而奮鬥,技術氛圍很好。

事到如今,恍惚間感覺自己彷彿被焊死在零式裡面的生體智能,最終不知道會以什麼方式陪着大模型這個業界殉葬。希望明天會發生一些好事情吧。