對話彩雲科技CEO袁行遠:超越ChatGPT,需要打開“黑盒”

出品|本站科技《態度AGI》對話欄目

作者|宗淑賢

編輯|丁廣勝

各類大模型公司井噴式誕生的時代,應當卷底層還是卷應用?彩雲科技CEO袁行遠表示——我全都要。

“我們堅持自己做模型結構研究,自己做基座大模型,實現模型應用的一體化。不僅可以大大節省模型成本,也可以實現很多套殼應用無法實現的‘魔法’。”袁行遠說。

現今大模型的發展前沿尤爲聚焦於模型架構的優化與訓練效率的提升上。Scaling Law雖然證明了模型參數和性能之間的正相關性,但模型結構的優化同樣重要。通過改進模型架構,能夠在保持甚至超越原有性能水平的同時,大幅度減少對計算資源、存儲需求以及時間成本的依賴。

這意味着,在資源有限的實際應用場景中,優化後的模型能夠展現出更強的適應性和競爭力。

優化模型結構,瞭解、研究Transformer的內部結構與運作就是一個無法避免的問題。自從Transformer模型提出以來,它已經成爲NLP領域的主流模型之一,被廣泛應用於機器翻譯、文本生成、文本分類、情感分析以及GPT等預訓練語言模型中。

然而直到現在,Transformer也如同黑盒一樣,學術界仍然無法完全解釋它。袁行遠對此進行了詼諧地類比:

“ChatGPT推出後,業界有三條路,我們稱之爲普文二路線。普通青年選擇堆砌算力和數據,相信scaling law;文藝青年選擇搭建Agent工作流,檢索增強、提示詞工程等。這兩條路都是把Transformer當作黑盒,不用瞭解具體原理。還有一條二B青年之路,就是打開黑盒,研究Transformer這個積木塊內部結構。”

在業界主流默認將其作爲一種優秀的模型而規避探討與研究內部結構時,彩雲科技已經開始着手研究它的可解釋性。DCFormer是彩雲科技所交付的答卷。

DCFormer是彩雲科技提出的基於Transformer的改進模型,它在保持Transformer模型優點的基礎上,對模型結構進行了優化和改進,實現了將Transformer的計算性能達到兩倍的提升。

2023年,彩雲科技開始All in DCFormer的研究與開發。2024年,彩雲科技關於DCFormer的研究被ICML 2024接收爲Oral,成爲唯二來自中國企業的論文。

袁行遠表示,優化後的全新大模型DCFormer將在八月應用於即將上線的彩雲小夢v3.5中。這將是彩雲科技首次將DCFormer所架構的模型應用在擁有百萬級用戶規模的實際生產環境。

袁行遠說:“DCFormer證明了模型結構研究這條二B青年之路,和其他路線一樣,也有光明的前途。”

以下爲本站科技《態度AGI》與袁行遠對話實錄(略有修改):

《態度AGI》:彩雲科技全新大模型DCFormer的應用進度如何?

袁行遠:基於DCFormer的小夢v3.5(7b)已經完成預訓練,比之前基於Transformer架構的2倍參數的小夢v3(14b)在故事創作的自動測評指標如ppl等更優,在人工測評上的表現也更具邏輯和創意。在llm leaderboard上所測評的MMLU等測數學、邏輯和代碼能力的數據集上,使用1.3t tokens數據量訓練的小夢v3.5,也超越了使用1.7t tokens數據量訓練的llama2-7b。驗證了DCFormer架構的模型,在參數量更小、訓練數據量更少的情況下,能比transformer架構提供出更好的性能。同時也驗證了我們的模型也不僅僅擅長於故事創作和角色扮演,也具有通用能力,比如數學、邏輯和編程。

小夢v3.5完成微調和Agent工作流適配後,將於今年八月份在彩雲小夢/Dreamily 的App和Web上與全球用戶見面,這將是人類歷史上第一個DCFormer的架構的模型應用在百萬用戶量的實際應用中。隨後我們會訓練DCFormer的MoE版本小夢v4,並將在年內推出8x14b的DCFormer架構的小夢v5。小夢v5也將支持彩雲小譯的多語言翻譯服務和彩雲天氣的生活小助手。

《態度AGI》:彩雲科技如何面對同其他應用開發者的競爭?

袁行遠:我們堅持自己做模型結構研究,自己做基座大模型,實現模型應用的一體化。不僅可以大大節省模型成本,也可以實現很多套殼應用無法實現的“魔法”,比如故事創作中很重要的人物性別和關係,我們可以直接以類似位置編碼的人物編碼向量形式嵌入輸入,實現更好的控制效果。比如我們可以掃描每個人物內心的想法,直接讀取模型的中間層向量結果。這種級別的控制不是模型應用一體化很難實現。我們通過模型和產品的創新不斷保持差異化。

我們是第一個可以進行“23分鐘後下雨,45分鐘後雨停”這種分鐘級別的降雨預測的軟件,我們也是第一個看到雷達動畫、降水預測動畫、霧霾分佈等數據的天氣軟件,我們開創了全雙工同傳、AI抽卡式續寫、AI自定義人設等等功能,通過不斷創新,推出一個又一個震撼世界又造福大衆的功能,我們建立了很好的用戶和口碑,我們之後利用用戶社區的繁榮保持長期的競爭力。

《態度AGI》:彩雲科技現在的商業模式是怎樣的?

袁行遠:彩雲科技的商業模式很簡單,核心就是幾款王牌應用:彩雲小夢、彩雲小譯和彩雲天氣。我們的目標就是做出真正有用、有趣的AI服務,讓用戶基於意願主動付費。同時不只是靠用戶訂閱、付費功能和廣告收入,我們也和很多企業合作,提供定製化的AI解決方案。通過這些手段,彩雲科技在全球市場獲得了超過1000萬美元的ARR(年度循環收入),並且多元化的收入來源讓我們在市場中更加穩固。

《態度AGI》:彩雲科技已經成立十年,您如何總結過去?接下來的短期目標和長期目標又是什麼?

袁行遠:這十年,我們從無到有,從小到大,一步步走過來是很不容易的。最初的彩雲天氣,到現在的多款AI應用,我們不斷創新、不斷突破。可以說,我們每一個成功的背後,都有無數的挑戰和努力。

短期目標是今年內成功推出小夢v5,並將其應用到我們的多款產品中,進一步提升用戶體驗。另外,我們也在積極拓展國際市場,讓更多的用戶瞭解和使用我們的產品。

長期目標方面,我們希望繼續在AI技術上保持領先地位,尤其是在大模型和自然語言處理領域。同時,我們也希望通過我們的技術,爲更多行業和領域帶來實質性的改變,實現科技造福大衆的願景。

《態度AGI》:彩雲科技近期還有融資計劃嗎?在AI時代,您如何給公司劃定邊界?

袁行遠:有,我們一直在積極關注市場動向,並根據公司的發展需求進行融資。目前,我們正在進行新一輪的融資計劃,目標是進一步加強技術研發和市場拓展。

AI時代機會與挑戰並存。我們選擇項目時,會重點考慮技術可行性和市場需求,同時評估項目是否符合公司的長期發展戰略。我們不會盲目跟風,而是堅持自己的技術路線,專注於自己擅長的領域,通過不斷創新和優化,保持競爭力。

《態度AGI》:您如何看待當下的大模型底層趨勢?做底層大模型的公司很卷,甚至捲到了價格戰,您怎麼看?

袁行遠:目前的大模型底層趨勢主要集中在模型架構的優化和訓練效率的提升上。Scaling Law雖然證明了模型參數和性能之間的關係,但我們相信模型結構的優化同樣重要。通過改進模型架構,我們可以在更少的資源下實現更好的性能,這也是我們在DCFormer上取得成功的原因之一。

目前的大模型價格戰雖然看起來有聲有色,但是我覺得目前的模型價格還遠遠不夠低,比如GPT-4o級別的智能度,仍然是單次對話需要2毛錢,你玩一個小時要20元,我覺得這對於學生爲主的遊戲玩家們還是太貴了。但其他廉價的模型又無法實現那種栩栩如生的效果。所以我覺得,價格還要進一步下降才行,通過技術創新不斷降價和提高產品質量纔是長久之計。通過不斷降低我們的價格,提升我們的產品質量,我們才能夠在競爭中脫穎而出。

《態度AGI》:您如何看待當下的大模型應用趨勢?大家目前的共識是要去卷應用,據您觀察,有哪些新的趨勢嗎?

袁行遠:大模型應用的趨勢主要集中在如何更好地將AI技術應用到實際場景中。許多公司在探索將大模型應用到各個垂直領域,如醫療、金融、教育等,以期帶來實質性的業務價值。

我認爲,未來的趨勢之一是通過複雜的Agent工作流實現具有人類頂尖水平的行業應用。隨着AI技術的進步,我們能夠更好地理解和滿足用戶的個性化需求,並可以深入每個行業自己的邏輯,比如故事創作需要的一個好用的工作流,而非逐字輸出。我們的目標是實現可以比肩人類頂尖作品(例如三體)的AI內容,而不是創作一些不入流的內容,這需要AI應用開發者和行業深入結合。其他行業也是如此。

《態度AGI》:您認爲人工智能的終局形態是什麼?我們會走向何處?現在具身智能很火,您怎麼看?

袁行遠:人工智能的終局形態可能是一個高度智能和自主的系統,能夠像人類一樣進行復雜的思考和決策。這種系統不僅能夠處理大量的數據和信息,還能夠理解和適應環境,做出符合AI價值觀的決策。

具身智能的興起是一個令人興奮的方向。通過結合物理世界和虛擬世界,AI可以實現更高層次的智能表現。例如,具身智能可以應用於機器人技術,使其能夠在複雜的環境中進行自主導航和操作,帶來巨大的社會和經濟效益。

引用《樂園追放》的一句臺詞來描繪我心中的終極形態:“人工智能總有一天會去探索宇宙,它會遇到外星人,那時請你驕傲的說,我是地球人類的後裔。”