被時代選中的智譜 AI:成爲 OpenAI,超越 OpenAI

作者 | 褚杏娟

“追趕 OpenAI ”,是智譜 AI CEO 張鵬對外分享時屢次提到的一句話。坦然面對不如別人需要勇氣,但公開承諾要追上行業標杆,則需要實力。那麼,才成立四年的智譜 AI 憑什麼?

積澱與機遇,一個也不能少

衆所周知,智譜 AI 是清華系出身的學院派創業公司。

1996 年,清華大學計算機系知識工程實驗室申請成立,這是人工智能下的一個分支,以機器學習、數據挖掘爲主要研究方向。2006 年,實驗室開始做工程化,並推出了 AMiner 系統。在這之後的 10 年裡,實驗室一直進行工程方面的研究。2016 年左右,隨着相關技術的成熟,實驗室開始進行應用轉化。直至 2019 年,智譜 AI 成立。

剛成立的智譜一方面延續之前的研究,一方面積極進入市場,將實驗室積累的科技成果和產品系統用於實際項目並商業化。如果沒有意外,這個路線會持續一段時間。但企業戰略方向往往是由技術本身和行業應用領域的熱點共同決定的。

2020 年成爲智譜 AI 發展的一個關鍵拐點。

GPT-3 的發佈給了大家非常明確的信號,即大型模型真正具備了實際可用性。但“要不要跟進大模型”卻是一個問題。

創業公司戰略做錯一次就是致命的,雖然此刻看來當時智譜 AI 的選擇沒錯,表現之一就是風投態度:此後智譜 AI 每年都能拿到數億融資,目前單 2023 年已累計融資額達到 25 億人民幣。但當時情景下,這依然是一項極其冒險的事情,創始團隊無法輕易決定。

那如果跟進大模型呢?智譜 AI 也並非完全從零開始。創始團隊多年積累,大模型可以看作是團隊積極學習和擴充高速挖掘的延續。因此,在反覆糾結和討論後,智譜 AI 終於決定全面投身大模型。

但在通用大模型和行業小模型的選擇上,智譜 AI 雖然有參考 OpenAI,但還是決定堅持走通用大模型這條路。

一是技術方面。張鵬認爲,行業模型必須建立在通用模型的基礎之上,否則獨立發展的行業模型由於商業規模較小,其智能水平將受到明顯的限制。此外,行業模型很容易被通用模型的能力快速超越。

將行業模型建立在通用模型之上有好有壞。好處是可以節省基礎模型預訓練的成本和週期,享受到基礎模型本身智能提升好處的同時,降低被通用模型取代的風險。壞處則是通用模型本身在行業場景中可能並不完美,因此需要專業知識積累。就像一個專業學校畢業的研究生要成爲行業專家也需要時間來不斷積累專業知識和經驗。

因此,在張鵬看來,行業模型被看作是在當前技術水平和時間點下爲解決行業應用需求而催生的一種形態。雖然這種形態具有歷史意義,但從更長遠的角度看,它只是一個階段性的產物。

二是社會方面。模型之所以不能掌握行業專業知識,部分原因是因爲行業知識的數據不完整或受到限制。這與過去十多年大數據和人工智能發展面臨的問題類似,即存在數據孤島和數據壁壘。這就導致了模型的能力必須遷就數據。

這個問題的根源不是技術層面的決策,而是與當前社會發展、信息化水平、行業信息化程度、數據安全以及各種制度和機制有關的問題。

對標 OpenAI,相似但不同

同屬通用模型賽道,是外界要拿智譜 AI 和 OpenAI 比,還是智譜 AI 自己要和 OpenAI 比?實際上,兩者都有。國內需要有“自己的 OpenAI”,而智譜 AI 的目標恰好也是 OpenAI。

“OpenAI 公司一直在領跑,所以最直接的方式是先達到他們的水平。”張鵬說道。在技術選型和解決方案方面,智譜 AI 選擇直接對標 OpenAI:

但智譜 AI 並沒有完全依賴 OpenAI 的技術經驗。

GPT 的問題是注意力是單向的,無法充分捕捉 NLU 任務中上下文詞之間的依賴關係。雖然在 GLM 模型的早期研發階段,GPT-3 已經非常出色,但智譜 AI 選擇從底層算法原理入手,將自己的理解融入進去,最終需要通過實驗和應用來驗證。

張鵬及其團隊在 2017 年開始關注預訓練模型,那時候大模型還沒有出現,市面上主要是一些幾千萬數量級的、相對較小的模型。

團隊發現,當時的模型儘管架構相似,但在算法框架方面存在許多不同,比如 encoder-decoder 模型、auto-encoding 自編碼模型、auto-regressive 自迴歸模型等。雖然前人嘗試通過多任務學習結合它們的目標來統一不同的框架,但由於自編碼和自迴歸目標在本質上的不同,簡單的統一併不能充分繼承兩個框架的優勢。

2021 年,智譜 AI 開始自主開發訓練框架,着手訓練一個擁有百億參數的模型,並在年底啓動了千億模型的訓練。智譜 AI 的 GLM 模型將自迴歸生成和自迴歸填空集成,即將 NLU 任務構建爲包含任務描述的填空題,這些問題通過自迴歸生成來回答。通過將這兩種模式的優點結合起來,模型在下游任務中能夠完成更多任務。因此,這個預訓練模型的顯著特點是單一模型能夠處理多個任務,從而用更低的成本來支持更多上層任務。

大模型主要被關注的是性能。這裡的性能有兩方面:一是各種評估指標上的表現,甚至是人工評估標準,二是推理效率和硬件基礎成本。這兩個方面的性能都非常重要,前者涉及到了模型的潛在極限水平,後者則涉及到了模型的可用性,即在產業鏈中使用該模型需要付出什麼成本以及預期的回報是多少。

對於 GLM 模型,智譜 AI 除了在解決精度、穩定性和效率上進行改進,包括算法層面的修改、算子和加速方法的選擇,還有工程層面的決策,如商業集羣和網絡的選擇以及性能優化。

在早期某個階段,模型訓練的質量與數據之間存在密切的關係。爲此,智譜 AI 也花費了一些時間和精力來獲取更高質量的數據。

智譜 AI 內部有一個專門的數據處理團隊,進行數據清洗和過濾,將數據進行校準和轉化等工作。智譜 AI 訓練大模型的數據主要來自公開數據、團隊多年來積累的數據、交換或採購合作伙伴數據。

作爲一箇中英雙語模型,GLM 數據處理的複雜性略有增加。在模型訓練中,文本需要分割成 token,只有一種語言的話,token 的數量是固定的,但如果涉及另一種語言,token 的數量就會顯著增加,整個擴展的詞彙表會更大。另外,中英文混合數據的處理也是一個問題,模型需要在中英文上都表現良好,有效地跨語言工作。對此,智譜 AI 主要在設計訓練算法以及損失函數的計算等方面做了些額外工作。

對於“高質量的中文語料相對英文語料較少”的觀點,張鵬並不贊同,“中文用戶的數量全球最多,互聯網用戶也最多、活躍度也高,爲什麼中文數據的質量會有問題呢?”張鵬反問道。

他認爲,問題的根本在於數據的封閉和存在獲取壁壘。可能有大量的中文用戶在互聯網上沒有貢獻高質量的內容,也可能是他們貢獻了高質量的內容,但這些內容不是公開可獲取的。

智譜 AI 內部通常採用逐漸改進的方法,更傾向與自己之前的版本或標準版本進行比較,追求模型的性能,特別是某一方面上,能有明顯提升。

可以看到,智譜 AI 的產品更新頻率很快。在今年 3 月首次推出 ChatGLM 基座模型後,智譜 AI 又在 10 月底將其迭代到了第三代。

ChatGLM3 採用了智譜 AI 獨創的多階段增強預訓練方法、集成了自研的 AgentTuning 技術,並瞄向 GPT-4V 做技術升級。此外,智譜 AI 還推出了可手機部署的端測模型 ChatGLM3-1.5B 和 3B,支持包括 Vivo、小米、三星在內的多種手機以及車載平臺,甚至支持移動平臺上 CPU 芯片的推理。

此外,對於神經網絡算法的核心問題,業內在過去的六七年裡一直在尋找更高效的技術架構來解決計算和智能水平問題。這是一個偏向理論和基礎性研究的長期工作,智譜 AI 更多通過投資或支持清華大學等基礎性研究團隊和機構,也會參與做前瞻性或預期性的研究工作,參與到這一命題的研發中。

做大模型,沒有好走的路

在 2020 年之前,智譜 AI 主要從事算法研究工作,研究是團隊的強項,這部分工作相對容易。但到了 2021 年,情況有所不同。研究出身的創始成員在如何將研究成果落地上,開始遇到許多問題。

具體來說,團隊缺乏處理大規模數據和資源項目的經驗,因此,許多事情實際上需要靠智譜 AI 自己摸索,一邊學習一邊實踐。實際上也是如此,比如智譜 AI 訓練 GLM-130B 時,整個研發和訓練過程總共花費了 8-9 個月的時間,但最終穩定的訓練其實只花費了不到 2 個月的時間,團隊大部分精力都用在了適應性調整和系統調整上。

不僅如此,早期的智譜 AI 並沒有現在的“吸金”能力,資源缺乏是其起步階段不得不面對的問題。2021 年,智譜 AI 決定真正開發一個擁有 130 億參數的大模型,這個項目的投資金額已經超過首年合同金額。

如何解決資源困境?用張鵬的話就是到處“化緣”。團隊與國家科研機構及超算中心等聯繫,獲得支持、渡過難關。

對內,智譜 AI 一直注意在研發過程中合理分配和利用資源。尤其在初期,團隊更加節約,租用計算資源後就以最短的時間完成工作,儘量讓每一分錢花得物有所值。

團隊需要在不浪費資源的前提下,找到訓練速度、精度和穩定性的最佳平衡點。這是一項複雜的工作:提高精度可能會使訓練過程容易出問題,從而耗費額外時間和資源;反之,如果犧牲精度以保持穩定性,最終的結果可能不如預期。

雖然當時缺乏可供參考的標準,但智譜 AI 根據一些開源項目和技術報告,設計了適合自己需求的解決方案,包括混合精度、流水線工作方式、加速方法等等。這種自定義的方法幫助智譜 AI 提高了資源利用率,也還需要一些時間來完善。

衆所周知,英偉達的 GPU 價格上漲,直接導致硬件成本增加。原本 100 萬元的硬件如今需要花費 1.5 倍甚至 1.6~1.7 倍的價格來購買,大大提高了研發和應用成本。

在解決硬件成本問題方面,智譜 AI 選擇用國產芯片替代,對模型做了各種國產 GPU 等硬件設備的適配。自 2022 年初,GLM 系列模型已支持在昇騰、神威超算、海光 DCU 架構上進行大規模預訓練和推理。張鵬表示,國產芯片雖然在價格和性能方面可能距國外芯片有些距離,但在某些特定應用場景,尤其是在邊緣計算等領域是可以滿足需求的。

通過高效動態推理和顯存優化,智譜 AI 表示,對比伯克利大學推出的 vLLM 以及 Hugging Face TGI 的最新版本,自己的推理速度提升了 2-3 倍,推理成本降低一倍,每千 tokens 僅 0.5 分。

“一旦你經歷過一次,積累了全面的經驗,不管是遇到了問題還是進展順利,你都會從中學到很多。你將不再是一張白紙,而是會根據以往的經驗不斷改進和完善。所以那個時候的困難主要在於缺乏經驗,一旦積累了經驗,後續的工作就會變得更容易。”張鵬總結道。

商業化?開源?

作爲一家從研究機構出來的公司,智譜 AI 要比 OpenAI 更關注商業化。

OpenAI 總部位於美國硅谷,其科技創新生態系統和組織方式與國內有很大的不同。OpenAI 更多是依賴資本支持積累大量資源,如微軟等大公司提供資源、人才和數據,以快速實現目標。早期的 OpenAI 擁有足夠的資源,因此並不太關心推理成本等問題。當然,OpenAI 現在也開始關注加速和優化等方面的平衡問題,並且更多地依賴微軟等公司來進行商業化。

而智譜 AI 則是從成立之初便就在思考商業化的問題,“帶着客戶入場”也是被資本看好的因素之一。

智譜 AI 的商業化路徑主要面向企業和機構的 B 端用戶。一方面,創始團隊在 B 端的經驗比較多。早期在學校的科技情報分析、數據挖掘等研究經歷幫助智譜 AI 接觸到了國內的科研機構、科技型企業、互聯網企業,甚至一些國際頂尖科技企業,他們也成爲智譜 AI 的首批客戶來源。

另一方面,向 C 端用戶收費是比較有挑戰的。智譜 AI 只爲 C 端用戶開發了一個免費使用的 APP 工具。

不過在張鵬看來,無論是 ToB 還是 ToC,兩者最終都會融合,即服務企業最終也會影響到終端用戶,因此兩種選擇本質上沒有太大的區別,只是路徑優先級的不同。

在創業早期,智譜 AI 不會強迫自己去接複雜的客戶需求,因爲這些需求很可能讓團隊陷入其中無法自拔。“更復雜的問題需要暫時擱置、等到能力更成熟時再解決。”智譜 AI 會坦誠自己的能力在什麼水平上,在該水平上可以創造什麼樣的價值。

智譜 AI 也不會特別限定目標客戶。張鵬表示,這一輪由大型模型引領的 AI 技術革新比上一代技術強大得多,具有更廣泛的通用性,提供了巨大的創新空間,會影響到很多甚至之前意想不到的領域。

張鵬舉了一個民航的例子。民航飛行控制行業使用國際標準的數據報文來編制飛行信息,編碼方式非常晦澀難懂,專業人士有時也難以理解。爲了減少通信數據量和解決帶寬等問題,業內通常會壓縮數據,在實際使用時再將其還原。之前,企業需要龐大的團隊手工編程將這些數據翻譯成可讀格式,非常繁瑣。但將這些數據輸入後讓 AI 解釋,AI 能理解八九不離十。

在 IT 行業,與商業對應的就是開源。Meta 無意打開了大模型開源的“潘多拉魔盒”,影響了很多大模型廠商對於“封閉還是開放”的選擇。

“我認爲開源和商業化並不矛盾。事實上,已經有許多成功的開源和商業化項目,如 Linux、Hadoop 等,這些項目都表現出色,所以這兩者並不互斥。”張鵬說道。

目前,智譜 AI 已經開源了 ChatGLM3-6B 模型、多模態 CogVLM-17B 和智能體 AgentLM 等能力。開源對智譜 AI 來說主要有兩個好處:一方面,開源社區主要依賴社區成員的共同努力和影響,項目開源後可以吸引更多的人使用,從而提高項目的質量和成熟度;另一方面,企業提供中文語境下的模型和技術,能在全球開源項目中發出中國聲音,同時也能夠學習和借鑑國外的先進技術和經驗,這種跨文化的合作和知識共享有助於推動整個領域的發展。

“在相當長的一段時間內,開源和商業化版本會並存,而且它們並不矛盾,而是相互促進、形成良性循環。”張鵬說道,“開源在保障生態多樣性方面扮演着重要角色,而商業應用則關注穩定性、安全性和生態的持續性。只要能夠建立良性循環,這種並存的格局將持續存在很長時間。”

不過,雖然開源是免費的,但企業商業化還是需要一些成本的,資金能力不同的企業需要在成本和質量之間尋求自己的平衡。廠商則需要爲不同預算範圍的客戶設計不同的解決方案和產品,並考慮不同的定價策略,從而使用戶的成本降低。

“現在更需要商業化人才”

智譜 AI 和 OpenAI 的團隊構成在某種程度上是相似的,OpenAI 研究團隊主要來自世界頂級大學,而智譜 AI 的團隊主要來自清華大學。

在智譜 AI 早期,團隊構建比較簡單。最初的團隊起源於實驗室,由一些老師、學生以及工程師組成。研究人員和科學家在實驗室裡帶領學生一起工作,研發新技術。然後,工程師將這些技術轉化爲系統和應用程序,而少數商業人員與客戶互動。初期,商業化工作也由工程師或研究人員來擔任,他們在多個領域兼職擔任不同的職責。

智譜 AI 組織架構的發展是漸進式的:從內部研究開始,然後逐漸擴展到工程、系統平臺、應用和商業化等領域,各部門之間不是獨立的實體,而是相互協作、信息流暢的整體。這種緊密的團隊協作方式減少了信息傳遞的損失,使團隊能夠更高效地應對快速變化的市場需求。

現在,智譜 AI 已經有大約 400 名正式員工,其中約 70% 從事研發工作。

管理方法上,智譜 AI 與一般的互聯網企業相似。每個人都有自己的日常任務,但當需要集中精力處理某些事情時,如客戶交付、產品開發或技術研究,公司就會從各個團隊中選擇適合的人負責。

團隊的負責人在整個團隊中發揮着管理和協調的關鍵作用,他們的職責包括確保各部門之間的高效協作。比如,在一個重要的商業化項目中,負責人的角色涵蓋了項目從研究、開發到最終的市場推廣的整個生命週期,這需要團隊中的博士研究員、科學家、分級經理、工程師、系統專家和應用程序開發人員等人的共同協作。

同樣,在研究性項目中,負責人也需要協調不同層次和專業領域的團隊成員,以確保項目的成功。無論是商業項目還是研究項目,都需要各方面的知識和專業技能的有機結合來解決複雜的問題和推動項目取得成功。

隨着公司的發展,智譜 AI 的團隊構成也在隨之變化。在早期,智譜 AI 要解決很多研究性問題,因此主要集中在研究團隊。發展中期,團隊增加了工程方面的人才,以優化模型的研發和訓練,需要解決系統和應用相關的問題,並將應用推向市場。現在,智譜 AI 的團隊更加需要商業方面的人才。

“大規模模型的商業化是一個新興領域,需要面對一些獨特的挑戰,尤其是在教育客戶和應對客戶的各種問題時。”張鵬說道。

在張鵬看來,大模型時代的商業化人才需要具備強大的學習能力來快速掌握新技術和概念、需要有一定的技術敏感度、優秀的溝通能力和解決問題的能力,還要有具備市場洞察能力,以便制定有效的推廣策略。

對於當下智譜 AI 的主題是將大型模型產業化並落地應用。這一階段要求更廣泛的技能和角色,技術方面主要包括以下:

數據分析師:整理、分析和處理大量數據,以確保數據的質量和有用性,以供模型的訓練和應用。

提示詞工程師:這是一個新興的角色,專注與大型模型進行高效溝通,以產生客戶所需的數據和迴應。這個角色可能不需要深入研究和訓練模型,但需要懂得如何有效地使用模型。

在特定領域或應用中的專家:能夠爲各種行業和領域提供個性化解決方案。

“這個時代對 IT 行業來說既是幸運,也具有挑戰。因爲技術變化如此之快,你必須保持高效地不斷了解和深入研究新技術。今天掌握的知識在短短一個月內可能就會變得過時。”張鵬說道,“持續學習是一項非常重要的任務。”

結束語

目前,大家對大模型技術的認識參差不齊,這也導致了落地上的一些問題。比如有的客戶對這項技術不太瞭解,不清楚廠商在做什麼,因此會根據他們的理解提出很多問題。而也有客戶則認爲他們非常瞭解這項技術,因此會期望過高,並設定更高的目標。實際上,大家需要在一個相對合理的範圍內達成一致。這也是張鵬最近分享的原因之一。

比爾蓋茨曾說:“無論對誰來說,640K 內存都足夠了”。然而,現在隨處可見大內存的手機。未來,對於任何人來說都很難預測。

在張鵬看來,AIGC 未來發展會很像雲計算的軌跡,成爲基礎設施,而不是互聯網生態下的應用。

“在互聯網應用中,有很多並行存在的應用,每個應用專注於特定場景。但基礎設施領域的情況不同。基礎設施的特點是隨着規模的增加變得更加集中,資源的利用率越高、整體性能更高,產出投入比也更高。因此,基礎設施需要規模效應,大型模型也具備這種特性。”張鵬解釋道。

但在當前的成本和回報條件下,基礎的通用模型仍需要足夠大的數據、足夠低的成本、足夠多的計算能力來進行訓練。因此,未來可能會出現幾家公司將通用模型的智能水平提升到一定程度,其他公司在此基礎上做行業模型和應用的情況。

誰能最終成爲通用模型的“大家長”?這個問題還需要留給時間來回答。

本文節選自《中國卓越技術團隊訪談錄 & 架構師特刊》

內容推薦

大 模型風行一年多,創業新秀們都有哪些故事?實際落地中,軟件產品中的 AIGC 能力又如何?本期《中國卓越技術團隊訪談錄 & 架構師特刊》中,LeptonAI、智譜 AI、Dify.AI 和京東雲言犀團隊深度分享了他們的創業思路和產品經驗,來自本站、百度、廣推科技等企業的技術專家,也深入探討關於 AIGC 編程、算法及應用等話題。

現在識別圖中二維碼或點擊“閱讀原文”即可下載電子書,查看更多、更詳細的精彩內容!

另外,在今年 9 月份的 QCon 全球軟件開發大會(北京站)中,張鵬曾作題爲《ChatGLM:認知大模型與應用初探》主題演講,完整幻燈片下載:https://qcon.infoq.cn/202309/beijing/presentation/5432

下一站 QCon 也將繼續探索 GenAI 和通用大模型應用探索、AI Agent 與行業融合應用的前景、面向人工智能時代的架構等方向。想要參加這場技術人的年終盛會?現在報名即可享受 7 折優惠,購票立減 ¥2040,詳情可諮詢票務經理 18514549229(微信同手機號)。12 月 28-29 日,上海·中優城市萬豪酒店,期待見面!