前百度研究院副院長新項目:給手機、PC做可用的大模型基礎設施,前微軟高管加入 | 智涌獨家

文|鄧詠儀

編輯|蘇建勳

36氪獨家獲悉,前百度研究院副院長李平的新創業公司VecML,近期已經完成了產品的探索和初步研發。值得注意的是,VecML近期還邀請到了前雅虎和Ebay首席科學家、前Walmart副總裁,和前微軟技術高管Jan Pedersen博士,出任VecML首席戰略官(CSO)。

VecML創始人李平博士,於2007年博士畢業於斯坦福大學,獲得統計學博士學位,計算機科學碩士學位和電子工程碩士學位。博士畢業後,李平曾在康奈爾大學和羅格斯大學任教,並於2013年成爲計算機系和統計系終身教授,並在www.csrankings.org 的全球計算機大學和學者排名中名列前茅。

△李平

李平是完整經歷了上一個AI 1.0時代,且在國內大廠完整經歷了從0到1搭建AI團隊的頂級技術專家。

創業前,李平任微軟(LinkedIn)公司的傑出科學家。加入微軟之前,李平曾經是百度首席架構師(T11)和百度研究院副院長,並且直接管理百度認知計算實驗室(Cognitive Computing Lab,CCL),落地成果包括超大規模深度學習GPU平臺、多模態向量檢索和生成、強化學習、知識圖譜等生成式AI的核心技術。

自ChatGPT推出後不到兩年,如今生成式AI浪潮的關注焦點,已經迅速從基座大模型快進到AI應用落地。

儘管生成式AI浪潮的發展速度,已經比歷史上任何一個互聯網浪潮都更快,但在今年,AI界的共識並不十分牢固——對於“超級應用”的質疑、對OpenAI下一代大模型的疑問和不安,某種程度上,都是AI界和公衆熱切期待的映射。

同時,這也體現出:生成式AI技術的落地,仍在相當早期的階段。

在2024年選擇成立VecML,就是李平對於AI應用落地難題的衝刺嘗試。VecML希望能夠做下一代端側AI的基礎架構和邊緣計算平臺,讓端側的設備,也能完成更高難度的大模型計算。

端側,即手機、PC、家電等各類終端設備。如今市面上的AI大模型,即使是在手機上展示輸出結果,但絕大多數的計算都通過雲端進行。

有分析數據顯示,目前端側AI只佔整個AI市場5%的份額。原因在於,大模型的體量太大,而PC或手機的芯片,其計算和內存能力又太有限。

這是AI應用落地當下的最大桎梏。

對比普遍在數千億至萬億參數的大模型,現在的手機端最多也只能運行量化後的70億(7B)參數內的大模型,也就是說,純靠端側的算力,只能承載最簡單的應用,如基礎的文字對話、生圖等等。

如果想讓AI應用真正走進大衆的生活,現有的端側“基礎設施”——從端側的電池、芯片等硬件,到軟件側的響應速度等等,達到AI應用能夠爆發的階段,還有很遠距離。

從年初成立新公司至今,VecML已經推出了一套端側AI基礎架構和邊緣計算平臺。

這可以看作是一個部署、開發端側AI模型的“工具箱”,企業客戶通過這個平臺,能夠完成端側AI的部署和運行。

△VecML平臺的主要組成部分:端側大語言模型和優化平臺;基於神經網絡相似度的向量數據庫和知識庫;RAG服務平臺;安全和隱私保護平臺;機器學習平臺,包括聯邦學習和分佈式計算;

李平對36氪表示,VecML團隊均來自微軟,百度,亞馬遜等IT巨頭或者頂尖大語言模型團隊,在AI模型安全、隱私計算、大規模分佈式計算、聯邦學習、模型壓縮和數據壓縮等領域都有核心原創技術貢獻。這是做好端側AI的必要條件。

在當前專攻的在端側AI領域,團隊也有多年的專業積累。比如,在2017年的NeurIPS上,李平的一項工作即證明了量化壓縮的最優平衡點是3-5比特。而現在流行的端側大模型,即是4比特和3比特模型。

而比起大模型的參數、訓練工程之巨大,端側的核心開發難點,可以說是要怎麼在極小的模型和極小的內存空間上精細雕刻。

“比如,手機上的模型只有雲端模型百分之一的參數、和千分之一的上下文長度(即每次和模型交互,單次輸入的文本長度)。如果要做好RAG功能,在雲端大模型上,如果不計成本,只要直接扔文件進去就好,但在手機上大模型需要在文件中,精準找到直接相關的文件部分,加起來不能超過數百token,再放進提示詞中。”李平對36氪解釋。

△基於VecML開發的,可以運行在Android手機上的APP,不需聯網

當前,基於VecML開發的手機端大模型應用,已上線了包括本地視頻/圖像搜索、智能本地文件搜索等等功能,調用速度也顯著快於基於雲端的大模型。

如果AI可以全部或部分在端側完成,這意味着什麼?

首先,企業在雲計算上的開銷就基本沒有了,對企業成本和社會成本的節省將有巨大意義。

另外,因爲用戶數據的存儲和計算都在本地,AI大模型涉及的隱私問題會得以有效解決——就在前不久,蘋果AI的隱私隱患就被馬斯克猛烈抨擊。而在8月,荷蘭數據保護局(DPA)在其官網宣佈對優步(Uber),因爲其把歐洲用戶隱私數據傳回美國,處以2.9億歐元的罰款。

這也會很有效地提升算力利用效率。分佈式計算天然和端側AI緊密相關。數量巨大的端側設備可以聯合起來一起訓練或者推理,真正把端側算力充分利用起來。有效的分佈式計算需要解決非常多的技術難題,包括隱私保護,數據壓縮,高效數據傳輸,高效優化算法等。

VecML所在的AI Infra賽道,是鏈接算力和應用的中間層基礎設施。在基座模型仍在快速迭代時,其“承上啓下”的地位更加重要——如何充分挖掘現有模型的潛力,決定着AI應用能夠走多遠、多深。對模型前沿技術的突破,就至關重要。

談及VecML的優勢,李平表示,當前公司已積累的多項原創技術,可讓端側AI的計算效率大大提升。

比如,手機上存儲的數據很多都爲非結構化數據,需要通過建立向量關係,來讓AI可以準確搜索到這些數據。目前,業界在手機上使用的向量數通常不超過20萬,但通過VecML的原創方案,可以在降低內存10倍的前提下,也不影響AI搜索速度,這意味着手機上可以建立上千萬向量的數據庫。

另外,在隱私保護層面,兩種主流技術路線包括多方計算和差分隱私,但都有其侷限。其基於加密解密的多方計算速度太慢,遠不能滿足實用需求;而基於差分隱私算法因爲對精度損失太大極少被工業界採用。

當前,VecML的原創隱私保護技術,已經可以在基本上不影響精度的前提下,達到數學上嚴格的隱私保護要求。

近期加入VecML的Jan Pedersen博士,是一位AI界老兵。他在1998年就在搜索先驅公司InfoSeek任總監,和如今的百度CEO李彥宏曾經是同事。Jan Pedersen曾於AltaVista、雅虎和亞馬遜擔任過首席科學家職位,而後加入微軟。2016年,他被任命爲微軟集團的Technical Fellow,當年這是在全球僅有20位的高管。

△Jan Pedersen博士

據Bessemer 2024年的AI Infra報告,生成式AI浪潮來臨後,數據數量,尤其是非結構化數據,到2030年預計將激增至612 ZB,這將逼近現有基礎設施的極限,也在倒逼其進行更新。

因此,從2023年開始,AI Infra的創業熱度大大提升,從AI訓練、框架、觀測、部署、評估等等環節,都有不少公司入局,開發相應的基礎設施平臺產品。

這個賽道接下來或許要迎來一場加速戰。如今,全球手機、PC廠商都把AI作爲發展重點,端側AI是他們不能允許自己錯過的下一代入口。而就在這個9月,蘋果正式發佈第一臺AI手機iPhone 16,也又一次把大衆對端側AI(Edge AI)的關注,推向新高峰。

封面來源|視覺中國