聲網趙斌:生成式AI驅動IT行業四大變革 AI+RTE成下個十年重要主題
本報記者 吳清 北京報道
“生成式AI正在驅動IT行業發生大變革,這一趨勢主要體現在四個層面:終端、軟件、雲和人機界面。”10月25日,在聲網和RTE(實時互動)開發者社區聯合主辦的RTE2024第十屆實時互聯網大會上,聲網創始人、CEO趙斌對《中國經營報》記者如是表示。
據悉,本屆大會有覆蓋AI、出海、社交泛娛樂、IoT、Voice AI、空間計算等20+行業及技術分論壇。值得一提的是,今年是聲網成立十週年,也是RTE大會的第十屆。
十年間,實時互動從“理念”發展成一個“行業”。實時互動技術不僅助力社交泛娛樂、在線教育、IoT、企業服務等幾十個行業、數百個場景實現了跨越式成長,也支撐了諸多互聯網風口的進化,從過去的電商直播、互聯網醫療、秀場直播到如今的大模型,都離不開RTE能力的參與和賦能。
在生成式AI迅速迭代進化的同時,更多的企業開始關心AI如何更好地實現商業化落地的問題,而目前AI的鉅額投入與實際產出間存在鉅額差距,所導致的6000億美元難題首當其衝。
生成式AI驅動IT行業變革 AI與RTE結合帶來場景創新
2022年年末,ChatGPT橫空出世,生成式AI迅速引爆,2023年被稱爲生成式AI的突破之年,逐漸對各行業產生潛在深遠的影響。
在趙斌看來,生成式AI驅動IT行業發生大變革,主要體現在四個層面:終端、軟件、雲和人機界面。具體來說,在終端上,大模型能力將驅動PC和Phone往AI PC和AI Phone的方向進化。在軟件上,所有的軟件都可以、也將會通過大模型重新實現,並從Software with AI發展至AI Native Software。在雲的層面,所有云都需要具備對大模型訓練和推理的能力,AI Native Cloud將成爲主流。此外,人機界面的主流交互方式也將從鍵盤、鼠標、觸屏變成自然語言對話界面(LUI)。
隨着生成式AI成爲下個時代IT行業進化的主題,RTE也成爲了多模態應用和基礎設施中一個關鍵部分。今年10月初,聲網的兄弟公司Agora作爲語音API合作者,就出現在了OpenAI發佈的Realtime API公開測試版中。
在此次大會中,趙斌表示,聲網與MiniMax正在打磨中國第一Realtime API。趙斌也展示了聲網基於MiniMax Realtime API打造的人工智能體。在演示視頻中,人與智能體輕鬆流暢地進行實時語音對話。當人類打斷智能體並提出新的疑問時,智能體也能夠靈敏地做出反應。
在生成式AI的大潮下,RTE將會提供更爲廣闊的空間。趙斌也在分享中宣佈,聲網正式發佈了RTE+AI能力全景圖。在全景圖中,聲網從實時AI基礎設施、RTE+AI生態能力、聲網AI Agent、實時多模態對話式AI解決方案、RTE+AI應用場景五個維度,呈現了當下RTE與AI相結合的技術能力與應用方案。
業內人士認爲,生成式AI與RTE結合帶來的場景創新,將成爲下一個十年的重要主題。在全新的生成式AI時代,RTE與AI也將迎來更多可能性。
AI是雲的第三次浪潮 分佈式端邊雲結合的AI系統成基礎設施
隨着AI技術的發展,AI時代的大模型應用開發、AI雲以及GPU等基礎設施建設逐漸成爲熱門話題,也成爲了支撐整個行業發展、催生新應用誕生、新商業價值實現的底座。
針對AI應用,Lepton AI創始人兼CEO賈揚清對記者表示,今天是最容易建設AI應用的時代,越是簡潔的AI模型思路越容易產生優秀的效果。AI能力加持後,應用本身的開發範式也在從數據、模型、應用構建三個維度發生變化,未來的應用開發將從“以流程爲中心” 轉化爲“以模型爲中心”。
那在已經到來的AI時代,現代化基礎設施應該是什麼樣?聲網首席科學家、CTO鐘聲提到,大量用戶設備往往會先接入邊緣節點,並在需要的時候再接入雲端,數據將在端設備、邊緣節點和雲之間往返傳遞。AI時代的數據中心會包含以大量異構算力組成的超級計算集羣(SuperScaler)。但是,停留在僅依賴超級計算集羣的系統是遠遠不夠的,萬億參數、多模態引入所造成的高昂計算成本、缺乏機制約束的數據隱私保護、幾秒鐘的延時都將阻礙大模型的普惠,大大地限制其在很多場景下的應用。
鐘聲認爲,分佈式端邊雲結合的AI系統將有效解決這些痛點。這個系統將把計算和傳輸在各節點做合理的配置,系統會智能地以自適應的方式把任務編排到端與邊上執行,有效地降低了成本,同時提供了更低延時(低於1秒級的響應速度)、更高網絡抖動容忍度、優秀的抗噪聲能力,並且完整的用戶數據只會保留在端上。
鐘聲還在大會現場演示了由STT、LLM、TTS、RTC四個模塊組成的端邊結合實時對話AI智能體,這也是全球首次有廠商在比日常實際場景更具挑戰的環境下展示實時AI對話能力。大會現場觀衆規模超過千人,面臨複雜的噪聲、回聲、麥克風延遲等困難,但智能體與鐘聲,仍在普通5G網絡環境下實現了流暢、自然、有趣的雙向實時對話。“隨着端設備的多樣化以及能力的提升,AI基礎設施會變得更優化合理,使得AI無處不在,AI助理、AI分身幫助我們有效緩解時間稀缺性,改善工作效率和生活體驗。”鐘聲對記者表示。
除了AI應用層面,傳統的雲架構也在大模型、GPU優化等需求的催化下發生了翻天覆地的變化。
賈揚清認爲,AI是雲的第三次浪潮,繼Web雲、數據雲之後,AI將成爲第三朵雲。AI雲有以下三個特徵:算力會成爲智能的基礎、AI雲需要大量計算與大規模的異構集羣,以及少量但高質量的通訊。總體而言,雲的產品形態,本質是計算和傳輸的平衡。“在AI雲的形態下,實時的交流和智能的結合在用戶體驗環節非常重要。毫不誇張地說,實時將直接與生產力畫上等號。”賈揚清說。
AI的6000億美元難題 如何從基礎設施到商業化落地
AI的6000億美元難題,一直都是整個行業非常關心的話題。所謂的這個難題,指的是AI基礎設施的鉅額投資和實際的AI生態系統產生的實際收入之間,存在巨大差距需要彌補的難題。隨着生成式AI投入的持續攀升,曾經全球AI面臨的2000億美元難題,如今已經翻兩倍成了6000億美元。
從AI基礎設施到AI商業化落地,中間面臨着衆多的機會與挑戰,而成本和收入難題成爲AI商業化落地的第一個攔路虎。
針對AI及大模型技術會產生鉅額成本的難題,面壁智能聯合創始人&CTO曾國洋向記者表示,隨着技術的提升,算力一定會變得越來越便宜,相同能力的模型規模也會變得越來越小,但算力成本優化會最終轉化爲訓練更強大的模型。
“真正達到AGI水平之前,我們只能感受到模型在變得越來越強,很難感受到成本的變化。”曾國洋表示,由於面壁智能是做端側模型的,所以很關注如何讓模型在端上跑得更快,在實際部署過程中,他們會用各種量化壓縮甚至是稀疏化方法去優化實際部署的開銷。
對此,Agora聯合創始人Tony Wang則向記者表示,想要推動AI Infra(人工智能基礎設施)到模型再到商業化落地,技術驅動和成本是最核心的兩個點。此外,在產品真正走向市場的過程中,流量和口碑也是關鍵。
而針對商用大模型和開源大模型未來的發展趨勢,賈揚清認爲有兩個重點:其一,同等質量模型的Size會變得越來越小,計算效率會越來越高,模型架構也會變得更加開放和標準。其二,除了極少數頭部公司之外,越來越多的企業會採用開源架構來做下一代模型。因此,開源架構的應用會變得越來越普遍,通過開源架構訓練出來的模型也都會有各自不同的風格。
那企業在構建自己的大模型自主性上,到底該如何決策?賈揚清強調,企業應該將開源和閉源大模型都納入考慮範疇。採用開源模型+定製化的優勢不僅僅是具備更強的可定製性,還有更低的成本以及更高的速度,開源+定製化能夠達到比閉源模型更好的效果。
(編輯:張靖超 審覈:李正豪 校對:顏京寧)