RTE2024:聚焦Gen AI 時代的 RTE,聲網發佈 RTE+AI 能力全景圖
10月25日,由聲網和 RTE 開發者社區聯合主辦的 RTE2024 第十屆實時互聯網大會在北京正式開幕,本屆大會主題爲“AI 愛”,覆蓋AI、出海、社交泛娛樂、IoT、Voice AI、空間計算等20+行業及技術分論壇。今年是聲網成立的十週年,也是 RTE 大會的第十屆。十年間,實時互動從“理念”發展成一個“行業”。實時互動技術不僅助力社交泛娛樂、在線教育、IoT、企業服務等幾十個行業、數百個場景實現了跨越式成長,也支撐了諸多互聯網風口的進化,從過去的電商直播、互聯網醫療、秀場直播到如今的大模型,都離不開 RTE 能力的參與和賦能。
在全新的生成式 AI 時代,RTE 與 AI 也將迎來更多可能性。25日上午的 RTE2024 主論壇中,聲網創始人兼 CEO 趙斌、Lepton AI 創始人兼 CEO 賈揚清、聲網首席科學家、CTO 鐘聲分別帶來主題演講。趙斌分享了聲網十年以來專注實時互動行業的深刻洞察,以及他對 RTE 在生成式 AI 時代下未來發展的趨勢判斷。賈揚清則站在 AI 基礎設施的視角下,分享了他對 AI 應用、雲、和 GPU 算力雲技術的獨到觀點。鐘聲的主題演講聚焦在對實時 AI 基礎設施的探討上,並分享了 AI 與 RTE 結合的前沿技術實踐。
趙斌:生成式 AI 將驅動 IT 行業四大變革
生成式 AI 正在驅動 IT 行業發生大變革,趙斌認爲,這一趨勢主要體現在四個層面:終端、軟件、雲和人機界面。在終端上,大模型能力將驅動 PC 和 Phone 往 AI PC 和 AI Phone 的方向進化。在軟件上,所有的軟件都可以、也將會通過大模型重新實現,並從 Software with AI 發展至 AI Native Software 。在雲的層面,所有云都需要具備對大模型訓練和推理的能力,AI Native Cloud 將成爲主流。此外,人機界面的主流交互方式也將從鍵盤、鼠標、觸屏變成自然語言對話界面(LUI)。
隨着生成式 AI 成爲下個時代 IT 行業進化的主題,RTE 也成爲了多模態應用和基礎設施中一個關鍵的部分。10月初,聲網的兄弟公司 Agora 作爲語音 API 合作者,出現在了OpenAI 發佈的 Realtime API 公開測試版中。
在此次大會中,趙斌表示,聲網與 MiniMax 正在打磨中國第一個Realtime API。趙斌也展示了聲網基於 MiniMax Realtime API 打造的人工智能體。在演示視頻中,人與智能體輕鬆流暢的進行實時語音對話。當人類打斷智能體並提出新的疑問時,智能體也能夠非常靈敏的快速反應,實現了與人類自然流暢的對話。
在生成式 AI 的大潮下,RTE 將會提供更爲廣闊的空間。趙斌也在分享中宣佈,聲網正式發佈了 RTE+AI 能力全景圖。在全景圖中,聲網從實時 AI 基礎設施、RTE+AI 生態能力、聲網 AI Agent、實時多模態對話式 AI 解決方案、RTE+AI 應用場景五個維度,清晰呈現了當下 RTE 與 AI 相結合的技術能力與應用方案。生成式 AI 與RTE 結合帶來的場景創新,將成爲下一個十年的主題。
過去十年,聲網不僅見證並推動了 RTE 從一個理念變成一個行業的過程,更身體力行的打破了國內實時音視頻領域的三無狀態。趙斌稱,10年前行業內沒有行業會議、專業書籍、以及專業媒體和社區。如今,RTE 大會邁入第10年,聲網也於今年8月正式出版行業首本系統介紹實時互動的技術型科普圖書《讀懂實時互動》,同時,RTE開發者社區也持續繁榮,加速推動。
賈揚清:AI 是雲的第三次浪潮
隨着 AI 技術的發展,AI 時代的大模型應用開發、AI 雲、以及 GPU 等基礎設施建設逐漸成爲熱門話題,也成爲了支撐整個行業發展、催生新應用誕生、新商業價值實現的基本底座。Lepton AI 創始人兼 CEO 賈揚清在 RTE2024 主論壇上分別從 AI 應用、雲、GPU 算力雲技術以及企業大模型自主性等層面帶來了他對 AI 基礎設施進化的解讀。
針對 AI 應用,賈揚清指出,今天是最容易建設 AI 應用的時代,越是簡潔的 AI 模型思路越容易產生優秀的效果。AI 能力加持後,應用本身的開發範式也在從數據、模型、應用構建三個維度發生變化,未來的應用開發將從“以流程爲中心” 轉化爲“以模型爲中心”。
除了 AI 應用層面,傳統的雲架構也在大模型、GPU 優化等需求的催化下發生了翻天覆地的變化。賈揚清認爲,AI 是雲的第三次浪潮,繼 Web 雲、數據雲之後,AI 將成爲第三朵雲。AI 雲有以下三個特徵:算力會成爲智能的基礎、AI 雲需要大量計算與大規模的異構集羣,以及少量但高質量的通訊。總體而言,雲的產品形態,本質是計算和傳輸的平衡。賈揚清指出,在 AI 雲的形態下,實時的交流和智能的結合在用戶體驗環節非常重要。毫不誇張的說,實時將直接與生產力劃上等號。
企業在構建自己的大模型自主性上,到底該如何決策?賈揚清強調,企業應該將開源和閉源大模型都納入考慮範疇。採用開源模型+定製化的優勢不僅僅是具備更強的可定製性,還有更低的成本以及更高的速度,開源+定製化能夠達到比閉源模型更好的效果。
鐘聲:分佈式端邊雲結合的AI系統將成爲現代基礎設施的基本形態
在已經到來的 AI 時代,現代化基礎設施應該是什麼樣?聲網首席科學家、CTO鐘聲提到,大量用戶設備往往會先接入邊緣節點、並在需要的時候再接入雲端,數據將在端設備、邊緣節點和雲之間往返傳遞。AI 時代的數據中心會包含以大量異構算力組成的超級計算集羣(SuperScaler)。但是,停留在僅依賴超級計算集羣的系統是遠遠不夠的,萬億參數、多模態引入所造成的高昂計算成本、缺乏機制約束的數據隱私保護、幾秒鐘的延時都將阻礙大模型的普惠,極大地限制其在很多場景下的應用。
鐘聲認爲,分佈式端邊雲結合的 AI 系統將有效解決這些痛點。這個系統將把計算和傳輸在各節點做合理地配置,系統會智能地以自適應的方式把任務編排到端與邊上執行,非常有效地降低了成本,同時提供了更低延時(低於1秒級的響應速度)、更高網絡抖動容忍度、優秀的抗噪聲能力,並且完整的用戶數據只會保留在端上。
分享過程中,鐘聲還在大會現場演示了一個由STT、LLM、TTS 、RTC四個模塊組成的端邊結合實時對話 AI 智能體,這也是全球首次有廠商在比日常實際場景更具挑戰的環境下展示實時 AI 對話能力。大會現場觀衆規模超過千人,面臨複雜的噪聲、回聲、麥克風延遲等困難,但智能體與鐘聲的互動仍然表現出了優秀的對話能力,在普通5G網絡環境下實現了流暢、自然、有趣的雙向實時對話,對話模型的極低響應速度、打斷與被打斷的自然程度、對抗噪聲能力、遵循語音指令等待等能力都非常突出。
正如鐘聲在最後分享的,隨着端設備的多樣化以及能力的提升,AI 基礎設施會變得更優化合理,使得 AI 無處不在,AI助理、AI分身幫助我們有效緩解時間稀缺性,改善工作效率和生活體驗。
圓桌:AI 的6000億難題,從基礎設施到商業化落地
AI 的6000億美元難題,一直都是整個行業非常關心的話題,在圓桌討論環節中,Lepton AI 創始人兼 CEO 賈揚清、MiniMax 合夥人魏偉、面壁智能聯合創始人&CTO 曾國洋、Hugging Face 工程師王鐵震、Agora 聯合創始人 Tony Wang五位嘉賓一起探討了從 AI 基礎設施到 AI 商業化落地的機會與挑戰。
針對商用大模型和開源大模型未來的發展趨勢,賈揚清分享了兩個核心觀點:其一,同等質量模型的Size會變得越來越小,計算效率會越來越高,模型架構也會變得更加開放和標準。其二,除了極少數頭部公司之外,越來越多的企業會採用開源架構來做下一代模型。因此,開源架構的應用會變的越來越普遍,通過開源架構訓練出來的模型也都會有各自不同的風格。
王鐵震則表示,我們將在未來看到越來越多 Infra 和 Realtime 的工作,大家不僅需要關注開源模型本身,還需要重視開源模型的基礎設施和數據閉環,才能把開源模型跑得更好、更快。Realtime 需要TTS、也需要大模型,如果能夠通過一些方式放在一起,放在邊緣側、離用戶更近的地方,才能產生非常好的效果。
關於如何看待音視頻多模態模型的實際應用潛力,魏偉表示,隨着多模態的出現,生成式人工智能的邊界一定會被繼續拓展,並加速這一產業的變革。從產品和用戶服務過程中魏偉發現,文本、語音、音樂、視頻這些模型可以很好的幫助藝術、影視、音樂等領域的創作者極大地提高效率,併爲他們提供新的思路和方法。
針對大模型技術巨大的成本使用問題,曾國洋分享到,隨着技術的前進,算力一定會變得越來越便宜,相同能力的模型規模也會變得越來越小,但算力成本優化會最終轉化爲訓練更強大的模型。真正達到 AGI 水平之前,我們只能感受到模型在變得越來越強,很難感受到成本的變化。他還提到,由於面壁智能是做端側模型的,所以很關注如何讓模型在端上跑得更快,在實際部署過程中,他們會用各種量化壓縮甚至是稀疏化方法去優化實際部署的開銷。
總結來說,Tony Wang 認爲想要推動 AI Infra 到模型、再到商業化落地,技術驅動和成本是最核心的兩個點。此外,在產品真正走向市場的過程中,流量和口碑也是關鍵。