OpenAI發佈實時API AI實時語音時代加速到來

本報記者 吳清 北京報道

OpenAI實時API(應用程序接口)公開測試版發佈,推動AI應用的加速落地。

近日,OpenAI發佈了其實時API公開測試版,爲開發者提供了構建基於GPT-4大型語言模型的高交互性AI應用程序的機會。業內人士認爲,該API允許開發者在應用程序中創建低延遲、多模態的實時交互體驗,是AI應用領域的一次重大革新。

同時,OpenAI宣佈與三家語音API合作伙伴合作,分別爲:LiveKit、Agora和Twilio。三家都是實時音視頻(RTC)領域的全球龍頭企業,其中Twilio、LiveKit都是美國本土企業,之前與OpenAI有較多聯繫,而Agora在中國市場擁有兄弟公司聲網,兩家公司在2023年5月拆分,聲網專注於中國市場,總部位於上海,Agora則面向美國和國際市場。

《中國經營報》記者注意到,隨着各平臺公司紛紛發佈旗下AI大模型產品,大模型領域的競爭也在加劇。10月2日,OpenAI發佈了其實時API公開測試版,10月4日,Meta公佈了名爲Movie Gen的全新AI模型。國內巨頭也紛紛推出並更新了性能直追甚至部分超越GPT-4的產品。

同時,RTC作爲AI語音、音視頻互動等AI落地強應用場景的關鍵技術,得到了更多的關注和應用,吸引了巨頭們的紛紛佈局。除了OpenAI,近日微軟AI CEO Mustafa Suleyman也表示,今年年底,微軟的AI將擁有實時的語音界面,允許完全動態的交互。

人與AI的實時音視頻互動正在變成現實。多爲業內人士接受記者採訪時表示,實時API的發佈標誌着OpenAI在AI應用領域向前跨了一大步,通過降低語音交互延時並增強AI對人類語音及情感的理解,爲開發者創造了構建更具沉浸性和動態性的AI應用程序的機遇。

實時語音互動:多模態大模型交互的終極形態?

日常生活中人與人的溝通就是以語音爲主,視覺其次,視覺的價值主要在於信息的豐富度,但想要提升信息濃度和溝通效率還得靠語音。如今綜合文字、圖像、視頻等的多模態大模型的出現,推動了人與AI交互方式的變革,而語音多模態將是其中的必經之路。

在生成式人工智能領域,大模型多模態交互能力的升級正掀起一股新的AI浪潮,在RTC 能力的加持下,人與AI的交互不再侷限於文字,也可以通過語音通話進行生動、流暢的低延時交互,這也成爲當下國內外大模型廠商新的發力點。

實際上,引領此輪AI革命浪潮的OpenAI深刻地理解這點,並在此領域深耕已久。

今年3月,OpenAI就宣佈了一項革命性的聲音克隆技術——“語音引擎”。該技術作爲其現有文本轉語音API的擴展,僅需15秒的音頻樣本,便能模仿任何說話者的聲音。

記者注意到,GPT-4o算是開創了AI實時語音對話的先河。自GPT-4o發佈以來,支持端到端實時多模態成爲國內外大模型廠商紛紛跟進的新方向,先是AI初創公司Character.AI推出一項通話功能,允許用戶與其人工智能角色語音對話,並支持多種語言。此後巨頭們紛紛跟進。

一般來說,GPT-4o能支持實時語音對話。一方面得益於自身大模型能力的進化,端到端實時多模態模型能夠直接處理語音,這與傳統的三步驟處理方法(語音識別、語音轉文字、文字轉語音)相比,響應更加及時。另一方面,通過應用RTC技術,實現了語音的實時傳輸,進一步降低了語音交互的延時,RTC也成爲人與AI交互的重要一環。

聲網在實踐中發現,傳統的三步驟處理方法在應用RTC後,響應延時可從4—5秒降低到1—2秒,而在具備端到端實時多模態處理能力後,通過RTC技術,大模型實時語音對話的延時可降到幾百毫秒內。

從體驗上看,RTC技術的應用讓對話式大模型的交互更智能,更具真實感。一方面,低延時的快速響應讓人與AI的互動更接近人與人之間的實時對話更自然。另一方面,語音還能識別說話人的情緒、語調,視頻能識別人的表情與所處的環境,最終輸出更精準、更智能的回答。

“基於RTC的超低延遲方法可實現更爲逼真的對話,並使AI能夠理解人類的情感,從而提供更自然的對話體驗。”一位雲服務廠商的技術負責人對記者表示,可以預見的是,未來基於AI的人機界面從鍵盤、鼠標、觸屏到實時對話的變革,語音將是必須走過的進化過程,實時語音互動或將成爲未來對話式多模態大模型交互的終極形態。

大模型實時語音落地RTC成關鍵 推動AI應用場景爆發

不過,多模態大模型實時語音對話想要落地,背後依然面臨着一系列的技術難點。首先,對於大模型廠商而言,具備端到端實時語音處理的能力是關鍵,端到端模型的訓練成本很高,尤其是處理語音與視頻數據,面臨大量計算,而計算過程往往會造成延遲,這對實時交互的需求形成了挑戰,需要邊接收語音邊處理和解析,對於很多大模型廠商而言,這意味着需要研發更高效的模型或者優化現有模型的運行效率。

同時,多模態大模型在接入RTC後如何保障低延時、流暢的語音交互體驗更爲關鍵。除了低延時問題外,大模型實時語音對話中還面臨着噪音、終端適配等一系列問題,需要專業的RTC廠商來優化。

記者注意到GPT-4o的發佈會的一個細節,工程師演示GPT-4o的手機上插着一根網線,這也反映了一個現實,GPT-4o的演示是在固定設備、固定網絡和固定物理環境下進行的,以確保低延時。而在實際應用場景中,用戶的設備通常無法一直插着網線,這就對大模型實時語音對話中的低延時傳輸、網絡優化等提出了考驗。

而在RTC的加持下,隨着多模態大模型能力的進化,AIGC應用場景迎來新一輪爆發,AI智能助手、AI情感陪伴、AI口語老師、AI客服的AI交互體驗進一步升級,學生的學習效率更高,社交陪聊場景的娛樂性與沉浸感也進一步增強。同時,在遊戲社交、AI分身、實時語音翻譯等場景,對話式多模態大模型也大有可爲。

量子位智庫發佈的AI智能助手用戶數據報告顯示,截至今年8月,國內市場的AI智能助手App已超過64款。在AI情感陪伴領域也涌現了Soul、星野、Wow等一系列人氣社交App。

業內人士認爲,人工智能技術的快速發展,推動實時互動行業持續進化,讓實時互動場景變得更豐富、更有趣、更高效,相關市場的應用空間廣闊。

以全球移動應用第一大市場美國爲例,相關應用市場廣闊,應用收入也在持續增長。公開數據顯示,2023年泛娛樂應用收入規模達到74億美元,是第二大市場日本的4.6倍,且同比增長12.6%,市場規模仍在穩定增長。

“美國本土開發者依然把持着泛娛樂頭部市場,中國出海App目前仍以短劇爲主,儘管在頭部App中,中國出海應用較少,但是出海美國的優點在於中長尾App時長佔比較高,且用戶付費能力較強,中小型App也能在美國取得不錯的收入。”國內一家短劇出海App的運營負責人向記者稱。

據Ookla的最新數據,美國的移動網絡平均網速略低於中國,在測試環境下,美國手機移動網絡下載速度113Mbp/s(中國爲135.7Mbp/s)。在這樣的背景下,要實現真實無障礙的AI互動,RTC就成爲一個關鍵,也給相關業內企業帶來了大的發展機遇。

財報顯示,今年第二季度,聲網和Agora分別在中國和海外市場實現了營收增長。聲網和Agora的創始人兼CEO趙斌表示:“我很高興看到聲網和Agora在面對極具挑戰的宏觀環境下,本季度雙雙實現收入同比增長。這一成果得益於我們不斷推動新應用場景落地,另一方面也提升成熟場景方案的質量和價值。我們最近幫助客戶在多個應用場景中推出了對話式AI應用,如AI陪伴、AI助理、AI語言陪練和AI客服,並看到了不錯的用戶和用量增長。我相信,實時互動與對話式AI的結合將成爲我們未來業務發展的關鍵驅動力。”

在這樣的背景下,聲網在近期推出了Linux Server SDK,支持當下大模型編程最主流的兩類語言Python與Go,能夠幫助開發者快速構建AI陪伴、AI助理、AI語言陪練等實時AI應用場景。

不過,聲網在2024年第二季度仍處於虧損狀態,淨虧損仍爲920萬美元,上年同期的淨虧損爲4530萬美元。聲網預計2024年第三季度營收爲3150萬美元到3350萬美元。

可以預見的是,AI、5G、雲計算等成爲新時代的基礎設施,將會給企業變革與發展帶來更多新機會。未來,科技巨頭將會在大模型和AI產品上不斷推陳出新,RTC則將帶來人與AI交互的重要變革,也將加速AI應用場景的新一輪爆發。

(編輯:張靖超 審覈:李正豪 校對:顏京寧)