☰

OpenAI發佈實時API AI實時語音時代加速到來

本報記者吳清北京報道

OpenAI實時API（應用程序接口）公開測試版發佈，推動AI應用的加速落地。

近日，OpenAI發佈了其實時API公開測試版，爲開發者提供了構建基於GPT-4大型語言模型的高交互性AI應用程序的機會。業內人士認爲，該API允許開發者在應用程序中創建低延遲、多模態的實時交互體驗，是AI應用領域的一次重大革新。

同時，OpenAI宣佈與三家語音API合作伙伴合作，分別爲：LiveKit、Agora和Twilio。三家都是實時音視頻（RTC）領域的全球龍頭企業，其中Twilio、LiveKit都是美國本土企業，之前與OpenAI有較多聯繫，而Agora在中國市場擁有兄弟公司聲網，兩家公司在2023年5月拆分，聲網專注於中國市場，總部位於上海，Agora則面向美國和國際市場。

《中國經營報》記者注意到，隨着各平臺公司紛紛發佈旗下AI大模型產品，大模型領域的競爭也在加劇。10月2日，OpenAI發佈了其實時API公開測試版，10月4日，Meta公佈了名爲Movie Gen的全新AI模型。國內巨頭也紛紛推出並更新了性能直追甚至部分超越GPT-4的產品。

同時，RTC作爲AI語音、音視頻互動等AI落地強應用場景的關鍵技術，得到了更多的關注和應用，吸引了巨頭們的紛紛佈局。除了OpenAI，近日微軟AI CEO Mustafa Suleyman也表示，今年年底，微軟的AI將擁有實時的語音界面，允許完全動態的交互。

人與AI的實時音視頻互動正在變成現實。多爲業內人士接受記者採訪時表示，實時API的發佈標誌着OpenAI在AI應用領域向前跨了一大步，通過降低語音交互延時並增強AI對人類語音及情感的理解，爲開發者創造了構建更具沉浸性和動態性的AI應用程序的機遇。

實時語音互動：多模態大模型交互的終極形態？

日常生活中人與人的溝通就是以語音爲主，視覺其次，視覺的價值主要在於信息的豐富度，但想要提升信息濃度和溝通效率還得靠語音。如今綜合文字、圖像、視頻等的多模態大模型的出現，推動了人與AI交互方式的變革，而語音多模態將是其中的必經之路。

在生成式人工智能領域，大模型多模態交互能力的升級正掀起一股新的AI浪潮，在RTC 能力的加持下，人與AI的交互不再侷限於文字，也可以通過語音通話進行生動、流暢的低延時交互，這也成爲當下國內外大模型廠商新的發力點。

實際上，引領此輪AI革命浪潮的OpenAI深刻地理解這點，並在此領域深耕已久。

今年3月，OpenAI就宣佈了一項革命性的聲音克隆技術——“語音引擎”。該技術作爲其現有文本轉語音API的擴展，僅需15秒的音頻樣本，便能模仿任何說話者的聲音。

記者注意到，GPT-4o算是開創了AI實時語音對話的先河。自GPT-4o發佈以來，支持端到端實時多模態成爲國內外大模型廠商紛紛跟進的新方向，先是AI初創公司Character.AI推出一項通話功能，允許用戶與其人工智能角色語音對話，並支持多種語言。此後巨頭們紛紛跟進。

一般來說，GPT-4o能支持實時語音對話。一方面得益於自身大模型能力的進化，端到端實時多模態模型能夠直接處理語音，這與傳統的三步驟處理方法（語音識別、語音轉文字、文字轉語音）相比，響應更加及時。另一方面，通過應用RTC技術，實現了語音的實時傳輸，進一步降低了語音交互的延時，RTC也成爲人與AI交互的重要一環。

聲網在實踐中發現，傳統的三步驟處理方法在應用RTC後，響應延時可從4—5秒降低到1—2秒，而在具備端到端實時多模態處理能力後，通過RTC技術，大模型實時語音對話的延時可降到幾百毫秒內。

從體驗上看，RTC技術的應用讓對話式大模型的交互更智能，更具真實感。一方面，低延時的快速響應讓人與AI的互動更接近人與人之間的實時對話更自然。另一方面，語音還能識別說話人的情緒、語調，視頻能識別人的表情與所處的環境，最終輸出更精準、更智能的回答。

“基於RTC的超低延遲方法可實現更爲逼真的對話，並使AI能夠理解人類的情感，從而提供更自然的對話體驗。”一位雲服務廠商的技術負責人對記者表示，可以預見的是，未來基於AI的人機界面從鍵盤、鼠標、觸屏到實時對話的變革，語音將是必須走過的進化過程，實時語音互動或將成爲未來對話式多模態大模型交互的終極形態。

大模型實時語音落地RTC成關鍵推動AI應用場景爆發

不過，多模態大模型實時語音對話想要落地，背後依然面臨着一系列的技術難點。首先，對於大模型廠商而言，具備端到端實時語音處理的能力是關鍵，端到端模型的訓練成本很高，尤其是處理語音與視頻數據，面臨大量計算，而計算過程往往會造成延遲，這對實時交互的需求形成了挑戰，需要邊接收語音邊處理和解析，對於很多大模型廠商而言，這意味着需要研發更高效的模型或者優化現有模型的運行效率。

同時，多模態大模型在接入RTC後如何保障低延時、流暢的語音交互體驗更爲關鍵。除了低延時問題外，大模型實時語音對話中還面臨着噪音、終端適配等一系列問題，需要專業的RTC廠商來優化。

記者注意到GPT-4o的發佈會的一個細節，工程師演示GPT-4o的手機上插着一根網線，這也反映了一個現實，GPT-4o的演示是在固定設備、固定網絡和固定物理環境下進行的，以確保低延時。而在實際應用場景中，用戶的設備通常無法一直插着網線，這就對大模型實時語音對話中的低延時傳輸、網絡優化等提出了考驗。

而在RTC的加持下，隨着多模態大模型能力的進化，AIGC應用場景迎來新一輪爆發，AI智能助手、AI情感陪伴、AI口語老師、AI客服的AI交互體驗進一步升級，學生的學習效率更高，社交陪聊場景的娛樂性與沉浸感也進一步增強。同時，在遊戲社交、AI分身、實時語音翻譯等場景，對話式多模態大模型也大有可爲。

量子位智庫發佈的AI智能助手用戶數據報告顯示，截至今年8月，國內市場的AI智能助手App已超過64款。在AI情感陪伴領域也涌現了Soul、星野、Wow等一系列人氣社交App。

業內人士認爲，人工智能技術的快速發展，推動實時互動行業持續進化，讓實時互動場景變得更豐富、更有趣、更高效，相關市場的應用空間廣闊。

以全球移動應用第一大市場美國爲例，相關應用市場廣闊，應用收入也在持續增長。公開數據顯示，2023年泛娛樂應用收入規模達到74億美元，是第二大市場日本的4.6倍，且同比增長12.6%，市場規模仍在穩定增長。

“美國本土開發者依然把持着泛娛樂頭部市場，中國出海App目前仍以短劇爲主，儘管在頭部App中，中國出海應用較少，但是出海美國的優點在於中長尾App時長佔比較高，且用戶付費能力較強，中小型App也能在美國取得不錯的收入。”國內一家短劇出海App的運營負責人向記者稱。

據Ookla的最新數據，美國的移動網絡平均網速略低於中國，在測試環境下，美國手機移動網絡下載速度113Mbp/s（中國爲135.7Mbp/s）。在這樣的背景下，要實現真實無障礙的AI互動，RTC就成爲一個關鍵，也給相關業內企業帶來了大的發展機遇。

財報顯示，今年第二季度，聲網和Agora分別在中國和海外市場實現了營收增長。聲網和Agora的創始人兼CEO趙斌表示：“我很高興看到聲網和Agora在面對極具挑戰的宏觀環境下，本季度雙雙實現收入同比增長。這一成果得益於我們不斷推動新應用場景落地，另一方面也提升成熟場景方案的質量和價值。我們最近幫助客戶在多個應用場景中推出了對話式AI應用，如AI陪伴、AI助理、AI語言陪練和AI客服，並看到了不錯的用戶和用量增長。我相信，實時互動與對話式AI的結合將成爲我們未來業務發展的關鍵驅動力。”

在這樣的背景下，聲網在近期推出了Linux Server SDK，支持當下大模型編程最主流的兩類語言Python與Go，能夠幫助開發者快速構建AI陪伴、AI助理、AI語言陪練等實時AI應用場景。

不過，聲網在2024年第二季度仍處於虧損狀態，淨虧損仍爲920萬美元，上年同期的淨虧損爲4530萬美元。聲網預計2024年第三季度營收爲3150萬美元到3350萬美元。

可以預見的是，AI、5G、雲計算等成爲新時代的基礎設施，將會給企業變革與發展帶來更多新機會。未來，科技巨頭將會在大模型和AI產品上不斷推陳出新，RTC則將帶來人與AI交互的重要變革，也將加速AI應用場景的新一輪爆發。

（編輯：張靖超審覈：李正豪校對：顏京寧）

OpenAI發佈實時API AI實時語音時代加速到來

相關資訊