實測崑崙萬維對話AI「Skyo」,會讀詩、知曉雷軍擺拍

機器之心原創

編輯:杜偉、大盤雞

算起來,距離 5 月 14 日 OpenAI 發佈 GPT-4o 高級語音模式已經過去了半年時間。在這期間,AI 實時語音對話已經成爲了有能力大廠秀肌肉、拼實力的新戰場。

不過,由於語音大模型在訓練、部署、交互等層面相較於語言、圖像大模型更難,因此這個賽道的玩家並不多。可以看到,目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。

如今,這對「冤家」都在忙着擴大用戶生態。OpenAI 向各類付費用戶開放了 GPT-4o 語音功能,並與蘋果合作接入到了 Siri 中。谷歌先是允許所有安卓用戶訪問 Gemini Live 語音功能,並於近日支持 iOS 用戶與該語音助手交流。

與此同時,國內一些廠商陸續推出了類似的實時語音對話大模型及應用,比如智譜、科大訊飛等,填補了一些空白。如今,這個賽道又迎來了一個有實力的新玩家 —— 它就是崑崙萬維開發的 Skyo 實時語音對話助手。

視頻鏈接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

聲音聽起來還不錯吧!Skyo 內置了非常清亮、爽朗的男聲。

Skyo 基於背後的天工大模型 4.0 4o 版(Skywork 4o)打造。從名稱上看,Skyo 中的「o」同樣代表了 omni 的意思,並落在語音對話場景,直接對標了 GPT-4o。從定位和功能上看,作爲一個智能語音互動產品,Skyo 具備了快速響應、實時打斷、情感化反應、真實內容互動和個性化聲音定製等多樣化的功能。

可以說,用戶想要在 AI 語音對話中體驗的場景和功能,Skyo 基本上都能 hold,還針對當前 AI 語音助手存在的一些痛點進行了優化。

實時對話 AI

一要準、二要快

與傳統語音助手的主要區別在於,基於大模型開發的 AI 實時語音對話助手能夠應對更復雜的語境、執行更個性化的任務,並開始從「工具」的屬性過渡到「人類伴侶」。

自 GPT-4o 之後,語音交互場景的 AI 具備了前所未有的感知能力,在更智能化、更多面手之外,不僅響應延遲明顯降低了,還能準確讀懂用戶的情感語調,如興奮、高興或悲傷,並以逼真的方式模仿和迴應。

不過,隨着更多用戶體驗到 GPT-4o 語音功能,它的一些缺點陸續顯露了出來,比如不擅長識別自然停頓、無法準確響應要求的話題等。

同樣地,此後出現的一系列對標 GPT-4o 的產品,如谷歌 Gemini Live、法國開源 AI 研究實驗室 Kyutai 的 Moshi 等,雖然都宣稱要打造自然流暢的 AI 對話,但從用戶反饋來看,依然存在着一些直接影響對話體驗的短板,比如可用性差、中斷頻繁和延遲嚴重等。

當然,面對 AI 實時語音對話助手的常見通病,Skyo 也需要盡力去克服。究竟效果怎麼樣呢?我們還是得看它的現場表現。

一手實測

會念詩、還拿捏住了擬人化

在與 Skyo 來了場面對面的交談後,我們收穫了一些小驚喜。

首先,我們來諮詢 Skyo 一些健康常識問題,他回答的比較合理、全面,也有側重性。當中,我們在他沒有回答完上個問題的時候,就開始了下個問題,他銜接得挺好。這說明了 Skyo 能夠輕鬆應對用戶打斷場景,並在兩個問題之間順滑地切換。

我們還發現,Skyo 的回答中出現了類似於人類日常交談中常用到的「呃」,這代表了他是在思考後纔回答的。語氣也不像機器人那樣機械、僵硬、冷冰冰,會出現「哎呀」等感嘆詞,擬人化屬性很強。

視頻鏈接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

其次,情感化反應已經成爲現階段語音交互 AI 追求的主要目標之一,在對話中要有能力識別出用戶的情緒波動並給予準確的反饋。

Skyo 在這方面做得也不錯,他能夠理解用戶情緒,並使對話更具人性化。當我們跟他說一些煩心事時,他會安慰我們,情緒價值給得很足,還給出了一些建議。

視頻鏈接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

我們接着讓 Skyo 講個小笑話,結果「冷翻了全場」。

既然他不擅長講笑話,那就換個最近網絡上的熱門話題,問他知不知道小米雷軍在汽車工廠擺拍,看起來他對這件趣事挺門清的。

視頻鏈接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

再讓 Skyo 對最近李子柒的迴歸做一個評價,從結果來看,他的語言組織和總結能力還是不錯的。如果放在現實世界中,他寫作文應該是把好手。

這同時也意味着 Skyo 具備了一定的實時資訊獲知和知識拓展能力,藉助外部知識庫來強化自己。

視頻鏈接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

最後,讓 Skyo 切換成英姿颯爽的女聲,並讓她念了一首詩。她第一時間選擇了李白的《靜夜思》,看樣子是有點浪漫基因在身上的。

視頻鏈接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

再以男聲朗誦徐志摩的《再別康橋》,感情充沛,節奏把握得也很好。

視頻鏈接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

這樣一個男女聲自由切換、會安慰人、會念詩、還能知曉天下事的國產 AI 聊天搭子,如何煉成的呢?

以上 Skyo 各項能力的實現要歸功於其採用了先進的端到端實時語音建模技術,其中框架鏈路自研並保持業界領先。這樣一來,在高精度理解用戶語音輸入內容(即聽得準)的基礎上,做出比較快速的響應(即答得快),響應時間一般在 1 秒左右。

另外,得益於崑崙萬維在自研語音技術框架、大模型訓練以及數據積累上的厚積薄發,Skyo 還能夠在高強度對話中保持穩定性和流暢性,並在情緒表達、實時交互等方面更加契合用戶需求。

不過,我們也得承認,現階段 Skyo 的功能並不完善,在回覆的過程中偶爾也會出現聲音的扭曲失真,但這都是進化路上所要經歷的。

未來,Skyo 將繼續修煉自己,併發力多語言支持、主動交流、音樂生成等更豐富的功能。我們可以狠狠期待一波了。

當 Scaling Law 放緩

多模態 AI 應用勢在必行

最近,Scaling Law「撞牆」的消息開始在 AI 社區傳播,領域頂級玩家 OpenAI、谷歌和 Anthropic 均被曝出在開發更先進模型時遇到了不小的困難,比如 OpenAI 內部代號「Orion」的新模型沒有達到預期訓練效果。

雖然之後這一觀點遭到了一些人的駁斥,但不可否認的是,隨着互聯網高質量數據逐漸匱乏、主流大模型訓練沒有跳出 Transformer 架構等因素的影響,大模型開發速度的放緩似乎是必然的。

奧特曼:「牆」不存在。

相反,基於大模型的 AI 應用正在走向百花齊放,比如搜索引擎、音樂生成、語音交互、智能體,可以拓展生成式 AI 的落地場景並重塑人機交互範式,帶來多樣化 AI 體驗和生產力提升。因此,在保證基座模型性能「不掉隊」的前提下,形成完整的應用矩陣,對於想要持續站穩腳跟的廠商來說尤爲重要。

在這方面,崑崙萬維可以說佈局較早且合理。一方面,自研天工系列基座大模型已經發展到 4.0 版本,性能處於全球領先水平。另一方面,構建了清晰、多元的 AI 業務矩陣,在天工 AI 平臺集成了 AI 搜索、AI 文檔-音視頻分析、AI 寫作、AI 音樂、AI 圖片生成等主流 AIGC 應用。模型與應用兩手抓,兩手都要硬。

此次,Skyo 實時語音對話助手是崑崙萬維搶佔 AI 語音交互應用市場、佈局多模態的又一舉措。與不久之前上線的天工 AI 高級搜索功能一樣,也將成爲構築全棧式大模型能力堆棧的重要一環。

我們瞭解到,Skyo 實時語音對話助手將於近期上線天工 App,並接入天工搜索以獲取更準確的實時資訊。可以預見,此舉將進一步豐富天工平臺的功能,讓用戶打開手機就能體驗到 AI 原生實時對話的樂趣。

回望年初,崑崙萬維提出了「實現通用人工智能,讓每個人更好地塑造和表達自我」的全新使命。爲此,該公司以天工 AI 平臺爲主陣地,對其上的 AI 應用不斷進行功能上的迭代更新,深拓大模型能力釋放出口,將新世代的人機交互貫穿文本、圖像、語音等更全模態。

未來,崑崙萬維還將繼續發力實時圖像與視頻理解等領域,並形成開箱即用的 AI 應用,從而在創新技術進步、全面滿足用戶 AIGC 需求的過程中加快邁向 AGI 的步伐。