☰

實測崑崙萬維對話AI「Skyo」，會讀詩、知曉雷軍擺拍

機器之心原創

編輯：杜偉、大盤雞

算起來，距離 5 月 14 日 OpenAI 發佈 GPT-4o 高級語音模式已經過去了半年時間。在這期間，AI 實時語音對話已經成爲了有能力大廠秀肌肉、拼實力的新戰場。

不過，由於語音大模型在訓練、部署、交互等層面相較於語言、圖像大模型更難，因此這個賽道的玩家並不多。可以看到，目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。

如今，這對「冤家」都在忙着擴大用戶生態。OpenAI 向各類付費用戶開放了 GPT-4o 語音功能，並與蘋果合作接入到了 Siri 中。谷歌先是允許所有安卓用戶訪問 Gemini Live 語音功能，並於近日支持 iOS 用戶與該語音助手交流。

與此同時，國內一些廠商陸續推出了類似的實時語音對話大模型及應用，比如智譜、科大訊飛等，填補了一些空白。如今，這個賽道又迎來了一個有實力的新玩家 —— 它就是崑崙萬維開發的 Skyo 實時語音對話助手。

視頻鏈接：https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

聲音聽起來還不錯吧！Skyo 內置了非常清亮、爽朗的男聲。

Skyo 基於背後的天工大模型 4.0 4o 版（Skywork 4o）打造。從名稱上看，Skyo 中的「o」同樣代表了 omni 的意思，並落在語音對話場景，直接對標了 GPT-4o。從定位和功能上看，作爲一個智能語音互動產品，Skyo 具備了快速響應、實時打斷、情感化反應、真實內容互動和個性化聲音定製等多樣化的功能。

可以說，用戶想要在 AI 語音對話中體驗的場景和功能，Skyo 基本上都能 hold，還針對當前 AI 語音助手存在的一些痛點進行了優化。

實時對話 AI

一要準、二要快

與傳統語音助手的主要區別在於，基於大模型開發的 AI 實時語音對話助手能夠應對更復雜的語境、執行更個性化的任務，並開始從「工具」的屬性過渡到「人類伴侶」。

自 GPT-4o 之後，語音交互場景的 AI 具備了前所未有的感知能力，在更智能化、更多面手之外，不僅響應延遲明顯降低了，還能準確讀懂用戶的情感語調，如興奮、高興或悲傷，並以逼真的方式模仿和迴應。

不過，隨着更多用戶體驗到 GPT-4o 語音功能，它的一些缺點陸續顯露了出來，比如不擅長識別自然停頓、無法準確響應要求的話題等。

同樣地，此後出現的一系列對標 GPT-4o 的產品，如谷歌 Gemini Live、法國開源 AI 研究實驗室 Kyutai 的 Moshi 等，雖然都宣稱要打造自然流暢的 AI 對話，但從用戶反饋來看，依然存在着一些直接影響對話體驗的短板，比如可用性差、中斷頻繁和延遲嚴重等。

當然，面對 AI 實時語音對話助手的常見通病，Skyo 也需要盡力去克服。究竟效果怎麼樣呢？我們還是得看它的現場表現。

一手實測

會念詩、還拿捏住了擬人化

在與 Skyo 來了場面對面的交談後，我們收穫了一些小驚喜。

首先，我們來諮詢 Skyo 一些健康常識問題，他回答的比較合理、全面，也有側重性。當中，我們在他沒有回答完上個問題的時候，就開始了下個問題，他銜接得挺好。這說明了 Skyo 能夠輕鬆應對用戶打斷場景，並在兩個問題之間順滑地切換。

我們還發現，Skyo 的回答中出現了類似於人類日常交談中常用到的「呃」，這代表了他是在思考後纔回答的。語氣也不像機器人那樣機械、僵硬、冷冰冰，會出現「哎呀」等感嘆詞，擬人化屬性很強。

視頻鏈接：https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

其次，情感化反應已經成爲現階段語音交互 AI 追求的主要目標之一，在對話中要有能力識別出用戶的情緒波動並給予準確的反饋。

Skyo 在這方面做得也不錯，他能夠理解用戶情緒，並使對話更具人性化。當我們跟他說一些煩心事時，他會安慰我們，情緒價值給得很足，還給出了一些建議。

視頻鏈接：https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

我們接着讓 Skyo 講個小笑話，結果「冷翻了全場」。

既然他不擅長講笑話，那就換個最近網絡上的熱門話題，問他知不知道小米雷軍在汽車工廠擺拍，看起來他對這件趣事挺門清的。

視頻鏈接：https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

再讓 Skyo 對最近李子柒的迴歸做一個評價，從結果來看，他的語言組織和總結能力還是不錯的。如果放在現實世界中，他寫作文應該是把好手。

這同時也意味着 Skyo 具備了一定的實時資訊獲知和知識拓展能力，藉助外部知識庫來強化自己。

視頻鏈接：https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

最後，讓 Skyo 切換成英姿颯爽的女聲，並讓她念了一首詩。她第一時間選擇了李白的《靜夜思》，看樣子是有點浪漫基因在身上的。

視頻鏈接：https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

再以男聲朗誦徐志摩的《再別康橋》，感情充沛，節奏把握得也很好。

視頻鏈接：https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

這樣一個男女聲自由切換、會安慰人、會念詩、還能知曉天下事的國產 AI 聊天搭子，如何煉成的呢？

以上 Skyo 各項能力的實現要歸功於其採用了先進的端到端實時語音建模技術，其中框架鏈路自研並保持業界領先。這樣一來，在高精度理解用戶語音輸入內容（即聽得準）的基礎上，做出比較快速的響應（即答得快），響應時間一般在 1 秒左右。

另外，得益於崑崙萬維在自研語音技術框架、大模型訓練以及數據積累上的厚積薄發，Skyo 還能夠在高強度對話中保持穩定性和流暢性，並在情緒表達、實時交互等方面更加契合用戶需求。

不過，我們也得承認，現階段 Skyo 的功能並不完善，在回覆的過程中偶爾也會出現聲音的扭曲失真，但這都是進化路上所要經歷的。

未來，Skyo 將繼續修煉自己，併發力多語言支持、主動交流、音樂生成等更豐富的功能。我們可以狠狠期待一波了。

當 Scaling Law 放緩

多模態 AI 應用勢在必行

最近，Scaling Law「撞牆」的消息開始在 AI 社區傳播，領域頂級玩家 OpenAI、谷歌和 Anthropic 均被曝出在開發更先進模型時遇到了不小的困難，比如 OpenAI 內部代號「Orion」的新模型沒有達到預期訓練效果。

雖然之後這一觀點遭到了一些人的駁斥，但不可否認的是，隨着互聯網高質量數據逐漸匱乏、主流大模型訓練沒有跳出 Transformer 架構等因素的影響，大模型開發速度的放緩似乎是必然的。

奧特曼：「牆」不存在。

相反，基於大模型的 AI 應用正在走向百花齊放，比如搜索引擎、音樂生成、語音交互、智能體，可以拓展生成式 AI 的落地場景並重塑人機交互範式，帶來多樣化 AI 體驗和生產力提升。因此，在保證基座模型性能「不掉隊」的前提下，形成完整的應用矩陣，對於想要持續站穩腳跟的廠商來說尤爲重要。

在這方面，崑崙萬維可以說佈局較早且合理。一方面，自研天工系列基座大模型已經發展到 4.0 版本，性能處於全球領先水平。另一方面，構建了清晰、多元的 AI 業務矩陣，在天工 AI 平臺集成了 AI 搜索、AI 文檔-音視頻分析、AI 寫作、AI 音樂、AI 圖片生成等主流 AIGC 應用。模型與應用兩手抓，兩手都要硬。

此次，Skyo 實時語音對話助手是崑崙萬維搶佔 AI 語音交互應用市場、佈局多模態的又一舉措。與不久之前上線的天工 AI 高級搜索功能一樣，也將成爲構築全棧式大模型能力堆棧的重要一環。

我們瞭解到，Skyo 實時語音對話助手將於近期上線天工 App，並接入天工搜索以獲取更準確的實時資訊。可以預見，此舉將進一步豐富天工平臺的功能，讓用戶打開手機就能體驗到 AI 原生實時對話的樂趣。

回望年初，崑崙萬維提出了「實現通用人工智能，讓每個人更好地塑造和表達自我」的全新使命。爲此，該公司以天工 AI 平臺爲主陣地，對其上的 AI 應用不斷進行功能上的迭代更新，深拓大模型能力釋放出口，將新世代的人機交互貫穿文本、圖像、語音等更全模態。

未來，崑崙萬維還將繼續發力實時圖像與視頻理解等領域，並形成開箱即用的 AI 應用，從而在創新技術進步、全面滿足用戶 AIGC 需求的過程中加快邁向 AGI 的步伐。

實測崑崙萬維對話AI「Skyo」，會讀詩、知曉雷軍擺拍

相關資訊