☰

谷歌“Her”搶跑落地 OpenAI語音AI仍在“hold on”

21世紀經濟報道記者孔海麗、實習生劉清怡北京報道

北京時間8月14日凌晨，谷歌在“Made by Google”大會上正式發佈了智能語音助手Gemini Live。這一功能直接挑戰OpenAI的GPT-4o語音模式，並標誌着人工智能交互向更加自然、通用和用戶友好的方向又邁進了一步。

根據谷歌的介紹，用戶可以與Gemini Live進行自由流暢的對話，而不是通過傳統的輸入和輸出設置。

在對話過程中，用戶可以打斷以詢問更多細節，或者暫停一段時間後再繼續。

爲了使對話更加自然，谷歌還提供了十種聲音以供用戶選擇。谷歌稱，“這就像你的口袋裡有一個夥伴，你可以和它談論新想法或練習重要的對話。”

Open AI此前發佈的GPT-4o高級語音模式，也允許用戶在對話過程中打斷，並能感知和迴應用戶的情緒波動。在語音設置方面，Open AI提供了四種聲音，均與專業的配音演員合作製作。

此外，谷歌還將Gemini Live與其他應用程序和工具連接。谷歌表示，將在未來幾周推出Keep、Tasks、Utilities、Calendar、YouTube Music等擴展功能。

谷歌描述了這些功能的具體應用場景。比如用戶需要舉辦一場晚宴，可以讓Gemini Live找到特定的食譜，並把食材添加到Keep購物清單中，還能定製一份“讓人想起90年代末”的歌單；再比如只需要拍一張音樂會海報的照片，Gemini Live就可以回答用戶當天是否有空，並提醒用戶買票。

不過，在“Made by Google”大會現場演示Gemini Live功能時，卻出現了一點小插曲。谷歌高管Dave Citron詢問Gemini Live他的日程表上有沒有活動，接連嘗試了兩次Gemini Live都沒有響應，直到第三次換了一個設備才演示成功。

目前，谷歌已向Android手機上的Gemini高級訂閱用戶提供英語版，並將在接下來的幾周內擴展到iOS上，同時提供更多語言模式。谷歌發佈的最新款Pixel 9系列手機也搭載了Gemini Live功能。

業內人士認爲，Gemini Live的發佈是人工智能交互發展的一個重要里程碑。通過引入語音中斷和選擇功能，谷歌既是在與OpenAI競爭，也是在推動人機交互的方式，從而改變人工智能聊天機器人市場的競爭格局，倒逼其他公司創造出更多自然、實用、吸引人的人工智能助手。

同時，人機交互的創新發展也帶來了新的問題和挑戰。例如，人工智能將如何快速處理話題變化，同時保持上下文的統一和相關性？如何在不丟失重要線索的情況下處理干擾信息？更重要的是，隨着人工智能的深入發展，其與現實生活的邊界在哪裡？

而OpenAI早在3個月前就已經公開介紹過的GPT-4o，至今尚未完全落地。8月9日，OpenAI發佈了一篇關於安全性的博客文章，詳細介紹了公司在開發GPT-4o時所做的安全努力，並探討了這些技術可能對社會帶來的風險。

OpenAI在該報告中指出了人工智能的類人社交模式可能造成的風險。OpenAI認爲，用戶可能會與人工智能建立社交關係，而減少對人類互動的需求。這有利於孤獨的個體，但會影響健康的人際關係。

OpenAI透露，在GPT-4o的早期測試時，他們觀察到用戶與模型的互動語言開始出現微妙的變化，例如，“這是我們在一起的最後一天”等等，這種看似無害的表達，背後可能隱藏着更大的問題。

此外，OpenAI還提到，GPT-4o有時會無意間生成模仿用戶聲音的輸出，這意味着，AI語音引擎可能會被用來欺詐。

而這些安全問題，也是OpenAI把控GPT-4o落地節奏的原因之一。至於谷歌Gemini Live是否解決了類似的安全隱患，並未披露。

所有與安全相關的隱患，無論是我們能夠意識到的，還是“潘多拉魔盒”附帶的更多可能性，都是人工智能事業需要進一步解決的問題，以保證“技術的進步是爲了服務於人類”。

相關資訊