谷歌“Her”搶跑落地 OpenAI語音AI仍在“hold on”

21世紀經濟報道記者孔海麗、實習生劉清怡 北京報道

北京時間8月14日凌晨,谷歌在“Made by Google”大會上正式發佈了智能語音助手Gemini Live。這一功能直接挑戰OpenAI的GPT-4o語音模式,並標誌着人工智能交互向更加自然、通用和用戶友好的方向又邁進了一步。

根據谷歌的介紹,用戶可以與Gemini Live進行自由流暢的對話,而不是通過傳統的輸入和輸出設置。

在對話過程中,用戶可以打斷以詢問更多細節,或者暫停一段時間後再繼續。

爲了使對話更加自然,谷歌還提供了十種聲音以供用戶選擇。谷歌稱,“這就像你的口袋裡有一個夥伴,你可以和它談論新想法或練習重要的對話。”

Open AI此前發佈的GPT-4o高級語音模式,也允許用戶在對話過程中打斷,並能感知和迴應用戶的情緒波動。在語音設置方面,Open AI提供了四種聲音,均與專業的配音演員合作製作。

此外,谷歌還將Gemini Live與其他應用程序和工具連接。谷歌表示,將在未來幾周推出Keep、Tasks、Utilities、Calendar、YouTube Music等擴展功能。

谷歌描述了這些功能的具體應用場景。比如用戶需要舉辦一場晚宴,可以讓Gemini Live找到特定的食譜,並把食材添加到Keep購物清單中,還能定製一份“讓人想起90年代末”的歌單;再比如只需要拍一張音樂會海報的照片,Gemini Live就可以回答用戶當天是否有空,並提醒用戶買票。

不過,在“Made by Google”大會現場演示Gemini Live功能時,卻出現了一點小插曲。谷歌高管Dave Citron詢問Gemini Live他的日程表上有沒有活動,接連嘗試了兩次Gemini Live都沒有響應,直到第三次換了一個設備才演示成功。

目前,谷歌已向Android手機上的Gemini高級訂閱用戶提供英語版,並將在接下來的幾周內擴展到iOS上,同時提供更多語言模式。谷歌發佈的最新款Pixel 9系列手機也搭載了Gemini Live功能。

業內人士認爲,Gemini Live的發佈是人工智能交互發展的一個重要里程碑。通過引入語音中斷和選擇功能,谷歌既是在與OpenAI競爭,也是在推動人機交互的方式,從而改變人工智能聊天機器人市場的競爭格局,倒逼其他公司創造出更多自然、實用、吸引人的人工智能助手。

同時,人機交互的創新發展也帶來了新的問題和挑戰。例如,人工智能將如何快速處理話題變化,同時保持上下文的統一和相關性?如何在不丟失重要線索的情況下處理干擾信息?更重要的是,隨着人工智能的深入發展,其與現實生活的邊界在哪裡?

而OpenAI早在3個月前就已經公開介紹過的GPT-4o,至今尚未完全落地。8月9日,OpenAI發佈了一篇關於安全性的博客文章,詳細介紹了公司在開發GPT-4o時所做的安全努力,並探討了這些技術可能對社會帶來的風險。

OpenAI在該報告中指出了人工智能的類人社交模式可能造成的風險。OpenAI認爲,用戶可能會與人工智能建立社交關係,而減少對人類互動的需求。這有利於孤獨的個體,但會影響健康的人際關係。

OpenAI透露,在GPT-4o的早期測試時,他們觀察到用戶與模型的互動語言開始出現微妙的變化,例如,“這是我們在一起的最後一天”等等,這種看似無害的表達,背後可能隱藏着更大的問題。

此外,OpenAI還提到,GPT-4o有時會無意間生成模仿用戶聲音的輸出,這意味着,AI語音引擎可能會被用來欺詐。

而這些安全問題,也是OpenAI把控GPT-4o落地節奏的原因之一。至於谷歌Gemini Live是否解決了類似的安全隱患,並未披露。

所有與安全相關的隱患,無論是我們能夠意識到的,還是“潘多拉魔盒”附帶的更多可能性,都是人工智能事業需要進一步解決的問題,以保證“技術的進步是爲了服務於人類”。