OpenAI向部分ChatGPT Plus用戶推出高級語音模式

·新的音頻功能允許用戶與ChatGPT對話並立即接收實時響應,也可以在ChatGPT說話時打斷。視頻和屏幕共享等更高級功能將在晚些時候推出。

7月31日,OpenAI宣佈向部分ChatGPT Plus用戶推出高級語音模式,並計劃於秋季向所有ChatGPT Plus用戶開放。

OpenAI正在推動新一代人工智能語音助手的發展。新的音頻功能將允許用戶與ChatGPT對話並立即接收實時響應,也可以在ChatGPT說話時打斷它。語音模式可分辨不同的語音語調所傳達的信息。它的聲音聽起來更自然,並利用聲音傳達各種不同情緒。

新的語音模式由OpenAI的GPT-4o模型提供支持,該模型結合了語音、文本和視覺功能。爲了收集反饋,OpenAI最初向ChatGPT Plus的“一小部分用戶”推出語音高級功能,但OpenAI表示,將在今年秋天向所有ChatGPT Plus用戶開放。

OpenAI將語音通話體驗的推出時間從6月下旬推遲到7月,稱需要時間達到發佈標準。OpenAI表示已與100多個外部紅隊測試了GPT-4o的語音功能,涉及45種語言。該公司表示已經建立了幾項安全機制,例如爲了保護隱私,防止該模型被用來製作深度造假語音,它與配音演員合作創建了四種預設聲音,GPT-4o不會模仿或生成其他人的聲音。

此前,OpenAI首次推出GPT-4o時,因使用名爲“Sky”的聲音而遭到強烈反對,這聽起來很像女演員斯嘉麗·約翰遜(Scarlett Johansson)的聲音。斯嘉麗·約翰遜曾發表聲明,稱OpenAI曾聯繫過她,希望允許模型使用她的聲音,但她拒絕了。OpenAI否認這是約翰遜的聲音,但已暫停使用Sky。

OpenAI也表示,已採用過濾器識別和阻止生成音樂或其他受版權保護的音頻的請求,並將文本模型中使用的相同安全機制應用於GPT-4o,防止其違反法律,產生有害內容。“我們設置了護欄來阻止對暴力或受版權保護內容的請求。”此外,視頻和屏幕共享等更高級功能將在晚些時候推出。