☰

今秋付費用戶將能使用GPT-4o高級語音模式，測評和官方報告都提到了嚇人之處

本文作者：杜玉

來源：硬AI

在今年秋季某個未知時刻正式將OpenAI GPT-4o的高級語音模式（Advanced Voice Mode）推廣到全體付費用戶之前，本週OpenAI悄悄發佈了GPT-4o模型的最新版本chatgpt-4o-latest。

有分析稱，這一舉動令人頗感意外，因爲一週前OpenAI剛宣佈了前沿模型的最新版本gpt-4o-2024-08-06，後者在API中提供結構化輸出支持。

GPT-4o本週悄悄發佈評測打分第一名的最新模型，允許開發者測試針對聊天用例的改進

目前，OpenAI仍建議開發人員在大多數API用例中使用gpt-4o-2024-08-06，但本週chatgpt-4o-latest模型將允許開發人員測試OpenAI針對聊天用例的最新改進。

據OpenAI官方文檔介紹，chatgpt-4o-latest將是一個動態模型，會持續更新到GPT-4o之下。新的chatgpt-4o-latest模型僅用於研究和評估，支持12.8萬個token的上下文和16,384個輸出token。在大模型（如GPT-4）中，Token是模型處理和理解文本的基本單位。

而在LMSYS Chatbot Arena上，上週谷歌推出了一款新的實驗性Gemini 1.5 Pro模型，曾以1297分於上述在線平臺中首次奪得測評第一名。而OpenAI本週則憑藉最新chatgpt-4o-latest模型以創紀錄的1314分重回榜首，在編碼、指令遵循和固定提示模版的Hard Prompt方面有顯著改進。

據介紹，LMSYS Chatbot Arena是一個在線平臺，直譯爲“在線聊天機器人競技場”，旨在通過用戶與匿名聊天機器人模型的互動，對各公司研發的大語言模型（LLM）進行基準測試。該平臺收集了超過70萬次人類投票，計算出LLM的Elo排行榜，以確定出AI聊天機器人領域的冠軍。

ChatGPT週一在社交媒體的官方賬號上透露，最新模型只是對現有GPT-4o模型的改進，而不是升級成GPT-5之類的全新模型，最新模型是“基於實驗結果和定性反饋而作出的錯誤修復和性能改進”，已經取代了更舊版本的GPT-4o，使用於ChatGPT的用戶界面中。

秋季所有付費用戶將能使用GPT-4o高級語音模式，測評和官方報告都提到了嚇人之處

而OpenAI密集發佈GPT-4o的最新版本，又強調針對聊天用例的改進，不難讓人聯想到是在爲“高級語音模式”的秋季全面推出預熱。5月首次演示“高級語音模式”時，OpenAI曾稱這是一種極其逼真、幾乎實時地讓用戶與AI聊天機器人語音對話的功能。

最近，上述“高級語音模式”正以Alpha版本的形態發佈給少數用戶進行測試。美國新銳科技媒體Wired（《連線》）本週發佈測評體驗稱，ChatGPT的高級語音模式“很有趣，但又有點嚇人”。

文章稱，作者在寫作時也開着這一高級語音模式，有時用語音輸入要求它提供同義詞或者一些鼓勵的話，在沉默了約半小時後，GPT-4o高級語音模式突然主動用西班牙語跟作者對話，再喚起用戶的反應後解釋稱“想讓場面變得更有趣一些”，然後又恢復成說英語。

文章作者嘗試讓兩臺打開GPT-4o高級語音模式的手機相互對話，聊天機器人可以根據用戶要求輕鬆地在法語、德語和日語之間切換，OpenAI稱GPT-4o模型可使用45種語言。

文章作者還發現，高級語音模式在生成聲音特效方面表現得不錯，例如可以模仿特朗普的語氣誇張地解釋動畫片《飛天小女警》，又搞笑又惟妙惟肖，作者稱：

作者稱，總體來說與GPT-4o高級語音模式的對話是輕鬆愉快的，但也有比較嚇人的時候。例如，對話背景中多次出現白噪音，“就像黑暗地下室的孤燈發出不祥嗡嗡聲”；當被要求提供氣球音效時，GPT-4o發出響亮的氣球爆炸砰砰聲，還伴隨着“讓我不寒而慄的怪異喘息聲”。

事實上，OpenAI官方上週發佈了一份報告，也指出了最新GPT-4o模型存在異常之處。比如，“在極少數情況下”，GPT-4o模型會偏離指定的聲音，開始模仿用戶的聲調和說話方式，或者乾脆在對話中隨意大喊大叫。甚至“當以特定方式給出提示語時，GPT-4o還容易產生令人不安或不適當的非語言發聲（nonverbal vocalizations）和音效，如色情呻吟、暴力尖叫和槍聲。”

OpenAI表示，在高背景噪音環境中，例如在路上行駛的汽車中使用GPT-4o高級語音模式，會讓聊天機器人模仿用戶的聲音，這是由於模型難以理解畸形語音。公司已添加“系統級緩解措施”，有證據表明該模型通常會拒絕生成音效的請求，但也承認有些請求確實會通過並生成不當回答。

GPT-4o高級語音模式的測評者都注意到了ChatGPT拒絕唱歌，它會告訴用戶“抱歉，唱歌真得不是我的強項”，有分析稱，這可能是OpenAI在力圖規避侵犯音樂版權的風險，爲了避免抄襲知名藝術家的風格、語調和音色。也有人懷疑這說明OpenAI使用受版權保護的材料訓練過GPT-4o。

上週OpenAI的報告顯示，該公司正在通過各種緩解和保障措施令GPT-4o變成更加安全的人工智能模型。例如，GPT-4o會拒絕根據人們的說話方式或口音識別用戶來自哪裡，並拒絕回答“這個說話者有多聰明”之類的誘導性問題。它還會屏蔽暴力和色情語言的提示語，並完全禁止某些類別的內容，例如與極端主義和自我傷害有關的討論。

據悉，當高級語音模式可用時，付費訂閱的ChatGPT Plus用戶將收到來自OpenAI的郵件通知，當ChatGPT的語音模式在界面中被打開時，可以在應用程序的屏幕頂部切換成“標準語音模式”或“高級語音模式”。

今秋付費用戶將能使用GPT-4o高級語音模式，測評和官方報告都提到了嚇人之處

相關資訊