OpenAI 開發者日,AI 應用新成果驚豔亮相

OpenAI 這一週可謂動盪不安,充斥着高管離職和重大融資進展的情況,但這家初創公司又重新行動起來,試圖在其 2024 年開發者日說服開發者使用其人工智能模型構建工具。該公司週二宣佈了幾款新工具,包括其“實時 API”的公開測試版,用於構建具有低延遲、人工智能生成語音響應的應用程序。這還不完全是 ChatGPT 的高級語音模式,但已經很接近了。

在活動前給記者的簡報中,OpenAI 首席產品官凱文·韋爾(Kevin Weil)表示,首席技術官米拉·穆拉蒂(Mira Murati)和首席研究官鮑勃·麥格魯(Bob McGrew)近期的離職不會對公司的發展造成影響。

“首先我要說,鮑勃和米拉一直是出色的領導者。我從他們身上學到了很多,他們是我們走到今天的重要組成部分,”韋爾說。“而且,我們不會放慢腳步。”

隨着 OpenAI 再次對高層管理團隊進行調整——這讓人回想起去年開發日之後的動盪局面——該公司正試圖讓開發者相信,它仍然提供了構建人工智能應用的最佳平臺。領導們稱,這家初創公司有超過 300 萬的開發者利用其人工智能模型進行開發,但 OpenAI 正處於競爭日益激烈的環境中。

OpenAI 指出,在過去的兩年裡,它已把開發者訪問其 API 的成本降低了 99%,不過這很可能是被 Meta 和谷歌等競爭對手不斷壓低價格所迫。

OpenAI 的一項新功能,名爲實時 API,將爲開發者提供在其應用程序中構建近乎實時的語音到語音體驗的機會,可以選擇使用 OpenAI 所提供的六種聲音。這些聲音與爲 ChatGPT 提供的聲音不同,並且爲了防止版權問題,開發者不能使用第三方聲音。(基於斯嘉麗·約翰遜的那種聲音模糊不清,在任何地方都無法使用。)

在進行簡報時,OpenAI 的開發者體驗主管羅曼·休特分享了一個運用實時 API 構建的旅行規劃應用程序的演示實例。該應用程序允許用戶與人工智能助手口頭談論即將前往倫敦的旅行,並獲得低延遲響應。實時 API 還可以訪問許多工具,因此該應用程序能夠在回答的同時在地圖上標註餐廳位置。

在另一處,Huet 展示了實時 API 如何通過電話與人類交流,詢問爲某一活動訂購食物的事。與谷歌飽受詬病的 Duo 不同,OpenAI 的 API 不能直接致電餐廳或商店;然而,它可以與像 Twilio 這樣的通話 API 集成來達成這個目的。值得注意的是,OpenAI 沒有添加披露內容,以便其 AI 模型在這樣的通話中自動錶明自身身份,儘管這些 AI 生成的聲音聽起來非常逼真。目前,似乎添加此披露內容是開發者的責任,這可能是新的加利福尼亞法律所要求的。

作爲其開發日的公告的一部分,OpenAI 還在其 API 中引入了視覺微調的功能,這將允許開發者使用圖像以及文本對 GPT-4o 的應用做微調。理論上,這應該有助於開發者提高 GPT-4o 在涉及視覺理解任務方面的性能。OpenAI 的產品 API 負責人 Olivier Godement 告訴 TechCrunch,開發者將無法上傳受版權保護的圖像(例如唐老鴨的圖片)、描繪暴力的圖像或其他違反 OpenAI 安全政策的圖像。

OpenAI 正在努力追趕其在 AI 模型授權領域的競爭對手已提供的內容。它的提示緩存功能與 Anthropic 幾個月前推出的功能相似,允許開發人員在 API 調用之間緩存常用的上下文,降低成本並減少延遲。OpenAI 稱,開發人員使用此功能能節省 50%,而 Anthropic 承諾給予 90%的折扣。

最後,OpenAI 推出了一個模型提煉功能,使得開發人員能夠使用較大的 AI 模型,比如 o1-preview 和 GPT-4o,去微調較小的模型,像 GPT-4o mini。運行較小的模型通常比運行較大的模型更節省成本,不過此功能應當能讓開發人員提升這些小型 AI 模型的性能。作爲模型提煉的一部分,OpenAI 正在推出一個測試版評估工具,以便開發人員能夠在 OpenAI 的 API 內衡量其微調的性能。