通往AI下一個“iPhone時刻”的門票?科技巨頭聚首語音交互

《科創板日報》5月14日訊 音頻輸入反應時間短至232毫秒、能感知人類情緒、能和用戶像真人一樣聊天——昨夜OpenAI一場發佈會,最新多模態大模型GPT-4o的出色表現引發外界矚目。各家科技巨頭們也沒有放慢追逐的腳步,AI人機交互,尤其是語音交互,或許將成爲新一輪競爭焦點。

據The Information援引知情人士消息稱,Meta已建立一個名爲“Camerabuds”(攝像頭耳機)的項目,探索製造由AI驅動的帶攝像頭耳機,希望其能識別物體、翻譯外語。

此前,Meta已發佈了新一代雷朋智能眼鏡,內置多模態AI功能。用戶戴上眼鏡後,說一聲“嘿,Meta”,就能召喚出一個虛擬助手,後者能看到並聽到周圍發生的一切,能描述物品,能翻譯,還會搭配衣服。

與此同時,蘋果也在進行類似的探索。

蘋果即將與 OpenAI 達成協議,或將在iOS 18中引入由ChatGPT提供支持的“聊天機器人”,有望對蘋果的個人語音助理Siri帶來顛覆性影響。之前公司已被曝正在探索開發帶攝像頭的AirPods,AI可以使用攝像頭拍攝的畫面,並通過多模態語音、圖像人工智能系統,幫助用戶跟蹤自己的日常活動,協助人們的日常工作,優化日常作息。

不論是GPT-4o、帶攝像頭耳機,還是計劃ChatGPT的“升級版Siri”,其主要交互形式都離不開語音互動。

而在語音交互這場賽跑中,OpenAI已暫時憑藉着GPT-4o領先,這也是OpenAI邁向更自然人機交互的更近一步。華福證券今日報告指出,GPT-4o奠定了AI語音助手基礎:低延遲、情緒感知、視覺感知。其中,情緒感知是對語音一維輸出模態的豐富,視覺感知能力則可以適配AI手機、AI電腦和AI智能硬件。

在幾天前的一場訪談中,Sam Altman曾被問及,iPhone之後會出現什麼樣的(革命性)設備。“我認爲你必須找到一些真正不同的交互範式,才能實現這種設備技術。”Altman說道,“我們會進一步提升(語音功能)。”

在他看來,語音交互是通向未來交互的重要途徑,“多模態交互能力非常強大。比如你可以向ChatGPT提問,‘嘿ChatGPT,我正在看什麼’或是‘這是什麼植物’。”

站在科技的時光隧道回望,從最初不會說話的AlphaGo,到之後“豎耳傾聽、張口說話”的蘋果Siri與ChatGPT語音版,再到如今的GPT-4o,AI的人機交互正越來越接近人類之間的交流。

對於普羅大衆而言,科技巨頭們所宣傳的龐大訓練數據規模、算力需求、參數堆疊,都是難以直觀感受到的要素。更低的價格、降低的應用門檻、更自然的交流模式,纔是維繫着用戶最真實的感受與體驗的“秘訣”,未來或許也將成爲AI之戰的決勝因素。