消息稱微軟亞洲研究院前首席研究經理譚旭加入月之暗面
IT之家 10 月 23 日消息,據“晚點 Auto”昨晚報道,微軟亞洲研究院前首席研究經理譚旭於 8 月加入大模型創業公司月之暗面,主要負責研發端到端語音模型。
報道稱,月之暗面的整個多模態研究早在去年 10 月就已開始。接近該公司人士稱,目前正有 10 人左右的團隊在研發視頻模型,爲確保產品更具差異性,對外發布計劃仍在推遲。
資料顯示,譚旭在離開微軟研究院前擔任首席研究經理,方向是生成式 AI、語音 / 音頻 / 視頻內容生成,論文引用量達上萬次,他也曾擔任 NeurIPS 等學術會議期刊的審稿人;其多項語言、語音、音樂、視頻生成成果已應用在 Azure、Bing 等微軟的產品與服務中。
譚旭加入月之暗面後的主要目標之一,可能即是幫助月之暗面打造“類似 GPT-4o”的語音體驗。
IT之家注:OpenAI 今年 5 月發佈多模態大模型 GPT-4o,基於端到端語音技術打造,具備更低延時、可隨時打斷等特性。隨後,OpenAI 於 9 月 25 日面向 ChatGPT Plus 付費用戶推送了高級語音功能。
此前,主流的語音方案是 ASR(自動語音識別)+LLM(大語言模型)+TTS(語音合成):輸入端識別語音、轉化成文本;大模型處理內容生成新文本;文本合成爲語音、最終輸出。
但上述方案的不足在於機器響應時間較長、人類無法隨時打斷,與人類的自然聊天狀態存在差距。相比之下,端到端省去了“語音轉文字再轉語音”的中間過程,可以壓縮機器響應時間,人類也可隨時打斷機器。同時,端到端還可幫助改善“幻覺”:用戶可立即打斷輸出並給出新的提示詞。