語言學習新創Speak升級語音辨識系統 回饋服務更準確

人工智慧語言學習平臺Speak打造低延遲、高辨識度的英語口說識別服務,近日宣佈整合分散各平臺基礎架構上的訓練數據,全面升級核心語音辨識系統。使Speak更能貼近實際使用場景,有效辨識各種帶有口音的口語英語。與之前的模型相比,新模型將字詞錯誤率(WER)降低了45%,整體字詞錯誤率更是減少超過60%,大幅提升Speak服務中口語回饋的準確性與可靠性。

Speak過去針對iOS、Android作業系統分別建置語音辨識系統,透過Speak客製化模型及協力廠商提供等多個語音辨識模型進行訓練,導致數據來源分散且重複,爲有效在單一後端系統上整合來自各個平臺來源的數據進行模型訓練,Speak以輝達(NVIDIA)爲研究和開發語音和大語言模型所開發的端對端雲原生開源框架NVIDIA NeMo,加速分散式訓練和模型的開發維運。整合自動語音辨識(ASR)模型推理及後處理邏輯,Speak 將核心語音基礎架構重新打造爲單一且更大型的後端系統,導入來自全球Speak App中的學習者數千小時、帶有各地濃厚口音的英語語音作爲訓練數據集,將Speak所有數據集整合,簡化維運並確保所有用戶和裝置都能獲得即時且高效的服務回饋。

根據Speak以字詞錯誤率(WER)爲指標針對其新模型效能進行的評估,整體字詞錯誤率減少超過60%,相較於預訓練模型有了顯著的進步,強化了Speak核心口語回饋循環的可靠性和可信度,主因來自於其導入訓練的數據集完全在特定領域內,並且涵蓋了多種強烈口音,這些口音是現成的模型仍然難以處理的。