HTC DeepQ推出AI自然語言處理平臺T-BERT 臺語都通

協助開發衛福部疾管「疾管家抗疫機器人的HTC DeepQ團隊,宣佈發表最新新一代 AI 自然語言處理平臺T-BERT。圖爲自然語意處理(NLP)技術示意圖。(達志影像/Shutterstock提供)

HTC(宏達電)旗下健康醫療事業部DeepQ今(31)日宣,總經理張智威 (史丹佛大電腦科學系客座教授)親自領軍,推出新一代 AI 自然語言處理平臺:T-BERT(Taiwan Bidirectional Encoder Representations from Transformers),使得電腦能同時三聲道讀聽寫國語臺語客語,將AI應用在語義分析及問答互動上。

DeepQ是HTC(宏達電)旗下健康醫療事業部,先前曾運用多年來累積各領域的研發經驗(包括VR/AR、AI人工智慧、區塊鏈、及自然語言處理等前瞻技術),積極投入抗疫,將相關技術與疾管署和衛福部合作,開發「疾管家」抗疫機器人,至今已超過2百萬名使用者,發揮防疫抗疫積極效用

DeepQ指出,新一代AI自然語言處理平臺T-BERT採用Transformer網路架構,從左到右;從右到左雙向讀取段落文字,透過編碼器分析文字特徵,結合爲臺灣研發的AI加速運算技術,大幅提升語意判斷的精準度至93.7%。

在臺灣,自然語言處理平臺必須能夠處理在地語言,纔可實踐相關語意分析應用。DeepQ AI團隊與臺灣大學廖世偉教授合作,應用兩個關鍵技術深度學習模型巨量資料處理的技術,針對臺灣市場,打造出可支持國語、臺語及客語的AI平臺。

DeepQ AI團隊讓AI不斷閱讀巨量語意資料庫訓練AI模型判斷語意。不過,要讓電腦可以學習如此巨量的資料,計算複雜且耗時。DeepQ團隊同時使用超過64顆GPU運算,運用平行運算技術架構,提升60倍的運算速度,將AI模型的學習時間有效縮短至6小時。除國語外,T-BERT 訓練也加入臺語客語文獻。目前研發的AI模型已能將國語新聞自動分類成9大類別,如:財經國際等類別,準確度達93.7%。而相對臺客語語料庫規模較小,DeepQ AI團隊則採用兩階段微調訓練,讓臺客語新聞分類準確度也能達到滿意的準確度。

張智威表示:「在臺灣,同時支援國臺客語的自然語言處理平臺尚不存在,我們計劃將把我們的 T-BERT 模型開源釋出,並繼續擴充規模,以回饋學界與促進產業發展。同時將陸續把此技術導入產品端,譬如此平臺可以使疾管家未來能夠支持國臺客語問答。」