☰

獨家觀察－打造主權AI 必須接地氣

自從ChatGPT問世、百度研發ERNIE大型語言模型以來，社會各界對打造繁體中文大型語言模型的討論不曾間斷，儼然成爲一場國家數位主權、文化保衛戰。行政院長卓榮泰公開宣示：「臺灣應進入主權AI的應用時代」。

不過，推動主權AI之前，恐需先克服眼前幾個難關。首先，大型語言模型對於資金、軟硬體、資料的要求極高，作爲運算能力源頭的GPU是最關鍵的基礎元件，同時也須有AI素養的高端技術人才，最重要的是，必須具備高品質且多樣化的數據資料，讓AI變得更聰明。

若數據資料不夠完整，模型便難以學習基礎的在地語言邏輯、常識及知識，遑論以符合在地語境的方式進行表達。因此，打造臺灣自己的繁體中文語言資料集，以建立接地氣的大型語言模型，是開發者們刻不容緩的課題。

目前國科會主導可信任生成式AI對話引擎計劃（TAIDE），使用政府報告摘要、各縣市政府旅遊網站、司法院判決、科技產業資訊室、三採文化童話書、教育部《國語小字典》與《重編國語辭典修訂本》、學術會議論文摘要、中文維基百科、部分新聞機構授權資料庫等繁體中文資料進行訓練，但是，這些訓練資料大多屬於政府公開資料，多數繁體中文內容受限於版權，可蒐集利用的數據資料量仍有侷限。

不少評論認爲，臺灣目前的法律架構追不上科技腳步，版權方在沒有明確法律保護下，不願意分享有價值的內容，使開發團隊難以取得大型資料庫。如何在發展主權AI與維護著作財產權人權利間取得平衡，讓著作財產權人可分配適當利益，同時充實語言資料集，值得主管機關思考。

此外，若想提高企業導入AI應用的誘因，不只要兼顧繁體中文的需求，產出結果也必須符合業界對技術精確度、可信任度、精準度、資訊安全的要求，纔有可能成功推廣，真正達成卓揆口中「主權AI的應用時代」之目標。

主權AI發展攸關文化自主權與國家經濟安全利益，如何在世界AI賽局中，確保國家擁有AI技術自主性，不依賴外部資源就能進行創新，是全體國人共同的期待。期許臺灣能確保數位主權，在全球競逐下持續保持競爭力。

獨家觀察－打造主權AI 必須接地氣

相關資訊