時論廣場》盡信ChatGPT不如無ChatGPT(張瑞雄)
(圖/達志影像)
從2022年底至今,整個科技界最熱門的話題之一就是由OpenAI公司所開發的ChatGPT交談機器人,嘗試模仿人腦和模擬人類的交談和寫作的能力。
人類的大腦估計包含500~1000億個神經元,這些神經元透過複雜的網絡互相聯絡和觸發。ChatGPT的類神經網絡則有多達1750億個參數,已達人腦神經元的規模,但這些參數的連結和其彼此的關係則不如人腦的複雜,所以或許在推理或同理心等需要複雜神經元連接網絡的能力尚不如人類,但因電腦記憶不會失效(除非硬體故障),所以在資料的記憶是遠遠超過人類的。
人類的大腦透過和環境的接觸和教育來訓練,人類的各種感官將收集到的資訊送到大腦,編織大腦的網絡。當遇到事情需要處理時,大腦就啓動網絡的相關部分,如過去經驗的網絡,來尋求答案。ChatGPT也是需要訓練和學習,人類餵給它的資料包括相等於5700億字元的文字資料,上億個符號資料,主要包括網路上找得到的所有網頁資料、英文維基百科和上萬本書的語料庫。而且因爲它有完美的記憶,所以它看過就記住,當你問他問題時,或許它已經看過類似的問題和答案,如果沒有,它可以從類似的資料中編出一份答案。
看到ChatGPT的熱潮,國科會也說要發展臺灣自己的ChatGPT,以避免ChatGPT的「偏見」。問題是聊天機器人技術背後的大型語言模型,需要前述大量資料的訓練,還有包括後續維護所需要的電腦計算資源,臺灣是否可以負擔得起?所以與其花費大量力氣建立臺灣的ChatGPT,倒不如將資源用在如何利用ChatGPT讓臺灣各方面都能獲益。例如政府各級機關目前的網站有哪些可提供交談式機器人來解答民衆的疑惑,先把這些小的ChatGPT建起來絕對要比建國家的ChatGPT重要。
既然ChatGPT是從現成的網路大海中和書本中學習,雖然有些資料會事先標註爲是有偏見或是錯誤的資料,但資料量畢竟太大,不可能請人一一標註,所以ChatGPT就難免會學習到一些錯誤或帶有偏見的內容,因此在回答問題時也就不可能是完全正確可信。
這就正如俗話所說的「盡信書不如無書」,因爲書本的內容有些也是錯的,還好我們從小學習有老師教導我們哪些是錯的,ChatGPT只有資料標註人員,只能對部分資料註明屬性或是否錯誤,不像老師會說明原理並教我們舉一反三,讓人類有更高的判斷力和理解力。
所以「盡信ChatGPT不如無ChatGPT」,對於ChatGPT所給的答案,我們必須先懷疑其正確性,尤其用在攸關重要事情的地方。但在人工智慧的風潮下,加上媒體的炒作,某些人可能只好拿ChatGPT的答案來當成最終的答案,未來的世界將會真假難分矣!
而且第一版的ChatGPT只是個開始,下一版的ChapGPT絕對會更聰明,未來人類如何自處和維持人類的尊嚴,這纔是更須深思的問題!
(作者爲前國立臺北商業大學校長)