我見我思-AI再次衝擊人類 小心ChatGPT的「毒性」

幾個月來,各大媒體不斷報導這個主題,引起學界一陣恐慌。怕學生日後都用ChatGPT來寫報告,許多學校也紛紛禁止在學校裡用ChatGPT。這就有點像2017年Google的AlphaGO打敗了世界第一棋手時,引發的震撼一樣,讓人感覺機器人就將佔領世界。慢慢地,使用人多了,開始發現它會產生許多似是而非的敘述。跟它聊久了,也發現它開始胡言亂語。

ChatGPT是GPT3.5大型語言模型的微調應用。所謂語言模型,就是將一大堆文章語料喂入模型訓練,之後就能根據前文來預測後文的發生機率。就跟人一樣,書讀久了,就能背起來。讀多了,就見多識廣。

預先訓練好的語言模型可以用來作微調加值,可以回答複選題,是非題或問答題。只要你將問題跟答案連在一起,餵給它背起來。日後它搜索相似問題時,搜索到的問題後面跟着答案,就可以把答案拿出來回答。這樣可以拿來當問題回答機應用。如果題目和答案,剛好都出現在它之前看過的文章裡,那它當然就把答案抓來給你。但如果很不巧,答案並不在之前的文章裡,它就會根據語言模型裡的機率,自己來編答案。

一般的問題回答機包括兩大部分,一個叫做資訊擷取(Information Retrieval),另外一個就是答案編纂(Answer Merging and Scoring)。資訊擷取就是從網路或資料庫裡面抓出和問題相關的文章,依序排出。這與搜索引擎的功能差不多。答案編纂是將搜索到最相關的資料,彙整濃縮成一篇通順的文章。聊天機器人是在語言模型的基礎上,加入對話集的語料,加以進一步微調訓練。如果應用在客服聊天,就可以收集這行業裡客戶最常問的問題和答案,來反覆訓練這個聊天機器人。過久了,它就會記住所有的問題跟答案,能夠上線應付客戶了。

而ChatGPT是使用一種人類回饋強化學習(RLHF)來訓練模型。OpenAI說他僱了40個人,來評判機器人的回答分數。之後會根據這些回饋,再來訓練一個報酬模型,瞭解人類喜歡什麼樣的回答。然後再根據剛訓練好的報酬模型,用PPO運算法來訓練出一個強化學習策略模型,以找出報酬最高的策略來回答問題。這跟早期AlphaGo使用強化學習來學習價值網路跟策略網路,以找出最高累積行動報酬的策略的目標一致。

由此我們可以瞭解,用這樣的模型回答問題,是沒有邏輯,非思考產生的。可說完全是以統計的方式來猜題,只不過命中率很高罷了。對某個問題,平常如果我們能在考古題中找到,幾乎都可以確定這題的正確答案是什麼。但所謂garbage–in,garbage-out,這種用網路語料,而非完全用教科書,考古題或wiki訓練的問答模型,幾乎無法保證某個答案的可信度。

毒性與杜撰是OpenAI最在意的問題。ChatGPT的最佳模型有超過20%的回答是杜撰的。而它根據網路語料所訓練出的答案,也不確定到底是否含毒性。這些都必須要日後根據用戶的回饋才能再慢慢地修正,之後才能偵測哪類的回答有害。在可預見的未來,ChatGPT產生的問題,將是網路上似是而非的假資料氾濫,從此網路資料可信度將更低,再也無法判斷真假了。