【佳作評介】淺談面向人工智能領域的科普創作———《愛犯錯的智能體》創作手記
隨着深度學習的興起,人工智能在衆多領域都有了突破,並有了實用級的應用,如人臉識別系統已經佈置於高鐵、機場,2016年AlphaGo戰勝了圍棋世界冠軍。2023年,OpenAI公司的大語言模型ChatGPT在聊天能力上變得更像人類,Midjourney公司的繪畫軟件已經能畫得與人類媲美,Meta公司的分割任意模型SAM幾乎解決了長期困擾圖像處理領域科研人員的圖像分割難題。一時間,人們擔心人工智能是否會超越人類,而這種擔憂從AlphaGo開始,似乎就有愈演愈烈的趨勢。另外,人工智能本身的研究發展在往大模型、大數據、大算力的方向快速前進。由於人類經歷過兩個人工智能低谷,每個低谷的前夜都是人工智能的快速發展。所以,我們不禁要思考,人工智能的方向是否準確?人工智能還有哪些難題尚未解決?
實際上,這些疑慮在大模型盛行之前就已經出現。
2018年,在《科技日報》的一篇採訪報道中,我利用《射鵰英雄傳》裡周伯通的左右互搏術科普了生成對抗網的原理。隨後不久,又用長壽在個性和統計上的差異分析了深度網絡預測性能卓越的原因。在此之後,我又在科學網撰寫了一系列關於現有人工智能難以解決的問題的文章。我將自己2018年以後發表在科學網的系列科普文章彙集成冊後,2019年於清華大學出版社出版了《愛犯錯的智能體》一書。本書的目的是希望能利用一線科技工技者的經驗,科普人工智能的現狀、不足及思考,也期望它能激發相關科技工作者和人工智能愛好者的興趣。
一
以書名爲引:深埋人工智能發展的新線索
這本書取名《愛犯錯的智能體》的用意,與人工智能的預測性能近年表現優異有關,尤其是在大數據、大模型、大算力基本成爲提升各種人工智能相關任務預測能力的共識的情況下。然而,預測性能只反映了人工智能研究的其中一個目標,並非全部。那麼,通過對預測性能表現強的反向思考,我發現預測性能與可解釋性之間存在矛盾。
如果需要進一步提升預測性能,那麼就不必考慮統計意義上的平均預測性能,只關注個體的優異表現同樣可以達到目的。但如果過分關注個性,就會損失統計意義,而統計意義卻是保證可解釋性的根源。因此,預測性能與可解釋性之間必然存在矛盾。要保證魚與熊掌兼得,則需要在兩者之間進行折中。再進一步思考,在人工智能做得異常好的應用上,人類實際上達不到如此好的性能,甚至容易犯錯。比如人臉識別,人類是不可能像人工智能一樣能記住上千萬甚至上億的人臉的。圍棋也是,人類一生也不可能對弈3000萬棋局,但機器可以。
但爲什麼反而見不到人工智能能全方位超越人類呢?這自然引出一個問題,人類犯錯的意義在哪裡?是否可以減少犯錯,來獲得與人工智能一樣強的預測能力?從我的理解來看,答案是否定的,正如人類常說的話一樣,失敗是成功之母。有了犯錯,纔有利於智能的演化。
因此,本書取名爲《愛犯錯的智能體》,正是希望能把各種犯錯的機制與智能的關係找出來,並期望讀者能從中發現未來能促進人工智能發展的新線索。除此以外,它的英文名明確表明了這層含義,即
二
以感官爲分類:直觀呈現人工智能的犯錯機制
要分析人的犯錯機制,可以從多個層面展開。但與人工智能最直接相關的,是人類的感官。其中,視覺是我們和多數動物探索世界的主要感覺器官,據說人類對環境的感知80%以上源自視覺。但正因爲如此,它又是人類最容易形成錯誤感知的地方,也是存在大量未解問題的地方。比如視覺倒像問題,在什麼時候、什麼地方將眼睛看到的目標,通過眼睛內晶狀體的光學凸透鏡形成的倒像糾正成正像。又比如視覺恆常性引起的對衣服顏色的判斷及同時對比現象;視覺中樞對目標的感知、記憶模型的不同理解。從這些問題中,通過搜索文獻,我總結了大量的犯錯機制,以及它可能隱含的、與人工智能相關的科學問題,如流形學習、格式塔心理學、原型說,等等。
其次,人容易產生錯覺的地方在聽覺。比如麥格克效應,是人同時利用視覺和聽覺來幫助判斷聲音內容時的有效機制。當視覺被誤導時,聽覺也有可能被同時誤導。不僅如此,由於語音發音的有限性,也會導致錯聽或誤讀。同時,人類能在雞尾酒會中輕鬆分辨出想要聽的人的聲音,反而機器很困難。這種“雞尾酒會問題”也引發了盲源分離的研究。
再者,在自然語言理解中,也存在大量有趣的語言現象,如迴文詩,看字形猜詩詞等。語言的背後深藏着有趣的科學問題,如學習的次序、語言的多義性、局部與整體認知,等等。
另外,人類的夢境、頓悟、情感、羣體智能等都有值得挖掘的內容。
概言之,本書的編排是從視覺開始,再過渡到聽覺、認知、羣體認知等高級能力。希望通過分析各個層面可能犯的錯誤,讓讀者更直觀地瞭解人工智能。
三
創作初衷:激發大衆對人工智能的興趣
《愛犯錯的智能體》是一本科普書。從我對科普書淺薄的理解,以往的科普主要定位於傳授已知,即將已經成爲事實的知識傳授給大衆。但作爲一線科技工作者,我認爲人工智能仍存在的大量問題和未曾探索過的領域更值得關注,因爲它一方面可以激發讀者的主動思考,另一方面也能讓讀者有一個辯證的思考,不是一味地以爲人工智能無所不能,而能更爲科學地看待人工智能的發展情況。
從這個角度出發,我在撰寫本書時引入了很多個人的思考,如總結部分,我提出了“平衡智能”的觀點。我也期望讀者能從中發現一些有趣的現象,甚至迸發出新的想法、觀點。我還期望一些青少年讀者,能夠通過閱讀本書,激發起對人工智能的興趣,以至於未來有可能走上研究人工智能的科研道路。
如果今後真有哪位人工智能科研人員,說是小時候因爲看了《愛犯錯的智能體》才走上本領域的研究道路的,那麼,這本書就物超所值了。而如果從更一般的角度來看,如果本書能讓普通大衆更爲清醒地瞭解人工智能的現狀、侷限及未來可能的發展,那也能對提高全民科學素養起到一定的推動作用。
四
內容書寫:嚴謹性與可讀性的平衡
作爲科研人員,難免會擔心自己講錯科學內容。以前有個笑話,說科研人員如果在電視上講錯一句話,就會得罪一批同行朋友。所以,做科普得非常小心,尤其不能把一些常識性的錯誤帶給讀者。除此以外,也必須避免將一些僞科學的知識傳遞給讀者。更有意義的是,一線科技工作者可以將更爲前沿科技的進展介紹給讀者。
然而,這裡需要注意的是,如何增強科學內容的可讀性。現今的科研環境,科研方向已經非常細分,多數科技工作者熟悉的往往是自己鑽研的具體研究方向。科技論文的寫作也比較“八股文”化,而且科技論文排斥輕鬆活潑的寫法,那樣會導致論文過於主觀化。這兩點對於科普來說,實際上會造成不小的障礙。因爲科普常需要通過大衆熟悉的事物來側面瞭解前沿科技,但如果科研人員沒有相對寬廣的知識面,那很有可能不知道如何下手,容易把科普寫成大家看不懂的科技論文。
另外,人工智能裡的很多內容是有嚴格的公式來表述的。但《時間簡史》一書的編輯曾對霍金說過,科普書裡每多一個公式,就少一半讀者。所以,本書中,我將需要用公式表述的內容,通過借用生活中常見的現象,更直觀地解釋了。這樣,也能有利於大衆的理解和對知識的消化吸收。
科普需要生動有趣活潑。在本書中,我通過大量的比擬來介紹一些相對困難的人工智能問題。比如自舉,是機器學習的常用算法之一。我就講一個人騎馬陷入沼澤中,通過用手抓住自己頭髮將自己和馬一起拔出沼澤的故事,來讓讀者形象理解其中的道理。再比如個性與共性在預測能力上的差異,我通過116歲長壽老奶奶喝可樂的故事,來科普深度學習有可能能通過個性化的模型訓練來獲得優異的性能。
不僅如此,我在文字組織中,也適當地引入了幽默感,以便讀者能更爲輕鬆愉快地閱讀本書。
值得指出的是,人工智能多數成果源於國外。但從國外的角度來介紹,大衆可能會有一定的疏遠感。爲了增強中國特色,拉近讀者的距離感,我也引入了不少中國元素的故事,比如利用林語堂的《口技》介紹人工智能裡音源分離的困難。
而爲了增強行文的邏輯性,每篇文章的寫作都是在長思以後才完成的,並非是爲了湊字數而寫。有的時候,因爲找不到寫作的衝動或靈感,我會去室外慢跑,期望通過多巴胺的釋放,來獲得好的構思。幸運的是,這種策略常常奏效。
總的來說,《愛犯錯的智能體》是我通過一個又一個的自我設問,再根據問題進行相應的人工智能前沿進展的調研,通過科普化的構思並結合中國特色元素而完成的。該書中隱含了大量人工智能裡懸而未決的科學問題,等待有志於人工智能事業的讀者去探索和解決。該書中包含的人工智能知識點,我自認爲是相當密集的。儘管書的頁數並不多,但讀者閱讀之後,可以充分了解人工智能的全貌。
作者簡介:
張軍平,復旦大學計算機科學技術學院教授。
來源 / 我們如何書寫科學:第六屆、第七屆中國科普作家協會優秀科普作品獎獲獎圖書佳作評介
排版:沈 丹
編輯:林雪琪
審定:李紅林