中國科大校友專訪:AlphaFold3開源是衆望所歸
採訪嘉賓自我介紹:
我叫王宗安,2008年到2012年在中科大讀的本科,2012年到2020年在美國芝加哥大學深造,直到2020年初完成博士學位。回國之後在深圳的華大生命科學研究院擔任工程師。在學校讀書的時候,我的研究方向是蛋白質計算,工作之後繼續在同一方向研究。
問題一:人工智能如何用來研究蛋白質?這項技術的發展歷程是什麼?
我們可以從兩個方面來探討,首先是人工智能,其實就是深度學習,屬於機器學習的一個分類,其次是蛋白質研究,我們主要限定在蛋白質摺疊方向的計算研究,具體來說,即通過計算手段來研究蛋白質摺疊之後的最終結構,也就是生物學中很重要的蛋白質摺疊問題,即蛋白質結構預測。同時也是今年獲得諾貝爾化學獎表彰的一個方向,另一個設計表彰的方向就是蛋白質的計算設計。我本人其實更熟悉第一個方向。
其實用計算方法來解決蛋白質摺疊問題的歷史發展脈絡相當清晰。1994年,由 John Moult 等幾位科學家聯合創辦了蛋白質結構預測關鍵評估(Critical Assessment of Protein Structure Prediction)這一重要比賽,簡稱CASP。由學術界牽頭,鼓勵學術界和工業界開發計算工具,來預測蛋白質摺疊的最終結構。這個比賽每兩年舉辦一次,一直到今年,已經走過了整整30年,今年是第16屆,下個月月底就可能出現今年比賽的結果了。而整個歷程中的里程碑事件也很清楚:
2002年的第五屆CASP出現了第一個重大的里程碑事件,首次使用同源模版構建蛋白質摺疊結構。
第二個重大的里程碑事件出現在2012年的第10屆CASP,同時也可以說從02年到12年這十年間的五屆比賽,結果基本上都處於停滯狀態,沒有明顯進步。但其實很多科學在早期的發展都相當緩慢。而到了2012年首次使用了接觸圖(contact map)來預測結構,取得了一定進展。
緊接着是2014年的第11屆CASP,出現了多序列比對(MSA)技術,又過了兩年到第12屆CASP首次使用了殘差網絡,也是深度學習/人工智能首次亮相,並且取得了很好的結果。
在2018年第13屆CASP上,第一代AlphaFold,也就是original AlphaFold 參與比賽,它所採用的技術路線依然是2016年的技術路線。
到了2020年,出現了第二代AlphaFold,即AlphaFold2,它和AlphaFold1可以說是兩種截然不同的技術,第二代的創新性非常強大,所以今年的諾貝爾獎頒獎辭中明確指出,化學獎的一半是頒發給AlphaFold2。因爲在不同語境之下,AlphaFold這個詞可以指代一代、二代、甚至三代。但諾貝爾化學獎清楚表明是表彰AlphaFold2,AlphaFold2預測了幾乎所有的已知蛋白質。
2020年11月30日當天晚上出了比賽結果,12月就相對外公佈了AlphaFold,但文章和代碼並沒有同時公佈。相關論文在2021年7月15日發表在《自然》(Nature)期刊上,因爲AlphaFold所屬的DeepMind公司在英國。也在同一天,大衛·貝克課題組的RoseTTAFold論文發表美國的《科學》(Science)期刊上。又過了一週,7月22日,AlphaFold的DeepMind公司公佈了第一批在蛋白質組水平上的結構預測,總共35萬個,包含了98.5%人源蛋白組的2萬個結構,以及大概20種諸如斑馬魚、大腸桿菌等模式生物的全蛋白組的預測結構。這就是後來AlphaFold數據庫的原型,在這個基礎上他們的團隊持續擴充,最終擴充到了2.14億個,即全部人類已知的蛋白質序列。所謂的蛋白質序列就是直接通過蛋白質測序得到的序列。
問題二:John M. Jumper是一位怎樣的科學家?共事時有什麼經歷?
我的博士課題的前一半就是他直接指導的,到了後半階段,他就已經接近要離校了,我的博士研究是在他已有工作、他的博士論文的基礎上做了一些延展。但我並不瞭解他作爲一名老師是怎樣的。我們學校要求所有人在第一年都要做助教,我當時並不知道他做助教的風格。
但後來幾年與他共事之後,我覺得如果有問題,就可以直接問他。他給人的感覺是,如果提問的人很謙虛,是向他虛心求教,他平時就是很謙虛的人,此時他會表現得更加謙虛。但如果提問的人做出一副不屑一顧的態度,因爲大家都認爲自己很聰明,所以一旦有人抱着自己屈尊俯就的不屑態度去提問,他反而可能表現得很倨傲。實際上Jumper很樂於傳授知識,但一般也不會主動跟學生去討論問題。另一方面,他自己也很忙,絕大多數時間在家工作,照顧剛出生的兩個孩子,每天大概來學校一個小時左右,是爲了跟其他導師討論,主要是跟年輕一些的導師交流。我們的導師Karl Freed年長很多,Jumper和我是Karl導師這一輩培養的最後兩個博士了。另外一位是年輕的導師Tobin Sosnick,Jumper會和Tobin聊上一個多小時,結束後就離開了。
所以,如果有人有問題,得趕緊抓住他提問,他既不好爲人師,另外也很忙,時間很有限。
問題三:畢業之後和Jumper還有聯繫嗎?
很少了。在他獲得諾貝爾獎之後我給他發了一封郵件,但我知道估計他的郵箱早已塞滿了祝賀郵件,大概過了兩週,他回覆了郵件。而且我們,包括我們組內的師兄弟,畢業前後的最主要關係是關係很好的同事,不僅是中國人,美國人也是如此。同事之間私下並沒有很多交往,在學校的時候,同事或者同組員關係融洽,但不代表私下也會玩到一起。平時科研時大家都很忙碌,也會花更多時間在研究上面,大家都很有邊界感。
問題四:在公司和在學校的科研有什麼不同?
我在博士畢業之後,在學校以博士後的身份多待了幾個月,算作爲緩衝期。所以在學校我作爲員工的時間很短,作爲學生的時間很長。
首先,這個比較可能不是很公平,因爲學生有畢業壓力,而員工是合同制,所以沒有畢業壓力。
其次,也有相同點。華大集團總共有一萬一千人,而華大研究院是華大全資的一級子公司,主要以科研爲主,在華大研究院的兩千多人中有80%到90%的研究員,這點跟學校就很像。去年整個華大集團發表了382篇論文,大部分都是華大研究院作爲第一作者單位或通訊作者單位發表的。而在CNS上,包括正刊和子刊發表了約30多篇論文。所以,華大在生命科學領域,是全世界所有同類公司中排名前十,根據自然指數(Nature Index),去年華大排名第八,而這前十名的公司中只有兩家是非藥企,華大便是其中之一,另一家是谷歌的母公司字母表(也是DeepMind的母公司),而剩下的八家都是諸如諾華、羅氏等藥企。
而華大從生命科學研究的角度來說跟學校並沒有太多差別,如果說有的話,首先可能是壓力小,朝九晚六,也不加班。其次學術壓力也相對小,在學校無論博後還是學生,學術環境競爭還是比較激烈的。另外,公司有相對豐厚的薪酬。以Jumper爲例,他現在在美國即便在哈佛或者芝加哥大學擔任化學系講席教授,可能一年的薪酬約20多萬美金,而在DeepMind一年的薪酬可能就高達500萬甚至1000萬美元,即便如此,這也不算誇張。
另外還有一個區別就是我們不一定要申請基金,儘管公司鼓勵研究人員申請國自然、省自然或者市自然以及各類基金,我們每年都要寫申請書,如果獲得了基金,公司會有額外獎勵,但如果沒有申請上,也沒有損失。
問題五:爲什麼選擇將自己的研究完全開源?
首先在學術界,不是所有課題組會把自己寫的軟件開源,但我認爲開源應該受到學術界鼓勵甚至強制。有些課題組發表論文之後,也不想把自己的技術商業化,但處於競爭考慮,他們依然選擇不開源。因爲一旦開源,使用的團隊數量增加,那麼日後發表同類論文的難度也會增加,這種現象在芝加哥大學也有,業內非常頂尖的課題組爲了規避競爭,會選擇不開源。
其次,我們鼓勵開源,因爲開源之後,別人可以重複你的研究工作,在完全開源之後,你的所有研究都應當能夠經得起他人的檢驗以及復現。
另外,鼓勵開源讓更多人使用,而且每個課題組的研究重心各不相同,那麼他們就能幫助添加一些拓展功能,此外還有助於除漏洞。例如像大衛·貝克課題組發展的Rosetta軟件,後來還發展成了Rosetta社區,已經運營超過20年了,全世界數十萬人都在使用,其中絕大多數的功能相當於外部第三方用戶自己添加的,大家一起來使用,添磚加瓦,共同促進了整個領域的繁榮。
我們還可以看到AlphaFold2的應用實例,它隨着論文的發表同時也開源了自己的推理部分,雖然訓練部分沒開源。但開源了推理部分之後,大家都能使用。在論文發表的短短三年內,引用次數已經超過2.7萬次,作爲化學領域的論文,這個引用量非常龐大。其中一個原因就是開源之後,大家各種嘗試,推動它的邊界。就在它開源的最初一兩個月,全世界的課題組都在做稀奇古怪的嘗試,每個課題組的研究重心、研究方向都不一樣,所以都在嘗試AlphaFold能不能適合自己的研究體系,或者加一些魔改、或者做一些巧妙的改動。也就說,DeepMind可能自己無法測試到的邊界,由全世界數以十萬計的第三方用戶們來共同測試完成。這也體現在諾貝爾獎的頒獎辭中:AlphaFold2已經被全世界190多個國家和地區,超過100萬名科研工作者使用。
現在流行科學民主,Scientifi democracy,或者說科學可及性,科研曲高和寡固然好,但曲高和衆更好。但今年五月發佈的AlphaFold3卻沒有開源,因爲發表在《自然》期刊上論文都規定要求開源,期刊也因此遭受了不少批評,所以迫於各種外界壓力,團隊承諾今年年底或明年年初會開源。但我們尚不清楚其開源形式,最值得期待的情況就是如同AlphaFold2一樣,可以使用推理模型,而訓練模型屬於商業機密,很可能不會開源。而次好一些的情況是隻開源推理代碼,但不開放訓練權重,沒有參數就得要第三方自己去訓練參數,這也是很有可能的,也符合學術規範。目前AlphaFold3論文的引用量只有三五百,這低於同期AlphaFold2的引用量,但實際上第三代更加強大,允許各種分子。引用量的減少可能與不開源相關,應爲使用的人數量少了,它只提供了一個在線服務器,使用起來並不方便。而且功能也有所限制,在這樣的情況下大家無法測試它的邊界,去充分嘗試自己感興趣的課題。
問題六:未來人工智能還可能在哪些領域得到更好的應用?
我的個人感受是和蛋白質相關,和生物體相關的東西很多。但人工智能仍然需要大數據,但凡去摺疊這個問題首先就得匹配相當大量的數據,需要積累足夠多的結構數據。當年AlphaFold2通過不斷積累獲得了20萬個結構,現在每年增加一萬多個結構,從AlphaFold2出來的序列數據已經多達數億條,已經是一個相當大的數據體量。
另外,蛋白質摺疊問題從數學上來說屬於定義良好(well defined)的問題,非常適合使用人工智能、深度學習來探索,因爲應用數學中一個問題但凡能夠良好定義,就適合人工智能去拓展。
問題七:如何評價像Foldit這種通過遊戲進行科研的形式?
我在科大讀本科的時候就安裝過這個遊戲,它出現得很早,軟件體量很小,但打開玩了幾分鐘之後就再也沒繼續了。作爲遊戲,很可惜,它的可玩性不大,就是不好玩。
其次作爲科研工具,它的用處也不大,實驗科學家、計算科學家並不會把它真正應用到自己的實驗課題中。雖然它的最終目標是蛋白質摺疊後的結構,也屬於結構預測工具,但可惜並沒有應用到科研中。
我個人認爲它的價值更多在於新聞和媒體價值。
另外一個是它會利用幾十萬人同時在線的計算機資源,可能我的認識不一定準確。我記得在安裝之後,用戶會給遊戲一定的許可,即使在電腦休眠狀態下,遊戲也可以運用個人電腦的計算資源從後臺統一來運算。這在計算機資源還比較緊張的當年,通過遊戲方式讓全民參與蛋白質摺疊問題的研究。
問題八:平時如何在學習、工作中保持專注?
我當年在大學讀書的時候,智能手機還沒有普及,也沒有電腦。主要就是對着書本和草稿紙,這樣保持專注反而很容易,連走神分心的渠道都沒有。
而現在智能手機放在身邊,就很容易隔一段時間看一下朋友圈什麼的,我覺得大家都是這樣的工作狀態。對我個人來說,要保持專注取決於工作內容是否重要、是否有趣。如果是的話,那我可能較長一段時間會專心致志地工作,不會去做其他事情,否則我也很難長時間保持工作狀態。
另外,要保持精力的話鍛鍊身體是不錯的選項,能精力充沛地投入工作。也可以藉助咖啡、茶等外部刺激手段,都有助於保持專注。
問題九:有沒有推薦的科普讀物?
去年我讀了一本關於科學和科學家的文學書籍,我個人覺得很好,書名叫做《當我不再理解世界》,由人民文學出版社翻譯出版,智利作家撰寫的科學小說,一共有四篇,基於真實的科學家,三個短篇和一箇中篇,文風很像茨威格。但我認爲要比《人類羣星閃耀時》寫得還好。
第一個故事的主人公是弗里茲·哈勃,第二個故事寫了卡爾史瓦西,第三個故事寫了兩位數學家:望月新一和格羅滕迪克,最後一篇是三位物理學家:海森堡、德布羅意和薛定諤。
科學家是真實的人物,但故事則根據真實事件經作者演繹而成,不是真事。我感覺他寫的這四篇故事是想表明,這些科學家的出發點是爲了更深刻地理解我們這個世界,但最終卻使得我們的世界變得更加難以理解,這樣一段心路歷程,寫得非常好。
問題十:有什麼科研建議和經驗分享?
我很慚愧,我覺得本科學習其實沒有什麼必要的經驗,因爲本科學習難度並不大,對於中科大的師弟師妹來說都不會有什麼問題。
但我科研做得很一般,沒有什麼特別值得分享的經驗。一定要說的話,我覺得選擇比努力更重要,對於低年級的同學們,如果將來致力於科研的話,那麼請慎重地選擇自己的科研方向、科研課題組以及科研學術機構,這比個人純粹的努力更重要。因爲選擇之後的差距可能會非常大,科研作爲事業的話,已經不再是單純的一門學科和課程,涉及的還包括學習本身之外的其他問題。
由於微信公衆號亂序推送,您可能不再能準時收到墨子沙龍的推送。爲了不與小墨失散,請將“墨子沙龍”設爲星標賬號,以及常點文末右下角的“在看”。
轉載微信原創文章,請在文章後留言;“轉載說明”在後臺回覆“轉載”可查看。爲了提供更好的服務,“墨子沙龍”有工作人員就各種事宜進行專門答覆:各新媒體平臺的相關事宜,請聯繫微信號“mozi-meiti”;線下活動、線上直播相關事宜,請聯繫微信號“mozi-huodong”。
墨子是我國古代著名的思想家、科學家,其思想和成就是我國早期科學萌芽的體現。墨子沙龍的建立,旨在傳承、發揚科學傳統,倡導、弘揚科學精神,提升公民科學素養,建設崇尚科學的社會氛圍。
墨子沙龍面向熱愛科學、有探索精神和好奇心的普通公衆,通過面對面的公衆活動和多樣化的新媒體平臺,希望讓大家瞭解到當下全球最尖端的科學進展、最先進的科學思想,探尋科學之秘,感受科學之美。
墨子沙龍由中國科學技術大學上海研究院及浦東新區南七量子科技交流中心主辦,受到中國科大新創校友基金會、中國科學技術大學教育基金會、浦東新區科學技術協會、中國科學技術協會及浦東新區科技和經濟委員會等支持。
關於“墨子沙龍”