蛋白質結構預測 AI生技新突破

(圖/本報系資料照)

5月由Google DeepMind和Isomorphic Labs共同發表最新一代AI的蛋白質結構預測模型AlphaFold 3,這是生技研究的又一大突破。

蛋白質是生命的重要分子,其捲曲摺疊會構成三維結構,據此如何與DNA、RNA、藥物受體等相互作用,是50年來探詢的難題。2020年11月,DeepMind公司發表AlphaFold 2,參與挑戰在短時間內預測出蛋白質的結構,準確度評比高達92.4分,遠高於其他模型。當時就已經被認爲有機會成爲「結構生物學」的新世代突破。

早年解析蛋白質結構的方法要高濃度與純度的蛋白質,利用X光繞射圖譜得到適合的晶體收集數據,再透過電腦運算將蛋白質晶體的繞射圖譜進行「傅立葉轉換」,並模擬出三維空間的電子雲密度圖。根據電子雲密度圖及蛋白質的胺基酸序列,推測出蛋白質模型。之後使用核磁共振,不需要將蛋白質進行結晶,而是讓蛋白質在水溶液的狀態下進行,更接近生理狀態的構型。

近年使用冷凍低溫電子顯微鏡,利用加速電子束打到蛋白質樣品上,電子會產生影像;再利用電腦生成高解析度的二維、三維空間的立體影像。這就可以解析蛋白質、小分子化合物以及大蛋白質聚合物的結構。

AlphaFold則是透過AI辨識蛋白質摺疊可能存在的通則,從而大幅簡化了分析過程;另外,亦可結合基因序列與蛋白質資料庫的數據,找出蛋白質的性質。由於現在龐大的算力,甚至可以使用整段蛋白質序列進行結構預測,而不需要將蛋白質拆開成不同的片段分開預測,加深整合判斷難度。

AlphaFold 3的第一代是AlphaFold 1,在2018年推出,當時它立即展示了深度學習在蛋白質結構預測中的能力。三大貢獻包括:使用多序列比對(MSA)和共變異分析來提取蛋白質序列的特徵;之後套到模型,預測胺基酸殘基之間的距離和扭轉角,來構建蛋白質的三維結構;最後使用梯度下降法來確定符合預測距離和角度約束的蛋白質結構。

第二代的AlphaFold 2,AI主要技術進步包括:端到端深度學習模型,直接從蛋白質序列預測其三維結構,而不需要中間的特徵提取步驟,並且引入了基於Transformer的注意力機制,使模型能夠更好地捕捉蛋白質序列中的長程依賴關係;而原來的MSA更用來捕捉序列間的共變異信息,幫助提高預測準確性。另外,也使用已知的蛋白質結構作爲模板,幫助模型更準確地預測未知蛋白質的結構。

最新的AlphaFold 3雖然在很大程度上繼承了AlphaFold 2的設計,但在每個關鍵元件上都進行了重大調整,並大力改進架構和訓練過程。MSA被大幅簡化,從而可聚焦提取更加關鍵的進化資訊。成對殘基關係編碼器取代了原有的進化特徵處理單元,只處理成對和單一的表徵。

因爲不再保留MSA表徵,可把資訊通過成對錶徵模組進行傳遞,增強了複雜相互作用模式的建模能力,以及把結構生成器從以胺基酸爲中心改爲直接預測原子座標,增加了處理通用分子結構的靈活性。在處理輸入資料後,AlphaFold 3還會用擴散網路來整合預測結果,這就跟我們用AI來生成圖片的原理是一樣的。

由於這些進展,AlphaFold 3能夠爲生物科學研究開闢了新的道路,未來將可加速藥物設計與基因研究,也可開發生物可再生材料、更具抵抗力的農作物。這對於生技產業將有大利多。(作者爲中信金控首席經濟學家、中信金融管理學院講座教授)