☰

蛋白質結構預測 AI生技新突破

（圖／本報系資料照）

5月由Google DeepMind和Isomorphic Labs共同發表最新一代AI的蛋白質結構預測模型AlphaFold 3，這是生技研究的又一大突破。

蛋白質是生命的重要分子，其捲曲摺疊會構成三維結構，據此如何與DNA、RNA、藥物受體等相互作用，是50年來探詢的難題。2020年11月，DeepMind公司發表AlphaFold 2，參與挑戰在短時間內預測出蛋白質的結構，準確度評比高達92.4分，遠高於其他模型。當時就已經被認爲有機會成爲「結構生物學」的新世代突破。

早年解析蛋白質結構的方法要高濃度與純度的蛋白質，利用X光繞射圖譜得到適合的晶體收集數據，再透過電腦運算將蛋白質晶體的繞射圖譜進行「傅立葉轉換」，並模擬出三維空間的電子雲密度圖。根據電子雲密度圖及蛋白質的胺基酸序列，推測出蛋白質模型。之後使用核磁共振，不需要將蛋白質進行結晶，而是讓蛋白質在水溶液的狀態下進行，更接近生理狀態的構型。

近年使用冷凍低溫電子顯微鏡，利用加速電子束打到蛋白質樣品上，電子會產生影像；再利用電腦生成高解析度的二維、三維空間的立體影像。這就可以解析蛋白質、小分子化合物以及大蛋白質聚合物的結構。

AlphaFold則是透過AI辨識蛋白質摺疊可能存在的通則，從而大幅簡化了分析過程；另外，亦可結合基因序列與蛋白質資料庫的數據，找出蛋白質的性質。由於現在龐大的算力，甚至可以使用整段蛋白質序列進行結構預測，而不需要將蛋白質拆開成不同的片段分開預測，加深整合判斷難度。

AlphaFold 3的第一代是AlphaFold 1，在2018年推出，當時它立即展示了深度學習在蛋白質結構預測中的能力。三大貢獻包括：使用多序列比對（MSA）和共變異分析來提取蛋白質序列的特徵；之後套到模型，預測胺基酸殘基之間的距離和扭轉角，來構建蛋白質的三維結構；最後使用梯度下降法來確定符合預測距離和角度約束的蛋白質結構。

第二代的AlphaFold 2，AI主要技術進步包括：端到端深度學習模型，直接從蛋白質序列預測其三維結構，而不需要中間的特徵提取步驟，並且引入了基於Transformer的注意力機制，使模型能夠更好地捕捉蛋白質序列中的長程依賴關係；而原來的MSA更用來捕捉序列間的共變異信息，幫助提高預測準確性。另外，也使用已知的蛋白質結構作爲模板，幫助模型更準確地預測未知蛋白質的結構。

最新的AlphaFold 3雖然在很大程度上繼承了AlphaFold 2的設計，但在每個關鍵元件上都進行了重大調整，並大力改進架構和訓練過程。MSA被大幅簡化，從而可聚焦提取更加關鍵的進化資訊。成對殘基關係編碼器取代了原有的進化特徵處理單元，只處理成對和單一的表徵。

因爲不再保留MSA表徵，可把資訊通過成對錶徵模組進行傳遞，增強了複雜相互作用模式的建模能力，以及把結構生成器從以胺基酸爲中心改爲直接預測原子座標，增加了處理通用分子結構的靈活性。在處理輸入資料後，AlphaFold 3還會用擴散網路來整合預測結果，這就跟我們用AI來生成圖片的原理是一樣的。

由於這些進展，AlphaFold 3能夠爲生物科學研究開闢了新的道路，未來將可加速藥物設計與基因研究，也可開發生物可再生材料、更具抵抗力的農作物。這對於生技產業將有大利多。（作者爲中信金控首席經濟學家、中信金融管理學院講座教授）

蛋白質結構預測 AI生技新突破

相關資訊