從實驗室走向市場:深度學習改變科學研究方法|甲子引力

AI潛力無限,但科學家無可替代。

人工智能在打破學科界限、通過跨學科合作推動科學發現中的變革性作用。在2024年諾貝爾物理學獎與化學獎接連發布後,讓AI For Science(以下稱AI4S)領域再掀波瀾。

面對一個火熱的新興產業,它在快速發展過程中有哪些機遇與挑戰?這一年,行業發生了什麼,又該如何激活這一領域的創新動能,實現產業升級與可持續發展,成爲行業關注的焦點。

12月11日,在「甲子光年」舉辦的2024甲子引力年終盛典上,四位領域的專家和創業者圍繞《科學智能:AI for Science新範式下的科研變革》這一主題,討論了AI與科學研究的體感、發展與未來。

深度原理核心創始成員&產品負責人李宇平、鑫研微末生物科技CEO王琰、百圖生科戰略部總經理徐子堯、萊芒生物AI負責人仝督讀與主持人心資本合夥人吳炳見探討了人工智能在科學研究中的應用和未來的影響,他們生命科學、化學和投資等不同角度分享了見解和體會。

吳炳見談到了AI在科學領域的逐漸普及和接受程度,表示這些技術的應用已從專業圈子逐步向公衆領域擴展,尤其是在解釋這些複雜技術的應用時。“AI for Science的發展,讓我們更容易向非專業人士解釋我們的工作,這種普及是非常重要的。”

李宇平分享了深度原理利用AI進行材料科學研究的經驗,以及如何使用AI和實驗數據來優化材料設計流程,並強調Science of AI的發展爲解決尺度放大和數據不足問題提供了強大的工具。“AI for science、Science of AI恰恰是面對這個問題目前最好的解決方法。”

王琰提到AI在冷凍電鏡領域的應用,介紹了AI如何幫助科學家更快地從大量數據中提取有價值的信息。她提到AI在科學研究中從輔助工具到核心技術的轉變,“AI for science不是AI簡單的進行數據挖掘或者數據整理,而是AI跟先進實驗手段的深度耦合。”

徐子堯強調了AI在生物製藥領域的應用,特別是在靶點發現和藥物開發中的作用。她提到AI對生物數據的理解和模型建立的重要性,以及這些模型如何幫助科學家驗證新藥靶點的有效性。“AI需要理解science裡面的數據,比如說科學家覺得這是一個好的靶點,那它的評價標準是什麼?它的維度是什麼?這些問題是AI的人進一步來理解science的過程。”

仝督讀在討論中分享了萊芒生物如何結合人工智能與免疫代謝重編程技術,優化腫瘤免療法。比如如何改善T細胞耗竭問題,提高治療響應率和療效,尤其是在臨牀上對淋巴瘤和白血病的治療中取得了100%完全緩解的成果。他認爲AI技術的應用使得免疫治療藥物的設計更爲精準。“通過AI算法解決實體瘤CAR-T、TILs等細胞療法中遇到的問題,我們能夠顯著降低腫瘤免疫療法的毒副作用。”

以下是本場圓桌的交流實錄,「甲子光年」整理刪改:

吳炳見(主持人):我是心資本的合夥人吳炳見,我們是一家風險投資機構,我個人第一次關注AI for science是2018年,阿爾法精準的預測了蛋白質結構,在科技圈、創業圈、投資圈引起了風潮。到今年諾貝爾獎物理獎、化學獎頒給阿爾法的作者,AI for science逐漸出圈,好像給家人解釋我們做什麼事情也更容易了,今天主要探討科學家在AI加強後的突破。我們心資本團隊以前投資過小鵬汽車、滿幫、百川智能等科技公司,也投了一些AI 應用和 AI for science的項目。

李宇平:我是來自深度原理的產品負責人李宇平,我們是一家年輕的公司,今年剛成立,專注於AI for Chemistry及AI for Materials。我們使用深度學習、第一性原理計算及高通量實驗技術來搭建ReactiveAI平臺,從而實現材料科學領域從分子篩選、合成設計、配方優化到可控實驗的全流程閉環。今年我們組建了一支背景多元互補的團隊,在石油化工、精細化工、高端材料等多個領域推進了一些商業合作。

王琰:我是鑫研微末的CEO王琰,鑫研微末是一家提供冷凍電鏡服務和AI服務的國際先進服務商。鑫研微末的技術團隊源自和賽默飛聯合研發世界上第一臺用於生物的冷凍電鏡的團隊,也是全世界首次突破病毒原子級分辨率的團隊,深耕在冷凍電鏡領域超過20年,累積了非常多的獨家算法、工作流和行業技術know how,冷凍電鏡行業廣泛使用的多個算法也出自我團隊。冷凍電鏡是一個非常強大的工具,通過解析蛋白質、信號通路、靶點、病毒、細菌等大分子的結構,可以解析生物運作的機制、人爲什麼生病、又該如何去治療。目前公司主要是爲各類創新藥企提供基於各類結構解析服務;爲AI for science科技企業提供算法諮詢、生物諮詢、算法驗證、溼實驗設計和實施等服務;爲生物、醫學、藥學、化學、材料等各類研究者提供結構解析服務。

徐子堯:我是百圖生科的戰略部總經理徐子堯。我們用AI大模型解決生命科學問題,今年擴展到了DNA、RNA、菌種大模型。業務角度看,我們從過去三年的生物醫藥領域擴展到隨國家新質生產力倡導的生物製造行業。

仝督讀:我是萊芒生物的仝督讀,萊芒生物是一家Biotech公司,與其他公司不同,更偏向於AI應用端。我們基於免疫代謝重編程技術和前沿AI算法,優化現有腫瘤免疫治療方法,尤其解決T細胞耗竭問題,提高腫瘤免疫療法響應率和療效,減少毒副作用。在淋巴瘤和白血病適應症上,我們的代謝增強型CAR-T療法已達到100%完全緩解率,同時我們也在推進實體瘤適應症管線的研發,預計明年可以啓動IIT臨牀研究

吳炳見:先從一個簡單的問題開始,各位都在做AI和交叉學科的結合,能不能談一下你們怎麼理解AI for science,在你們的業務裡面怎麼體現這個理念?

李宇平:我們的公司名對此有所體現,“深度”代表深度學習,“原理”即第一性原理的計算。我們在材料領域面臨結構化高質量的數據不足,多尺度建模,複雜工藝銜接等問題。AI for science正是解決這些問題的最好方法,Science在此過程中扮演數據締造和糾錯的角色,基於物理學規律約束AI的輸出,提供可解釋性,而AI模型在持續的數據投喂下,用極快的速度逼近物理世界的真實解,甚至涌現出更多智能,能在多個生產領域“提出”更激進、創新的設計方案,這可能反過來幫助Science發現,形成一個循環數據驅動的“飛輪”。

王琰:AI for science不只是用AI簡單進行數據挖掘或整理,而是與先進科學技術和實驗方式的深度耦合。冷凍電鏡領域其實很早就開始應用AI for science,因爲冷凍電鏡技術需要把儀器拍攝的二維的電子衍射圖像,還原成各類大分子的三維結構,挑點、數據分析、和結構重建過程中天然就逐漸應用很多AI算法提高效率。

其實我認爲AI for science可以分爲兩階段:第一階段,AI作爲Science研究工具的一種,幫助處理數據,加速科學研究。第二階段則由AIphaFold引領,它是基於Science積累的數據,用AI預測蛋白質的結構,自此,AI不僅是Science研究的重要工具,AI for science成爲一個單獨的類目,這推動了整個產業和行業的爆發。鑫研微末與AI for science行業緊密相關,爲其提供算法諮詢、生物諮詢,包括溼實驗的設計和實施,算法驗證等等。

徐子堯:我想用我們在醫藥領域的實際例子。比如在醫藥中開發新藥,第一步通常是找到新的靶點,這主要是從science定義問題,決定什麼是好的靶點。同時AI需要理解,比如科學家認爲這是好的靶點,其評價標準和維度是什麼?數據是標記的還是未標記的?

實際上AI需要理解這些science規則,並將它們結合到模型架構中。並不是說AI推薦一個靶點我們就可以開發管線、FDA批准上臨牀,我們仍需science,需要實驗去驗證AI的結果,整個過程如李總所說,需要像飛輪一樣運轉,每個環節都需要各方的參與。

仝督讀:前面幾位嘉賓講得非常好,尤其是王總提到的兩段論,AI初期更多作爲工具,後期幫助科學數據進一步發掘深層科學原理。在我們的製藥領域,這一點表現得很清楚,最開始AI主要作爲設計新藥物分子的工具,比如設計具有更高親和力、活性和特異性的抗體分子或活性蛋白,相當於用AI工具代替部分傳統藥物研發的溼實驗過程,這樣更高效、成功率更高且成本更低。對於新型細胞治療,如CAR-T,其作用機理複雜,組件衆多,改變其中一部分可能在臨牀上效果截然不同。目前的研發手段主要是通過實驗嘗試各種優化組合來尋找療效好的CAR-T設計,未來AI工具可以更多地用於發掘數據中的科學機制,爲CAR-T的優化設計提供原理性的解釋,提高未來設計的效率。

吳炳見:AI for science作爲交叉學科的角色,這包括AI和science的成分,既有幹實驗也有溼實驗。能否從自己的業務角度講述AI和science的比重各是多少?

仝督讀:這個問題對於不同公司甚至同一項目內都有很大差異。以我們公司爲例,涉及製藥的項目需要走完從藥物設計到體外細胞實驗、體內動物實驗及後續的臨牀研究的全流程,這是一個長鏈條。我覺得項目中science比重更大,或者說溼實驗部分比重更大,可能佔到80%至90%。AI在最早期的分子層面上優化設計時能起到很大作用。對於平臺型公司,AI的比重可能更大,能更好地賦能像我們這樣的下游企業。

徐子堯:整體上來看,我們是一個AI平臺型公司,希望以AI賦能下游產業,所以整體AI佔比非常高。具體到項目衆多某些環節,比如在前期客戶需求定義階段,science和AI各佔一半。到了模型開發階段,AI的比重可能更高達到80%。在最終交付給客戶時,我們會與science團隊密切合作,客戶的驗證過程中一般生物部分佔80%,AI仍佔20%,他們會持續使用我們的模型,並在實際生產中應用。整個流程中不同環節的AI佔比也有所不同。

王琰:按照實際業務情況,我們服務不同客戶時佔比會不同,比如我們服務AI for Science的客戶時,AI佔比較高,在爲創新藥企提供結構解析服務時,大部分是science的內容。那從整體AI For Science產業的角度來看,這個流程是,首先是science產生大量數據作爲基礎訓練集,訓練AI模型,AI模型產生結果後再返回science進行驗證,驗證結果的真僞,再給模型反饋,不斷往復,使AI模型逐步優化,行成形成“科學數據-AI模型-實驗驗證”的閉環。在這個閉環中science的比重是較多的。而且在AI For Science領域,絕不能僅靠算力的堆疊,很多時候對science的深入理解和內見決定了研發的效率和深度。所以從目前來看,science佔的比重更大些,大約在60%-65%。但是隨着研究的進展,隨着數據和模型的積累,AI的佔比會逐步提升,但科學實驗端的作用永遠不會消失,只會更加自動化與智能化。在未來,AI和science一定會是雙輪驅動,共同推動生命科學和其他科學領域的發展。

吳炳見:五年後AI的比重可能佔多少?

王琰:五年後,我估計AI能佔到至少45%,而science則是55%。實際上AI for science是一個動態的平衡,基礎實驗確定真實世界的“硬約束”和“邊界條件”,AI在此基礎上尋找模式和加速提出假設。在自然生命科學領域,還有很多邊界需要由science來開拓,就比如我們公司的二代冷凍電鏡技術CryoET,可以觀測在不同生物狀態下大分子的原位結構,隨着這些邊界的逐步擴展,數據累積增多,AI在這個領域的作用將日益增強。

李宇平:前面的嘉賓已從多個維度分析了這個問題,包括客戶類型、需求階段和公司定位等。我更多從時間發展的角度看,這個比例很難量化,是動態發展的。整個產業界發展的基礎是科學,而關鍵在於AI,兩者互相支撐,呈螺旋式上升。以我們爲例,起初依靠science,對物質結構和化學反應進行計算,開展實驗研究。這些數據累積後,我們纔開始探索AI算法設計,確保這些算法符合物理學規律,並能基於計算和實驗數據不斷迭代AI的能力。在AI給出預測結果後,我們在science層面再進行驗證。在AI能力尚未完全達標時,產業界更多依賴於science及專家經驗驅動和實驗探索。但關鍵的突破在於AI,未來AI很可能會佔到半數以上的比重。

吳炳見:你們做AI for 材料,AI佔比多少?

李宇平:目前來看,需要區分所謂AI是傳統的統計學模型還是數據驅動的深度學習框架。前者佔比相當高,許多大公司內部會利用開源工具和大語言模型幫助建設自己的AI團隊來做一些數字化的項目。至於深度學習,由於一些研發場景的不適配及高昂的開發成本,其應用相對罕見。

吳炳見:今年諾貝爾獎頒佈以後,我相信科學界的每個人都感受到了一些觸動,科學家的畫像在未來可能會有所變化。在你接觸的行業中,這對科學家會有什麼樣的影響?你覺得未來科學家的畫像會是什麼樣的?

李宇平:在我看來,未來的科研團隊會越來越依賴AI,AI將成爲科學家的貼身助手。從科研的早期階段,比如文獻調研,到商業化過程中的專利檢索和材料信息檢索,這些耗時而繁重的過程都可以由AI來承擔。進入到面向應用場景和市場需求的研發階段,AI能夠提出多種可能的解決方案,快速探索候選空間,並迅速得出目標產品。在這種情況下,科學家的角色會轉向更進一步的驗證或規劃。

王琰:今年諾貝爾獎的頒發,我相信對很多人都是一個震撼,也是一個信號,顯示AI已經成爲科學研究中不可或缺的一個固定範式,是基礎工具,而不僅是輔助。AI對科學研究的效率提升是巨大的,比如我們的一個合作伙伴現在已經可以做到每週產出10萬個多肽複合物的預測,這種效率在以前不可想象,所以未來的科學家,一定要掌握AI的工具,加速自己的研究,也爲自己的研究提供了更多探索的空間。

但於此同時,我們也要明白,AI是工具不是終局,科學的前沿問題仍需要人類的創造性和判斷力。人類科學家對問題的洞察力、對實驗設計的直覺以及對結果的解釋仍然至關重要。舉個例子,中國科學院上海藥物所在12月6日發表了一篇論文,指出Alphafold3預測的GPCR複合物結構是錯誤的。這表明科學家在驗證AI結果、界定AI的應用邊界中扮演着不可替代的角色。現有的AI模型在自然科學領域還遠遠達不到完全可靠的水平,也無法預測分子動態模型或與其他分子的相互作用。因此,AI是科學家加速科研的有力工具,但科學家的作用不可被取代。

徐子堯:因爲我們公司有許多同事來自諾貝爾獎得主的團隊,比如BioMap美國公司總裁Per Greisen,他之前在David Baker的課題組工作,後來在諾和諾德擔任全球副總裁。我們與David Baker團隊和頂尖學府的教授都有合作。這次諾貝爾獎是一個非常積極的信號。四年前公司成立時,在中國找到既懂AI又懂生物學的人非常難。過去幾年,我們努力促進AI和生物領域人才的對話,舉辦了許多培訓和演講。這次諾貝爾獎再次點燃了公衆對這一領域的關注,無論是從生物還是AI的角度,大家都開始向中間靠攏,擁抱未來的變革。我們希望這種趨勢繼續下去,吸引更多科學家和學生投身於這一領域。

仝督讀:今年諾貝爾獎頒給了AI,我認爲這更多是一種出圈的行爲。在生物製藥行業,AI的使用已經非常廣泛,比如早期的CADD(Computer Aided Drug Design),即計算機輔助藥物設計,這在上世紀就已經開始了。我個人覺得,從行業內或學術的角度看,工具的發展是漸進式的,從最初的簡單統計方法或基於第一性原理的化學計算方法,到後來AI技術的突破,使AI能與之前所有的知識整合,進行更精準的預測,從而加速藥物設計過程。這一進展是基於之前所有積累的數據逐步實現的。所以諾獎的獲得更多是讓不瞭解這個行業的普通人知道,AI等計算工具在基礎科學研究及製藥等行業中的應用已經越來越廣泛了。

吳炳見:由於AI for science面向的領域非常多,包括與生命科學、材料科學等相關的領域,我相信還有其他學科與之交叉後可以產生有趣的成果。大家能談談,在AI for science中,最快落地的方向可能是什麼?在實際落地時,又會遇到哪些困難?

仝督讀:在我所在的生物製藥領域,最容易落地的領域肯定是蛋白設計,包括抗體設計等藥物設計方面。這些領域可能更快實現落地,因爲蛋白質研究在過去積累了大量高質量、結構化的數據。比如從結構預測到親和力預測、蛋白功能預測等,這些模型已經能夠達到非常高的精度,對藥物設計產生重大影響。

儘管目前還沒有完全由AI從頭設計的小分子或抗體藥物通過臨牀上市,但我們在研的管線中已經看到了AI作爲輔助研發的身影。另一方面,落地的瓶頸可能是某些細分領域仍存在數據質量不足的問題,導致預測準確度不夠。最大的問題是對於臨牀層面的預測,AI還不能做出有效預測。在實驗室外部環境的理化性質預測可能取得不錯的結果,但在體內環境,尤其是從小鼠到人的轉換中,存在巨大鴻溝,目前還沒有足夠好的數據集支持AI平臺開發模型跨越這些鴻溝。

吳炳見:那現在這個鴻溝主要靠什麼來填補?

仝督讀:主要是通過積累更多臨牀研究的數據來填補。

徐子堯:我們最近在生物製造方面投入較多,也與多家企業進行了大規模合作。生物製造領域的落地速度可能更快,因爲它不涉及臨牀和監管。生物製造實際上是使用微生物或細胞生產產品,這些產品可以是日常使用的維生素或代糖,它們已開始替代傳統化工產業或生產新產品。在生物製造中,使用AI來改造酶的研發時間可能很短,從小試到放大生產只需幾個月到一年。這使得數據迭代非常快,AI在多個產業中迅速顯示出優勢,包括育種、農業、飼料、維生素、保健品和醫美行業。這些領域都是AI平臺化的優勢所在,我們通過改造不同的酶,應用相似的算法,實現快速的行業應用。

王琰:最快落地的方向就是仝總提到了藥物篩選和大分子預測領域的落地,現在許多模型和公司已在這些領域取得了不錯的成果,但是目前產業化進程尚未特別順利,主要是因爲存在許多現實問題尚未解決,比如這些模型預測結構的生物有效性還不足,也無法預測不同生物狀態下的結構,無法預測分子動態信息,無法預測分子間相互作用和大型複合物,因爲這些模型訓練的基礎數據集就不存在這些信息。比如Alphfold,訓練集來源於Protein Data Bank,這些數據大多是蛋白質的晶體結構數據,所以這些模型能預測大部分蛋白質的剛性結構框架,但不能預測柔性結構。

隨着技術進步,累積更多包含更多信息的數據,就有望解決目前模型的這些問題。我們公司冷凍電鏡二代技術CryoET,不需結晶,甚至不需蛋白的提純和富集,直接觀察到生物狀態下原位的結構,可以觀察分子動態信息、分子間相互作用、大型複合物等,CryoET產生的結構數據就爲解決模型這些問題提供了基礎。以往觀察一個腫瘤標誌物的結構,需要經過蛋白提純、再表達、富集、純化篩選等多個步驟,經過這些處理過程,腫瘤標誌物的很多柔性結構已經改變,通過結構你無法判斷在不同生物狀態下這個大分子是什麼構型在執行什麼功能,但我們的CryoET技術可以直接觀測生物原位狀態下的構型,可以清楚觀察到在此種生物狀態下大分子是什麼構型,在執行什麼功能。

且傳統技術在分離提純過程中也篩掉忽略了很多信息,比如在腫瘤微環境中一些複合物的存在,比如藥物和微環境中一些複合物的結合,這些信息經過純化篩選都忽略掉了,CryoET技術直接觀測生物原位結構就可以觀察到這些之前被miss掉的信息,爲很多疾病的解釋和治療提供了更多信息。隨着足夠數據的積累,基於這些數據的AI模型將能預測更多分子間的相互作用,複合物相關預測,以及更多的柔性結構。這對整個行業的應用可能帶來更多的可能性。甚至隨着技術的發展,如果我們能觀察到藥物進入人體和每一個細胞每種蛋白結合變化的全過程,那藥物和人體作用的全流程就可視化了,各種作用機制也就透明瞭,那麼在未來也許我們就不需要進行小動物大動物臨牀試驗了,這將改變藥物研發的流程和產業格局。

李宇平:前面的討論都集中在生物科技領域,我這裡談一下材料領域的情況。目前看來,在材料領域最容易、最快速落地的主要是配方優化和分子篩選。配方優化很好理解,即通過添加各種助劑組分、調整生產工藝工況,得到性質更優的中間體或最終的產品。這個過程中會產生大量數據,同時也是一個跨尺度的問題,從時間和空間兩個維度上都跨越所有尺度。

在時間尺度上,化學反應的過渡態存在時間只有皮秒級別,到後面的物理化學混合過程則需要在一個長得多的時間尺度上觀察;在空間上,從化學反應的原子級到分子、聚合物、最後的混合物,也是在尺度上的一次極大跨越。這就帶來了多尺度建模和銜接工藝生產的問題。

材料最終要實現商業化,要量產,在這個過程中,它涉及到很多器械的配合和人的操作,這帶來了很多不可建模或難以建模的因素。這些影響可能會導致在AI層面上有一些失效、失真的情況,模擬仿真是非常重要的一步。當然,我們也看到了很多技術的發展,比如工業互聯網時代智慧工廠的技術發展,爲這個問題的解決提供了很好的基礎,即通過增加傳感器,更多地捕獲和採集數據,並且更有意義地、有結構化地組織這些數據,從而解決這個問題。

吳炳見:感謝各位嘉賓的精彩分享。從各自的領域,以非常科普的方式,儘量避免使用專業術語,給大家介紹了你們在AI for science領域的見解、遇到的機遇和挑戰。我認爲這非常有意思,現在AI正走向兩個極端。一方面,自從大模型開始逐漸落地後,出現了很多面向消費者的機會,即使用AI可能創造出覆蓋廣泛GDP的十億級產品。另一方面,AI for science服務於一羣非常高端的科學家,這羣人雖然少,但它爲他們帶來的提效和突破所佔的GDP也是一個非常高的數字。讓我們期待明年的諾貝爾獎,看看它的AI含量到底有多高。