在數(shù)字化浪潮中,AI正在成為生物醫(yī)藥行業(yè)高質量發(fā)展的重要推動力。3月23日,百度深圳研發(fā)中心自然語言處理部技術總監(jiān)、螺旋槳 PaddleHelix 生物計算平臺負責人何徑舟在機器之心AI科技年會AI for Science 論壇上發(fā)表了《飛槳螺旋槳PaddleHelix賦能生物醫(yī)藥:AI技術在藥物研發(fā)領域的探索和應用》主題演講,介紹了螺旋槳PaddleHelix在生物醫(yī)藥領域的布局與技術進展,以及在應用落地方面的成果。
傳統(tǒng)藥研瓶頸待解,預訓練或成行業(yè)探索新方向
目前,伴隨全球生物醫(yī)藥市場規(guī)模持續(xù)上漲,新藥研發(fā)的投入產(chǎn)出比卻持續(xù)下滑,藥物研發(fā)面臨的長周期、高投入、高風險等問題凸顯。傳統(tǒng)藥物研發(fā)在嘗試了生物實驗、傳統(tǒng)機器學習等方法后,面對大量無標注的數(shù)據(jù),高要求的泛化能力,以及生物計算領域的特性,終于邁向擁有自監(jiān)督和多任務學習融合能力,又考慮生物領域研究對象特性的預訓練模型。
反觀以化合物、DNA與RNA、蛋白質為主要研究對象的生物計算,何徑舟表示,在此之前,預訓練模型在NLP、CV、跨模態(tài)等AI領域已相繼展現(xiàn)出通用的AI能力、優(yōu)秀的圖像分類效果,以及強大的生成能力,構建基于預訓練技術的分子表征模型、蛋白表征模型、組學表征模型,使之成為生物計算的底座,將有助于解決傳統(tǒng)機器學習應用在生物領域的問題。
預訓練模型發(fā)力,釋放多維技術優(yōu)勢
基于預訓練技術,螺旋槳PaddleHelix已經(jīng)在化合物表征和蛋白質表征等研究方向上取得重大進展。
在化合物領域,螺旋槳 PaddleHelix 團隊揭示了一種基于三維空間結構信息的化合物建模方法,即“幾何構象增強 AI 算法”(Geometry Enhanced Molecular Representation Learning,GEM 模型),首次在全球范圍內(nèi)將化合物的幾何結構信息引入自監(jiān)督學習和分子表示模型,并在下游十多項的屬性預測任務中取得 SOTA,成為百度在 AI 賦能藥物研發(fā)領域對外公開的又一項重磅成果。
業(yè)界之前的預訓練方法沒有考慮化合物的三維空間結構,而空間結構對于化合物性質至關重要。憑借化合物表征模型GEM在基于空間結構的圖神經(jīng)網(wǎng)絡和多個幾何級別的自監(jiān)督學習任務上的技術創(chuàng)新,該研究于今年2月登上了國際頂級學術期刊《Nature》子刊《Nature Machine Intelligence》。
在蛋白質領域,蛋白的建模技術能夠有效表征蛋白,對預測蛋白結構和預測蛋白-蛋白相互作用(PPI)來說至關重要 。螺旋槳PaddleHelix團隊以“蛋白PPI表征模型S2F”為例分享了相關進展。蛋白-蛋白相互作用問題與蛋白的結構和功能密切相關,單獨使用蛋白質序列很難描述蛋白質的結構和功能。螺旋槳創(chuàng)新性地提出,通過構建多模態(tài)的蛋白預訓練技術,應用在PPI任務上。該模型在跨物種蛋白PPI、抗體-抗原親和力預測、SARS-CoV-2的抗體中和預測,以及突變驅動的蛋白結合親和力變化的預測上,取得SOTA結果,相比于其他蛋白質表示模型有5%-10%的提升。
在本次科技年會上,螺旋槳PaddleHelix團隊還透露,螺旋槳基于飛槳框架,聯(lián)合國內(nèi)多家超算中心,在國產(chǎn)的軟硬件上,完整適配并跑通了AlphaFold2的訓練和推理代碼,實現(xiàn)千萬級別的蛋白質initial training訓練時間從AlphaFold2的7天壓縮到2.6天。相關代碼也將于3月底在螺旋槳PaddleHelix平臺開源,為國內(nèi)相關科研工作者提供更多的選擇。
AI+生物計算成果涌動,螺旋槳全面賦能生物醫(yī)藥產(chǎn)業(yè)
除了技術上的不斷創(chuàng)新,螺旋槳PaddleHelix在藥物研發(fā)等應用場景領域取得了多項落地進展,全面賦能生物醫(yī)藥產(chǎn)業(yè)。
在藥物研發(fā)領域,基于螺旋槳打造的“ADMET成藥性預測模型”已經(jīng)在biotech公司實際業(yè)務管線中完成商業(yè)化落地;藥物虛擬篩選pipeline在first in class的合作管線中應用,并成功篩選到活性在微摩爾級別的苗頭化合物。相關的算法模型也被收錄在KDD 2021和BIBM 2021等會議上。
在蛋白領域,螺旋槳PaddleHelix團隊運用多模態(tài)的蛋白PPI表征模型S2F,聯(lián)合合作伙伴,共同推進在新冠變異病毒奧密克戎上的研究。通過百度的算法,預測新冠變異病毒奧密克戎的線性抗原表位,幫助合作伙伴研發(fā)變異毒株奧密克戎的疫苗,還能快速應對潛在的新型變異,后續(xù)也有望攜手合作伙伴,在罕見病、癌癥、免疫與代謝等疾病領域開創(chuàng)創(chuàng)新藥物研發(fā)方案。
據(jù)悉,螺旋槳PaddleHelix是基于百度飛槳深度學習框架打造,通過螺旋槳生物計算開源工具集,搭建了生物計算和服務平臺,為藥物研發(fā)、疫苗設計和精準醫(yī)療三大場景提供強有力的支撐,同時也為生物信息學、計算機交叉學科背景的學習者、研究者和合作伙伴提供了AI算法模型,賦能生物醫(yī)藥產(chǎn)業(yè)。
百度在生物醫(yī)藥方面形成的核心能力已在GitHub開源,提供包括虛擬篩選、ADMET、DTI、PPI、蛋白結構預測等9大能力模塊,為生物醫(yī)藥行業(yè)內(nèi)的研究人員提供專業(yè)服務。
未來,螺旋槳PaddleHelix生物計算平臺,將繼續(xù)秉持開源開放的態(tài)度,期望與更多學術界和生物醫(yī)藥產(chǎn)業(yè)伙伴合作,加速AI與生物計算的融合創(chuàng)新,共同推動生物醫(yī)藥行業(yè)高質量發(fā)展。