近日,昇思MindSpore【1】團(tuán)隊(duì)與昌平國(guó)家實(shí)驗(yàn)室、北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心BIOPIC和化學(xué)與分子工程學(xué)院、深圳灣實(shí)驗(yàn)室高毅勤教授課題組聯(lián)合推出蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)推理工具。該工具首次提供了基于昇騰AI基礎(chǔ)軟硬件平臺(tái)的解決方案,并且端到端性能優(yōu)于AlphaFold22-3倍。相關(guān)模型代碼將依托于華為全場(chǎng)景AI框架昇思MindSpore進(jìn)行開源、并將定期擴(kuò)展與維護(hù),旨在為全球產(chǎn)、學(xué)、研界領(lǐng)域伙伴提供優(yōu)質(zhì)的昇騰AI軟硬件解決方案。 蛋白質(zhì)在分子生物學(xué)的中心法則中具有十分重要的地位,在各種生命過(guò)程中不可或缺。傳統(tǒng)的藥物設(shè)計(jì)一般要通過(guò)大批量篩選,尋找易與目標(biāo)蛋白質(zhì)分子緊密結(jié)合、易合成且沒(méi)有毒副作用的化合物來(lái)完成的,因此研發(fā)周期長(zhǎng)、費(fèi)用高,而在了解蛋白質(zhì)的空間結(jié)構(gòu)后可減少尋找藥物的盲目性,從而縮短研發(fā)周期并降低成本。因此,準(zhǔn)確、快速的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)不僅可以在學(xué)術(shù)研究領(lǐng)域幫助科學(xué)家快速獲得或驗(yàn)證關(guān)鍵蛋白結(jié)構(gòu),促進(jìn)人們對(duì)重要生命過(guò)程中分子機(jī)理的理解,而且在醫(yī)療健康和生物工程領(lǐng)域也能作為有力的工具,引發(fā)藥物靶點(diǎn)發(fā)現(xiàn)、功能蛋白設(shè)計(jì)如抗體和人工酶以及大分子蛋白或小分子藥物高通量虛擬篩選的革命。 傳統(tǒng)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法一直存在計(jì)算精度不足的缺陷,直至2020年谷歌DeepMind團(tuán)隊(duì)基于AlphaFold2【2】利用計(jì)算機(jī)高效準(zhǔn)確獲取蛋白質(zhì)空間結(jié)構(gòu)取得CASP14比賽全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽中蛋白質(zhì)3D結(jié)構(gòu)預(yù)測(cè)的榜首,才讓這一缺陷得到彌補(bǔ)。蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具精度可與實(shí)驗(yàn)方法相媲美,這一成就被Nature等雜志喻為“前所未有的進(jìn)步”。 本次北大高毅勤課題組成功推出基于昇騰AI的蛋白結(jié)構(gòu)預(yù)測(cè)工具,再次證明了國(guó)產(chǎn)AI軟硬件的可用與好用。該工具大大降低了廣大生物醫(yī)療實(shí)驗(yàn)工作者的使用門檻,也將為生物蛋白質(zhì)領(lǐng)域的基礎(chǔ)研究與應(yīng)用工作提供助力。 該工具依托昇思MindSpore,可對(duì)氨基酸序列長(zhǎng)度2000+的蛋白質(zhì)結(jié)構(gòu)解析,能覆蓋約99以上的蛋白序列【3】。同時(shí),借助異構(gòu)計(jì)算架構(gòu)CANNCompute Architecture for Neural Network釋放昇騰AI處理器的澎湃算力,通過(guò)軟硬件協(xié)同優(yōu)化大大提高了蛋白質(zhì)預(yù)測(cè)的計(jì)算效率。參考DeepMind于2021年7月份開源的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型AlphaFold2【4】,本次開源的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)推理工具模型部分與其相同,在多序列比對(duì)階段,采用了MMseqs2進(jìn)行序列檢索【5】,相比于原版算法端到端運(yùn)算速度有2-3倍的提升。
圖1昇思MindSpore模型與AlphaFold2精度對(duì)比圖? ? ? 2通過(guò)昇思MindSpore預(yù)測(cè)的T1079蛋白結(jié)構(gòu) 綠色代表實(shí)驗(yàn)獲得,紅色代表預(yù)測(cè)獲得? 針對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)及折疊問(wèn)題,聯(lián)合團(tuán)隊(duì)未來(lái)還會(huì)發(fā)布創(chuàng)新的全棧算法+軟件+硬件國(guó)產(chǎn)自主可控技術(shù),同時(shí)也會(huì)牽手更多的學(xué)術(shù)科研界合作伙伴,期望能夠在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域上共同探索和進(jìn)步,助力醫(yī)學(xué)、生物科學(xué)等領(lǐng)域的發(fā)展,促進(jìn)國(guó)內(nèi)相關(guān)基礎(chǔ)研究的發(fā)展。 引用: 【1】?Chen L. Deep Learning and Practice with MindSpore[M]. Springer Nature, 2021. 【2】?Jumper J, Evans R, Pritzel A, et al. Applying and improving AlphaFold at CASP14[J]. Proteins: Structure, Function, and Bioinformatics, 2021. 【3】?https://ftp.uniprot.org/pub/databases/uniprot/previous_releases/release-2021_02/knowledgebase/UniProtKB_TrEMBL-relstat.html 【4】?Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021, 5967873: 583-589. 【5】?Mirdita M, Ovchinnikov S, Steinegger M. ColabFold-Making protein folding accessible to all[J]. BioRxiv, 2021. ? |