7月7日,在2023世界人工智能大會(WAIC)上,首個(gè)AI蛋白質(zhì)生成大模型“NewOrigin”(中文名為“達(dá)爾文”)正式亮相。NewOrigin大模型的研發(fā)領(lǐng)軍人許錦波教授表示,AI蛋白質(zhì)生成大模型瞄準(zhǔn)創(chuàng)新藥設(shè)計(jì)、合成生物學(xué)等真實(shí)產(chǎn)業(yè)應(yīng)用需求,將用一個(gè)模型滿足蛋白質(zhì)生成全流程需求,未來大分子藥、新生物材料等蛋白質(zhì)設(shè)計(jì)可實(shí)現(xiàn)“一鍵定制”。
據(jù)介紹,NewOrigin大模型通過學(xué)習(xí)千億級多模態(tài)大數(shù)據(jù),可實(shí)現(xiàn)多模態(tài)定向生成,單模型就能滿足序列生成、結(jié)構(gòu)預(yù)測、功能預(yù)測、從頭設(shè)計(jì)等蛋白質(zhì)生成全流程需求,解決產(chǎn)業(yè)應(yīng)用所需的特定功能蛋白質(zhì)生成難題,并在真實(shí)的產(chǎn)業(yè)環(huán)境中評估效果與價(jià)值。
“大模型的出現(xiàn)將大大加速蛋白質(zhì)生成技術(shù)的發(fā)展進(jìn)程,并推動(dòng)其在生物醫(yī)藥、合成生物學(xué)等領(lǐng)域應(yīng)用,進(jìn)而改變生物經(jīng)濟(jì)的格局。”許錦波在演講中表示。當(dāng)下自然語言大模型的表現(xiàn),讓各界對大模型機(jī)制信心倍增。但在蛋白質(zhì)生成等專業(yè)垂直領(lǐng)域,通用的自然語言大模型能力十分有限。究其原因,生物領(lǐng)域的復(fù)雜數(shù)據(jù)、專業(yè)知識與應(yīng)用場景,都與自然語言交互的通用場景相差甚遠(yuǎn),能力要求也更高。
因此,研發(fā)蛋白質(zhì)生成大模型,除了必備的算法、算力、數(shù)據(jù)等基礎(chǔ)條件,還需要具備兩大專業(yè)進(jìn)階能力:一是融合計(jì)算機(jī)、生物、物理等多學(xué)科,熟識AI、分子動(dòng)力學(xué)、量子計(jì)算等多種方法,且能在實(shí)踐中并行考慮序列與結(jié)構(gòu)、主鏈與側(cè)鏈、進(jìn)化與組學(xué)的跨領(lǐng)域融合能力;二是走出實(shí)驗(yàn)室,下沉至真實(shí)的產(chǎn)業(yè)環(huán)境,在需求、驗(yàn)證、落地上貼近真實(shí)產(chǎn)業(yè)需求的能力。“具備這些能力和條件的團(tuán)隊(duì)非常稀缺”,許錦波認(rèn)為。
許錦波團(tuán)隊(duì)從2019年開始使用預(yù)訓(xùn)練機(jī)制研發(fā)蛋白質(zhì)設(shè)計(jì)算法,通過整合結(jié)構(gòu)預(yù)測、側(cè)鏈預(yù)測、蛋白-蛋白對接等多種技術(shù),結(jié)合多種場景需求,目前已在改造或從頭設(shè)計(jì)蛋白質(zhì)上取得了重要的突破。
分子之心使用AI從頭設(shè)計(jì)的熒光蛋白
在此基礎(chǔ)上,分子之心開發(fā)了融合自然語言和蛋白語言的AI蛋白質(zhì)生成大模型NewOrigin,它具備5重優(yōu)勢:可以根據(jù)特定需求定制化生成蛋白質(zhì),比如針對某個(gè)靶點(diǎn)生成抗體,或針對某個(gè)底物生成特異性的酶等,實(shí)現(xiàn)“按需定制”;基于數(shù)千億多模態(tài)數(shù)據(jù),NewOrigin可以進(jìn)行多模態(tài)的輸入、輸出,比如生成具備某種特定功能的蛋白質(zhì)序列,或生成某個(gè)蛋白質(zhì)的三維結(jié)構(gòu)信息等,滿足不同層次的應(yīng)用所需;同時(shí),為了評估生成效果,NewOrigin融合AI、分子動(dòng)力學(xué)、量子計(jì)算等多種方法,形成多維反饋機(jī)制,來實(shí)現(xiàn)快速驗(yàn)證和迭代。為了降低交互門檻,NewOrigin使用了融合自然語言交互的蛋白質(zhì)生成模式,以滿足廣大不具備AI技術(shù)背景的生物學(xué)家的應(yīng)用需求。更重要的是,NewOrigin大模型是真正面向產(chǎn)業(yè)需求的AI蛋白大模型,可基于工業(yè)級的應(yīng)用反饋持續(xù)迭代,解決真實(shí)的產(chǎn)業(yè)需求。
為了更好的滿足應(yīng)用所需,分子之心將在一站式蛋白質(zhì)預(yù)測、優(yōu)化、設(shè)計(jì)平臺“MoleculeOS”中集成NewOrigin大模型能力,并以NewOrigin為底層基礎(chǔ),面向藥物設(shè)計(jì)、合成生物學(xué)等應(yīng)用場景打造產(chǎn)業(yè)級的解決方案,進(jìn)一步將NewOrigin大模型的能力在藥物設(shè)計(jì)、生物育種、環(huán)境保護(hù)、高性能材料等多個(gè)領(lǐng)域廣泛落地,驅(qū)動(dòng)多領(lǐng)域創(chuàng)新。
許錦波表示,AI和生物科技是當(dāng)下全球科技競爭的重要戰(zhàn)略領(lǐng)域,蛋白質(zhì)技術(shù)作為生物科技的底層技術(shù),與AI融合創(chuàng)新是必由之路。AI蛋白質(zhì)生成大模型的開發(fā)只是起點(diǎn),更具價(jià)值的是將其真正應(yīng)用于產(chǎn)業(yè)中,實(shí)現(xiàn)可編程、可預(yù)測的創(chuàng)新藥設(shè)計(jì)和生物制品開發(fā),通過底層技術(shù)突破驅(qū)動(dòng)生物經(jīng)濟(jì)變革。