• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    自動(dòng)藥物設(shè)計(jì)方法、系統(tǒng)、計(jì)算設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)技術(shù)方案

    技術(shù)編號(hào):26794858 閱讀:30 留言:0更新日期:2020-12-22 17:11
    本發(fā)明專利技術(shù)公開(kāi)了一種自動(dòng)藥物設(shè)計(jì)方法、系統(tǒng)、計(jì)算設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。所述方法包括:將目標(biāo)先導(dǎo)化合物分解為具有可合成模塊的片段,依次將所述片段輸入已經(jīng)訓(xùn)練的藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型進(jìn)行采樣;將所述藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型輸出的新片段重新組裝,得到新的先導(dǎo)化合物。本發(fā)明專利技術(shù)的自動(dòng)藥物設(shè)計(jì),在分子生成有效性、獨(dú)特性方面性能有大幅提升,可以生成新穎性高、可合成性強(qiáng)、成藥性強(qiáng)的分子;可以輕松地在高分子量區(qū)域生成分子;只需用特定數(shù)據(jù)集訓(xùn)練一次,即可重復(fù)用于不同的靶點(diǎn)先導(dǎo)化合物生成場(chǎng)景;可以很容易實(shí)現(xiàn)固定化合物局部結(jié)構(gòu),對(duì)其余部分進(jìn)行優(yōu)化。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    自動(dòng)藥物設(shè)計(jì)方法、系統(tǒng)、計(jì)算設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
    本專利技術(shù)涉及計(jì)算機(jī)
    ,具體的,涉及一種自動(dòng)藥物設(shè)計(jì)方法、系統(tǒng)、計(jì)算設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
    技術(shù)介紹
    設(shè)計(jì)具有理想性質(zhì)的先導(dǎo)化合物是藥物發(fā)現(xiàn)階段的核心任務(wù)。在快速跟隨(Fast-follow)和類似(Me-too)藥物設(shè)計(jì)場(chǎng)景中,傳統(tǒng)過(guò)程需要搜集大量論文和專利,在藥物化學(xué)家閱讀和理解的基礎(chǔ)上,設(shè)計(jì)出結(jié)構(gòu)新穎、可合成、成藥性強(qiáng)的化合物,并通過(guò)化學(xué)合成和生物表征得到驗(yàn)證。分子生成(MolecularGeneration)是近幾年發(fā)展迅速、基于深度生成學(xué)習(xí)(deepgenerativelearning)的自動(dòng)藥物設(shè)計(jì)方法。通過(guò)讓模型學(xué)習(xí)輸入化合物的SMILES(一種字符串形式表示的化合物結(jié)構(gòu))或者M(jìn)olecularGraph(分子圖表征的原子和化學(xué)鍵連接)數(shù)據(jù),掌握統(tǒng)計(jì)規(guī)律后,自動(dòng)產(chǎn)生新結(jié)構(gòu)的化合物,可以極大地提高先導(dǎo)化合物設(shè)計(jì)工作效率。常見(jiàn)的分子生成算法有循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)、生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)、變分自動(dòng)編碼器(VariationAutoencoders,VAE)等。無(wú)論哪一種算法,均需要給模型輸入大量分子結(jié)構(gòu)數(shù)據(jù)實(shí)例,充分訓(xùn)練神經(jīng)網(wǎng)絡(luò),以掌握化合物結(jié)構(gòu)設(shè)計(jì)的要領(lǐng)。參考圖1A和1B,現(xiàn)有以SMILES字符串作為輸入的分子生成算法,普遍采用了Lead-to-Lead(L2L)框架:在訓(xùn)練階段以整體先導(dǎo)化合物結(jié)構(gòu)數(shù)據(jù)作為輸入;在采樣階段亦然,以便獲得與目標(biāo)分子性質(zhì)相近的新結(jié)構(gòu)先導(dǎo)化合物。這種框架下的應(yīng)用模型,例如由InsilicoMedicine公司開(kāi)發(fā)的GENTRL,盡管取得了令人矚目的成功,卻存在若干明顯問(wèn)題,包括:?jiǎn)栴}1,L2L框架模型生成分子的有效性(validity)和獨(dú)特性(uniqueness)較低。問(wèn)題2,L2L框架模型生成分子的高新穎性(highnovelty)較低,難以在距離目標(biāo)分子較遠(yuǎn)的化學(xué)空間(分子相似性Tc<0.4)產(chǎn)生結(jié)構(gòu)正常的化合物。問(wèn)題3,L2L框架模型很難生成分子量(MolecularWeight,MW)大于500的結(jié)構(gòu)正常化合物,因此無(wú)法應(yīng)用于一些需要高分子量的先導(dǎo)化合物設(shè)計(jì)場(chǎng)景。問(wèn)題4,L2L框架模型無(wú)法跨靶點(diǎn)重用,在應(yīng)用于不同的靶點(diǎn)時(shí),必須要加入目標(biāo)靶點(diǎn)已知活性化合物進(jìn)行訓(xùn)練,才能夠生成新結(jié)構(gòu)化合物,導(dǎo)致時(shí)間、人力、物力上的浪費(fèi)。問(wèn)題5,L2L框架無(wú)法讓模型固定化合物的某一部分子結(jié)構(gòu),從而在其他部分進(jìn)行自動(dòng)采樣。以上問(wèn)題限制了使用L2L框架的分子生成模型實(shí)際應(yīng)用價(jià)值。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)提供了自動(dòng)藥物設(shè)計(jì)方法,包括:將目標(biāo)先導(dǎo)化合物分解為具有可合成模塊的片段,依次將所述片段輸入已經(jīng)訓(xùn)練的藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型進(jìn)行采樣;將所述藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型輸出的新片段重新組裝,得到新的先導(dǎo)化合物。在本專利技術(shù)的一種實(shí)施例中,所述藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)集通過(guò)如下方式獲得:以預(yù)定規(guī)則對(duì)CHEMBL25數(shù)據(jù)集中的活性化合物進(jìn)行過(guò)濾,得到初始數(shù)據(jù)集;將初始數(shù)據(jù)集中的每一個(gè)初始化合物分解為具有可合成模塊的片段并去重,得到多個(gè)非冗余片段;使用隨機(jī)生成SMILES方法,將所述非冗余片段擴(kuò)增預(yù)定倍數(shù),以擴(kuò)增后得到的多條SMILES字符串作為所述訓(xùn)練數(shù)據(jù)集。在本專利技術(shù)的一種實(shí)施例中,所述預(yù)定規(guī)則包括:活性化合物作用靶點(diǎn)屬于人屬蛋白家族GPCRA,Hydrolase,Kinase,Ligand-gatedIonChannel,Oxidoreductase,Protease,Transferase,Transporter,Voltage-gatedIonChannel中的一種;活性測(cè)試類型為SINGLEPROTEIN;去除含有碎片的化合物;去除分子量大于500的化合物;以及去除PCHEMBL<6的低活性化合物。在本專利技術(shù)的一種實(shí)施例中,輸入訓(xùn)練的SMILES字符串被轉(zhuǎn)化為固定長(zhǎng)度為120的字符串:如果SMILES字符串不足120,則用空格補(bǔ)齊;若長(zhǎng)度超過(guò)120,則被過(guò)濾;以及,根據(jù)編碼SMILES字符串所用到的字符作為標(biāo)志,將每一個(gè)字符轉(zhuǎn)化為one-hot向量,最終,一條SMILES字符串被轉(zhuǎn)化為120×43的矩陣作為所述藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型的輸入。在本專利技術(shù)的一種實(shí)施例中,所述VAE模型以開(kāi)源MolecularVAE模型為基礎(chǔ),分子結(jié)構(gòu)檢查、片段分解和片段組裝使用RDKIT工具包;深度學(xué)習(xí)框架使用Pytorch1.5.1,CUDA版本為10.1.105,操作系統(tǒng)為UbuntuLTS18.04,所有計(jì)算工作均于4×GeforceRTX-2080-TIGPU服務(wù)器上完成。本專利技術(shù)還提供了一種自動(dòng)藥物設(shè)計(jì)系統(tǒng),包括:藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型;輸入模塊,用于將目標(biāo)先導(dǎo)化合物分解為具有可合成模塊的片段,依次將所述片段輸入已經(jīng)訓(xùn)練的所述藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型進(jìn)行采樣;輸出模塊,用于將所述藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型輸出的新片段重新組裝,得到新的先導(dǎo)化合物。本專利技術(shù)還提供了一種計(jì)算設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述自動(dòng)藥物設(shè)計(jì)方法。本專利技術(shù)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述自動(dòng)藥物設(shè)計(jì)方法。本專利技術(shù)的自動(dòng)藥物設(shè)計(jì),在分子生成有效性、獨(dú)特性方面性能有大幅提升,可以生成新穎性高、可合成性強(qiáng)、成藥性強(qiáng)的分子;可以輕松地在高分子量區(qū)域生成分子;只需用特定數(shù)據(jù)集訓(xùn)練一次,即可重復(fù)用于不同的靶點(diǎn)先導(dǎo)化合物生成場(chǎng)景;可以很容易實(shí)現(xiàn)固定化合物局部結(jié)構(gòu),對(duì)其余部分進(jìn)行優(yōu)化。附圖說(shuō)明圖1A和1B是現(xiàn)有技術(shù)的L2L框架下模型輸入、訓(xùn)練及采樣示意圖。圖2A和2B是本專利技術(shù)實(shí)施例的L2F2L框架下模型輸入、訓(xùn)練及采樣示意圖。圖3A和3B是L2L和L2F2L框架下訓(xùn)練數(shù)據(jù)集性質(zhì)統(tǒng)計(jì)分布比較;其中,圖3A是兩者的SMILES字符串長(zhǎng)度概率密度分布比較,圖3B是分子量分布比較。圖4是本專利技術(shù)實(shí)施例采用的VAE模型結(jié)構(gòu)圖,該模型由三部分組成:編碼器(Encoder),隱含空間(latentspace),解碼器(Decoder)。圖5A和5B分別顯示了訓(xùn)練過(guò)程中L2L框架和L2F2L框架下,VAE模型損失函數(shù)隨訓(xùn)練次數(shù)(epoch)的改變。圖6A-F顯示了KRAS化合物、L2L模型生成的新穎(novel)和高新穎(highnovel)化合物、L2F2L模型生成的新穎和高新穎化合物在可合成性(SA)和成藥性(QED)空間上的分布;其中,虛線框所標(biāo)區(qū)域?yàn)镾A<5以及QED>0.2的區(qū)域,SA數(shù)值越大,越難合成;QED數(shù)值越大,越易成藥。圖7A和7B顯示了使用L2L框架和L2F2L框架VAE模型采樣得到新穎分子大小分布;其中,圖7A顯示了SMILES字符串長(zhǎng)度分布,圖7B顯示了分子量分布。圖8顯示了L2L和L2F2L模型采樣固本文檔來(lái)自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】
    1.一種自動(dòng)藥物設(shè)計(jì)方法,其特征在于,包括:/n將目標(biāo)先導(dǎo)化合物分解為具有可合成模塊的片段,依次將所述片段輸入已經(jīng)訓(xùn)練的藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型進(jìn)行采樣;/n將所述藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型輸出的新片段重新組裝,得到新的先導(dǎo)化合物。/n

    【技術(shù)特征摘要】
    1.一種自動(dòng)藥物設(shè)計(jì)方法,其特征在于,包括:
    將目標(biāo)先導(dǎo)化合物分解為具有可合成模塊的片段,依次將所述片段輸入已經(jīng)訓(xùn)練的藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型進(jìn)行采樣;
    將所述藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型輸出的新片段重新組裝,得到新的先導(dǎo)化合物。


    2.根據(jù)權(quán)利要求1所述的自動(dòng)藥物設(shè)計(jì)方法,其特征在于,所述藥物設(shè)計(jì)機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)集通過(guò)如下方式獲得:
    以預(yù)定規(guī)則對(duì)CHEMBL25數(shù)據(jù)集中的活性化合物進(jìn)行過(guò)濾,得到初始數(shù)據(jù)集;
    將初始數(shù)據(jù)集中的每一個(gè)初始化合物分解為具有可合成模塊的片段并去重,得到多個(gè)非冗余片段;
    使用隨機(jī)生成SMILES方法,將所述非冗余片段擴(kuò)增預(yù)定倍數(shù),以擴(kuò)增后得到的多條SMILES字符串作為所述訓(xùn)練數(shù)據(jù)集。


    3.根據(jù)權(quán)利要求2所述的自動(dòng)藥物設(shè)計(jì)方法,其特征在于,所述預(yù)定規(guī)則包括:
    活性化合物作用靶點(diǎn)屬于人屬蛋白家族GPCRA,Hydrolase,Kinase,Ligand-gatedIonChannel,Oxidoreductase,Protease,Transferase,Transporter,Voltage-gatedIonChannel中的一種;
    活性測(cè)試類型為SINGLEPROTEIN;
    去除含有碎片的化合物;
    去除分子量大于500的化合物;以及
    去除PCHEMBL<6的低活性化合物。


    4.根據(jù)權(quán)利要求2所述的自動(dòng)藥物設(shè)計(jì)方法,其特征在于,輸入訓(xùn)練的SMILES字符串被轉(zhuǎn)化為固定長(zhǎng)度為120的字符串:如果SMILES字符串不足120,則用空格補(bǔ)齊;若長(zhǎng)度超過(guò)120,則被過(guò)濾;以及,根據(jù)編碼S...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:黃韜金鋒魏文娟
    申請(qǐng)(專利權(quán))人:深圳智藥信息科技有限公司
    類型:發(fā)明
    國(guó)別省市:廣東;44

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 人妻丝袜中文无码av影音先锋专区| 中文字幕人妻无码系列第三区| 永久免费av无码不卡在线观看| 欧美性生交xxxxx无码影院∵| julia无码人妻中文字幕在线| 亚洲精品一级无码中文字幕| 无码伊人66久久大杳蕉网站谷歌| 久久水蜜桃亚洲AV无码精品| 亚洲中久无码永久在线观看同| 亚洲Av永久无码精品黑人| 综合国产在线观看无码| 成年轻人电影www无码| 人妻丝袜中文无码av影音先锋专区| 无码激情做a爰片毛片AV片| 人妻无码αv中文字幕久久| 亚洲乱亚洲乱妇无码麻豆| 无码人妻啪啪一区二区| 亚洲av无码片在线观看| 亚洲中文字幕无码一久久区| 亚洲国产精品无码久久青草| 国产精品无码久久综合网| 无码少妇一区二区三区浪潮AV | 午夜不卡久久精品无码免费 | 无码精品不卡一区二区三区| 无码超乳爆乳中文字幕久久| 国产亚洲3p无码一区二区| 永久无码精品三区在线4| 无码日韩AV一区二区三区| 亚洲午夜成人精品无码色欲| 亚洲AV无码一区二区三区人| 无码内射中文字幕岛国片| 久久午夜无码免费| 亚洲AV人无码激艳猛片| 无码视频在线观看| 久久久久亚洲AV片无码下载蜜桃| 无码国内精品人妻少妇| 无码内射中文字幕岛国片| 日韩免费人妻AV无码专区蜜桃| 无码人妻久久久一区二区三区| 日韩精品无码一区二区三区| 最新亚洲春色Av无码专区|