System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 永久免费av无码网站韩国毛片,亚洲熟妇av午夜无码不卡,国产精品无码一区二区三区不卡
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    用于到虛擬化學組合合成庫的基于查詢的隨機訪問的系統(tǒng)和方法技術(shù)方案

    技術(shù)編號:44162221 閱讀:11 留言:0更新日期:2025-01-29 10:34
    本公開涉及用于查詢包括多種化合物并表示多種反應類型的組合合成庫的系統(tǒng)和方法,其中每種反應類型映射到多種反應物,并且每種反應物映射到多個合成子,接受以單個圖的形式對分子編碼器模型的查詢,從而獲得查詢向量。將所述查詢向量輸入到反應查詢生成器模型中,從而獲得第一反應類型和第一多種反應物。通過將所述反應物輸入到合成子查詢生成器模型中來確定每種反應物的合成子。因此確定了一組合成子,每個合成子對應于所述第一多種反應物中的反應物。識別所述組合合成庫中的分子結(jié)構(gòu),所述組合合成庫包括根據(jù)與所述第一反應類型相關(guān)的合成規(guī)則排列的所述一組合成子。

    【技術(shù)實現(xiàn)步驟摘要】
    【國外來華專利技術(shù)】

    本公開總體上涉及篩選目標類似物的組合合成庫。


    技術(shù)介紹

    1、虛擬高通量篩選(vhts)[47]在早期藥物發(fā)現(xiàn)中獲得了巨大的關(guān)注,這在很大程度上要歸功于利用組合合成構(gòu)造的按需制造化學庫。這些組合合成庫(csl)能夠從一組相當小的化學可訪問構(gòu)建塊中訪問超大量的化學空間,這些構(gòu)建塊可以根據(jù)已知的合成例程進行組合。近年來,這些庫已從數(shù)百萬種增長到數(shù)十億種,現(xiàn)在又增長到數(shù)萬億種化合物[22,33,44,58]。因此,虛擬化學庫的規(guī)模正在迅速接近超出允許顯式枚舉的范圍,這為虛擬篩選提出了新的挑戰(zhàn)。例如,enamine?readily?accessible(real)庫[20]利用現(xiàn)成的分子構(gòu)建塊和并行合成,允許幾周的交貨時間,并開創(chuàng)了計算機模擬以及體外高通量篩選之間的不斷減少的延遲的時代。

    2、由于這些構(gòu)造實現(xiàn)的組合爆炸,早期藥物發(fā)現(xiàn)現(xiàn)在已經(jīng)“跨越盧比孔河(crossedthe?rubicon)”進入非枚舉領(lǐng)域。這給計算機模擬命中發(fā)現(xiàn)和優(yōu)化帶來了新的挑戰(zhàn),這依賴于篩選明確枚舉的化合物。這些方法不適合非枚舉設(shè)置,與化合物的數(shù)量成線性比例。

    3、虛擬高通量篩選和枚舉。通常,vhts活動的第一步是準備化合物庫以供后續(xù)使用[1,17]。雖然復合采樣和評分技術(shù)已經(jīng)開發(fā)出來[18],但這些方法仍然依賴于一個詳盡的可訪問庫。一個例外是虛擬合成子分層枚舉篩選(v-synthes)方法[44],它利用了并行合成庫的模塊化性質(zhì)。然而,根據(jù)設(shè)計,v-synthes不允許基于查詢的隨機訪問。另一方面,spacemacs[45]和spacelight[4]可以通過將查詢分解為片段并通過相似性搜索與庫中的合成子進行匹配來提供對模塊化庫的基于查詢的訪問。與這些努力并行地,機器學習在vhts中也受到了極大的關(guān)注:用于預測給定對接構(gòu)象的活性得分[15,43,57],預測分別給定配體和蛋白質(zhì)(未對接)的活性得分[38,56],以及用機器學習方法改進或完全取代經(jīng)典的分子對接[39,51,52]。

    4、分子生成的深度學習方法。從頭藥物設(shè)計在在藥物發(fā)現(xiàn)活動中識別新型化學物質(zhì)方面發(fā)揮著越來越重要的作用[10,36,50,54]。用于分子生成的兩種主要的基于神經(jīng)網(wǎng)絡(luò)的范式是基于文本的生成模型和基于圖形的生成模型。基于文本的生成模型(也稱為化學語言模型)的早期工作將循環(huán)神經(jīng)網(wǎng)絡(luò)應用于smiles字符串[16,46]。盡管這些方法已經(jīng)顯示出很大的前景并激發(fā)了ml社區(qū)內(nèi)對分子生成的興趣,但它們并不能保證產(chǎn)生有效的smiles字符串。已經(jīng)提出了利用smiles符號的語法約束的方法來提高有效性[12,29];另外,最近提出的selfies符號[28,37]保證了有效性,并且已被越來越多地采用。然而,在這兩種情況下,使用此類基于文本的化學物質(zhì)表示進行建模仍然存在已知的缺點(例如,主觀性、相似的分子結(jié)構(gòu)可能具有較大的編輯距離)。

    5、對于某些應用,利用可以擬合分子數(shù)據(jù)庫的生成模型是有意義的,允許通過擬合模型導航這些數(shù)據(jù)庫。先前的研究[2]調(diào)查了語言模型適應分子數(shù)據(jù)庫的能力,該研究將深度語言模型應用于gdb-13[7],這是一個由975,000,000種化合物組成的數(shù)據(jù)庫,通過完全枚舉元素類型c、n、o、s和cl的多達13個原子的分子形成,服從簡單的化學穩(wěn)定性和合成可行性規(guī)則。作者對整個庫的0.1%進行了訓練,發(fā)現(xiàn)該模型能夠覆蓋gdb-13庫中大約70%的化合物。此外,他們訓練的語言模型在大約15%的情況下生成不滿足gdb-13構(gòu)造的化合物。

    6、近年來,圖形生成模型作為其基于文本的對應物的替代方案受到了極大的關(guān)注。這些模型中最早的模型專注于單次生成恒定大小的圖形[48]或一次自回歸地生成任意大小的圖形,一次一個原子或鍵[32,42,60,35]。這些方法還難以可靠地產(chǎn)生化學上有效的分子,并且在處理大分子圖形時遇到困難。

    7、為了解決這兩點,基于片段的圖形生成模型已經(jīng)被提出并且越來越受歡迎[23,24,25,27]。這些模型的優(yōu)點是通過將分子分解為有效的子組分并明確禁止產(chǎn)生無效片段組合的操作來保證化學有效性。此類顯式有效性檢查可以對每個動作執(zhí)行,但代價是額外的計算。雖然其他基于文本和圖形的生成模型由于生成它們需要很長的自回歸鏈而往往難以處理大型分子圖形,但基于片段的圖形生成模型需要與包括分子的片段數(shù)量相當?shù)淖曰貧w長度。當碎片本身包含許多原子時,這可能很重要。

    8、然而,由于自回歸圖生成的普遍困難,一些問題仍然存在。與基于文本的模型不同,其中自回歸順序的歧義較少(例如,標記通常按從左到右的順序解碼),圖形沒有此類規(guī)范節(jié)點順序,這給基于圖形的自動編碼器帶來了挑戰(zhàn)[32,59]。此外,盡管它們需要比其對應物更短的自回歸鏈,但現(xiàn)有的基于片段的圖形生成模型仍然需要在分子的整體大小方面增長的自回歸長度,因為自回歸解碼無法有效地并行化。

    9、雖然基于片段的圖形生成模型和基于selfies的語言模型各自解決了化學有效性問題,但合成可訪問性還存在單獨的挑戰(zhàn)。先前的工作對許多現(xiàn)有生成模型提出的化合物的合成可行性提出了質(zhì)疑[13],如果不適當解決,這可能會限制這些模型在藥物發(fā)現(xiàn)應用中的實際效用。隨后的工作試圖通過以下方式改進這些缺點:(i)包括通過評分函數(shù)對合成不可及性的明確懲罰[19],(ii)將模型限于已知化合物的片段[34,40,53],或(iii)誘導偏置朝向簡單和已知的合成途徑[8,9,21]。

    10、考慮到上述背景,本領(lǐng)域需要的是用于利用基于查詢的隨機訪問來導航csl的可擴展方法。


    技術(shù)實現(xiàn)思路

    1、本公開解決了本領(lǐng)域的上述需求。查詢包括多種化合物并表示多種反應類型的組合合成庫的系統(tǒng)和方法,其中每種反應類型映射到多種反應物,并且每種反應物映射到多個合成子。該系統(tǒng)將以單個圖的形式的查詢接受到分子編碼器模型中,從而獲得查詢向量。將查詢向量輸入到反應查詢生成器模型中,從而獲得第一反應類型和第一多種反應物。通過將反應物輸入到合成子查詢生成器模型中來確定每種反應物的合成子。因此確定了一組合成子,每個合成子對應于第一多種反應物中的反應物。識別組合合成庫中的分子結(jié)構(gòu),組合合成庫包括根據(jù)與第一反應類型相關(guān)的合成規(guī)則排列的一組合成子。

    2、在一個實施例中,分子編碼器模型是基于圖形的生成模型,其利用csl的結(jié)構(gòu)來提供相關(guān)化學空間的有效導航。該模型學習庫組分上的密鑰層次結(jié)構(gòu),并使用這些密鑰來處理用于檢索的查詢。編碼器處理分子圖并返回查詢向量作為輸出,解碼器使用該查詢向量通過高效的查詢密鑰比較的序列從csl檢索分子,該序列利用csl的層次構(gòu)造,需要最小的自回歸并允許高效的并行化。在此類實施例中,基于圖形的生成模型充當“神經(jīng)數(shù)據(jù)庫”,提供對超大、不可枚舉的化合物庫的隨機訪問。因此,該模型提供了有效且成本效益高的可獲取分子。此外,該模型克服了化合物生成中長自回歸鏈的挑戰(zhàn),提高了大型分子圖的可擴展性。此外,相對于可比較的方法,該模型將參數(shù)數(shù)量減少了十倍,并且在通過csl搜索的計算復雜度方面提供了相當大的本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    1.一種查詢包括多種化合物的組合合成庫的計算機系統(tǒng),其中

    2.根據(jù)權(quán)利要求1所述的計算機系統(tǒng),其中所述反應查詢生成器模型為帶有中間ReLU激活的兩層感知器。

    3.根據(jù)權(quán)利要求1所述的計算機系統(tǒng),其中所述合成子查詢生成器模型為帶有中間ReLU激活的兩層感知器。

    4.根據(jù)權(quán)利要求1所述的計算機系統(tǒng),其中

    5.根據(jù)權(quán)利要求1所述的計算機系統(tǒng),其中

    6.根據(jù)權(quán)利要求5所述的計算機系統(tǒng),其中所述多個節(jié)點中的每個節(jié)點與以下相關(guān):

    7.根據(jù)權(quán)利要求5或6所述的計算機系統(tǒng),其中多個鍵中的每個相應鍵與以下相關(guān):

    8.根據(jù)權(quán)利要求1至7中任一項所述的計算機系統(tǒng),其中所述多種反應類型包括20種或更多種反應類型,并且所述組合合成庫包括針對所述多種反應類型中的每種反應類型的100種或更多種化合物。

    9.根據(jù)權(quán)利要求1至8中任一項所述的計算機系統(tǒng),其中所述第一多種反應物包括三種或更多種反應物,并且所述三種或更多種反應物中的反應物的所述對應多個合成子的所述對應映射包括十個或更多個合成子。

    10.根據(jù)權(quán)利要求1至9中任一項所述的計算機系統(tǒng),其中

    11.根據(jù)權(quán)利要求1至10中任一項所述的計算機系統(tǒng),其中所述合成子查詢生成器模型的輸出用于通過第二查詢密鑰查找來識別所述對應合成子的合成子密鑰。

    12.根據(jù)權(quán)利要求1至11中任一項所述的計算機系統(tǒng),其中所述單個圖表示所述組合合成庫中存在的單分子化合物。

    13.根據(jù)權(quán)利要求1至11中任一項所述的計算機系統(tǒng),其中所述單個圖表示第一分子化合物的第一圖和第二分子化合物的第二圖的加權(quán)復合。

    14.根據(jù)權(quán)利要求1至11中任一項所述的計算機系統(tǒng),其中

    15.根據(jù)權(quán)利要求14所述的計算機系統(tǒng),其中所述共同性質(zhì)為到所述第二多種化合物中的每種其他化合物的小于閾值的谷本距離。

    16.根據(jù)權(quán)利要求14所述的計算機系統(tǒng),其中所述共同性質(zhì)為小于閾值的對大分子目標的結(jié)合系數(shù)。

    17.根據(jù)權(quán)利要求1至16中任一項所述的計算機系統(tǒng),其中所述多種化合物包括十億種或更多種化合物,并且由識別(D)輸出的所述分子結(jié)構(gòu)為滿足所述查詢的所述十億種或更多種化合物中的任意一種。

    18.根據(jù)權(quán)利要求1至16中任一項所述的計算機系統(tǒng),其中所述多種化合物包括萬億種或更多種化合物,并且由識別(D)輸出的所述分子結(jié)構(gòu)為滿足所述查詢的所述萬億種或更多種化合物中的任意一種。

    19.根據(jù)權(quán)利要求1至18中任一項所述的計算機系統(tǒng),其中所述單個圖將查詢分子化合物表示為一組原子特征和一組鍵特征。

    20.根據(jù)權(quán)利要求19所述的計算機系統(tǒng),其中

    21.根據(jù)權(quán)利要求20所述的計算機系統(tǒng),其中所述查詢分子化合物中的每個非氫原子由所述一組原子特征中的2000個或更多個參數(shù)表示,并且所述分子化合物中的每個共價鍵由所述一組鍵特征中的500個或更多個參數(shù)表示。

    22.一種查詢包括多種化合物的組合合成庫的方法,其中

    23.一種存儲一個或多個程序的計算機可讀存儲介質(zhì),所述一個或多個程序包括指令,當由帶有一個或多個中央處理器和一個或多個圖形處理器的計算機系統(tǒng)執(zhí)行所述指令時,其中所述一個或多個圖形處理器中的每個圖形處理器包括100個或更多個核心,以及使所述計算機系統(tǒng)查詢組合合成庫的存儲器,其中

    24.一種查詢包括多種化合物的組合合成庫的計算機系統(tǒng),其中

    25.根據(jù)權(quán)利要求24所述的計算機系統(tǒng),其中所述反應查詢生成器模型為帶有中間ReLU激活的兩層感知器。

    26.根據(jù)權(quán)利要求24所述的計算機系統(tǒng),其中所述合成子查詢生成器模型為帶有中間ReLU激活的兩層感知器。

    27.根據(jù)權(quán)利要求24所述的計算機系統(tǒng),其中

    28.根據(jù)權(quán)利要求24所述的計算機系統(tǒng),其中

    29.根據(jù)權(quán)利要求28所述的計算機系統(tǒng),其中所述多個節(jié)點中的每個節(jié)點與以下相關(guān):

    30.根據(jù)權(quán)利要求28或29所述的計算機系統(tǒng),其中多個鍵中的每個相應鍵與以下相關(guān):

    31.根據(jù)權(quán)利要求24至30中任一項所述的計算機系統(tǒng),其中所述多種反應類型包括20種或更多種反應類型,并且所述組合合成庫包括針對所述多種反應類型中的每種反應類型的100種或更多種化合物。

    32.根據(jù)權(quán)利要求24至31中任一項所述的計算機系統(tǒng),其中所述第一多種反應物包括三種或更多種反應物,并且所述三種或更多種反應物中的反應物的所述對應多個合成子的所述對應映射包括十個或更多個合成子。

    33.根據(jù)權(quán)利要求24至32中任一項所述...

    【技術(shù)特征摘要】
    【國外來華專利技術(shù)】

    1.一種查詢包括多種化合物的組合合成庫的計算機系統(tǒng),其中

    2.根據(jù)權(quán)利要求1所述的計算機系統(tǒng),其中所述反應查詢生成器模型為帶有中間relu激活的兩層感知器。

    3.根據(jù)權(quán)利要求1所述的計算機系統(tǒng),其中所述合成子查詢生成器模型為帶有中間relu激活的兩層感知器。

    4.根據(jù)權(quán)利要求1所述的計算機系統(tǒng),其中

    5.根據(jù)權(quán)利要求1所述的計算機系統(tǒng),其中

    6.根據(jù)權(quán)利要求5所述的計算機系統(tǒng),其中所述多個節(jié)點中的每個節(jié)點與以下相關(guān):

    7.根據(jù)權(quán)利要求5或6所述的計算機系統(tǒng),其中多個鍵中的每個相應鍵與以下相關(guān):

    8.根據(jù)權(quán)利要求1至7中任一項所述的計算機系統(tǒng),其中所述多種反應類型包括20種或更多種反應類型,并且所述組合合成庫包括針對所述多種反應類型中的每種反應類型的100種或更多種化合物。

    9.根據(jù)權(quán)利要求1至8中任一項所述的計算機系統(tǒng),其中所述第一多種反應物包括三種或更多種反應物,并且所述三種或更多種反應物中的反應物的所述對應多個合成子的所述對應映射包括十個或更多個合成子。

    10.根據(jù)權(quán)利要求1至9中任一項所述的計算機系統(tǒng),其中

    11.根據(jù)權(quán)利要求1至10中任一項所述的計算機系統(tǒng),其中所述合成子查詢生成器模型的輸出用于通過第二查詢密鑰查找來識別所述對應合成子的合成子密鑰。

    12.根據(jù)權(quán)利要求1至11中任一項所述的計算機系統(tǒng),其中所述單個圖表示所述組合合成庫中存在的單分子化合物。

    13.根據(jù)權(quán)利要求1至11中任一項所述的計算機系統(tǒng),其中所述單個圖表示第一分子化合物的第一圖和第二分子化合物的第二圖的加權(quán)復合。

    14.根據(jù)權(quán)利要求1至11中任一項所述的計算機系統(tǒng),其中

    15.根據(jù)權(quán)利要求14所述的計算機系統(tǒng),其中所述共同性質(zhì)為到所述第二多種化合物中的每種其他化合物的小于閾值的谷本距離。

    16.根據(jù)權(quán)利要求14所述的計算機系統(tǒng),其中所述共同性質(zhì)為小于閾值的對大分子目標的結(jié)合系數(shù)。

    17.根據(jù)權(quán)利要求1至16中任一項所述的計算機系統(tǒng),其中所述多種化合物包括十億種或更多種化合物,并且由識別(d)輸出的所述分子結(jié)構(gòu)為滿足所述查詢的所述十億種或更多種化合物中的任意一種。

    18.根據(jù)權(quán)利要求1至16中任一項所述的計算機系統(tǒng),其中所述多種化合物包括萬億種或更多種化合物,并且由識別(d)輸出的所述分子結(jié)構(gòu)為滿足所述查詢的所述萬億種或更多種化合物中的任意一種。

    19.根據(jù)權(quán)利要求1至18中任一項所述的計算機系統(tǒng),其中所述單個圖將查詢分子化合物表示為一組原子特征和一組鍵特征。

    20.根據(jù)權(quán)利要求19所述的計算機系統(tǒng),其中

    21.根據(jù)權(quán)利要求20所述的計算機系統(tǒng),其中所述查詢分子化合物中的每個非氫原子由所述一組原子特征中的2000個或更多個參數(shù)表示,并且所述分子化合物中的每個共價鍵由所述一組鍵特征中的500個或更多個參數(shù)表示。

    22.一種查詢包括多種化合物的組合合成庫的方法,其中

    23.一種存儲一個或多個程序的計算機可讀存儲介質(zhì),所述一個或多個程序包括指令,當由帶有一個或多個中央處理器和一個或多個圖形處理器的計算機系統(tǒng)執(zhí)行所述指令時,其中所述一個或多個圖形處理器中的每個圖形處理器包括100個或更多個核心,以及使所述計算機系統(tǒng)查詢組合合成庫的存儲器,其中

    24.一種查詢包括多種化合物的組合合成庫的計算機系統(tǒng),其中<...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:A·佩達維H·范登貝登姆C·昌B·安德森P·格尼維克
    申請(專利權(quán))人:艾騰懷斯股份有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久亚洲精品无码AV红樱桃| 久久精品国产亚洲AV无码娇色| 亚洲精品无码人妻无码| 亚洲av无码一区二区三区人妖| 久久无码精品一区二区三区| 在线看片福利无码网址| 曰韩精品无码一区二区三区 | 本道久久综合无码中文字幕| 东京热无码一区二区三区av| 亚洲熟妇无码爱v在线观看| 精品无人区无码乱码毛片国产| 中文字幕AV无码一区二区三区| 亚洲真人无码永久在线| 毛片亚洲AV无码精品国产午夜| 亚洲一区AV无码少妇电影| 亚洲av无码乱码国产精品| 人妻少妇乱子伦无码专区| 无码人妻啪啪一区二区| 精品爆乳一区二区三区无码av| 亚洲国产精品无码中文字| 中文字幕无码毛片免费看| 不卡无码人妻一区三区音频| 日韩少妇无码喷潮系列一二三 | 亚洲精品无码av片| 亚洲国产精品无码久久久| 久久亚洲精品中文字幕无码| 国产V亚洲V天堂无码| 亚洲国产精品无码av| 中文无码人妻有码人妻中文字幕| 国产乱子伦精品免费无码专区 | 国产丝袜无码一区二区三区视频| 国产av无码久久精品| 午夜无码人妻av大片色欲| 亚洲AV无码专区在线厂| 国产一区二区三区无码免费| 久久精品无码免费不卡| a级毛片无码免费真人久久| 一本色道久久HEZYO无码| 午夜亚洲AV日韩AV无码大全| 亚洲av无码片在线观看| 亚洲成在人线在线播放无码 |