System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及深度學習,具體涉及一種lnp轉染效率預測模型構建方法及裝置。
技術介紹
1、mrna(信使核糖核酸)在生物體內起著關鍵的作用,是連接基因與蛋白質合成的重要橋梁。基于mrna的技術在病毒疫苗、蛋白質替代療法、癌癥免疫療法、基因組編輯等領域展現出廣闊的應用前景。
2、然而,實現針對性的遞送以及從內泡體中釋放mrna仍然是mrna遞送系統面臨的挑戰。脂質納米顆粒(lipid?nanoparticles,lnp)是一種用于載送生物分子(如mrna)的納米級輸送系統。lnp由四種成分組成:可電離脂質、磷脂、膽固醇和聚乙二醇。在這些成分中,可電離脂質的摩爾比最高,決定了配方的遞送效率和穩定性,是lnp的核心結構。因此,選擇高效lnp的關鍵在于選擇合適的可電離脂質。雖然基于三組分反應(3-cr)和四組分反應(4-cr)的組分化學方法可以合成多種可電離脂質,但實驗方法測試每種合成脂質的轉染效率既費時又昂貴。
3、一些研究表明,機器學習和深度學習等人工智能技術可以實現lnp轉染效率的預測。例如,采用了四種機器學習方法,包括支持向量機、隨機森林、極端梯度提升和多層感知機,將572種lnp的轉染效率分類為兩類,實現了98%的分類準確率。盡管上述研究取得了顯著進展,但是專利技術人發現,目前基于機器學習和深度學習的lnp轉染效率預測仍存在一些顯著的局限性,例如,忽略了可電離脂質分子的特殊性、忽略了可電離脂質分子的相似性等,這些局限性影響了模型的準確性和泛化能力,導致lnp轉染效率的預測準確性還有待提高。
/>技術實現思路
1、有鑒于此,本專利技術提供了一種lnp轉染效率預測模型構建方法及裝置,以解決基于現有技術中的深度學習進行lnp轉染效率預測的方法,其準確性不高的問題。
2、第一方面,本專利技術提供了一種lnp轉染效率預測模型構建方法,該方法包括:
3、獲取可電離脂質分子數據集,并基于可電離脂質分子數據集構建分子對;
4、確定分子對中兩個分子間的公共結構和差異結構,并生成分子對中每個分子一一對應的差異結構掩碼;
5、對分子對中的每個分子進行分詞編碼處理,確定每個分子一一對應的分子特征向量;
6、基于每個分子一一對應的差異結構掩碼以及分子特征向量,確定每個分子對應的差異結構特征向量;
7、基于分子對中每個分子一一對應的差異結構特征向量,獲得分子中兩個分子間的差異結構特征向量;
8、基于分子對中每個分子一一對應的分子特征向量、分子對中兩個分子間的差異結構特征向量對模型進行訓練,構建lnp轉染效率預測模型。
9、在一種可選的實施方式中,基于分子對中每個分子一一對應的分子特征向量、分子對中兩個分子間的差異結構特征向量對模型進行訓練,構建lnp轉染效率預測模型,包括:
10、基于分子對中每個分子一一對應的分子特征向量,預測每個分子一一對應的lnp轉染效率預測值;
11、獲取分子對中每個分子一一對應的lnp轉染效率真實值;
12、基于分子對中每個分子一一對應的lnp轉染效率預測值以及lnp轉染效率真實值,計算分子對對應的lnp轉染效率損失;
13、基于分子對中兩個分子間的差異結構特征向量,預測分子對對應的lnp轉染效率預測差異值;
14、獲取分子對對應的lnp轉染效率真實差異值;
15、基于分子對對應的lnp轉染效率預測差異值以及lnp轉染效率真實差異值,計算分子對對應的lnp轉染效率差異值損失;
16、將每個分子對對應的lnp轉染效率損失以及lnp轉染效率差異值損失,輸入預先建立的模型損失函數并調整模型損失函數中的超參數,獲得模型損失值,超參數包括特征向量維度、編碼層的個數以及注意力網絡的頭數;
17、在模型損失值最小的情況下,確定對應的模型為lnp轉染效率預測模型。
18、在一種可選的實施方式中,對分子對中的每個分子進行分詞編碼處理,確定每個分子一一對應的分子特征向量,包括:
19、采用ais分詞方法對分子對中的每個分子進行分詞處理,獲得每個分子一一對應的ais分詞向量;
20、將每個ais分詞向量采用隨機嵌入方式,獲得ais分詞向量矩陣;
21、對ais分詞向量矩陣進行位置編碼,獲得ais分詞向量嵌入矩陣;
22、將ais分詞向量嵌入矩陣作為雙向轉換編碼器的輸入,依次經過多個編碼層,獲得分子對應的分子特征向量。
23、在一種可選的實施方式中,雙向轉換編碼器由編碼器層堆疊而成,每個編碼器包括兩個子層連接結構;其中,第一個子層連接結構包括多頭自注意力層、規范化及殘差連接層;第二個子層連接結構包括前饋全連接層、規范化及殘差連接層。
24、在一種可選的實施方式中,基于每個分子一一對應的差異結構掩碼以及分子特征向量,確定每個分子對應的差異結構特征向量,包括:將每個分子一一對應的差異結構掩碼與分子特征向量進行相乘,獲得每個分子對應的差異結構特征向量;
25、基于分子對中每個分子一一對應的差異結構特征向量,獲得分子中兩個分子間的差異結構特征向量,包括:將分子對中兩個分子一一對應的差異結構特征向量進行相減,獲得分子中兩個分子間的差異結構特征向量。
26、在一種可選的實施方式中,模型損失函數為:
27、loss=(1-λ)losssingle+λlosspair
28、其中,loss為模型損失值、λ為超參數、losssingle為分子對對應的lnp轉染效率損失、losspair為分子對對應的lnp轉染效率差異值損失。
29、第二方面,本專利技術提供了一種lnp轉染效率預測模型構建裝置,該裝置包括:
30、獲取模塊,用于獲取可電離脂質分子數據集并基于可電離脂質分子數據集構建分子對;
31、分子間差異結構提取模塊,用于確定分子對中兩個分子間的公共結構和差異結構,并生成分子對中每個分子一一對應的差異結構掩碼;
32、分子特征提取模塊,用于對分子對中的每個分子進行分詞編碼處理,確定每個分子一一對應的分子特征向量;
33、分子間差異特征計算模塊,用于基于每個分子一一對應的差異結構掩碼以及分子特征向量,確定每個分子對應的差異結構特征向量;
34、lnp轉染效率預測模塊,用于基于分子對中每個分子一一對應的分子特征向量、分子對中兩個分子間的差異結構特征向量對模型進行訓練,構建lnp轉染效率預測模型。
35、第三方面,本專利技術提供了一種計算機設備,包括:存儲器和處理器,存儲器和處理器之間互相通信連接,存儲器中存儲有計算機指令,處理器通過執行計算機指令,從而執行上述第一方面或其對應的任一實施方式的lnp轉染效率預測模型構建方法。
36、第四方面,本專利技術提供了一種計算機可讀存儲介質,計算機可讀存儲介質存儲有計算機指令,計算機指令用于使計算機執行上述第一方本文檔來自技高網...
【技術保護點】
1.一種LNP轉染效率預測模型構建方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述分子對中每個分子一一對應的所述分子特征向量、所述分子對中兩個分子間的所述差異結構特征向量對模型進行訓練,構建LNP轉染效率預測模型,包括:
3.根據權利要求1所述的方法,其特征在于,所述對所述分子對中的每個分子進行分詞編碼處理,確定每個分子一一對應的分子特征向量,包括:
4.根據權利要求3所述的方法,其特征在于,所述雙向轉換編碼器由編碼器層堆疊而成,每個編碼器包括兩個子層連接結構;其中,第一個子層連接結構包括多頭自注意力層、規范化及殘差連接層;第二個子層連接結構包括前饋全連接層、規范化及殘差連接層。
5.根據權利要求1所述的方法,其特征在于,所述基于每個分子一一對應的所述差異結構掩碼以及所述分子特征向量,確定每個分子對應的差異結構特征向量,包括:將每個分子一一對應的所述差異結構掩碼與所述分子特征向量進行相乘,獲得每個分子對應的所述差異結構特征向量;
6.根據權利要求2所述的方法,其特征在于,所述模型損
7.一種LNP轉染效率預測模型構建裝置,其特征在于,所述裝置包括:
8.一種計算機設備,其特征在于,包括:
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機指令,所述計算機指令用于使所述計算機執行權利要求1-6任一項所述的LNP轉染效率預測模型構建方法。
10.一種計算機程序產品,其特征在于,包括計算機指令,所述計算機指令用于使計算機執行權利要求1-6中任一項所述的LNP轉染效率預測模型構建方法。
...【技術特征摘要】
1.一種lnp轉染效率預測模型構建方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述分子對中每個分子一一對應的所述分子特征向量、所述分子對中兩個分子間的所述差異結構特征向量對模型進行訓練,構建lnp轉染效率預測模型,包括:
3.根據權利要求1所述的方法,其特征在于,所述對所述分子對中的每個分子進行分詞編碼處理,確定每個分子一一對應的分子特征向量,包括:
4.根據權利要求3所述的方法,其特征在于,所述雙向轉換編碼器由編碼器層堆疊而成,每個編碼器包括兩個子層連接結構;其中,第一個子層連接結構包括多頭自注意力層、規范化及殘差連接層;第二個子層連接結構包括前饋全連接層、規范化及殘差連接層。
5.根據權利要求1所述的方法,其特征在于,所述基于每個分子一一對...
【專利技術屬性】
技術研發人員:宋更申,潘福璐,趙化建,于飛,
申請(專利權)人:北京悅康科創醫藥科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。