一種基于分布漂移一致性的可解釋的藥物分子性質預測方法技術

技術編號：44272921 閱讀：7 留言：0更新日期：2025-02-14 22:13

本發明專利技術屬于藥物篩選技術領域，具體涉及一種基于分布漂移一致性的可解釋的藥物分子性質預測方法；包括：獲取藥物分子圖結構數據集并中挑選出待識別藥物分子的正、負樣本集；采用基本事后解釋模型對兩個樣本集進行處理，得到候選解釋子圖集；采用代理生成器對候選解釋子圖集進行處理，得到代理圖集；將代理圖集輸入到訓練好的GNN模型中進行處理，得到兩個樣本集的藥物分子性質預測結果；計算代理圖對比學習損失并調整代理生成器的參數；計算預測以及獲取解釋子圖的總損失并調整基本事后解釋模型參數；重復訓練直到達到預設最大迭代次數，得到訓練好的預測模型；本發明專利技術顯著提升了化合物生成模型和分類模型的可靠性與可解釋性，使得化合物特性分析更加直觀透明。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于藥物篩選，具體涉及一種基于分布漂移一致性的可解釋的藥物分子性質預測方法。

技術介紹

1、在藥物分子領域，藥物分子是由不同的化學原子和化學鍵組合而成的。由于分子結構的差異，不同的分子往往展現出不同的功能特性。其功能的實現主要取決于原子的種類及原子間的化學鍵連接方式。例如，在分析某些化合物對特定細菌是否具有突變性的mutagenicity數據集中，已知如果化合物中存在“no2”或“nh2”這樣的分子結構，就可以表明該化合物可能具有突變性。這種突變性能夠導致特定細菌發生基因突變，從而可能引發細胞功能異常，甚至導致癌癥等健康問題。因此，突變性測試在新開發化合物的毒理學評估中扮演著至關重要的角色。在這種背景下，如何在藥物分子數據集上構建有效的生成模型和分類模型，以篩選和評估具有潛在突變性等特性的化合物，已成為亟需解決的科學問題。

2、然而，由于藥物分子中通常包含大量的原子，并且原子之間通過復雜的化學鍵連接形成高度復雜的拓撲結構，這使得人類難以直接分析并發現化合物的性質。此外，當前已知的能夠賦予化合物某種特性的子結構信息非常有限?，F有的技術主要依賴于強化學習方法來生成具有特定性質的化合物子結構，但這通常需要為每個數據集設計復雜的獎勵函數。生成的化合物往往具有高度隨機性，難以反映出藥物分子的典型特征，因此在藥物發現等實際應用中效果不佳。

3、當前的解釋技術通常通過挖掘化合物結構中的關鍵子圖，幫助研究人員更深入地理解和分析化合物的性質，并促進具有特定目標性質的化合物分子的生成。然而，現有方法通常將這些子圖直

技術實現思路

1、針對現有技術存在的不足，本專利技術提出了一種基于分布漂移一致性的可解釋的藥物分子性質預測方法，該方法包括：獲取待預測的藥物分子圖結構，將其輸入到訓練好的藥物分子性質預測模型中進行處理，得到藥物分子性質預測結果和藥物分子關鍵子結構；

2、藥物分子性質預測模型的訓練過程包括：

3、s1：獲取藥物分子圖結構數據集，并從藥物分子圖結構數據集中挑選出待識別藥物分子的正樣本集和負樣本集；將正樣本集和負樣本集一起作為待解釋圖集；

4、s2：采用基本事后解釋模型對待解釋圖集進行處理，得到候選解釋子圖集；

5、s3：采用代理生成器對候選解釋子圖集進行處理，得到代理圖集；

6、s4：將代理圖集輸入到訓練好的gnn模型中進行處理，得到正樣本集和負樣本集的藥物分子性質預測結果；

7、s5：根據正樣本集和負樣本集的藥物分子性質預測結果計算代理圖對比學習損失并根據代理圖對比學習損失調整代理生成器的參數；

8、s6：計算預測以及獲取解釋子圖的總損失并根據該總損失調整基本事后解釋模型參數；

9、s7：重復執行步驟s2-s6，直到達到預設最大迭代次數，得到訓練好的藥物分子性質預測模型。

10、優選的，從藥物分子圖結構數據集中挑選出正樣本集和負樣本集的過程包括：

11、采用訓練好的gnn模型對藥物分子圖結構數據集進行處理，得到每個藥物分子的預測概率分布；根據每個藥物分子的預測概率分布計算其他藥物分子與待識別藥物分子間的距離；取距離最小的k個藥物分子對應的圖結構作為正樣本；

12、從剩下的與待識別藥物分子類別不同的藥物分子圖結構中隨機選出k個藥物分子圖結構作為負樣本集。

13、優選的，代理生成器對候選解釋子圖集進行處理的過程包括：

14、使用第一多層感知機對候選解釋子圖集中每個圖的邊狀態進行編碼，得到圖的邊編碼結果；

15、將每個圖的邊編碼結果和對應圖的節點嵌入輸入到第二多層感知機中進行處理，得到代理圖集。

16、優選的，計算代理圖對比學習損失的公式為：

17、

18、其中，表示代理圖對比學習損失，表示求期望，gi表示第i個待識別藥物分子圖結構，p(·|g)為gnn模型的預測分布，表示待識別藥物分子訓練集，表示第i個待識別藥物分子的正樣本集，表示第i個待識別藥物分子的負樣本集，表示第t步訓練中代理圖的預測標簽，hψ(·)表示代理生成器，表示第t步訓練中的第j個待解釋圖的候選解釋子圖。

19、優選的，步驟s6具體包括：

20、s61：將候選解釋子圖集輸入到訓練好的gnn模型中進行處理，得到正樣本集和負樣本集的中間藥物分子性質預測結果；

21、s62：根據正樣本集和負樣本集的中間藥物分子性質預測結果計算分布一致性對比學習損失；

22、s63：根據待解釋圖集和代理圖集計算交叉熵損失，根據分布一致性對比學習損失和交叉熵損失計算預測總損失；根據預測總損失調整基本事后解釋模型參數。

23、進一步的，計算分布一致性對比學習損失的公式為：

24、

25、其中，表示分布一致性對比學習損失，yt表示第t步訓練中待解釋圖的預測標簽，表示求期望，表示第i個待識別藥物分子的待解釋圖集，p(·|g)為gnn模型的預測分布，表示待識別藥物分子訓練集，表示第i個待識別藥物分子的正樣本集，表示第i個待識別藥物分子的負樣本集，表示第t步訓練中的第j個待解釋圖的候選解釋子圖。

26、進一步的，計算預測以及獲取解釋子圖的總損失的公式為：

27、

28、其中，表示預測以及獲取解釋子圖的總損失，i(g0,gt)表示正則化項，g0表示初始待解釋圖，gt表示第t步訓練中的待解釋圖，y0表示初始待解釋圖的標簽，ce(y0,p(y0|hψ(gt)))表示交叉熵損失，p(·|g)為gnn模型的預測分布，hψ(·)表示代理生成器，表示分布一致性對比學習損失。

29、本專利技術的有益效果為：本專利技術提供了一種能夠快速且高效生成與gnn訓練集分布相符的代理圖的創新方法，以及創新性提出子圖分布一致性損失，有效緩解了使用子圖進行預測時的分布漂移問題。這項技術具有高度的通用性，能夠廣泛應用于現有的大多數gnn事后解釋算法，同時也可以用于新研發的可解釋方法。通過本專利技術，可以精準地識別出語義完整且具有真正關鍵作用的子圖，確保這些關鍵子圖能夠準確反映出化合物分子的核心特征。此外，基于本專利技術的gnn事后解釋模型，顯著提升了化合物生成模型和分類模型的可靠性與可解釋性，使得化合物特性分析更加直觀透明。這不僅加深了研究人員對化合物性質的理解，更為藥物研發和分子設計提供了精準的指導方向。本專利技術在本文檔來自技高網...

【技術保護點】

1.一種基于分布漂移一致性的可解釋的藥物分子性質預測方法，其特征在于，包括：獲取待預測的藥物分子圖結構，將其輸入到訓練好的藥物分子性質預測模型中進行處理，得到藥物分子性質預測結果和藥物分子關鍵子結構；

2.根據權利要求1所述的一種基于分布漂移一致性的可解釋的藥物分子性質預測方法，其特征在于，從藥物分子圖結構數據集中挑選出正樣本集和負樣本集的過程包括：

3.根據權利要求1所述的一種基于分布漂移一致性的可解釋的藥物分子性質預測方法，其特征在于，代理生成器對候選解釋子圖集進行處理的過程包括：

4.根據權利要求1所述的一種基于分布漂移一致性的可解釋的藥物分子性質預測方法，其特征在于，計算代理圖對比學習損失的公式為：

5.根據權利要求1所述的一種基于分布漂移一致性的可解釋的藥物分子性質預測方法，其特征在于，所述步驟S6具體包括：

6.根據權利要求5所述的一種基于分布漂移一致性的可解釋的藥物分子性質預測方法，其特征在于，計算分布一致性對比學習損失的公式為：

7.根據權利要求5所述的一種基于分布漂移一致性的可解釋的藥物分子

...

【技術特征摘要】

3.根據權利要求1所述的一種基于分布漂移一致性的可解釋的藥物分子性質預測方法，其特征在于，代理生成器對候選解釋子圖集進行處理的過程包括：

4....

【專利技術屬性】
技術研發人員：劉立，賀光勇，王以可，向可欣，
申請(專利權)人：重慶郵電大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術