【技術實現步驟摘要】
用于確定分子逆合成路線的神經網絡的訓練方法和裝置
本申請涉及人工智能
,特別涉及一種用于確定分子逆合成路線的神經網絡的訓練方法、裝置、設備及可讀存儲介質。
技術介紹
近年來,人工智能技術飛速發展,已經逐漸被引入到各個科學領域,并且發揮著重要的作用。在化學領域,由于在不同條件下化學反應是無窮變化的,因此,以往在制備化合物分子時,研究人員需要大量的時間和精力才能設計出一條合理的有機合成路線,而如果基于人工智能技術輔助研究人員進行有機合成路線設計,就可以大大提高研究人員研發化學藥物分子和其他化合物的效率。目前基于人工智能進行分子逆合成路線設計的方法包括以下幾種:一種是基于蒙特卡羅樹搜索(MonteCarloTreeSearch,MCTS)算法進行隨機搜索的步驟直到找到解決方案或達到最大深度為止,同時引入符號人工智能來完成分子逆合成路線的設計;另一種是基于深度強化學習技術,確定分子逆合成反應每一步的模板選擇策略,最終得到分子逆合成路線;還有一種是基于分布式訓練架構,結合深度強化學習技術加速最優分子逆合成路線的構建以及代價函數的網絡擬合,通過該網絡完成對訓練集分子逆合成路線的設計。然而,采用上述方法進行分子逆合成路線設計都耗時較長,并且上述方法在構建分子逆合成樹的初期就需要決定其最大探索高度,這樣的做法導致如果最大探索高度過小的話,一些較為復雜的分子很難在有限的高度內完成分子逆合成樹的構建;反之,如果最大探索高度過大的話,則所需的時間會成指數增長,導致分子逆合成路線設計的效率和準確率較低。 ...
【技術保護點】
1.一種用于確定分子逆合成路線的神經網絡的訓練方法,其特征在于,所述方法包括:/n基于多個第一分子的分子表達信息,確定各個所述第一分子的第一拆解路徑,所述第一拆解路徑的路徑深度小于或等于目標深度;/n基于各個所述第一分子的第一拆解路徑,得到第一代價字典,所述第一代價字典包括各個所述第一分子的分子表達信息和對應的代價值信息,所述第一分子的代價值信息用于表示將所述第一分子按照對應的第一拆解路徑進行拆分所需代價;/n基于各個所述第一分子的第一拆解路徑,確定至少一個第二分子的分子表達信息,各個所述第二分子為能夠被拆解為可獲得分子的分子;/n從各個所述第二分子中,確定多個第三分子,各個所述第三分子用于表示一類所述第二分子;/n基于各個所述第三分子的第二拆解路徑,得到第二代價字典,所述第二代價字典包括各個所述第三分子的分子表達信息和對應的代價值信息,所述第三分子的代價值信息用于表示將所述第三分子按照對應的第二拆解路徑進行拆分所需代價;/n基于所述第一代價字典和所述第二代價字典進行訓練,得到目標神經網絡,所述目標神經網絡用于根據輸入的目標分子的分子表達信息,輸出所述目標分子對應的代價值信息。/n
【技術特征摘要】
1.一種用于確定分子逆合成路線的神經網絡的訓練方法,其特征在于,所述方法包括:
基于多個第一分子的分子表達信息,確定各個所述第一分子的第一拆解路徑,所述第一拆解路徑的路徑深度小于或等于目標深度;
基于各個所述第一分子的第一拆解路徑,得到第一代價字典,所述第一代價字典包括各個所述第一分子的分子表達信息和對應的代價值信息,所述第一分子的代價值信息用于表示將所述第一分子按照對應的第一拆解路徑進行拆分所需代價;
基于各個所述第一分子的第一拆解路徑,確定至少一個第二分子的分子表達信息,各個所述第二分子為能夠被拆解為可獲得分子的分子;
從各個所述第二分子中,確定多個第三分子,各個所述第三分子用于表示一類所述第二分子;
基于各個所述第三分子的第二拆解路徑,得到第二代價字典,所述第二代價字典包括各個所述第三分子的分子表達信息和對應的代價值信息,所述第三分子的代價值信息用于表示將所述第三分子按照對應的第二拆解路徑進行拆分所需代價;
基于所述第一代價字典和所述第二代價字典進行訓練,得到目標神經網絡,所述目標神經網絡用于根據輸入的目標分子的分子表達信息,輸出所述目標分子對應的代價值信息。
2.根據權利要求1所述的方法,其特征在于,所述基于多個第一分子的分子表達信息,確定各個所述第一分子的第一拆解路徑包括:
基于各個所述第一分子的分子表達信息和代價值參考信息,獲取各個所述第一分子的第一初始代價值函數;
當各個所述第一分子的任一拆解層次完成拆解時,基于各個所述第一分子的任一層拆解路徑所對應的拆解代價值,對各個所述第一分子的第一初始代價值函數進行更新,得到各個所述第一分子的第一目標代價值函數,所述第一目標代價值函數用于確定所述第一分子具有最小拆解代價值的拆解路徑;
當任一所述第一分子的拆解任務滿足目標拆解條件時,基于各個所述第一分子的第一目標代價值函數,確定各個所述第一分子的第一拆解路徑。
3.根據權利要求2所述的方法,其特征在于,所述基于各個所述第一分子的分子表達信息和代價值參考信息,獲取各個所述第一分子的第一初始代價值函數包括:
基于各個所述第一分子的分子表達信息,將各個所述第一分子的拆解任務劃分成多個第一子任務,所述拆解任務是指將各個所述第一分子按照拆解路徑進行拆分;
將各個所述第一子任務分配給多個計算節點,由各個計算節點計算各個第一分子的第一初始代價值函數,并返回所述第一初始代價值函數,所述第一初始代價值函數由對應計算節點基于分子代價值參考信息計算得到,所述分子代價值參考信息用于表示分子的可拆解性;
接收各個所述計算節點反饋的第一初始代價值函數。
4.根據權利要求1所述的方法,其特征在于,所述基于各個所述第一分子的第一拆解路徑,得到第一代價字典包括:
基于各個所述第一分子的第一拆解路徑,確定各個所述第一分子對應的代價值信息;
根據各個所述第一分子的分子表達信息和對應的代價值信息,得到第一代價字典。
5.根據權利要求1所述的方法,其特征在于,所述從各個所述第二分子中,確定多個第三分子,各個所述第三分子用于表示一類所述第二分子包括:
將各個所述第二分子進行聚類,得到多個集合,各個所述集合中包括具有相似分子結構的至少一個第二分子;
將各個所述集合的聚類中心確定為多個第三分子,所述第三分子為所屬集合中的代表性分子。
6.根據權利要求1所述的方法,其特征在于,所述基于所述第一代價字典和所述第二代價字典進行訓練,得到目標神經網絡包括:
基于所述第二代價字典中每個分子的分子表達信息和對應的代價值信息,訓練第二神經網絡;
基于所述第二代價字典,更新所述第一代價字典,得到更新后的第一代價字典;
基于更新后的第一代價字典中每個分子的分子表達信息和對應的代價值信息,訓練第一神經網絡;
將訓練后的第二神經網絡和第一神經網絡進行組合,得到目標神經網絡。
7.根據權利要求6所述的方法,其特征在于,所述基于所述第二代價字典中每個分子的分子表達信息和對應的代價值信息,訓練第二神經網絡包括:
將所述第二代價字典中每個分子的分子表達信息,輸入到所述第二神經網絡中,得到每個分子對應的預測代價值信息;
基于每個分子對應的預測代價值信息和所述第二代價字典中每個分子對應的代價值信息,確定所述第二神經網絡的模型損失;
根據所述第二神經網絡的模型損失,調整所述第二神經網絡中的網絡參數。
8.一種分子逆合成路線確定方法,其特征在于,所述方法包括:
接收目標分子的分子表達信息,所述分子表達信息用于表示所述目標分子的三維化學結構;
將所述目標...
【專利技術屬性】
技術研發人員:付悅,謝昌諭,廖奔犇,郝建業,張勝譽,
申請(專利權)人:騰訊科技深圳有限公司,
類型:發明
國別省市:廣東;44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。