System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及一種基于支持向量機(jī)算法的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)方法,尤其是一種結(jié)合了催化以及支持向量機(jī)算法的知識(shí)設(shè)計(jì)并實(shí)現(xiàn)了一套乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的人工智能輔助篩選,屬于材料信息學(xué)領(lǐng)域。
技術(shù)介紹
1、氯乙烯,是一種用于聚合成聚氯乙烯(pvc)重要化工原料,聚氯乙烯被廣泛用于塑料制品當(dāng)中,是僅次于聚乙烯和聚丙烯,世界上產(chǎn)量第三大的塑料。而氯乙烯作為聚氯乙烯的單體,如何提高生產(chǎn)氯乙烯的效率和產(chǎn)量是最重要的。當(dāng)下最普遍采用的是乙炔氫氯化反應(yīng)來制備氯乙烯,而在此化工生產(chǎn)過程中,傳統(tǒng)的做法是利用含有hgcl2的催化劑進(jìn)行乙炔的氫氯化,而hg作為一種重金屬元素,會(huì)對(duì)人體和自然環(huán)境造成極大的危害,在此環(huán)境問題之上,尋找一種同樣高效且清潔無污染的催化劑成為當(dāng)下最主要的議題。目前,無汞催化劑的研究主要基于以下四種方向:釕基、鉑基、金基和銅基為基底的催化劑。在這四類金屬作為基底的基礎(chǔ)上,設(shè)計(jì)一類高效的氫氯化催化劑是當(dāng)下主要研究的方向。
2、而催化劑的設(shè)計(jì)和預(yù)測(cè),也是催化劑在被采用前難度最大的一個(gè)過程,催化劑的性能受到多個(gè)因素的影響,而通過實(shí)驗(yàn)的方法去篩選高效的催化劑是最為傳統(tǒng)也是使用范圍最廣的方法,但是實(shí)驗(yàn)的手段通常需要消耗大量的時(shí)間和財(cái)力成本,這也是傳統(tǒng)的設(shè)計(jì)和預(yù)測(cè)手段的通病。而當(dāng)下,隨著人工智能的飛速發(fā)展,人工智能也逐漸在各個(gè)領(lǐng)域得到廣泛的應(yīng)用,本專利選擇在人工智能的幫助下,基于支持向量機(jī)(svm?algorithm)的算法訓(xùn)練一個(gè)模型,以便于設(shè)計(jì)和預(yù)測(cè)高性能的乙炔氫氯化反應(yīng)的催化劑。
3、運(yùn)用機(jī)器
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)要解決的技術(shù)問題在于提供一種以支持向量機(jī)算法(svm)對(duì)乙炔氫氯化無汞催化劑中心配體篩選進(jìn)行預(yù)測(cè)的新方法,該方法首先通過拓?fù)湔归_將配體變成二進(jìn)制的形式,然后將已有數(shù)據(jù)庫中不同配體以64位ecfp指紋形式輸入,通過尋找最佳超平面將數(shù)據(jù)點(diǎn)分隔開,從而實(shí)現(xiàn)對(duì)新樣本的分類。在催化劑中心配體篩選中,svm可以根據(jù)已知催化劑的特性與表現(xiàn),推測(cè)未知催化劑的效果。所述方法可以根據(jù)相關(guān)配體的smiles字符串計(jì)算其ecfp指紋對(duì)轉(zhuǎn)化率進(jìn)行特殊化預(yù)測(cè),從而提高預(yù)測(cè)的準(zhǔn)確率。
2、為了解決本專利技術(shù)的技術(shù)問題,本專利技術(shù)是通過如下技術(shù)方案來實(shí)現(xiàn)的:一種基于支持向量機(jī)算法的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)方法,?所述方法包括如下步驟:
3、(1)從公開文獻(xiàn)中提取數(shù)據(jù)集用并且分類來訓(xùn)練模型,
4、(2)提取配體分子的復(fù)合smiles字符串并且轉(zhuǎn)化為張量矩陣,
5、(3)將張量矩陣輸入到基于支持向量機(jī)算法的模型進(jìn)行回歸訓(xùn)練,使用rbf核函數(shù),懲罰系數(shù)c等于0.9;
6、(4)未知性能配體的smiles字符串輸入獲得配體改性結(jié)果的預(yù)測(cè)。
7、優(yōu)選的,所述的催化劑配體和配體改性后催化劑性能用來訓(xùn)練模型:通過收集許多化合物來自然地組成語料庫識(shí)別smiles字符串,使用ecfp(擴(kuò)展連通性指紋)技術(shù)收集信息,進(jìn)行回歸訓(xùn)練。
8、優(yōu)選的,所述的配體特征(smiles字符串)構(gòu)建張量矩陣并且輸入模型,使用經(jīng)過訓(xùn)練的lsvm模型,將配體的smiles字符串轉(zhuǎn)化輸入到張量中,輸出預(yù)測(cè)結(jié)果。
9、優(yōu)選的,所述方法包括如下步驟:
10、步驟?1:建立數(shù)據(jù)集,從文獻(xiàn)中收集已知催化劑配體的信息,配體的分子結(jié)構(gòu)及對(duì)應(yīng)的復(fù)合smiles字符串和轉(zhuǎn)化率記錄在數(shù)據(jù)庫中;
11、步驟?2:將配體的分子結(jié)構(gòu)轉(zhuǎn)化為ecfp指紋
12、將每種配體的復(fù)合smiles字符串轉(zhuǎn)化為一種叫“ecfp指紋”的64位二進(jìn)制向量;對(duì)于已知配體的smiles字符串采用搜索的方式,從rdkit開源庫中將每一個(gè)官能團(tuán)對(duì)應(yīng)成為有0和1組成的分子指紋,組合成64位的分子指紋;不同0和1的組成序列代表不同的官能團(tuán),從而體現(xiàn)出配體不同結(jié)構(gòu)的影響;
13、步驟?3:構(gòu)建特征張量矩陣
14、收集的每種配體都有各自的64位分子指紋,把所有配體的指紋數(shù)據(jù)整合成一個(gè)張量矩陣,矩陣的每一行代表一個(gè)配體,每一列是一個(gè)特征位;
15、步驟?4:建立并調(diào)整模型架構(gòu)
16、將完整的特征矩陣輸入到支持向量機(jī)模型中,進(jìn)行初步訓(xùn)練。支持向量機(jī)模型會(huì)自動(dòng)計(jì)算并擬合;分別嘗試兩種核函數(shù)(線性核,多項(xiàng)式核和rbf核),并且使用交叉驗(yàn)證的方法優(yōu)化超參數(shù)(懲罰系數(shù)c)的選擇;
17、步驟?5:模型評(píng)估
18、將簡(jiǎn)化后的特征矩陣輸入到支持向量機(jī)模型中,繼續(xù)訓(xùn)練,目標(biāo)變量是轉(zhuǎn)化率。通過模型訓(xùn)練,模型逐漸學(xué)習(xí)出配體結(jié)構(gòu)、實(shí)驗(yàn)條件與轉(zhuǎn)化率之間的關(guān)系。訓(xùn)練完成后,使用驗(yàn)證集對(duì)模型進(jìn)行評(píng)估,假設(shè)對(duì)配體a的轉(zhuǎn)化率預(yù)測(cè)為78%,而實(shí)際為80%,誤差為2%;
19、通過對(duì)模型訓(xùn)練,確定參數(shù)分別為:最終得出最優(yōu)模型為使用rbf核且懲罰系數(shù)c等于0.9,使用驗(yàn)證集對(duì)模型進(jìn)行評(píng)估;最終模型對(duì)不同配體的預(yù)測(cè)轉(zhuǎn)化率與實(shí)際轉(zhuǎn)化率差小于7%概率達(dá)到了95%以上;
20、步驟?6:預(yù)測(cè)未知配體的轉(zhuǎn)化率
21、訓(xùn)練完成后,該模型可以用來預(yù)測(cè)新配體的轉(zhuǎn)化率,比如現(xiàn)在有一個(gè)配體x;用rdkit生成配體x的64位指紋,帶人模型中進(jìn)行預(yù)測(cè),模型輸出的預(yù)測(cè)轉(zhuǎn)化率提升量;這個(gè)輸出結(jié)果可以幫助判斷配體x在該反應(yīng)條件下是否具有較好的催化效果。
22、利用?所述的基于支持向量機(jī)算法的的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)方法,?篩選出配體
23、作為乙炔氫氯化反應(yīng)催化劑的改性劑。
24、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),?所述存儲(chǔ)介質(zhì)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序能夠運(yùn)行?所述的基于基于支持向量機(jī)算法的的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)方法。
25、一種基于支持向量機(jī)算法的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)裝置,?所述裝置搭載?所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
26、對(duì)添加未知配體的催化及關(guān)于乙炔氫氯化的轉(zhuǎn)化率預(yù)測(cè)的方法,所述方法的具體步驟如下所示:(1)收集歷史實(shí)驗(yàn)數(shù)據(jù),包括各種催化劑添加的配體和對(duì)應(yīng)的催化效果,確定與催化效能相關(guān)的特征,并以此建立數(shù)據(jù)庫。(2)根據(jù)數(shù)據(jù)的分布特征選擇適當(dāng)?shù)暮撕瘮?shù)(線性核和rbf核),使用交叉驗(yàn)證的方法選擇合適的超參數(shù)優(yōu)化來提高模型的準(zhǔn)確性。(3)輸入未知配體64位ecfp指紋在訓(xùn)練集上訓(xùn)練svm模型,通過不斷調(diào)整參數(shù)來提高模型的準(zhǔn)確率。(4)在測(cè)試集上評(píng)估模型的性能。一旦模型經(jīng)過驗(yàn)證,可以用其對(duì)新的本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于支持向量機(jī)算法的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)方法,其特征在于,所述方法包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于支持向量機(jī)算法的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)方法,其特征在于:所述的催化劑配體和配體改性后催化劑性能用來訓(xùn)練模型:通過收集許多化合物來自然地組成語料庫識(shí)別SMILES字符串,使用ECFP(擴(kuò)展連通性指紋)技術(shù)收集信息,進(jìn)行回歸訓(xùn)練。
3.根據(jù)權(quán)利要求1所述的基于支持向量機(jī)算法的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)方法,其特征在于:所述的配體特征(SMILES字符串)構(gòu)建張量矩陣并且輸入模型,使用經(jīng)過訓(xùn)練的LSVM模型,將配體的SMILES字符串轉(zhuǎn)化輸入到張量中,輸出預(yù)測(cè)結(jié)果。
4.根據(jù)權(quán)利要求3所述的基于支持向量機(jī)算法的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)方法,其特征在于:所述方法包括如下步驟:
5.利用權(quán)利要求1所述的基于支持向量機(jī)算法的的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)方法,其特征在于,篩選出配體作為乙炔氫氯化反應(yīng)催化劑的改性劑。
6.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)
7.一種基于支持向量機(jī)算法的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)裝置,其特征在于,所述裝置搭載權(quán)利要求6所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
...【技術(shù)特征摘要】
1.一種基于支持向量機(jī)算法的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)方法,其特征在于,所述方法包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于支持向量機(jī)算法的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)方法,其特征在于:所述的催化劑配體和配體改性后催化劑性能用來訓(xùn)練模型:通過收集許多化合物來自然地組成語料庫識(shí)別smiles字符串,使用ecfp(擴(kuò)展連通性指紋)技術(shù)收集信息,進(jìn)行回歸訓(xùn)練。
3.根據(jù)權(quán)利要求1所述的基于支持向量機(jī)算法的乙炔氫氯化反應(yīng)催化劑配體優(yōu)劣的預(yù)測(cè)方法,其特征在于:所述的配體特征(smiles字符串)構(gòu)建張量矩陣并且輸入模型,使用經(jīng)過訓(xùn)練的lsvm模型,將配體的smiles字符串轉(zhuǎn)化輸入到張量中,...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:田雨茜,郭宣辰,周緣,蔣子韜,孫路鵬,王川,
申請(qǐng)(專利權(quán))人:南京工業(yè)大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。