System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及樣本不平衡處理領域,特別涉及井漏樣本類別不均衡處理方法、系統、介質和設備。
技術介紹
1、在鉆井作業中,復雜問題的及時診斷對于確保作業安全與效率至關重要。目前,鉆井現場的工作人員主要依賴鉆井領域專家的長期經驗和專業知識,通過觀察和分析鉆井過程中的地面表征參數(例如大鉤載荷的波動、立管壓力的變化、出口排量的增減等)來診斷鉆井的復雜性。鉆井專家通過歸納和總結,形成了一套相對固定的判斷流程。然而,這種方法受限于人力資源的局限性,面對海量的鉆井數據,難以進行全面且深入的分析,無法充分挖掘鉆井參數與鉆井工況之間復雜而微妙的內在聯系。因此,僅憑人工經驗進行鉆井復雜問題的診斷,其能力和準確性存在明顯局限。
2、近年來,隨著人工智能技術和數據分析領域的飛速發展,機器學習算法在各個領域展現出了強大的數據處理和模式識別能力。將機器學習算法應用于鉆井數據的分析,建立鉆井復雜問題的智能診斷方法,已成為一種極具潛力的解決方案。然而,在實際應用中,鉆井數據的特性給機器學習算法帶來了新的挑戰。特別是井漏數據與正常數據之間的分布差異極大,正常數據的數量遠遠超過了井漏數據。這種數據分布的非均衡性,往往導致機器學習算法模型在處理時傾向于將少數類的樣本(如井漏樣本)錯誤地識別為多數類的樣本(如正常樣本)。這種誤判現象會極大地降低井漏監測系統的準確性和可靠性,從而影響到鉆井作業的安全性和效率。
技術實現思路
1、本專利技術解決的技術問題是提供一種提高井漏智能監測準確度的井漏樣本類別不均衡處理方法
2、本專利技術解決其技術問題所采用的技術方案是:一種井漏樣本類別不均衡處理方法,包括如下步驟:
3、數據預處理步驟:對提取到的異常數據進行預處理;
4、樣本平衡性判斷步驟:對正常樣本n1和井漏樣本n2的數量進行判斷,判斷兩者數量是否存在不平衡問題;
5、樣本擴充所需的基樣本確定步驟:對正常樣本和井漏樣本中的少數類樣本進行篩選形成基樣本;
6、基樣本過采樣步驟:在篩選的基樣本上做過采樣處理,得到平衡樣本;
7、樣本均衡步驟:將平衡樣本與原井漏樣本合并得到均衡后的井漏樣本,均衡后的井漏樣本與原正常樣本共同構成井漏監測樣本集。
8、進一步的是:所述數據預處理步驟中,對提取到的異常數據進行預處理,具體為:
9、若異常數據為異常值,則采用西格瑪準則將異常值去除;
10、若異常數據為缺失值,則采用相鄰值的均值填充方法進行缺失值填充。
11、進一步的是:所述樣本平衡性判斷步驟中,對正常樣本n1和井漏樣本n2的數量進行判斷,判斷兩者數量是否存在不平衡問題,具體為:計算正常樣本n1與井漏樣本n2的數量比例r,當r>3時,判定該樣本集存在嚴重的類別不平衡問題,并將正常樣本n1劃分為多數類樣本,井漏樣本n2劃分為少數類樣本。
12、進一步的是:所述樣本擴充所需的基樣本確定步驟中,對正常樣本n1和井漏樣本n2中的少數類樣本進行篩選形成基樣本,具體為:計算每一個少數類樣本k近鄰樣本,k近鄰樣本中異類樣本個數為k',
13、當近鄰樣本中少數為異類樣本,屬于模型難識別的類別,該類樣本作為基樣本;
14、當k=k',此時近鄰樣本全部為異類樣本,作為噪聲不進行處理;
15、當近鄰樣本全部為同類樣本時,屬于模型易識別的類別,不做處理。
16、進一步的是:所述基樣本過采樣步驟中,在篩選的基樣本上做過采樣處理,得到平衡樣本,具體為:
17、若基本樣本的k近鄰中有4個同類樣本,則該基本樣本判別為安全樣本不做處理;
18、若基本樣本的k近鄰中全都為異類樣本,則該基本樣本被判別為噪聲;
19、若基本樣本的k近鄰中有2個同類樣本,則該基本樣本被判別為邊界樣本,將邊界樣本與k近鄰樣本中的同類樣本之間計算得到合成樣本。
20、進一步的是:所述將邊界樣本與k近鄰樣本中的同類樣本之間計算得到合成樣本xnew,具體計算方法為:
21、xnew=xi+γ(x'-xi);其中,γ為0到1之間的隨機數,xi為邊界樣本,x'為k近鄰樣本中的同類樣本。
22、本專利技術還公開了一種井漏樣本類別不均衡處理系統,包括上述所述的井漏樣本類別不均衡處理方法,包括數據預處理模塊、樣本平衡性判斷模塊、樣本擴充所需的基樣本確定模塊、基樣本過采樣模塊和樣本均衡模塊:
23、所述數據預處理模塊用于對提取到的異常數據進行預處理;
24、所述樣本平衡性判斷模塊用于對正常樣本n1和井漏樣本n2的數量進行判斷,判斷兩者數量是否存在不平衡問題;
25、所述樣本擴充所需的基樣本確定模塊用于對正常樣本和井漏樣本中的少數類樣本進行篩選形成基樣本;
26、所述基樣本過采樣模塊用于在篩選的基樣本上做過采樣處理,得到平衡樣本;
27、所述樣本均衡模塊用于將平衡樣本與原井漏樣本合并得到均衡后的井漏樣本,均衡后的井漏樣本與原正常樣本共同構成井漏監測樣本集。
28、進一步的是:所述數據預處理模塊中,對提取到的異常數據進行預處理,具體為:
29、若異常數據為異常值,則采用西格瑪準則將異常值去除;
30、若異常數據為缺失值,則采用相鄰值的均值填充方法進行缺失值填充。
31、本專利技術還公開了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現上述所述的井漏樣本類別不均衡處理方法的步驟。
32、本專利技術還公開了一種計算機設備,包括處理器、通信接口、存儲器和通信總線,其中,所述處理器,所述通信接口,所述存儲器通過所述通信總線完成相互間的通信;其中:
33、所述存儲器,用于存放計算機程序;
34、所述處理器,用于通過運行所述存儲器上所存放的程序來執行上述所述的井漏樣本類別不均衡處理方法的步驟。
35、本專利技術的有益效果是:本方法通過對算法存在的對少數類樣本的邊界選取問題進行條件限制,解決了井漏監測的類不均衡問題,從而更有利于機器學習算法在井漏監測領域的推廣應用。
本文檔來自技高網...【技術保護點】
1.一種井漏樣本類別不均衡處理方法,其特征在于,包括如下步驟:
2.如權利要求1所述的井漏樣本類別不均衡處理方法,其特征在于,所述數據預處理步驟中,對提取到的異常數據進行預處理,具體為:
3.如權利要求1所述的井漏樣本類別不均衡處理方法,其特征在于,所述樣本平衡性判斷步驟中,對正常樣本n1和井漏樣本n2的數量進行判斷,判斷兩者數量是否存在不平衡問題,具體為:計算正常樣本n1與井漏樣本n2的數量比例r,當r>3時,判定該樣本集存在嚴重的類別不平衡問題,并將正常樣本n1劃分為多數類樣本,井漏樣本n2劃分為少數類樣本。
4.如權利要求1所述的井漏樣本類別不均衡處理方法,其特征在于,所述樣本擴充所需的基樣本確定步驟中,對正常樣本n1和井漏樣本n2中的少數類樣本進行篩選形成基樣本,具體為:計算每一個少數類樣本k近鄰樣本,k近鄰樣本中異類樣本個數為k',
5.如權利要求1所述的井漏樣本類別不均衡處理方法,其特征在于,所述基樣本過采樣步驟中,在篩選的基樣本上做過采樣處理,得到平衡樣本,具體為:
6.如權利要求5所述的井漏樣本類別不均衡
7.一種井漏樣本類別不均衡處理系統,包括權利要求1至6中任意一項所述的井漏樣本類別不均衡處理方法,其特征在于,包括數據預處理模塊、樣本平衡性判斷模塊、樣本擴充所需的基樣本確定模塊、基樣本過采樣模塊和樣本均衡模塊:
8.如權利要求7所述的井漏樣本類別不均衡處理系統,其特征在于:所述數據預處理模塊中,對提取到的異常數據進行預處理,具體為:
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現權利要求1~6中任一項所述的井漏樣本類別不均衡處理方法的步驟。
10.一種計算機設備,其特征在于,包括處理器、通信接口、存儲器和通信總線,其中,所述處理器,所述通信接口,所述存儲器通過所述通信總線完成相互間的通信;其中:
...【技術特征摘要】
1.一種井漏樣本類別不均衡處理方法,其特征在于,包括如下步驟:
2.如權利要求1所述的井漏樣本類別不均衡處理方法,其特征在于,所述數據預處理步驟中,對提取到的異常數據進行預處理,具體為:
3.如權利要求1所述的井漏樣本類別不均衡處理方法,其特征在于,所述樣本平衡性判斷步驟中,對正常樣本n1和井漏樣本n2的數量進行判斷,判斷兩者數量是否存在不平衡問題,具體為:計算正常樣本n1與井漏樣本n2的數量比例r,當r>3時,判定該樣本集存在嚴重的類別不平衡問題,并將正常樣本n1劃分為多數類樣本,井漏樣本n2劃分為少數類樣本。
4.如權利要求1所述的井漏樣本類別不均衡處理方法,其特征在于,所述樣本擴充所需的基樣本確定步驟中,對正常樣本n1和井漏樣本n2中的少數類樣本進行篩選形成基樣本,具體為:計算每一個少數類樣本k近鄰樣本,k近鄰樣本中異類樣本個數為k',
5.如權利要求1所述的井漏樣本類別不均衡處理方法,其特征在于,所述基樣本過采樣步驟中,在篩選的基樣本上做過采樣...
【專利技術屬性】
技術研發人員:卜賽賽,修志遠,陳文梁,
申請(專利權)人:浪潮金融信息技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。