System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及機械領域與自然語言處理領域,具體涉及一種清潔能源設備故障診斷用數據集的構建方法及診斷方法。
技術介紹
1、隨著全球對可持續發展和環境保護意識的提升,清潔能源的開發和利用受到了前所未有的重視。清潔能源設備,如風力發電機、太陽能板和水力發電設備等,在為我們提供環保能源的同時,其運行的穩定性和效率也至關重要。然而,這些設備在長期運行過程中不可避免地會出現各種故障,如損壞、泄漏、效率降低等,這些故障如果不能及時準確地診斷和處理,將會大大降低設備的運行效率和壽命,甚至可能導致嚴重的安全事故。
2、目前,清潔能源設備的故障診斷主要依賴于專業技術人員的經驗判斷和現場檢查。這種方法不僅耗時耗力,而且診斷的準確性和效率很大程度上取決于技術人員的專業水平和經驗。隨著人工智能和大數據技術的發展,利用這些技術進行故障診斷逐漸成為研究的熱點。尤其是自然語言處理(nlp)技術,在處理和分析大量文本數據方面顯示出巨大的潛力。通過分析和學習歷史故障報告、維護記錄等大量文本資料,可以有效地提升故障診斷的準確性和效率。
3、然而,由于清潔能源領域相對較新,相關的故障報告和文本資料相對較少,且格式各異,這給構建有效的故障診斷模型帶來了巨大的挑戰。目前,緩解數據稀少的方法主要有同義詞替換、句子重組、遠程監督的等等。同義詞替換、句子重組等文本轉譯的方法可能會導致原始語義的改變,尤其是在復雜或專業領域的文本中。并且該方法不考慮整個句子或文段的上下文,導致生成的新數據在語境上不合適或不一致。此外這些方法在有限的范圍內生成新數據,這限制了
4、因此,如何從有限的、非結構化的文本數據中提取有效信息,并構建一個高質量的、針對清潔能源設備故障診斷的數據集,成為了一個亟待解決的問題。
技術實現思路
1、本專利技術要解決的技術問題是克服現有技術的缺陷,提供一種清潔能源設備故障診斷用數據集的構建方法,它可以構建一個針對清潔能源設備故障類型豐富、覆蓋面廣泛的數據集,環境了語料稀缺的問題,從而提高故障診斷的效率和準確性。
2、為了解決上述技術問題,本專利技術的技術方案是:一種清潔能源設備故障診斷用數據集的構建方法,包括:
3、s1,搜集清潔能源設備的故障文本,作為原始語料;
4、s2,對每條原始語料進行分析和預處理,并轉換為句子級別的嵌入表示;
5、s3,界定故障類型,并對各個句子級別的嵌入表示進行標注,形成故障文本實例,標注內容包括故障設備或部件的實體以及相應的故障類型關系;
6、s4,計算每類故障類型中所有故障文本實例的質心特征,計算每個故障文本實例與其所在類的質心特征之間的相似度,根據相似度選取具有代表性的故障文文本實例保存在記憶庫中,當存在新類型故障時,計算質心特征及相似度,選取具有代表性的故障文本實例更新記憶庫;
7、s5,對記憶庫內的數據進行增強,擴展語料規模,然后,針對記憶庫內樣本量較少的故障類型,引導生成額外的補充樣本,最后,以記憶庫中的數據作為清潔能源設備故障診斷用數據集。
8、進一步,s2具體包括:
9、s21,預處理文本:去除噪音、標準化文本及利用詞性還原、詞性標記將單詞還原到其詞典形式;
10、s22,語料分析:分析語料中的實體以及相應的關系類型,將長文本重組為多個短文本,每個短文本至少包含一個實體以及一種故障類型;
11、s23,生成句子級表示:使用transformer模型生成句子級別的嵌入表示,捕獲更豐富的語境信息;
12、xk=bert([cls],tt1,tt2,tt3…,ttn,[sep])
13、其中[cls]為開始標記,[sep]為結束標記,每個長文本重組成的短文本集合t={tt1,tt2,tt3…,ttn}。
14、進一步,s3中,定義的故障類型包括溫度異常、損壞、泄漏、磨損、老化、效率降低、缺陷、壓力異常、腐蝕、裂紋、卡滯、結垢、接觸不良、流量低、松動、流失、軟件故障振動、堵塞、生銹、變形、結構疲勞;
15、進一步,計算每類故障類型中所有故障文本實例的質心特征的公式為:
16、
17、其中cj為類別j的平均特征向量,即質心特征;nj為類別j中樣本的總數;xk為類別j中的第k個樣本,f()表示使用預訓練模型bert來生成每個文本的特征表示;
18、計算每個故障文本實例與其所在類的質心特征之間的相似度的計算公式為:
19、
20、其中xi代表類別j中的第i個樣本,rep(x)代表的是x的歸一化表示。
21、進一步,s5中,針對記憶庫內樣本量較少的故障類型,采用提示模板引導語言模型生成額外的補充樣本,提示模板的格式為:
22、輸入:關系類型:<故障類型標簽>
23、輸出:頭實體:<主語>,尾實體:<賓語>
24、上下文:<文本1><文本2><文本3>……<文本n>。
25、進一步,s5中,對記憶庫內的數據進行增強前,在每個故障文本實例的頭實體的前后分別插入[s]、[\s],在尾實體的前后分別插入[o]、[\o],標記頭實體、尾實體的起始位置。
26、本專利技術還涉及一種清潔能源設備故障診斷方法,方法包括:
27、第一步,采用清潔能源設備故障診斷用數據集的構建方法構建清潔能源設備故障診斷用數據集;
28、第二步,采用相似性計算從清潔能源設備故障診斷用數據集中篩選與已知任務高度相關的樣本進行訓練數據擴充;
29、第三步,使用擴充后的數據訓練故障診斷模型;
30、第四步,使用訓練好的故障診斷模型對故障數據進行診斷。
31、進一步,第三步中,訓練過程中,使用總損失函數進行優化,公式為:
32、ltotal=lce+l1+l2;
33、其中,ltotal表示總損失函數;lce表示用于關系分類任務的損失函數;l1表示正負邊界損失函數;l2表示負類懲罰邊界損失函數;
34、
35、d表示訓練數據集,r表示任務中所有可能的關系類型的集合,δ(yi,rj)表示克羅內克爾函數,當實際關系yi等于預測關系rj時返回1,否則返回0,g(fθ(xi),rl)為函數表示使用余弦相似度計算文本實體對xi和關系rj之間的相似度;
36、
37、m1為邊界值,用于確保正確關系的分數高于錯誤關系分數的最小間隔,ti為給定樣本xi的正確關系索引;
38、
39、si是除ti外相似度最高的錯誤標簽索引,m2是邊界值。
40、采用上本文檔來自技高網...
【技術保護點】
1.一種清潔能源設備故障診斷用數據集的構建方法,其特征在于,
2.根據權利要求1所述的清潔能源設備故障診斷用數據集的構建方法,其特征在于,
3.根據權利要求1所述的清潔能源設備故障診斷用數據集的構建方法,其特征在于,
4.根據權利要求1所述的清潔能源設備故障診斷用數據集的構建方法,其特征在于,
5.根據權利要求1所述的清潔能源設備故障診斷用數據集的構建方法,其特征在于,
6.根據權利要求1所述的清潔能源設備故障診斷用數據集的構建方法,其特征在于,
7.一種清潔能源設備故障診斷方法,其特征在于,
8.根據權利要求7所述的清潔能源設備故障診斷方法,其特征在于,
【技術特征摘要】
1.一種清潔能源設備故障診斷用數據集的構建方法,其特征在于,
2.根據權利要求1所述的清潔能源設備故障診斷用數據集的構建方法,其特征在于,
3.根據權利要求1所述的清潔能源設備故障診斷用數據集的構建方法,其特征在于,
4.根據權利要求1所述的清潔能源設備故障診斷用數據集的構建方法,其特征...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。