System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及燃機電廠文本數據處理領域,尤其涉及一種燃機電廠文本數據處理方法及系統。
技術介紹
1、在燃機電廠的建設過程中,系統集成和工程管理活動會產生大量的文本數據,涵蓋設計方案、施工記錄、質量控制報告、設備調試日志等多方面的信息。這些數據蘊含著豐富的知識和潛在的價值,可以用于指導工程決策、優化施工流程、提升設備運行效率等。然而,在實際建設階段,由于人手不足和資源有限,這些寶貴的數據往往沒有得到充分的整理、分析和利用,導致資源的浪費和建設效率的低下。
2、現有技術方案中,語言模型的訓練大多依賴于人工篩選的高質量訓練數據,這一過程通常在單套神經網絡結構上進行,通過反復調整網絡參數來優化模型性能。這一方法雖然能夠在特定數據集上取得較好的效果,但由于高度依賴人為篩選的網絡參數,模型的泛化能力存在明顯的缺陷,難以適應不同場景和多樣化的數據特征。
技術實現思路
1、鑒于上述存在的問題,提出了本專利技術。
2、因此,本專利技術解決的技術問題是:如何科學高效處理燃機電廠的工程管理文本數據,降低人工參數對模型的影響、提高模型泛化能力。
3、為解決上述技術問題,本專利技術提供如下技術方案:
4、第一方面,本專利技術實施例提供了一種燃機電廠文本數據處理方法,包括:
5、獲取燃機電廠工程管理文本信息并進行預處理,通過數據增廣技術生成初始工程管理數據集;
6、使用開源數據集對一組語言模型同時進行預訓練,使用初始工程管理數據集對語言模
7、將調參后的模型進行拼接,得到混合模型;
8、使用混合模型對初始工程管理數據集進行數據分析。
9、作為燃機電廠文本數據處理方法的一種優選方案,其中:
10、所述獲取燃機電廠工程管理文本信息包括:
11、錄入已完成建設燃機電廠及在建燃機電廠的工程建設過程中產生的建設單位交互文本,包括工程通知單、進度反饋單據;包括項目檔案信息、監控分析報告的工程信息。
12、作為燃機電廠文本數據處理方法的一種優選方案,其中:
13、所述進行預處理,通過數據增廣技術生成初始工程管理數據集包括:
14、將燃機電廠工程管理文本信息按照預先設定的格式轉換為表格數據,使用專業詞匯進行文本編碼,添加數據增廣方式作為初始工程管理數據集。
15、作為燃機電廠文本數據處理方法的一種優選方案,其中:
16、所述語言模型包括傳統卷積神經網絡語言模型、自注意力機制的神經網絡語言模型、時間循環神經網絡模型。
17、作為燃機電廠文本數據處理方法的一種優選方案,其中:
18、所述使用開源數據集對一組語言模型同時進行預訓練包括:
19、使用初始工程管理數據集對語言模型以lora形式進行模型調參分別得到模型a1,a2,a3,其輸出預測概率分別為pa1,pa2,pa3;
20、在模型的每一層之間引入低秩矩陣wlora,調整模型的權重,減少計算資源的消耗;設原始權重矩陣為w,引入后的權重矩陣為w′,則有:
21、w′=w+wlora
22、其中,wlora為低秩矩陣;
23、通過交叉驗證方法確定每個模型的輸出預測概率,確保模型在不同數據集上的泛化能力;具體公式為:
24、pai=softmax(fi(x;wi′))
25、其中,pai為模型ai的輸出預測概率,i為模型編號(1,2,3),fi表示模型ai的預測函數,x為輸入數據,wi′為引入低秩矩陣后的權重矩陣。
26、作為燃機電廠文本數據處理方法的一種優選方案,其中:
27、所述將調參后的模型進行拼接包括:
28、將a1,a2,a3的神經網絡訓練的輸出層執行歸一化后引入自適應參數α1,α2,α3,將模型輸出層拼接,混合輸出設置為p=(α1*pa1+α2*pa2+α3*pa3),進行模型拼接。
29、作為燃機電廠文本數據處理方法的一種優選方案,其中:
30、所述使用混合模型對初始工程管理數據集進行數據分析包括:
31、將初始工程管理數據集的文本信息改寫為“檔案文本分類;從文件內容提取的文件需求信息;從文件內容提取的文件需求處理結果;對文件的人工評估”,使用專業詞匯庫和編碼規則,將改寫后的文本信息轉換為結構化的工程管理數據集;編碼步驟為:使用one-hot編碼或tf-idf編碼對分類結果進行編碼;使用序列標注方法對文件需求信息進行編碼;對文件需求處理結果和人工評估結果進行二值化編碼。
32、第二方面,本專利技術實施例提供了一種燃機電廠文本數據處理系統,包括:
33、初始數據集獲取模塊,用于獲取燃機電廠工程管理文本信息并進行預處理,通過數據增廣技術生成初始工程管理數據集;
34、調參模塊,用于使用開源數據集對一組語言模型同時進行預訓練,使用初始工程管理數據集對語言模型進行模型調參;
35、混合模型構建模塊,用于將調參后的模型進行拼接,得到混合模型;
36、數據分析模塊,用于使用混合模型對初始工程管理數據集進行數據分析。
37、第三方面,本專利技術實施例提供了一種計算設備,包括:
38、存儲器和處理器;
39、所述存儲器用于存儲計算機可執行指令,所述處理器用于執行所述計算機可執行指令,當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如本專利技術任一實施例所述的燃機電廠文本數據處理方法。
40、第四方面,本專利技術實施例提供了一種計算機可讀存儲介質,其存儲有計算機可執行指令,該計算機可執行指令被處理器執行時實現所述的燃機電廠文本數據處理方法。
41、本專利技術的有益效果:本專利技術將燃機電廠建設期的工程管理文本數據統一作為訓練集,設置參數使用訓練集在復雜數據上做預訓練的語言模型,在預模型訓練完畢的情況下,使用實際需求作測試機測試融合模型得到測試結果,在融合模型的測試結果符合預設條件的情況下,使用融合模型對燃機電廠工程管理數據進行數據分析。本專利技術利用自然語言處理技術對燃機電廠工程管理數向量表征化之后,之后利用融合預訓練模型可以快速給出工程管理問題的解決分案,分析解讀工程實時更新的數據,進一步提高燃機電廠工程管理數據的維護與利用效率,為工程管理提供有效支持。
本文檔來自技高網...【技術保護點】
1.一種燃機電廠文本數據處理方法,其特征在于,包括:
2.如權利要求1所述的燃機電廠文本數據處理方法,其特征在于,所述獲取燃機電廠工程管理文本信息包括:
3.如權利要求2所述的燃機電廠文本數據處理方法,其特征在于,所述進行預處理,通過數據增廣技術生成初始工程管理數據集包括:
4.如權利要求3所述的燃機電廠文本數據處理方法,其特征在于,所述語言模型包括傳統卷積神經網絡語言模型、自注意力機制的神經網絡語言模型、時間循環神經網絡模型。
5.如權利要求4所述的燃機電廠文本數據處理方法,其特征在于,所述使用開源數據集對一組語言模型同時進行預訓練包括:
6.如權利要求5所述的燃機電廠文本數據處理方法,其特征在于,所述將調參后的模型進行拼接包括:
7.如權利要求6所述的燃機電廠文本數據處理方法,其特征在于,所述使用混合模型對初始工程管理數據集進行數據分析包括:
8.一種采用如權利要求1~7任一所述的燃機電廠文本數據處理方法的系統,其特征在于,包括:
9.一種計算設備,包括:
10.一種計
...【技術特征摘要】
1.一種燃機電廠文本數據處理方法,其特征在于,包括:
2.如權利要求1所述的燃機電廠文本數據處理方法,其特征在于,所述獲取燃機電廠工程管理文本信息包括:
3.如權利要求2所述的燃機電廠文本數據處理方法,其特征在于,所述進行預處理,通過數據增廣技術生成初始工程管理數據集包括:
4.如權利要求3所述的燃機電廠文本數據處理方法,其特征在于,所述語言模型包括傳統卷積神經網絡語言模型、自注意力機制的神經網絡語言模型、時間循環神經網絡模型。
5.如權利要求4所述的燃機電廠文本數據處理方法,其特征在于,所述使用開源數據集對一組...
【專利技術屬性】
技術研發人員:王渝揚,劉軍愷,
申請(專利權)人:華能彭州熱電有限責任公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。