面向制造業工藝文本數據的標準化方法及系統技術方案

技術編號：42557647 閱讀：16 留言：0更新日期：2024-08-29 00:28

本發明專利技術屬于數據標準化領域，提供了一種面向制造業工藝文本數據的標準化方法及系統，包括獲取原始工藝文本數據集，同時構建原始標準工藝文本數據集，使用無監督數據匹配的方法對小批量的工藝文本數據集和標準工藝文本數據集進行粗匹配，對粗匹配正確調整后，使用調整后的數據作為監督學習的訓練數據，實現模型訓練，最后利用完成訓練的模型實現大批量工藝文本數據集的標準化工作。本發明專利技術將無監督數據匹配算法與監督學習數據匹配算法相結合，以減少數據標注工作量、提高工藝文本數據匹配準確性為目標，提出一種無監督數據匹配和監督學習數據匹配相結合的方法，實現工藝文本數據標準化。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于數據標準化，具體涉及一種面向制造業工藝文本數據的標準化方法及系統。

技術介紹

1、本部分的陳述僅僅是提供了與本專利技術相關的
技術介紹
信息，不必然構成在先技術。

2、標準化工藝文本數據涉及統一產品、資源、工藝過程、工廠等數據的格式、單位和描述方法等，以促進信息共享、降低數據處理成本、提高生產效率。工藝文本數據的標準化能夠促進企業內部協同，是數字化轉型和智能化生產的基礎，有助于企業提升競爭力，實現可持續發展。在工藝文本數據的描述方法方面，工藝文本數據的標準化本質上是通過文本匹配實現已有工藝文本數據到標準工藝文本數據的映射，借助短文本的文本匹配技術能夠實現這種映射的建立。現有的文本匹配技術大體可以分為無監督類的方法和監督類的方法。

3、(1)無監督本文匹配技術

4、無監督的文本匹配技術是指在文本匹配任務中，不依賴于已標記的訓練數據進行模型訓練的方法。無監督的文本匹配技術一般基于文本之間的相似度度量或聚類算法來進行匹配。該方法不需要標記的訓練數據，因此適用于數據量較大且標記成本較高的情況，一般利用文本之間的相似度度量，比如余弦相似度、jaccard相似度，或聚類算法進行匹配。但無監督的文本匹配技術缺乏對應的標記數據進行指導，準確性較低。

5、(2)監督學習本文匹配技術

6、監督的文本匹配技術是指在文本匹配任務中，利用已標記的訓練數據來訓練模型，從而進行文本匹配的方法。監督的文本匹配技術使用分類或回歸模型來學習文本之間的匹配關系，需要大量標記的訓練數據進行模型訓練，

7、在工藝文本數據的標準化研究方面，應用較為廣泛的無監督的數據匹配方法能夠在文本相似度較高時獲得較優結果，但由于工藝文本數據表達具有多樣性的特點，無監督的數據匹配方法無法對人為定義的具有特殊表征規則的工藝文本數據實現標準化，而基于監督學習的方法能夠擬合工藝人員定義工藝文本數據時的思路，但為其標記數據需要付出高昂的成本。

8、工藝文本數據存在內容表達上的不統一的問題，具體體現對于同一工藝對象出現不同表達方法，如將“車削加工”工序稱為“車床加工”“機械車削”“旋削加工”等。該問題是由工藝編制人員理解不一致、工藝文本數據編制過程出現錯誤或系統之間版本同步不及時等多方面的原因引起的。

技術實現思路

1、為了解決上述問題，本專利技術提出了一種面向制造業工藝文本數據的標準化方法及系統，本專利技術的目標是使用原始標準工藝文本數據完成原始工藝文本數據的替換，并最大限度的減少人工成本。該方法的基本思路是由capp系統或工藝知識圖譜等工藝數據管理系統獲取原始工藝文本數據集，同時構建原始標準工藝文本數據集，使用無監督數據匹配的方法對小批量的工藝文本數據集和標準工藝文本數據集進行粗匹配，對粗匹配正確調整后，使用調整后的數據作為監督學習的訓練數據，實現模型訓練，最后利用完成訓練的模型實現大批量工藝文本數據集的精確匹配，并完成標準化工作。

2、根據一些實施例，本專利技術的第一方案提供了一種面向制造業工藝文本數據的標準化方法，采用如下技術方案：

3、面向制造業工藝文本數據的標準化方法，包括：

4、獲取原始工藝文本數據集和原始標準工藝文本數據集并進行預處理，得到工藝文本數據集以及標準工藝文本數據集，并按照比例將工藝文本數據集劃分為小批量工藝文本數據集以及大批量工藝文本數據集；

5、計算小批量工藝文本數據集與標準工藝文本數據集之間的bm25分數，得到粗匹配工藝文本數據集，對粗匹配工藝文本數據集進行評審，獲得校驗工藝文本數據集；

6、利用預先訓練好的工藝文本數據精確匹配模型判斷出每條大批量工藝文本數據對應的最匹配的標準工藝文本數據，得到精確匹配工藝文本數據集；

7、將精確工藝文本數據集以及校驗工藝文本數據集中工藝文本數據集和標準工藝文本數據集的匹配關系應用到原始標準工藝文本數據替換原始工藝文本數據過程中，完成工藝文本數據的標準化。

8、進一步地，所述計算小批量工藝文本數據集與標準工藝文本數據集之間的bm25分數，得到粗匹配工藝文本數據集，具體為：

9、計算一條小批量工藝文本數據與標準工藝文本數據集中所有數據的bm25得分；

10、按照bm25得分順序進行排序，得分最大者為對應的粗匹配工藝文本數據；

11、對全部小批量工藝文本數據進行上述操作，獲取每一條小批量工藝文本數據的粗匹配工藝文本數據，得到粗匹配工藝文本數據集。

12、進一步地，所述對粗匹配工藝文本數據集進行評審是通過專家評審，獲得每條小批量工藝文本數據到標準工藝文本數據的正確映射，從而獲得校驗工藝文本數據集。

13、進一步地，所述工藝文本數據精確匹配模型的訓練是利用校驗工藝文本數據集進行訓練的，在訓練過程中，使用最大化給定標準工藝文本數據的條件概率為目標對工藝文本數據精確匹配模型進行訓練，即損失函數最小，如下式：

14、

15、其中，λ為該深度學習網絡的參數集合，dse,a表示第a條小批量工藝文本數據對應的標準工藝文本數據為dse，drsa為第a條小批量工藝文本數據。

16、進一步地，所述利用預先訓練好的工藝文本數據精確匹配模型判斷出每條預大批量工藝文本數據對應的最匹配的標準工藝文本數據，具體為：

17、輸入層分別對大批量工藝文本數據集和標準工藝文本數據進行預處理；

18、表示層通過bilstm網絡模塊和注意力模塊提取輸入層預處理后的大批量工藝文本數據集的關鍵信息以及輸入層預處理后的標準工藝文本數據的關鍵信息；

19、匹配層計算輸入層預處理后的大批量工藝文本數據集的關鍵信息以及輸入層預處理后的標準工藝文本數據的關鍵信息的相似度；

20、相似度越大表示大批量工藝文本數據集和標準工藝文本數據匹配程度越高；

21、基于相似度數值最大得到每條大批量工藝文本數據對應的標準工藝文本數據，從而獲得精確匹配工藝文本數據集。

22、進一步地，表示層通過bilstm網絡模塊和注意力模塊提取輸入層預處理后的大批量工藝文本數據集的關鍵信息，具體為：

23、利用bilstm網絡模塊從兩個方向對單條輸入層預處理后的大批量工藝文本數據進行信息提取，并對兩個方向獲取的信息進行拼合，得到包含上下文信息的工藝文本向量；

24、注意力模塊通過一個線性層學習函數實現工藝文本向量變換，通過softmax計算各字的工藝文本注意力權重，將工藝文本向量乘以工藝文本注意力權重并求和，得到工藝文本關鍵向量表示。

25、進一步地，表示層通過bilstm網絡模塊和注意力模塊提取輸入層預處理后的標準工藝文本數據的關鍵信息，具體為：

26、利用bilstm網絡模塊從兩本文檔來自技高網...

【技術保護點】

1.面向制造業工藝文本數據的標準化方法，其特征在于，包括：

2.如權利要求1所述的面向制造業工藝文本數據的標準化方法，其特征在于，所述計算小批量工藝文本數據集與標準工藝文本數據集之間的BM25分數，得到粗匹配工藝文本數據集，具體為：

3.如權利要求1所述的面向制造業工藝文本數據的標準化方法，其特征在于，所述對粗匹配工藝文本數據集進行評審是通過專家評審，獲得每條小批量工藝文本數據到標準工藝文本數據的正確映射，從而獲得校驗工藝文本數據集。

4.如權利要求1所述的面向制造業工藝文本數據的標準化方法，其特征在于，所述工藝文本數據精確匹配模型的訓練是利用校驗工藝文本數據集進行訓練的，在訓練過程中，使用最大化給定標準工藝文本數據的條件概率為目標對工藝文本數據精確匹配模型進行訓練，即損失函數最小，如下式：

5.如權利要求1所述的面向制造業工藝文本數據的標準化方法，其特征在于，所述利用預先訓練好的工藝文本數據精確匹配模型判斷出每條大批量工藝文本數據對應的最匹配的標準工藝文本數據，具體為：

6.如權利要求5所述的面向制造業工藝文本數據的標

7.如權利要求5所述的面向制造業工藝文本數據的標準化方法，其特征在于，表示層通過BiLSTM網絡模塊和注意力模塊提取輸入層預處理后的標準工藝文本數據的關鍵信息，具體為：

8.面向制造業工藝文本數據的標準化系統，其特征在于，包括：

9.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，該程序被處理器執行時實現如權利要求1-7中任一項所述的面向制造業工藝文本數據的標準化方法中的步驟。

10.一種計算機設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，其特征在于，所述處理器執行所述程序時實現如權利要求1-7中任一項所述的面向制造業工藝文本數據的標準化方法中的步驟。

...

【技術特征摘要】

1.面向制造業工藝文本數據的標準化方法，其特征在于，包括：

2.如權利要求1所述的面向制造業工藝文本數據的標準化方法，其特征在于，所述計算小批量工藝文本數據集與標準工藝文本數據集之間的bm25分數，得到粗匹配工藝文本數據集，具體為：

5.如權利要求1所述的面向制造業工藝文本數據的標準化方法，其特征在于，所述利用預先訓練好的工藝文本數據精確匹配模型判斷出每條大批量工...

【專利技術屬性】
技術研發人員：高琦，張金龍，
申請(專利權)人：山東大學日照研究院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術