一種對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法及裝置制造方法及圖紙

技術(shù)編號(hào)：26420103 閱讀：67 留言：0更新日期：2020-11-20 14:15

本發(fā)明專利技術(shù)提供一種對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法及裝置，所述方法包括：接收由工業(yè)設(shè)備的傳感器采集的數(shù)據(jù)；對(duì)所述數(shù)據(jù)的無效值進(jìn)行修正；根據(jù)數(shù)據(jù)缺失情況及與所述工業(yè)設(shè)備的傳感器的數(shù)據(jù)采樣對(duì)照關(guān)系，將缺失的數(shù)據(jù)分為短時(shí)缺失和長(zhǎng)時(shí)缺失兩類；采用基于雙層LSTM模型補(bǔ)全缺失數(shù)據(jù)；合并處理重復(fù)值；檢測(cè)時(shí)間序列的異常，所述時(shí)間序列的異常包括異常點(diǎn)和模式異常；根據(jù)異常點(diǎn)和模式異常數(shù)據(jù)生成報(bào)告。根據(jù)本發(fā)明專利技術(shù)的方案，可以分別找出所有異常點(diǎn)和模式異常點(diǎn)，為工廠提供更準(zhǔn)確的設(shè)備異常信息。為工廠提供準(zhǔn)確的設(shè)備狀態(tài)變化信息，可以挖掘工業(yè)設(shè)備的潛在故障，實(shí)現(xiàn)設(shè)備的預(yù)維護(hù)和性能退化評(píng)估。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】
一種對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法及裝置
本專利技術(shù)涉及工業(yè)數(shù)據(jù)處理領(lǐng)域，尤其涉及一種對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法及裝置。
技術(shù)介紹
工業(yè)大數(shù)據(jù)由工業(yè)領(lǐng)域信息化應(yīng)用所產(chǎn)生的海量數(shù)據(jù)組成，由于數(shù)據(jù)采集系統(tǒng)的缺陷、鏈路問題、硬件故障、人為因素等原因，造成數(shù)據(jù)質(zhì)量問題的廣泛存在，而低劣的數(shù)據(jù)可能會(huì)導(dǎo)致分析結(jié)果出現(xiàn)偏差，引發(fā)生產(chǎn)事故，因此，迫切需要對(duì)工業(yè)大數(shù)據(jù)進(jìn)行清洗操作。數(shù)據(jù)清洗的原理是利用如數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘或預(yù)定義的清洗規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)，主要處理方式包括：無效值的修正、缺失值的補(bǔ)全、重復(fù)數(shù)據(jù)的合并、異常值的檢測(cè)。無效值是指格式不符合規(guī)范，或者數(shù)值沒有意義的錯(cuò)誤數(shù)據(jù)。工業(yè)設(shè)備采集的數(shù)據(jù)中，異常值通常與無效值相互混雜。缺失值是指由于存儲(chǔ)設(shè)備損壞、數(shù)據(jù)輸入違反規(guī)則或數(shù)據(jù)采集設(shè)備容量的限制等主觀、客觀原因?qū)е氯笔У臄?shù)據(jù)。現(xiàn)有技術(shù)是保留完整的記錄來分析查詢，但這種方式只適用于缺失率非常低的情況。若有大量數(shù)據(jù)缺失，會(huì)導(dǎo)致數(shù)據(jù)分布的偏差以及對(duì)數(shù)據(jù)分析結(jié)果的誤導(dǎo)。更合理的處理方式應(yīng)當(dāng)是盡可能多地恢復(fù)丟失信息。常見的恢復(fù)丟失信息的處理方式是用均值或者最常出現(xiàn)的值進(jìn)行替換。但上述處理方式忽略了工業(yè)設(shè)備采集的數(shù)據(jù)的屬性之間的關(guān)系，對(duì)同一屬性的所有缺失的數(shù)據(jù)都填充一個(gè)固定值并不可取。還有許多統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)的模型被用來解決數(shù)據(jù)缺失的問題，常見的統(tǒng)計(jì)學(xué)填充方法有EM算法、回歸預(yù)測(cè)法、插值法等。機(jī)器學(xué)習(xí)領(lǐng)域中包括KNN聚類法、分類算法和神經(jīng)網(wǎng)絡(luò)算法，但基于統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)的模型...

【技術(shù)保護(hù)點(diǎn)】
1.一種對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法，其特征在于，包括以下步驟：/n步驟S101：接收由工業(yè)設(shè)備的傳感器采集的數(shù)據(jù)；/n步驟S102：對(duì)所述數(shù)據(jù)的無效值進(jìn)行修正，若采集的所述數(shù)據(jù)中，某項(xiàng)數(shù)據(jù)的格式不符合要求，或者某項(xiàng)數(shù)據(jù)的數(shù)據(jù)值大小超出允許的閾值，則將該項(xiàng)數(shù)據(jù)刪除，將該項(xiàng)數(shù)據(jù)標(biāo)記為數(shù)據(jù)缺失；/n步驟S103：對(duì)修正后的數(shù)據(jù)，確定數(shù)據(jù)缺失值，根據(jù)數(shù)據(jù)缺失情況及與所述工業(yè)設(shè)備的傳感器的數(shù)據(jù)采樣對(duì)照關(guān)系，將缺失的數(shù)據(jù)分為短時(shí)缺失和長(zhǎng)時(shí)缺失兩類，采用基于雙層LSTM的模型來補(bǔ)全缺失數(shù)據(jù)；/n步驟S104：將填補(bǔ)完全部缺失數(shù)據(jù)的修正數(shù)據(jù)中的重復(fù)值進(jìn)行合并處理；/n步驟S105：對(duì)合并處理重復(fù)值后的數(shù)據(jù)，檢測(cè)時(shí)間序列的異常，所述時(shí)間序列的異常包括異常點(diǎn)和模式異常；通過基于密度的局部異常檢測(cè)算法(LOF)檢測(cè)異常點(diǎn)，基于雙層LSTM模型檢測(cè)模式異常；/n步驟S106：根據(jù)異常點(diǎn)和模式異常數(shù)據(jù)生成報(bào)告。/n

【技術(shù)特征摘要】
1.一種對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法，其特征在于，包括以下步驟：
步驟S101：接收由工業(yè)設(shè)備的傳感器采集的數(shù)據(jù)；
步驟S102：對(duì)所述數(shù)據(jù)的無效值進(jìn)行修正，若采集的所述數(shù)據(jù)中，某項(xiàng)數(shù)據(jù)的格式不符合要求，或者某項(xiàng)數(shù)據(jù)的數(shù)據(jù)值大小超出允許的閾值，則將該項(xiàng)數(shù)據(jù)刪除，將該項(xiàng)數(shù)據(jù)標(biāo)記為數(shù)據(jù)缺失；
步驟S103：對(duì)修正后的數(shù)據(jù)，確定數(shù)據(jù)缺失值，根據(jù)數(shù)據(jù)缺失情況及與所述工業(yè)設(shè)備的傳感器的數(shù)據(jù)采樣對(duì)照關(guān)系，將缺失的數(shù)據(jù)分為短時(shí)缺失和長(zhǎng)時(shí)缺失兩類，采用基于雙層LSTM的模型來補(bǔ)全缺失數(shù)據(jù)；
步驟S104：將填補(bǔ)完全部缺失數(shù)據(jù)的修正數(shù)據(jù)中的重復(fù)值進(jìn)行合并處理；
步驟S105：對(duì)合并處理重復(fù)值后的數(shù)據(jù)，檢測(cè)時(shí)間序列的異常，所述時(shí)間序列的異常包括異常點(diǎn)和模式異常；通過基于密度的局部異常檢測(cè)算法(LOF)檢測(cè)異常點(diǎn)，基于雙層LSTM模型檢測(cè)模式異常；
步驟S106：根據(jù)異常點(diǎn)和模式異常數(shù)據(jù)生成報(bào)告。

2.如權(quán)利要求1所述的對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法，其特征在于，所述基于雙層LSTM模型補(bǔ)全長(zhǎng)時(shí)缺失數(shù)據(jù)，包括：
步驟S201：確定缺失數(shù)據(jù)的位置；
根據(jù)工業(yè)設(shè)備采集數(shù)據(jù)的采樣間隔，從修正后的數(shù)據(jù)中確定數(shù)據(jù)缺失值的位置；根據(jù)刪除了無效值的數(shù)據(jù)位置，確定數(shù)據(jù)缺失值的位置；記錄全部數(shù)據(jù)缺失值的位置，并對(duì)全部數(shù)據(jù)缺失值位置按時(shí)間順序進(jìn)行排序；將當(dāng)前處理位置標(biāo)記為第一個(gè)數(shù)據(jù)缺失值的位置；
步驟S202：判斷是否填補(bǔ)完全部缺失數(shù)據(jù)，若是，輸出填補(bǔ)完全部缺失數(shù)據(jù)的修正數(shù)據(jù)，方法結(jié)束；若否，進(jìn)入步驟S203；
步驟S203：通過相關(guān)性計(jì)算確定與缺失數(shù)據(jù)相關(guān)的其他n個(gè)屬性，n≥1，
計(jì)算公式為：
其中，由工業(yè)設(shè)備的傳感器采集的數(shù)據(jù)具有多個(gè)屬性，X為工業(yè)設(shè)備采集到的含有缺失數(shù)據(jù)的屬性集合，Y為工業(yè)設(shè)備在同一時(shí)間采集到的不含缺失數(shù)據(jù)的屬性集合；Xi為缺失數(shù)據(jù)的屬性集合中的任一屬性，Yj為不含缺失數(shù)據(jù)的屬性集合的任一屬性；生成不含缺失數(shù)據(jù)的副本數(shù)據(jù)集，將刪除工業(yè)設(shè)備采集的數(shù)據(jù)中的缺失數(shù)據(jù)，生成副本數(shù)據(jù)集，根據(jù)副本數(shù)據(jù)集，計(jì)算Cov(Xi,Yj)、D(Xi)、D(Yj)，Cov(Xi,Y)為Xi,Yj的協(xié)方差，D(Xi)、D(Yj)分別為Xi、Yj的方差；
當(dāng)Xi與Yj之間的相關(guān)系數(shù)的絕對(duì)值時(shí)，認(rèn)為Xi與Yj是相關(guān)屬性，將與Xi相關(guān)的屬性按相關(guān)性數(shù)值排序，選取相關(guān)性最高的前n個(gè)屬性作為與缺失數(shù)據(jù)相關(guān)的其他屬性；
步驟S204：將該缺失數(shù)據(jù)前面的time_step個(gè)數(shù)據(jù)作為輸入，調(diào)用訓(xùn)練好的LSTM模型，計(jì)算缺失數(shù)據(jù)，并將計(jì)算出的數(shù)據(jù)填補(bǔ)所述缺失數(shù)據(jù)；time_step為預(yù)定步長(zhǎng)；
步驟S205：將當(dāng)前處理位置向后移動(dòng)一位，進(jìn)入步驟S202。

3.如權(quán)利要求2所述的對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法，其特征在于，所述LSTM模型的訓(xùn)練過程為：
步驟S301：配置雙層LSTM模型，模型的輸入層input_size＝n，輸出層output_size＝1；確定該雙層LSTM模型的訓(xùn)練參數(shù)，包括隱藏層的節(jié)點(diǎn)數(shù)量rnn_unit、每次訓(xùn)練傳入的數(shù)量batch_size、每批數(shù)據(jù)的規(guī)模time_step；其中，n為相關(guān)性最高的屬性的個(gè)數(shù)；
步驟S302：確定訓(xùn)練集和測(cè)試集數(shù)據(jù)，確定訓(xùn)練集和測(cè)試集的數(shù)據(jù)比例；
步驟S303：按比例選取刪除了缺失數(shù)據(jù)的多維傳感器采集的數(shù)據(jù)作為訓(xùn)練集中的訓(xùn)練數(shù)據(jù)，對(duì)雙層LSTM模型進(jìn)行訓(xùn)練，得到訓(xùn)練參數(shù)的各項(xiàng)數(shù)值；
步驟S304：根據(jù)測(cè)試集的測(cè)試結(jié)果調(diào)整訓(xùn)練參數(shù)。

4.如權(quán)利要求3所述的對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法，其特征在于，通過基于密度的局部異常檢測(cè)算法(LOF)檢測(cè)異常點(diǎn)，基于雙層LSTM模型檢測(cè)模式異常，包括：
所述基于密度的局部異常檢測(cè)算法(LOF)檢測(cè)異常點(diǎn)，包括：
步驟S401：將合并處理重復(fù)值后的數(shù)據(jù)作為待檢測(cè)的數(shù)據(jù)，將待檢測(cè)的數(shù)據(jù)及與該待檢測(cè)的數(shù)據(jù)的屬性相關(guān)的其他n個(gè)屬性對(duì)應(yīng)的數(shù)據(jù)打包成元組作為L(zhǎng)OF算法的輸入；
步驟S402：設(shè)定參數(shù)k的范圍，k∈[min,max],k為整數(shù)；對(duì)于每一個(gè)k值，將每個(gè)待檢測(cè)數(shù)據(jù)作為一個(gè)點(diǎn)，對(duì)每個(gè)點(diǎn)執(zhí)行一次LOF算法都會(huì)獲得一個(gè)離群因子值，在k的所有取值分別運(yùn)行之后，對(duì)每個(gè)點(diǎn)的各離群因子值求均值，作為該點(diǎn)的離群因子均值，計(jì)算公式為：

其中，min、max分別為預(yù)置的范圍值，LOFk(p)為對(duì)應(yīng)于k，點(diǎn)p的離群因子值；
步驟S403：輸出離群因子均值大于閾值的點(diǎn)，作為異常點(diǎn)；
所述基于雙層LSTM模型檢測(cè)模式異常，包括：
步驟S501：調(diào)用訓(xùn)練好的LSTM模型進(jìn)行時(shí)間序列預(yù)測(cè)，得到預(yù)測(cè)結(jié)果y_predict；
步驟S502：計(jì)算預(yù)測(cè)結(jié)果y_predict與實(shí)際結(jié)果y_test的差值e；
步驟S503：設(shè)置范圍區(qū)間error_buffer，若差值e不在該范圍區(qū)間error_buffer內(nèi)，與該差值e對(duì)應(yīng)的點(diǎn)作為異常點(diǎn)。

5.一種對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的裝置，其特征在于，所述裝置包括：
采集模塊：接收由工業(yè)設(shè)備的傳感器采集的數(shù)據(jù)；
修正模塊：...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：劉曉凱，許方敏，徐思佳，常鋒偉，
申請(qǐng)(專利權(quán))人：北京賽博星通科技有限公司，
類型：發(fā)明
國別省市：北京;11

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)