【技術(shù)實(shí)現(xiàn)步驟摘要】
一種對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法及裝置
本專利技術(shù)涉及工業(yè)數(shù)據(jù)處理領(lǐng)域,尤其涉及一種對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法及裝置。
技術(shù)介紹
工業(yè)大數(shù)據(jù)由工業(yè)領(lǐng)域信息化應(yīng)用所產(chǎn)生的海量數(shù)據(jù)組成,由于數(shù)據(jù)采集系統(tǒng)的缺陷、鏈路問題、硬件故障、人為因素等原因,造成數(shù)據(jù)質(zhì)量問題的廣泛存在,而低劣的數(shù)據(jù)可能會(huì)導(dǎo)致分析結(jié)果出現(xiàn)偏差,引發(fā)生產(chǎn)事故,因此,迫切需要對(duì)工業(yè)大數(shù)據(jù)進(jìn)行清洗操作。數(shù)據(jù)清洗的原理是利用如數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘或預(yù)定義的清洗規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù),主要處理方式包括:無效值的修正、缺失值的補(bǔ)全、重復(fù)數(shù)據(jù)的合并、異常值的檢測(cè)。無效值是指格式不符合規(guī)范,或者數(shù)值沒有意義的錯(cuò)誤數(shù)據(jù)。工業(yè)設(shè)備采集的數(shù)據(jù)中,異常值通常與無效值相互混雜。缺失值是指由于存儲(chǔ)設(shè)備損壞、數(shù)據(jù)輸入違反規(guī)則或數(shù)據(jù)采集設(shè)備容量的限制等主觀、客觀原因?qū)е氯笔У臄?shù)據(jù)。現(xiàn)有技術(shù)是保留完整的記錄來分析查詢,但這種方式只適用于缺失率非常低的情況。若有大量數(shù)據(jù)缺失,會(huì)導(dǎo)致數(shù)據(jù)分布的偏差以及對(duì)數(shù)據(jù)分析結(jié)果的誤導(dǎo)。更合理的處理方式應(yīng)當(dāng)是盡可能多地恢復(fù)丟失信息。常見的恢復(fù)丟失信息的處理方式是用均值或者最常出現(xiàn)的值進(jìn)行替換。但上述處理方式忽略了工業(yè)設(shè)備采集的數(shù)據(jù)的屬性之間的關(guān)系,對(duì)同一屬性的所有缺失的數(shù)據(jù)都填充一個(gè)固定值并不可取。還有許多統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)的模型被用來解決數(shù)據(jù)缺失的問題,常見的統(tǒng)計(jì)學(xué)填充方法有EM算法、回歸預(yù)測(cè)法、插值法等。機(jī)器學(xué)習(xí)領(lǐng)域中包括KNN聚類法、分類算法和神經(jīng)網(wǎng)絡(luò)算法,但基于統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)的模型 ...
【技術(shù)保護(hù)點(diǎn)】
1.一種對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法,其特征在于,包括以下步驟:/n步驟S101:接收由工業(yè)設(shè)備的傳感器采集的數(shù)據(jù);/n步驟S102:對(duì)所述數(shù)據(jù)的無效值進(jìn)行修正,若采集的所述數(shù)據(jù)中,某項(xiàng)數(shù)據(jù)的格式不符合要求,或者某項(xiàng)數(shù)據(jù)的數(shù)據(jù)值大小超出允許的閾值,則將該項(xiàng)數(shù)據(jù)刪除,將該項(xiàng)數(shù)據(jù)標(biāo)記為數(shù)據(jù)缺失;/n步驟S103:對(duì)修正后的數(shù)據(jù),確定數(shù)據(jù)缺失值,根據(jù)數(shù)據(jù)缺失情況及與所述工業(yè)設(shè)備的傳感器的數(shù)據(jù)采樣對(duì)照關(guān)系,將缺失的數(shù)據(jù)分為短時(shí)缺失和長(zhǎng)時(shí)缺失兩類,采用基于雙層LSTM的模型來補(bǔ)全缺失數(shù)據(jù);/n步驟S104:將填補(bǔ)完全部缺失數(shù)據(jù)的修正數(shù)據(jù)中的重復(fù)值進(jìn)行合并處理;/n步驟S105:對(duì)合并處理重復(fù)值后的數(shù)據(jù),檢測(cè)時(shí)間序列的異常,所述時(shí)間序列的異常包括異常點(diǎn)和模式異常;通過基于密度的局部異常檢測(cè)算法(LOF)檢測(cè)異常點(diǎn),基于雙層LSTM模型檢測(cè)模式異常;/n步驟S106:根據(jù)異常點(diǎn)和模式異常數(shù)據(jù)生成報(bào)告。/n
【技術(shù)特征摘要】
1.一種對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法,其特征在于,包括以下步驟:
步驟S101:接收由工業(yè)設(shè)備的傳感器采集的數(shù)據(jù);
步驟S102:對(duì)所述數(shù)據(jù)的無效值進(jìn)行修正,若采集的所述數(shù)據(jù)中,某項(xiàng)數(shù)據(jù)的格式不符合要求,或者某項(xiàng)數(shù)據(jù)的數(shù)據(jù)值大小超出允許的閾值,則將該項(xiàng)數(shù)據(jù)刪除,將該項(xiàng)數(shù)據(jù)標(biāo)記為數(shù)據(jù)缺失;
步驟S103:對(duì)修正后的數(shù)據(jù),確定數(shù)據(jù)缺失值,根據(jù)數(shù)據(jù)缺失情況及與所述工業(yè)設(shè)備的傳感器的數(shù)據(jù)采樣對(duì)照關(guān)系,將缺失的數(shù)據(jù)分為短時(shí)缺失和長(zhǎng)時(shí)缺失兩類,采用基于雙層LSTM的模型來補(bǔ)全缺失數(shù)據(jù);
步驟S104:將填補(bǔ)完全部缺失數(shù)據(jù)的修正數(shù)據(jù)中的重復(fù)值進(jìn)行合并處理;
步驟S105:對(duì)合并處理重復(fù)值后的數(shù)據(jù),檢測(cè)時(shí)間序列的異常,所述時(shí)間序列的異常包括異常點(diǎn)和模式異常;通過基于密度的局部異常檢測(cè)算法(LOF)檢測(cè)異常點(diǎn),基于雙層LSTM模型檢測(cè)模式異常;
步驟S106:根據(jù)異常點(diǎn)和模式異常數(shù)據(jù)生成報(bào)告。
2.如權(quán)利要求1所述的對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法,其特征在于,所述基于雙層LSTM模型補(bǔ)全長(zhǎng)時(shí)缺失數(shù)據(jù),包括:
步驟S201:確定缺失數(shù)據(jù)的位置;
根據(jù)工業(yè)設(shè)備采集數(shù)據(jù)的采樣間隔,從修正后的數(shù)據(jù)中確定數(shù)據(jù)缺失值的位置;根據(jù)刪除了無效值的數(shù)據(jù)位置,確定數(shù)據(jù)缺失值的位置;記錄全部數(shù)據(jù)缺失值的位置,并對(duì)全部數(shù)據(jù)缺失值位置按時(shí)間順序進(jìn)行排序;將當(dāng)前處理位置標(biāo)記為第一個(gè)數(shù)據(jù)缺失值的位置;
步驟S202:判斷是否填補(bǔ)完全部缺失數(shù)據(jù),若是,輸出填補(bǔ)完全部缺失數(shù)據(jù)的修正數(shù)據(jù),方法結(jié)束;若否,進(jìn)入步驟S203;
步驟S203:通過相關(guān)性計(jì)算確定與缺失數(shù)據(jù)相關(guān)的其他n個(gè)屬性,n≥1,
計(jì)算公式為:
其中,由工業(yè)設(shè)備的傳感器采集的數(shù)據(jù)具有多個(gè)屬性,X為工業(yè)設(shè)備采集到的含有缺失數(shù)據(jù)的屬性集合,Y為工業(yè)設(shè)備在同一時(shí)間采集到的不含缺失數(shù)據(jù)的屬性集合;Xi為缺失數(shù)據(jù)的屬性集合中的任一屬性,Yj為不含缺失數(shù)據(jù)的屬性集合的任一屬性;生成不含缺失數(shù)據(jù)的副本數(shù)據(jù)集,將刪除工業(yè)設(shè)備采集的數(shù)據(jù)中的缺失數(shù)據(jù),生成副本數(shù)據(jù)集,根據(jù)副本數(shù)據(jù)集,計(jì)算Cov(Xi,Yj)、D(Xi)、D(Yj),Cov(Xi,Y)為Xi,Yj的協(xié)方差,D(Xi)、D(Yj)分別為Xi、Yj的方差;
當(dāng)Xi與Yj之間的相關(guān)系數(shù)的絕對(duì)值時(shí),認(rèn)為Xi與Yj是相關(guān)屬性,將與Xi相關(guān)的屬性按相關(guān)性數(shù)值排序,選取相關(guān)性最高的前n個(gè)屬性作為與缺失數(shù)據(jù)相關(guān)的其他屬性;
步驟S204:將該缺失數(shù)據(jù)前面的time_step個(gè)數(shù)據(jù)作為輸入,調(diào)用訓(xùn)練好的LSTM模型,計(jì)算缺失數(shù)據(jù),并將計(jì)算出的數(shù)據(jù)填補(bǔ)所述缺失數(shù)據(jù);time_step為預(yù)定步長(zhǎng);
步驟S205:將當(dāng)前處理位置向后移動(dòng)一位,進(jìn)入步驟S202。
3.如權(quán)利要求2所述的對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法,其特征在于,所述LSTM模型的訓(xùn)練過程為:
步驟S301:配置雙層LSTM模型,模型的輸入層input_size=n,輸出層output_size=1;確定該雙層LSTM模型的訓(xùn)練參數(shù),包括隱藏層的節(jié)點(diǎn)數(shù)量rnn_unit、每次訓(xùn)練傳入的數(shù)量batch_size、每批數(shù)據(jù)的規(guī)模time_step;其中,n為相關(guān)性最高的屬性的個(gè)數(shù);
步驟S302:確定訓(xùn)練集和測(cè)試集數(shù)據(jù),確定訓(xùn)練集和測(cè)試集的數(shù)據(jù)比例;
步驟S303:按比例選取刪除了缺失數(shù)據(jù)的多維傳感器采集的數(shù)據(jù)作為訓(xùn)練集中的訓(xùn)練數(shù)據(jù),對(duì)雙層LSTM模型進(jìn)行訓(xùn)練,得到訓(xùn)練參數(shù)的各項(xiàng)數(shù)值;
步驟S304:根據(jù)測(cè)試集的測(cè)試結(jié)果調(diào)整訓(xùn)練參數(shù)。
4.如權(quán)利要求3所述的對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的方法,其特征在于,通過基于密度的局部異常檢測(cè)算法(LOF)檢測(cè)異常點(diǎn),基于雙層LSTM模型檢測(cè)模式異常,包括:
所述基于密度的局部異常檢測(cè)算法(LOF)檢測(cè)異常點(diǎn),包括:
步驟S401:將合并處理重復(fù)值后的數(shù)據(jù)作為待檢測(cè)的數(shù)據(jù),將待檢測(cè)的數(shù)據(jù)及與該待檢測(cè)的數(shù)據(jù)的屬性相關(guān)的其他n個(gè)屬性對(duì)應(yīng)的數(shù)據(jù)打包成元組作為L(zhǎng)OF算法的輸入;
步驟S402:設(shè)定參數(shù)k的范圍,k∈[min,max],k為整數(shù);對(duì)于每一個(gè)k值,將每個(gè)待檢測(cè)數(shù)據(jù)作為一個(gè)點(diǎn),對(duì)每個(gè)點(diǎn)執(zhí)行一次LOF算法都會(huì)獲得一個(gè)離群因子值,在k的所有取值分別運(yùn)行之后,對(duì)每個(gè)點(diǎn)的各離群因子值求均值,作為該點(diǎn)的離群因子均值,計(jì)算公式為:
其中,min、max分別為預(yù)置的范圍值,LOFk(p)為對(duì)應(yīng)于k,點(diǎn)p的離群因子值;
步驟S403:輸出離群因子均值大于閾值的點(diǎn),作為異常點(diǎn);
所述基于雙層LSTM模型檢測(cè)模式異常,包括:
步驟S501:調(diào)用訓(xùn)練好的LSTM模型進(jìn)行時(shí)間序列預(yù)測(cè),得到預(yù)測(cè)結(jié)果y_predict;
步驟S502:計(jì)算預(yù)測(cè)結(jié)果y_predict與實(shí)際結(jié)果y_test的差值e;
步驟S503:設(shè)置范圍區(qū)間error_buffer,若差值e不在該范圍區(qū)間error_buffer內(nèi),與該差值e對(duì)應(yīng)的點(diǎn)作為異常點(diǎn)。
5.一種對(duì)工業(yè)設(shè)備采集的數(shù)據(jù)進(jìn)行處理和檢測(cè)的裝置,其特征在于,所述裝置包括:
采集模塊:接收由工業(yè)設(shè)備的傳感器采集的數(shù)據(jù);
修正模塊:...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉曉凱,許方敏,徐思佳,常鋒偉,
申請(qǐng)(專利權(quán))人:北京賽博星通科技有限公司,
類型:發(fā)明
國別省市:北京;11
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。