System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據處理,特別涉及一種監控數據篩選方法及系統。
技術介紹
1、在多機構聯合監測進行數據獲取的場景下,如何在嚴格確保數據隱私安全的前提下,完成多機構的數據獲取,成為了一項亟待攻克的關鍵技術挑戰。
2、近年來,聯邦學習作為一種新興的數據處理技術,為多機構聯合安全監測提供了新的解決方案,聯邦學習允許多個機構在本地進行數據處理和分析,僅將加密后的處理結果上傳至協調方進行匯總和分析,從而避免了數據泄露的風險。
3、但在聯邦學習的框架基礎上,如何對多機構監測后獲取的數據源進行高效、精確的篩選,仍是一個技術難題,多機構的數據來源廣泛且多樣,存在大量的冗余和無效數據,其將導致整體的監測效率及準確度降低。
技術實現思路
1、針對現有技術的不足,本專利技術的目的在于提供一種監控數據篩選方法及系統,旨在解決現有技術中多機構的數據來源廣泛且多樣,存在大量的冗余和無效數據,其將導致整體的監測效率及準確度降低的技術問題。
2、為了實現上述目的,第一方面,本申請實施例提供了一種監控數據篩選方法,用于對若干個監測機構的監測屬性進行過濾,所述監控數據篩選方法包括以下步驟:
3、基于決策屬性自決策機構的決策記錄中獲取與監測對象對應的若干個決策屬性值,為每一所述決策屬性值賦予第一id編號,將所述第一id編號及所述決策屬性值組合為第一數據對,對若干個所述第一數據對進行等價劃分,以形成包括若干個第一等價類的第一等價集合;
4、自監測機構中獲取與監測對
5、通過所述第一等價集合獲取與所述決策屬性對應的決策信息熵;
6、基于所述第一等價集合及所述第二等價集合確定與所述第二等價集合對應的監測屬性的監測條件熵;
7、基于所述決策信息熵及所述監測條件熵確定所述監測屬性的增益值,通過所述增益值判斷是否需過濾所述監測屬性。
8、與現有技術相比,本專利技術的有益效果在于:僅處理包括所述第一id編號的所述第一等價集合及包括所述第二id編號的所述第二等價集合,確保了數據的安全性;通過信息熵理論,計算數據的不確定性來衡量數據的信息含量及冗余程度,即通過獲取所述決策信息熵及所述監測條件熵,分析所述監測屬性與所述決策記錄之間的關聯程度,進而自眾多的監測屬性中篩選出關聯程度較低的所述監測屬性,避免該部分所述監測屬性的監測值混雜于重要的監測值中,排除了較多的冗余數據和無效數據,提升了監測效率及監測準確性。
9、進一步,所述對若干個所述第一數據對進行等價劃分,以形成包括若干個第一等價類的第一等價集合的步驟包括:
10、將不同的所述第一數據對中的所述決策屬性值進行比對;
11、若存在相同的所述決策屬性值,則將與相同的所述決策屬性值對應的所述第一id編號合并為第一集合,并將剩余的所述第一id編號分別確定為第二集合;
12、將所述第一集合及所述第二集合均定義為第一等價類,并將若干個所述第一等價類組合為第一等價集合。
13、更進一步,所述通過所述第一等價集合獲取與所述決策屬性對應的決策信息熵的步驟具體為:
14、獲取所述第一等價集合中所述第一等價類的概率值;
15、基于所述第一等價類的概率值計算與所述決策屬性對應的決策信息熵。
16、更進一步,所述第一等價類的概率值的計算公式為:
17、,
18、其中,表示第i個第一等價類的概率值,表示第i個第一等價類中第一id編號的數量,表示第一等價集合中第一id編號的數量。
19、更進一步,所述決策信息熵的計算公式為:
20、,
21、其中,表示決策信息熵,表示第i個第一等價類的概率值,表示第一等價類的數量,表示對數函數。
22、更進一步,所述基于所述第一等價集合及所述第二等價集合確定與所述第二等價集合對應的監測屬性的監測條件熵的步驟包括:
23、在與某一所述監測屬性對應的某一所述第二等價集合中,以所述第二等價類為條件,并以所述第一等價集合為結果確定所述第二等價類的單條件熵;
24、通過若干個所述單條件熵確定該所述監測屬性的監測條件熵。
25、更進一步,所述單條件熵的計算公式為:
26、,
27、其中,表示與第i個監測機構下第j個監測屬性對應的第q個第二等價類的單條件熵,表示以與第i個監測機構下第j個監測屬性對應的第q個第二等價類為條件值,以第n個第一等價類為結果值的概率,表示對數函數,表示第一等價類的數量。
28、更進一步,所述監測條件熵的計算公式為:
29、,
30、其中,表示第i個監測機構的第j個監測屬性的監測條件熵,表示與第i個監測機構下第j個監測屬性對應的第m個第二等價類的單條件熵,表示與第i個監測機構下第j個監測屬性對應的第m個第二等價類的概率值,表示與第i個監測機構下第j個監測屬性對應的第二等價類的數量。
31、更進一步,所述通過所述增益值判斷是否需過濾所述監測屬性的步驟包括:
32、將所述增益值與屬性閾值進行比對;
33、若所述增益值大于所述屬性閾值,則保留與大于所述屬性閾值的增益值對應的監測屬性;
34、若所述增益值小于所述屬性閾值,則剔除與小于所述屬性閾值的增益值對應的監測屬性。
35、第二方面,本申請實施例提供了一種監控數據篩選系統,應用于如上述第一方面所述的監控數據篩選方法,所述系統包括:
36、第一獲取模塊,用于基于決策屬性自決策機構的決策記錄中獲取與監測對象對應的若干個決策屬性值,為每一所述決策屬性值賦予第一id編號,將所述第一id編號及所述決策屬性值組合為第一數據對,對若干個所述第一數據對進行等價劃分,以形成包括若干個第一等價類的第一等價集合;
37、第二獲取模塊,用于自監測機構中獲取與監測對象對應的監測記錄,所述監測機構包括若干個監測屬性,基于所述監測屬性自所述監測記錄中提取監測值,為每一所述監測值賦予第二id編號,所述第二id編號與所述監測值組合為第二數據對,對若干個所述第二數據對進行等價劃分,以形成包括若干個第二等價類的第二等價集合,所述第二等價集合的數量與所述監測屬性的數量相同;
38、第一分析模塊,用于通過所述第一等價集合獲取與所述決策屬性對應的決策信息熵;
39、第二分析模塊,用于基于所述第一等價集合及所述第二等價集合確定與所述第二等價集合對應的監測屬性的監測條件熵;
40、判斷模塊,用于基于所述決策信息熵及所述監測條件熵確定所述監本文檔來自技高網...
【技術保護點】
1.一種監控數據篩選方法,用于對若干個監測機構的監測屬性進行過濾,其特征在于,所述監控數據篩選方法包括以下步驟:
2.根據權利要求1所述的監控數據篩選方法,其特征在于,所述對若干個所述第一數據對進行等價劃分,以形成包括若干個第一等價類的第一等價集合的步驟包括:
3.根據權利要求1所述的監控數據篩選方法,其特征在于,所述通過所述第一等價集合獲取與所述決策屬性對應的決策信息熵的步驟具體為:
4.根據權利要求3所述的監控數據篩選方法,其特征在于,所述第一等價類的概率值的計算公式為:
5.根據權利要求3所述的監控數據篩選方法,其特征在于,所述決策信息熵的計算公式為:
6.根據權利要求1所述的監控數據篩選方法,其特征在于,所述基于所述第一等價集合及所述第二等價集合確定與所述第二等價集合對應的監測屬性的監測條件熵的步驟包括:
7.根據權利要求6所述的監控數據篩選方法,其特征在于,所述單條件熵的計算公式為:
8.根據權利要求6所述的監控數據篩選方法,其特征在于,所述監測條件熵的計算公式為:
9.根據
10.一種監控數據篩選系統,應用于如權利要求1~9任一項所述的監控數據篩選方法,其特征在于,所述系統包括:
...【技術特征摘要】
1.一種監控數據篩選方法,用于對若干個監測機構的監測屬性進行過濾,其特征在于,所述監控數據篩選方法包括以下步驟:
2.根據權利要求1所述的監控數據篩選方法,其特征在于,所述對若干個所述第一數據對進行等價劃分,以形成包括若干個第一等價類的第一等價集合的步驟包括:
3.根據權利要求1所述的監控數據篩選方法,其特征在于,所述通過所述第一等價集合獲取與所述決策屬性對應的決策信息熵的步驟具體為:
4.根據權利要求3所述的監控數據篩選方法,其特征在于,所述第一等價類的概率值的計算公式為:
5.根據權利要求3所述的監控數據篩選方法,其特征在于,所述決策信息熵的計算公式...
【專利技術屬性】
技術研發人員:徐健鋒,汪陽,涂敏,邵國林,谷真真,張亮,黃巍,萬雪勇,王勤茹,周勇,王劍,
申請(專利權)人:南昌大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。