System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及大數據分析處理,具體涉及一種大數據平臺的數據有效性校驗方法及系統。
技術介紹
1、大數據平臺作為一種企業在大數據環境下進行分析決策的平臺,能夠幫助企業分析海量的數據集,而有效性校驗能夠避免因數據錯誤導致的分析結果偏差或決策失誤,確保大數據平臺數據集的有效性,提高數據管理的效率。
2、現階段數據的有效性校驗方法主要采用基于規則的驗證方法,需要大量的預設規則進行判斷。由于大數據平臺的數據具有多維度、大樣本量等特點,基于規則的驗證方法存在預設規則難以動態適應數據中蘊含潛在的數據模式,導致數據有效性校驗的結果存在較大誤差。
技術實現思路
1、為了解決上述技術問題,本申請的目的在于提供一種大數據平臺的數據有效性校驗方法及系統,所采用的技術方案具體如下:
2、第一方面,本申請實施例提供了一種大數據平臺的數據有效性校驗方法,該方法包括以下步驟:
3、讀取各種屬性類型的待檢測數據和歷史數據;
4、基于各種屬性類型的所述歷史數據的分布,確定所有屬性類型中的關鍵屬性;
5、分析待檢測數據和歷史數據在各關鍵屬性中的分布,得到各待檢測數據在對應關鍵屬性上的屬性值歸屬度;分析各關鍵屬性的歷史數據的分布,得到各關鍵屬性的取值隨機性;結合所述屬性值歸屬度與所述取值隨機性,得到各待檢測數據在對應關鍵屬性上的屬性值有效程度;
6、分析各關鍵屬性上待檢測數據的分布與歷史數據的分布的差異,得到各關鍵屬性下所有待檢測數據的數據差異程度;結合
7、在其中一種實施例中,所述關鍵屬性的確定過程為:
8、基于各種屬性類型的所有歷史數據分布的混亂程度確定各屬性類型的屬性細節豐富度;采用聚類算法對所有屬性類型的屬性細節豐富度進行聚類得到各聚類簇,基于各聚類簇得到所有屬性類型中的關鍵屬性。
9、在其中一種實施例中,所述屬性細節豐富度為各屬性類型的所有歷史數據的信息熵。
10、在其中一種實施例中,所述關鍵屬性為具有最大屬性細節豐富度均值的聚類簇中所對應的所有屬性類型。
11、在其中一種實施例中,所述屬性值歸屬度的確定過程為:
12、將各關鍵屬性的所有歷史數據的取值范圍均分為預設數量個取值區間,將各關鍵屬性的各取值區間內歷史數據的數量與所有歷史數據的數量的比值,確定為各關鍵屬性的各取值區間的區間投影數量比;
13、若待檢測數據位于所述取值區間,則將對應取值區間的所述區間投影數量比與預設值的和值作為待檢測數據的屬性值歸屬度,否則,將所述預設值作為待檢測數據的屬性值歸屬度。
14、在其中一種實施例中,所述取值隨機性的確定過程為:
15、將各關鍵屬性的所有所述區間投影數量比組成投影數分布序列,計算所述投影數分布序列的集中程度,將數值1與所述集中程度的差值,作為各關鍵屬性的取值隨機性。
16、在其中一種實施例中,所述數據差異程度的確定過程為:
17、計算各關鍵屬性的各取值區間內待檢測數據的數量與所有待檢測數據的數量的比值,記為第一比值,將各關鍵屬性的所有所述第一比值組成待校驗數據分布序列,將各關鍵屬性的所述待校驗數據分布序列與所述投影數分布序列的度量距離,確定為各關鍵屬性下所有待檢測數據的數據差異程度。
18、在其中一種實施例中,所述有效性得分為各關鍵屬性的所述數據差異程度與所述屬性值有效程度的乘積的歸一化結果。
19、在其中一種實施例中,所述數據有效性校驗結果為:
20、若關鍵屬性下所有待檢測數據的有效性得分大于預設閾值,則對應關鍵屬性下所有待檢測數據為有效數據,否則,對應關鍵屬性下所有待檢測數據為無效數據,除所有關鍵屬性下的所有待檢測數據外的待檢測數據,記為有效數據。
21、第二方面,本申請實施例還提供了一種大數據平臺的數據有效性校驗系統,包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述任意一項所述方法的步驟。
22、本申請至少具有如下有益效果:
23、本申請通過讀取各種屬性類型的待檢測數據和歷史數據,基于各種屬性類型的所述歷史數據的分布,得到各屬性類型的屬性細節豐富度,基于所述屬性細節豐富度獲取所有屬性類型中的關鍵屬性,對所有屬性類型進行篩選,提高了數據有效性校驗的效率;將所有關鍵屬性的待檢測數據和歷史數據進行空間映射,分析待檢測數據和歷史數據在空間映射結果中的分布,得到各待檢測數據在對應關鍵屬性上的屬性值歸屬度,其有益效果是深度挖掘歷史數據特征,避免歷史數據本身數據離散對待檢測數據取值的干擾,提高后續數據有效性分析的準確度;分析所述空間映射結果中各關鍵屬性的歷史數據的分布,得到各關鍵屬性的取值隨機性;結合所述屬性值歸屬度與所述取值隨機性,得到各待檢測數據在對應關鍵屬性上的屬性值有效程度,反映了待檢測數據在對應關鍵屬性下屬于有效數據的可能性,提高了待檢測數據有效性判斷的可靠性;分析各關鍵屬性上待檢測數據的分布與歷史數據的分布的差異,得到各關鍵屬性下所有待檢測數據的數據差異程度;結合所述屬性值有效程度與所述數據差異程度,得到各關鍵屬性下所有待檢測數據的有效性得分,獲取數據有效性校驗結果,降低了由于數據來源發生變化,造成數據有效性判斷出現誤差的風險,通過分析大量的待檢測數據的分布特征,以及與歷史數據的對比關系,提高了數據有效性校驗的準確度。
本文檔來自技高網...【技術保護點】
1.一種大數據平臺的數據有效性校驗方法,其特征在于,該方法包括以下步驟:
2.如權利要求1所述的一種大數據平臺的數據有效性校驗方法,其特征在于,所述關鍵屬性的確定過程為:
3.如權利要求2所述的一種大數據平臺的數據有效性校驗方法,其特征在于,所述屬性細節豐富度為各屬性類型的所有歷史數據的信息熵。
4.如權利要求2所述的一種大數據平臺的數據有效性校驗方法,其特征在于,所述關鍵屬性為具有最大屬性細節豐富度均值的聚類簇中所對應的所有屬性類型。
5.如權利要求1所述的一種大數據平臺的數據有效性校驗方法,其特征在于,所述屬性值歸屬度的確定過程為:
6.如權利要求5所述的一種大數據平臺的數據有效性校驗方法,其特征在于,所述取值隨機性的確定過程為:
7.如權利要求6所述的一種大數據平臺的數據有效性校驗方法,其特征在于,所述數據差異程度的確定過程為:
8.如權利要求1所述的一種大數據平臺的數據有效性校驗方法,其特征在于,所述有效性得分為各關鍵屬性的所述數據差異程度與所述屬性值有效程度的乘積的歸一化結果。
< ...【技術特征摘要】
1.一種大數據平臺的數據有效性校驗方法,其特征在于,該方法包括以下步驟:
2.如權利要求1所述的一種大數據平臺的數據有效性校驗方法,其特征在于,所述關鍵屬性的確定過程為:
3.如權利要求2所述的一種大數據平臺的數據有效性校驗方法,其特征在于,所述屬性細節豐富度為各屬性類型的所有歷史數據的信息熵。
4.如權利要求2所述的一種大數據平臺的數據有效性校驗方法,其特征在于,所述關鍵屬性為具有最大屬性細節豐富度均值的聚類簇中所對應的所有屬性類型。
5.如權利要求1所述的一種大數據平臺的數據有效性校驗方法,其特征在于,所述屬性值歸屬度的確定過程為:
6.如權利要求5所述的一種大數據平臺的數據有效性校驗...
【專利技術屬性】
技術研發人員:薛林桐,楊紹杰,陸鵬,
申請(專利權)人:北京法伯宏業科技發展有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。