System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據處理,具體涉及一種基于大數據的計算機數據分析處理方法。
技術介紹
1、在當今信息時代,隨著互聯網、物聯網和云計算等技術的飛速發展,數據的產生、存儲和傳輸速度都呈指數級增長。計算機在運行過程中會積累大量的數據資源,這些數據中蘊含著寶貴的信息和知識,對于個人企業和社會等方面都具有重要的價值。然而,隨之而來的挑戰是如何處理和分析這些龐大的數據集,以便從中提取有用的信息并轉化為有效信息。
2、而且在有限的計算資源下,如何有效地處理大規模的數據集是一個技術挑戰。在海量數據中識別和去除重復項是一項基本而關鍵的工作,這可以提高數據的價值,減少存儲空間的浪費,并且為后續的分析工作提供更加準確的數據基礎,這不僅要求算法具有高效性,還需要考慮其可擴展性和容錯性。
3、因此,開發一種基于大數據的計算機數據分析處理方法,能夠自動、準確地處理各種類型的數據,提高數據處理的效率和準確性,是非常有必要的。
技術實現思路
1、本專利技術的目的在于提供一種基于大數據的計算機數據分析處理方法,解決以下技術問題:
2、在有限的計算資源下,如何有效地處理大規模的數據集,識別和去除重復項,提高數據的價值,減少存儲空間的浪費。
3、本專利技術的目的可以通過以下技術方案實現:
4、一種基于大數據的計算機數據分析處理方法,包括以下步驟:
5、采集計算機空間中的所有存儲數據,篩選出大于預設字節量的存儲數據,標記為待定存儲數據;
6
7、獲取去重后的待定存儲數據的評價指標,所述評價指標包括但不限于上次讀取距今天數、讀取頻率和字節大小,將評價指標轉換為極大型指標,基于優劣解距離法計算每個待定存儲數據的分值f,將分值靠前的若干個待定存儲數據標記為推薦清理數據。
8、作為本專利技術進一步的方案:直接將讀取距今天數和字節大小標記為極大型指標,讀取頻率的倒數標記為極大型指標。
9、作為本專利技術進一步的方案:文本數據去重的過程為:
10、將文本數據中的字符按照設定行文格式進行排列,每行的字符數量保持統一,將文本數據中包括但不限于漢字、數字和英文字母的所有字符賦予對應的編號順序,獲取最大編號的數值n,將字符以對應的編號順序值轉化為n個灰度梯級下對應的灰度值進行顯示,將文本數據轉化為灰度圖像,將字符數量差異低于預設百分率的文本數據分為同一個集合,對于同一集合中的文本數據對應的灰度圖像進行比對,分別獲取每個文本數據的灰度直方圖,將文本進行兩兩對比,統計兩個灰度直方圖中所有灰度梯級的差值之和,將差值之和低于預設閾值的兩個灰度直方圖對應的文本數據標記為重復文本。
11、作為本專利技術進一步的方案:當任意兩個文本數據的字節大于預設閾值時,則將該對文本數據的灰度圖像劃分為若干個區域,依次對每個區域進行比對。
12、作為本專利技術進一步的方案:視頻數據的去重過程為:
13、將字節量差異小于預設閾值的視頻數據劃分為同一個集合,在任一集合中,獲取每個視頻數據的特征指標,所述特征指標包括幀率、分辨率和播放時長,所述分辨率為視頻畫幅短邊的像素數量,對視頻數據進行兩兩對比,將其中一視頻數據的特征指標依次標記為a1、b1、c1,將其中另一視頻數據的特征指標依次標記為a2、b2、c2,將特征指標歸一化,并將特征指標作為梯形圖像的幾何參數,分別將幀率作為上底、以分辨率作為下底、以播放時長作為高,生成對應的兩個梯形圖像,計算兩個梯形圖像的面積,分別為s1=(a1+b1)c1/2和s2=(a2+b2)c2/2,將兩個梯形圖像在三維空間中進行疊加,選取當兩個梯形圖像疊加面積為最大時的疊加狀態,獲取此時疊加區域的面積s0,計算2s0/(s1+s2)的值,將該值標記為兩個視頻數據的相似度,當相似度大于90%時,則為重復視頻。
14、作為本專利技術進一步的方案:計算評分的過程為:
15、將待定存儲數據的數量標記為n,評價指標的數量標記為m,將極大型指標xij轉換為標準化指標zij,i∈n,j∈m,標準化指標zij與極大型指標xij的轉換公式為:
16、
17、獲取所有待定存儲數據中任一評價指標的最大值和最小值并標記為z+j和z-j,計算任一待定存儲數據的每個評價指標與對應最大值z+的歐氏距離di+,以及與對應最小值z-的歐氏距離di-;則任一待定存儲數據的未歸一化的評分為:
18、
19、將評分fi進行歸一化處理獲得任一待定存儲數據的最終評分fi,公式為:
20、
21、作為本專利技術進一步的方案:歐氏距離di+和歐氏距離di-的計算公式為:
22、
23、本專利技術的有益效果:
24、本專利技術利用灰度圖像比對和梯形圖像相似度計算等方法進行文本和視頻數據的去重,能夠有效地識別出重復或相似的數據項,從而確保數據的唯一性和準確性;并基于多維度評價指標,并通過優劣解距離法綜合這些指標來計算分值,使得數據的重要性評估更為全面和客觀;自動標記推薦清理數據的功能有助于用戶或系統管理員識別占用大量存儲空間且不常使用的數據,進而作出合理的存儲資源管理決策,釋放寶貴的存儲空間;本專利技術適用于各種類型的大數據環境,無論是文本數據還是視頻數據,都能進行處理和分析,具有較強的適應性和普適性。
本文檔來自技高網...【技術保護點】
1.一種基于大數據的計算機數據分析處理方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于大數據的計算機數據分析處理方法,其特征在于,直接將上次讀取距今天數和字節大小標記為極大型指標,讀取頻率的倒數標記為極大型指標。
3.根據權利要求1所述的一種基于大數據的計算機數據分析處理方法,其特征在于,文本數據去重的過程為:
4.根據權利要求3所述的一種基于大數據的計算機數據分析處理方法,其特征在于,當任意兩個文本數據的字節大于預設閾值時,則將該對文本數據的灰度圖像劃分為若干個區域,依次對每個區域進行比對。
5.根據權利要求1所述的一種基于大數據的計算機數據分析處理方法,其特征在于,視頻數據的去重過程為:
6.根據權利要求1所述的一種基于大數據的計算機數據分析處理方法,其特征在于,計算評分的過程為:
7.根據權利要求6所述的一種基于大數據的計算機數據分析處理方法,其特征在于,歐氏距離Di+和歐氏距離Di-的計算公式為:
【技術特征摘要】
1.一種基于大數據的計算機數據分析處理方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于大數據的計算機數據分析處理方法,其特征在于,直接將上次讀取距今天數和字節大小標記為極大型指標,讀取頻率的倒數標記為極大型指標。
3.根據權利要求1所述的一種基于大數據的計算機數據分析處理方法,其特征在于,文本數據去重的過程為:
4.根據權利要求3所述的一種基于大數據的計算機數據分析處理方法,其特征在于,當任意兩個...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。