The embodiment of the present application discloses a method for determining duplicate information and related devices, belonging to the field of information processing. The method includes: obtaining a set of files to be duplicated; extracting the feature quantity of each file in the set, and taking at least one file as the clustering center for each clustering center, executing: calculating the feature similarity of each file and the feature quantity of the clustering center; and taking the feature similarity of each file and the clustering center as the clustering center. Size order, each file is sorted into a file sequence; and in the file sequence, each file is executed separately as a benchmark file: within the specified sequence length containing the benchmark file, the file whose characteristic similarity meets the preset conditions is determined as a duplicate file of the benchmark file. The embodiment of the present application only finds duplicate files of reference files within a specified sequence length, which can reduce computation and improve efficiency compared with traversing all files.
【技術實現步驟摘要】
重復信息的確定方法及相關裝置
本申請實施例涉及信息處理
,特別涉及重復信息的確定方法及相關裝置。
技術介紹
隨著數字化和網絡技術的不斷發展,企業或個人接觸的信息量日益增長。在龐大的信息網中,重復的信息給人們來帶諸多不便。例如,提供信息的企業,存儲重復的信息造成存儲資源的浪費。對于個人而言,查看重復的信息還造成時間成本的增加。故此,如何更有效的管理或運用信息成為業內渴望解決的問題。因而,衍生出了確定重復信息的技術。現有技術中,以信息為圖像為例,通常首先計算圖像的哈希值,然后針對任一圖像,遍歷所有其他圖像,將具有相同哈希值的圖像確定為重復圖像。然而,上述方法中,隨著信息量的增加,遍歷操作會加重處理負荷,導致確定重復信息的效率有待提高。
技術實現思路
為了解決通過遍歷所有信息確定重復信息而導致處理效率低的問題,本申請實施例提供了重復信息的確定方法及相關裝置。所述技術方案如下:根據本申請實施例的第一方面,提供了一種重復信息的確定方法,該方法包括:獲得待去重文件集合;提取待去重文件集合中每個文件的特征量,并將至少一個文件作為聚類中心,針對每一個聚類中心,執行:計算各個文件與聚類中心的特征量的特征相似度;以各個文件與該聚類中心的特征相似度的大小順序,將各個文件排序為一個文件序列;并,在文件序列中,以每一個文件為基準文件分別執行:在包含該基準文件的指定序列長度內,將與該基準文件的特征相似度滿足預設條件的文件確定為該基準文件的重復文件。在一些可能的實施方式中,所述提取待去重文件集合中每個文件的特征量,包括:根據預先訓練好的深度卷積神經網絡模型或自動編碼器提取待去重文件集 ...
【技術保護點】
1.一種重復信息的確定方法,其特征在于,所述方法包括:獲得待去重文件集合;提取待去重文件集合中每個文件的特征量,并將至少一個文件作為聚類中心,針對每一個聚類中心,執行:計算各個文件與聚類中心的特征量的特征相似度;以各個文件與該聚類中心的特征相似度的大小順序,將各個文件排序為一個文件序列;并,在文件序列中,以每一個文件為基準文件分別執行:在包含該基準文件的指定序列長度內,將與該基準文件的特征相似度滿足預設條件的文件確定為該基準文件的重復文件。
【技術特征摘要】
1.一種重復信息的確定方法,其特征在于,所述方法包括:獲得待去重文件集合;提取待去重文件集合中每個文件的特征量,并將至少一個文件作為聚類中心,針對每一個聚類中心,執行:計算各個文件與聚類中心的特征量的特征相似度;以各個文件與該聚類中心的特征相似度的大小順序,將各個文件排序為一個文件序列;并,在文件序列中,以每一個文件為基準文件分別執行:在包含該基準文件的指定序列長度內,將與該基準文件的特征相似度滿足預設條件的文件確定為該基準文件的重復文件。2.根據權利要求1所述的方法,其特征在于,所述提取待去重文件集合中每個文件的特征量,包括:根據預先訓練好的深度卷積神經網絡模型或自動編碼器提取待去重文件集合中每個文件的特征。3.根據權利要求2所述的方法,其特征在于,采用距離測度法或相似性函數計算各個文件與聚類中心的特征相似度。4.根據權利要求1所述的方法,其特征在于,所述提取待去重待去重文件集合中每個文件的特征量,包括對待去重文件集合中的每一個文件分別按照下述步驟提取特征量:對文件進行離散余弦變換;對離散余弦變換的結果采用預設計算模型進行計算;對計算結果進行二進制編碼,將編碼結果作為提取的特征量。5.根據權利要求4所述的方法,其特征在于,所述計算各個文件與聚類中心的特征量的特征相似度,包括:計算各個文件與聚類中心的二進制編碼之間的海明距離的倒數作為特征相似度。6.根據權利要求1-5中任一所述的方法,其特征在于,所述方法還包括:為確定出重復文件的基準文件構建重復文件組,其中,每個重復文件組中包括基準文件標識...
【專利技術屬性】
技術研發人員:余宗橋,
申請(專利權)人:騰訊科技深圳有限公司,
類型:發明
國別省市:廣東,44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。