• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    重復信息的確定方法及相關裝置制造方法及圖紙

    技術編號:18940702 閱讀:40 留言:0更新日期:2018-09-15 11:06
    本申請實施例公開了一種重復信息的確定方法及相關裝置,屬于信息處理領域。該方法包括:獲得待去重文件集合;提取該集合中每個文件的特征量,并將至少一個文件作為聚類中心,針對每一個聚類中心,執行:計算各個文件與聚類中心的特征量的特征相似度;以各個文件與該聚類中心的特征相似度的大小順序,將各個文件排序為一個文件序列;并,在文件序列中,以每一個文件為基準文件分別執行:在包含該基準文件的指定序列長度內,將與該基準文件的特征相似度滿足預設條件的文件確定為該基準文件的重復文件。本申請實施例僅在指定序列長度內查找基準文件的重復文件,相對于遍歷所有文件能夠減少計算量提高效率。

    Methods for determining duplicate information and related devices

    The embodiment of the present application discloses a method for determining duplicate information and related devices, belonging to the field of information processing. The method includes: obtaining a set of files to be duplicated; extracting the feature quantity of each file in the set, and taking at least one file as the clustering center for each clustering center, executing: calculating the feature similarity of each file and the feature quantity of the clustering center; and taking the feature similarity of each file and the clustering center as the clustering center. Size order, each file is sorted into a file sequence; and in the file sequence, each file is executed separately as a benchmark file: within the specified sequence length containing the benchmark file, the file whose characteristic similarity meets the preset conditions is determined as a duplicate file of the benchmark file. The embodiment of the present application only finds duplicate files of reference files within a specified sequence length, which can reduce computation and improve efficiency compared with traversing all files.

    【技術實現步驟摘要】
    重復信息的確定方法及相關裝置
    本申請實施例涉及信息處理
    ,特別涉及重復信息的確定方法及相關裝置。
    技術介紹
    隨著數字化和網絡技術的不斷發展,企業或個人接觸的信息量日益增長。在龐大的信息網中,重復的信息給人們來帶諸多不便。例如,提供信息的企業,存儲重復的信息造成存儲資源的浪費。對于個人而言,查看重復的信息還造成時間成本的增加。故此,如何更有效的管理或運用信息成為業內渴望解決的問題。因而,衍生出了確定重復信息的技術。現有技術中,以信息為圖像為例,通常首先計算圖像的哈希值,然后針對任一圖像,遍歷所有其他圖像,將具有相同哈希值的圖像確定為重復圖像。然而,上述方法中,隨著信息量的增加,遍歷操作會加重處理負荷,導致確定重復信息的效率有待提高。
    技術實現思路
    為了解決通過遍歷所有信息確定重復信息而導致處理效率低的問題,本申請實施例提供了重復信息的確定方法及相關裝置。所述技術方案如下:根據本申請實施例的第一方面,提供了一種重復信息的確定方法,該方法包括:獲得待去重文件集合;提取待去重文件集合中每個文件的特征量,并將至少一個文件作為聚類中心,針對每一個聚類中心,執行:計算各個文件與聚類中心的特征量的特征相似度;以各個文件與該聚類中心的特征相似度的大小順序,將各個文件排序為一個文件序列;并,在文件序列中,以每一個文件為基準文件分別執行:在包含該基準文件的指定序列長度內,將與該基準文件的特征相似度滿足預設條件的文件確定為該基準文件的重復文件。在一些可能的實施方式中,所述提取待去重文件集合中每個文件的特征量,包括:根據預先訓練好的深度卷積神經網絡模型或自動編碼器提取待去重文件集合中每個文件的特征。在一些可能的實施方式中,采用距離測度法或相似性函數計算各個文件與聚類中心的特征相似度。在一些可能的實施方式中,所述提取待去重文件集合中每個文件的特征量,包括對待去重文件集合中的每一個文件分別按照下述步驟提取特征量:對文件進行DCT(DiscreteCosineTransform,離散余弦)變換;對DCT變換的結果采用預設計算模型進行計算;對計算結果進行二進制編碼,將編碼結果作為提取的特征量。在一些可能的實施方式中,所述計算各個文件與聚類中心的特征量的特征相似度,包括:計算各個文件與聚類中心的二進制編碼之間的海明距離的倒數作為特征相似度。所述計算各個文件與聚類中心的特征量的特征相似度,包括:在一些可能的實施方式中,計算各個文件與聚類中心的二進制編碼之間的海明距離的倒數作為特征相似度。在一些可能的實施方式中,所述方法還包括:為確定出重復文件的基準文件構建重復文件組,其中,每個重復文件組中包括基準文件標識,該基準文件的重復文件的文件標識;對重復文件組進行合并,合并后的每個重復文件組中的文件標識不重復,且任兩個重復文件組之間沒有交集;將所有合并后的重復文件組中包含的文件標識所對應的文件,存儲為已經去重的文件組。在一些可能的實施方式中,所述方法還包括:接收展示排重結果的展示請求;按照重復文件數量多少的順序依次輸出已經去重的文件組。在一些可能的實施方式中,所述方法還包括:從待去重文件集合中隨機選取指定數量的文件作為聚類中心。根據本申請實施例的第二方面,提供了一種重復信息的確定裝置,所述裝置包括:文件獲取模塊,用于獲得待去重文件集合;特征量提取模塊,用于提取待去重文件集合中每個文件的特征量,處理模塊,用于將至少一個文件作為聚類中心,針對每一個聚類中心,執行:計算各個文件與聚類中心的特征量的特征相似度;以各個文件與該聚類中心的特征相似度的大小順序,將各個文件排序為一個文件序列;并,在文件序列中,以每一個文件為基準文件分別執行:在包含該基準文件的指定序列長度內,將與該基準文件的特征相似度滿足預設條件的文件確定為該基準文件的重復文件。在一些可能的實施方式中,特征量提取模塊根據預先訓練好的深度卷積神經網絡模型或自動編碼器提取待去重文件集合中每個文件的特征。在一些可能的實施方式中,處理模塊用于采用距離測度法或相似性函數計算各個文件與聚類中心的特征相似度。在一些可能的實施方式中,處理模塊用于對待去重文件集合中的每一個文件分別按照下述步驟提取特征量:對文件進行DCT變換;對DCT變換的結果采用預設計算模型進行計算;對計算結果進行二進制編碼,將編碼結果作為提取的特征量。在一些可能的實施方式中,處理模塊用于計算各個文件與聚類中心的二進制編碼之間的海明距離的倒數作為特征相似度。在一些可能的實施方式中,該裝置還包括:組構建模塊,用于為確定出重復文件的基準文件構建重復文件組,其中,每個重復文件組中包括基準文件標識,該基準文件的重復文件的文件標識;合并模塊,用于對重復文件組進行合并,合并后的每個重復文件組中的文件標識不重復,且任兩個重復文件組之間沒有交集;存儲模塊,用于將所有合并后的重復文件組中包含的文件標識所對應的文件,存儲為已經去重的文件組。在一些可能的實施方式中,該裝置還包括:接收模塊,用于接收展示排重結果的展示請求;輸出模塊,用于按照重復文件數量多少的順序依次輸出已經去重的文件組。在一些可能的實施方式中,該裝置還包括:聚類中心選擇模塊,用于從待去重文件集合中隨機選取指定數量的文件作為聚類中心。本申請另一實施例還提供了一種計算設備,其包括存儲器和處理器,其中,所述存儲器用于存儲程序指令,所述處理器用于調用所述存儲器中存儲的程序指令,按照獲得的程序指令執行本申請實施例中的任一重復信息的確定方法。本申請另一實施例還提供了一種計算機存儲介質,其中,所述計算機存儲介質存儲有計算機可執行指令,所述計算機可執行指令用于使計算機執行本申請實施例中的任一重復信息的確定方法。本申請實施例中,基于類似文件的特征類似,且與聚類中心相比,類似文件與聚類中心的特征相似度也幾乎相同,所以首先根據各文件與聚類中心的特征相似度大小對各文件進行排序后,類型文件在序列中的位置基本集中。所以在排序序列中,針對每個文件只需在以其為基準的指定序列長度內查找重復文件即可,這樣,重復文件的查找縮小的指定序列長度內,而不是遍歷所有文件,故此可以提高確定重復文件的效率。附圖說明為了更清楚地說明本申請實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1示出了本申請一個實施例提供的重復信息的確定方法的架構圖之一;圖2示出了本申請一個實施例提供的重復信息的確定方法的架構圖之二;圖3示出了本申請一個實施例提供的重復信息的確定方法的流程示意圖之一;圖4示出了本申請一個實施例提供的重復信息的確定方法的操作界面示意圖之一;圖5示出了本申請一個實施例提供的信息序列的示意圖;圖6示出了本申請一個實施例提供的深度卷積神經網絡的結構示意圖;圖7示出了本申請一個實施例提供的自動編碼器的結構示意圖;圖8示出了本申請一個實施例提供的合并重復信息組的示意圖;圖9示出了本申請一個實施例提供的重復信息的確定方法的流程示意圖之二;圖10示出了本申請一個實施例提供的重復信息的確定方法的操作界面示意圖之二;圖11示出了本申請一個實施例提供的重復信息的確定方法的操作界面示意圖之本文檔來自技高網...

    【技術保護點】
    1.一種重復信息的確定方法,其特征在于,所述方法包括:獲得待去重文件集合;提取待去重文件集合中每個文件的特征量,并將至少一個文件作為聚類中心,針對每一個聚類中心,執行:計算各個文件與聚類中心的特征量的特征相似度;以各個文件與該聚類中心的特征相似度的大小順序,將各個文件排序為一個文件序列;并,在文件序列中,以每一個文件為基準文件分別執行:在包含該基準文件的指定序列長度內,將與該基準文件的特征相似度滿足預設條件的文件確定為該基準文件的重復文件。

    【技術特征摘要】
    1.一種重復信息的確定方法,其特征在于,所述方法包括:獲得待去重文件集合;提取待去重文件集合中每個文件的特征量,并將至少一個文件作為聚類中心,針對每一個聚類中心,執行:計算各個文件與聚類中心的特征量的特征相似度;以各個文件與該聚類中心的特征相似度的大小順序,將各個文件排序為一個文件序列;并,在文件序列中,以每一個文件為基準文件分別執行:在包含該基準文件的指定序列長度內,將與該基準文件的特征相似度滿足預設條件的文件確定為該基準文件的重復文件。2.根據權利要求1所述的方法,其特征在于,所述提取待去重文件集合中每個文件的特征量,包括:根據預先訓練好的深度卷積神經網絡模型或自動編碼器提取待去重文件集合中每個文件的特征。3.根據權利要求2所述的方法,其特征在于,采用距離測度法或相似性函數計算各個文件與聚類中心的特征相似度。4.根據權利要求1所述的方法,其特征在于,所述提取待去重待去重文件集合中每個文件的特征量,包括對待去重文件集合中的每一個文件分別按照下述步驟提取特征量:對文件進行離散余弦變換;對離散余弦變換的結果采用預設計算模型進行計算;對計算結果進行二進制編碼,將編碼結果作為提取的特征量。5.根據權利要求4所述的方法,其特征在于,所述計算各個文件與聚類中心的特征量的特征相似度,包括:計算各個文件與聚類中心的二進制編碼之間的海明距離的倒數作為特征相似度。6.根據權利要求1-5中任一所述的方法,其特征在于,所述方法還包括:為確定出重復文件的基準文件構建重復文件組,其中,每個重復文件組中包括基準文件標識...

    【專利技術屬性】
    技術研發人員:余宗橋,
    申請(專利權)人:騰訊科技深圳有限公司
    類型:發明
    國別省市:廣東,44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码中文av有码中文av| 精品欧洲av无码一区二区 | 中文字幕无码播放免费| 久久久久亚洲AV无码永不| 久久久久无码精品国产app| 国产网红无码精品视频| 亚洲aⅴ无码专区在线观看春色| 亚洲AV无码一区二区三区国产 | 无码精品日韩中文字幕| 国产精品成人无码免费| 免费无码成人AV在线播放不卡| 国产精品爆乳奶水无码视频| 97碰碰碰人妻视频无码| 无套内射在线无码播放| 国产a v无码专区亚洲av| 亚洲AV无码专区亚洲AV桃| 久久水蜜桃亚洲av无码精品麻豆 | 亚洲中文字幕无码中文字| 亚洲精品无码永久在线观看你懂的| 精品久久久久久久无码久中文字幕| 西西午夜无码大胆啪啪国模| 中文字幕无码毛片免费看| 无码精品久久一区二区三区| 激情射精爆插热吻无码视频 | 一本久道中文无码字幕av| 亚洲熟妇无码一区二区三区| 亚洲av午夜精品无码专区| 免费无遮挡无码永久视频| 日韩av无码中文字幕| 无码AV波多野结衣久久| 亚洲VA中文字幕无码一二三区| 无码日本精品XXXXXXXXX| 久久久久无码精品国产不卡| 无码人妻品一区二区三区精99 | 国产精品99久久久精品无码| 亚洲午夜AV无码专区在线播放| 无码精品不卡一区二区三区| 免费无遮挡无码视频网站| 午夜无码中文字幕在线播放| 精品国产毛片一区二区无码| 波多野结衣AV无码久久一区|