System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码人妻久久一区二区三区免费,欧洲精品无码一区二区三区在线播放,AA区一区二区三无码精片
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    文檔查重方法、裝置、計算機設備和存儲介質制造方法及圖紙

    技術編號:44451843 閱讀:4 留言:0更新日期:2025-02-28 18:56
    本申請涉及一種文檔查重方法、裝置、計算機設備和存儲介質。所述方法包括:獲取至少兩個待查重文檔;針對每一待查重文檔,確定待查重文檔中文檔文本對應的文本向量,以及,確定待查重文檔中文檔圖像對應的圖像集合;選取任意兩個待查重文檔分別作為第一文檔和第二文檔;根據第一文檔的文檔內容與第二文檔的文檔內容在不同內容類別下的內容相似度;根據不同內容類別下的內容相似度,確定第一文檔和第二文檔之間的重復度。采用本方法能夠提高文檔對比效率,提高文檔審核效率和準確性。

    【技術實現步驟摘要】

    本申請涉及計算機,特別是涉及一種文檔查重方法、裝置、計算機設備和存儲介質


    技術介紹

    1、隨著電子招投標的普及,招投標領域的透明度和效率得到了提升,但同時也面臨著圍標、串標等不正當競爭行為的挑戰,尤其是在專家評審過程中,需要識別可能存在的不正當競爭行為,降低后期審計過程中的潛在風險,確保招投標活動的公正性和透明度,因此,如何準確審查招投標相關文檔至關重要。

    2、傳統技術中,普遍使用的圍標、串標不正當競爭行為識別手段,一是根據投標方投遞行為的ip地址、mac地址、網卡序列號等網絡信息和硬件信息來判定是否同機器、同ip段投標,二是根據投標方信息(法人、股權、聯系方式等)判斷投標方之間是否存在直接間接的關聯關系。

    3、該方式雖然能夠完成對招投標相關文檔的審查,但存在審查不準確的問題。


    技術實現思路

    1、基于此,有必要針對上述技術問題,提供一種能夠準確審查的文檔查重方法、裝置、計算機設備和存儲介質。

    2、第一方面,本申請提供了一種文檔查重方法,包括:

    3、獲取至少兩個待查重文檔;

    4、針對每一待查重文檔,確定待查重文檔中文檔文本對應的文本向量,以及,確定待查重文檔中文檔圖像對應的圖像集合;

    5、選取任意兩個待查重文檔分別作為第一文檔和第二文檔;

    6、根據第一文檔的文檔內容與第二文檔的文檔內容在不同內容類別下的內容相似度;

    7、根據不同內容類別下的內容相似度,確定第一文檔和第二文檔之間的重復度。</p>

    8、在其中一個實施例中,其中,不同內容類別下的內容相似度包括文本類別下的文本相似度,以及圖像類別下的圖像相似度;相應的,根據第一文檔的文檔內容與第二文檔的文檔內容在不同內容類別下的內容相似度,包括:

    9、確定第一文檔的文本向量和第二文檔的本文向量之間的文本相似度;以及,

    10、確定第一文檔的圖像集合和第二文檔的圖像集合之間圖像相似度。

    11、在其中一個實施例中,確定第一文檔的圖像集合和第二文檔的圖像集合之間圖像相似度,包括:

    12、提取第一文檔的圖像集合中的圖像詞匯,以及第二文檔的圖像集合中的圖像詞匯;

    13、根據各圖像詞匯在第一文檔的圖像集合和在第一文檔的圖像集合中的詞匯分布情況,確定第一文檔的圖像集合和第二文檔的圖像集合之間圖像相似度。

    14、在其中一個實施例中,根據各圖像詞匯在第一文檔的圖像集合和在第一文檔的圖像集合中的詞匯分布情況,確定第一文檔的圖像集合和第二文檔的圖像集合之間圖像相似度,包括:

    15、確定第一文檔的圖像集合中和第二文檔的圖像集合中相同圖像詞匯的第一數量;

    16、確定第一文檔的圖像集合和第二文檔的圖像集合中所有圖像詞匯的第二數量;

    17、根據第一數量在第二數量中的占比,確定圖像相似度。

    18、在其中一個實施例中,確定待查重文檔中文檔圖像對應的圖像集合,包括:

    19、獲取待查重文檔中的文檔圖像;

    20、針對每一文檔圖像,對文檔圖像進行文本檢測,得到文檔圖像的圖像文本;圖像文本中包括至少一個圖像詞匯;

    21、根據各文檔圖像的圖像詞匯,生成文檔圖像的圖像集合。

    22、在其中一個實施例中,確定待查重文檔中文檔文本對應的文本向量,包括:

    23、獲取待查重文檔中的文檔文本;

    24、對文檔文本進行分詞處理,得到文檔文本的詞匯集合;

    25、根據詞匯集合中各文本詞匯的詞匯向量,確定文檔文本的文本向量。

    26、第二方面,本申請還提供了一種文檔查重裝置,包括:

    27、文檔獲取模塊,用于獲取至少兩個待查重文檔;

    28、文檔分離模塊,用于針對每一待查重文檔,確定待查重文檔中文檔文本對應的文本向量,以及,確定待查重文檔中文檔圖像對應的圖像集合;

    29、文檔選取模塊,用于選取任意兩個待查重文檔分別作為第一文檔和第二文檔;

    30、相似確定模塊,用于根據第一文檔的文檔內容與第二文檔的文檔內容在不同內容類別下的內容相似度;

    31、重復確定模塊,用于根據不同內容類別下的內容相似度,確定第一文檔和第二文檔之間的重復度。

    32、第三方面,本申請還提供了一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現以下步驟:

    33、獲取至少兩個待查重文檔;

    34、針對每一待查重文檔,確定待查重文檔中文檔文本對應的文本向量,以及,確定待查重文檔中文檔圖像對應的圖像集合;

    35、選取任意兩個待查重文檔分別作為第一文檔和第二文檔;

    36、根據第一文檔的文檔內容與第二文檔的文檔內容在不同內容類別下的內容相似度;

    37、根據不同內容類別下的內容相似度,確定第一文檔和第二文檔之間的重復度。

    38、第四方面,本申請還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現以下步驟:

    39、獲取至少兩個待查重文檔;

    40、針對每一待查重文檔,確定待查重文檔中文檔文本對應的文本向量,以及,確定待查重文檔中文檔圖像對應的圖像集合;

    41、選取任意兩個待查重文檔分別作為第一文檔和第二文檔;

    42、根據第一文檔的文檔內容與第二文檔的文檔內容在不同內容類別下的內容相似度;

    43、根據不同內容類別下的內容相似度,確定第一文檔和第二文檔之間的重復度。

    44、第五方面,本申請還提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現以下步驟:

    45、獲取至少兩個待查重文檔;

    46、針對每一待查重文檔,確定待查重文檔中文檔文本對應的文本向量,以及,確定待查重文檔中文檔圖像對應的圖像集合;

    47、選取任意兩個待查重文檔分別作為第一文檔和第二文檔;

    48、根據第一文檔的文檔內容與第二文檔的文檔內容在不同內容類別下的內容相似度;

    49、根據不同內容類別下的內容相似度,確定第一文檔和第二文檔之間的重復度。

    50、上述文檔查重方法、裝置、計算機設備和存儲介質,獲取至少兩個待查重文檔;針對每一待查重文檔,確定待查重文檔中文檔文本對應的文本向量,以及,確定待查重文檔中文檔圖像對應的圖像集合;選取任意兩個待查重文檔分別作為第一文檔和第二文檔;根據第一文檔的文檔內容與第二文檔的文檔內容在不同內容類別下的內容相似度;根據不同內容類別下的內容相似度,確定第一文檔和第二文檔之間的重復度。本實施例能夠提高文檔對比效率,提高文檔審核效率和準確性。

    本文檔來自技高網...

    【技術保護點】

    1.一種文檔查重方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,其中,所述不同內容類別下的內容相似度包括文本類別下的文本相似度,以及圖像類別下的圖像相似度;相應的,所述根據所述第一文檔的文檔內容與所述第二文檔的文檔內容在不同內容類別下的內容相似度,包括:

    3.根據權利要求2所述的方法,其特征在于,所述確定所述第一文檔的圖像集合和所述第二文檔的圖像集合之間圖像相似度,包括:

    4.根據權利要求3所述的方法,其特征在于,所述根據各圖像詞匯在所述第一文檔的圖像集合和在所述第一文檔的圖像集合中的詞匯分布情況,確定所述第一文檔的圖像集合和所述第二文檔的圖像集合之間圖像相似度,包括:

    5.根據權利要求1-4任一項所述的方法,其特征在于,所述確定所述待查重文檔中文檔圖像對應的圖像集合,包括:

    6.根據權利要求1所述的方法,其特征在于,所述確定所述待查重文檔中文檔文本對應的文本向量,包括:

    7.一種文檔查重裝置,其特征在于,所述裝置包括:

    8.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至6中任一項所述的方法的步驟。

    9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至6中任一項所述的方法的步驟。

    10.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1至6中任一項所述的方法的步驟。

    ...

    【技術特征摘要】

    1.一種文檔查重方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,其中,所述不同內容類別下的內容相似度包括文本類別下的文本相似度,以及圖像類別下的圖像相似度;相應的,所述根據所述第一文檔的文檔內容與所述第二文檔的文檔內容在不同內容類別下的內容相似度,包括:

    3.根據權利要求2所述的方法,其特征在于,所述確定所述第一文檔的圖像集合和所述第二文檔的圖像集合之間圖像相似度,包括:

    4.根據權利要求3所述的方法,其特征在于,所述根據各圖像詞匯在所述第一文檔的圖像集合和在所述第一文檔的圖像集合中的詞匯分布情況,確定所述第一文檔的圖像集合和所述第二文檔的圖像集合之間圖像相似度,包括:

    5.根據權利要求1-4任一項所述的方法,...

    【專利技術屬性】
    技術研發人員:魏磊曹明周濤陽欣佩嚴德銘
    申請(專利權)人:南方電網數字平臺科技廣東有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码一区二区波多野结衣播放搜索| 久久久久久久亚洲Av无码| 久久亚洲中文字幕无码| aⅴ一区二区三区无卡无码| 中文字幕无码乱人伦| 99久久无码一区人妻a黑| 少妇中文无码高清| 老子午夜精品无码| 亚洲人成网亚洲欧洲无码久久| 无码不卡av东京热毛片| 亚洲国产精品无码中文字| 在线看片无码永久免费aⅴ| 亚洲av中文无码乱人伦在线r▽ | 精品国产性色无码AV网站| 亚洲一区二区三区无码中文字幕| 亚洲av成本人无码网站| 久久亚洲AV成人出白浆无码国产| 中文字幕无码av激情不卡| 免费看国产成年无码AV片| 综合无码一区二区三区四区五区| 亚洲国产精品无码久久久不卡| 国产午夜激无码av毛片| 无码熟妇人妻AV影音先锋| 无码人妻一区二区三区一| 日韩精品专区AV无码| 国产v亚洲v天堂无码网站| 国产真人无码作爱免费视频 | 寂寞少妇做spa按摩无码| 无码一区二区三区在线| 久久亚洲AV成人无码电影| 亚洲av无码不卡私人影院| 亚洲熟妇无码AV| 久久AV高潮AV无码AV| 中文无码制服丝袜人妻av| heyzo高无码国产精品| 亚洲中文字幕无码一区| 夫妻免费无码V看片| 无码丰满熟妇juliaann与黑人 | 伊人无码精品久久一区二区| 久热中文字幕无码视频| 无码国产福利av私拍|