System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及計算機,特別是涉及一種文檔查重方法、裝置、計算機設備和存儲介質。
技術介紹
1、隨著電子招投標的普及,招投標領域的透明度和效率得到了提升,但同時也面臨著圍標、串標等不正當競爭行為的挑戰,尤其是在專家評審過程中,需要識別可能存在的不正當競爭行為,降低后期審計過程中的潛在風險,確保招投標活動的公正性和透明度,因此,如何準確審查招投標相關文檔至關重要。
2、傳統技術中,普遍使用的圍標、串標不正當競爭行為識別手段,一是根據投標方投遞行為的ip地址、mac地址、網卡序列號等網絡信息和硬件信息來判定是否同機器、同ip段投標,二是根據投標方信息(法人、股權、聯系方式等)判斷投標方之間是否存在直接間接的關聯關系。
3、該方式雖然能夠完成對招投標相關文檔的審查,但存在審查不準確的問題。
技術實現思路
1、基于此,有必要針對上述技術問題,提供一種能夠準確審查的文檔查重方法、裝置、計算機設備和存儲介質。
2、第一方面,本申請提供了一種文檔查重方法,包括:
3、獲取至少兩個待查重文檔;
4、針對每一待查重文檔,確定待查重文檔中文檔文本對應的文本向量,以及,確定待查重文檔中文檔圖像對應的圖像集合;
5、選取任意兩個待查重文檔分別作為第一文檔和第二文檔;
6、根據第一文檔的文檔內容與第二文檔的文檔內容在不同內容類別下的內容相似度;
7、根據不同內容類別下的內容相似度,確定第一文檔和第二文檔之間的重復度。<
...【技術保護點】
1.一種文檔查重方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,其中,所述不同內容類別下的內容相似度包括文本類別下的文本相似度,以及圖像類別下的圖像相似度;相應的,所述根據所述第一文檔的文檔內容與所述第二文檔的文檔內容在不同內容類別下的內容相似度,包括:
3.根據權利要求2所述的方法,其特征在于,所述確定所述第一文檔的圖像集合和所述第二文檔的圖像集合之間圖像相似度,包括:
4.根據權利要求3所述的方法,其特征在于,所述根據各圖像詞匯在所述第一文檔的圖像集合和在所述第一文檔的圖像集合中的詞匯分布情況,確定所述第一文檔的圖像集合和所述第二文檔的圖像集合之間圖像相似度,包括:
5.根據權利要求1-4任一項所述的方法,其特征在于,所述確定所述待查重文檔中文檔圖像對應的圖像集合,包括:
6.根據權利要求1所述的方法,其特征在于,所述確定所述待查重文檔中文檔文本對應的文本向量,包括:
7.一種文檔查重裝置,其特征在于,所述裝置包括:
8.一種計算機設備,包括存儲器和處理器,所述存儲
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至6中任一項所述的方法的步驟。
10.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1至6中任一項所述的方法的步驟。
...【技術特征摘要】
1.一種文檔查重方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,其中,所述不同內容類別下的內容相似度包括文本類別下的文本相似度,以及圖像類別下的圖像相似度;相應的,所述根據所述第一文檔的文檔內容與所述第二文檔的文檔內容在不同內容類別下的內容相似度,包括:
3.根據權利要求2所述的方法,其特征在于,所述確定所述第一文檔的圖像集合和所述第二文檔的圖像集合之間圖像相似度,包括:
4.根據權利要求3所述的方法,其特征在于,所述根據各圖像詞匯在所述第一文檔的圖像集合和在所述第一文檔的圖像集合中的詞匯分布情況,確定所述第一文檔的圖像集合和所述第二文檔的圖像集合之間圖像相似度,包括:
5.根據權利要求1-4任一項所述的方法,...
【專利技術屬性】
技術研發人員:魏磊,曹明,周濤,陽欣佩,嚴德銘,
申請(專利權)人:南方電網數字平臺科技廣東有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。