System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于水印去除,特別涉及一種可攜帶文件格式(pdf)文檔水印去除法、計算機設備及存儲介質。
技術介紹
1、現有的去除水印的技術雖然有成熟的相關技術,但是并沒有一個通用的方案可以去除各式各樣的水印,這個格式各樣包括:不同文字,不同顏色,不同區域。
2、目前的技術方案都是通過預設值來確定水印的文字、水印顏色、水印顏色填充值、水印區域。在水印區域檢測方面,比較先進的技術是通過模型來訓練一個水印區域檢測模型,但是針對不同行業領域的水印,都需要大量的成本來訓練水印區域檢測模型;在水印文字、水印顏色、水印填充值的方面,都還是通過預設值的方式來實現。
3、綜上,現有技術沒有一個是通用的水印去除方法,針對不同文字、不同顏色不能做到很好的兼容,或者說現有技術在自己所處理的數據上可能表現良好,但是在非自己處理的數據集上,方案失效。在水印檢測方面沒有一個高效的方案來檢測水印區域。此外,由于在圖像修復方面,或是通過紅綠藍(rgb)預設值來進行水印區域填充,會抹去圖片中有用的字體,或是粗糙地用白色或者用預設的rgb值替換水印的顏色,導致圖片修復效果不好。
技術實現思路
1、針對上述問題,本專利技術提供一種pdf文檔水印去除法、計算機設備及存儲介質。
2、本專利技術提供的可攜帶文件格式文檔水印去除法,包括下列步驟:
3、s1、根據光學字符識別技術來獲取所述可攜帶文件格式文檔中每個字符邊界框以及文字,然后根據所述字符邊界框的相關信息來確定哪些所述字符邊界框
4、s2、針對每個所述水印區域的像素點根據紅綠藍值均進行聚類分析,得到每個所述水印中的像素點;
5、s3、水印去除及圖像修復。
6、進一步,
7、在所述步驟s1中,
8、如果所述字符邊界框的寬大于字符邊界框平均寬的50%,或者所述字符邊界框的高大于字符邊界框平均高的50%,那么認定所述字符邊界框為屬于所述水印區域。
9、進一步,
10、在所述步驟s1中,
11、如果所述字符邊界框里的字符出現了多于1次,并且所述字符邊界框兩條長邊的斜率在30度-90度之間,則認定所述字符邊界框屬于水印區域。
12、進一步,
13、在所述步驟s1中,
14、如果所述字符邊界框里的字符命中了關鍵詞列表中的關鍵詞,則認定所述字符邊界框屬于水印區域。
15、進一步,
16、在所述步驟s1中,
17、如果字符邊界框cc在不同的所述可攜帶文件格式文檔的文檔頁的相同位置都有出現,則認為所述字符邊界框cc屬于水印區域。
18、進一步,
19、在所述步驟s1中,
20、延伸每個被認定屬于所述水印區域的字符邊界框的兩條長邊,使得所述兩條長邊的延伸線與所述可攜帶文件格式文檔的邊緣相交,得到4個交點,最后統計所述4個交點形成的面積最大區域為所述水印區域。
21、進一步,
22、在所述步驟s2中,
23、使用聚類算法將類別即聚類數目定為3,一類表示背景色,一類表示水印色,一類表示正常的文字顏色,其中,將紅綠藍三通道的值看作是一個三維坐標(x,?y,?z),聚類為第2大類的像素點為所述水印中的像素點。
24、進一步,
25、遍歷所述可攜帶文件格式文檔的所有像素點,當遍歷到像素點m時,首先判斷所述像素點m是否為所述水印中的像素點,如果不是所述水印中的像素點,則直接放入像素列表a中,另外也將其放入列表b中;如果所述像素點m是所述水印中的像素點,則從所述列表b中獲取最后的100個像素點作為目標像素點,如果所述列表b中的元素少于100個像素點,那么就以所述列表b中所有的像素點作為目標像素點,計算所述目標像素點紅綠藍值出現的頻次,用所述頻次最高的目標像素點的紅綠藍值來替換像素點m的紅綠藍值,再把所述像素點m放入所述像素列表a中,最后將所述像素列表a中的像素點更新到整個所述可攜帶文件格式文檔中。
26、本專利技術還提供一種計算機設備,其包括存儲器、第一處理器及儲存在所述存儲器上并可在所述第一處理器上運行的第一計算機程序,所述第一計算機程序被所述第一處理器執行時實現上述的可攜帶文件格式文檔水印去除法。
27、本專利技術還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質用于儲存第二計算機程序,所述第二計算機程序可被至少一個第二處理器所執行,以使所述至少一個第二處理器執行上述的可攜帶文件格式文檔水印去除法。
28、本專利技術提供的pdf文檔水印去除法可用于任何水印的處理,成功去除水印并將圖片進行修復;本專利技術可以提高水印區域檢測的效率,不需要提前訓練水印檢測模型,也可以很準確地定位水印區域;相比原來只能通過預設值來對水印區域進行填充的方法,本專利技術可以根據水印周圍非水印像素點的rgb值來動態獲取水印區域應該填充的rgb值,可以更好地進行圖像修復。
29、本專利技術的其它特征和優點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本專利技術而了解。本專利技術的目的和其他優點可通過在說明書、權利要求書以及附圖中所指出的結構來實現和獲得。
本文檔來自技高網...【技術保護點】
1.可攜帶文件格式文檔水印去除法,其特征在于,包括下列步驟:
2.根據權利要求1所述的可攜帶文件格式文檔水印去除法,其特征在于,
3.根據權利要求1所述的可攜帶文件格式文檔水印去除法,其特征在于,
4.根據權利要求1所述的可攜帶文件格式文檔水印去除法,其特征在于,
5.根據權利要求1所述的可攜帶文件格式文檔水印去除法,其特征在于,
6.根據權利要求1-5任一項所述的可攜帶文件格式文檔水印去除法,其特征在于,
7.根據權利要求1-5任一項所述的可攜帶文件格式文檔水印去除法,其特征在于,
8.計算機設備,其特征在于,包括存儲器、第一處理器及儲存在所述存儲器上并可在所述第一處理器上運行的第一計算機程序,所述第一計算機程序被所述第一處理器執行時實現權利要求1-7中任一項所述的可攜帶文件格式文檔水印去除法。
9.計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質用于儲存第二計算機程序,所述第二計算機程序可被至少一個第二處理器所執行,以使所述至少一個第二處理器執行權利要求1-7中任一項所述的可
...【技術特征摘要】
1.可攜帶文件格式文檔水印去除法,其特征在于,包括下列步驟:
2.根據權利要求1所述的可攜帶文件格式文檔水印去除法,其特征在于,
3.根據權利要求1所述的可攜帶文件格式文檔水印去除法,其特征在于,
4.根據權利要求1所述的可攜帶文件格式文檔水印去除法,其特征在于,
5.根據權利要求1所述的可攜帶文件格式文檔水印去除法,其特征在于,
6.根據權利要求1-5任一項所述的可攜帶文件格式文檔水印去除法,其特征在于,
7.根據權利要求1-5任一項...
【專利技術屬性】
技術研發人員:王慧婷,
申請(專利權)人:北京百車寶科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。