System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請涉及信息提取,尤其是涉及一種借貸證據(jù)文檔信息的提取方法、裝置、設(shè)備和介質(zhì)。
技術(shù)介紹
1、現(xiàn)有的借貸證據(jù)文檔處理方式主要依賴人工對文檔內(nèi)容進行分析和錄入。通常,將紙質(zhì)借貸文檔掃描成電子格式,并利用ocr技術(shù)將其轉(zhuǎn)換為文本內(nèi)容后,通過工作人員手動查找借款人、出借人、借款金額、利率等關(guān)鍵信息,并根據(jù)提取的關(guān)鍵信息手動將數(shù)據(jù)逐項錄入系統(tǒng)中,形成結(jié)構(gòu)化數(shù)據(jù)。然而,這種方式面對數(shù)據(jù)量較大的借貸證據(jù)文檔往往效率較為低下,且存在容易出錯、不準確的問題。
技術(shù)實現(xiàn)思路
1、本申請的目的在于提供一種借貸證據(jù)文檔信息的提取方法、裝置、設(shè)備和介質(zhì),以緩解了現(xiàn)有技術(shù)中存在的上述技術(shù)問題。
2、第一方面,本專利技術(shù)提供一種借貸證據(jù)文檔信息的提取方法,方法包括:
3、獲取借貸證據(jù)文檔,對借貸證據(jù)文檔進行文檔預(yù)處理;其中,文檔預(yù)處理包括光學(xué)字符識別處理和文本規(guī)范化與分詞處理;
4、對文檔預(yù)處理后的文檔信息進行關(guān)鍵信息提取,得到借貸證據(jù)關(guān)鍵信息;其中,借貸證據(jù)關(guān)鍵信息包括用于證明借貸關(guān)系及借貸情況的信息;
5、對借貸證據(jù)關(guān)鍵信息進行實體關(guān)系識別,得到實體識別關(guān)系,并基于借貸證據(jù)關(guān)鍵信息提取借貸合同中的指定條款和義務(wù);
6、對合同條款和提取的借貸證據(jù)關(guān)鍵信息進行邏輯一致性校驗,并將校驗通過后的數(shù)據(jù)存儲至指定數(shù)據(jù)庫。
7、在可選的實施方式中,對文檔預(yù)處理后的文檔信息進行關(guān)鍵信息提取,得到借貸證據(jù)關(guān)鍵信息,包括:
8、基于模板識別
9、基于借貸文檔類型和與借貸文檔類型對應(yīng)的提取識別規(guī)則或提取識別模型對借貸文檔類型進行借貸實體識別,得到借貸證據(jù)關(guān)鍵信息;其中,借貸證據(jù)信息至少包括借貸實體信息、借貸金額、借貸利率、借貸日期、借貸合同條款實體。
10、在可選的實施方式中,基于模板識別和定制化處理對文檔預(yù)處理后的文檔信息進行文檔類型和內(nèi)容進行特征識別和分類處理,得到借貸文檔類型,包括:
11、預(yù)先建立借貸信息模板庫;
12、使用特征匹配算法與借貸信息模板庫中的預(yù)定義模板進行對比,通過匹配的圖像特征對借貸文檔進行第一類型分類;
13、利用預(yù)先訓(xùn)練好的借貸文本分類模型對不同類型的借貸文檔進行第二類型分類,得到借貸文檔類型;其中,預(yù)先訓(xùn)練好的借貸文本分類模型是通過用監(jiān)督學(xué)習(xí)和標注數(shù)據(jù)集對借貸文本分類模型進行訓(xùn)練得到的。
14、在可選的實施方式中,方法還包括:
15、響應(yīng)于用戶發(fā)起的模板添加請求,對借貸信息模板庫進行模板添加更新。
16、在可選的實施方式中,基于借貸文檔類型和與借貸文檔類型對應(yīng)的提取識別規(guī)則或提取識別模型對借貸文檔類型進行借貸實體識別,得到借貸證據(jù)關(guān)鍵信息,包括:
17、對借貸實體進行和借貸樣本標注處理,借貸實體至少包括借款人、出借人、借款金額、還款日期、借貸利率;
18、基于標注后的借貸樣本對預(yù)先選擇的機器學(xué)習(xí)模型進行訓(xùn)練,直至訓(xùn)練參數(shù)達到預(yù)設(shè)的參數(shù)閾值,得到與借貸文檔類型分別對應(yīng)的目標實體識別模型;
19、通過與借貸文檔類型所對應(yīng)的目標實體識別模型和提取識別規(guī)則對借貸文檔類型進行借貸實體識別,得到借貸證據(jù)關(guān)鍵信息。
20、在可選的實施方式中,方法還包括:
21、在目標實體識別模型進行借貸實體識別后,使用正則表達式進行借貸證據(jù)關(guān)鍵信息的補充匹配。
22、在可選的實施方式中,方法還包括:
23、基于上下文理解對借貸文檔類型進行借貸實體識別,對得到借貸證據(jù)關(guān)鍵信息進行多義性消解處理。
24、第二方面,本專利技術(shù)提供一種借貸證據(jù)文檔信息的提取裝置,裝置包括:
25、獲取借貸證據(jù)文檔,對借貸證據(jù)文檔進行文檔預(yù)處理;其中,文檔預(yù)處理包括光學(xué)字符識別處理和文本規(guī)范化與分詞處理;
26、對文檔預(yù)處理后的文檔信息進行關(guān)鍵信息提取,得到借貸證據(jù)關(guān)鍵信息;其中,借貸證據(jù)關(guān)鍵信息包括用于證明借貸關(guān)系及借貸情況的信息;
27、對借貸證據(jù)關(guān)鍵信息進行實體關(guān)系識別,得到實體識別關(guān)系,并基于借貸證據(jù)關(guān)鍵信息提取借貸合同中的指定條款和義務(wù);
28、對合同條款和提取的借貸證據(jù)關(guān)鍵信息進行邏輯一致性校驗,并將校驗通過后的數(shù)據(jù)存儲至指定數(shù)據(jù)庫。
29、第三方面,本專利技術(shù)提供一種電子設(shè)備,包括處理器和存儲器,存儲器存儲有能夠被處理器執(zhí)行的計算機可執(zhí)行指令,處理器執(zhí)行計算機可執(zhí)行指令以實現(xiàn)前述實施方式任一項的借貸證據(jù)文檔信息的提取方法。
30、第四方面,本專利技術(shù)提供一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,計算機可執(zhí)行指令在被處理器調(diào)用和執(zhí)行時,計算機可執(zhí)行指令促使處理器實現(xiàn)前述實施方式任一項的借貸證據(jù)文檔信息的提取方法。
31、本申請?zhí)峁┑慕栀J證據(jù)文檔信息的提取方法、裝置、設(shè)備和介質(zhì)的有益效果如下:
32、通過自動化處理借貸文檔中的關(guān)鍵信息,大幅減少了人工參與的步驟,從而顯著提高了整體處理效率;利用自然語言處理技術(shù)自動識別和校驗關(guān)鍵信息,避免了人工提取和錄入過程中的人為錯誤,提升了數(shù)據(jù)的準確性;定制化的實體識別與關(guān)系抽取技術(shù)確保了關(guān)鍵信息的一致性,避免了因人工主觀判斷不同而導(dǎo)致的數(shù)據(jù)不一致問題;通過實體關(guān)系抽取技術(shù)準確識別借款人、出借人、擔保人之間的復(fù)雜關(guān)系,確保合同中所有參與方的義務(wù)與權(quán)益得到正確反映。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種借貸證據(jù)文檔信息的提取方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的借貸證據(jù)文檔信息的提取方法,其特征在于,對文檔預(yù)處理后的文檔信息進行關(guān)鍵信息提取,得到借貸證據(jù)關(guān)鍵信息,包括:
3.根據(jù)權(quán)利要求2所述的借貸證據(jù)文檔信息的提取方法,其特征在于,基于模板識別和定制化處理對文檔預(yù)處理后的文檔信息進行文檔類型和內(nèi)容進行特征識別和分類處理,得到借貸文檔類型,包括:
4.根據(jù)權(quán)利要求3所述的借貸證據(jù)文檔信息的提取方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求2所述的借貸證據(jù)文檔信息的提取方法,其特征在于,基于所述借貸文檔類型和與所述借貸文檔類型對應(yīng)的提取識別規(guī)則或提取識別模型對所述借貸文檔類型進行借貸實體識別,得到借貸證據(jù)關(guān)鍵信息,包括:
6.根據(jù)權(quán)利要求5所述的借貸證據(jù)文檔信息的提取方法,其特征在于,所述方法還包括:
7.根據(jù)權(quán)利要求5所述的借貸證據(jù)文檔信息的提取方法,其特征在于,所述方法還包括:
8.一種借貸證據(jù)文檔信息的提取裝置,其特征在于,所述裝置包括:
9.一
10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令在被處理器調(diào)用和執(zhí)行時,計算機可執(zhí)行指令促使處理器實現(xiàn)權(quán)利要求1至7任一項所述的借貸證據(jù)文檔信息的提取方法。
...【技術(shù)特征摘要】
1.一種借貸證據(jù)文檔信息的提取方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的借貸證據(jù)文檔信息的提取方法,其特征在于,對文檔預(yù)處理后的文檔信息進行關(guān)鍵信息提取,得到借貸證據(jù)關(guān)鍵信息,包括:
3.根據(jù)權(quán)利要求2所述的借貸證據(jù)文檔信息的提取方法,其特征在于,基于模板識別和定制化處理對文檔預(yù)處理后的文檔信息進行文檔類型和內(nèi)容進行特征識別和分類處理,得到借貸文檔類型,包括:
4.根據(jù)權(quán)利要求3所述的借貸證據(jù)文檔信息的提取方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求2所述的借貸證據(jù)文檔信息的提取方法,其特征在于,基于所述借貸文檔類型和與所述借貸文檔類型對應(yīng)的提取識別規(guī)則或提取識別模型對所述借貸文檔類型進行借貸實體識別,得到借貸證據(jù)關(guān)鍵信息,包括:...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:楊越,
申請(專利權(quán))人:深圳海規(guī)網(wǎng)絡(luò)科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。