System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及一種基于ocr的旅客遺失物查找方法、系統(tǒng)和可讀介質(zhì),屬于計算機視覺和機器學(xué)習(xí)。
技術(shù)介紹
1、鐵路旅客在出行過程中遺失物品數(shù)量不斷增加,據(jù)統(tǒng)計2023年鐵路全年旅客遺失物品數(shù)量超過130萬件,而當(dāng)前鐵路遺失物品找回率僅為40%左右,車站在遺失物品收納、登記、查找與管理面臨巨大壓力,消耗了大量的人力與物力。計算機視覺和人工智能機器學(xué)習(xí)技術(shù)在圖文檢索領(lǐng)域的發(fā)展,為鐵路遺失物品查找提供了新的解決方案。
2、現(xiàn)有技術(shù)中,如公開號為cn116503843a公開了一種遺失物自動識別尋找方法,其對遺失物進行智能識別,得到第一特征信息,查找時,獲取輸入的找尋物的第二特征信息,將第二特征信息與第一特征信息進行匹配,從而找到目標(biāo)遺失物。第一特征信息是遺失物的圖像等信息,第二特征信息是失主對遺失物的描述。可見現(xiàn)有技術(shù)中可以通過深度學(xué)習(xí)網(wǎng)絡(luò),根據(jù)失主的描述自動查找遺失物。但其也存在以下問題:
3、第一,原始的描述語言是自然語言,而且有時會描述的非常仔細(xì),算法無法自動識別有用的信息;
4、第二,對遺失物進行鑒別時,通常是基于一些細(xì)節(jié)信息進行判斷,如書包上的文字等,但現(xiàn)有模型中,圖像都是從整體進行判斷,如顏色、尺寸等,相同顏色、尺寸的遺失物可能不止一個,無法進行判斷。
技術(shù)實現(xiàn)思路
1、針對上述問題,本專利技術(shù)的目的是提出一種基于ocr的旅客遺失物查找方法、系統(tǒng)和可讀介質(zhì),能夠增強鐵路遺失物對諸如圖書、藥品、食品等帶有名稱、品牌等文字信息圖像的檢索效果。
>2、為實現(xiàn)上述目的,本專利技術(shù)提出了以下技術(shù)方案:一種基于ocr的旅客遺失物查找方法,包括以下步驟:獲取對遺失物的描述文本,并提取所述描述文本中的關(guān)鍵信息;將所述關(guān)鍵信息以及數(shù)據(jù)庫中的遺失物圖像輸入多模態(tài)大模型中,通過其中的圖像編碼器和文本編碼器,分別提取出圖文對齊的文本特征和圖像特征;通過跨模態(tài)匹配算法,獲得文本特征和圖像特征的匹配值;將數(shù)據(jù)庫中的遺失物圖像輸入ocr深度學(xué)習(xí)模型,提取所述遺失物圖像中的文字信息;通過所述文字信息對所述匹配值進行修正;將經(jīng)過修正的匹配值進行從高到低排列,選擇前若干個圖像作為遺失物查找結(jié)果。
3、進一步,提取所述描述文本中的關(guān)鍵信息的方法為:原始用戶信息中詳細(xì)的描述,經(jīng)過大語言模型提取關(guān)鍵信息;精煉的描述直接送入多模態(tài)大模型中。
4、進一步,所述詳細(xì)的描述為原始用戶信息字?jǐn)?shù)大于閾值的描述;所述精煉的描述為原始用戶信息字?jǐn)?shù)小于閾值,且經(jīng)過分詞算法檢測到多種不同詞性信息的描述。
5、進一步,所述文本特征和圖像特征的匹配值通過跨模態(tài)匹配算法獲得。
6、進一步,所述跨模態(tài)匹配算法為余弦相似度算法。
7、進一步,所述提取所述遺失物圖像中的文字信息;通過所述文字對所述匹配值進行修正的方法為:檢測圖像中是否存在文字信息,若存在則通過ocr對其進行提取;
8、將所述文字信息生成一個連續(xù)文本;判斷所述連續(xù)文本與文本特征之間是否有相同內(nèi)容,如有則根據(jù)相同內(nèi)容計算對匹配值的加分,從而對所述匹配值進行修正。
9、進一步,判斷所述連續(xù)文本與文本特征之間是否有相同內(nèi)容,如有則根據(jù)相同內(nèi)容計算對匹配值的加分的方法為:把所述連續(xù)文本中連續(xù)的兩個字符看成一個塊依次滑動,看是否在描述文本關(guān)鍵信息中出現(xiàn)連續(xù)相同文字,若出現(xiàn)則給該圖文匹配值加分。
10、進一步,所述加分的計算公式為:
11、
12、其中,是加分,是加權(quán)系數(shù),是加權(quán)的最高值,是出現(xiàn)的相同字符數(shù)。
13、本專利技術(shù)還公開了一種基于ocr的旅客遺失物查找系統(tǒng),包括:描述文本獲取模塊,用于獲取對遺失物的描述文本,并提取所述描述文本中的關(guān)鍵信息;多模態(tài)大模型模塊,用于將所述關(guān)鍵信息以及數(shù)據(jù)庫中的遺失物圖像輸入多模態(tài)大模型中,通過其中的圖像編碼器和文本編碼器,分別提取出圖文對齊的文本特征和圖像特征;匹配值計算模塊,用于通過跨模態(tài)匹配算法,獲得文本特征和圖像特征的匹配值;匹配值修正模塊,用于將數(shù)據(jù)庫中的遺失物圖像輸入ocr深度學(xué)習(xí)模型,提取所述遺失物圖像中的文字信息;通過所述文字信息對所述匹配值進行修正;結(jié)果輸出模塊,用于將經(jīng)過修正的匹配值進行從高到低排列,選擇前若干個圖像作為遺失物查找結(jié)果。
14、本專利技術(shù)還公開了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行以實現(xiàn)上述任一項所述的基于ocr的旅客遺失物查找方法。
15、本專利技術(shù)的技術(shù)方案至少具有如下技術(shù)效果或優(yōu)點:本專利技術(shù)是基于ocr針對鐵路遺失物的大模型圖文檢索增強方法,在硬件資源有限的部署場景,可以進一步輔助增強對諸如圖書、藥品、食品等帶有名稱、品牌等文字信息圖像的檢索效果。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種基于OCR的旅客遺失物查找方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的基于OCR的旅客遺失物查找方法,其特征在于,提取所述描述文本中的關(guān)鍵信息的方法為:原始用戶信息中詳細(xì)的描述,經(jīng)過大語言模型提取關(guān)鍵信息;精煉的描述直接送入多模態(tài)大模型中。
3.如權(quán)利要求2所述的基于OCR的旅客遺失物查找方法,其特征在于,所述詳細(xì)的描述為原始用戶信息字?jǐn)?shù)大于閾值的描述;所述精煉的描述為原始用戶信息字?jǐn)?shù)小于閾值,且經(jīng)過分詞算法檢測到多種不同詞性信息的描述。
4.如權(quán)利要求1所述的基于OCR的旅客遺失物查找方法,其特征在于,所述文本特征和圖像特征的匹配值通過跨模態(tài)匹配算法獲得。
5.如權(quán)利要求4所述的基于OCR的旅客遺失物查找方法,其特征在于,所述跨模態(tài)匹配算法為余弦相似度算法。
6.如權(quán)利要求1所述的基于OCR的旅客遺失物查找方法,其特征在于,所述提取所述遺失物圖像中的文字信息;通過所述文字對所述匹配值進行修正的方法為:
7.如權(quán)利要求6所述的基于OCR的旅客遺失物查找方法,其特征在于,判斷所述連續(xù)文本與文
8.如權(quán)利要求7所述的基于OCR的旅客遺失物查找方法,其特征在于,所述加分的計算公式為:
9.一種基于OCR的旅客遺失物查找系統(tǒng),其特征在于,包括:
10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行以實現(xiàn)如權(quán)利要求1-7任一項所述的基于OCR的旅客遺失物查找方法。
...【技術(shù)特征摘要】
1.一種基于ocr的旅客遺失物查找方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的基于ocr的旅客遺失物查找方法,其特征在于,提取所述描述文本中的關(guān)鍵信息的方法為:原始用戶信息中詳細(xì)的描述,經(jīng)過大語言模型提取關(guān)鍵信息;精煉的描述直接送入多模態(tài)大模型中。
3.如權(quán)利要求2所述的基于ocr的旅客遺失物查找方法,其特征在于,所述詳細(xì)的描述為原始用戶信息字?jǐn)?shù)大于閾值的描述;所述精煉的描述為原始用戶信息字?jǐn)?shù)小于閾值,且經(jīng)過分詞算法檢測到多種不同詞性信息的描述。
4.如權(quán)利要求1所述的基于ocr的旅客遺失物查找方法,其特征在于,所述文本特征和圖像特征的匹配值通過跨模態(tài)匹配算法獲得。
5.如權(quán)利要求4所述的基于ocr的旅客遺失物查找方法,其特征在于,所述跨模態(tài)匹配算法為余弦相似度算法。
6.如權(quán)利要求1所述的基于...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:武鑫森,劉陽,孔祥斌,沈志忠,周銘坤,陳哲,鄭琛,方鑫,李懿祖,費冬,
申請(專利權(quán))人:通號通信信息集團有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。