System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及計算機視覺?,尤其涉及一種圖文檢索方法、裝置、設備、存儲介質及程序產品。
技術介紹
1、在現代信息檢索領域,交互式圖文檢索展現出了獨特的優勢。它打破了傳統檢索方式相對靜態、缺乏互動的局限,通過積極利用用戶輸入的文本描述以及相關圖片,構建起問答交互的模式。這種交互的意義在于,它不再是單方面地按照既定規則去匹配圖文,而是可以根據用戶實時反饋的想法、要求等信息來動態調整檢索方向和內容,使得最終呈現出來的檢索結果能夠更加緊密地貼合用戶內心真正的需求。
2、然而,現有技術中的交互式圖文檢索方式往往需要依賴用戶頻繁給出反饋、不斷進行調整,比如用戶可能需要多次修改文本描述或者補充更多相關圖片等操作,才能逐漸接近理想的檢索結果。這樣頻繁的交互過程會拖慢整個問答的節奏,使得問答效率變得低下。
技術實現思路
1、本專利技術提供一種圖文檢索方法、裝置、設備、存儲介質及程序產品,用以解決現有技術中的交互式圖文檢索方式問答效率低下的問題。
2、本專利技術提供一種圖文檢索方法,包括:獲取圖像描述文本,并基于所述圖像描述文本確定候選圖像集合;將所述候選圖像集合中的候選圖像劃分為多個類簇,并確定每個類簇的代表圖像;根據所述代表圖像生成n個場景問題,并通過與用戶交互問答的形式確定所述n個場景問題的場景答案;基于所述場景問題、所述場景答案以及所述圖像描述文本生成場景圖;基于所述場景圖、所述場景問題、所述場景答案以及所述圖像描述文本進行相似度檢索,得到目標圖像;其中,?n為大于0的
3、根據本專利技術提供的一種圖文檢索方法,所述將所述候選圖像集合中的候選圖像劃分為多個類簇,并確定每個類簇的代表圖像,包括:通過聚類算法將所述候選圖像集合中的候選圖像劃分為多個類簇;計算類簇中候選圖像與所述圖像描述文本的相似度分布;將相似度分布中熵值最低的候選圖像確定為對應類簇的代表圖像;其中,一個類簇對應一個代表圖像。
4、根據本專利技術提供的一種圖文檢索方法,所述根據所述代表圖像生成n個場景問題,包括:根據所述代表圖像生成第一文本信息,并基于所述第一文本信息生成m個場景問題;過濾所述m個場景問題中滿足第一條件的場景問題,得到所述n個場景問題;其中,所述第一條件包括:答案包含在所述圖像描述文本中,或者,與所述候選圖像相關、但與所述目標圖像無關,m為大于或等于n的整數。
5、根據本專利技術提供的一種圖文檢索方法,所述根據所述代表圖像生成第一文本信息,并基于所述第一文本信息生成m個場景問題,包括:通過字幕生成模型對所述代表圖像進行字幕生成,并將生成的字幕轉換為所述第一文本信息;通過大語言模型生成與所述第一文本信息相關的m個場景問題。
6、根據本專利技術提供的一種圖文檢索方法,所述過濾所述m個場景問題中滿足第一條件的場景問題,得到所述n個場景問題,包括:通過大語言模型,并結合上下文描述對所述m個場景問題進行自動回答,過濾得到答案的場景問題;確定所述上下文描述的相似度分布,確定與所述m個場景問題結合的上下文描述的相似度分布,過濾所述相似度分布中相對熵大于預設閾值的場景問題。
7、根據本專利技術提供的一種圖文檢索方法,所述基于所述場景圖、所述場景問題、所述場景答案以及所述圖像描述文本進行相似度檢索,得到目標圖像,包括:根據所述n個場景問題和所述場景答案生成標題格式的文本,對標題格式的文本和所述圖像描述文本進行拼接處理,得到第二文本信息;對所述場景圖和所述第二文本信息進行拼接處理,得到目標圖文信息;基于所述目標圖文信息進行相似度檢索,得到所述目標圖像。
8、本專利技術還提供一種圖文檢索裝置,包括如下模塊:獲取模塊和處理模塊;所述獲取模塊,用于獲取圖像描述文本;所述處理模塊,用于基于所述圖像描述文本確定候選圖像集合;將所述候選圖像集合中的候選圖像劃分為多個類簇,并確定每個類簇的代表圖像;根據所述代表圖像生成n個場景問題;所述獲取模塊,用于通過與用戶交互問答的形式確定所述n個場景問題的場景答案;所述處理模塊,用于基于所述場景問題、所述場景答案以及所述圖像描述文本生成場景圖;基于所述場景圖、所述場景問題、所述場景答案以及所述圖像描述文本進行相似度檢索,得到目標圖像;其中,?n為大于0的整數。
9、根據本專利技術提供的一種圖文檢索裝置,所述處理模塊,用于通過聚類算法將所述候選圖像集合中的候選圖像劃分為多個類簇;計算類簇中候選圖像與所述圖像描述文本的相似度分布;將相似度分布中熵值最低的候選圖像確定為對應類簇的代表圖像;其中,一個類簇對應一個代表圖像。
10、根據本專利技術提供的一種圖文檢索裝置,所述處理模塊,用于根據所述代表圖像生成第一文本信息,并基于所述第一文本信息生成m個場景問題;過濾所述m個場景問題中滿足第一條件的場景問題,得到所述n個場景問題;其中,所述第一條件包括:答案包含在所述圖像描述文本中,或者,與所述候選圖像相關、但與所述目標圖像無關,m為大于或等于n的整數。
11、根據本專利技術提供的一種圖文檢索裝置,所述處理模塊,用于通過字幕生成模型對所述代表圖像進行字幕生成,并將生成的字幕轉換為所述第一文本信息;通過大語言模型生成與所述第一文本信息相關的m個場景問題。
12、根據本專利技術提供的一種圖文檢索裝置,所述處理模塊,用于通過大語言模型,并結合上下文描述對所述m個場景問題進行自動回答,過濾得到答案的場景問題;確定所述上下文描述的相似度分布,確定與所述m個場景問題結合的上下文描述的相似度分布,過濾所述相似度分布中相對熵大于預設閾值的場景問題。
13、根據本專利技術提供的一種圖文檢索裝置,所述處理模塊,用于根據所述n個場景問題和所述場景答案生成標題格式的文本,對標題格式的文本和所述圖像描述文本進行拼接處理,得到第二文本信息;對所述場景圖和所述第二文本信息進行拼接處理,得到目標圖文信息;基于所述目標圖文信息進行相似度檢索,得到所述目標圖像。
14、本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述任一種所述圖文檢索方法。
15、本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述圖文檢索方法。
16、本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述圖文檢索方法。
17、本專利技術提供的圖文檢索方法、裝置、設備、存儲介質及程序產品,一方面,由于可以將候選圖像集合中的候選圖像劃分為多個類簇,并確定每個類簇的代表圖像,因此,可以保證場景問題來源圖像的多樣性,從而提高場景圖的信息涵蓋面;另一方面,由于可以基于場景圖進行圖文檢索,因此不僅可以減少用戶交互次數,還可以利用場景圖豐富的物體屬性信息以及關系建模,增強提示文本的信息攜帶量,優化圖文檢索的效率和準確性。
本文檔來自技高網...【技術保護點】
1.一種圖文檢索方法,其特征在于,包括:
2.根據權利要求1所述的圖文檢索方法,其特征在于,所述將所述候選圖像集合中的候選圖像劃分為多個類簇,并確定每個類簇的代表圖像,包括:
3.根據權利要求1所述的圖文檢索方法,其特征在于,所述根據所述代表圖像生成N個場景問題,包括:
4.根據權利要求3所述的圖文檢索方法,其特征在于,所述根據所述代表圖像生成第一文本信息,并基于所述第一文本信息生成M個場景問題,包括:
5.根據權利要求3所述的圖文檢索方法,其特征在于,所述過濾所述M個場景問題中滿足第一條件的場景問題,得到所述N個場景問題,包括:
6.根據權利要求1所述的圖文檢索方法,其特征在于,所述基于所述場景圖、所述場景問題、所述場景答案以及所述圖像描述文本進行相似度檢索,得到目標圖像,包括:
7.一種圖文檢索裝置,其特征在于,包括:獲取模塊和處理模塊;
8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至6任
9.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述圖文檢索方法。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述圖文檢索方法。
...【技術特征摘要】
1.一種圖文檢索方法,其特征在于,包括:
2.根據權利要求1所述的圖文檢索方法,其特征在于,所述將所述候選圖像集合中的候選圖像劃分為多個類簇,并確定每個類簇的代表圖像,包括:
3.根據權利要求1所述的圖文檢索方法,其特征在于,所述根據所述代表圖像生成n個場景問題,包括:
4.根據權利要求3所述的圖文檢索方法,其特征在于,所述根據所述代表圖像生成第一文本信息,并基于所述第一文本信息生成m個場景問題,包括:
5.根據權利要求3所述的圖文檢索方法,其特征在于,所述過濾所述m個場景問題中滿足第一條件的場景問題,得到所述n個場景問題,包括:
6.根據權利要求1所述的圖文檢索方法,其特征在于,所述基于...
【專利技術屬性】
技術研發人員:朱寬,安泓巖,郭海云,唐明,王金橋,
申請(專利權)人:中國科學院自動化研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。