System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 在线观看无码不卡AV,国产成人无码免费看片软件,人妻少妇无码精品视频区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    圖文檢索方法、裝置、設備、存儲介質及程序產品制造方法及圖紙

    技術編號:44523164 閱讀:2 留言:0更新日期:2025-03-07 13:15
    本發明專利技術提供一種圖文檢索方法、裝置、設備、存儲介質及程序產品,應用于計算機視覺技術領域。該方法包括:獲取圖像描述文本,并基于所述圖像描述文本確定候選圖像集合;將所述候選圖像集合中的候選圖像劃分為多個類簇,并確定每個類簇的代表圖像;根據所述代表圖像生成N個場景問題,并通過與用戶交互問答的形式確定所述N個場景問題的場景答案;基于所述場景問題、所述場景答案以及所述圖像描述文本生成場景圖;基于所述場景圖、所述場景問題、所述場景答案以及所述圖像描述文本進行相似度檢索,得到目標圖像;其中,N為大于0的整數。

    【技術實現步驟摘要】

    本專利技術涉及計算機視覺?,尤其涉及一種圖文檢索方法、裝置、設備、存儲介質及程序產品


    技術介紹

    1、在現代信息檢索領域,交互式圖文檢索展現出了獨特的優勢。它打破了傳統檢索方式相對靜態、缺乏互動的局限,通過積極利用用戶輸入的文本描述以及相關圖片,構建起問答交互的模式。這種交互的意義在于,它不再是單方面地按照既定規則去匹配圖文,而是可以根據用戶實時反饋的想法、要求等信息來動態調整檢索方向和內容,使得最終呈現出來的檢索結果能夠更加緊密地貼合用戶內心真正的需求。

    2、然而,現有技術中的交互式圖文檢索方式往往需要依賴用戶頻繁給出反饋、不斷進行調整,比如用戶可能需要多次修改文本描述或者補充更多相關圖片等操作,才能逐漸接近理想的檢索結果。這樣頻繁的交互過程會拖慢整個問答的節奏,使得問答效率變得低下。


    技術實現思路

    1、本專利技術提供一種圖文檢索方法、裝置、設備、存儲介質及程序產品,用以解決現有技術中的交互式圖文檢索方式問答效率低下的問題。

    2、本專利技術提供一種圖文檢索方法,包括:獲取圖像描述文本,并基于所述圖像描述文本確定候選圖像集合;將所述候選圖像集合中的候選圖像劃分為多個類簇,并確定每個類簇的代表圖像;根據所述代表圖像生成n個場景問題,并通過與用戶交互問答的形式確定所述n個場景問題的場景答案;基于所述場景問題、所述場景答案以及所述圖像描述文本生成場景圖;基于所述場景圖、所述場景問題、所述場景答案以及所述圖像描述文本進行相似度檢索,得到目標圖像;其中,?n為大于0的整數。

    3、根據本專利技術提供的一種圖文檢索方法,所述將所述候選圖像集合中的候選圖像劃分為多個類簇,并確定每個類簇的代表圖像,包括:通過聚類算法將所述候選圖像集合中的候選圖像劃分為多個類簇;計算類簇中候選圖像與所述圖像描述文本的相似度分布;將相似度分布中熵值最低的候選圖像確定為對應類簇的代表圖像;其中,一個類簇對應一個代表圖像。

    4、根據本專利技術提供的一種圖文檢索方法,所述根據所述代表圖像生成n個場景問題,包括:根據所述代表圖像生成第一文本信息,并基于所述第一文本信息生成m個場景問題;過濾所述m個場景問題中滿足第一條件的場景問題,得到所述n個場景問題;其中,所述第一條件包括:答案包含在所述圖像描述文本中,或者,與所述候選圖像相關、但與所述目標圖像無關,m為大于或等于n的整數。

    5、根據本專利技術提供的一種圖文檢索方法,所述根據所述代表圖像生成第一文本信息,并基于所述第一文本信息生成m個場景問題,包括:通過字幕生成模型對所述代表圖像進行字幕生成,并將生成的字幕轉換為所述第一文本信息;通過大語言模型生成與所述第一文本信息相關的m個場景問題。

    6、根據本專利技術提供的一種圖文檢索方法,所述過濾所述m個場景問題中滿足第一條件的場景問題,得到所述n個場景問題,包括:通過大語言模型,并結合上下文描述對所述m個場景問題進行自動回答,過濾得到答案的場景問題;確定所述上下文描述的相似度分布,確定與所述m個場景問題結合的上下文描述的相似度分布,過濾所述相似度分布中相對熵大于預設閾值的場景問題。

    7、根據本專利技術提供的一種圖文檢索方法,所述基于所述場景圖、所述場景問題、所述場景答案以及所述圖像描述文本進行相似度檢索,得到目標圖像,包括:根據所述n個場景問題和所述場景答案生成標題格式的文本,對標題格式的文本和所述圖像描述文本進行拼接處理,得到第二文本信息;對所述場景圖和所述第二文本信息進行拼接處理,得到目標圖文信息;基于所述目標圖文信息進行相似度檢索,得到所述目標圖像。

    8、本專利技術還提供一種圖文檢索裝置,包括如下模塊:獲取模塊和處理模塊;所述獲取模塊,用于獲取圖像描述文本;所述處理模塊,用于基于所述圖像描述文本確定候選圖像集合;將所述候選圖像集合中的候選圖像劃分為多個類簇,并確定每個類簇的代表圖像;根據所述代表圖像生成n個場景問題;所述獲取模塊,用于通過與用戶交互問答的形式確定所述n個場景問題的場景答案;所述處理模塊,用于基于所述場景問題、所述場景答案以及所述圖像描述文本生成場景圖;基于所述場景圖、所述場景問題、所述場景答案以及所述圖像描述文本進行相似度檢索,得到目標圖像;其中,?n為大于0的整數。

    9、根據本專利技術提供的一種圖文檢索裝置,所述處理模塊,用于通過聚類算法將所述候選圖像集合中的候選圖像劃分為多個類簇;計算類簇中候選圖像與所述圖像描述文本的相似度分布;將相似度分布中熵值最低的候選圖像確定為對應類簇的代表圖像;其中,一個類簇對應一個代表圖像。

    10、根據本專利技術提供的一種圖文檢索裝置,所述處理模塊,用于根據所述代表圖像生成第一文本信息,并基于所述第一文本信息生成m個場景問題;過濾所述m個場景問題中滿足第一條件的場景問題,得到所述n個場景問題;其中,所述第一條件包括:答案包含在所述圖像描述文本中,或者,與所述候選圖像相關、但與所述目標圖像無關,m為大于或等于n的整數。

    11、根據本專利技術提供的一種圖文檢索裝置,所述處理模塊,用于通過字幕生成模型對所述代表圖像進行字幕生成,并將生成的字幕轉換為所述第一文本信息;通過大語言模型生成與所述第一文本信息相關的m個場景問題。

    12、根據本專利技術提供的一種圖文檢索裝置,所述處理模塊,用于通過大語言模型,并結合上下文描述對所述m個場景問題進行自動回答,過濾得到答案的場景問題;確定所述上下文描述的相似度分布,確定與所述m個場景問題結合的上下文描述的相似度分布,過濾所述相似度分布中相對熵大于預設閾值的場景問題。

    13、根據本專利技術提供的一種圖文檢索裝置,所述處理模塊,用于根據所述n個場景問題和所述場景答案生成標題格式的文本,對標題格式的文本和所述圖像描述文本進行拼接處理,得到第二文本信息;對所述場景圖和所述第二文本信息進行拼接處理,得到目標圖文信息;基于所述目標圖文信息進行相似度檢索,得到所述目標圖像。

    14、本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述任一種所述圖文檢索方法。

    15、本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述圖文檢索方法。

    16、本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述圖文檢索方法。

    17、本專利技術提供的圖文檢索方法、裝置、設備、存儲介質及程序產品,一方面,由于可以將候選圖像集合中的候選圖像劃分為多個類簇,并確定每個類簇的代表圖像,因此,可以保證場景問題來源圖像的多樣性,從而提高場景圖的信息涵蓋面;另一方面,由于可以基于場景圖進行圖文檢索,因此不僅可以減少用戶交互次數,還可以利用場景圖豐富的物體屬性信息以及關系建模,增強提示文本的信息攜帶量,優化圖文檢索的效率和準確性。

    本文檔來自技高網...

    【技術保護點】

    1.一種圖文檢索方法,其特征在于,包括:

    2.根據權利要求1所述的圖文檢索方法,其特征在于,所述將所述候選圖像集合中的候選圖像劃分為多個類簇,并確定每個類簇的代表圖像,包括:

    3.根據權利要求1所述的圖文檢索方法,其特征在于,所述根據所述代表圖像生成N個場景問題,包括:

    4.根據權利要求3所述的圖文檢索方法,其特征在于,所述根據所述代表圖像生成第一文本信息,并基于所述第一文本信息生成M個場景問題,包括:

    5.根據權利要求3所述的圖文檢索方法,其特征在于,所述過濾所述M個場景問題中滿足第一條件的場景問題,得到所述N個場景問題,包括:

    6.根據權利要求1所述的圖文檢索方法,其特征在于,所述基于所述場景圖、所述場景問題、所述場景答案以及所述圖像描述文本進行相似度檢索,得到目標圖像,包括:

    7.一種圖文檢索裝置,其特征在于,包括:獲取模塊和處理模塊;

    8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至6任一項所述圖文檢索方法。

    9.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述圖文檢索方法。

    10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述圖文檢索方法。

    ...

    【技術特征摘要】

    1.一種圖文檢索方法,其特征在于,包括:

    2.根據權利要求1所述的圖文檢索方法,其特征在于,所述將所述候選圖像集合中的候選圖像劃分為多個類簇,并確定每個類簇的代表圖像,包括:

    3.根據權利要求1所述的圖文檢索方法,其特征在于,所述根據所述代表圖像生成n個場景問題,包括:

    4.根據權利要求3所述的圖文檢索方法,其特征在于,所述根據所述代表圖像生成第一文本信息,并基于所述第一文本信息生成m個場景問題,包括:

    5.根據權利要求3所述的圖文檢索方法,其特征在于,所述過濾所述m個場景問題中滿足第一條件的場景問題,得到所述n個場景問題,包括:

    6.根據權利要求1所述的圖文檢索方法,其特征在于,所述基于...

    【專利技術屬性】
    技術研發人員:朱寬,安泓巖,郭海云,唐明王金橋,
    申請(專利權)人:中國科學院自動化研究所,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文字幕无码第1页| 精品无码AV一区二区三区不卡| 下载天堂国产AV成人无码精品网站| 亚洲精品无码不卡在线播放| 无码专区6080yy国产电影| 久久午夜夜伦鲁鲁片免费无码影视| 乱人伦人妻中文字幕无码| 亚洲Aⅴ无码专区在线观看q| 国产精品无码一本二本三本色| 久久久久无码精品国产不卡| 在线播放无码高潮的视频| 人妻无码一区二区三区四区| 亚洲AV成人无码久久WWW| 亚洲AV无码一区二区二三区入口| 西西4444www大胆无码| 永久免费AV无码网站在线观看| 精品久久久久久无码不卡 | 亚洲爆乳无码专区| 国产高清无码二区 | 亚洲AV无码乱码在线观看| av潮喷大喷水系列无码| 精品无码成人片一区二区98 | 亚洲日韩精品无码一区二区三区| 天天看高清无码一区二区三区| 亚洲色无码国产精品网站可下载| 日韩免费人妻AV无码专区蜜桃 | 亚洲AV无码成人专区| 免费A级毛片av无码| 91精品国产综合久久四虎久久无码一级| 国产精品99精品无码视亚| 最新高清无码专区| 亚洲AV无码乱码国产麻豆穿越| 超清无码熟妇人妻AV在线电影| 日韩综合无码一区二区| 国产精品亚洲а∨无码播放| 亚洲av无码一区二区三区乱子伦| 午夜无码伦费影视在线观看| 精品久久无码中文字幕| 精品久久久无码人妻中文字幕豆芽 | 噜噜综合亚洲AV中文无码| 麻豆精品无码国产在线果冻|