一種基于外部知識的視覺問答方法及系統技術方案

技術編號：41651935 閱讀：20 留言：0更新日期：2024-06-13 02:41

本發明專利技術公開了一種基于外部知識的視覺問答方法及系統，屬于視覺問答技術領域，能夠解決現有模型可解釋性有限、且存在零樣本的問題。所述方法包括：S1、獲取目標圖像和目標問題，并構建場景知識圖；S2、根據場景知識圖中的實體和關系，獲取T步路由中每一步路由的實體得分向量和關系得分向量；S3、根據每一步路由的實體得分向量和關系得分向量，獲取T步路由后的實體總得分向量和關系總得分向量；S4、根據實體總得分向量和關系總得分向量進行答案預測，得到總體預測答案得分。本發明專利技術用于視覺問答。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及一種基于外部知識的視覺問答方法及系統，屬于視覺問答。

技術介紹

1、基于外部知識庫的視覺問題回答(knowledgebased-visual?questionanswering，kb-vqa)要求一個模型通過納入超出給定圖像和問題范疇的知識來回答問題。盡管在vqa?(visual?question?answer，視覺問答)任務中取得了成功，但kb-vqa對于模型來說更難達到類似人類利用外部知識進行跨模式場景理解的能力。因此，kb-vqa的一個核心問題是在這個跨模態場景中適當地表示和利用知識。

2、早期的研究集中在從知識圖譜(如conceptnet)中檢索相關的支持性事實，用于kb-vqa。例如，使用glove嵌入進行事實評分，并選擇最相關事實中的實體作為答案，或者應用圖神經網絡對檢索到的知識子圖進行節點(答案)分類。這些方法在簡單的數據集(如fvqa)上取得了可喜的成果，但它們沒有能力處理需要更復雜知識的困難問題。為了解決這個問題，除了來自知識圖譜的顯性知識外，預先訓練好的視覺語言模型的隱性知識也被利用來更好地理解給定的圖像和問題的內容。然而，由于黑盒子的特點，這些模型的可解釋性有限。此外，由于所有這些模型的答案分類器都不能很好地處理未見過答案的問題，所以它們都存在零樣本問題。

技術實現思路

1、本專利技術提供了一種基于外部知識的視覺問答方法及系統，能夠解決現有模型可解釋性有限、且存在零樣本的問題。

2、一方面，本專利技術提供了一種基于外部知識

3、s1、獲取目標圖像和目標問題，并構建場景知識圖；

4、s2、根據所述場景知識圖中的實體和關系，獲取t步路由中每一步路由的實體得分向量和關系得分向量；

5、s3、根據每一步路由的所述實體得分向量和所述關系得分向量，獲取t步路由后的實體總得分向量和關系總得分向量；

6、s4、根據所述實體總得分向量和所述關系總得分向量進行答案預測，得到總體預測答案得分。

7、可選的，所述s2具體包括：

8、s21、獲取所述場景知識圖中的實體在第t步路由的實體得分向量；

9、s22、計算第t步路由時不同實體間的每個三元組的概率分數，得到第t步路由的轉移矩陣和關系得分向量；

10、s23、根據所述第t步路由的實體得分向量和轉移矩陣，得到第t+1步路由的實體得分向量；其中，0≤t≤t。

11、可選的，所述s22具體包括：

12、s221、獲取第t步路由的問題關鍵詞，并根據所述問題關鍵詞計算第t步路由時不同實體間的每個三元組的概率分數；

13、s222、獲取不同實體間所有關系的三元組的概率分數之和，作為不同實體間的轉移概率分數，并根據所述轉移概率分數，獲得第t步路由的轉移矩陣；

14、s223、獲取每個關系下所有三元組的概率分數之和，作為第t步路由的關系得分向量。

15、可選的，所述s1具體包括：

16、s11、獲取目標圖像和目標問題，并構建場景圖；

17、s12、將所述場景圖與外部知識圖譜中的實體對齊，并從所述外部知識圖譜中檢索與所述場景圖相關的知識三元組；

18、s13、將所述知識三元組添加進所述場景圖中，得到場景知識圖。

19、可選的，在所述s12之后，所述s1還包括：

20、s14、對所述知識三元組中與所述目標問題相關的知識三元組進行過濾，得到過濾后的知識三元組；

21、對應的，所述s13具體為：

22、將所述過濾后的知識三元組添加進所述場景圖中，得到場景知識圖。

23、可選的，所述s3具體包括：

24、s31、獲取t步路由的跳數概率分布；

25、s32、根據所述跳數概率分布、所述實體得分向量和所述關系得分向量，計算實體總得分向量和關系總得分向量。

26、可選的，所述s4具體包括：

27、s41、獲取預測答案的類型概率；

28、s42、根據所述類型概率、所述實體總得分向量和所述關系總得分向量進行答案預測，得到總體預測答案得分。

29、另一方面，本專利技術提供了一種基于外部知識的視覺問答系統，所述系統包括：

30、構建模塊，用于獲取目標圖像和目標問題，并構建場景知識圖；

31、單步得分模塊，用于根據所述場景知識圖中的實體和關系，獲取t步路由中每一步路由的實體得分向量和關系得分向量；

32、總得分模塊，用于根據每一步路由的所述實體得分向量和所述關系得分向量，獲取t步路由后的實體總得分向量和關系總得分向量；

33、預測模塊，用于根據所述實體總得分向量和所述關系總得分向量進行答案預測，得到總體預測答案得分。

34、可選的，所述單步得分模塊具體包括：

35、獲取單元，用于獲取所述場景知識圖中的實體在第t步路由的實體得分向量；

36、計算單元，用于計算第t步路由時不同實體間的每個三元組的概率分數，得到第t步路由的轉移矩陣和關系得分向量；

37、迭代單元，用于根據所述第t步路由的實體得分向量和轉移矩陣，得到第t+1步路由的實體得分向量；其中，0≤t≤t。

38、可選的，所述計算單元具體包括：

39、計算子單元，用于獲取第t步路由的問題關鍵詞，并根據所述問題關鍵詞計算第t步路由時不同實體間的每個三元組的概率分數；

40、轉移矩陣獲取子單元，用于獲取不同實體間所有關系的三元組的概率分數之和，作為不同實體間的轉移概率分數，并根據所述轉移概率分數，獲得第t步路由的轉移矩陣；

41、關系得分獲取子單元，用于獲取每個關系下所有三元組的概率分數之和，作為第t步路由的關系得分向量。

42、本專利技術能產生的有益效果包括：

43、本專利技術提供的基于外部知識的視覺問答方法，對于目標圖像和目標問題，首先建立一個場景知識圖，具體是將場景圖與檢索到的與給定的目標圖片和問題相關的外部知識三元組相結合。在場景知識圖的基礎上，進行逐步的實體路由來預測答案。具體的，該方法在每一步路由中都保留一個實體得分向量，代表每個實體被激活為答案的可能性，以及一個轉移矩陣，代表從一個實體到另一個實體的轉移概率。同時，該方法在每一步路由中都會關注問題中的某些關鍵詞，轉移矩陣的計算就是參考這些重點關鍵詞。之后，根據當前路由步驟的實體分數和轉移矩陣，通過過渡實體分數來進行實體路由。經過固定數量的路由步驟后，該方法可以預測哪些步驟包括答案，并從路由路徑上的實體和關系中選擇答案。本專利技術的方法明確地提供了一步一步的推理過程，這顯示了良好的可解釋性。此外，本專利技術不是對候選答案進行分類，而是從構建的場景知識圖中選擇答案，這可以很好地處理有未見過的答案的問題，并避免零樣本問題。同時，本專利技術提出了一個可解釋的圖路由網絡(graphrout本文檔來自技高網...

【技術保護點】

1.一種基于外部知識的視覺問答方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述S2具體包括：

3.根據權利要求2所述的方法，其特征在于，所述S22具體包括：

4.根據權利要求1所述的方法，其特征在于，所述S1具體包括：

5.根據權利要求4所述的方法，其特征在于，在所述S12之后，所述S1還包括：

6.根據權利要求1所述的方法，其特征在于，所述S3具體包括：

7.根據權利要求1所述的方法，其特征在于，所述S4具體包括：

8.一種基于外部知識的視覺問答系統，其特征在于，所述系統包括：

9.根據權利要求8所述的系統，其特征在于，所述單步得分模塊具體包括：

10.根據權利要求9所述的系統，其特征在于，所述計算單元具體包括：

【技術特征摘要】

1.一種基于外部知識的視覺問答方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述s2具體包括：

3.根據權利要求2所述的方法，其特征在于，所述s22具體包括：

4.根據權利要求1所述的方法，其特征在于，所述s1具體包括：

5.根據權利要求4所述的方法，其特征在于，在所述s12之后，所述s1還包括：

【專利技術屬性】
技術研發人員：胡琳梅，汪多康，郝銳，潘悅陽，
申請(專利權)人：北京理工大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術