System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
所屬的技術人員能夠理解,本申請的各個方面可以實現(xiàn)為系統(tǒng)、方法或程序產品。因此,本申請的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、微代碼等),或硬件和軟件方面結合的實施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”?;谙嗤膶@夹g構思,本申請實施例還提供一種電子設備。在一種實施例中,該電子設備可以是服務器,也可以是終端設備。參閱圖14所示,其為本申請實施例中提供的一種可能的電子設備的結構示意圖,圖14中,電子設備1400包括:處理器1410和存儲器1420。其中,存儲器1420存儲有可被處理器1410執(zhí)行的計算機程序,處理器1410通過執(zhí)行存儲器1420存儲的指令,可以執(zhí)行上述多模態(tài)問答解釋方法的步驟。存儲器1420可以是易失性存儲器(volatile?memory),例如隨機存取存儲器(random-access?memory,ram);存儲器1420也可以是非易失性存儲器(non-volatilememory),例如只讀存儲器(read-only?memory,rom),快閃存儲器(flash?memory),硬盤(hard?disk?drive,hdd)或固態(tài)硬盤(solid-state?drive,ssd);或者存儲器1420是能夠用于攜帶或存儲具有指令或數據結構形式的期望的程序代碼并能夠由計算機存取的任何其他介質,但不限于此。存儲器1420也可以是上述存儲器的組合。處理器1410可以包括一個或多個中央處理單元(central?processing?unit,cpu)或者為數字處理單元等等。處理器
技術介紹
1、多模態(tài)問答是一種結合了多種類型的數據(如文本、圖像、視頻等)來進行問題解答的任務。以視覺問答為例,視覺問答任務需要針對輸入的圖像及問題,給出相應答案。而視覺問答解釋任務作為視覺問答的后繼子任務,則需要在給出準確答案的同時,對決策過程提供直觀易懂的解釋。解釋可以采用文本、圖像或者圖結構等形式呈現(xiàn)。
2、相關技術中,基于文本的視覺問答可解釋方案通常采用以下方式實現(xiàn):先根據輸入的圖像及問題,生成相應的答案,再根據生成的答案,結合輸入的圖像及問題,生成答案的解釋文本。例如,針對給定的圖像,問題為“今天是否需要帶傘”,生成的答案為“不需要”,解釋文本為“因為圖像中藍天白云表示沒有下雨”
3、然而,由于答案生成過程和解釋文本生成過程相互獨立,可能存在解釋文本與輸入的圖像及問題之間的相關性較低、解釋文本中包含不存在于圖像及問題中的信息等問題,影響解釋文本的準確性。
技術實現(xiàn)思路
1、本申請實施例提供一種多模態(tài)問答解釋方法及相關裝置,用以提高多模態(tài)問答解釋的準確性。
2、第一方面,本申請實施例提供一種多模態(tài)問答解釋方法,包括:
3、獲取目標視覺內容和目標問題,并基于所述目標視覺內容的視覺特征和所述目標問題進行邏輯推理,生成初始答案及描述邏輯推理過程的初始解釋文本;
4、基于所述視覺特征和所述目標問題,從所述初始答案和所述初始解釋文本起始進行迭代優(yōu)化,獲得目標答案及目標解釋文本,每次迭代過程包括:
5、基于本次迭代的答案及解釋文本的語義特征,預測得到相應的評估值,所述評估值表征:同次迭代過程中產生的答案與解釋文本,與所述目標視覺內容和所述目標問題之間的語義相關程度;
6、若所述評估值超過設定的評估值閾值,則將所述本次迭代的答案及解釋文本,作為所述目標答案及目標解釋文本,否則,基于所述評估值和所述本次迭代的解釋文本,對所述視覺特征和所述目標問題再次進行邏輯推理,生成下次迭代的答案及解釋文本,并進入下次迭代。
7、第二方面,本申請實施例提供一種多模態(tài)問答解釋裝置,包括:
8、初始處理單元,用于獲取目標視覺內容和目標問題,并基于所述目標視覺內容的視覺特征和所述目標問題進行邏輯推理,生成初始答案及描述邏輯推理過程的初始解釋文本;
9、迭代優(yōu)化單元,用于基于所述視覺特征和所述目標問題,從所述初始答案和所述初始解釋文本起始進行迭代優(yōu)化,獲得目標答案及目標解釋文本,每次迭代過程包括:<本文檔來自技高網...
【技術保護點】
1.一種多模態(tài)問答解釋方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,所述基于所述評估值和所述本次迭代的解釋文本,對所述視覺特征和所述目標問題再次進行邏輯推理,生成下次迭代的答案及解釋文本,包括:
3.如權利要求2所述的方法,其特征在于,所述答案解釋樣本集是通過以下方式構建的:
4.如權利要求3所述的方法,其特征在于,所述基于生成的各推理結果,結合所述各原始樣本中的真實答案及真實解釋文本,獲得所述各原始樣本各自關聯(lián)的答案解釋樣本,包括:
5.如權利要求4所述的方法,其特征在于,所述基于一個原始樣本中的真實解釋文本,對所述一個原始樣本對應的推理結果進行評估,獲得相應的樣本評估值,包括:
6.如權利要求3所述的方法,其特征在于,所述基于獲得的各答案解釋樣本,獲得所述答案解釋樣本集,包括:
7.如權利要求2-6中任一項所述的方法,其特征在于,所述答案解釋生成模型是通過以下方式微調得到的:
8.如權利要求1-6中任一項所述的方法,其特征在于,所述基于本次迭代的答案及解釋文本的語義特征,預
9.如權利要求8所述的方法,其特征在于,所述解釋評估樣本集是通過以下方式構建的:
10.如權利要求1-6中任一項所述的方法,其特征在于,所述目標視覺內容的視覺特征是通過以下方式獲得的:
11.如權利要求1-6中任一項所述的方法,其特征在于,所述獲取目標視覺內容和目標問題,并基于所述目標視覺內容的視覺特征和所述目標問題進行邏輯推理,生成初始答案及描述邏輯推理過程的初始解釋文本,包括:
12.一種多模態(tài)問答解釋裝置,其特征在于,包括:
13.一種電子設備,其特征在于,其包括處理器和存儲器,其中,所述存儲器存儲有計算機程序,當所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行權利要求1~11中任一所述方法的步驟。
14.一種計算機可讀存儲介質,其特征在于,其包括計算機程序,當所述計算機程序在電子設備上運行時,所述計算機程序用于使所述電子設備執(zhí)行權利要求1~11中任一所述方法的步驟。
15.一種計算機程序產品,其特征在于,其包括計算機程序,所述計算機程序存儲在計算機可讀存儲介質中,電子設備的處理器從所述計算機可讀存儲介質讀取并執(zhí)行所述計算機程序,使得所述電子設備執(zhí)行權利要求1~11中任一所述方法的步驟。
...【技術特征摘要】
1.一種多模態(tài)問答解釋方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,所述基于所述評估值和所述本次迭代的解釋文本,對所述視覺特征和所述目標問題再次進行邏輯推理,生成下次迭代的答案及解釋文本,包括:
3.如權利要求2所述的方法,其特征在于,所述答案解釋樣本集是通過以下方式構建的:
4.如權利要求3所述的方法,其特征在于,所述基于生成的各推理結果,結合所述各原始樣本中的真實答案及真實解釋文本,獲得所述各原始樣本各自關聯(lián)的答案解釋樣本,包括:
5.如權利要求4所述的方法,其特征在于,所述基于一個原始樣本中的真實解釋文本,對所述一個原始樣本對應的推理結果進行評估,獲得相應的樣本評估值,包括:
6.如權利要求3所述的方法,其特征在于,所述基于獲得的各答案解釋樣本,獲得所述答案解釋樣本集,包括:
7.如權利要求2-6中任一項所述的方法,其特征在于,所述答案解釋生成模型是通過以下方式微調得到的:
8.如權利要求1-6中任一項所述的方法,其特征在于,所述基于本次迭代的答案及解釋文本的語義特征,預測得到相應的評估值,包括:
9.如權利要求8所述的方法...
【專利技術屬性】
技術研發(fā)人員:朱敏,郝彥超,張明昊,劉慶斌,李博,陳曦,
申請(專利權)人:騰訊科技深圳有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。