System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及大語言模型和表格問答領域,尤其涉及一種基于大語言模型的演進式圖推理表格問答方法。
技術介紹
1、文檔中的復雜表格經常采用合并單元格和表頭單元格的靈活位置等高級布局。這種復雜性有助于以靈活的方式結構化地呈現詳細信息,使其成為財務報告和其他專業文檔中的常見特征。在這種情況下,復雜表格問答(qa)?最近成為一項至關重要的任務,能夠從復雜表格中提取有價值的信息。然而,復雜表格中包含的合并單元格和靈活布局引入了單元格內實體之間的隱含語義關系,給表格結構理解帶來了巨大挑戰。
2、為了應對這些挑戰,當前的方法重點是提示大語言模型(llm)基于精心設計的表格表示形式進行隱式推理并得出答案。現有的方法建議將表格轉換為更易于訪問的格式,例如元組、markdown?和?html?。?其中一些方法還涉及在轉換后的表示形式中添加注釋表頭,以進一步提高模型對復雜層次結構的理解。?隨后,這些技術將轉換后的表格表示形式集成到精心設計的提示中,以釋放?llm?的推理潛力,從而使其能夠在復雜表格中查明準確的答案。
3、然而,目前的方法存在兩個顯著的局限性。首先,它們嚴重依賴于預先標注的表頭單元格,假設它們的位置和方向是預先知道的。這種假設在實踐中并不成立:給定一個文檔中的復雜表格,我們無法預先確定表頭單元格的位置(復雜表格的靈活性使得表頭單元格可以出現在不同的位置,而不僅僅是在頂部或左側邊緣)。這需要人工標注表頭之外的替代方案,因為它不是一種實用的方法。其次,它們的推理過程通常隱含地體現在表格嵌入或自由格式文本中,難以提供一種
技術實現思路
1、為了克服現有技術存在的缺點與不足,本專利技術提供一種基于大語言模型的演進式圖推理表格問答方法。
2、本專利技術所采用的技術方案是,給定一個復雜表格?t?和一個用戶問題?q,該方法將表格轉換為一個圖?g={n,?e,?v},其中?n,e?和?v?分別表示節點集、邊集和相應的單元格值集。?利用該圖表示,進行逐步推理以確定正確答案?a。?在此過程中,該方法動態維護一個推理軌跡?tr,表示為由訪問過的節點組成的子圖。
3、該模型旨在為復雜的表格問答建立逐步推理過程。在每個推理步驟中,該模型會提示?llm?從一組預定義的中間推理動作中選擇一個推理動作。為了指導此過程,該模型引入了一個推理軌跡?tr,用于跟蹤推理過程中訪問過的節點,這進一步有助于選擇下一個中間動作。?最后,當該模型選擇?“answerquestion”?動作并產生最終答案時,該過程終止。
4、一種基于大語言模型的演進式圖推理表格問答方法,該方法包括:
5、步驟s1:表格表示初始化,該方法將輸入表格?t?轉換為無向圖?g={n,?e,?v},其中?n,e?和?v?分別表示節點集、邊集和相應的單元格值集,其中邊連接同一行或同一列中的單元格;每個節點表示為一個三元組?(rid,?cid,?vi),其中?rid和?cid是表格中的行和列索引;每條邊表示為一個三元組?(ni,?nj,?mij),其中?mij指示兩個連接的節點是否在表格的同一行或同一列中;
6、步驟s2:圖推理用于復雜表格問答,該方法進行思考、行動、更新過程,用于逐步進行圖推理;為了引導推理過程,引入了推理軌跡?tr,用于跟蹤推理過程中訪問過的節點;
7、步驟s2.1:思考,?該方法收集分散的信息以建立當前的推理狀態,不僅考慮整個圖提供的全局信息,還考慮特定于輸入問題的局部信息。這些局部信息包括:先前“思考”和“行動”步驟的輸出;歷史推理軌跡,從過去的推理步驟中提取的關鍵信息(表示為一個子圖),使該方法能夠專注于細節;以及利用?llm?的語義理解能力識別標題單元格,推斷連接節點之間的語義關系;
8、步驟s2.2:行動,引導?該方法?根據推理狀態從動作集?r?中選擇后續的中間動作。
9、步驟s2.3:更新,?在該方法執行“visitnode”動作后,通過追加新訪問的節點來更新推理軌跡?tr,如果新添加的節點與先前訪問的節點共享共同鄰居或在原始圖中直接連接,則它們之間建立邊,此過程用于更新后續“思考”步驟的局部信息,通過這種方式,該方法在圖上執行迭代推理以找到正確答案;
10、步驟s3:答案生成,當選擇“answerquestion”動作時,通過思維鏈技術指示?llm根據問題和當前來自“思考”步驟的局部推理狀態生成對用戶問題的最終答案,而不是使用整個圖。
11、進一步地,所述步驟s1,對于合并單元格,rid?或/和?cid?值表示為包含相應拆分單元格索引的集合;標題單元格和數據單元格都被視為節點。
12、進一步地,所述步驟s2,該方法提示?llm?根據當前推理軌跡和其他相關參數思考當前的推理狀態,?該方法從推理動作集?r?中選擇一個動作,在該方法執行所選動作后更新軌跡。
13、有益效果:
14、本專利技術提出了一種基于大語言模型的演進式圖推理表格問答方法,該方法名為該方法,它使用圖推理來進行復雜表格問答。該方法將復雜表格轉換為無向圖,其中表頭單元格和數據單元格都被視為節點,不做區分。通過llm分析連接節點之間的語義關系,可以推斷出潛在的標題單元格,這擺脫了對預標注表頭單元格的依賴,增強了該方法對不同表格結構的適應性。該方法指導?llm?在圖上進行逐步推理。它從一組預定義的中間推理動作中動態選擇動作,以促進顯式推理過程。這個過程允許該方法有效地引導推理路徑走向答案,避免與給定問題無關的信息。該方法通過圖上的一系列中間步驟進行顯式推理,而不需要額外標注表頭單元格。本方法構建了一個清晰的推理路徑,并有效地識別給定問題的答案。
本文檔來自技高網...【技術保護點】
1.一種基于大語言模型的演進式圖推理表格問答方法,其特征在于,
2.如權利要求1所述的一種基于大語言模型的演進式圖推理表格問答方法,其特征在于,所述步驟S1,對于合并單元格,Rid?或/和?Cid?值表示為包含相應拆分單元格索引的集合;標題單元格和數據單元格都被視為節點。
3.如權利要求1所述的一種基于大語言模型的演進式圖推理表格問答方法,其特征在于,在表格表示初始化中,為了啟動推理過程,該方法指示LLM選擇對回答用戶問題Q最有幫助的一小組節點,同時利用檢索器(Retriever)選出與用戶問題Q語義最相關的一小組節點,取兩者并集作為初始化推理軌跡?Tr?的初始集,該過程表達式為:
4.如權利要求1所述的一種基于大語言模型的演進式圖推理表格問答方法,其特征在于,所述步驟S2,該方法利用思維鏈技術提示?LLM?根據當前推理軌跡和其他相關參數生成當前的推理狀態,再從推理動作集?R?中選擇一個動作,在執行所選動作后更新軌跡。
【技術特征摘要】
1.一種基于大語言模型的演進式圖推理表格問答方法,其特征在于,
2.如權利要求1所述的一種基于大語言模型的演進式圖推理表格問答方法,其特征在于,所述步驟s1,對于合并單元格,rid?或/和?cid?值表示為包含相應拆分單元格索引的集合;標題單元格和數據單元格都被視為節點。
3.如權利要求1所述的一種基于大語言模型的演進式圖推理表格問答方法,其特征在于,在表格表示初始化中,為了啟動推理過程,該方法指示llm選...
【專利技術屬性】
技術研發人員:雷文強,黎乾隆,黃晨,李帥,向元新,
申請(專利權)人:四川大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。