System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及大數據和人工智能,尤其涉及數據的處理及分析領域,具體是指一種基于大模型和因果圖譜實現行業研報智能生成處理的系統、方法、裝置、處理器及其計算機可讀存儲介質。
技術介紹
1、在當今信息化時代,隨著大數據和人工智能技術的快速發展,數據的處理和分析變得尤為關鍵。特別是在金融和投資領域,研究報告(研報)的處理與生成是獲取市場洞察和指導投資決策的重要工具。本技術背景主要討論大語言模型、數據抽取技術及因果圖譜在研報處理和生成領域的應用。
2、大語言模型(large?language?model)已被廣泛應用于自然語言處理領域。這些模型通過深度學習技術,能夠理解和生成復雜的文本內容。在研報生成的應用中,大語言模型可以自動撰寫報告草稿,提供市場趨勢分析、數據解讀等內容,極大地提高了報告制作的效率和質量。然而,大語言模型直接生成的文本存在幻覺、無法溯源等問題,需要通過數據抽取、圖譜檢索等方式增強生成內容的質量。
3、數據抽取技術是從大量未結構化和半結構化數據中識別出有價值的信息,并轉換為更易分析和報告的格式。在研報處理中,利用數據抽取技術可以從多種金融文檔和在線資源中提取關鍵數據,如股價變動、公司財報數據、市場交易動態等。這些數據經過抽取和處理后,可直接用于研報的數據分析部分,確保信息的準確性和及時性。
4、因果事件圖譜技術通過建立因果事件關系模型,幫助分析事件之間的影響力和相互作用。在研報生成中,通過構建因果圖譜,可以更深入地分析各種經濟指標、政策變化與市場表現之間的因果關系。這種深入的分析幫助研
5、現階段,使用大語言模型輔助研報生成的技術尚未成熟,可用性差,投研人員難以信任模型生成的結果;再加上金融領域行業變動大,事件之間的因果關系影響復雜,也會造成模型生成的研報準確率差,價值低等問題,阻礙了大語言模型輔助行業研報生成這一應用的落地。
技術實現思路
1、本專利技術的目的是克服了上述現有技術的缺點,提供了一種滿足可溯源性高、可解釋性高、適用范圍較為廣泛的基于大模型和因果圖譜實現行業研報智能生成處理的系統、方法、裝置、處理器及其計算機可讀存儲介質。
2、為了實現上述目的,本專利技術的基于大模型和因果圖譜實現行業研報智能生成處理的系統、方法、裝置、處理器及其計算機可讀存儲介質如下:
3、該基于大模型和因果圖譜實現行業研報智能生成處理的系統,其主要特點是,所述的系統包括數據抽取模塊、數據整理模塊和研報生成模塊,所述的數據整理模塊與數據抽取模塊相連接,所述的研報生成模塊與數據整理模塊相連接,所述的數據抽取模塊用于獲取研報片段中的觀點、事件數據以及事件之間的因果關系;所述的數據整理模塊用于對從數據抽取模塊獲得的觀點、事件和因果關系數據進行進一步的清洗和結構化處理;所述的研報生成模塊用于將處理后的數據轉化為結構化的研究報告。
4、較佳地,所述的數據抽取模塊包括行業觀點抽取單元、行業事件抽取單元和行業事件因果關系抽取單元,所述的行業事件抽取單元與行業觀點抽取單元相連接,所述的行業事件因果關系抽取單元與行業觀點抽取單元和行業事件抽取單元相連接,所述的行業觀點抽取單元用于將完整研報切分為固定長度的片段,通過觀點抽取模型標注小批量數據片段中的行業觀點,并推斷行業觀點抽取結果;所述的行業事件抽取單元用于通過事件抽取模型標注小批量觀點數據中包含的行業事件,并推斷行業事件抽取結果;所述的行業事件因果關系抽取單元用于結合研報片段和片段中抽取出的事件,使用大語言模型抽取事件間的因果關系;并獲取研報片段中的觀點、事件數據以及事件之間的因果關系。
5、較佳地,所述的數據整理模塊包括數據驗證清洗單元、數據歸一化單元和數據關聯單元,所述的數據歸一化單元與數據驗證清洗單元相連接,所述的數據關聯單元與數據歸一化單元相連接,所述的數據驗證清洗單元用于確認數據的準確性和完整性,自動檢測和糾正數據中的錯誤和不一致,對語義上不清晰或不完整的信息使用自然語言處理技術進行修正或補充;所述的數據歸一化單元用于將經過清洗后的數據做數據歸一化,對數據進行標準化處理;所述的數據關聯單元用于記錄原文片段中抽取到的觀點和事件,同時根據某一特定事件找到包含該事件的觀點與原文片段;將不同數據片段中相關聯的事件和觀點進行鏈接。
6、較佳地,所述的研報生成模塊選定生成行業研報的行業和時間范圍,在數據庫中檢索該時間段內的符合選定行業的事件,并統計出該選定時間和選定行業下出現頻率最高的若干事件作為核心事件,生成研究報告。
7、該利用上述系統實現基于大模型和因果圖譜進行行業研報智能生成處理的方法,其主要特點是,所述的方法包括以下步驟:
8、(1)獲取研報片段中的觀點、事件數據以及事件之間的因果關系;
9、(2)從數據抽取模塊獲得的觀點、事件和因果關系數據進行進一步的清洗和結構化處理;
10、(3)將處理后的數據轉化為結構化的研究報告。
11、較佳地,所述的步驟(1)具體包括以下步驟:
12、(1.1)將完整研報切分為固定長度的片段,通過觀點抽取模型標注小批量數據片段中的行業觀點,并推斷行業觀點抽取結果;
13、(1.2)通過事件抽取模型標注小批量觀點數據中包含的行業事件,并推斷行業事件抽取結果;
14、(1.3)結合研報片段和片段中抽取出的事件,使用大語言模型抽取事件間的因果關系;
15、(1.4)獲取研報片段中的觀點、事件數據以及事件之間的因果關系。
16、較佳地,所述的步驟(2)具體包括以下步驟:
17、(2.1)進行數據驗證和清洗;
18、(2.2)將經過清洗后的數據做數據歸一化,對數據進行標準化處理;
19、(2.3)將數據關聯;
20、(2.4)將觀點事件數據和因果關系數據記錄到數據庫中。
21、較佳地,所述的步驟(2.1)具體為:
22、自動檢測和糾正數據中的錯誤和不一致,對語義上不清晰或不完整的信息使用自然語言處理技術進行修正或補充。
23、較佳地,所述的步驟(2.3)具體包括以下步驟:
24、(2.3.1)記錄原文片段中抽取到的觀點和事件,同時根據某一特定事件找到包含該事件的觀點與原文片段;
25、(2.3.2)將不同數據片段中相關聯的事件和觀點進行鏈接。
26、較佳地,所述的步驟(3)具體為:
27、選定生成行業研報的行業和時間范圍,在數據庫中檢索該時間段內的符合選定行業的事件,并統計出該選定時間和選定行業下出現頻率最高的若干事件作為核心事件,生成研究報告。
28、該用于實現基于大模型和因果圖譜進行行業研報智能生成處理的裝置,其主要特點是,所述的裝置包括:
29、處理器,被配置成執行計算機可執行指令;
30、存儲器,存儲一個本文檔來自技高網...
【技術保護點】
1.一種基于大模型和因果圖譜實現行業研報智能生成處理的系統,其特征在于,所述的系統包括數據抽取模塊、數據整理模塊和研報生成模塊,所述的數據整理模塊與數據抽取模塊相連接,所述的研報生成模塊與數據整理模塊相連接,所述的數據抽取模塊用于獲取研報片段中的觀點、事件數據以及事件之間的因果關系;所述的數據整理模塊用于對從數據抽取模塊獲得的觀點、事件和因果關系數據進行進一步的清洗和結構化處理;所述的研報生成模塊用于將處理后的數據轉化為結構化的研究報告。
2.根據權利要求1所述的基于大模型和因果圖譜實現行業研報智能生成處理的系統,其特征在于,所述的數據抽取模塊包括行業觀點抽取單元、行業事件抽取單元和行業事件因果關系抽取單元,所述的行業事件抽取單元與行業觀點抽取單元相連接,所述的行業事件因果關系抽取單元與行業觀點抽取單元和行業事件抽取單元相連接,所述的行業觀點抽取單元用于將完整研報切分為固定長度的片段,通過觀點抽取模型標注小批量數據片段中的行業觀點,并推斷行業觀點抽取結果;所述的行業事件抽取單元用于通過事件抽取模型標注小批量觀點數據中包含的行業事件,并推斷行業事件抽取結果;所述的行業事
3.根據權利要求1所述的基于大模型和因果圖譜實現行業研報智能生成處理的系統,其特征在于,所述的數據整理模塊包括數據驗證清洗單元、數據歸一化單元和數據關聯單元,所述的數據歸一化單元與數據驗證清洗單元相連接,所述的數據關聯單元與數據歸一化單元相連接,所述的數據驗證清洗單元用于確認數據的準確性和完整性,自動檢測和糾正數據中的錯誤和不一致,對語義上不清晰或不完整的信息使用自然語言處理技術進行修正或補充;所述的數據歸一化單元用于將經過清洗后的數據做數據歸一化,對數據進行標準化處理;所述的數據關聯單元用于記錄原文片段中抽取到的觀點和事件,同時根據某一特定事件找到包含該事件的觀點與原文片段;將不同數據片段中相關聯的事件和觀點進行鏈接。
4.根據權利要求1所述的基于大模型和因果圖譜實現行業研報智能生成處理的系統,其特征在于,所述的研報生成模塊選定生成行業研報的行業和時間范圍,在數據庫中檢索該時間段內的符合選定行業的事件,并統計出該選定時間和選定行業下出現頻率最高的若干事件作為核心事件,生成研究報告。
5.一種利用權利要求1所述的系統實現基于大模型和因果圖譜進行行業研報智能生成處理的方法,其特征在于,所述的方法包括以下步驟:
6.根據權利要求5所述的實現基于大模型和因果圖譜進行行業研報智能生成處理的方法,其特征在于,所述的步驟(1)具體包括以下步驟:
7.根據權利要求5所述的實現基于大模型和因果圖譜進行行業研報智能生成處理的方法,其特征在于,所述的步驟(2)具體包括以下步驟:
8.根據權利要求7所述的實現基于大模型和因果圖譜進行行業研報智能生成處理的方法,其特征在于,所述的步驟(2.1)具體為:
9.根據權利要求7所述的實現基于大模型和因果圖譜進行行業研報智能生成處理的方法,其特征在于,所述的步驟(2.3)具體包括以下步驟:
10.根據權利要求5所述的實現基于大模型和因果圖譜進行行業研報智能生成處理的方法,其特征在于,所述的步驟(3)具體為:
11.一種用于實現基于大模型和因果圖譜進行行業研報智能生成處理的裝置,其特征在于,所述的裝置包括:
12.一種用于實現基于大模型和因果圖譜進行行業研報智能生成處理的處理器,其特征在于,所述的處理器被配置成執行計算機可執行指令,所述的計算機可執行指令被所述的處理器執行時,實現權利要求5至10中任一項所述的實現基于大模型和因果圖譜進行行業研報智能生成處理的方法的各個步驟。
13.一種計算機可讀存儲介質,其特征在于,其上存儲有計算機程序,所述的計算機程序可被處理器執行以實現權利要求5至10中任一項所述的實現基于大模型和因果圖譜進行行業研報智能生成處理的方法的各個步驟。
...【技術特征摘要】
1.一種基于大模型和因果圖譜實現行業研報智能生成處理的系統,其特征在于,所述的系統包括數據抽取模塊、數據整理模塊和研報生成模塊,所述的數據整理模塊與數據抽取模塊相連接,所述的研報生成模塊與數據整理模塊相連接,所述的數據抽取模塊用于獲取研報片段中的觀點、事件數據以及事件之間的因果關系;所述的數據整理模塊用于對從數據抽取模塊獲得的觀點、事件和因果關系數據進行進一步的清洗和結構化處理;所述的研報生成模塊用于將處理后的數據轉化為結構化的研究報告。
2.根據權利要求1所述的基于大模型和因果圖譜實現行業研報智能生成處理的系統,其特征在于,所述的數據抽取模塊包括行業觀點抽取單元、行業事件抽取單元和行業事件因果關系抽取單元,所述的行業事件抽取單元與行業觀點抽取單元相連接,所述的行業事件因果關系抽取單元與行業觀點抽取單元和行業事件抽取單元相連接,所述的行業觀點抽取單元用于將完整研報切分為固定長度的片段,通過觀點抽取模型標注小批量數據片段中的行業觀點,并推斷行業觀點抽取結果;所述的行業事件抽取單元用于通過事件抽取模型標注小批量觀點數據中包含的行業事件,并推斷行業事件抽取結果;所述的行業事件因果關系抽取單元用于結合研報片段和片段中抽取出的事件,使用大語言模型抽取事件間的因果關系;并獲取研報片段中的觀點、事件數據以及事件之間的因果關系。
3.根據權利要求1所述的基于大模型和因果圖譜實現行業研報智能生成處理的系統,其特征在于,所述的數據整理模塊包括數據驗證清洗單元、數據歸一化單元和數據關聯單元,所述的數據歸一化單元與數據驗證清洗單元相連接,所述的數據關聯單元與數據歸一化單元相連接,所述的數據驗證清洗單元用于確認數據的準確性和完整性,自動檢測和糾正數據中的錯誤和不一致,對語義上不清晰或不完整的信息使用自然語言處理技術進行修正或補充;所述的數據歸一化單元用于將經過清洗后的數據做數據歸一化,對數據進行標準化處理;所述的數據關聯單元用于記錄原文片段中抽取到的觀點和事件,同時根據某一特定事件找到包含該事件的觀點與原文片段;將不同數據...
【專利技術屬性】
技術研發人員:俞楓,劉智,錢維佳,馮鵬程,梅龍,
申請(專利權)人:國泰君安證券股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。