System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及數據處理,尤其是涉及到一種基于ai分析的調研數據處理方法、系統、設備及存儲介質。
技術介紹
1、調研是調查研究的簡稱,是通過對一定數量的文獻進行閱讀、分析,獲得特定領域或特定專題的調研數據。調研數據可用于理解某個特定領域或問題,輔助進行決策支持、問題識別、市場分析、產品開發、政策制定、學術研究、風險和效果評估、資源分配等。
2、在進行調查研究的過程中,需要使用調研工具。調研工具是指用于收集、分析和呈現數據的工具。調研工具包括數據收集類工具、數據分析類工具、數據存儲和管理類工具等。調研工具可以為研究工作提供便利,但也存在一些缺點。如數據收集工具存在著數據質量不高的問題。數據分析工具需要人工參與,不僅會消耗大量的時間和精力,還會因為人為因素而導致分析結果的偏差。數據存儲和管理工具存在著數據安全性不高、數據查詢效率低等問題。
3、鑒于調研工具存在的問題,還可以基于人工智能(artificial?intelligence,ai)數據分析技術,對文獻進行分析整理。基于人工智能數據分析技術對文獻進行分析整理時,可以根據設定的分析目標預先訓練大模型。即使用訓練數據集對transformer、bert等結構的大模型執行訓練,通過交叉驗證、超參數優化等方法調整模型,以提高模型的性能和泛化能力。訓練獲得大模型后,通過輸入調研目的、調研對象等數據,使大模型讀取相關數據,并進行整理后輸出相應的調研結果。但是,人工智能數據分析技術在處理復雜問題時,會受到數據的質量、完整性和準確性的影響,導致在處理大量數據時,處理效率低下
技術實現思路
1、有鑒于此,本申請實施例提供一種基于ai分析的調研數據處理方法、系統、設備及存儲介質,以提供個性化的數據支持和分析方法,增強調查研究的針對性和有效性。
2、根據本申請的一個方面,提供一種基于ai分析的調研數據處理方法,所述方法包括:
3、響應于用戶輸入的調研指令,獲取調研方式信息,所述調研方式信息用于表征用戶指定的調研方式;
4、根據所述調研方式信息確定數據分析源,所述數據分析源與所述調研方式信息對應的調研方式具有關聯關系;
5、創建交互對話,以及獲取用戶基于所述交互對話輸入的提問數據;
6、將所述提問數據輸入ai分析模型,以獲得所述ai分析模型輸出的回答數據和關聯數據,所述ai分析模型為使用調研文獻訓練數據訓練獲得的問答模型;所述ai分析模型用于從所述提問數據中提取調研項目數據,以及根據所述調研項目數據在所述數據分析源中獲取關鍵信息;
7、基于所述交互對話顯示所述回答數據和所述關聯數據。
8、可選的,所述方法還包括:
9、獲取調研文獻訓練數據,所述調研文獻訓練數據包括基于調研文獻生成的問答對;所述問答對包括提問文本和回答文本;
10、將所述調研文獻訓練數據中的提問文本輸入被訓練模型,以獲得所述被訓練模型輸出的回答結果數據,所述被訓練模型的輸入為自然語言類型的提問文本;所述被訓練模型的輸出為自然語言文本類型的回答文本;
11、基于所述回答文本和所述回答結果數據計算訓練損失;
12、如果所述訓練損失大于損失閾值,根據所述訓練損失調整所述被訓練模型的模型參數;
13、如果所述訓練損失小于或等于所述損失閾值,輸出所述被訓練模型的模型參數,以獲得所述ai分析模型。
14、可選的,所述方法還包括:
15、獲取文獻數據;
16、對所述文獻數據執行文本清洗和分詞處理,以生成詞集合;
17、基于詞嵌入算法將所述詞集合中的詞轉換為固定維度的詞向量;
18、獲取上下文信息,以及基于所述上下文信息對所述詞向量執行詞向量增強,以獲得詞向量序列;
19、使用神經網絡從所述詞向量序列中提取語義信息,以生成所述文獻數據特征向量,所述特征向量包括詞粒度特征向量、主題粒度特征向量以及字粒度特征向量;
20、對所述特征向量執行特征融合和池化處理,以生成固定長度的文本向量表示。
21、可選的,獲取調研方式信息,包括:
22、顯示調研界面,所述調研界面中包括輸入控件和方式選擇控件,所述方式選擇控件包括第一控件、第二控件以及第三控件,所述第一控件表征的調研方式為全庫調研;所述第二控件表征的調研方式為專題調研;所述第三控件表征的調研方式為單篇研讀;
23、獲取用戶基于所述調研界面輸入的操作事件;
24、如果所述操作事件基于所述輸入控件輸入,獲取用戶輸入信息,以及從所述輸入信息中提取調研方式信息;
25、如果所述操作事件基于所述方式選擇控件輸入,基于所述操作事件選中的方式選擇控件,生成所述調研方式信息。
26、可選的,所述方法還包括:
27、檢測當前用戶登錄狀態;
28、如果所述登錄狀態為已登錄,執行顯示調研界面的步驟;
29、如果所述登錄狀態為未登錄,顯示登錄界面,并驗證用戶基于登錄界面輸入的用戶信息,以及在用戶信息登錄驗證通過后,執行顯示調研界面的步驟。
30、可選的,根據所述調研方式信息確定數據分析源,包括:
31、從所述調研方式信息中解析用戶指定的調研方式;
32、如果所述調研方式為全庫調研,確定所述數據分析源為文獻全文數據庫;
33、如果所述調研方式為專題調研,確定所述數據分析源為專題文獻向量庫,所述專題文獻向量庫用于將調研文獻中的知識信息以向量的形式進行存儲;
34、如果所述調研方式為單篇研讀,確定所述數據分析源為輸入文獻,所述輸入文獻為用戶輸入的文獻文件或用戶指定的在文獻全文數據庫中的文獻鏈接。
35、可選的,將所述提問數據輸入ai分析模型,以獲得所述ai分析模型輸出的回答數據和關聯數據,包括:
36、調用所述ai分析模型,所述ai分析模型包括自然語言處理模塊和信息提取模塊;
37、通過所述自然語言處理模塊將所述提問數據轉化為語義信息;
38、根據所述語義信息確定所述調研項目數據;
39、通過所述信息提取模塊在所述數據分析源中提取關鍵信息,所述關鍵信息為所述數據分析源中與所述調研項目數據相關聯的信息;
40、根據提取的關鍵信息和所述提問數據生成回答數據。
41、可選的,所述方法還包括:
42、對所述提問數據分詞處理,以獲得索引數據,所述索引數據中至少包括第一類關鍵詞和第二類關鍵詞;所述第一類關鍵詞用于表征調研項目數據;所述第二類關鍵詞用于表征分析意圖;
43、根據所述索引數據生成查詢向量;
44、比較所述查詢向量與向量數據庫中存儲的文獻數據特征向量,以獲取相關知識信息,所述向量數據庫為所述ai分析模型關聯的,用于本文檔來自技高網...
【技術保護點】
1.一種基于AI分析的調研數據處理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,獲取調研方式信息,包括:
3.根據權利要求2所述的方法,其特征在于,所述方法還包括:
4.根據權利要求1所述的方法,其特征在于,根據所述調研方式信息確定數據分析源,包括:
5.根據權利要求1所述的方法,其特征在于,將所述提問數據輸入AI分析模型,以獲得所述AI分析模型輸出的回答數據和關聯數據,包括:
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
7.根據權利要求1所述的方法,其特征在于,如果所述調研方式為專題調研,所述方法還包括:
8.一種于AI分析的調研數據處理系統,其特征在于,所述系統包括:
9.一種計算機設備,包括存儲介質、處理器及存儲在存儲介質上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至7中任一項所述的方法。
10.一種存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權
...【技術特征摘要】
1.一種基于ai分析的調研數據處理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,獲取調研方式信息,包括:
3.根據權利要求2所述的方法,其特征在于,所述方法還包括:
4.根據權利要求1所述的方法,其特征在于,根據所述調研方式信息確定數據分析源,包括:
5.根據權利要求1所述的方法,其特征在于,將所述提問數據輸入ai分析模型,以獲得所述ai分析模型輸出的回答數據和關聯數據,包括:
6.根據權利要求1所述的方法,其特征在于,...
【專利技術屬性】
技術研發人員:張娜,成鑫,周曉冬,李曉坤,張慶國,張晨曉,徐燕新,孫旺龍,豆鵬皓,
申請(專利權)人:同方知網數字出版技術股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。