System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及自然語言處理領域,尤其涉及一種數據分析方法、系統以及存儲介質。
技術介紹
1、隨著科學技術的飛速發展,用戶查詢需求日益多樣化和復雜化。用戶期望通過查詢系統快速且準確地獲取所需信息。然而,傳統查詢方式往往依賴于嚴格的語法規則和關鍵詞匹配,這在一定程度上限制了用戶的查詢自由。當用戶以自然語言的形式輸入查詢信息時,若存在語法或邏輯上的微差,都可能導致查詢系統無法正確理解用戶的意圖,進而引發查詢失敗或返回結果不準確的問題。
2、為解決這一難題,現有技術引入了自然語言處理技術。這一技術能夠將用戶輸入的自然語言轉換為查詢系統能夠理解的格式,從而有效降低了查詢失敗率,并提高了返回結果的準確性。
3、但是,自然語言處理技術在語義分析理解方面仍然存在不足。特別是在處理復雜或多義的表述時,現有的自然語言處理技術往往難以準確捕捉用戶輸入的真正意圖。這不僅影響了查詢結果的準確性,也限制了查詢系統的應用和用戶體驗。
技術實現思路
1、為了解決上述技術問題,本申請提供了一種數據分析方法、系統以及存儲介質。
2、下面對本申請中提供的技術方案進行描述:
3、本申請第一方面提供了一種數據分析方法,所述方法包括:
4、獲取用戶輸入的自然語言;
5、構建初始的數據模型;
6、根據預配置的行業知識庫和wordpiece分詞器對所述自然語言進行分詞處理,以構建prompt;
7、通過預訓練模型將所述prompt進行編碼
8、將所述預訓練模型輸出的第一個分類標記token的編碼向量作為整個句子表示;
9、根據所述句子表示對所有所述編碼向量進行處理,得到局部語義表示;
10、通過識別所述自然語言中的實體和屬性,并將所述實體和所述屬性映射到數據庫的schema元素,以獲取映射關系;
11、根據所述映射關系和所述局部語義表示,構建語義數據模型;
12、將所述語義數據模型結合自定義規則構建語義解析器;
13、將所述自然語言輸入所述語義解析器進行解析,以獲取語義查詢語句;
14、將所述語義查詢語句輸入語義修正器進行修正,以獲取目標語義查詢語句;
15、通過語義翻譯器將所述目標語義查詢語句轉換為結構化查詢語句;
16、將所述結構化查詢語句輸入所述數據庫進行查詢,以獲取查詢結果;所述根據所述映射關系和所述局部語義表示,構建語義數據模型包括:
17、根據當前輸入的自然語言查詢的上下文信息,對所述映射關系進行初始化
18、根據所述上下文信息調整所述數據庫的schema元素的權重;
19、構建初始語義圖,所述初始語義圖包括實體節點、關系節點以及操作節點、實體關系邊、條件關系邊以及操作關系邊;
20、對于每個節點,結合所述局部語義表示、數據庫的元數據信息、以及用戶歷史查詢行為,生成每個節點的綜合節點特征表示;
21、對所述初始語義圖中的各個邊進行特征初始化,得到綜合邊特征表示;
22、將所述綜合節點特征表示以及所述綜合邊特征表示嵌入所述初始語義圖中,并基于實現連接器的sink算法動態更新所述初始語義圖,得到輸入語義圖;
23、將所述輸入語義圖輸入至預先構建的初始圖神經網絡中進行訓練,通過所述初始圖神經網絡中每一層的圖卷積操作聚合鄰居節點的信息,并結合各個節點的特征,對各個節點的狀態進行更新;
24、使用adam優化器對所述初始圖神經網絡進行優化,得到收斂的語義數據模型。
25、可選的,通過預訓練模型將所述prompt進行編碼,得到每個token的編碼向量,包括:
26、將所述prompt轉化為預訓練模型的輸入格式,以獲取input_ids和attention_mask;
27、將所述input_ids和所述attention_mask輸入至所述預訓練模型,以獲取每個token的編碼向量。
28、可選的,通過識別所述自然語言中的實體和屬性,并將所述實體和所述屬性映射到數據庫的schema元素,以獲取映射關系,包括:
29、提取所述自然語言中的關鍵實體;
30、查詢數據庫模式信息,獲取所述數據庫的schema元素;
31、將所述關鍵實體與所述schema元素進行匹配,以獲取映射關系。
32、可選的,將所述語義查詢語句輸入語義修正器進行修正,以獲取目標語義查詢語句,包括:
33、構建初始化語義修正器;
34、判斷所述語義查詢語句是否符合預配置的修正規則;
35、若否,則將所述語義查詢語句輸入預配置的機器學習模型,以獲取修正建議;
36、判斷所述語義查詢語句中的查詢條件是否超過三條;
37、若是,則將所述語義查詢語句進行分解,以獲取單個查詢條件語句;
38、根據所述修正建議對所述單個查詢條件語句進行語義校正,以獲取修正后的查詢語句;
39、評估所述查詢語句,獲取評估效果;
40、根據所述評估效果對所述預配置的機器學習模型和所述修正規則進行改進,以獲取目標語義修正器;
41、將所述語義查詢語句輸入所述目標語義修正器進行修正,以獲取目標語義查詢語句。
42、可選的,在通過語義翻譯器將所述目標語義查詢語句轉換為結構化查詢語句之后,所述方法還包括:
43、根據規則引擎判斷所述結構化查詢語句是否存在語句錯誤;
44、若是,則將所述結構化查詢語句輸入預配置的深度學習模型,以獲取語句錯誤類型;
45、判斷所述語句錯誤類型是否為字段名稱錯誤;
46、若否,則向所述用戶發出提示選擇,以獲取選擇結果;
47、根據所述選擇結果對所述結構化查詢語句進行調整,以獲取目標結構化查詢語句。
48、可選的,將所述結構化查詢語句輸入所述數據庫進行查詢,以獲取查詢結果,包括:
49、將所述目標結構化查詢語句輸入所述數據庫進行查詢,以獲取查詢數據;
50、根據所述查詢數據的數據類型選擇數據圖表;
51、將所述查詢數據和所述數據圖表進行可視化展示,以獲取查詢結果。
52、可選的,根據所述查詢數據的數據類型選擇數據圖表,包括:
53、提取所述查詢數據的統計學特征;
54、將所述統計學特征輸入預配置的識別模型,以獲取分布類型;
55、根據所述分布類型,生成數據圖表。
56、本申請第二方面提供了一種數據分析系統,所述系統包括:
57、獲取單元,用于獲取用戶輸入的自然語言;
58、第一構建單元,用于構建初始的數據模型;
59、第二構建單元,用于根據預配置的行業知識庫和wordpie本文檔來自技高網...
【技術保護點】
1.一種數據分析方法,其特征在于,所述方法包括:
2.根據權利要求1中所述的數據分析方法,其特征在于,通過預訓練模型將所述prompt進行編碼,得到每個token的編碼向量,包括:
3.根據權利要求1中所述的數據分析方法,其特征在于,通過識別所述自然語言中的實體和屬性,并將所述實體和所述屬性映射到數據庫的Schema元素,以獲取映射關系,包括:
4.根據權利要求1中所述的數據分析方法,其特征在于,將所述語義查詢語句輸入語義修正器進行修正,以獲取目標語義查詢語句,包括:
5.根據權利要求1中所述的數據分析方法,其特征在于,在通過語義翻譯器將所述目標語義查詢語句轉換為結構化查詢語句之后,所述方法還包括:
6.根據權利要求5中所述的數據分析方法,其特征在于,將所述結構化查詢語句輸入所述數據庫進行查詢,以獲取查詢結果,包括:
7.根據權利要求6中所述的數據分析方法,其特征在于,根據所述查詢數據的數據類型選擇數據圖表,包括:
8.一種數據分析系統,其特征在于,所述系統包括:
9.一種數據分析系統
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質上保存有程序,所述程序在計算機上執行時執行如權利要求1至7中任一項所述方法。
...【技術特征摘要】
1.一種數據分析方法,其特征在于,所述方法包括:
2.根據權利要求1中所述的數據分析方法,其特征在于,通過預訓練模型將所述prompt進行編碼,得到每個token的編碼向量,包括:
3.根據權利要求1中所述的數據分析方法,其特征在于,通過識別所述自然語言中的實體和屬性,并將所述實體和所述屬性映射到數據庫的schema元素,以獲取映射關系,包括:
4.根據權利要求1中所述的數據分析方法,其特征在于,將所述語義查詢語句輸入語義修正器進行修正,以獲取目標語義查詢語句,包括:
5.根據權利要求1中所述的數據分析方法,其特征在于,在通過語...
【專利技術屬性】
技術研發人員:周維,謝紅韜,胡建,袁公萍,舒玨淋,龔昱鳴,
申請(專利權)人:中電科大數據研究院有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。