System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及一種基于大模型的sql元數據處理方法、sql語句生成方法、電子設備和數據中臺,屬于語義識別、分析、檢索、融合的。
技術介紹
1、目前用戶在使用數據中臺進行數據開發時,需要由用戶編寫sql查詢和分析數據,這就要求用戶熟悉sql語法,并且熟悉數據庫中的數據表結構。用戶在查詢和分析數據過程中需要對sql語句反復修改,直到查詢到滿足需求的數據。
2、用戶編寫sql實現查詢和分析數據,需要觀察元數據,需要對sql執行結果進行觀察,對sql語句進行反復修改,最后達成查詢和分析數據的目標,效率比較低。現有的數據中臺已經具備了編寫sql需要的元數據,但由于元數據數據量大,不方便用戶根據需求查找,數據中臺中的元數據利用率不高。
3、數據中臺中常用的sql缺乏積累,編寫sql的經驗未能有效用于后續的數據開發工作,已經不能滿足人們的要求,亟需得到改進。
技術實現思路
1、本專利技術的目的在于提供一種基于大模型的sql元數據處理方法、sql語句生成方法、電子設備和數據中臺,針對現有元數據難以維護和分析、sql語句查詢困難且不夠智能化的問題,解決現有技術存在的缺憾。
2、本專利技術提供了下述方案:
3、一種基于大模型的sql元數據處理方法,應用于數據中臺的元數據處理,包括:
4、獲取數據中臺的元數據,檢測是否存在需要進行元數據維護的觸發操作,所述觸發操作包括:新增表、變更表或刪除表;
5、如果存在與元數據維護對應的觸發操作
6、調用大語言模型生成切片對應的元數據知識點,將所述元數據知識點通過嵌入式模型轉換為對應的向量并存儲到向量數據庫中。
7、進一步地,所述獲取數據中臺的元數據,檢測是否存在需要進行元數據維護的觸發操作,進一步包括:
8、從數據中臺獲取的元數據包括:表結構、字段屬性、索引、約束,檢測表結構、字段屬性、索引、約束是否存在需要進行元數據維護的觸發操作;
9、跟蹤數據中臺的變更歷史,通過在數據中臺中設置觸發器檢測對應的觸發操作,或:通過對數據中臺進行日志分析確定是否發生了觸發操作。
10、進一步地,所述如果存在與元數據維護對應的觸發操作,則根據觸發操作進行對應的元數據處理,將元數據處理結果上傳到對應的元數據知識庫,所述元數據處理包括:新增表內容、變更表內元數據或刪除表操作,進一步包括:
11、在新增表內容的元數據處理過程中,包括:補充表描述、補充字段描述、補充表之間關聯關系、補充值空間、補充主鍵、補充外鍵關系、新增文檔;
12、將經過元數據處理后的新增表內容生成新增表內容文件,將所述新增表內容上傳到元數據知識庫形成新增表文檔,將所述新增表文檔的全部內容作為一個切片上傳到元數據知識庫,和/或:
13、在變更表內元數據的元數據處理過程中,包括:變更表描述、變更字段描述、變更表之間關聯關系、變更值空間、更新主鍵、更新外鍵關系、更新文檔;
14、將經過元數據處理后的變更表內元數據生成更新表內容文檔,將所述更新表內容文檔的全部內容作為一個切片上傳到元數據知識庫,和/或:
15、在刪除表操作的元數據處理過程中,包括:變更元數據、刪除表文檔、刪除關聯表文檔、新增關聯表文檔;
16、將經過元數據處理后的刪除表操作生成刪除表操作文檔,將所述刪除表操作文檔的全部內容作為一個切片上傳到元數據知識庫。
17、進一步地,所述調用大語言模型生成切片對應的元數據知識點,將所述元數據知識點通過嵌入式模型轉換為對應的向量并存儲到向量數據庫中,進一步包括:
18、接收數據查詢請求,利用自然語言處理技術對所述數據查詢請求進行解析,提取查詢意圖和關鍵信息;
19、利用大語言模型對數據查詢請求進行語義理解,根據所述查詢意圖和關鍵信息得出的語義解析結果構建相應的sql語句,具體為:
20、在元數據知識庫中檢索數據查詢請求對應的元數據,將元數據放在提示詞中,將包含元數據的提示詞輸入進大語言模型,生成對應的語義解析結果;
21、根據所述語義解析結果對應的執行sql語句,將所述執行sql語句轉換為自然語言進行描述和輸出。
22、進一步地,還包括:
23、調用大語言模型生成切片對應的新增表內容知識點、變更表內元數據知識點或刪除表操作知識點;
24、利用嵌入式模型將新增表內容知識點、變更表內元數據知識點或刪除表操作知識點轉換成對應的向量,將向量存儲在向量數據庫中;
25、所述將所述新增表文檔的全部內容作為一個切片上傳到元數據知識庫,具體為:
26、調用大語言模型生成切片對應的新增表內容知識點,生成切片內容的三元組信息;
27、分析元數據內容,識別出元數據知識庫中對應的表及其字段;
28、生成表及其字段的內容概述,內容概述包括所有表存放的信息以及所有表的所有字段;
29、構建三元組信息,通過識別元數據中的實體、關系和客體,并按照“主體,關系,客體”的結構構建三元組信息。
30、進一步地,所述利用大語言模型對數據查詢請求進行語義理解,具體為:
31、在利用大語言模型對數據查詢請求進行語義理解的過程中采用如下公式:
32、
33、其中:e=embed(q),e表示將數據查詢請求q轉換為高維空間中的詞向量集合,r表示編碼器的輸出,a表示注意力機制的輸出,s表示查詢語句語義相似度計算結果,g是整合函數,θg表示整合函數g的參數。
34、一種基于大模型的sql語句生成方法,包括所述的sql元數據處理方法,還包括:
35、數據中臺獲取提問問題,將所述提問問題提交至問答知識庫進行檢索,具體為:采用全文檢索和/或語義檢索的方式進行檢索,其中:
36、在全文檢索時對問題進行分詞、去除停用詞或提取詞干,在語義檢索中將問題通過嵌入式模型轉換為向量;
37、判斷問答知識庫中是否存在提問問題對應的答案,如果檢索到提問問題對應的答案,則執行查詢數據步驟,否則執行檢索元數據步驟;
38、在所述檢索元數據步驟中,將提問問題轉換為向量,并在向量數據庫中進行查詢;
39、根據在向量數據庫中查詢的結果使用大語言模型生成對應的sql語句;
40、根據接收到的用戶對sql語句選擇情況,將相應的sql語句保存到問答知識庫中,并對sql語句進行向量轉換和生成索引。
41、進一步地,所述數據中臺獲取提問問題,將所述提問問題提交至問答知識庫進行檢索,具體為:
42、將所述提問問題通過嵌入式模型轉換為向量,通過向量在元數據知識庫的向量數據庫中查詢,得到對應的切片知識點并根據所述切片知識本文檔來自技高網...
【技術保護點】
1.一種基于大模型的SQL元數據處理方法,應用于數據中臺的元數據處理,其特征在于,包括:
2.根據權利要求1所述的基于大模型的SQL元數據處理方法,其特征在于,所述獲取數據中臺的元數據,檢測是否存在需要進行元數據維護的觸發操作,進一步包括:
3.根據權利要求1所述的基于大模型的SQL元數據處理方法,其特征在于,所述如果存在與元數據維護對應的觸發操作,則根據觸發操作進行對應的元數據處理,將元數據處理結果上傳到對應的元數據知識庫,所述元數據處理包括:新增表內容、變更表內元數據或刪除表操作,進一步包括:
4.根據權利要求1所述的基于大模型的SQL元數據處理方法,其特征在于,所述調用大語言模型生成切片對應的元數據知識點,將所述元數據知識點通過嵌入式模型轉換為對應的向量并存儲到向量數據庫中,進一步包括:
5.根據權利要求3所述的基于大模型的SQL元數據處理方法,其特征在于,還包括:
6.根據權利要求4所述的基于大模型的SQL元數據處理方法,其特征在于,所述利用大語言模型對數據查詢請求進行語義理解,具體為:
7.一種基于
8.根據權利要求7所述的基于大模型的SQL語句生成方法,其特征在于,所述數據中臺獲取提問問題,將所述提問問題提交至問答知識庫進行檢索,具體為:
9.一種電子設備,其特征在于,包括:處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;所述存儲器中存儲有計算機程序,當所述計算機程序被所述處理器執行時,使得所述處理器執行權利要求1至8中任一項所述方法的步驟。
10.一種數據中臺,其特征在于,所述數據中臺包括權利要求9所述的電子設備。
...【技術特征摘要】
1.一種基于大模型的sql元數據處理方法,應用于數據中臺的元數據處理,其特征在于,包括:
2.根據權利要求1所述的基于大模型的sql元數據處理方法,其特征在于,所述獲取數據中臺的元數據,檢測是否存在需要進行元數據維護的觸發操作,進一步包括:
3.根據權利要求1所述的基于大模型的sql元數據處理方法,其特征在于,所述如果存在與元數據維護對應的觸發操作,則根據觸發操作進行對應的元數據處理,將元數據處理結果上傳到對應的元數據知識庫,所述元數據處理包括:新增表內容、變更表內元數據或刪除表操作,進一步包括:
4.根據權利要求1所述的基于大模型的sql元數據處理方法,其特征在于,所述調用大語言模型生成切片對應的元數據知識點,將所述元數據知識點通過嵌入式模型轉換為對應的向量并存儲到向量數據庫中,進一步包括:
5.根據權利要求3所述的基于大模型的sql元數據處理...
【專利技術屬性】
技術研發人員:胡琦,嚴鶴,閆喜軍,王俊,楊權,
申請(專利權)人:云啟智慧科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。