System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及大數據,特別是涉及一種基于大語言模型的數據血緣獲取方法、裝置、存儲介質及處理器。
技術介紹
1、數據血緣在大數據領域扮演著至關重要的角色,它指的是對數據倉庫中每個表甚至每個字段來源、轉換過程以及最終用途的追蹤能力,這種能力對于確保數據的透明度、可追溯性和準確性至關重要。數據血緣是大數據領域不可或缺的組成部分,它對于提升數據的可信度、確保合規性、優化數據治理和支持先進的數據分析技術都有著不可替代的作用。
2、現有數據血緣獲取方式主要是通過人為解析sql語句實現。人為進行sql語句解析在準確率和可操作性上存在不足之處。例如,sql語句較為復雜的情況下,解析此類復雜sql語句的難度較高,如果解析sql語句的人員專業性不夠高或者出現失誤,則影響了解析出的數據血緣的準確性。
3、此外,sql語法有iso標準下的sql-2016、sql-2019等標準,不同的數據庫系統(如oracle,mysql,postgresql,microsoft?sql?server等)可能會有自己特定的sql方言和擴展,這些方言可能不完全符合標準sql,各自會加入一些特定于平臺的特性和優化,這使得即使是同一類數據庫操作,各家廠商也可能會有完全不一樣的寫法。
4、sql語句解析在開發和維護上有非常高的技術門檻,研發團隊首先得熟悉各種數據庫系統的語法標準、sql方言、自有功能擴展等內容,然后在此基礎上抽象出核心的功能點,最后再通過編程語言將功能點實現。整個過程需要多角色、多技術通力配合,實現門檻和投入成本都非常高,并不利
技術實現思路
1、基于上述問題,本申請提供了一種基于大語言模型的數據血緣獲取方法、裝置、存儲介質及處理器,目的是提高數據血緣獲取的準確性,降低成本。
2、本申請實施例公開了如下技術方案:
3、本申請第一方面提供了一種基于大語言模型的數據血緣獲取方法,該方法包括:
4、獲取待血緣解析的sql語句,并將所述sql語句作為大語言模型的輸入;
5、利用所述大語言模型提取所述sql語句中涉及的表的元數據;其中,所述表的元數據包括建表語句;所述建表語句包含表名、表備注、字段名、字段類型和字段備注;
6、由所述大語言模型根據所述sql語句以及所述sql語句中涉及的表的元數據,按照構造的提示詞輸出包含所述sql語句的血緣解析結果;其中,所述構造的提示詞包含要求輸出的血緣解析結果中涉及的關鍵內容,以引導所述大語言模型產生預期的響應過程;所述sql語句的血緣解析結果括所述sql語句中每個字段的來源及變換過程。
7、獲取待血緣解析的sql語句之前,還包括:
8、通過綜合評測選擇實際評分值大于預設評分值的大語言模型,準備樣本數據,采用所述樣本數據對選擇的所述大語言模型進行微調。
9、所述通過綜合評測選擇實際評分值大于預設評分值的大語言模型,包括:
10、以線上真實運行中的sql語句構建評測數據集;所述評測數據集包括所述sql語句和所述sql語句的來源表、來源字段、目標表、目標字段及加工方式;所述sql語句在sql類型分布上覆蓋多類寫入場景,且在sql語句復雜度上覆蓋多種復雜度;
11、基于所述評測數據集,對已有的大語言模型進行訓練,根據血緣解析的任務需求對所述已有的大語言模型的性能參數和相關能力指標進行權重分配,計算得到所述已有的大語言模型的實際評分值,選擇實際評分值大于預設評分值的大語言模型作為數據血緣獲取的大語言模型;所述已有的大語言模型的性能參數包括準確率與召回率;所述相關能力指標包括復雜性處理能力、穩健性與錯誤分析、時間序列分析和可解釋性。
12、所述準備樣本數據,包括:
13、收集并整理數據庫系統對應的sql語句樣本;所述sql語句樣本包括sql語法說明和示例、函數使用說明和示例以及數據庫中已執行的sql語句;所述sql語法說明和示例以各數據庫系統官網發布的為準;所述數據庫中已執行的sql語句以成功執行的為準。
14、所述采用所述樣本數據對選擇的所述大語言模型進行微調,包括:
15、去除所述樣本數據中重復和無效的樣本,標注所述樣本數據包含的sql語句中表和字段的之間的關系,將所述樣本數據構成的數據集劃分為訓練集、驗證集和測試集;
16、選擇一個深度學習框架,并安裝所述選擇的深度學習框架對應的庫和所述選擇的深度學習框架;
17、加載所述選擇的大語言模型;
18、定義所述選擇的大語言模型執行的任務,采用所述訓練集對所述選擇的大語言模型進行微調;所述任務包括sql解析和數據血緣分析;所述微調通過調整超參數使所述選擇的大語言模型獲得最佳效果;所述超參數包括學習率和批量大小;
19、將進行微調后的所述選擇的大語言模型在所述驗證集上進行驗證,在所述測試集上進行測試;
20、將經過驗證和測試的所述選擇的大語言模型保存下來。
21、所述提示詞的構造方式,包括:
22、闡述所述大語言模型中任務發生的特定情境;
23、界定所述大語言模型執行的任務目標;
24、指示所述大語言模型的書寫風格;
25、定義所述大語言模型回復采取的態度和感情色彩;
26、界定接收所述大語言模型回復的特定群體;
27、預先設定所述大語言模型回復的結構形式。
28、本申請第二方面提供了一種基于大語言模型的數據血緣獲取裝置,該裝置包括:
29、血緣解析語句獲取模塊,用于獲取待血緣解析的sql語句,并將所述sql語句作為大語言模型的輸入;
30、元數據提取模塊,用于利用所述大語言模型提取所述sql語句中涉及的表的元數據;其中,所述表的元數據包括建表語句;所述建表語句包含表名、表備注、字段名、字段類型和字段備注;
31、血緣解析結果輸出模塊,用于由所述大語言模型根據所述sql語句以及所述sql語句中涉及的表的元數據,按照構造的提示詞輸出包含所述sql語句的血緣解析結果;其中,所述構造的提示詞包含要求輸出的血緣解析結果中涉及的關鍵內容,以引導所述大語言模型產生預期的響應過程;所述sql語句的血緣解析結果包括所述sql語句中每個字段的來源及變換過程。
32、一種基于大語言模型的數據血緣獲取裝置還包括:
33、大語言模型選擇模塊、樣本數據準備模塊和大語言模型微調模塊。
34、本申請第三方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有計算機程序,當所述程序被處理器運行時,實現如第一方面任一實現方式提供的基于大語言模型的數據血緣獲取方法。
35、本申請第四方面提供了一種處理器,該處理器用于運行計算機程序,所述程序運行時執行如第一方面任一實現方式提供的基于大語言模型的數據血緣獲取方法。
36、相較于現有技術,本本文檔來自技高網...
【技術保護點】
1.一種基于大語言模型的數據血緣獲取方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,獲取待血緣解析的SQL語句之前,還包括:
3.根據權利要求2所述的方法,其特征在于,所述通過綜合評測選擇實際評分值大于預設評分值的大語言模型,包括:
4.根據權利要求2所述的方法,其特征在于,所述準備樣本數據,包括:
5.根據權利要求2所述的方法,其特征在于,所述采用所述樣本數據對選擇的所述大語言模型進行微調,包括:
6.根據權利要求1所述的方法,其特征在于,所述提示詞的構造方式,包括:
7.一種基于大語言模型的數據血緣獲取裝置,其特征在于,包括:
8.一種基于大語言模型的數據血緣獲取裝置,其特征在于,還包括:
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機程序,當所述程序被處理器運行時,實現如權利要求1-6任一項所述的基于大語言模型的數據血緣獲取方法。
10.一種處理器,其特征在于,用于運行計算機程序,所述程序運行時執行如權利要求1-6任一
...【技術特征摘要】
1.一種基于大語言模型的數據血緣獲取方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,獲取待血緣解析的sql語句之前,還包括:
3.根據權利要求2所述的方法,其特征在于,所述通過綜合評測選擇實際評分值大于預設評分值的大語言模型,包括:
4.根據權利要求2所述的方法,其特征在于,所述準備樣本數據,包括:
5.根據權利要求2所述的方法,其特征在于,所述采用所述樣本數據對選擇的所述大語言模型進行微調,包括:
6.根據權利要求1所述的方法,其特...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。