System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 变态SM天堂无码专区,亚洲AV无码AV男人的天堂,久久无码无码久久综合综合
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于大語言模型的數據血緣獲取方法、裝置、存儲介質及處理器制造方法及圖紙

    技術編號:43880320 閱讀:15 留言:0更新日期:2024-12-31 19:03
    本申請公開了一種基于大語言模型的數據血緣獲取方法、裝置、存儲介質及處理器。該方案中,首先獲取待血緣解析的SQL語句,并將所述SQL語句作為大語言模型的輸入;其后利用所述大語言模型提取所述SQL語句中涉及的表的元數據;最后由所述大語言模型根據所述SQL語句以及所述SQL語句中涉及的表的元數據,按照構造的提示詞輸出包含所述SQL語句的血緣解析結果。區別于已有技術中通過人為解析SQL語句獲取數據血緣信息,借助了大語言模型,使得數據血緣分析的準確率得到提升,不再依賴數據庫專家的專業知識,也不用編寫復雜的代碼來實現數據血緣分析功能,使得整體的投入成本得以降低。相較于已有技術中的解析方案,具有明顯的優勢。

    【技術實現步驟摘要】

    本申請涉及大數據,特別是涉及一種基于大語言模型的數據血緣獲取方法、裝置、存儲介質及處理器


    技術介紹

    1、數據血緣在大數據領域扮演著至關重要的角色,它指的是對數據倉庫中每個表甚至每個字段來源、轉換過程以及最終用途的追蹤能力,這種能力對于確保數據的透明度、可追溯性和準確性至關重要。數據血緣是大數據領域不可或缺的組成部分,它對于提升數據的可信度、確保合規性、優化數據治理和支持先進的數據分析技術都有著不可替代的作用。

    2、現有數據血緣獲取方式主要是通過人為解析sql語句實現。人為進行sql語句解析在準確率和可操作性上存在不足之處。例如,sql語句較為復雜的情況下,解析此類復雜sql語句的難度較高,如果解析sql語句的人員專業性不夠高或者出現失誤,則影響了解析出的數據血緣的準確性。

    3、此外,sql語法有iso標準下的sql-2016、sql-2019等標準,不同的數據庫系統(如oracle,mysql,postgresql,microsoft?sql?server等)可能會有自己特定的sql方言和擴展,這些方言可能不完全符合標準sql,各自會加入一些特定于平臺的特性和優化,這使得即使是同一類數據庫操作,各家廠商也可能會有完全不一樣的寫法。

    4、sql語句解析在開發和維護上有非常高的技術門檻,研發團隊首先得熟悉各種數據庫系統的語法標準、sql方言、自有功能擴展等內容,然后在此基礎上抽象出核心的功能點,最后再通過編程語言將功能點實現。整個過程需要多角色、多技術通力配合,實現門檻和投入成本都非常高,并不利于該解析技術的廣泛普及。


    技術實現思路

    1、基于上述問題,本申請提供了一種基于大語言模型的數據血緣獲取方法、裝置、存儲介質及處理器,目的是提高數據血緣獲取的準確性,降低成本。

    2、本申請實施例公開了如下技術方案:

    3、本申請第一方面提供了一種基于大語言模型的數據血緣獲取方法,該方法包括:

    4、獲取待血緣解析的sql語句,并將所述sql語句作為大語言模型的輸入;

    5、利用所述大語言模型提取所述sql語句中涉及的表的元數據;其中,所述表的元數據包括建表語句;所述建表語句包含表名、表備注、字段名、字段類型和字段備注;

    6、由所述大語言模型根據所述sql語句以及所述sql語句中涉及的表的元數據,按照構造的提示詞輸出包含所述sql語句的血緣解析結果;其中,所述構造的提示詞包含要求輸出的血緣解析結果中涉及的關鍵內容,以引導所述大語言模型產生預期的響應過程;所述sql語句的血緣解析結果括所述sql語句中每個字段的來源及變換過程。

    7、獲取待血緣解析的sql語句之前,還包括:

    8、通過綜合評測選擇實際評分值大于預設評分值的大語言模型,準備樣本數據,采用所述樣本數據對選擇的所述大語言模型進行微調。

    9、所述通過綜合評測選擇實際評分值大于預設評分值的大語言模型,包括:

    10、以線上真實運行中的sql語句構建評測數據集;所述評測數據集包括所述sql語句和所述sql語句的來源表、來源字段、目標表、目標字段及加工方式;所述sql語句在sql類型分布上覆蓋多類寫入場景,且在sql語句復雜度上覆蓋多種復雜度;

    11、基于所述評測數據集,對已有的大語言模型進行訓練,根據血緣解析的任務需求對所述已有的大語言模型的性能參數和相關能力指標進行權重分配,計算得到所述已有的大語言模型的實際評分值,選擇實際評分值大于預設評分值的大語言模型作為數據血緣獲取的大語言模型;所述已有的大語言模型的性能參數包括準確率與召回率;所述相關能力指標包括復雜性處理能力、穩健性與錯誤分析、時間序列分析和可解釋性。

    12、所述準備樣本數據,包括:

    13、收集并整理數據庫系統對應的sql語句樣本;所述sql語句樣本包括sql語法說明和示例、函數使用說明和示例以及數據庫中已執行的sql語句;所述sql語法說明和示例以各數據庫系統官網發布的為準;所述數據庫中已執行的sql語句以成功執行的為準。

    14、所述采用所述樣本數據對選擇的所述大語言模型進行微調,包括:

    15、去除所述樣本數據中重復和無效的樣本,標注所述樣本數據包含的sql語句中表和字段的之間的關系,將所述樣本數據構成的數據集劃分為訓練集、驗證集和測試集;

    16、選擇一個深度學習框架,并安裝所述選擇的深度學習框架對應的庫和所述選擇的深度學習框架;

    17、加載所述選擇的大語言模型;

    18、定義所述選擇的大語言模型執行的任務,采用所述訓練集對所述選擇的大語言模型進行微調;所述任務包括sql解析和數據血緣分析;所述微調通過調整超參數使所述選擇的大語言模型獲得最佳效果;所述超參數包括學習率和批量大小;

    19、將進行微調后的所述選擇的大語言模型在所述驗證集上進行驗證,在所述測試集上進行測試;

    20、將經過驗證和測試的所述選擇的大語言模型保存下來。

    21、所述提示詞的構造方式,包括:

    22、闡述所述大語言模型中任務發生的特定情境;

    23、界定所述大語言模型執行的任務目標;

    24、指示所述大語言模型的書寫風格;

    25、定義所述大語言模型回復采取的態度和感情色彩;

    26、界定接收所述大語言模型回復的特定群體;

    27、預先設定所述大語言模型回復的結構形式。

    28、本申請第二方面提供了一種基于大語言模型的數據血緣獲取裝置,該裝置包括:

    29、血緣解析語句獲取模塊,用于獲取待血緣解析的sql語句,并將所述sql語句作為大語言模型的輸入;

    30、元數據提取模塊,用于利用所述大語言模型提取所述sql語句中涉及的表的元數據;其中,所述表的元數據包括建表語句;所述建表語句包含表名、表備注、字段名、字段類型和字段備注;

    31、血緣解析結果輸出模塊,用于由所述大語言模型根據所述sql語句以及所述sql語句中涉及的表的元數據,按照構造的提示詞輸出包含所述sql語句的血緣解析結果;其中,所述構造的提示詞包含要求輸出的血緣解析結果中涉及的關鍵內容,以引導所述大語言模型產生預期的響應過程;所述sql語句的血緣解析結果包括所述sql語句中每個字段的來源及變換過程。

    32、一種基于大語言模型的數據血緣獲取裝置還包括:

    33、大語言模型選擇模塊、樣本數據準備模塊和大語言模型微調模塊。

    34、本申請第三方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有計算機程序,當所述程序被處理器運行時,實現如第一方面任一實現方式提供的基于大語言模型的數據血緣獲取方法。

    35、本申請第四方面提供了一種處理器,該處理器用于運行計算機程序,所述程序運行時執行如第一方面任一實現方式提供的基于大語言模型的數據血緣獲取方法。

    36、相較于現有技術,本本文檔來自技高網...

    【技術保護點】

    1.一種基于大語言模型的數據血緣獲取方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,獲取待血緣解析的SQL語句之前,還包括:

    3.根據權利要求2所述的方法,其特征在于,所述通過綜合評測選擇實際評分值大于預設評分值的大語言模型,包括:

    4.根據權利要求2所述的方法,其特征在于,所述準備樣本數據,包括:

    5.根據權利要求2所述的方法,其特征在于,所述采用所述樣本數據對選擇的所述大語言模型進行微調,包括:

    6.根據權利要求1所述的方法,其特征在于,所述提示詞的構造方式,包括:

    7.一種基于大語言模型的數據血緣獲取裝置,其特征在于,包括:

    8.一種基于大語言模型的數據血緣獲取裝置,其特征在于,還包括:

    9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機程序,當所述程序被處理器運行時,實現如權利要求1-6任一項所述的基于大語言模型的數據血緣獲取方法。

    10.一種處理器,其特征在于,用于運行計算機程序,所述程序運行時執行如權利要求1-6任一項所述的基于大語言模型的數據血緣獲取方法。

    ...

    【技術特征摘要】

    1.一種基于大語言模型的數據血緣獲取方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,獲取待血緣解析的sql語句之前,還包括:

    3.根據權利要求2所述的方法,其特征在于,所述通過綜合評測選擇實際評分值大于預設評分值的大語言模型,包括:

    4.根據權利要求2所述的方法,其特征在于,所述準備樣本數據,包括:

    5.根據權利要求2所述的方法,其特征在于,所述采用所述樣本數據對選擇的所述大語言模型進行微調,包括:

    6.根據權利要求1所述的方法,其特...

    【專利技術屬性】
    技術研發人員:陳志遠孫谷飛王磊
    申請(專利權)人:太保科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 特级毛片内射www无码| 亚洲AV永久纯肉无码精品动漫| 日韩一区二区三区无码影院| 亚洲AV日韩AV高潮无码专区| 亚洲欧洲国产综合AV无码久久| 国产高新无码在线观看| 亚洲AV色无码乱码在线观看| 精品久久久久久无码人妻蜜桃| av潮喷大喷水系列无码| 国产aⅴ无码专区亚洲av麻豆| 丰满亚洲大尺度无码无码专线| 亚洲AV无码成人专区片在线观看| 国产精品无码专区AV在线播放| 毛片无码免费无码播放| 亚洲AV无码国产精品色午友在线| 夜夜精品无码一区二区三区| 亚洲精品无码久久久久久| 无码精品久久久天天影视| 中文字幕无码日韩专区| 久久久久亚洲?V成人无码| 最新亚洲人成无码网www电影| 无码人妻精品一区二区三区99性| 国产AV无码专区亚洲精品| 亚洲国产精品无码久久九九| 免费无码又爽又刺激高潮| 亚洲中文字幕久久无码| 久久亚洲AV成人无码软件| 色综合久久久久无码专区 | 国产精品亚洲专区无码不卡| 久久国产精品无码HDAV| 无码人妻精品一区二区三 | 久久久无码精品亚洲日韩按摩 | 久久久精品无码专区不卡| 精品人妻无码一区二区三区蜜桃一 | 国产乱子伦精品无码码专区| 亚洲成A∨人片天堂网无码| 西西4444www大胆无码| 国产精品一区二区久久精品无码 | 野花在线无码视频在线播放| 久久久久亚洲?V成人无码| 一本一道av中文字幕无码 |