System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及計算機數據處理,特別是一種基于llm語義理解技術的excel模版數據自動回填方法,基于大語言模型llm、自然語言處理nlp、自然語言轉nl2sql和自動化數據填充技術的應用。
技術介紹
1、在基層社會治理場景中,工作人員通常需要完成大量的數據上報工作。這些任務通常需要從現有系統中提取數據,并按照上級下發的excel模板格式進行填報。當前的數據上報方法主要依賴于手動輸入或簡單的自動化工具,這些方法存在如下問題:
2、手動輸入:需要工作人員從系統中查詢提取數據,并手動填入excel模板中,過程繁瑣且容易出錯。簡單自動化工具:如vba宏或python腳本,雖然可以部分自動化數據填充,但對人員技術能力要求高,難以適應多變的模板和數據源。專用軟件:一些商業數據處理軟件能夠進行數據填充,但通常缺乏靈活性,難以適應不同的模板和數據源,并且價格昂貴。
3、近年來,隨著大語言模型和自然語言處理技術的發展,基于語義理解的智能數據處理成為可能。大語言模型能夠理解和生成自然語言文本,通過prompt技術和nl2sql技術,可以實現復雜的數據查詢和填充任務。本專利技術結合這些先進技術,提出了一種自動化程度更高、準確性更強的excel模板數據回填方法,有效解決了現有方法的不足。
技術實現思路
1、本專利技術旨在提供一種基于llm語義理解技術的excel模板數據自動回填方法,通過語義理解和nl2sql技術,實現模板數據的高效、準確提取和填充,解決現有方法效率低、易出錯的問題
2、基于llm語義理解技術的excel模版數據自動回填方法,包括如下步驟:
3、s01:基于llm的excel模板解析
4、通過讀取用戶上傳的excel模板文件,獲取表頭信息等元數據,為后續的處理過程提供基礎數據;使用python的pandas庫來讀取excel文件;對于excel模板文件,設其表頭為[c1,?c2,?...,?cn],則表示為表頭向量:向量h?=?[h1,?h2,?...,?hn];
5、s02:結合模板信息的智能prompt生成
6、將s01步驟解析得到的表頭信息和用戶輸入的查詢條件嵌入到預定義的提示詞模板中,生成一個詳細的prompt;該prompt將作為輸入傳遞給nl2sql模型,使用智普glm-4-9b模型生成對應的sql查詢語句;
7、excel向量為h,查詢條件為q,?用于提供llm需要生成的是sql語句的上下文mask,則prompt可表示為:prompt?=?[h;?q;?mask]?=?[h1,?h2,?...,?hn;?q;?mask]
8、s03:針對excel填充任務的nl2sql轉換
9、系統將生成的prompt傳遞給nl2sql模型,模型通過語義解析和上下文理解生成sql查詢語句;nl2sql模型采用基于transformer的神經網絡結構,通過編碼器-解碼器架構處理輸入的自然語言并生成對應的sql語句;
10、s04:基于模板特征的sql驗證和優化
11、語法驗證:
12、a、使用sql解析器對生成的sql進行語法檢查,確保查詢在語法上的正確性,捕獲并糾正基本的語法錯誤,如關鍵字拼寫錯誤、括號不匹配等;
13、b、根據模板指定的數據庫類型進行適配,支持多種sql方言驗證;
14、c、進行靜態代碼分析,提前發現潛在的語法問題和反模式;
15、模板字段映射驗證:
16、驗證sql查詢中的字段是否與excel模板中的字段準確對應,包括檢查字段名稱、數據類型的兼容性,以及處理可能的命名差異;
17、a、模糊匹配:通過模糊匹配算法,處理字段名稱拼寫錯誤或同義詞的情況;
18、b、數據類型轉換:通過數據類型轉換規則,處理不同數據庫系統之間的數據類型差異;
19、c、單元格格式分析:?分析excel單元格格式,推斷字段的數據類型和格式要求;
20、數據類型一致性檢查:
21、根據excel模板中字段的數據類型,檢查sql查詢中的數據操作是否類型兼容;
22、a、數值范圍校驗:驗證數值型字段的值是否在合理范圍內;
23、b、日期格式校驗:進行嚴格的日期格式校驗,支持多種日期格式;
24、c、自定義函數校驗:對自定義函數的使用進行校驗,確保函數參數和返回值類型正確;
25、查詢邏輯驗證:
26、分析sql查詢的邏輯結構,確保其符合用戶意圖和模板要求,包括檢查where子句的條件組合是否合理,join操作是否正確;
27、a、語義分析:通過自然語言處理技術對查詢語句進行更深層次的語義分析;
28、b、依賴分析:分析查詢語句之間的依賴關系;
29、c、異常值檢測:對查詢結果進行異常值檢測;
30、性能優化:基于模板特征進行查詢優化。
31、a、包括索引使用分析:根據模板中頻繁查詢的字段,建議或自動添加適當的索引;包括:創建多列索引;
32、b、查詢重寫:將復雜查詢重寫為更高效的形式,包括:將子查詢轉換為join操作;
33、c、分頁優化:對于大數據量的模板,自動添加分頁邏輯;
34、d、執行計劃分析:分析查詢的執行計劃;
35、e、查詢結果驗證:通過預寫入一條數據驗證查詢結果是否滿足模板的要求,包括數據完整性、格式正確性、唯一性約束、參照完整性、數據范圍校驗、邏輯校驗、數據一致性校驗;
36、s05:自動化數據提取與回填
37、首先執行由s04步驟生成的sql查詢語句,從預設的數據源中獲取所需數據,隨后,系統將提取的數據進行格式化,并按照模板文件的結構回填到相應的位置;
38、數據源連接與查詢執行:首先建立與預設數據源的安全連接,是各種類型的數據庫或api接口;
39、查詢結果解析:執行nl2sql轉換后生成的sql查詢,并對返回的結果集進行智能解析,包括:
40、a、數據類型處理:根據數據庫元數據或數據樣本來自動識別字段的數據類型,進行常見的類型轉換,如數字轉字符串,日期轉字符串等;
41、b、空值處理:提供多種缺失值填充策略,如填充固定值、均值、中位數等;
42、c、數據清洗:去除重復值或合并重復值,將日期格式、數值精度等數據規范化為統一的格式;
43、d、復雜數據結構處理:處理數組和列表類型的數據,處理json、xml嵌套數據格式;
44、e、錯誤處理:捕獲并處理各種異常情況,如數據庫連接失敗、查詢超時,記錄錯誤信息;
45、數據映射:建立查詢結果與excel模板字段之間的智能映射關系;數據轉換與格式化:根據excel模板中每本文檔來自技高網...
【技術保護點】
1.基于LLM語義理解技術的Excel模版數據自動回填方法,其特征在于包括如下步驟:
【技術特征摘要】
1.基于llm語義理解技術的excel模版...
【專利技術屬性】
技術研發人員:溫斌斌,王建立,范建飛,
申請(專利權)人:中電萬維信息技術有限責任公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。