System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及大模型和智慧立法,尤其涉及一種基于向量檢索的立法資料智能搜索方法和系統。
技術介紹
1、在法律領域中,法案相關的資料數據中文本語句普遍具有明確的表達標準與語義表示,尤其是法律相關的資料涉及的行業領域廣泛,法律資料自身數據量龐大,體系復雜,現有的技術方法不能夠滿足負責的多場景的法律數據的搜索與知識推薦。
2、1.傳統的搜索引擎主要依賴關鍵詞、語義相似度等方法手段,其文本處理方法已經過時,計算相似度時幾乎沒有考察語義,搜索的結果準確性不佳;
3、2.此外還有一些其他技術,包括使用知識圖譜技術基于術語構建法律知識圖譜的語義智能檢索方法,通過構建知識圖譜,使用信息提取、詞義消歧、關鍵詞匹配等方法進行檢索,其本質上仍然是基于策略與規則的檢索,且知識圖譜的構建過程復雜,對于原始數據的質量要求和數據處理方法都有很高要求,實施成本比較大;
4、3.當下也有一些基于bert等算法模型進行文本語義表征后基于向量進行搜索匹配的方法,但是這一類模型在語義理解和泛化能力能還有一些不足,其在建模時設計的預訓練任務不足以支撐更為復雜的語義表征,尤其是未經微調的預訓練模型在特定場景下的語義特征表達能力非常有限。
5、不管是傳統的搜索引擎還是早期的算法模型,在實際完成搜索場景任務時,都不能有效地將自然語言處理方法、搜索路徑、系統管理、版本控制等各個環節融合為一個有機的整體,無法形成一個統一的通道,最后在方法實現時增加了很多實施成本。
6、隨著人工智能技術的飛速發展,大語言模型(llm)問世
技術實現思路
1、本專利技術正是通過成體系的數據處理與分析方法,應用當前先進的算法模型理論形成全新的針對法律領域資料搜索的文本向量化和向量搜索的方法與系統。本專利技術基于文本向量的搜索,針對早期算法模型的各種不足以及法律領域中對于法律資料檢索能力的局限性,提出了解決方法,從而實現針對法律領域資料數據搜索的高召回率、高準確率的智能搜索系統。
2、一種基于向量檢索的立法資料智能搜索方法,包括:
3、步驟a1,基于原始法律基礎數據和大語言模型微調基礎版的向量模型,所述向量模型包括向量嵌入模型;
4、步驟a2,基于所述大語言模型對所述原始法律基礎數據進行處理生成檢索應用文本數據;
5、步驟a3,使用微調后的所述向量嵌入模型將所述檢索應用文本數據轉換成檢索應用向量數據,并存儲于立法資料向量庫中;
6、步驟a4,使用微調后的所述向量嵌入模型將用戶搜索請求轉換成搜索請求向量,使用向量檢索應用對所述搜索請求向量和所述立法資料向量庫進行匹配,根據匹配結果召回關聯的原始法律基礎數據。
7、進一步的,在所述步驟a1中,所述向量模型還包括向量重排模型;
8、在所述步驟a4中,所述向量重排模型對檢索出的與所述搜索請求向量匹配的所述檢索應用向量數據進行排序,召回的關聯的所述原始法律基礎數據以所述檢索應用向量數據的排序結果排序后展示給用戶。
9、進一步的,所述步驟a1包括:
10、步驟a11,從所述原始法律基礎數據中篩序出基礎可用文本數據;
11、步驟a12,使用基礎版的所述向量嵌入模型對所述基礎可用數據進行向量化,得到基礎可用向量數據;
12、步驟a13,對所述基礎可用向量數據執行向量檢索應用,得到檢索結果并對所述檢索結果進行評估,得到檢索評估結果;
13、步驟a14,根據所述檢索評估結果構建數據增強策略和模型微調策略;
14、步驟a15,基于所述數據增強策略構建第一提示詞工程,使用所述大語言模型根據所述第一提示詞工程處理所述原始法律基礎數據,構建微調數據集;
15、步驟a16,基于所述微調數據集和所述模型微調策略對基礎版的所述向量模型進行微調。
16、進一步的,所述步驟a15包括:
17、步驟a151,基于所述數據增強策略構建第一提示詞工程;
18、步驟a152,使用所述大語言模型根據所述第一提示詞工程處理所述原始法律基礎數據,得到微調標注數據;
19、步驟a153,對所述微調標注數據進行質量評估,篩選出滿足預定質量標準的所述微調標注數據形成所述微調數據集。
20、進一步的,所述向量檢索應用包含多個檢索應用類型;
21、在所述步驟a152中,所述大語言模型根據所述第一提示詞工程對所述原始法律基礎數據進行加工分別生成各檢索應用類型對應的標注數據,由各所述檢索應用類型對應的標注數據構成所述微調標注數據。
22、進一步的,所述向量檢索應用包含多個檢索應用類型;
23、在所述步驟a2中,所述大語言模型根據第二提示詞工程對所述原始法律基礎數據進行加工分別生成各所述檢索應用類型對應的檢索應用數據;
24、所述檢索應用文本數據由各所述檢索應用類型對應的檢索應用數據組成;
25、所述步驟a4中,使用向量檢索應用根據用戶請求的檢索應用類型,對所述搜索請求向量和所述立法資料向量庫進行匹配。
26、進一步的,在所述步驟a2中,所述向量檢索應用的檢索應用類型包括法案標題檢索應用、法案法條檢索應用、法案摘要檢索應用、法案全文檢索應用中的至少一種。
27、進一步的,在所述步驟a2中,所述大語言模型根據所述第二提示詞工程,首先對所有法案全文超過預定長度的所述原始法律基礎數據進行全文語義壓縮,之后分別生成各所述檢索應用類型對應的檢索應用數據。
28、一種基于向量檢索的立法資料智能搜索系統,用于執行前述的一種基于向量檢索的立法資料智能搜索方法,包括:
29、原始數據存儲模塊,用于存儲原始法律基礎數據;
30、微調模塊,連接所述原始數據存儲模塊,基于所述原始法律基礎數據和大語言模型微調基礎版的向量模型,所述向量模型包括向量嵌入模型;
31、應用數據生成模塊,用于基于所述大語言模型對所述原始法律基礎數據進行處理生成檢索應用文本數據;
32、向量應用模塊,分別連接立法資料向量庫、所述原始數據存儲模塊和所述應用數據生成模塊,用于:
33、部署微調后的向量模型;
34、使用微調后的所述向量嵌入模型將所述檢索應用文本數據轉換成檢索應用向量數據,并存儲于立法資料向量庫中,以及
35、使用微調后的所述向量嵌入模型將用戶搜索請求轉換成搜索請求向量,以及
36、使用向量檢索應用對所述搜索請求向量和所述立法資料向量庫進行匹配,根據匹配結果從所述原始數據存儲模塊中召回關聯的原始法律基礎數據。
37、進一步的,所述向量檢索應用包含多個檢索應用類型;
38、所述大語言模型根據第二提示詞工程對所述原始法律基礎數據進行加工分別生成各所述檢索應用類型對本文檔來自技高網...
【技術保護點】
1.一種基于向量檢索的立法資料智能搜索方法,其特征在于,包括:
2.如權利要求1所述的一種基于向量檢索的立法資料智能搜索方法,其特征在于,在所述步驟A1中,所述向量模型還包括向量重排模型;
3.如權利要求1所述的一種基于向量檢索的立法資料智能搜索方法,其特征在于,所述步驟A1包括:
4.如權利要求3所述的一種基于向量檢索的立法資料智能搜索方法,其特征在于,所述步驟A15包括:
5.如權利要求4所述的一種基于向量檢索的立法資料智能搜索方法,其特征在于,所述向量檢索應用包含多個檢索應用類型;
6.如權利要求1所述的一種基于向量檢索的立法資料智能搜索方法,其特征在于,所述向量檢索應用包含多個檢索應用類型;
7.如權利要求6所述的一種基于向量檢索的立法資料智能搜索方法,其特征在于,在所述步驟A2中,所述向量檢索應用的檢索應用類型包括法案標題檢索應用、法案法條檢索應用、法案摘要檢索應用、法案全文檢索應用中的至少一種。
8.如權利要求7所述的一種基于向量檢索的立法資料智能搜索方法,其特征在于,在所述步驟A2中
9.一種基于向量檢索的立法資料智能搜索系統,其特征在于,用于執行如權利要求1-8任意一項所述的一種基于向量檢索的立法資料智能搜索方法,包括:
10.如權利要求9所述的一種基于向量檢索的立法資料智能搜索系統,其特征在于,所述向量檢索應用包含多個檢索應用類型;
...【技術特征摘要】
1.一種基于向量檢索的立法資料智能搜索方法,其特征在于,包括:
2.如權利要求1所述的一種基于向量檢索的立法資料智能搜索方法,其特征在于,在所述步驟a1中,所述向量模型還包括向量重排模型;
3.如權利要求1所述的一種基于向量檢索的立法資料智能搜索方法,其特征在于,所述步驟a1包括:
4.如權利要求3所述的一種基于向量檢索的立法資料智能搜索方法,其特征在于,所述步驟a15包括:
5.如權利要求4所述的一種基于向量檢索的立法資料智能搜索方法,其特征在于,所述向量檢索應用包含多個檢索應用類型;
6.如權利要求1所述的一種基于向量檢索的立法資料智能搜索方法,其特征在于,所述向量檢索應用包含多個檢索應用類型;
7.如權利要求6所述的一種基于向量檢索...
【專利技術屬性】
技術研發人員:張澤宏,汪科科,潘希堯,吳飛,徐瑋康,朱馮貺天,譚銳,吳穎健,
申請(專利權)人:上海市大數據股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。