System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及大語言模型領域,尤其涉及一種基于rag框架的知識庫文件上傳一致性保障方法及裝置。
技術介紹
1、隨著人工智能技術的發展,特別是大模型在知識檢索和生成領域的應用,企業日益重視利用這些技術提升內部知識的管理和利用效率。rag(retrieval-augmentedgeneration)模型因其結合檢索與生成的能力,能在大規模數據集中高效檢索知識,并支持實時更新,成為構建智能化知識庫的理想選擇。
2、然而,在實際應用rag模型時面臨若干挑戰,尤其是涉及到企業私有知識庫的安全性和數據一致性問題。私有知識庫往往包含大量敏感信息,如專有技術文檔、客戶數據、合同文件等,這些數據的上傳至云端或外部知識庫過程中,必須確保數據的完整性和保密性。同時,隨著知識的快速更新,如何確保新上傳或更新的文件內容能即時、準確地整合進rag系統,避免信息滯后或不一致,成為關鍵問題。
技術實現思路
1、本專利技術提供一種基于rag框架的知識庫文件上傳一致性保障方法及裝置,以解決rag框架的知識庫文件上傳一致性難以保障的問題。
2、第一個方面,本專利技術提供了一種基于rag框架的知識庫文件上傳一致性保障方法,具體包括如下步驟:
3、步驟s1、將知識庫文檔t1上傳至數據庫;
4、步驟s2、對數據庫中a小時內上傳的所有知識庫文檔進行檢查。
5、其中,a為正整數。
6、優選地,步驟s1中,將知識庫文檔t1上傳至數據庫,具體包括如下步驟:
>7、步驟s101、將知識庫文檔t1上傳至服務器;
8、步驟s102、通過l1鎖對t1進行加鎖處理;
9、步驟s103、提取t1中的文本內容,形成c1;
10、步驟s104、將c1中每a個字作為一段對c1進行切分,得到包含b個小文本的數組c2;
11、步驟s105、將c2中的b個小文本進行拼接,形成c3;
12、步驟s106、將c3和c1進行對比,判斷c3中的文本內容是否完整,若c1和c3中的內容不一致,則標記狀態為內容缺失,立即結束后續步驟并對c2中不一致的內容進行修復,反之,執行步驟s107;
13、步驟s107、將c2中的內容分別存儲至關鍵字數據庫elasticsearch和向量數據庫milvus,若出現存儲失敗的情況,則立即重新進行上傳直到成功,若在重新上傳c次后,仍未上傳成功,則標記狀態為內容缺失,立即結束后續步驟并對c2中的內容進行修復,反之,執行步驟s108;
14、步驟s108、在c2中的內容上傳結束后,若存在重新上傳未成功的內容,則回滾已經上傳的c2的數據,并對c2中的內容進行修復;
15、步驟s109、釋放l1鎖。
16、其中,a、b和c均為正整數。
17、優選地,步驟s102中,所述l1鎖以知識庫+文件id為主鍵,為文件加鎖,避免同樣的文件在同一知識庫中被重復上傳。
18、優選地,步驟s2中,對所述知識文檔進行定時檢查,具體包括如下步驟:
19、步驟s201、獲取最近a小時內上傳的知識庫文檔,形成c4;
20、步驟s202、將c4和最近a小時內上傳的知識庫文檔內容進行對比,是否存在數據缺失的情況;
21、步驟s203、若c4存在數據缺失的情況,則對數據庫中c4的數據進行補償,若進行數據補償后c4的數據中仍存在數據缺失的情況,則將c4中數據缺失部分的數據設置為不可用狀態,并對數據進行修復。
22、優選地,一種基于rag框架的知識庫文件上傳一致性保障方法,還可以包括,步驟s3、對所述數據庫中的所有知識庫文檔進行定時隨機抽樣檢查。
23、優選地,步驟s3中,對所述數據庫中的所有知識庫文檔進行定時隨機抽樣檢查,具體包括如下步驟:
24、步驟s301、每天定時隨機抽取d條數據,得到數據c5;
25、步驟s302、將c5和原上傳文件內容進行對比,判斷c5是否存在數據缺失的情況;
26、步驟s303、若c5存在數據缺失的情況,則對數據庫中c5的數據進行補償,若進行數據補償后c5的數據中仍存在數據缺失的情況,則將c5中數據缺失部分的數據設置為不可用狀態,并對數據進行修復。
27、其中,d為正整數。
28、第二個方面,本專利技術還提供了一種基于rag框架的知識庫文件上傳一致性保障裝置,具體包括如下模塊:
29、文檔上傳模塊,用于將知識庫文檔t1上傳至數據庫;
30、文檔檢查模塊,用于對數據庫中a小時內上傳的所有知識庫文檔進行檢查。
31、其中,a為正整數。
32、優選地,所述文檔上傳模塊具體包括如下子模塊:
33、文檔上傳第一子模塊,用于將知識庫文檔t1上傳至服務器;
34、文檔上傳第二子模塊,用于通過l1鎖對t1進行加鎖處理;
35、文檔上傳第三子模塊,用于提取t1中的文本內容,形成c1;
36、文檔上傳第四子模塊,用于將c1中每a個字作為一段對c1進行切分,得到包含b個小文本的數組c2;
37、文檔上傳第五子模塊,用于將c2中的b個小文本進行拼接,形成c3;
38、文檔上傳第六子模塊,用于將c3和c1進行對比,判斷c3中的文本內容是否完整,若c1和c3中的內容不一致,則標記狀態為內容缺失,立即對c2中不一致的內容進行修復;
39、文檔上傳第七子模塊,用于將c2中的內容分別存儲至關鍵字數據庫elasticsearch和向量數據庫milvus,若出現存儲失敗的情況,則立即重新進行上傳直到成功,若在重新上傳c次后,仍未上傳成功,則標記狀態為內容缺失并立即對c2中的內容進行修復;
40、文檔上傳第八子模塊,用于在c2中的內容上傳結束后,若存在重新上傳未成功的內容,則回滾已經上傳的c2的數據,并對c2中的內容進行修復;
41、文檔上傳第九子模塊,用于釋放l1鎖。
42、其中,a、b和c均為正整數。
43、優選地,文檔上傳第二子模塊中,所述l1鎖以知識庫+文件id為主鍵,為文件加鎖,避免同樣的文件在同一知識庫中被重復上傳。
44、優選地,所述文檔檢查模塊具體包括如下子模塊:
45、文檔檢查第一子模塊,用于獲取最近a小時內上傳的知識庫文檔,形成c4;
46、文檔檢查第二子模塊,用于將c4和最近a小時內上傳的知識庫文檔內容進行對比,是否存在數據缺失的情況;
47、文檔檢查第三子模塊,用于若c4存在數據缺失的情況,則對數據庫中c4的數據進行補償,若進行數據補償后c4的數據中仍存在數據缺失的情況,則將c4中數據缺失部分的數據設置為不可用狀態,并對數據進行修復。
48、優選地,一種基于rag框架的知識庫文件上傳一致性保障裝置,還可以包括,抽樣檢查模塊,用于對所述數據庫中的所本文檔來自技高網...
【技術保護點】
1.一種基于RAG框架的知識庫文件上傳一致性保障的方法,其特征在于,具體包括如下步驟:
2.根據權利要求1所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟S1中,將知識庫文檔T1上傳至數據庫,具體包括如下步驟:
3.根據權利要求2所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟S102中,所述L1鎖以知識庫+文件id為主鍵,為文件加鎖,避免同樣的文件在同一知識庫中被重復上傳。
4.根據權利要求1所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟S2中,對所述知識文檔進行定時檢查,具體包括如下步驟:
5.根據權利要求1所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法,其特征在于,還包括步驟S3、對所述數據庫中的所有知識庫文檔進行定時隨機抽樣檢查。
6.根據權利要求5所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟S3中,對所述數據庫中的所有知識庫文檔進行定時隨機抽樣檢查,具體包括如下步驟:
7.一種基于
8.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1-6任一項所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法。
9.一種電子設備,其特征在于,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如權利要求1-6任一項所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法。
...【技術特征摘要】
1.一種基于rag框架的知識庫文件上傳一致性保障的方法,其特征在于,具體包括如下步驟:
2.根據權利要求1所述的一種基于rag框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟s1中,將知識庫文檔t1上傳至數據庫,具體包括如下步驟:
3.根據權利要求2所述的一種基于rag框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟s102中,所述l1鎖以知識庫+文件id為主鍵,為文件加鎖,避免同樣的文件在同一知識庫中被重復上傳。
4.根據權利要求1所述的一種基于rag框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟s2中,對所述知識文檔進行定時檢查,具體包括如下步驟:
5.根據權利要求1所述的一種基于rag框架的知識庫文件上傳一致性保障的方法,其特征在于,還包括步驟s3、對所述數據庫中的所有知...
【專利技術屬性】
技術研發人員:徐永超,
申請(專利權)人:上海巖芯數智人工智能科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。