System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 久久久无码精品亚洲日韩蜜桃,国产成人无码A区在线观看视频,18精品久久久无码午夜福利
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于RAG框架的知識庫文件上傳一致性保障方法及裝置制造方法及圖紙

    技術編號:43450133 閱讀:19 留言:0更新日期:2024-11-27 12:52
    本發明專利技術提供了一種基于RAG框架的知識庫文件上傳一致性保障方法及裝置,解決了RAG框架的知識庫文件上傳一致性難以保障的問題。通過對基于RAG框架的知識庫文件上傳一致性的保障,確保了上傳至數據庫中的文件內容與原始文件內容保持一致,避免了因信息矛盾而導致的誤導,保證了后續大語言模型在進行訓練和數據檢索時數據的準確性,進而提高大語言模型輸出結果的準確率。

    【技術實現步驟摘要】

    本專利技術涉及大語言模型領域,尤其涉及一種基于rag框架的知識庫文件上傳一致性保障方法及裝置。


    技術介紹

    1、隨著人工智能技術的發展,特別是大模型在知識檢索和生成領域的應用,企業日益重視利用這些技術提升內部知識的管理和利用效率。rag(retrieval-augmentedgeneration)模型因其結合檢索與生成的能力,能在大規模數據集中高效檢索知識,并支持實時更新,成為構建智能化知識庫的理想選擇。

    2、然而,在實際應用rag模型時面臨若干挑戰,尤其是涉及到企業私有知識庫的安全性和數據一致性問題。私有知識庫往往包含大量敏感信息,如專有技術文檔、客戶數據、合同文件等,這些數據的上傳至云端或外部知識庫過程中,必須確保數據的完整性和保密性。同時,隨著知識的快速更新,如何確保新上傳或更新的文件內容能即時、準確地整合進rag系統,避免信息滯后或不一致,成為關鍵問題。


    技術實現思路

    1、本專利技術提供一種基于rag框架的知識庫文件上傳一致性保障方法及裝置,以解決rag框架的知識庫文件上傳一致性難以保障的問題。

    2、第一個方面,本專利技術提供了一種基于rag框架的知識庫文件上傳一致性保障方法,具體包括如下步驟:

    3、步驟s1、將知識庫文檔t1上傳至數據庫;

    4、步驟s2、對數據庫中a小時內上傳的所有知識庫文檔進行檢查。

    5、其中,a為正整數。

    6、優選地,步驟s1中,將知識庫文檔t1上傳至數據庫,具體包括如下步驟:>

    7、步驟s101、將知識庫文檔t1上傳至服務器;

    8、步驟s102、通過l1鎖對t1進行加鎖處理;

    9、步驟s103、提取t1中的文本內容,形成c1;

    10、步驟s104、將c1中每a個字作為一段對c1進行切分,得到包含b個小文本的數組c2;

    11、步驟s105、將c2中的b個小文本進行拼接,形成c3;

    12、步驟s106、將c3和c1進行對比,判斷c3中的文本內容是否完整,若c1和c3中的內容不一致,則標記狀態為內容缺失,立即結束后續步驟并對c2中不一致的內容進行修復,反之,執行步驟s107;

    13、步驟s107、將c2中的內容分別存儲至關鍵字數據庫elasticsearch和向量數據庫milvus,若出現存儲失敗的情況,則立即重新進行上傳直到成功,若在重新上傳c次后,仍未上傳成功,則標記狀態為內容缺失,立即結束后續步驟并對c2中的內容進行修復,反之,執行步驟s108;

    14、步驟s108、在c2中的內容上傳結束后,若存在重新上傳未成功的內容,則回滾已經上傳的c2的數據,并對c2中的內容進行修復;

    15、步驟s109、釋放l1鎖。

    16、其中,a、b和c均為正整數。

    17、優選地,步驟s102中,所述l1鎖以知識庫+文件id為主鍵,為文件加鎖,避免同樣的文件在同一知識庫中被重復上傳。

    18、優選地,步驟s2中,對所述知識文檔進行定時檢查,具體包括如下步驟:

    19、步驟s201、獲取最近a小時內上傳的知識庫文檔,形成c4;

    20、步驟s202、將c4和最近a小時內上傳的知識庫文檔內容進行對比,是否存在數據缺失的情況;

    21、步驟s203、若c4存在數據缺失的情況,則對數據庫中c4的數據進行補償,若進行數據補償后c4的數據中仍存在數據缺失的情況,則將c4中數據缺失部分的數據設置為不可用狀態,并對數據進行修復。

    22、優選地,一種基于rag框架的知識庫文件上傳一致性保障方法,還可以包括,步驟s3、對所述數據庫中的所有知識庫文檔進行定時隨機抽樣檢查。

    23、優選地,步驟s3中,對所述數據庫中的所有知識庫文檔進行定時隨機抽樣檢查,具體包括如下步驟:

    24、步驟s301、每天定時隨機抽取d條數據,得到數據c5;

    25、步驟s302、將c5和原上傳文件內容進行對比,判斷c5是否存在數據缺失的情況;

    26、步驟s303、若c5存在數據缺失的情況,則對數據庫中c5的數據進行補償,若進行數據補償后c5的數據中仍存在數據缺失的情況,則將c5中數據缺失部分的數據設置為不可用狀態,并對數據進行修復。

    27、其中,d為正整數。

    28、第二個方面,本專利技術還提供了一種基于rag框架的知識庫文件上傳一致性保障裝置,具體包括如下模塊:

    29、文檔上傳模塊,用于將知識庫文檔t1上傳至數據庫;

    30、文檔檢查模塊,用于對數據庫中a小時內上傳的所有知識庫文檔進行檢查。

    31、其中,a為正整數。

    32、優選地,所述文檔上傳模塊具體包括如下子模塊:

    33、文檔上傳第一子模塊,用于將知識庫文檔t1上傳至服務器;

    34、文檔上傳第二子模塊,用于通過l1鎖對t1進行加鎖處理;

    35、文檔上傳第三子模塊,用于提取t1中的文本內容,形成c1;

    36、文檔上傳第四子模塊,用于將c1中每a個字作為一段對c1進行切分,得到包含b個小文本的數組c2;

    37、文檔上傳第五子模塊,用于將c2中的b個小文本進行拼接,形成c3;

    38、文檔上傳第六子模塊,用于將c3和c1進行對比,判斷c3中的文本內容是否完整,若c1和c3中的內容不一致,則標記狀態為內容缺失,立即對c2中不一致的內容進行修復;

    39、文檔上傳第七子模塊,用于將c2中的內容分別存儲至關鍵字數據庫elasticsearch和向量數據庫milvus,若出現存儲失敗的情況,則立即重新進行上傳直到成功,若在重新上傳c次后,仍未上傳成功,則標記狀態為內容缺失并立即對c2中的內容進行修復;

    40、文檔上傳第八子模塊,用于在c2中的內容上傳結束后,若存在重新上傳未成功的內容,則回滾已經上傳的c2的數據,并對c2中的內容進行修復;

    41、文檔上傳第九子模塊,用于釋放l1鎖。

    42、其中,a、b和c均為正整數。

    43、優選地,文檔上傳第二子模塊中,所述l1鎖以知識庫+文件id為主鍵,為文件加鎖,避免同樣的文件在同一知識庫中被重復上傳。

    44、優選地,所述文檔檢查模塊具體包括如下子模塊:

    45、文檔檢查第一子模塊,用于獲取最近a小時內上傳的知識庫文檔,形成c4;

    46、文檔檢查第二子模塊,用于將c4和最近a小時內上傳的知識庫文檔內容進行對比,是否存在數據缺失的情況;

    47、文檔檢查第三子模塊,用于若c4存在數據缺失的情況,則對數據庫中c4的數據進行補償,若進行數據補償后c4的數據中仍存在數據缺失的情況,則將c4中數據缺失部分的數據設置為不可用狀態,并對數據進行修復。

    48、優選地,一種基于rag框架的知識庫文件上傳一致性保障裝置,還可以包括,抽樣檢查模塊,用于對所述數據庫中的所本文檔來自技高網...

    【技術保護點】

    1.一種基于RAG框架的知識庫文件上傳一致性保障的方法,其特征在于,具體包括如下步驟:

    2.根據權利要求1所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟S1中,將知識庫文檔T1上傳至數據庫,具體包括如下步驟:

    3.根據權利要求2所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟S102中,所述L1鎖以知識庫+文件id為主鍵,為文件加鎖,避免同樣的文件在同一知識庫中被重復上傳。

    4.根據權利要求1所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟S2中,對所述知識文檔進行定時檢查,具體包括如下步驟:

    5.根據權利要求1所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法,其特征在于,還包括步驟S3、對所述數據庫中的所有知識庫文檔進行定時隨機抽樣檢查。

    6.根據權利要求5所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟S3中,對所述數據庫中的所有知識庫文檔進行定時隨機抽樣檢查,具體包括如下步驟:

    7.一種基于RAG框架的知識庫文件上傳一致性保障的裝置,其特征在于,具體包括如下模塊:

    8.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1-6任一項所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法。

    9.一種電子設備,其特征在于,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如權利要求1-6任一項所述的一種基于RAG框架的知識庫文件上傳一致性保障的方法。

    ...

    【技術特征摘要】

    1.一種基于rag框架的知識庫文件上傳一致性保障的方法,其特征在于,具體包括如下步驟:

    2.根據權利要求1所述的一種基于rag框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟s1中,將知識庫文檔t1上傳至數據庫,具體包括如下步驟:

    3.根據權利要求2所述的一種基于rag框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟s102中,所述l1鎖以知識庫+文件id為主鍵,為文件加鎖,避免同樣的文件在同一知識庫中被重復上傳。

    4.根據權利要求1所述的一種基于rag框架的知識庫文件上傳一致性保障的方法,其特征在于,步驟s2中,對所述知識文檔進行定時檢查,具體包括如下步驟:

    5.根據權利要求1所述的一種基于rag框架的知識庫文件上傳一致性保障的方法,其特征在于,還包括步驟s3、對所述數據庫中的所有知...

    【專利技術屬性】
    技術研發人員:徐永超
    申請(專利權)人:上海巖芯數智人工智能科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲va中文字幕无码| 四虎成人精品无码永久在线| 少妇人妻偷人精品无码视频| 50岁人妻丰满熟妇αv无码区| 亚洲av永久无码精品网址| 少妇无码太爽了在线播放| 亚洲国产成AV人天堂无码| 中文人妻无码一区二区三区| 日韩AV片无码一区二区不卡| 精品无码久久久久国产| 夜夜添无码一区二区三区| 精品久久久无码人妻字幂| 玖玖资源站无码专区| 国产av无码专区亚洲av桃花庵| 无码精品不卡一区二区三区| 久久久久久精品无码人妻| 亚洲VA中文字幕无码毛片| 国产精品午夜福利在线无码| a级毛片无码免费真人| 亚洲精品无码久久久久YW| 精品一区二区三区无码免费视频| 亚洲中文字幕无码永久在线| 人妻无码久久久久久久久久久| 国产在线拍揄自揄拍无码视频| 中文字幕人成无码免费视频| 精品无码一区二区三区在线| 久久精品国产亚洲AV无码偷窥| 无码少妇一区二区三区浪潮AV| 亚洲va中文字幕无码久久不卡| 亚洲永久无码3D动漫一区| 亚洲精品无码久久久久去q| 亚洲中文字幕无码久久综合网| 中文字幕无码久久人妻| 亚洲一区无码中文字幕| 亚洲av无码成h人动漫无遮挡 | 人妻无码一区二区三区AV| 日韩精品无码人成视频手机| 一本色道无码道在线观看| 狠狠躁狠狠躁东京热无码专区 | 亚洲精品无码不卡在线播放| 中文字幕无码日韩欧毛|