基于RAG的多格式數據快速查詢方法技術

技術編號：44262937 閱讀：6 留言：0更新日期：2025-02-14 22:07

本發明專利技術涉及數據管理與查詢技術領域，公開了基于RAG的多格式數據快速查詢方法，包括以下步驟：步驟a、用戶通過前端界面上傳目標文件，所述文件為PDF、Word或Excel格式的任意一種；步驟b、對所述上傳的文件進行格式驗證；步驟c、根據文件格式選擇相應的解析工具，使用PyMuPDF、python?docx或openpyxl庫對所述文件進行文本及結構化數據提取；步驟d、將解析后的數據分別存儲至PostgreSQL數據庫和Faiss數據庫。通過結合結構化數據存儲與非結構化數據向量化存儲的方式，利用Faiss進行高效的向量相似度檢索，大大縮短了數據查詢的響應時間。相較于傳統的基于全文搜索的查詢方法，本方法能夠快速從大量數據中精確地返回與用戶查詢最相關的結果，從而提高了數據查詢的效率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及數據管理與查詢，具體為基于rag的多格式數據快速查詢方法。

技術介紹

1、隨著信息技術的不斷發展，企業和個人用戶生成的數據量呈現爆炸式增長，這些數據多為非結構化數據，如文本、圖片、音頻、視頻等。此外，結構化數據仍然占據著業務流程的核心地位，尤其是在企業管理和信息查詢中。傳統的數據管理系統往往依賴于結構化數據存儲，而非結構化數據的處理和查詢則面臨著顯著的挑戰。如何高效管理、存儲和檢索這兩類不同類型的數據，成為了現代數據管理和查詢技術亟待解決的問題。

2、現有的多格式數據查詢技術通常采用獨立的數據存儲和查詢方法。例如，對于結構化數據，傳統的關系型數據庫（如postgresql、mysql等）通常采用sql查詢語言進行存儲和檢索。而對于非結構化數據，如pdf、word、excel等格式的文件，傳統方法則往往依賴全文搜索引擎，或是通過簡單的文本檢索技術來提取信息。雖然這些方法在各自的應用領域中取得了一定的成功，但它們在跨格式查詢、多模態數據檢索和高效性等方面存在明顯的局限性。

3、現有技術的一個主要問題是無法有效地將結構化數據與非結構化數據融合進行統一查詢。現有系統通常針對不同數據格式采用不同的處理和查詢機制，導致在實際應用中用戶需要在多個系統之間切換，增加了操作的復雜性并降低了查詢效率。尤其是在面對跨格式的復雜查詢需求時，現有系統往往無法提供高效、準確的檢索結果。因此，如何高效融合結構化與非結構化數據，并提供快速、準確的查詢處理能力，成為了亟待解決的問題。針對這一問題，本專利技術提出了基于rag的

技術實現思路

1、針對現有技術的不足，本專利技術提供了基于rag的多格式數據快速查詢方法，解決了多格式數據查詢中結構化數據與非結構化數據無法高效融合查詢的問題。

2、為實現以上目的，本專利技術通過以下技術方案予以實現：基于rag的多格式數據快速查詢方法，包括以下步驟：

3、步驟（a）用戶通過前端界面上傳目標文件，所述文件為pdf、word或excel格式的任意一種；

4、步驟（b）對所述上傳的文件進行格式驗證，驗證通過后進行數據解析；

5、步驟（c）根據文件格式選擇相應的解析工具，使用pymupdf、python-docx或openpyxl庫對所述文件進行文本及結構化數據提取；

6、步驟（d）將解析后的數據分別存儲至postgresql數據庫和faiss數據庫，其中postgresql用于存儲結構化數據，faiss用于存儲非結構化文本數據的高維向量；

7、步驟（e）根據用戶查詢請求生成查詢指令并執行查詢，查詢結果通過向量相似度檢索返回相關文檔或數據。

8、優選的，所述步驟（d）中，faiss數據庫存儲通過自然語言處理模型生成的高維文本向量，所述文本向量通過bert模型生成。

9、優選的，所述查詢指令包括結構化查詢指令和非結構化查詢指令，所述結構化查詢指令通過sql語句在postgresql數據庫中執行，所述非結構化查詢指令通過faiss數據庫進行相似度檢索。

10、優選的，所述相似度檢索基于faiss數據庫中的向量索引，向量相似度計算公式如下：

11、；

12、具體的， a和 b是兩個向量，其中 a表示查詢向量， b表示faiss數據庫中的一個數據向量;

13、是向量 a和 b的點積，計算它們之間的內積關系;

14、為向量 a和 b的模長。

15、優選的，所述步驟（b）中，所述數據解析還包括對上傳文件中的表格數據進行處理，將表格數據轉化為結構化數據格式并存儲于postgresql數據庫。

16、優選的，所述查詢指令由自然語言處理模塊根據用戶的查詢請求自動生成，所述查詢請求通過文本或語音輸入方式傳遞至系統，所述語音輸入通過語音識別模塊轉換為文本輸入。

17、優選的，所述步驟（d）中，所述faiss數據庫存儲的數據包括文檔內容的向量化表示，并結合外部知識庫中的結構化數據進行多格式數據檢索。

18、優選的，所述查詢結果的精度通過查詢優化模塊進一步提高，所述查詢優化模塊基于歷史查詢數據及查詢類型對檢索結果進行加權排序。

19、本專利技術提供了基于rag的多格式數據快速查詢方法。具備以下有益效果：

20、1、本專利技術通過結合結構化數據存儲與非結構化數據向量化存儲的方式，利用faiss進行高效的向量相似度檢索，大大縮短了數據查詢的響應時間。相較于傳統的基于全文搜索的查詢方法，本方法能夠快速從大量數據中精確地返回與用戶查詢最相關的結果，從而提高了數據查詢的效率。

21、2、本專利技術能夠處理pdf、word、excel等多種格式的數據，并能夠對不同格式的數據采用專門的解析工具進行處理。這種支持多格式數據上傳、解析與存儲的功能，打破了傳統系統只能處理單一格式數據的限制，使得系統能夠更加靈活地應對不同來源的數據，提高了系統的通用性和適應性。

22、3、本專利技術將結構化數據存儲于postgresql數據庫，非結構化數據則通過bert等模型生成高維向量并存儲于faiss數據庫，實現了結構化與非結構化數據的有效融合。這一創新解決方案使得用戶能夠同時通過sql查詢和相似度檢索兩種方式來獲取信息，極大地豐富了查詢方式，并提高了查詢結果的精確性。

本文檔來自技高網...

【技術保護點】

1.基于RAG的多格式數據快速查詢方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的基于RAG的多格式數據快速查詢方法，其特征在于，Faiss數據庫存儲通過自然語言處理模型生成的高維文本向量，所述文本向量通過BERT模型生成。

3.根據權利要求1所述的基于RAG的多格式數據快速查詢方法，其特征在于，所述查詢指令包括結構化查詢指令和非結構化查詢指令，所述結構化查詢指令通過SQL語句在PostgreSQL數據庫中執行，所述非結構化查詢指令通過Faiss數據庫進行相似度檢索。

4.根據權利要求1所述的基于RAG的多格式數據快速查詢方法，其特征在于，所述相似度檢索基于Faiss數據庫中的向量索引，向量相似度計算公式如下：

5.根據權利要求1所述的基于RAG的多格式數據快速查詢方法，其特征在于，所述數據解析還包括對上傳文件中的表格數據進行處理，將表格數據轉化為結構化數據格式并存儲于PostgreSQL數據庫。

6.根據權利要求1所述的基于RAG的多格式數據快速查詢方法，其特征在于，所述查詢指令由自然語言處理模塊根據用戶的查

7.根據權利要求1所述的基于RAG的多格式數據快速查詢方法，其特征在于，所述Faiss數據庫存儲的數據包括文檔內容的向量化表示，并結合外部知識庫中的結構化數據進行多格式數據檢索。

8.根據權利要求1所述的基于RAG的多格式數據快速查詢方法，其特征在于，所述查詢結果的精度通過查詢優化模塊進一步提高，所述查詢優化模塊基于歷史查詢數據及查詢類型對檢索結果進行加權排序。

...

【技術特征摘要】

1.基于rag的多格式數據快速查詢方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的基于rag的多格式數據快速查詢方法，其特征在于，faiss數據庫存儲通過自然語言處理模型生成的高維文本向量，所述文本向量通過bert模型生成。

3.根據權利要求1所述的基于rag的多格式數據快速查詢方法，其特征在于，所述查詢指令包括結構化查詢指令和非結構化查詢指令，所述結構化查詢指令通過sql語句在postgresql數據庫中執行，所述非結構化查詢指令通過faiss數據庫進行相似度檢索。

4.根據權利要求1所述的基于rag的多格式數據快速查詢方法，其特征在于，所述相似度檢索基于faiss數據庫中的向量索引，向量相似度計算公式如下：

5.根據權利要求1所述的基于rag的多格式數據快速查詢方法，其特征在...

【專利技術屬性】
技術研發人員：王雪芳，楊珍豪，
申請(專利權)人：北京億安天下科技股份有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術