基于本地知識庫與自然語言處理大模型的智慧煤礦方法技術

技術編號：41091875 閱讀：17 留言：0更新日期：2024-04-25 13:51

基于本地知識庫與自然語言處理大模型的智慧煤礦方法，所述方法包括以下步驟：讀取本地文件，處理構建本地知識庫；基于用戶提問在本地知識庫內檢索相似內容；基于檢索相似內容和提問構建模板并結合自然處理大模型生成答案，能夠根據用戶提問可快速檢索本地知識庫內相關知識并提供準確答案，減少用戶對海量文件的檢索、查閱時間，加快問題的解決或制度的學習；所使用的自然語言處理大模型算法僅用于推理、潤色、總結，并不需要耗費人力物力構建大量問答數據集對模型進行微調訓練；同時可通過對大模型的量化進一步降低算法部署成本。

全部詳細技術資料下載

【技術實現步驟摘要】

：本專利技術涉及基于本地知識庫與自然語言處理大模型的智慧煤礦方法。

技術介紹

0、
技術介紹
：

1、在煤礦行業，知識的復雜性和設計領域的多樣性使得相關知識和制度的系統化學習和檢索變得異常困難，煤礦行業涉及到地質、采礦、安全、環保等多個領域，每個領域都有其獨特的知識體系和制度要求，這些知識體系和制度要求相互交織，形成了一個錯綜復雜的網絡。

2、首先，煤礦行業的專業知識體系龐大且龐雜，從地質勘探到礦井設計，從采礦作業到安全管理，每個環節都有大量的專業知識需要掌握；這些知識之間相互聯系，但又各自獨立，形成了一個龐大的知識體系，尤其是大多文件并不直接可見于互聯網，導致搜索引擎等效果并不好，對于相關從業者，要在這個體系中找到需要的知識和某些規章制度費時費力。

3、其次，煤礦行業的設計領域繁多且不斷變化，新的設計理念、新的技術手段、新的管理制度不斷涌現，使得原有的知識和制度體系變得更加復雜；在這種情況下，要想系統地學習和檢索相關知識和制度，就需要不斷地更新自己的知識體系和適應新的環境變化。同時，煤礦行業作為能源行業，安全生產是重中之重，這就需要從業者要不斷學習新的知識、遵守新的規章制度。

技術實現思路

0、
技術實現思路
：

1、本專利技術實施例提供了基于本地知識庫與自然語言處理大模型的智慧煤礦方法，方法設計合理，基于構建的本地知識庫結合自然語言處理大模型，在注重本地知識保密性的同時，使從業者能夠快速獲得煤礦行業疑問的答案與相關制度的介紹與解讀，加快問

2、本專利技術為解決上述技術問題所采用的技術方案是：

3、基于本地知識庫與自然語言處理大模型的智慧煤礦方法，所述方法包括以下步驟：

4、s1，讀取本地文件，處理構建本地知識庫；

5、s2，基于用戶提問在本地知識庫內檢索相似內容；

6、s3，基于檢索相似內容和提問構建模板并結合自然處理大模型生成答案。

7、讀取本地文件，處理構建本地知識庫包括以下步驟：

8、s1.1，加載多格式文件，對于word、csv、txt、md格式的文件，通過結構化文件加載器，提取文件中的文本；同時，針對pdf格式、jpeg圖片文件使用ocr算法提取其中的內容；

9、s1.2，根據中文文本特點與常見文件內容特點，將所提取的文本內容根據中文書寫習慣，按照段落、句號進行多級分塊；將所有文本內容按照段落分隔符進行切分，分成多個文本塊組合；對于超過閾值數目的段落文本，按照句號標點符號進行二次切分；

10、s1.3，將文本內容使用預訓練模型將其映射為文本特征向量，預訓練模型選擇m3e模型，由由mokaai訓練，通過千萬級的中文句對數據集進行訓練獲得，適合用于中文文本的向量化,過程如下式所示：

11、ftext＝f(xtext)

12、其中，xtext表示輸入文本，f()表示文本嵌入預訓練模型。

13、所述本地知識庫采用faiss向量數據庫進行構建，以提供快速的相似性搜索和聚類能力，通過構建緊湊的索引結構來加速搜索過程，以在大規模數據集中快速找到與給定查詢向量最相似的向量，同時，可支持多種索引類型，包括平面索引、倒排文件索引和哈希索引，每種索引類型適用于不同的數據特點和搜索需求。

14、基于用戶提問在本地知識庫內檢索相似內容包括以下步驟：

15、s2.1，將用戶傳入的問題輸入預訓練模型生成對應的嵌入相連，使用了m3e模型將問題轉換成查詢向量，過程如下式所示：

16、fquestion＝f(xquestion)

17、其中，xquestion表示用戶輸入的查詢問題，f()表示文本嵌入預訓練模型；

18、s2.2，計算與本地知識庫中特征向量的重合度，根據重合度的排名返回前5個特征向量，其中，重合度的計算選擇余弦相似度方法計算查詢向量與本地知識庫中存儲的特征向量的相似度，基于相似度的排序召回與查詢向量相近的5條特征向量，計算公式如下所示：

19、

20、其中，fquestion表示查詢向量，fkonwledge表示知識庫中的向量，表示向量內積操作。

21、基于檢索相似內容和提問構建模板并結合自然處理大模型生成答案包括以下步驟：

22、s3.1，將獲取的5條與查詢向量相似的本地特征向量進行解碼，將其轉換為對應的文本，獲得相近文本塊，公式如下所示：

23、ytexr＝poerokenzer(x)

24、其中，x表示查詢向量以及本地知識庫中的向量，fvetokenrzer()表示反分詞器，用于將嵌入向量映射成對應的文本內容，ytext表示某一向量對應的文本內容；

25、s3.2，將獲取的相近文本塊和查詢問題來構建模板；

26、s3.3，采用構建的模板對大型語言模型進行提示學習處理，針對用戶提問進行準確回答。

27、所述大型語言模型采用chatglm2模型。

28、所述方法的硬件系統包括具有ai芯片的服務器，配合手機app和應用系統使用。

29、本專利技術采用上述結構和方法，根據用戶提問可快速檢索本地知識庫內相關知識并提供準確答案，減少用戶對海量文件的檢索、查閱時間，加快問題的解決或制度的學習；所使用的自然語言處理大模型算法僅用于推理、潤色、總結，并不需要耗費人力物力構建大量問答數據集對模型進行微調訓練；同時可通過對大模型的量化進一步降低算法部署成本；知識庫的構建中所使用的向量數據庫類型、文本嵌入預訓練模型以及問答中所使用的自然語言處理大模型可靈活的更換、迭代升級，具備高度靈活性，可根據用戶的選擇搭配多種組合方案部署使用，具有靈活實用、高效精準的優點。

本文檔來自技高網...

【技術保護點】

1.基于本地知識庫與自然語言處理大模型的智慧煤礦方法，其特征在于，所述方法包括以下步驟：

2.根據權利要求1所述的基于本地知識庫與自然語言處理大模型的智慧煤礦方法，其特征在于，讀取本地文件，處理構建本地知識庫包括以下步驟：

3.根據權利要求1所述的基于本地知識庫與自然語言處理大模型的智慧煤礦方法，其特征在于：所述本地知識庫采用Faiss向量數據庫進行構建，以提供快速的相似性搜索和聚類能力，通過構建緊湊的索引結構來加速搜索過程，以在大規模數據集中快速找到與給定查詢向量最相似的向量，同時，可支持多種索引類型，包括平面索引、倒排文件索引和哈希索引，每種索引類型適用于不同的數據特點和搜索需求。

4.根據權利要求1所述的基于本地知識庫與自然語言處理大模型的智慧煤礦方法，其特征在于，基于用戶提問在本地知識庫內檢索相似內容包括以下步驟：

5.根據權利要求4所述的基于本地知識庫與自然語言處理大模型的智慧煤礦方法，其特征在于，基于檢索相似內容和提問構建模板并結合自然處理大模型生成答案包括以下步驟：

6.根據權利要求5所述的基于本地知識庫與

7.根據權利要求1所述的基于本地知識庫與自然語言處理大模型的智慧煤礦方法，其特征在于：所述方法的硬件系統包括具有AI芯片的服務器，配合手機APP和應用系統使用。

...

【技術特征摘要】

1.基于本地知識庫與自然語言處理大模型的智慧煤礦方法，其特征在于，所述方法包括以下步驟：

2.根據權利要求1所述的基于本地知識庫與自然語言處理大模型的智慧煤礦方法，其特征在于，讀取本地文件，處理構建本地知識庫包括以下步驟：

3.根據權利要求1所述的基于本地知識庫與自然語言處理大模型的智慧煤礦方法，其特征在于：所述本地知識庫采用faiss向量數據庫進行構建，以提供快速的相似性搜索和聚類能力，通過構建緊湊的索引結構來加速搜索過程，以在大規模數據集中快速找到與給定查詢向量最相似的向量，同時，可支持多種索引類型，包括平面索引、倒排文件索引和哈希索引，每種索引類型適用于不同的數據特點和搜索需求。

【專利技術屬性】
技術研發人員：王海濤，高楨，王卜堂，田兆燕，邵國鵬，張浩，
申請(專利權)人：云鼎科技股份有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術