一種基于大語言模型的建筑行業物料分類與屬性抽取方法技術

技術編號：44188570 閱讀：10 留言：0更新日期：2025-02-06 18:29

本發明專利技術公開了一種基于大語言模型的建筑行業物料分類與屬性抽取方法，包括基于標準分類體系數據集與全品類數據集構建傳統數據庫和向量數據庫；輸入不規則文本，基于大語言模型采用標準分類名稱向量數據庫、標準分類樣本向量數據庫、全品類分類名稱向量數據庫和全品類分類樣本向量數據庫對不規則文本進行檢索，得到檢索信息；基于大語言模型對檢索信息進行初步匹配和二次匹配，得到物料分類名稱；基于大語言模型從傳統數據庫中對物料分類名稱進行屬性抽取，得到物料屬性。本發明專利技術利用大語言模型的語義理解能力與信息檢索機制整合多源數據，實現了高效準確的物料分類與屬性抽取。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及數據處理，具體涉及一種基于大語言模型的建筑行業物料分類與屬性抽取方法。

技術介紹

1、隨著人工智能技術的飛速發展，大語言模型（large?language?model,?llm）在多個行業中得到了廣泛應用。建筑行業作為一個涉及多個領域、流程復雜且數據量龐大的行業，對物料進行分類與屬性抽取的需求日益增加。在傳統的方法中，物料的分類與屬性提取主要依賴于人工經驗或規則驅動的系統。這些方法通常存在如下問題：效率低下，人工分類和屬性提取需要耗費大量的人力和時間，特別是在處理復雜和大量的數據時，效率難以滿足現代建筑項目快速推進的需求；難以擴展，規則驅動的系統通常需要預先定義大量的規則，以應對不同類型的物料和屬性。

2、然而，隨著新材料和新技術的不斷涌現，更新規則的成本高昂且周期長，難以快速適應行業的變化；信息孤島，在實際操作中，建筑物料信息往往分散在不同的數據源和平臺中，信息的孤島效應導致了數據無法有效集成，難以從全局上把握物料的分類和屬性信息。針對這些問題，利用大模型的語義理解能力進行建筑行業物料分類與屬性抽取工作應運而生。

3、大語言模型具有強大的語義理解能力，能夠理解復雜的文本信息，通過直接分析用戶的不規則輸入對物料進行分類和屬性提取，無需人為定義復雜的規則，這不僅降低了系統維護成本，還提高了系統的可擴展性和靈活性，同時還顯著提升了工作的效率。為此，亟待需要一種基于大語言模型的建筑行業物料分類與屬性提取方法。

技術實現思路

1、本專利技術的目的在于，

2、為實現上述目的，本專利技術采用的技術方案如下：

3、一種基于大語言模型的建筑行業物料分類與屬性抽取方法，包括以下步驟：

4、s1、基于標準分類體系數據集與全品類數據集構建傳統數據庫和向量數據庫，所述向量數據庫包括標準分類名稱向量數據庫、標準分類樣本向量數據庫、全品類分類名稱向量數據庫和全品類分類樣本向量數據庫；

5、s2、輸入不規則文本，基于大語言模型采用標準分類名稱向量數據庫、標準分類樣本向量數據庫、全品類分類名稱向量數據庫和全品類分類樣本向量數據庫對不規則文本進行檢索，得到檢索信息；基于大語言模型對檢索信息進行初步匹配和二次匹配，得到物料分類名稱；

6、s3、基于大語言模型從傳統數據庫中對物料分類名稱進行屬性抽取，得到物料屬性。

7、進一步地，所述傳統數據庫中包含有標準分類名稱表、標準分類樣本表、全品類分類名稱表和全品類分類樣本表。

8、進一步地，所述標準分類名稱表基于標準分類體系數據集構建，包括分類體系數據集中的一級分類名稱、二級分類名稱、三級分類名稱、四級分類名稱以及各級分類名稱對應的分類屬性、分類屬性值、分類定義和示例樣本；所述標準分類樣本表基于標準分類體系數據集構建，包括標準分類體系數據集中標準分類樣本，各標準分類樣本對應的一級分類名稱、二級分類名稱、三級分類名稱、四級分類名稱以及各級分類名稱對應的分類屬性、分類屬性值、分類定義；所述全品類分類名稱表基于全品類數據集構建，包括全品類數據集中的一級分類名稱、二級分類名稱、三級分類名稱、四級分類名稱以及各級分類名稱對應的分類屬性、分類屬性值、分類定義和示例樣本；所述全品類分類樣本表基于全品類數據集構建，包括全品類數據集中全品類分類樣本，各全品類分類樣本對應的一級分類名稱、二級分類名稱、三級分類名稱、四級分類名稱以及各級分類名稱對應的分類屬性、分類屬性值、分類定義。

9、進一步地，每級分類名稱采用分隔符隔開。

10、進一步地，所述標準分類名稱向量數據庫包含標準分類體系數據集中所有的一級分類名稱、二級分類名稱、三級分類名稱、四級分類名稱；所述標準分類樣本向量數據庫包含標準分類體系數據集中所有的標準分類樣本；所述全品類分類名稱向量數據庫包含全品類數據集中所有的一級分類名稱、二級分類名稱、三級分類名稱、四級分類名稱；全品類分類樣本向量數據庫包含全品類數據集中所有的全品類分類樣本。

11、進一步地，所述s2包括：s21、輸入不規則文本；s22、通過大語言模型和預設的第一prompt工程提取出不規則文本的物料名稱，將物料名稱分別在標準分類名稱向量數據庫和全品類分類名稱向量數據庫中進行檢索，得到相似的分類名稱，將檢索到的分類名稱分別在傳統數據庫的標準分類名稱表和全品類分類名稱表中查找出對應的分類屬性、分類屬性值、分類定義和示例樣本；同時將不規則文本分別在標準分類樣本向量數據庫和全品類分類樣本向量數據庫中進行檢索，得到相似的分類樣本，所述相似的分類樣本為與不規則文本相似的標準分類樣本和全品類分類樣本，將檢索到的分類樣本分別在傳統數據庫的標準分類樣本表和全品類分類樣本表中查找出對應的分類名稱、分類屬性、分類屬性值、分類定義；s23、將每次檢索出的分類名稱和對應的分類屬性、分類屬性值、分類定義和示例樣本合并為一個檢索信息，將不規則文本和檢索信息輸入大語言模型中，采用預設的第二prompt工程對每個檢索信息進行語言匹配，得到初步分類名稱；s24、將每個初步分類名稱在標準分類名稱向量數據庫中進行檢索，確認初步分類名稱在標準分類體系數據集的分類名稱里，然后在傳統數據庫的標準分類名稱表中找出初步分類名稱對應的分類屬性、分類屬性值、分類定義和示例樣本，將每個初步分類名稱和對應的分類屬性、分類屬性值、分類定義和示例樣本合并為一個分類信息，將不規則文本和分類信息輸入大語言模型中，采用預設的第三prompt工程對所有分類信息進行語言匹配，得到二次分類名稱，所述二次分類名稱為物料分類名稱。

12、進一步地，所述檢索信息和分類信息以開始標志為開始、結束標志為結束。

13、進一步地，所述s3包括：s31、在傳統數據庫的標準分類名稱表中檢索出s2物料分類名稱的所有分類屬性；s32、以檢索出的分類屬性為模板，利用大語言模型并采用預設的第四prompt工程對不規則文本進行分析，從不規則文本中提取出模板中所有分類屬性的分類屬性值，得到所有分類屬性和對應的分類屬性值輸出為物料屬性。

14、進一步地，所述s32中，若模板中一個分類屬性未在不規則文本提取出對應的分類屬性值，將當前分類屬性的分類屬性值賦予為空位。

15、與現有技術相比，本專利技術具有以下有益效果：

16、本專利技術利用大語言模型的語義理解能力與信息檢索機制整合多源數據，實現了高效準確的物料分類與屬性抽取。首先根據標準分類體系數據集與全品類數據集構建傳統數據庫和向量數據庫，確保涵蓋廣泛且精確的分類信息；接著采用向量數據庫與傳統數據庫相結合進行雙重檢索，召回與輸入信息相關的分類樣本以及分類信息；隨后整理這些信息，利用大語言模型的語義分析能力將整理的信息與用戶輸入進行匹配，精準確定物料分類名稱；最后，在物料分類名稱的基礎上，結合傳統數據庫并再次利用大語言模型的語義分析能力對用戶輸入進行解析，提取出物料屬性，確保分類名稱和分類屬本文檔來自技高網...

【技術保護點】

1.一種基于大語言模型的建筑行業物料分類與屬性抽取方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種基于大語言模型的建筑行業物料分類與屬性抽取方法，其特征在于，所述傳統數據庫中包含有標準分類名稱表、標準分類樣本表、全品類分類名稱表和全品類分類樣本表。

3.根據權利要求2所述的一種基于大語言模型的建筑行業物料分類與屬性抽取方法，其特征在于，所述標準分類名稱表基于標準分類體系數據集構建，包括分類體系數據集中的一級分類名稱、二級分類名稱、三級分類名稱、四級分類名稱以及各級分類名稱對應的分類屬性、分類屬性值、分類定義和示例樣本；所述標準分類樣本表基于標準分類體系數據集構建，包括標準分類體系數據集中標準分類樣本，各標準分類樣本對應的一級分類名稱、二級分類名稱、三級分類名稱、四級分類名稱以及各級分類名稱對應的分類屬性、分類屬性值、分類定義；所述全品類分類名稱表基于全品類數據集構建，包括全品類數據集中的一級分類名稱、二級分類名稱、三級分類名稱、四級分類名稱以及各級分類名稱對應的分類屬性、分類屬性值、分類定義和示例樣本；所述全品類分類樣本表基于全品類數據集構建

4.根據權利要求3所述的一種基于大語言模型的建筑行業物料分類與屬性抽取方法，其特征在于，每級分類名稱采用分隔符隔開。

5.根據權利要求3所述的一種基于大語言模型的建筑行業物料分類與屬性抽取方法，其特征在于，所述標準分類名稱向量數據庫包含標準分類體系數據集中所有的一級分類名稱、二級分類名稱、三級分類名稱、四級分類名稱；所述標準分類樣本向量數據庫包含標準分類體系數據集中所有的標準分類樣本；所述全品類分類名稱向量數據庫包含全品類數據集中所有的一級分類名稱、二級分類名稱、三級分類名稱、四級分類名稱；全品類分類樣本向量數據庫包含全品類數據集中所有的全品類分類樣本。

6.根據權利要求5所述的一種基于大語言模型的建筑行業物料分類與屬性抽取方法，其特征在于，所述S2包括：S21、輸入不規則文本；S22、通過大語言模型和預設的第一Prompt工程提取出不規則文本的物料名稱，將物料名稱分別在標準分類名稱向量數據庫和全品類分類名稱向量數據庫中進行檢索，得到相似的分類名稱，將檢索到的分類名稱分別在傳統數據庫的標準分類名稱表和全品類分類名稱表中查找出對應的分類屬性、分類屬性值、分類定義和示例樣本；同時將不規則文本分別在標準分類樣本向量數據庫和全品類分類樣本向量數據庫中進行檢索，得到相似的分類樣本，所述相似的分類樣本為與不規則文本相似的標準分類樣本和全品類分類樣本，將檢索到的分類樣本分別在傳統數據庫的標準分類樣本表和全品類分類樣本表中查找出對應的分類名稱、分類屬性、分類屬性值、分類定義；S23、將每次檢索出的分類名稱和對應的分類屬性、分類屬性值、分類定義和示例樣本合并為一個檢索信息，將不規則文本和檢索信息輸入大語言模型中，采用預設的第二Prompt工程對每個檢索信息進行語言匹配，得到初步分類名稱；S24、將每個初步分類名稱在標準分類名稱向量數據庫中進行檢索，確認初步分類名稱在標準分類體系數據集的分類名稱里，然后在傳統數據庫的標準分類名稱表中找出初步分類名稱對應的分類屬性、分類屬性值、分類定義和示例樣本，將每個初步分類名稱和對應的分類屬性、分類屬性值、分類定義和示例樣本合并為一個分類信息，將不規則文本和分類信息輸入大語言模型中，采用預設的第三Prompt工程對所有分類信息進行語言匹配，得到二次分類名稱，所述二次分類名稱為物料分類名稱。

7.根據權利要求6所述的一種基于大語言模型的建筑行業物料分類與屬性抽取方法，其特征在于，所述檢索信息和分類信息以開始標志為開始、結束標志為結束。

8.根據權利要求5所述的一種基于大語言模型的建筑行業物料分類與屬性抽取方法，其特征在于，所述S3包括：S31、在傳統數據庫的標準分類名稱表中檢索出S2物料分類名稱的所有分類屬性；S32、以檢索出的分類屬性為模板，利用大語言模型并采用預設的第四Prompt工程對不規則文本進行分析，從不規則文本中提取出模板中所有分類屬性的分類屬性值，得到所有分類屬性和對應的分類屬性值輸出為物料屬性。

9.根據權利要求8所述的一種基于大語言模型的建筑行業物料分類與屬性抽取方法，其特征在于，所述S32中，若模板中一個分類屬性未在不規則文本提取出對應的分類屬性值，將當前分類屬性的分類屬性值賦予為空位。

...

【技術特征摘要】

1.一種基于大語言模型的建筑行業物料分類與屬性抽取方法，其特征在于，包括以下步驟：

4.根據權利要求3所述的一種基于大語言模型的建筑行業物料分類與屬性抽取方法，其特征在于，每級分類名稱采用分隔符隔開。

6.根據權利要求5所述的一種基于大語言模型的建筑行業物料分類與屬性抽取方法，其特征在于，所述s2包括：s21、輸入不規則文本；s22、通過大語言模型和預設的第一prompt工程提取出不規則文本...

【專利技術屬性】
技術研發人員：謝明江，張振羽，陶趙文，張自平，
申請(專利權)人：云筑信息科技成都有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術