System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及自然語言處理,尤其是一種關系抽取方法,更具體涉及一種基于增強知識檢索和大語言模型協同優化的產業污染知識關系抽取方法。
技術介紹
1、關系抽取在自然語言處理領域占據著核心地位,其目標是通過文本建模,從非結構化的中文文本中提取實體間的語義關系,并將其轉化為結構化數據。作為知識圖譜構建的關鍵步驟,關系抽取在多個領域發揮著重要作用,包括但不限于知識圖譜構建、問答系統、自動摘要和智能推薦。在城市環境管理中,有效識別產業污染風險及其相關因素對于制定有效的環境策略至關重要。
2、盡管傳統關系抽取方法依賴于特征工程和監督學習,但它們通常需要大量的標注數據,并且缺乏跨領域的通用性。這些方法依賴于手工設計的特征和淺層機器學習模型,難以捕捉句子中的多維語義信息,如詞匯、句法結構、上下文語義以及領域專有名詞。句子結構的多樣性和語義關系的復雜性使得傳統模型難以精確識別實體間的關系。隨著深度學習技術的快速發展,大語言模型通過大規模無監督學習,能夠掌握豐富的語義知識,從而在實體識別和關系抽取等信息提取任務中展現出強大的推理能力然而,現有的基于生成的關系抽取方法在處理長尾關系、復雜領域文本時仍存在局限,尤其是在缺乏上下文信息支持的情況下,大語言模型生成的關系可能不夠準確,無法滿足高精度關系抽取的需求。
3、當前,污染場地信息的多維度、多類型、多來源和大數據量特點,迫切需要通過數字化和信息化手段進行深入挖掘和管理。自動化的產業污染關系抽取方法對于從大規模非結構化文本中提取高質量知識至關重要,這不僅能夠提高信息檢索的準確性,還
技術實現思路
1、針對現有技術的不足,本專利技術提出了一種基于增強知識檢索與大語言模型協同優化的產業污染知識關系抽取方法。
2、本專利技術的技術方案為:一種基于增強知識檢索與大語言模型協同優化的產業污染知識關系抽取方法,包括以下步驟:
3、s1)、收集大規模某市污染數據,對收集到的文本進行分句、清洗處理,去除無效字符和噪音,構建訓練數據集d。
4、s2)、根據步驟s1)得到的訓練數據集d中的句子q,檢索q和與q有關系的實體對(包括:頭實體和尾實體)。將檢索到的查詢句子q進行編碼,構建編碼數據庫,使用余弦相似度計算得到相似度得分。將編碼數據庫中得分最高的句子作為與q相似的句子。
5、s3)、通過將查詢句子q及其相似語句輸入到提示構建器,構建針對特定實體對的提示指令,并利用大語言模型生成潛在關系以進行推理。
6、s4)、根據構建的提示指令,使用參數高效微調框架對大語言模型進行微調,生成高質量的關系抽取結果。
7、上述方法中,步驟s1)中,對收集到的文本進行分句、清洗處理,去除無效字符和噪音,構建訓練數據集d,具體如下:
8、將收集到的文本按句子進行分割。這可以通過基于標點符號(如句號、問號、感嘆號等)來實現,確保每個句子都被單獨提取。
9、刪除文本中的無效字符,如多余的空格、換行符、制表符等。
10、識別并去除文本中的噪音數據,包括但不限于無關的廣告、網頁信息、重復的內容、亂碼等。
11、對保留的文本內容進行初步驗證,確保其與預期的任務目標相關。
12、上述方法中,步驟s2)中,根據步驟s1)得到的訓練數據集d中的查詢句子q,檢索q和與q有關系的實體對(包括:頭實體和尾實體)。將檢索到的查詢句子q進行編碼,構建編碼數據庫,使用余弦相似度計算得到相似度得分。將編碼數據庫中得分最高的句子作為與q相似的句子,具體如下:
13、使用預訓練的bge-base-zh-v1.5模型作為編碼模型,將檢索到的查詢句子q輸入到編碼器模型中進行處理。模型對每個輸入的句子進行編碼,將其轉換為高維的向量,構建編碼數據庫。
14、使用余弦相似度,在編碼數據庫中,對每個向量計算該向量與所有訓練樣本的句子相似度得分.根據計算得到的余弦相似度得分,將數據庫中所有訓練句子的向量按相似度從高到低進行排序。從排序后的結果中選擇相似度最高的若干個句子作為最相似的查詢實例。余弦相似度的計算公式如下:
15、
16、其中,a和b是兩個嵌入向量,點積表示兩個向量之間的相似性,而分母是兩個向量的模長。相似度得分的取值范圍為[-1,1],分數越接近1,表示兩個嵌入向量的語義越相似。
17、根據計算得到的余弦相似度得分,將數據庫中所有訓練句子的嵌入按相似度從高到低進行排序。相似度得分越高,句子與查詢句子的語義越接近。從排序后的結果中選擇相似度最高的若干個句子作為最相似的查詢實例。
18、將最相似的句子實例集作為數據增強的輸入,生成一個相似數據集。該相似數據集中的句子與查詢句子q在語義上接近,從而可以用于增強訓練數據的多樣性。
19、上述方法中,步驟s3)中,通過將查詢句子q及其相似語句輸入到提示構建器,構建針對特定實體對的提示指令,并利用大語言模型生成潛在關系以進行推理,具體如下:
20、首先將訓練數據集d中的句子q、對應的實體對以及它們之間的關系輸入到提示構建器中,以便為生成任務提供必要的上下文信息。同時,將步驟s2)中檢索到的與q具有較高相似性的句子,連同這些相似句子中的實體對及其關系一同輸入到提示構建器中這些相似句不僅為大語言模型提供了更多的語境信息,還為目標實體對的關系推理提供了參考依據。
21、提示構建器接收所有輸入,并基于輸入的信息構建包含特定實體對的提示指令。這些提示指令旨在引導生成式模型生成正確的三元組關系。構建的提示指令包括以下關鍵元素:目標語句、目標實體對、相似句及其實體對和關系、以及模型可選擇的關系類型。這種多層次的提示設計,有助于大模型在生成過程中更好地理解實體之間的關系,確保生成結果的準確性和一致性。
22、上述方法中,步驟s4)中,根據構建的提示指令,使用參數高效微調框架對大語言模型進行微調,生成高質量的關系抽取結果,具體如下:
23、peft技術通過僅對大語言模型中一小部分參數進行微調,而非調整全部參數,有效應對了微調資源消耗大的挑戰。該方法在保持與全參數微調相近性能的同時,顯著降低了微調所需的資源。作為peft技術的一個實例,lora利用了低秩矩陣近似,通過引入兩個分別標記為a和b的低秩矩陣,實現了對大語言模型權重的微小調整。這種策略通過減少對大語言模型參數的總體更改,有助于在大語言模型的微調過程中降低內存使用量。例如,考慮到大語言模型的權重矩陣w0,其更新通過低秩分解進行約束,只涉及訓練b和a,其中b∈rd×r,a∈rr×k,r?min(d,k)。具體表達式如下:
24、
25、本專利技術選擇qwen1.5-7b大語言模型進行微調,以實現中文關系抽取任務。
26、在微調過程本文檔來自技高網...
【技術保護點】
1.一種基于增強知識檢索與大語言模型協同優化的產業污染知識關系抽取方法,其特征在于,包括如下具體步驟:
2.?根據權利要求?1?所述的一種基于增強知識檢索與大語言模型協同優化的產業污染知識關系抽取方法,其特征在于:步驟?S1)中,對收集到的文本進行分句、清洗處理,去除無效字符和噪音,構建訓練數據集?d,具體如下:
3.?根據權利要求?1?所述的一種基于增強知識檢索與大語言模型協同優化的產業污染知識關系抽取方法,其特征在于:步驟?S2)中,對于步驟?S1)所得的去噪文本,檢索句子q?和與?q?有關系的一對實體對(包括頭實體和尾實體)。將檢索到的查詢句子?q?進行編碼,構建編碼數據庫,使用余弦相似度計算得到相似度得分。將編碼數據庫中得分最高的句子作為與?q?相似的句子,具體步驟如下:
4.?根據權利要求?3?所述的一種基于增強知識檢索與大語言模型協同優化的產業污染知識關系抽取方法,其特征在于:步驟?S3)中,通過將查詢語句?q?及其相似語句輸入提示構建器,構建針對特定實體對的提示指令,并利用大語言模型生成潛在關系以進行推理,具體如下:
6.根據權利要求?4?所述的一種基于增強知識檢索與大語言模型協同優化的產業污染知識關系抽取方法,其特征在于:步驟?S4)中,根據構建有效的提示,使用參數高效微調框架對大語言模型進行微調,生成高質量的關系抽取結果,具體步驟如下:
...【技術特征摘要】
1.一種基于增強知識檢索與大語言模型協同優化的產業污染知識關系抽取方法,其特征在于,包括如下具體步驟:
2.?根據權利要求?1?所述的一種基于增強知識檢索與大語言模型協同優化的產業污染知識關系抽取方法,其特征在于:步驟?s1)中,對收集到的文本進行分句、清洗處理,去除無效字符和噪音,構建訓練數據集?d,具體如下:
3.?根據權利要求?1?所述的一種基于增強知識檢索與大語言模型協同優化的產業污染知識關系抽取方法,其特征在于:步驟?s2)中,對于步驟?s1)所得的去噪文本,檢索句子q?和與?q?有關系的一對實體對(包括頭實體和尾實體)。將檢索到的查詢句子?q?進行編碼,構建編碼數據庫,使用余弦相似度計...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。