System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及長文本關鍵詞生成,尤其涉及基于混合專家模型的關鍵詞生成方法、裝置、設備及介質。
技術介紹
1、獲取長文本數據中的關鍵信息是計算機自然語言處理
下的一個重要任務,可將以自然語言書寫的、較長的文本數據歸納為較短的若干個關鍵詞,對原文本的文章主旨、主題等關鍵信息進行概括性描述,從而為文本分類、文本語義檢索、文本情感分析等下游自然語言處理任務提供數據支持。
2、目前,對于長文本的關鍵詞獲取,主要有基于文本匹配、基于有監督機器學習模型、基于無監督機器學習模型、基于語義及依存關系的機器學習模型、基于生成式大語言模型等方法。
3、基于文本匹配的方法需要在開始前準備完整、精確的詞表,然后通過貪婪算法等文本查找算法從詞表中匹配出文本中出現的關鍵詞,優點是實現簡單、計算速度較快。
4、基于有監督機器學習模型的方法,同樣需要準備完整的詞表,并構建一個分類函數,然后通過數據標注及模型訓練,獲得正式用于關鍵詞提取的權重值,對詞表中的詞與輸入文本進行分類判斷。常用的有監督學習模型算法包括樸素貝葉斯、決策樹、神經網絡、邏輯回歸等,此方法優點是對于與訓練數據一致性較強的輸入數據,具有較為準確的生成結果。
5、基于無監督機器學習模型的方法,先使用文本分詞等算法構建候選關鍵詞的提取算法,將輸入文本轉換為候選關鍵詞列表,然后使用pagerank、tf-idf等評價算法,從候選關鍵詞列表中選取評價高的若干關鍵詞作為輸入文本的關鍵詞,對比起文本匹配、有監督機器學習方法,優點是無需準備完整的關鍵詞表,泛用
6、基于語義及依存關系的機器學習模型,通過引入依存關系分析算法、注意力機制、基于語義的詞向量等人工智能算法,基于詞向量等進行同義詞映射,并基于輸入文本中詞與詞的依存關系、詞頻等進行評價,最終獲得基于語義的關鍵詞列表。該方法對短文本具有較準確、泛用性較好的輸出結果。
7、基于生成式大語言模型的生成方法,使用了大語言模型(llm)技術,大語言模型具有對文本進行推理與泛化的能力,對單個具體問題有較強回答能力。通過合理編排輸入提示詞(prompt),能基于任何文本進行生成內容。
8、然而,上述現有方法中,基于文本匹配的方法、基于有監督機器學習模型的方法均需要事先準備關鍵詞詞表,詞表的完整度依賴于構建者自身的知識框架,無法有效地對涉及多個知識領域的文本進行關鍵詞生成。基于無監督機器學習模型的方法不對文本進行語義分析、語義理解,不能對文本中的同義詞、同義句進行歸納分析,關鍵詞只能為原文中出現的詞語,且生成結果受原文詞頻影響嚴重,只能得到片面的關鍵詞。
9、基于語義及依存關系的機器學習模型的方法,將輸入文本建立為語義樹、命名實體關系樹數據結構后進行分析,無法對包含句子較多的長文本進行理解,也無法正確處理包含敘事性文本、闡述多個觀點的文本。
10、基于生成式大語言模型的生成方法,由于大模型技術的局限性,無法對長文本進行有效記憶,所生成的關鍵詞質量較低,且存在模型幻覺現象,直接對輸入文本生成關鍵詞時,生成內容不可控。
11、綜上,上述現有方法存在的缺點主要有三個:(1)難以生成泛用性較好的關鍵詞;(2)無法生成原文中未完整出現的關鍵詞;(3)無法準確對長文本生成關鍵詞。
技術實現思路
1、本專利技術的目的在于提供基于混合專家模型的關鍵詞生成方法、裝置、設備及介質,可對由自然語言書寫的長文本生成格式與質量穩定的關鍵詞,泛用性強,不依賴關鍵詞詞表,適用于不同領域、用途的文本生成,以解決上述現有技術問題的至少之一。
2、第一方面,本專利技術提供了基于混合專家模型的關鍵詞生成方法,所述方法具體包括:
3、獲取長文本數據,對所述長文本進行文本預處理后,通過編碼器轉換為第一編碼數據,再將所述第一編碼數據輸入到經過預訓練的數據精煉模型,得到第二編碼數據;
4、將所述第二編碼數據輸入到經過預訓練的提問模型中生成若干個問題文本,通過分發器將若干個所述問題文本分發到各個對應的專家領域模型;
5、基于多個所述專家領域模型,分別對各個問題文本生成對應的回答文本;
6、根據質量評價器和和經過預訓練的推理專家模型對各個問題文本及對應的回答文本作出質量判斷,根據經過預訓練的關鍵詞概括模型對通過質量判斷的問題文本及對應的回答文本生成關鍵詞列表;
7、將所述關鍵詞列表通過解碼和相似度計算后,得到所述長文本數據的目標關鍵詞文本。
8、進一步的,所述數據精煉模型的預訓練步驟包括:
9、獲取公開新聞段落樣本,將所述公開新聞段落樣本通過處理后形成第一訓練集;
10、基于rwkv大語言模型,加載rwkv-5-world基座權重,將所述第一訓練集輸入到所述rwkv大語言模型通過lora方法進行finetune訓練,獲得數據精煉模型。
11、進一步的,所述分發器的生成步驟包括:
12、根據rwkv結構和自注意力機制構建初始分類器,所述初始分類器包括主路、第一旁路和第二旁路,所述主路用于接收所述提問模型發送的問題文本并以時序串行形式進行運算,所述第一旁路用于對各個問題文本進行分類標記,所述第二旁路用于進行文本編碼緩存;
13、在所述初始分類器中設置權重映射表,所述權重映射表用于記錄每個專家領域模型對不同分類的回答領域權重;
14、獲取不同知識領域的公開新聞數據并進行數據處理,形成第二訓練集;
15、將所述第二訓練集輸入到所述初始分類器進行訓練,得到分發器。
16、進一步的,所述根據質量評價器和和經過預訓練的推理專家模型對各個問題文本及對應的回答文本作出質量判斷,具體包括:
17、根據質量評價器判斷每個問題文本及對應的回答文本的語義內容和所述第二編碼數據的語義內容相關性程度,獲得第一判斷結果;
18、根據所述質量評價器判斷每個問題文本及對應的回答問題之間的語義內容相關性程度,獲得第二判斷結果;
19、根據所述第一判斷結果和所述第二判斷結果,確定第一問答文本,所述第一問答文本包括若干個問答組合,所述問答組合為通過所述質量評價器的篩選的問題文本及對應的回答文本;
20、根據推理專家模型對所述第一問答文本的每個問答組合分別作布爾判斷,獲得第三判斷結果,所述第三判斷結果為對所述第一問答文本的整體質量。
21、進一步的,所述質量評價器包括分詞器和文本相關性評價模型,所述文本相關性評價模型包括詞性分析單元、詞頻權重計算單元、文本分布概率集合生成單元和分布距離計算單元;
22、所述分詞器用于將輸入編碼的標點符號、非中文字符轉換為padding編碼并進行編碼劃分,得到待檢測詞列表;
23、所述詞性分析單元用于接收所述待檢測詞列表的當前詞編碼wn、上一個詞編碼wn-1和下一個詞編碼wn+1,然后輸出詞性分類向量sn;
24、所述詞頻本文檔來自技高網...
【技術保護點】
1.基于混合專家模型的關鍵詞生成方法,其特征在于,所述方法具體包括:
2.根據權利要求1所述的方法,其特征在于,所述數據精煉模型的預訓練步驟包括:
3.根據權利要求1所述的方法,其特征在于,所述分發器的生成步驟包括:
4.根據權利要求1所述的方法,其特征在于,所述根據質量評價器和和經過預訓練的推理專家模型對各個問題文本及對應的回答文本作出質量判斷,具體包括:
5.根據權利要求1所述的方法,其特征在于,所述質量評價器包括分詞器和文本相關性評價模型,所述文本相關性評價模型包括詞性分析單元、詞頻權重計算單元、文本分布概率集合生成單元和分布距離計算單元;
6.根據權利要求5所述的方法,其特征在于,所述詞頻權重計算單元包括多層FF網絡、預先設置的權重偏置映射表和權重矩陣,所述權重偏置映射表用于存儲特定的詞編碼的權重偏置值,所述權重矩陣用于存儲模型在訓練過程中學習到的參數;所述輸出詞性分類向量Sn,具體包括:
7.根據權利要求1所述的方法,其特征在于,所述將所述關鍵詞列表通過解碼和相似度計算后,得到所述長文本數據的目標關
8.基于混合專家模型的關鍵詞生成裝置,其特征在于,所述裝置具體包括:
9.一種計算機設備,其特征在于,包括:存儲器和處理器及存儲在存儲器上的計算機程序,當所述計算機程序在處理器上被執行時,實現如權利要求1至7中任一項所述的基于混合專家模型的關鍵詞生成方法。
10.一種計算機可讀存儲介質,其特征在于,其上存儲有計算機程序,所述計算機程序被處理器運行時,實現如權利要求1至7中任一項所述的基于混合專家模型的關鍵詞生成方法。
...【技術特征摘要】
1.基于混合專家模型的關鍵詞生成方法,其特征在于,所述方法具體包括:
2.根據權利要求1所述的方法,其特征在于,所述數據精煉模型的預訓練步驟包括:
3.根據權利要求1所述的方法,其特征在于,所述分發器的生成步驟包括:
4.根據權利要求1所述的方法,其特征在于,所述根據質量評價器和和經過預訓練的推理專家模型對各個問題文本及對應的回答文本作出質量判斷,具體包括:
5.根據權利要求1所述的方法,其特征在于,所述質量評價器包括分詞器和文本相關性評價模型,所述文本相關性評價模型包括詞性分析單元、詞頻權重計算單元、文本分布概率集合生成單元和分布距離計算單元;
6.根據權利要求5所述的方法,其特征在于,所述詞頻權重計算單元包括多層ff網絡、預先設置的權重偏置映射表和權重矩陣,所述權...
【專利技術屬性】
技術研發人員:羅曉然,陳興才,楊件,
申請(專利權)人:廣東南方網絡信息科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。