System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于一種問答方法,具體是涉及到一種基于知識圖譜和大語言模型的中文醫療問答方法及裝置。
技術介紹
1、早期的自然語言處理(natural?language?processing,nlp)領域主要依賴于基于規則的方法和統計模型。這些方法雖然取得了一定的成果,但在處理復雜的醫學語言現象和大規模醫療數據時顯得力不從心。隨著深度學習技術的引入,特別是循環神經網絡(recurrent?neural?network,rnn)、長短時記憶網絡(long?short-term?memory,lstm)以及后來的基于自注意力機制(self-attention?mechanism)的神經網絡架構transformer的提出,大語言模型的能力得到了質的飛躍。
2、transformer架構的出現是大語言模型領域發展的一個關鍵轉折點。它通過自注意力機制有效地捕捉了句子內部的長距離依賴關系,大大提高了語言模型對文本的理解和生成能力。基于transformer的語言模型(bert)更是將預訓練-微調范式推向了新的高度,通過在大規模語料庫上進行無監督預訓練,語言模型(bert)在多個nlp任務上取得了突破性的表現,特別是在醫療文本的理解和分類方面。
3、隨后,生成式預訓練模型(gpt系列模型)的推出進一步推動了大語言模型的發展。gpt-3等模型不僅在規模上實現了前所未有的突破,更在文本生成、對話系統、文本摘要等多個應用場景中展現了驚人的能力。這些模型通過海量數據的訓練,學會了豐富的語言知識和推理能力,能夠在多種語境下生成連貫、
4、盡管大語言模型能夠生成連貫的醫療文本,但在提供確切的醫療知識方面,它們可能缺乏精確度,這主要是由于模型依賴于統計方法,容易受到訓練數據中混雜的噪聲或誤導性信息的影響。由此可知,現有技術中僅依賴于大語言模型進行問答會存在生成的問答結果精確度較差的問題。
技術實現思路
1、本專利技術要解決的技術問題是現有技術常用的大語言模型能夠生成連貫的醫療文本,但在提供確切的醫療知識方面,可能缺乏精確度,導致生成的問答結果精確度較差,為了解決上述問題,本專利技術提供一種基于知識圖譜和大語言模型的中文醫療問答方法及裝置。
2、本專利技術的內容包括:
3、第一方面,本專利技術實施例提供了一種基于知識圖譜和大語言模型的中文醫療問答方法,包括:
4、將初始提問數據輸入第一大語言模型進行解析處理,得到癥狀信息、癥狀核心實體和問題信息;
5、將所述癥狀核心實體與預先構建的知識圖譜中的實體進行匹配,得到目標實體,所述目標實體為所述知識圖譜中與所述癥狀核心實體語義的匹配度大于閾值的實體;
6、基于所述目標實體在所述知識圖譜中進行相關知識檢索,得到目標三元組;
7、將所述目標三元組轉換為文本形式的輸入信息;
8、將所述輸入信息、所述癥狀信息和所述問題信息輸入第二大語言模型進行問答處理,得到目標回答。
9、可選地,所述將所述癥狀核心實體與預先構建的知識圖譜中的實體進行匹配,得到目標實體,包括:
10、將所述癥狀核心實體輸入訓練好的語言模型進行實體匹配處理,得到目標實體,所述語言模型基于bert構建。
11、可選地,所述將所述癥狀核心實體輸入訓練好的語言模型進行實體匹配處理,得到目標實體之前,所述方法還包括:
12、構建微調數據集,所述微調數據集包括多個核心實體,以及所述核心實體在所述知識圖譜中匹配的實體;
13、基于所述微調數據集對預訓練bert進行模型微調,得到所述訓練好的語言模型。
14、可選地,所述基于所述目標實體在所述知識圖譜中進行相關知識檢索,得到目標三元組,包括:
15、基于深度優先搜索算法,在所述知識圖譜中對所述目標實體進行知識檢索,并在搜索過程中利用剪枝函數進行優化,得到目標三元組。
16、可選地,所述基于深度優先搜索算法,在所述知識圖譜中對所述目標實體進行知識檢索,并在搜索過程中利用剪枝函數進行優化,得到目標三元組,包括:
17、將所述目標實體作為當前處理的實體,對所述當前處理的實體執行搜索操作,得到所述目標三元組;
18、在執行所述搜索操作得到尾實體的情況下,將所述尾實體作為當前處理的實體執行所述搜索操作,得到所述目標三元組;
19、其中,所述搜索操作包括:從所述知識圖譜中檢索與所述當前處理的實體相關聯的關系集合,并調用剪枝函數對所述關系集合進行過濾,得到目標關系,獲取與所述當前處理的實體通過所述目標關系關聯的尾實體,所述當前處理的實體、所述目標關系和所述尾實體構成所述目標三元組。
20、可選地,所述將所述目標三元組轉換為文本形式的輸入信息,包括:
21、預先構建自然語言模板,所述自然語言模板用于將三元組轉換為自然語言句子;
22、基于所述自然語言模板將所述目標三元組轉換為文本形式的輸入信息。
23、可選地,所述將所述輸入信息、所述癥狀信息和所述問題信息輸入第二大語言模型進行問答處理,得到目標回答,包括:
24、所述輸入信息和所述問題信息進行結合,得到結合信息;
25、將所述結合信息和所述癥狀信息作為上下文信息輸入所述第二大語言模型進行問答處理,得到所述目標回答。
26、第二方面,本專利技術實施例還提供了一種基于知識圖譜和大語言模型的中文醫療問答裝置,包括:
27、數據處理模塊,用于將初始提問數據輸入第一大語言模型進行解析處理,得到癥狀信息、癥狀核心實體和問題信息;
28、匹配核心實體模塊,用于將所述癥狀核心實體與預先構建的知識圖譜中的實體進行匹配,得到目標實體,所述目標實體為所述知識圖譜中與所述癥狀核心實體語義的匹配度大于閾值的實體;
29、知識檢索模塊,用于基于所述目標實體在所述知識圖譜中進行相關知識檢索,得到目標三元組;
30、轉換模塊,用于將所述目標三元組轉換為文本形式的輸入信息;
31、回答生成模塊,用于將所述輸入信息、所述癥狀信息和所述問題信息輸入第二大語言模型進行問答處理,得到目標回答。
32、第三方面,本專利技術實施例提供一種電子設備,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的程序;所述處理器,用于讀取存儲器中的程序實現如第一方面所述的基于知識圖譜和大語言模型的中文醫療問答方法中的步驟。
33、第四方面,本專利技術實施例提供一種可讀存儲介質,用于存儲程序,所述程序被處理器執行時實現如第一方面所述的基于知識圖譜和大語言模型的中文醫療問答方法中的步驟。
34、本專利技術的有益效果是,在本專利技術實施例中,將初始提問數據輸入第一大語言模型進行解析處理,得到癥狀信息、癥狀核心實體和問題信息;將癥狀核心實體與預先構建的知識圖譜中的實體進行匹配,得到目標實體;基于本文檔來自技高網...
【技術保護點】
1.一種基于知識圖譜和大語言模型的中文醫療問答方法,其特征是,包括:
2.如權利要求1所述的方法,其特征是,所述將所述癥狀核心實體與預先構建的知識圖譜中的實體進行匹配,得到目標實體,包括:
3.如權利要求2所述的方法,其特征是,所述將所述癥狀核心實體輸入訓練好的語言模型進行實體匹配處理,得到目標實體之前,所述方法還包括:
4.如權利要求1所述的方法,其特征是,所述基于所述目標實體在所述知識圖譜中進行相關知識檢索,得到目標三元組,包括:
5.如權利要求4所述的方法,其特征是,所述基于深度優先搜索算法,在所述知識圖譜中對所述目標實體進行知識檢索,并在搜索過程中利用剪枝函數進行優化,得到目標三元組,包括:
6.如權利要求1所述的方法,其特征是,所述將所述目標三元組轉換為文本形式的輸入信息,包括:
7.如權利要求1所述的方法,其特征是,所述將所述輸入信息、所述癥狀信息和所述問題信息輸入第二大語言模型進行問答處理,得到目標回答,包括:
8.一種基于知識圖譜和大語言模型的中文醫療問答裝置,其特征是,包括:
...【技術特征摘要】
1.一種基于知識圖譜和大語言模型的中文醫療問答方法,其特征是,包括:
2.如權利要求1所述的方法,其特征是,所述將所述癥狀核心實體與預先構建的知識圖譜中的實體進行匹配,得到目標實體,包括:
3.如權利要求2所述的方法,其特征是,所述將所述癥狀核心實體輸入訓練好的語言模型進行實體匹配處理,得到目標實體之前,所述方法還包括:
4.如權利要求1所述的方法,其特征是,所述基于所述目標實體在所述知識圖譜中進行相關知識檢索,得到目標三元組,包括:
5.如權利要求4所述的方法,其特征是,所述基于深度優先搜索算法,在所述知識圖譜中對所述目標實體進行知識檢索,并在搜索過程中利用剪枝函數進行優化,得到目標三元組,包括:
6.如權利要求1所述的方法,...
【專利技術屬性】
技術研發人員:沈言文,徐大宏,李希,付磊,劉宏,
申請(專利權)人:湖南師范大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。