System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于數據檢索領域,尤其涉及一種基于大語言模型知識增強的專業領域數據庫檢索方法、電子設備、介質。
技術介紹
1、隨著科技領域智能技術發展,涌現了越來越多公開的大規模領域綜合數據庫,如生命科學領域的英國生物樣本庫(uk?biobank,ukb),中國慢性病前瞻性研究隊列樣本庫(china?kadoorie?biobank,ckb),氣象科學領域的高空間分辨率全球天氣和氣候數據庫(worldclim)等等。領域綜合數據庫的數據規模龐大、數據類型繁雜,但數據庫本身對于每一類型的數據僅僅預設了檢索代碼(如關鍵詞)和檢索標準字段信息(如數據描述)。為了充分、合理地利用這些專業領域、規模龐大的綜合性數據庫,行之有效的數據檢索方法變得尤為重要。
2、目前,針對大規模領域綜合數據庫的數據檢索方法存在以下問題:
3、1.傳統的人工檢索方法主要由研究人員或領域從業者作為檢索人員,通過自身的領域知識和專業經驗對領域數據庫進行檢索,在處理大規模綜合數據庫時費時費力,并且檢索結果的質量容易受到檢索人員專業能力的影響。
4、2.雖然通過關鍵詞語義相似度進行檢索能夠快速地處理大規模綜合數據庫,但其性能容易受到數據庫自設關鍵詞和數據描述的限制,若關鍵詞較少或描述過于簡略,算法的檢索性能會受到較大影響。此外,該方法也容易受到戶輸入的查詢語言的影響,若查詢語言過于簡單或模糊,也會導致檢索錯配、遺漏等問題。
5、3.通過大模型構建高維特征向量進行語義相似度匹配的方法也易受到數據庫自設關鍵詞和數據描述的限制。通過
技術實現思路
1、針對現有技術不足,本專利技術提供了一種基于大語言模型知識增強的專業領域數據庫檢索方法、電子設備、介質。
2、第一方面,本專利技術實施例提供了一種基于大語言模型知識增強的專業領域數據庫檢索方法,所述方法包括:
3、獲取目標領域數據庫中每一類型數據對應的關鍵詞及其描述,并將每一類型數據對應的關鍵詞及其描述與數據鏈接、內容匹配,得到目標領域的sql表格;定義第一語料模板,基于第一語料模板串聯關鍵詞及其描述,得到數據提示文本;
4、定義第二語料模板,基于第二語料模板串聯用戶輸入的查詢文本,得到查詢提示文本;
5、將數據提示文本和查詢提示文本分別輸入至大語言模型,分別生成響應文本和檢索文本;
6、將查詢文本、檢索文本以及響應文本分別輸入自然語言處理模型,生成查詢文本特征、檢索文本特征以及響應文本特征;
7、對查詢文本特征和檢索文本特征進行加權融合,得到融合文本特征;
8、計算融合文本特征與響應文本特征之間的相似度,將相似度最高的前k個響應文本特征對應的數據從sql表格中導出,作為檢索結果。
9、第二方面,本專利技術實施例提供了一種電子設備,包括存儲器和處理器,其特征在于,所述存儲器與所述處理器耦接;其中,所述存儲器用于存儲程序數據,所述處理器用于執行所述程序數據以實現上述的基于大語言模型知識增強的專業領域數據庫檢索方法。
10、第三方面,本專利技術實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現上述的基于大語言模型知識增強的專業領域數據庫檢索方法。
11、第四方面,本專利技術實施例提供了一種計算機程序產品,包括計算機程序/指令,其特征在于,該計算機程序/指令被處理器執行時實現上述的基于大語言模型知識增強的專業領域數據庫檢索方法。
12、與現有技術相比,本專利技術的有益效果為:
13、(1)本專利技術通過獲取數據庫中不同類型數據的關鍵詞與描述,將查詢文本、檢索文本以及響應文本分別輸入自然語言處理模型,生成查詢文本特征、檢索文本特征以及響應文本特征,通過大語言模型進行知識推理,利用大語言模型的知識庫和上下文理解能力,可以獲得更多相關的背景信息和細節,更好地理解用戶查詢的意圖,同時,可以克服專業領域數據庫自設關鍵詞和數據描述的限制,有效提升檢索性能。
14、(2)對查詢文本特征和檢索文本特征進行加權融合,得到融合文本特征;融合文本特征再與響應文本特征進行相似度匹配,能夠快速地處理大規模綜合數據庫,有效提升數據的利用效率。
15、(3)本專利技術基于大語言模型的領域知識提升數據庫檢索性能,無需針對不同的專業領域數據庫設置外部知識庫,也無需對大語言模型進行訓練或微調,具有更強的通用性和更廣泛的應用場景;同時,本專利技術充分利用大語言模型的領域知識進行檢索,利用模型領域知識提升查詢語句與檢索內容的語義匹配性能,不易受到檢索人員自身經驗不足或外部知識庫不完善的影響,檢索性能更加穩定、可靠。
本文檔來自技高網...【技術保護點】
1.一種基于大語言模型知識增強的專業領域數據庫檢索方法,其特征在于,所述方法包括:
2.根據權利要求1所述的一種基于大語言模型知識增強的專業領域數據庫檢索方法,其特征在于,所述目標領域數據庫包括:英國生物樣本庫、中國慢性病前瞻性研究隊列樣本庫或氣象科學領域的高空間分辨率全球天氣和氣候數據庫。
3.根據權利要求1所述的一種基于大語言模型知識增強的專業領域數據庫檢索方法,其特征在于,所述第一語料模板為命令句或疑問句。
4.根據權利要求1所述的一種基于大語言模型知識增強的專業領域數據庫檢索方法,其特征在于,得到查詢提示文本的過程包括:
5.根據權利要求1所述的一種基于大語言模型知識增強的專業領域數據庫檢索方法,其特征在于,將查詢文本、檢索文本以及響應文本分別輸入自然語言處理模型,生成查詢文本特征、檢索文本特征以及響應文本特征的過程包括:
6.根據權利要求1所述的一種基于大語言模型知識增強的專業領域數據庫檢索方法,其特征在于,對查詢文本特征和檢索文本特征進行加權融合,得到融合文本特征的過程包括:
7.根據權利要求1所
8.一種電子設備,包括存儲器和處理器,其特征在于,所述存儲器與所述處理器耦接;其中,所述存儲器用于存儲程序數據,所述處理器用于執行所述程序數據以實現上述權利要求1-7任一項所述的基于大語言模型知識增強的專業領域數據庫檢索方法。
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現如權利要求1-7中任一所述的基于大語言模型知識增強的專業領域數據庫檢索方法。
10.一種計算機程序產品,包括計算機程序/指令,其特征在于,該計算機程序/指令被處理器執行時實現權利要求1-7中任一所述的基于大語言模型知識增強的專業領域數據庫檢索方法。
...【技術特征摘要】
1.一種基于大語言模型知識增強的專業領域數據庫檢索方法,其特征在于,所述方法包括:
2.根據權利要求1所述的一種基于大語言模型知識增強的專業領域數據庫檢索方法,其特征在于,所述目標領域數據庫包括:英國生物樣本庫、中國慢性病前瞻性研究隊列樣本庫或氣象科學領域的高空間分辨率全球天氣和氣候數據庫。
3.根據權利要求1所述的一種基于大語言模型知識增強的專業領域數據庫檢索方法,其特征在于,所述第一語料模板為命令句或疑問句。
4.根據權利要求1所述的一種基于大語言模型知識增強的專業領域數據庫檢索方法,其特征在于,得到查詢提示文本的過程包括:
5.根據權利要求1所述的一種基于大語言模型知識增強的專業領域數據庫檢索方法,其特征在于,將查詢文本、檢索文本以及響應文本分別輸入自然語言處理模型,生成查詢文本特征、檢索文本特征以及響應文本特征的過程包括:
6.根據權利要求1所述的一種基于大語言模型知識增強的專...
【專利技術屬性】
技術研發人員:羅城,馬寧,王笑,祁豫,薛云龍,
申請(專利權)人:之江實驗室,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。