System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及數據庫處理,尤其涉及一種服務器及知識庫構建方法。
技術介紹
1、目前,在利用檢索增強生成(retrieval-augmented?generation,rag)技術對知識庫中的文檔進行檢索查詢時,通常會先對文檔進行切分,基于分塊的文檔進行召回,以此來提高查詢的召回率。
2、然而在進行模糊查詢時,對于媒資相關的文檔,切分后的分塊文檔信息不完整,不具有明確的語義信息,難以滿足模糊查詢的需求;如果不對文檔做切分進行查詢,同樣面臨文檔過長、難以捕獲整體的語義信息、以及與模糊查詢的語義存在較大偏離的問題,無法滿足模糊查詢的需求。
技術實現思路
1、為了解決上述技術問題,本申請提供了一種服務器及知識庫構建方法,用于解決現階段rag技術的知識庫無法滿足實際的模糊查詢需求的問題。
2、本申請的技術方案如下:
3、第一方面,本申請提供一種服務器,包括:存儲器,被配置為存儲指令;處理器與存儲器耦接,且被配置為:獲取媒資信息和查詢類別集合,媒資信息包括多個媒資標簽和多個媒資標簽對應的媒資信息內容,查詢類別集合包括多種查詢類別;確定查詢類別的至少一個媒資標簽組合;其中,媒資標簽組合包括一種或多種媒資標簽類別;確定媒資標簽組合對應的至少一個提示模版,提示模板用于指示查詢類別對應的數據文檔數量、媒資標簽內容;將提示模版輸入第一預設訓練模型,以得到數據文檔;其中,數據文檔用于表征提示模版對應的待查詢數據;根據數據文檔構建知識庫。
4、上述技術方案具有如下
5、在一些實施例中,媒資標簽包括:簡介、屬性、角色、演員、標題、封面、臺詞;處理器確定媒資標簽組合對應的至少一個媒資標簽組合,具體被配置為:獲取查詢類別對應的標簽組合策略,標簽組合策略用于指示多個媒資標簽中與查詢類別匹配的至少一個媒資標簽;根據標簽組合策略,從多個媒資標簽中確定與查詢類別匹配的至少一個媒資標簽;根據與查詢類別匹配的至少一個媒資標簽,確定查詢類別的至少一個媒資標簽組合。
6、上述技術方案具有如下優點或有益效果:在構建知識庫時,針對每一種查詢類別,提取查詢中的關鍵詞,來確定出該查詢類別要對何種媒資標簽進行重點查詢,并確定關鍵詞能夠組合成的媒資標簽組合的具體種類。
7、在一些實施例中,標簽組合策略還包括查詢類別對應的數據文檔數量,處理器確定媒資標簽組合對應的至少一個提示模版,具體被配置為:從媒資信息中確定和媒資標簽組合中的媒資標簽對應的媒資信息內容;根據媒資標簽組合中的媒資標簽對應的媒資信息內容和查詢類別對應的數據文檔數量,確定提示模版。
8、上述技術方案具有如下優點或有益效果:針對每一種媒資標簽組合,都確定一個提示模版,該提示模版具體指示訓練模型在進行訓練時,概括查詢結果的數據文檔的數量、針對何種媒資標簽內容進行查詢,使得訓練模型最終得出的數據文檔,能夠精準地對將要存入知識庫的待查詢數據進行概括解釋。
9、在一些實施例中,處理器根據數據文檔構建知識庫,具體配置為:將數據文檔存儲入數據庫中;將存儲完畢數據文檔的數據庫,確定為知識庫。
10、上述技術方案具有如下優點或有益效果:將全部查詢類別的數據文檔存儲入數據庫中形成用于用戶進行模糊查詢的知識庫。
11、在一些實施例中,處理器得到數據文檔之后,還被配置為:根據第二預設訓練模型對數據文檔進行改寫,改寫后的數據文檔的句法評估指標高于第一預設閾值;其中,句法評估指標包括以下至少一項:準確率、召回率、f1值、未標記依存度、標記依存度。
12、上述技術方案具有如下優點或有益效果:在數據文檔在存儲入數據庫之前,對數據文檔進行改寫,提高了數據文檔的語句通順、語意清晰程度,使得知識庫在被應用時得到的查詢結果更加容易被用戶理解。
13、在一些實施例中,處理器還被配置為:接收用戶查詢請求;在用戶查詢請求為模糊查詢的情況下,確定用戶查詢請求的向量編碼和知識庫中每個數據文檔的向量編碼;將知識庫中向量編碼與用戶查詢請求的向量編碼之間的語義相似度大于第二預設閾值的數據文檔,確定為目標數據文檔;根據目標數據文檔,確定用戶查詢請求的查詢結果。
14、上述技術方案具有如下優點或有益效果:在用戶提出模糊查詢請求時,能夠根據知識庫確定查詢結果。
15、在一些實施例中,處理器確定用戶查詢請求的向量編碼和知識庫中每個數據文檔的向量編碼,具體被配置為:根據向量編碼計算模型對用戶查詢請求和知識庫中每個數據文檔進行向量化處理,得到用戶查詢請求的向量編碼和知識庫中每個數據文檔的向量編碼。
16、上述技術方案具有如下優點或有益效果:根據向量計算模型來計算用戶查詢請求的向量編碼和每個數據文檔的向量編碼,保障后續流程中計算的兩者之間的語義相似度的準確程度。
17、在一些實施例中,處理器根據目標數據文檔,確定用戶查詢請求的查詢結果,具體被配置為:確定目標數據文檔對應的媒資信息內容;將用戶查詢請求、目標數據文檔和目標數據文檔對應的媒資信息內容輸入第三預設訓練模型,以得到用戶查詢請求的查詢結果;查詢結果用于展示用戶查詢請求對應的媒資信息內容中的文字信息和圖像信息。
18、上述技術方案具有如下優點或有益效果:通過第三預設訓練模型的訓練,能夠將用戶查詢請求、目標數據文檔和目標數據文檔對應的媒資信息內容轉化為可讀性和可視化程度較高的查詢結果,該查詢結果展示信息的效果更加直觀,更容易被用戶所理解。
19、在一些實施例中,處理器還被配置為:向顯示設備發送查詢結果。
20、上述技術方案具有如下優點或有益效果:使得用戶能夠從與服務器相連的顯示設備上看到查詢結果。
21、在一些實施例中,第一預設訓練模型的類型包括rag大數據模型、神經網絡模型、生成式ai大模型;第二預設訓練模型的類型包括rag大數據模型、神經網絡模型、生成式ai大模型;第三預設訓練模型的類型包括rag大數據模型、神經網絡模型、生成式ai大模型。
22、上述技術方案具有如下優點或有益效果:采用這些類型的預設模型,能夠使得訓練出的數據文檔更加滿足本申請的要求、數據文檔的改寫效果更好、查詢結果更容易被用戶理解。
23、第二方面,本申請提供一種顯示方法,包括:
24、獲取媒資信息和查詢類別集合,媒資信息包括多個媒資標簽和多個媒資標簽對應的媒資信息內容,查詢類別集合包括多種查詢類別;確定查詢類別的至少一個媒資標簽組合;其中,媒資標簽組合包括一種或多本文檔來自技高網...
【技術保護點】
1.一種服務器,其特征在于,包括:
2.根據權利要求1所述的服務器,其特征在于,所述媒資標簽包括:簡介、屬性、角色、演員、標題、封面、臺詞;所述處理器確定所述查詢類別的至少一個媒資標簽組合,具體被配置為:
3.根據權利要求2所述的服務器,其特征在于,所述標簽組合策略還包括所述查詢類別對應的數據文檔數量,所述處理器確定所述媒資標簽組合對應的至少一個提示模版,具體被配置為:
4.根據權利要求3所述的服務器,其特征在于,所述處理器根據所述數據文檔構建知識庫,具體配置為:
5.根據權利要求4所述的服務器,其特征在于,所述處理器得到所述數據文檔之后,還被配置為:
6.根據權利要求5所述的服務器,其特征在于,所述處理器還被配置為:
7.根據權利要求6所述的服務器,其特征在于,所述處理器確定所述用戶查詢請求的向量編碼和所述知識庫中每個數據文檔的向量編碼,具體被配置為:
8.根據權利要求7所述的服務器,其特征在于,所述處理器根據所述目標數據文檔,確定所述用戶查詢請求的查詢結果,具體被配置為:
9.根據
10.根據權利要求1-9中任一項所述的服務器,其特征在于,所述第一預設訓練模型的類型包括檢索增強生成RAG大數據模型、神經網絡模型、生成式人工智能AI大模型;
11.一種知識庫構建方法,其特征在于,包括:
...【技術特征摘要】
1.一種服務器,其特征在于,包括:
2.根據權利要求1所述的服務器,其特征在于,所述媒資標簽包括:簡介、屬性、角色、演員、標題、封面、臺詞;所述處理器確定所述查詢類別的至少一個媒資標簽組合,具體被配置為:
3.根據權利要求2所述的服務器,其特征在于,所述標簽組合策略還包括所述查詢類別對應的數據文檔數量,所述處理器確定所述媒資標簽組合對應的至少一個提示模版,具體被配置為:
4.根據權利要求3所述的服務器,其特征在于,所述處理器根據所述數據文檔構建知識庫,具體配置為:
5.根據權利要求4所述的服務器,其特征在于,所述處理器得到所述數據文檔之后,還被配置為:
6.根據權利要求5所述...
【專利技術屬性】
技術研發人員:白瑞峰,車進,黃山山,
申請(專利權)人:聚好看科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。