System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本專利技術涉及數(shù)據(jù)處理,具體涉及一種基于提示詞的知識圖譜構建系統(tǒng)與方法。
技術介紹
1、當今社會互聯(lián)網(wǎng)快速發(fā)展,信息呈爆炸式增長。新聞報道、社交媒體帖子、博客文章等大量出現(xiàn)在生活中,這些內(nèi)容中包含了大量有價值的信息,但由于這些信息的格式多為不規(guī)范、復雜的非結構化形式,傳統(tǒng)的數(shù)據(jù)庫查詢方法無法直接應用,知識圖譜和信息抽取技術等應運而生。
2、傳統(tǒng)關系型數(shù)據(jù)庫主要是基于表結構來存儲和組織數(shù)據(jù),這種結構非常適合處理結構化數(shù)據(jù)。然而,非結構化數(shù)據(jù)通常沒有固定的結構或模式,傳統(tǒng)關系型數(shù)據(jù)庫數(shù)據(jù)結構的靈活性不足。知識圖譜是一個由節(jié)點(代表實體)和邊(代表實體間的關系)組成的圖結構,它能夠以圖形化的方式展示知識中的概念和描述真實世界中事物之間的關聯(lián)。簡單來說,它就像是一個大型的、結構化的知識庫,里面包含了各種實體以及它們之間的關系。這種結構化的表示方式能夠清晰地展示實體之間的關系和層級結構,使得機器可以更好的理解和推理現(xiàn)實世界中的復雜信息。
3、當前,知識圖譜在服務領域的應用顯示出顯著的潛力和價值。作為一種結構化的知識表示方法,知識圖譜能夠?qū)⒍喾N實體、屬性和關系進行關聯(lián),并以圖形方式呈現(xiàn)。然而,在特定領域構建知識圖譜時,通常需要投入大量的人力和物力進行數(shù)據(jù)標注以訓練模型,這使得中小型企業(yè)或團隊難以快速構建所需的知識圖譜。此外,傳統(tǒng)的知識圖譜構建方式往往將各種信息一并整合,結果可能使得圖譜內(nèi)容龐大且冗余,從而增加了用戶在使用過程中篩選和提取有效信息的難度。
技術實現(xiàn)思路
1
2、第一方面,本專利技術提供了一種基于提示詞的知識圖譜構建系統(tǒng),包括:
3、數(shù)據(jù)收集模塊,用于獲取非結構化文檔集合和規(guī)則抽取文件;根據(jù)預設的元數(shù)據(jù),確定非結構化文檔集合中各個文檔對應的文檔內(nèi)容與元數(shù)據(jù)屬性值之間的映射關系;將各文檔對應的文檔內(nèi)容與元數(shù)據(jù)屬性值之間的映射關系發(fā)送至向量數(shù)據(jù)存儲模塊;將規(guī)則抽取文件發(fā)送至提示詞自動生成模塊;
4、向量數(shù)據(jù)存儲模塊,用于基于接收到的各文檔對應的文檔內(nèi)容與元數(shù)據(jù)屬性值之間的映射關系;對各文檔的文檔內(nèi)容進行清洗和切塊處理,得到多個文本塊;確定各文本塊對應的向量化數(shù)據(jù);根據(jù)各文檔對應的文檔內(nèi)容與元數(shù)據(jù)屬性值之間的映射關系、各文本塊及對應的向量化數(shù)據(jù)構建向量數(shù)據(jù)庫;
5、提示詞自動生成模塊,用于提取規(guī)則抽取文件中的規(guī)則數(shù)據(jù);將規(guī)則數(shù)據(jù)嵌入到預設的初始提示詞審核模板和初始提示詞推理模板中,得到目標提示詞審核模板和目標提示詞推理模板;將目標提示詞審核模板發(fā)送至問題審核模塊;將目標提示詞推理模板發(fā)送至提示詞判斷模塊;規(guī)則數(shù)據(jù)包括領域信息和關系類型;
6、問題審核模塊,用于接收并存儲用戶輸入的攜帶用戶身份標識的繪制指令;根據(jù)目標提示詞審核模板,對繪制指令進行審核,若審核未通過,則發(fā)出提醒消息,提醒用戶輸入合規(guī)的繪制指令,若審核通過,則根據(jù)繪制指令向提示詞判斷模塊發(fā)送目標數(shù)據(jù);
7、提示詞判斷模塊,用于將接收到的目標提示詞推理模板寫入智能推理與執(zhí)行模塊的提示詞單元中,并在接收到目標數(shù)據(jù)后,將目標數(shù)據(jù)輸入至智能推理與執(zhí)行模塊;
8、智能推理與執(zhí)行模塊,用于將目標數(shù)據(jù)嵌入提示詞單元中的目標提示詞模板后傳入具備智能體功能的大語言模型;通過大語言模型從目標數(shù)據(jù)中拆解出實體要素;根據(jù)繪制指令所攜帶的用戶身份標識和拆解出的各實體要素,在圖數(shù)據(jù)庫中查找與各實體要素相關的知識圖譜,若找到,則將找到的知識圖譜返回給用戶,若未找到,則根據(jù)各實體要素,查詢向量數(shù)據(jù)庫,獲取與目標數(shù)據(jù)相關的候選文本塊,通過大語言模型,對候選文本塊進行實體關系抽取,并根據(jù)抽取結果構建實體關系三元組集合,根據(jù)實體關系三元組集合,構建目標知識圖譜,將目標知識圖譜以用戶身份標識命名后存儲至圖數(shù)據(jù)庫,并將目標知識圖譜返回給用戶。
9、第二方面,本專利技術還提供了一種基于提示詞的知識圖譜構建方法,包括:
10、獲取非結構化文檔集合和規(guī)則抽取文件;
11、根據(jù)預設的元數(shù)據(jù),確定非結構化文檔集合中各個文檔對應的文檔內(nèi)容與元數(shù)據(jù)屬性值之間的映射關系;
12、基于各文檔對應的文檔內(nèi)容與元數(shù)據(jù)屬性值之間的映射關系,對各文檔的文檔內(nèi)容進行清洗和切塊處理,得到多個文本塊,并確定各文本塊對應的向量化數(shù)據(jù),根據(jù)各文檔對應的文檔內(nèi)容與元數(shù)據(jù)屬性值之間的映射關系、各文本塊及對應的向量化數(shù)據(jù)構建向量數(shù)據(jù)庫;
13、提取規(guī)則抽取文件中的規(guī)則數(shù)據(jù),規(guī)則數(shù)據(jù)包括領域信息和關系類型;
14、將規(guī)則數(shù)據(jù)嵌入到預設的初始提示詞審核模板和初始提示詞推理模板中,得到目標提示詞審核模板和目標提示詞推理模板;
15、響應于用戶輸入的攜帶用戶身份標識的繪制指令,根據(jù)目標提示詞審核模板,對繪制指令進行審核,若審核未通過,則發(fā)出提醒消息,提醒用戶輸入合規(guī)的繪制指令,若審核通過,則根據(jù)繪制指令確定目標數(shù)據(jù);
16、基于預設的具備智能體功能的大語言模型,根據(jù)目標數(shù)據(jù)和目標提示詞推理模板,從目標數(shù)據(jù)中拆解出實體要素;
17、根據(jù)繪制指令所攜帶的用戶身份標識和拆解出的各實體要素,在圖數(shù)據(jù)庫中查找與各實體要素相關的知識圖譜,若找到,則將找到的知識圖譜返回給用戶,若未找到,則根據(jù)各實體要素,查詢向量數(shù)據(jù)庫,獲取與目標數(shù)據(jù)相關的候選文本塊,通過大語言模型,對候選文本塊進行實體關系抽取,并根據(jù)抽取結果構建實體關系三元組集合,根據(jù)實體關系三元組集合,構建目標知識圖譜,將目標知識圖譜以用戶身份標識命名后存儲至圖數(shù)據(jù)庫,并將目標知識圖譜返回給用戶。
18、本專利技術的有益效果:
19、本專利技術提供的基于提示詞的知識圖譜構建系統(tǒng)與方法,借助大語言模型的泛化能力在一定程度上減輕了主觀因素的影響,同樣大大降低了人工成本。“提示詞”作為大語言模型所接收的唯一輸入指令,引導模型理解用戶的意圖并作出相關的響應。與此同時,通過引入向量數(shù)據(jù)庫和執(zhí)行工具,不僅減少了模型幻覺的產(chǎn)生,還使模型能夠在無需訓練的情況下保持知識更新。采用對話模式進行知識圖譜的動態(tài)構建與豐富,憑借大語言模型的問題理解和行為規(guī)劃能力,準確定位并抽取與用戶繪制指令相關內(nèi)容,實現(xiàn)高效、精準的知識圖譜構建。
20、以下將結合附圖及實施例對本專利技術做進一步詳細說明。
本文檔來自技高網(wǎng)...【技術保護點】
1.一種基于提示詞的知識圖譜構建系統(tǒng),其特征在于,包括:
2.根據(jù)權利要求1所述的系統(tǒng),其特征在于,所述數(shù)據(jù)收集模塊,具體用于根據(jù)所述非結構化文檔集合中各個文檔的格式解析相應文檔,得到各所述文檔的文檔內(nèi)容;根據(jù)所述預設的元數(shù)據(jù)和各所述文檔的文檔內(nèi)容,確定各所述文檔對應的元數(shù)據(jù)屬性值,得到各所述文檔對應的文檔內(nèi)容與元數(shù)據(jù)屬性值之間的映射關系。
3.根據(jù)權利要求2所述的系統(tǒng),其特征在于,所述向量數(shù)據(jù)存儲模塊,具體用于基于接收到的各所述文檔對應的文檔內(nèi)容與元數(shù)據(jù)屬性值之間的映射關系,對各所述文檔的文檔內(nèi)容進行數(shù)據(jù)清洗,得到相應的清洗后的文檔;根據(jù)預設的切分規(guī)則,將各所述清洗后的文檔切分成文本片段;對切分得到的各所述文本片段進行分詞處理,并對分詞處理結果進行停用詞處理;根據(jù)停用詞處理結果,構建各所述文本塊;通過嵌入模型,對各所述文本塊進行向量化處理,得到各所述文本塊對應的向量化數(shù)據(jù)。
4.根據(jù)權利要求3所述的系統(tǒng),其特征在于,所述提示詞自動生成模塊,具體用于響應于接收到的所述規(guī)則抽取文件,根據(jù)所述規(guī)則抽取文件的格式,選擇文件解析器;通過所選取的文件解析
5.根據(jù)權利要求4所述的系統(tǒng),其特征在于,所述問題審核模塊,具體用于將所述繪制指令存入內(nèi)部緩存單元,并根據(jù)所述繪制指令所攜帶的用戶身份標識;從所述緩存單元中獲取歷史對話數(shù)據(jù),將所述繪制指令和所述歷史對話數(shù)據(jù)確定為所述目標數(shù)據(jù);將所述目標數(shù)據(jù)發(fā)送至所述提示詞判斷模塊。
6.根據(jù)權利要求5所述的系統(tǒng),其特征在于,所述智能推理與執(zhí)行模塊,具體用于通過所述預設的具備智能體功能的大語言模型對所述目標數(shù)據(jù)進行語義分析,拆解出所述目標數(shù)據(jù)中的實體要素;確定拆解出的各實體要素之間的依賴關系;根據(jù)確定出的依賴關系,確定各所述實體要素的獲取順序和獲取方式;根據(jù)各所述實體要素的獲取順序和獲取方式,確定搜索與信息獲取計劃,所述搜索與信息獲取計劃包括所述圖數(shù)據(jù)庫和所述向量數(shù)據(jù)庫的查詢策略,所述向量數(shù)據(jù)庫的查詢策略包括向量檢索方法、相似度閾值、數(shù)據(jù)源和工具選取規(guī)則;基于所述搜索與信息獲取計劃,根據(jù)各所述實體要素的獲取方式,調(diào)用相應工具查詢所述向量數(shù)據(jù)庫,獲取與所述目標數(shù)據(jù)相關的文本塊作為所述候選文本塊。
7.一種基于提示詞的知識圖譜構建方法,其特征在于,包括:
8.一種電子設備,其特征在于,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
9.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)內(nèi)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求7所述的方法。
10.一種程序產(chǎn)品,其特征在于,所述程序產(chǎn)品包括計算機程序指令,所述計算機程序指令被執(zhí)行時,能夠?qū)崿F(xiàn)如權利要求7所述方法。
...【技術特征摘要】
1.一種基于提示詞的知識圖譜構建系統(tǒng),其特征在于,包括:
2.根據(jù)權利要求1所述的系統(tǒng),其特征在于,所述數(shù)據(jù)收集模塊,具體用于根據(jù)所述非結構化文檔集合中各個文檔的格式解析相應文檔,得到各所述文檔的文檔內(nèi)容;根據(jù)所述預設的元數(shù)據(jù)和各所述文檔的文檔內(nèi)容,確定各所述文檔對應的元數(shù)據(jù)屬性值,得到各所述文檔對應的文檔內(nèi)容與元數(shù)據(jù)屬性值之間的映射關系。
3.根據(jù)權利要求2所述的系統(tǒng),其特征在于,所述向量數(shù)據(jù)存儲模塊,具體用于基于接收到的各所述文檔對應的文檔內(nèi)容與元數(shù)據(jù)屬性值之間的映射關系,對各所述文檔的文檔內(nèi)容進行數(shù)據(jù)清洗,得到相應的清洗后的文檔;根據(jù)預設的切分規(guī)則,將各所述清洗后的文檔切分成文本片段;對切分得到的各所述文本片段進行分詞處理,并對分詞處理結果進行停用詞處理;根據(jù)停用詞處理結果,構建各所述文本塊;通過嵌入模型,對各所述文本塊進行向量化處理,得到各所述文本塊對應的向量化數(shù)據(jù)。
4.根據(jù)權利要求3所述的系統(tǒng),其特征在于,所述提示詞自動生成模塊,具體用于響應于接收到的所述規(guī)則抽取文件,根據(jù)所述規(guī)則抽取文件的格式,選擇文件解析器;通過所選取的文件解析器解析出所述規(guī)則抽取文件的文件內(nèi)容;通過規(guī)則提取器從解析出的文件的內(nèi)容中提取出規(guī)則數(shù)據(jù)。
5.根據(jù)權利要求4所述的系統(tǒng),其特征在于,所述問題審核模塊,具體用于將所述繪制指令存入內(nèi)部緩存單元,并根據(jù)所述繪制指令所攜帶的用戶身份標識;從所述緩存單...
【專利技術屬性】
技術研發(fā)人員:李強國,閆文玉,田夢,
申請(專利權)人:西安欣創(chuàng)電子技術有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。