System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本專利技術涉及互聯(lián)網(wǎng),特別是一種基于ai技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法及系統(tǒng)。
技術介紹
1、隨著信息技術的迅猛發(fā)展,互聯(lián)網(wǎng)已成為一個巨大的數(shù)據(jù)資源庫,海量數(shù)據(jù)的生成與存儲對信息檢索技術提出了更高的要求。傳統(tǒng)的搜索引擎主要依靠關鍵字匹配和靜態(tài)算法來處理用戶查詢,這種方式在面對復雜查詢和多樣化信息時,往往顯得力不從心。近年來,自然語言處理(nlp)、機器學習及知識圖譜等新興技術的興起,為精準搜索提供了新的思路。
2、盡管現(xiàn)有技術在信息檢索領域取得了一定進展,但依然存在諸多不足之處。首先,傳統(tǒng)搜索引擎對查詢語義的理解能力有限,尤其是在處理模糊或長尾查詢時,往往難以提供相關性高的結果。這導致用戶在信息獲取過程中常常需要進行多次查詢,耗費時間和精力。其次,現(xiàn)有個性化搜索技術多依賴靜態(tài)模型,缺乏對用戶實時行為的監(jiān)測與動態(tài)調(diào)整能力,從而難以適應用戶需求的變化。此外,用戶的認知負荷在信息檢索過程中常常被忽視,導致用戶在面對海量信息時感到困惑,進一步影響了搜索效率和滿意度。
技術實現(xiàn)思路
1、鑒于上述現(xiàn)有存在的問題,提出了本專利技術。
2、因此,本專利技術提供了一種基于ai技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法及系統(tǒng)解決用戶在海量數(shù)據(jù)中獲取精準信息時面臨的查詢理解不足、個性化推薦缺失及認知負荷過重的問題。
3、為解決上述技術問題,本專利技術提供如下技術方案:
4、第一方面,本專利技術實施例提供了一種基于ai技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法,其包括,接收用
5、基于所述結構化查詢向量,構建知識圖譜,得到豐富的語義上下文圖;
6、引入知識遷移學習技術,分析用戶的歷史搜索數(shù)據(jù)和行為特征,構建個性化的搜索模型;
7、監(jiān)測用戶的實時交互行為,判斷用戶的認知負荷,生成適應性搜索界面;
8、利用個性化搜索模型發(fā)起多條查詢請求,并經(jīng)過過濾與排序,輸出個性化的搜索結果集。
9、作為本專利技術所述基于ai技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法的一種優(yōu)選方案,其中:接收用戶輸入的查詢文本,并使用自然語言處理技術對輸入的查詢文本進行識別,生成結構化查詢向量包括以下步驟,
10、用戶在搜索界面輸入查詢文本;
11、使用依存句法分析工具對輸入文本進行基礎語法分析;
12、構建一個常用詞匯的前綴詞典,對分析后的文本進行分詞處理;
13、對進行分詞處理后的文本進行詞性標注;
14、完成詞性標注后,對文本進行命名實體識別;
15、結合分詞、詞性標注和命名實體識別的結果,進行關鍵詞提取與主題識別;
16、將提取的關鍵詞、用戶意圖及其相關屬性組合成結構化的查詢向量,存儲在知識庫中。
17、作為本專利技術所述基于ai技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法的一種優(yōu)選方案,其中:所述基礎語法分析指的是采用依存句法分析工具對輸入文本進行解析,識別句子中的每個詞及其對應的詞性,自動分析詞匯之間的關系,生成依存關系圖;所述分詞處理指的是采用基于前綴詞典的最大詞長分詞算法,將輸入字符串切分為獨立的詞語,得到分詞結果;
18、所述詞性標注的具體步驟如下,
19、選擇條件隨機場作為詞性標注的模型;
20、從分詞結果中提取當前詞特征、上下文特征和詞性特征;
21、將每個分詞及其特征傳遞給條件隨機場模型,計算每個詞的詞性概率,表達式為:
22、
23、其中,p(yi|wi)表示在給定分詞wi的情況下,詞性標簽yi的概率,wi表示第i個分詞,yi表示與第i個分詞wi相關聯(lián)的詞性標簽,i表示分詞索引,θ表示模型的參數(shù)向量,f表示特征的集合,t表示轉置操作,y表示所有可能的詞性標簽的集合,y'表示詞性標簽集合y中的標簽;
24、對于每個分詞,從所有可能的詞性標簽中選擇概率最高的一個,作為該分詞的詞性標注;
25、所述命名實體識別的過程如下,
26、選擇基于雙向長短期記憶網(wǎng)絡和條件隨機場相結合的模型進行命名實體識別;
27、將進行詞性標注的分詞輸入到模型中進行訓練;
28、將分詞結果和詞性標注傳遞給訓練好的模型,對每個詞進行命名實體識別,輸出對應的實體類別;
29、所述關鍵詞提取和主題識別的具體步驟如下,
30、采用tf-idf算法,計算每個詞的tf-idf值,表達式為,
31、tf-idf(t,d)=tf(t,d)×idf(t);
32、其中,tf-idf(t,d)表示詞t在文檔d中的tf-idf值,t表示特定的詞,d表示特定的文檔,tf(t,d)表示詞t在文檔d中的詞頻,idf(t)表示詞t的逆文檔頻率;
33、按tf-idf值對所有詞進行排序,選擇tf-idf值最高的前n個詞作為關鍵詞;
34、通過分析關鍵詞之間的關系和上下文,識別出文本的主要主題。
35、作為本專利技術所述基于ai技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法的一種優(yōu)選方案,其中:基于所述結構化查詢向量,構建知識圖譜,得到豐富的語義上下文圖包括以下步驟,
36、通過數(shù)據(jù)庫連接工具連接到選定的知識庫;
37、根據(jù)用戶的查詢條件,提取相關的元數(shù)據(jù);
38、基于提取的關鍵詞和主題,在知識庫中進行關鍵詞匹配,識別出與用戶查詢相關的多個實體;
39、根據(jù)識別出的相關的多個實體,檢索這些實體之間的關系;
40、將獲取的關系進行分類并提取相關屬性,判斷實體之間的相互作用;
41、為每個識別出的實體創(chuàng)建一個節(jié)點,識別出實體之間的關系創(chuàng)建;
42、將識別出的實體及其關系構建成知識圖譜;
43、對于知識圖譜中的每個節(jié)點,初始化其特征向量;
44、引入圖神經(jīng)網(wǎng)絡的消息傳遞機制,節(jié)點將其特征向量傳遞給相鄰的節(jié)點;
45、設定推理的層數(shù)k,通過多層的圖神經(jīng)網(wǎng)絡推理,結合其鄰居節(jié)點的特征向量逐步更新每個節(jié)點的特征向量,獲得每個節(jié)點的最終特征向量;
46、分析每個節(jié)點的最終特征向量,識別與用戶查詢意圖相近的其他主題和概念,構建成豐富的語義上下文圖。
47、作為本專利技術所述基于ai技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法的一種優(yōu)選方案,其中:引入知識遷移學習技術,分析用戶的歷史搜索數(shù)據(jù)和行為特征,構建個性化的搜索模型包括以下步驟,
48、從語義上下文圖中提取每個節(jié)點的特征向量和邊的特征向量;
49、將提取的節(jié)點特征向量和邊的特征向量整合成輸入矩陣;
50、收集用戶的歷史搜索數(shù)據(jù)和行為特征并進行特征提取,形成用戶特征矩陣;
51、將輸入特征矩陣和用戶特征矩陣拼接在一起,構成綜合特征矩陣;
52、構建鄰接矩陣,表示圖中節(jié)點之間本文檔來自技高網(wǎng)...
【技術保護點】
1.一種基于AI技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法,其特征在于:包括,
2.如權利要求1所述的基于AI技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法,其特征在于:接收用戶輸入的查詢文本,并使用自然語言處理技術對輸入的查詢文本進行識別,生成結構化查詢向量包括以下步驟,
3.如權利要求2所述的基于AI技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法,其特征在于:所述基礎語法分析指的是采用依存句法分析工具對輸入文本進行解析,識別句子中的每個詞及其對應的詞性,自動分析詞匯之間的關系,生成依存關系圖;所述分詞處理指的是采用基于前綴詞典的最大詞長分詞算法,將輸入字符串切分為獨立的詞語,得到分詞結果;
4.如權利要求3所述的基于AI技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法,其特征在于:基于所述結構化查詢向量,構建知識圖譜,得到豐富的語義上下文圖包括以下步驟,
5.如權利要求4所述的基于AI技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法,其特征在于:引入知識遷移學習技術,分析用戶的歷史搜索數(shù)據(jù)和行為特征,構建個性化的搜索模型包括以下步驟,
6.如權利要求5所述的基于AI技術的互聯(lián)網(wǎng)海量數(shù)據(jù)
7.如權利要求6所述的基于AI技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法,其特征在于:利用個性化搜索模型發(fā)起多條查詢請求,并經(jīng)過過濾與排序,輸出個性化的搜索結果集包括以下步驟,
8.一種基于AI技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索系統(tǒng),基于權利要求1~7任一所述的基于AI技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法,其特征在于:包括,
9.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于:所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1~7任一所述的基于AI技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法的步驟。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于:所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1~7任一所述的基于AI技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法的步驟。
...【技術特征摘要】
1.一種基于ai技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法,其特征在于:包括,
2.如權利要求1所述的基于ai技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法,其特征在于:接收用戶輸入的查詢文本,并使用自然語言處理技術對輸入的查詢文本進行識別,生成結構化查詢向量包括以下步驟,
3.如權利要求2所述的基于ai技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法,其特征在于:所述基礎語法分析指的是采用依存句法分析工具對輸入文本進行解析,識別句子中的每個詞及其對應的詞性,自動分析詞匯之間的關系,生成依存關系圖;所述分詞處理指的是采用基于前綴詞典的最大詞長分詞算法,將輸入字符串切分為獨立的詞語,得到分詞結果;
4.如權利要求3所述的基于ai技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法,其特征在于:基于所述結構化查詢向量,構建知識圖譜,得到豐富的語義上下文圖包括以下步驟,
5.如權利要求4所述的基于ai技術的互聯(lián)網(wǎng)海量數(shù)據(jù)精準搜索方法,其特征在于:引入知識遷移學習技術,分析用戶的歷史搜索數(shù)據(jù)和行為特征,構建個性化...
【專利技術屬性】
技術研發(fā)人員:杜曉飛,趙瓊,
申請(專利權)人:北京鼎璽盈動科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。