System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及多源數據分析優化,具體來說,涉及一種用于構建多源數據分析流程的系統及方法。
技術介紹
1、多源數據分析流程是指在一次搜索過程中,從多個不同數據來源收集數據,并與搜索關鍵詞進行匹配,基于關鍵詞匹配的相似度,將相關結果展示給用戶過程;
2、現有的多源數據分析匹配流程多為基于用戶關鍵詞的相似度排序,來對關聯數據進行展示排序,其展示順序固定,即每一頁的展示數據都是固定的,無法根據用戶的實際操作來對匹配數據進行動態展示調節,難以輔助用戶快速獲得所需要的數據,存在實用性與功能性低下的問題。
3、針對相關技術中的問題,目前尚未提出有效的解決方案。
技術實現思路
1、針對相關技術中的問題,本專利技術提出一種用于構建多源數據分析流程的系統及方法,以克服現有相關技術所存在的上述技術問題。
2、為此,本專利技術采用的具體技術方案如下:
3、一種用于構建多源數據分析流程的方法,該方法包括以下步驟:
4、s1、基于互聯網進行多源數據采集,包括網頁數據抓取、社交媒體數據采集、公共數據庫數據摘取,通過建立多源分析數據庫;
5、s2、根據用戶輸入的關鍵詞,基于多源分析數據庫匹配關聯數據,對于相關數據進行關聯度分析,基于關聯度進行降序排列,優先展示關聯度高的匹配數據;
6、s3、對匹配的相關數據進行類別劃分,結合首次展示的內容以及用戶的后續操作,對未展示的匹配數據進行展示策略優化,對展示內容進行動態調整。
8、s31、根據用戶的每次關鍵詞搜索,基于建立展示數據庫,針對多源分析數據庫中用戶關鍵詞匹配的關聯數據,結合關鍵詞的釋義以及關聯數據的內容,對關聯數據進行類別劃分,在展示數據庫中建立類別檔案,將同一類的關聯數據匹配至同一個檔案中;
9、s32、針對首次基于關聯度匹配展示的數據,結合用戶的訪問行為以及匹配數據的類別,對后續展示的內容進行動態調整。
10、作為優選的實施方式,所述s31包括以下子步驟:
11、s311、對多源分析數據庫中基于用戶關鍵詞匹配的關聯數據,結合關鍵詞的釋義,對獲得的關聯數據內容分析關鍵詞的對應釋義,對獲得的關聯數據進行釋義類別劃分,確定不同關聯數據的釋義類別歸屬,其具體的步驟為:
12、通過對用戶輸入的關鍵詞進行檢索,獲得當前關鍵詞對應的一個或多個同義詞集,每個同義詞集均包括關鍵詞相應概念的釋義內容,包括關聯詞以及釋義描述;
13、通過算法,對用戶關鍵詞匹配的關聯數據進行文本關鍵詞提取,其具體的步驟為:
14、;
15、;
16、其中,為文檔總數,即關聯數據的總數,代表包含詞的文檔數,基于與計算獲得:
17、;
18、基于值的高低提取出當前文檔排名的單詞作為當前文檔的關鍵詞;
19、s312、通過余弦相似度計算關聯數據中提取的關鍵詞向量和用戶關鍵詞每個釋義對應的向量集合的相似度,以確定當前關聯數據的類別,其步驟為:
20、通過將關聯數據中提取的關鍵詞以及用戶關鍵詞轉換為固定維度的向量,計算余弦相似度,其算法公式為:
21、;
22、其中,分別代表關聯數據中提取的關鍵詞向量以及用戶關鍵詞向量,代表不同釋義下的余弦相似度;
23、基于相似度閾值,當某一釋義關鍵詞下的>,則代表當前關聯數據屬于當前釋義類別。
24、作為優選的實施方式,所述s312中還包括以下步驟:
25、s3121、在用戶每次關鍵詞搜索后,基于建立展示數據庫,并基于用戶關鍵詞的釋義分別建立類別檔案;
26、s3122、根據關聯數據余弦相似度劃分的釋義類別,將對應的關聯數據劃分進入建立的對應類別檔案中。
27、作為優選的實施方式,所述s32包括以下子步驟:
28、s321、統計優先展示的數據總數,同時獲得用戶的訪問行為,對用戶點擊的關聯數據以及用戶未訪問的關聯數據進行分開標記;
29、s322、根據不同用戶行為標記的關聯數據,結合類別檔案,確定標記的關聯數據類別,對后續展示內容進行動態調整。
30、作為優選的實施方式,所述s322包括以下子步驟:
31、s3221、針對用戶訪問的關聯數據,結合類別檔案,對訪問的關聯數據進行類別追溯,確定訪問的關聯數據類別,并對當前類別進行綠色標記;
32、s3222、針對用戶未訪問的關聯數據,結合類別檔案,對未訪問的關聯數據進行類別追溯,確定未訪問的關聯數據類別,并對當前類別進行紅色標記;
33、s3223、對未進行標記的類別檔案進行黃色標記,對后續展示內容進行動態調節,其具體的步驟為:
34、對原始關聯度降序排列進行篩除,將原始關聯度降序排列中的紅色標記類別關聯數據以及首次基于關聯度匹配展示的數據進行剔除,對更新后的降序數列進行基于類別標記綠色黃色比例為6:4,進行關聯數據提取,其具體的步驟為:
35、;
36、;
37、其中,代表單次展示數據總數,分別代表待提取綠色關聯數據條數以及待提取黃色關聯數據條數,在更新后的降序數列中,從綠色類別記錄中按照關聯度降序的順序提取條關聯數據,從黃色類別記錄中按照關聯度降序順序提取條關聯數據,進行展示;
38、在每次用戶結束當前頁面的訪問時,均對訪問行為進行記錄,對剩余綠色以及黃色標記類別結合當前用戶的訪問行為進行重新標記,對后續展示頁面繼續進行調整。
39、作為優選的實施方式,所述s2包括以下步驟:
40、s21、對用戶輸入的關鍵詞進行預處理,通過中文分詞工具對用戶輸入的關鍵詞進行分詞,去除停用詞;
41、s22、基于模糊匹配算法,通過距離公式針對多源分析數據庫中的數據進行關鍵詞詞干模糊匹配,從多源分析數據庫中匹配關聯數據并記錄數據鏈接;
42、s23、通過將用戶關鍵詞和匹配關聯數據中的文本轉換為詞向量表示,同時對于用戶關鍵詞和匹配數據,通過將文本中的詞向量通過加權平均以生成文本的向量表示;
43、s24、對于每個匹配關聯數據,計算匹配關聯數據文本向量與用戶關鍵詞文本向量的余弦相似度,基于匹配數據的余弦相似度進行降序排列,對排序靠前的數據進行優先展示。
44、一種用于構建多源數據分析流程的系統,包括多源數據采集模塊、用戶信息輸入模塊、用戶信息匹配模塊、展示優化模塊:
45、所述多源數據采集模塊,包括爬蟲軟件,通過爬蟲軟件基于互聯網進行多源數據采集,包括網頁數據抓取、社交媒體數據采集、公共數據庫數據摘取,通過建立多源分析數據庫;
46、所述用戶信息輸入模塊,用于接收用戶輸入的關鍵詞信息,并對用戶輸入的關鍵詞信息進行預處理,包括分詞與去除停用詞,并將處理后的用戶信息文本傳輸進入用戶信息匹本文檔來自技高網...
【技術保護點】
1.一種用于構建多源數據分析流程的方法,其特征在于,該方法包括以下步驟:
2.根據權利要求1所述的一種用于構建多源數據分析流程的方法,其特征在于,所述S3包括以下子步驟:
3.根據權利要求2所述的一種用于構建多源數據分析流程的方法,其特征在于,所述S31包括以下子步驟:
4.根據權利要求3所述的一種用于構建多源數據分析流程的方法,其特征在于,所述S312中還包括以下步驟:
5.根據權利要求2所述的一種用于構建多源數據分析流程的方法,其特征在于,所述S32包括以下子步驟:
6.根據權利要求5所述的一種用于構建多源數據分析流程的方法,其特征在于,所述S322包括以下子步驟:
7.根據權利要求1所述的一種用于構建多源數據分析流程的方法,其特征在于,所述S2包括以下步驟:
8.一種用于構建多源數據分析流程的系統,其特征在于,該方法采用如權利要求1-7任意一項所述的用于構建多源數據分析流程的方法,包括多源數據采集模塊、用戶信息輸入模塊、用戶信息匹配模塊、展示優化模塊:
【技術特征摘要】
1.一種用于構建多源數據分析流程的方法,其特征在于,該方法包括以下步驟:
2.根據權利要求1所述的一種用于構建多源數據分析流程的方法,其特征在于,所述s3包括以下子步驟:
3.根據權利要求2所述的一種用于構建多源數據分析流程的方法,其特征在于,所述s31包括以下子步驟:
4.根據權利要求3所述的一種用于構建多源數據分析流程的方法,其特征在于,所述s312中還包括以下步驟:
5.根據權利要求2所述的一種用于構建多源數據分析流程的...
【專利技術屬性】
技術研發人員:魏建華,章松楊,趙梓杰,李方祥,孫奕為,
申請(專利權)人:深度山東數字科技集團有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。