本發明專利技術的目的在于提供一種結構化數據搜索方法,包括以下步驟:對數據倉庫的數據進行技術標準化,得到進行技術標準化后擴展的所有事實表和維度表、建立搜索模型的配置參數表、根據配置參數表生成搜索模型表,以及,根據搜索模型表,實現結構化數據搜索。本方法能夠實現通過自然語言查詢,來搜索海量的結構化數據信息。
【技術實現步驟摘要】
【專利摘要】本專利技術的目的在于提供,包括以下步驟:對數據倉庫的數據進行技術標準化,得到進行技術標準化后擴展的所有事實表和維度表、建立搜索模型的配置參數表、根據配置參數表生成搜索模型表,以及,根據搜索模型表,實現結構化數據搜索。本方法能夠實現通過自然語言查詢,來搜索海量的結構化數據信息。【專利說明】
本專利技術涉及數據搜索
,具體的說,是涉及一種結構化數據搜索模型的構 造方法。
技術介紹
在大數據時代企業日常生產運營過程中積累了海量的業務數據信息,但是這些有 價值的信息常常分散在企業的各個角落,如何更好的體現數據價值,讓用戶從海量數據中 快速搜索出自己想要的業務數據內容,而不是僅僅提供固定的定制化分析報表,是企業在 商務智能分析中面臨的一個重要挑戰。 傳統的商務智能產品,都是基于數據倉庫的基礎之上,通過語義的過程,將技術語 言轉化為易于理解的業務語言,再通過業務需求定制開發不同的報表和儀表盤,實現按需 定制開發的功能。由于業務需求的變化越來越快,無法實現快速定制,快速響應用戶需求, 需要對數據結構模型進行優化,以提供一種類似于搜索引擎的結構化數據搜索服務方法, 為用戶提供快速的數據分析服務響應。所謂結構化數據是指即行數據,存儲在數據庫里, 可以用二維表結構來邏輯表達實現的數據。這種方式需要能夠超越傳統BI的數據交付模 式,提供了更好的用戶體驗。
技術實現思路
本專利技術的目的在于提供,本方法能夠實現通過自然語言 查詢,來搜索海量的結構化數據信息。 本專利技術通過如下技術方案實現上述專利技術目的: -種結構化數據搜索方法,包括以下步驟: 步驟A :對數據倉庫的數據進行技術標準化。 對已有數據倉庫中的數據進行標準化,所述數據標準化過程就是通過SQL語言進 行數據擴展,即保持原有數據倉庫的表結構和數據不變,利用SQL語言生成新的表結構和 數據,主要包含三個步驟: al.將已有數據倉庫標準化為事實表和維度表的模式,具體過程為:已有數據倉 庫有源數據表D包含A1、A2、…八11,81、82、一&11,其中41411為枚舉型的文本值或數值, Bl-Bm為數字型的度量值,則將源數據表D拆分為一個事實表Fmn和η個維度表(DAl-DAn) 組成,事實表卩11111的構成是六110、六210、?六1110,81、82、?8111,其中六110、六210、?六1110 分別和η個維度表進行關聯,每個維度表Ai的構成是AiID、AiName。所謂AilD是指維度 Ai的ID,即唯一的數字標示;AiName是指維度表Ai的Name,即名稱,如:有性別維度,存在 兩個維度值,則有性別維度ID{0,1},對應的性別名稱{ '男','女'}。所謂性別維度表對應 Ai,性別名稱對應AiName,{0, 1}對應的是ID。 a2.將已有數據倉庫標準化為星型模型,如:在雪花形模型中,事實表Fmn中的客 戶ID關聯客戶維度表Ai中的客戶主鍵AilD,而客戶維度表中又存在客戶分類ID關聯到客 戶分類維度表D1中的客戶分類ID,則將客戶維度表中的客戶分類ID放到事實表Fmn中和 客戶分類維度表D1的客戶分類ID直接進行關聯。所述客戶分類維度表是存放客戶分類信 息的維度表,也是對數據倉庫中維度表的細分。 a3.在已有數據倉庫,對于存在笛卡兒乘積的維度表都轉化為單一維度的維度 表,如:笛卡兒乘積的維度表P是由A、B、C3個維度組成,則將維度表P拆分為3個維度表 分別對應維度表A、維度表B、維度表C,同時將事實表中和維度表P關聯的維度ID拆分為三 個維度ID,分別關聯A、B、C三個維度表中的維度ID。 經過步驟A,得到進行技術標準化后擴展的所有事實表和維度表,即技術標準化后 的數據模型。 步驟B :建立搜索模型的配置參數表。 基于步驟A得到的技術標準化后的數據模型進行參數表的配置,得到配置參數 表。配置參數表由度量配置參數表、維度配置參數表和維度值配置參數表3張表構成。 其中度量配置參數表包括的數據項為度量名稱、所屬表名、度量對應字段名和數 據聚合特征。數據聚合特征是指該度量值的結果聚合方式,具體包括6類特征:求和、最大 值、最小值、平均值、計數、無。 維度配置參數表的數據項主要包括維度名稱、所屬表名、維度字段名、維度表主鍵 和優先級別,其中優先級別是一個排列序號,0最高,數字越大優先級越小。 維度配置參數表包括維度值、所屬表名、維度字段名、維度表主鍵。 步驟C:搜索模型的生成。 基于步驟B中的3張配置參數表,通過SQL語句插入的方式,生成搜索模型表,搜 索模型表的字段包括:索引名、類型、表名、字段名、維度表ID、聚合特征。3張配置參數表中 的每一行數據對應生成搜索模型表中的一條數據,即搜索模型表的數據是3張配置參數表 的數據之和,其中類型區分來自與不同的配置表。索引映射關系表是用來進行索引名稱的 模糊匹配,便于提高搜索效率,該索引映射關系表的初始值可以根據常規邏輯,手工進行維 護,后續根據用戶搜索習慣,逐步豐富完善,形成針對具體業務的匹配詞庫。 具體步驟是:在建立好以上3張配置參數表后,根據配置參數表生成搜索模型,模 型包含數據倉庫內所有度量、維度名稱、維度值的索引信息,具體的數據項主要包括:索引 名、類型、表名、字段名、維度表ID、聚合特征。其中類型包括度量、維度、維度值。搜索模型 由步驟B中的3張配置參數表生成,其中索引名分別指3張表中的度量、維度名稱(如'性 另IJ'則是維度名稱)、維度值,類型是區分3張表的來源以及搜索時的生成規則,其他字段和 3張表中的字段可以通過名稱對應。同時為了提高用戶搜索的效率,建立一張索引映射關系 表,該表結構為:標準索引名、模糊匹配名稱,以便用戶在輸入不完整或者不規范的名稱時, 系統可以進行模糊匹配,提高搜索效率。 步驟D :根據搜索模型,實現結構化數據搜索。 首先根據用戶的輸入信息進行分詞處理,將輸入參數拆分為多個單獨的索引;再 根據拆分出的索引,在索引映射關系表中找出對應的索引名;找到索引名稱后,在搜索模型 表中找到各個索引名的對應屬性;根據屬性類型生成查詢語句,對于度量和維度(如'性 另|J'),放到查詢語句的SELECT中,而維度值則放到WHERE的限制語句中。 步驟E :搜索模型的更新和自我學習機制。 在步驟B中建立的3張配置表可以覆蓋數據倉庫中所有的度量和維度,當數據倉 庫中的模型發生變更時,如:新增、修改或刪除,配置參數表也需要進行對應的變更操作,當 3張配置參數表變更完成后,步驟C中的數據搜索模型也需要重新生成。在步驟C中除了生 成數據搜索模型外,還建立了 一張索引映射關系表,該表具備自我學習機制,根據用戶的使 用行為進行完善。 本專利技術對比現有技術,有如下優點:當數據倉庫模型發生變化時,需要更新配置參 數表,這樣搜索模型表和索引映射關系表可能也會受到影響,需要進行同步更新,其更新過 程和步驟C中描述的類似。索引映射關系表是在用戶進行搜索時,首先在映射關系表中進 行查找,如果沒有查到結果,則到模型表中根據索引名進行模糊匹配,如有多個匹配結果, 則都顯示出來,讓用本文檔來自技高網...
【技術保護點】
一種結構化數據搜索方法,其特征在于包括以下步驟:步驟A:對數據倉庫的數據進行技術標準化,得到進行技術標準化后擴展的所有事實表和維度表:a1.將已有數據倉庫標準化為事實表和維度表的模式;a2.將已有數據倉庫標準化為星型模型;a3.在已有數據倉庫,對于存在笛卡兒乘積的維度表都轉化為單一維度的維度表;步驟B:建立搜索模型的配置參數表;根據步驟A的結果配置參數表,配置參數表由度量配置參數表、維度配置參數表和維度值配置參數表3張表構成;所述度量配置參數表包括的數據項為度量名稱、所屬表名、度量對應字段名和數據聚合特征;所述維度配置參數表的數據項主要包括維度名稱、所屬表名、維度字段名、維度表主鍵和優先級別,其中優先級別是一個排列序號,0最高,數字越大優先級越小;所述維度值配置參數表包括維度值、所屬表名、維度字段名、維度表主鍵;步驟C:根據配置參數表生成搜索模型表:通過SQL語句插入的方式,生成搜索模型表,搜索模型表的字段包括:索引名、類型、表名、字段名、維度表ID、聚合特征;3張配置參數表中的每一行數據對應生成搜索模型表中的一條數據,即搜索模型表的數據是3張配置參數表的數據之和,其中類型區分來自與不同的配置表;步驟D:根據搜索模型表,實現結構化數據搜索,所述搜索過程為:首先根據用戶的輸入信息進行分詞處理,將輸入參數拆分為多個單獨的索引;再根據拆分出的索引,在搜索模型表中找到各個索引的對應屬性;根據屬性類型生成查詢語句,對于度量和維度,放到查詢語句的SELECT中,而維度值則放到WHERE的限制語句中,并得到查詢結果。...
【技術特征摘要】
【專利技術屬性】
技術研發人員:蘇凱,吳廣財,桂媛,陳非,
申請(專利權)人:廣東電網公司信息中心,
類型:發明
國別省市:廣東;44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。