本發明專利技術公開了一種基于圖書內容結構的語義關聯方法,包括如下步驟:(1)接收用戶檢索請求,并結合領域詞典對其進行中文分詞,生成用戶檢索初始關鍵詞集T1。(2)基于領域本體對初始關鍵詞集T1進行語義關聯度計算,生成經領域本體關聯后檢索向量V1。(3)關鍵詞集T1對圖書庫檢索,取前N本。(4)基于上述前N本圖書的內容結構對T1進行語義關聯,生成經圖書內容結構關聯后的檢索向量V2。(5)對檢索向量V1、V2進行融合,生成最終的融合領域本體語義信息和圖書內容結構語義信息的綜合檢索向量V3。本發明專利技術能夠解決目前僅通過領域本體語義擴展過度所導致查全率增加、查準率降低現象。
【技術實現步驟摘要】
本專利技術設計數字圖書領域,尤其涉及結合領域本體和圖書內容對用戶檢索請求進 行語義關聯的方法。
技術介紹
數字圖書館的核心競爭力是對數字圖書的準確檢索,而準確檢索的核心是對圖書 內容的準確理解和對用戶檢索意圖的準確理解,查詢擴展是準確分析用戶檢索請求,以提 高檢索準確率的有效方法。 基于本體的查詢擴展思想源于1994年Voorhees提出并通過后續不斷深入研究而 成。在目前圖書檢索領域,語義查詢擴展方法主要借助領域本體概念間的各種關系進行語 義擴展,大部分算法只找到語義關聯詞,默認查詢擴展詞和原查詢詞權重一樣,常導致"主 題偏移"和查準率下降。 基于局部分析法的查詢擴展思想,利用初始檢索結果與前面相關度最高的若干篇 文檔來選取擴展詞。局部反饋法是多次TREC評測會議公認的最有代表性的局部分析方法, 是一種簡單、有效的查詢擴展技術。它能夠整合關鍵詞在語料集中的全局統計信息,使所 選取的擴展詞與初始查詢所表征的主題或概念具有更好的相關性。查詢擴展是將圖書目錄 內容作為局部文檔,根據語料庫中實際關鍵詞見的共現關系進行,較好解決了 "主題偏移" 的現象。 因此,本專利技術公布的,綜合考慮領域本體 和實際圖書內容中關鍵詞的關聯性,有效解決因查詢"主題偏移"導致的圖書檢索查全率、 查準率低下的問題。
技術實現思路
本專利技術所要解決的技術問題在于提供。該 方法可用于圖書搜索引擎中,對用戶的檢索請求進行語義關聯并篩選得到擴展關鍵詞集, 從而提尚圖書檢索的精度。 -種基于圖書內容結構的語義關聯方法包括如下步驟:(1)接收用戶檢索請求, 并結合領域詞典對其進行中文分詞,生成用戶檢索初始關鍵詞集T1。(2)基于領域本體對 初始關鍵詞集Tl進行語義關聯度計算,生成經領域本體關聯后檢索向量VI。(3)關鍵詞集 Tl對圖書庫檢索,取前N本。(4)基于上述前N本圖書的內容結構對Tl進行語義關聯,生 成經圖書內容結構關聯后的檢索向量V2。(5)對檢索向量VI、V2進行融合,生成最終的融 合領域本體語義信息和圖書內容結構語義信息的綜合檢索向量V3。 進一步,本專利技術中的步驟(1)進一步包括:結合領域詞典對用戶檢索請求進行中 文分詞、去除停用詞,生成用戶檢索初始關鍵詞集T1,涉及的領域詞典在專家參與下構建。 進一步,本專利技術中的步驟(2)進一步包括:將Tl中關鍵詞分別映射到領域本體, 并根據本體概念語義關聯度算法進行關鍵詞擴展,并計算出擴展關鍵詞的權重。 語義關聯度算法見公式(1)包括:語義相似度計算sim(ci,cj)、語義關聯度計算 rel(ci,cj) simrel (ci, cj) = sim(ci,cj)+rel (ci,cj)+sim(ci,cj) Xrel (ci,cj) (I) 生成領域本體關聯后的檢索向量VI,向量中關鍵詞ci的權重wi代表它與 初始關鍵詞的相關程度。 Vl = ((cl,wl),(c2, w2),(c3, w3),· · ·,(cn,wn) 進一步,本專利技術中的步驟(3)進一步包括:關鍵詞集Tl對圖書庫檢索,對圖書庫 中的圖書進行領域詞典參與的中文分詞,對圖書目錄結構的題名、章、節分別賦予不同的權 重構建索引,其中權重根據各部分對主題的貢獻程度大小來設置,最后根據關鍵詞在目錄 中出現的位置、頻率等因素綜合計算排序輸出,并取出前N本圖書參與后續步驟。 進一步,本專利技術中的所述步驟(4):基于上述前N本圖書的內容結構對Tl進行語 義關聯,圖書內容結構本質為樹狀結構,根節點為圖書題名節點,往下各層分別是各章標題 節點、節標題節點、子節標題節點,分別對各節點內容結合領域詞典進行中文分詞,將Tl中 關鍵詞分別映射到圖書內容結構樹,根據相應的結構語義關聯算法,計算擴展詞的權重。 結構語義關聯算法見公式(2): W (k, q ID) = log (stf (k | D) +1. 0) *log (stf (q | D) +1. 0) (2) _9] 上式,Stffkl D:) = 2二(奶_對傳統的局部共現公式僅關鍵詞出現的頻率做了修 改,考慮了關鍵詞在局部文檔所處的位置和頻率。 生成經圖書內容結構樹擴展后的檢索向量V2,向量中關鍵詞的權重代表它與初 始關鍵詞的相關程度。 V2 = ((cl,w 'I),(c2, w' 2),(c3, w '3),· · ·,(cn,w' η) 進一步,本專利技術中的所述步驟(5):對檢索向量VI、V2進行融合,根據相應融合算 法對VI、V2中相同關鍵詞的權重進行合并、不同關鍵詞權重值進行調整,并根據篩選策略, 保留權重大于某一閾值的關鍵詞,生成最后經過領域本體和圖書內容結構雙重語義關聯的 向量V3。 V3 = θ Vl+ μ V2 θ、μ是調節因子,θ + μ = 1,經過融合向量VI、V2使得同時出現在領域本體和 圖書內容結構中的關鍵詞具有更高的權重,僅出現在領域本體或者圖書目錄內容結構中的 關鍵詞權重被削弱,使得圖書的語義關聯更準確。 本專利技術的有益效果:本專利技術將關鍵詞映射到圖書領域本體進行領域內的語義擴 展。查詢擴展是將圖書目錄內容作為局部文檔,根據語料庫中實際關鍵詞見的共現關系進 行,采用融合策略將二者綜合考慮。能解決目前僅通過領域本體語義擴展過度,而導致查全 率增加、查準率降低現象;能解決傳統局部共現概率模型僅考慮初次返回文本中關鍵詞頻 率,而不考慮其所處位置對權重影響,導致擴展后關鍵詞權重不能充分代表其相對重要程 度,而導致檢索結果偏離用戶意圖的問題;能解決目前圖書檢索效果難以滿足用戶需求的 現象。【附圖說明】 圖1為本專利技術方法的邏輯流程圖。【具體實施方式】 為使本專利技術的上述目的、特征和優點更加明顯易懂,下面結合附圖和具體實施方 式對本專利技術做進一步的詳細說明: 圖1是本專利技術所述方法的處理流程圖,如圖所示本專利技術包括如下幾個步驟: 步驟(1):結合領域詞典對用戶檢索請求進行中文分詞、去除停用詞,生成用戶檢 索初始關鍵詞集Tl。涉及的領域詞典在專家參與下構建。 步驟(2):生成經領域本體關聯后檢索向量VI。將Tl映射到領域本體,根據本體 概念間語義關聯度算法分別計算Tl中各關鍵詞與本體中其它節點間的語義相關度,相關 度值為相應關鍵詞的權重,得到向量Vl。 Vl = ((cl,wl),(c2, w2),(c3, w3),· · ·,(cn,wn) 其中:wi代表概念ci的語義關聯權重,權重越大代表它與用戶意圖的關聯性越當前第1頁1 2 本文檔來自技高網...
【技術保護點】
一種基于圖書內容結構的語義關聯方法,其特征在于包括以下步驟:步驟一:接收用戶檢索請求,并結合領域詞典對其進行中文分詞,生成用戶檢索初始關鍵詞集T1;步驟二:基于領域本體對初始關鍵詞集T1進行語義關聯度計算,生成領域本體關聯后檢索向量V1;步驟三:關鍵詞集T1對圖書庫檢索,取前N本;步驟四:基于上述前N本圖書的內容結構對T1進行語義關聯,生成圖書內容結構關聯后的檢索向量V2;步驟五:對檢索向量V1、V2進行融合,生成最終的融合領域本體語義信息和圖書內容結構語義信息的綜合檢索向量V3。
【技術特征摘要】
【專利技術屬性】
技術研發人員:王強,寧吳夏,
申請(專利權)人:杭州電子科技大學,
類型:發明
國別省市:浙江;33
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。