• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種以查詢驅動的Web實體識別方法和系統技術方案

    技術編號:11374811 閱讀:70 留言:0更新日期:2015-04-30 12:46
    一種以查詢驅動的Web實體識別方法和系統,系統包括:Web用戶查詢模塊,用于在Web數據庫查詢接口提交查詢;Web數據庫模塊,用于接受用戶提交的查詢,并返回相應的結果;隨機樣本數據庫,用于采集并保存從Web數據庫返回的隨機樣本數據,將數據發送給實體識別器;實體識別器,用于計算屬性的區分能力、動態權重以及實體相似度。采用的方法是:分析Web數據庫中各屬性之間的相關性,獲取Web數據庫數據的近似隨機樣本,計算各屬性在實體識別中的區分能力,分析用戶提交的查詢調整各屬性權重大小,計算實體之間的相似度,進行實體識別。

    【技術實現步驟摘要】
    一種以查詢驅動的Web實體識別方法和系統
    本專利技術涉及Web實體識別
    ,具體是一種以查詢驅動的Web實體識別方法。
    技術介紹
    實體中各屬性的區分能力是計算實體之間相似程度的重要因素,如果已知數據庫中的全部數據,從屬性值的分布特點才有可能推測屬性在區分實體方面的能力,但對于Web數據庫的數據,只能通過在查詢接口提交查詢的方式,獲取部分數據,這些部分數據能否反映整個數據的全貌,是我們要研究的問題。從數據庫中選擇隨機樣本有一些方法,Goodman的估計法是一種無偏的隨機樣本估計方法,但是由于其產生的方差很高,所以在實際中并不能很好地應用。其他方法的前提均為已知數據庫的全部數據,而在Web數據庫環境中,這一前提條件在Web數據集成環境中顯然是不成立的,因此不再適用。隨機漫步的方法通過提交隨機查詢對Web數據庫進行采樣,取得了較好的隨機樣本,但是其得到的樣本是數據庫級樣本,提交的查詢多,獲取的數據量大,相對于我們方法中的獲取屬性級隨機樣本而言,其復雜度很高。獲取某一屬性隨機樣本的基本方法是通過在其他屬性上提交查詢收集該屬性上的數據。但是由于屬性間存在各種各樣的相關性,因此很難保證得到的樣本是隨機的。由此產生的第一個問題:屬性級隨機樣本難獲取。各屬性的屬性值分布特點不同,各屬性的數據類型也不同,因此,各屬性在區分實體方面的能力存在很大的差異。由此產生了第二個問題:屬性在區分實體方面的能力難計算。用戶提交查詢是不同的,在某一或某屬性組上提交查詢條件,將直接影響到返回結果在這些屬性或屬性組合上的屬性值分布,且進一步影響與其具有相關性屬性的值分布,從而影響到屬性在區分實體方面的能力。由此產生了第三個問題:屬性在區分實體方面的能力在動態變化,需要動態調整各屬性在實體識別中的區分權重。
    技術實現思路
    本專利技術提供了一種以查詢驅動的Web實體識別方法,用于Web數據庫實體識別,具有查詢次數少,結果準確的優點。本專利技術采用的技術方案:一種以查詢驅動的Web實體識別方法,包括以下步驟:A:通過Web數據庫查詢接口提交查詢,獲取Web數據庫中返回的部分數據,分析Web數據庫中各屬性之間的相關性,得到Aj的弱相關性屬性Ai;B:得到弱相關性屬性Ai后,在該屬性上向Web數據庫提交探測查詢,將從屬性Aj上收集到的返回結果作為屬性Aj的屬性級隨機樣本;C:分析Web數據庫的近似隨機樣本,計算各屬性在實體識別中的區分能力,即權重;D:分析用戶提交的查詢,分析查詢條件涉及的屬性對返回結果各屬性的值分布的影響,調整各屬性的權重大?。籈:依據屬性的權重和數據類型,選擇相似度計算函數,計算實體之間的相似度,進行實體識別。一種執行如權利要求1所述方法的以查詢驅動的Web實體識別系統,包括:Web用戶查詢模塊,用于在Web數據庫查詢接口提交查詢;Web數據庫模塊,用于接受用戶提交的查詢,并返回相應的結果;隨機樣本數據庫,用于采集并保存從Web數據庫返回的隨機樣本數據,將數據發送給實體識別器;實體識別器,用于計算屬性的區分能力、動態權重以及實體相似度。本專利技術的有益效果:能夠方便地獲取某一屬性的屬性級隨機樣本,準確計算該屬性在區分實體方面的區分能力,并且可以動態調整各屬性在實體識別中的區分權重。附圖說明圖1是本專利技術的以查詢驅動的Web實體識別系統的結構圖;圖2是本專利技術的以查詢驅動的Web實體識別方法的流程圖;圖3是本專利技術的屬性值詞頻分布示意圖;圖4是本專利技術的屬性相關性的例子;圖5是本專利技術的基于查詢的屬性權重的動態調整方法的流程圖。具體實施方式以下是本專利技術的一個具體實施例,現結合附圖作進一步說明。首先結合圖1對本專利技術的系統進行說明。本專利技術提供一種以查詢驅動的Web實體識別系統,包括:Web用戶查詢模塊、Web數據庫模塊、隨機樣本數據庫和實體識別器。通過Web數據庫查詢接口提交查詢,獲取Web數據庫中的部分數據,分析Web數據庫中各屬性之間的相關性,屬性的相關性表示了不同屬性的數據在數量和質量上的相互依賴性,可以通過在屬性Ai上提交探測查詢,然后用屬性Aj上返回詞頻分布的差異性進行衡量。屬性詞分布的差異性越大,屬性Aj越依賴于屬性Ai,屬性Aj和Ai之間的屬性相關性越強。根據對屬性之間的相關性進行排序,得到最不相關的屬性Ai后,在該屬性上向Web數據庫提交一些探測查詢,將在屬性Aj上收集到的返回結果作為屬性Aj的屬性級隨機樣本,并將其存入隨機樣本數據庫。屬性級隨機樣本是相對于數據庫級或表級隨機樣本而言的,不考慮表中其他屬性,只考慮單個屬性上的值的分布情況,屬性級隨機樣本是指能夠正確反映單個屬性上的值的總體分布情況的一部分屬性值的集合。之所以通過弱相關性屬性Ai來獲得屬性級隨機樣本,是因為如果屬性Ai是Aj的弱相關性屬性,那么在屬性Ai上提交查詢,得到的在屬性Aj上的屬性值的分布規律變化很小,近似可以看做Aj屬性值的隨機樣本。反之,如果是強相關性,那么在屬性Ai上提交查詢,得到的在屬性Aj上的屬性值的分布變化,將隨著查詢條件的不同產生很大的差異,不能看做是Aj屬性值的隨機樣本。實體識別器包括屬性的屬性區分能力計算、屬性的動態權重計算以及實體相似度計算三個部分。屬性在實體識別中的區分能力,又叫靜態權重,指當具有相同的屬性值時,依據這個屬性值區分兩個實體是否是同一實體的能力。每個屬性在實體識別中的區分能力是不同的,比如:如果兩本書的“出版社”屬性值都是“清華大學出版社”,很難因此確定它們是同一本書;但是如果兩本書的“書名”屬性值都是“追風箏的人”,那么它們是同一本書的可能性就很大,所以屬性“書名”的區分能力要大于屬性“出版社”的區分能力。屬性區分能力采用信息檢索中的信息文檔頻率的思想來表示,將每個實體視為一個短文本,一個屬性值視為一個短語,包含一個屬性值的實體越多,則此屬性在實體識別中的區分能力越弱。屬性的動態權重是針對某一用戶查詢,根據其與提交查詢條件涉及的屬性或屬性組的相關性,調整后得到的各屬性在實體識別中的區分能力。實體相似度則依據的動態權重及屬性的數據類型,選擇合適的相似度函數,計算實體之間的相似度,進行實體識別,用于比較購物或者對查詢結果進行去重合并。結合圖1、圖2對本專利技術提供的一種以查詢驅動的Web實體識別方法進行說明。一種以查詢驅動的Web實體識別方法,該方法包括以下步驟:給定一個Web數據庫,其查詢接口包含n個屬性,假設需要獲取其中某個屬性Aj的屬性級隨機樣本,和屬性Aj在實體識別方面的區分能力以及動態調整該屬性在實體識別中的區分權重,首先要得到Aj的弱相關性屬性Ai;A:通過Web數據庫查詢接口提交查詢,獲取Web數據庫中返回的部分數據,分析Web數據庫中各屬性之間的相關性,得到Aj的弱相關性屬性Ai;B:得到弱相關性屬性Ai后,在屬性Ai上向Web數據庫提交探測查詢,將從屬性Aj上收集到的返回結果作為屬性Aj的屬性級隨機樣本;C:分析Web數據庫的近似隨機樣本,計算各屬性在實體識別中的區分能力,即權重;D:分析用戶提交的查詢,分析查詢條件涉及的屬性對返回結果各屬性的值分布的影響,調整各屬性的權重大小;E:依據屬性的權重和數據類型,選擇相似度計算函數,計算實體之間的相似度,進行實體識別。其中,步驟A包括以下步驟:A1:從查詢接口選擇屬性本文檔來自技高網
    ...
    一種以查詢驅動的Web實體識別方法和系統

    【技術保護點】
    一種以查詢驅動的Web實體識別方法,其特征在于,該方法包括以下步驟:給定一個Web數據庫,其查詢接口包含n個屬性,假設需要獲取其中某個屬性Aj的屬性級隨機樣本,和該屬性在實體識別方面的區分能力以及動態調整該屬性在實體識別中的區分權重,首先要得到Aj的弱相關性屬性Ai;A:通過Web數據庫查詢接口提交查詢,獲取Web數據庫中返回的部分數據,分析Web數據庫中各屬性之間的相關性,得到Aj的弱相關性屬性Ai;B:得到弱相關性屬性Ai后,在該屬性上向Web數據庫提交探測查詢,將從屬性Aj上收集到的返回結果作為屬性Aj的屬性級隨機樣本;C:分析Web數據庫的近似隨機樣本,計算各屬性在實體識別中的區分能力,即權重;D:分析用戶提交的查詢,分析查詢條件涉及的屬性對返回結果各屬性的值分布的影響,調整各屬性的權重大小;E:依據屬性的權重和數據類型,選擇相似度計算函數,計算實體之間的相似度,進行實體識別。

    【技術特征摘要】
    1.一種以查詢驅動的Web實體識別方法,其特征在于,該方法包括以下步驟:給定一個Web數據庫,其查詢接口包含n個屬性,假設需要獲取其中某個屬性Aj的屬性級隨機樣本,和屬性Aj在實體識別方面的區分能力以及動態調整該屬性在實體識別中的區分權重,首先要得到Aj的弱相關性屬性Ai;A:通過Web數據庫查詢接口提交查詢,獲取Web數據庫中返回的部分數據,分析Web數據庫中各屬性之間的相關性,得到Aj的弱相關性屬性Ai;B:得到弱相關性屬性Ai后,在屬性Ai上向Web數據庫提交探測查詢,將從屬性Aj上收集到的返回結果作為屬性Aj的屬性級隨機樣本;C:分析Web數據庫的近似隨機樣本,計算各屬性在實體識別中的區分能力,即權重;計算各屬性在實體識別中的區分能力的方法為:各屬性在實體識別中的區分能力采用信息檢索中的信息文檔頻率的思想來表示,即:將每個實體視為一個短文本,一個屬性值視為一個短語;包含一個屬性值的實體越多,則此屬性在實體識別中的區分能力越弱,計算區分能力的公式為:wi=log(N/rf)其中,N為屬性級隨機樣本中記錄的個數,rf為該屬性不同屬性值的個數;D:分析用戶提交的查詢,分析查詢條件涉及的屬性對返回結果各屬性的值分布的影響,調整各屬性的權重大小;E:依據屬性的權重和數據類型,選擇相似度計算函數,計算實體之間的相似度,進行實體識別。2.根據權利要求1所述的一種以查詢驅動的Web實體識別方法,其特征在于:步驟A包括以下步驟:A1:從查詢接口選擇屬性Aj之外的某一屬性A,在屬性A上向Web數據庫提交探測查詢,收集和抽取在屬性Aj上返回的結果保存在本地;A2:分析每次返回結果中每個詞的出現概率,計算屬性Aj與屬性A之間的相關性;A3:重復步驟A1、A2,已經選擇過的屬性不再選擇,直到除了屬性Aj之外的所有屬性都已經選擇過為止;A4:選擇與屬性Aj相關性最小的值Ai,即為Aj的弱相關性屬性。3.根據權利要求2所述的一種以查詢驅動的Web實體識別方法,其特征在于:步驟A2進一步包括:A21:統計屬性Aj的詞頻分布,對于給定數據庫D,假設Aj的屬性值所包含的詞為:w1,w2,…,wm,則Aj上的詞頻分布為一個矢量其每個分量是該詞的詞頻,在每個屬性值中任意詞只出現一次的假設前提下,wi的詞頻是指從Web數據庫中選擇滿足屬性A包含關鍵詞wi的結果數量,其中,...

    【專利技術屬性】
    技術研發人員:姜芳艽,
    申請(專利權)人:江蘇師范大學,
    類型:發明
    國別省市:江蘇;32

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码国产色欲XXXXX视频| 亚洲AV无码专区在线亚| 免费看成人AA片无码视频羞羞网| 国产成人无码A区精油按摩| 日韩毛片无码永久免费看| 久久激情亚洲精品无码?V| 亚洲av无码一区二区三区天堂| 无码国模国产在线观看| 国产成人AV一区二区三区无码| 人妻丰满熟妞av无码区| 人妻系列无码专区久久五月天| 免费无码又爽又刺激高潮| 人妻无码久久中文字幕专区| 精品无码国产一区二区三区51安| 国产精品va无码免费麻豆| 无码欧精品亚洲日韩一区| 国产免费无码AV片在线观看不卡| 亚洲国产日产无码精品| 无码精品A∨在线观看中文| 久久久国产精品无码免费专区| 亚洲aⅴ无码专区在线观看春色| 人妻少妇精品无码专区二区| 人妻少妇伦在线无码专区视频| 久久无码专区国产精品发布| 成在人线AV无码免费| 久久久久成人精品无码中文字幕| 中文午夜人妻无码看片| 国产精品久久久久无码av| 性虎精品无码AV导航| 国产乱妇无码大片在线观看| 亚洲av永久无码精品三区在线4| 亚洲精品9999久久久久无码| 亚洲精品午夜无码电影网| 亚洲中文字幕久久精品无码APP| 久久久久久av无码免费看大片| 用舌头去添高潮无码视频| 亚洲韩国精品无码一区二区三区| 精品久久久久久无码专区不卡| 亚洲日韩中文字幕无码一区| 无码人妻精品一区二区三区不卡| 日韩精品无码Av一区二区|