• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>哈爾濱工程大學(xué)專利>正文

    一種基于話題影響力的微博話題溯源方法技術(shù)

    技術(shù)編號:10600949 閱讀:212 留言:1更新日期:2014-11-05 13:52
    本發(fā)明專利技術(shù)屬于話題溯源范疇語義社會網(wǎng)絡(luò)中的數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種基于話題影響力的微博話題溯源方法。本發(fā)明專利技術(shù)包括:根據(jù)信息檢索領(lǐng)域的隱形語義查詢擴(kuò)展方法,對輸入的話題詞組tp進(jìn)行語義擴(kuò)展,得到與給定話題相關(guān)的前k個話題;確定微博網(wǎng)絡(luò)中的用戶關(guān)系及信息傳播規(guī)律,確定話題影響力TIN;根據(jù)影響力計算公式,以1h為一個時間步計算話題的影響力,得到話題在傳播過程中隨著時間變化的影響力趨勢,其影響力強(qiáng)度從話題初期的緩慢增長到急劇上升最后達(dá)到平穩(wěn)狀態(tài),即話題成長為熱點(diǎn);推導(dǎo)話題溯源遞推公式,并確定其溯源遞推終止條件,輸出引發(fā)話題的源頭。本發(fā)明專利技術(shù)使話題溯源遞推的終止條件更加準(zhǔn)確,溯源更加準(zhǔn)確有效。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種基于話題影響力的微博話題溯源方法
    本專利技術(shù)屬于話題溯源范疇語義社會網(wǎng)絡(luò)中的數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種基于話題影響力的微博話題溯源方法。
    技術(shù)介紹
    本文所提出的話題溯源方法主要依據(jù)話題影響力的變化趨勢,故量化話題的影響力成為關(guān)鍵。目前,在線社會網(wǎng)絡(luò)的影響力研究主要分為兩大類:一是從結(jié)點(diǎn)的屬性特征分析影響力;二是基于社會網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)計算影響力。較早的研究常采用用戶的粉絲數(shù)作為度量影響力的指標(biāo),這種方法過于直接簡單缺乏理論分析,在多數(shù)情況下并不準(zhǔn)確。另外,也有其他研究者借鑒WEB數(shù)據(jù)挖掘中鏈接分析的方法,如LeaderRank方法,在網(wǎng)絡(luò)中增加一個與所有節(jié)點(diǎn)雙向聯(lián)通的節(jié)點(diǎn)來改進(jìn)PageRank方法在非連通圖下排序不唯一的缺點(diǎn);還有一種類PageRank方法稱為TwitterRank。該方法對主題內(nèi)容敏感,并且認(rèn)為用戶的影響力是其所有粉絲影響力的總和;由于上述方法僅依靠網(wǎng)絡(luò)結(jié)構(gòu),使得某些節(jié)點(diǎn)能夠采用增加虛假粉絲的手段提高影響力。針對以上方法存在的缺陷,本文通過話題的內(nèi)容與話題中意見領(lǐng)袖的影響力確定話題在網(wǎng)絡(luò)中的全局影響力,使得話題的影響力度量更為全面準(zhǔn)確,并適合于話題溯源研究。目前在話題研究方面,有學(xué)者提出一種K樹模型,根據(jù)事件發(fā)生的時間戳,推測信息傳播的路徑以此達(dá)到溯源的目的;另有學(xué)者將互聯(lián)網(wǎng)上的話題溯源抽象為一個排序問題,并提出基于文檔時間、話題相關(guān)性和文檔之間關(guān)系三者結(jié)合的TCL話題溯源模型;還有人通過分析博客空間的轉(zhuǎn)發(fā)網(wǎng)絡(luò),根據(jù)時間和鏈接關(guān)系進(jìn)行回溯抽取出信息傳播的骨干關(guān)系。當(dāng)前的話題溯源方法大多基于內(nèi)容相似度、時間順序以及鏈接關(guān)系,而如今的微博不同于以往的信息載體,其文本短小且用戶經(jīng)常采用轉(zhuǎn)發(fā)機(jī)制來推動信息傳播,并不適合進(jìn)行頁面相似度分析。由于話題在傳播擴(kuò)散過程中影響力不斷變化,因此可以通過分析語義相似的話題間影響力的變化情況,根據(jù)傳播理論中的動力學(xué)分析逐層縮小話題溯源的范圍,最終達(dá)到溯源的目的?;谝陨戏治觯緦@夹g(shù)提出了一種基于話題影響力的微博話題溯源方法。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)的目的在于提出一種溯源準(zhǔn)確度更高的基于話題影響力的微博話題溯源方法。本專利技術(shù)的目的是這樣實(shí)現(xiàn)的:(1)根據(jù)信息檢索領(lǐng)域的隱形語義查詢擴(kuò)展方法,對輸入的話題詞組tp進(jìn)行語義擴(kuò)展,得到與給定話題相關(guān)的前k個話題:(1.1)對數(shù)據(jù)集中的所有微博進(jìn)行去停用詞、詞干化預(yù)處理,構(gòu)建基于向量空間模型的文本數(shù)據(jù)庫;(1.2)對用戶提交的查詢話題進(jìn)行去停用詞、詞干化預(yù)處理,形成查詢的向量形式TP;(1.3)根據(jù)隱形語義索引LSI方法獲得與給定話題語義相關(guān)的前k個話題;(2)確定微博網(wǎng)絡(luò)中的用戶關(guān)系及信息傳播規(guī)律,確定話題影響力TIN:(2.1)在微博中搜索話題tpk包含的所有微博wbj,j=1……n;(2.2)計算每條微博wbj的影響力wbinj;wbinj=logfwj×logcmj×cpj,其中,fwj代表微博的被轉(zhuǎn)發(fā)數(shù),cmj代表微博的回復(fù)數(shù),cpj代表微博的有效回復(fù)率即回復(fù)的微博中有效回復(fù)數(shù)占回復(fù)數(shù)之比;(2.3)通過標(biāo)簽字段判斷話題tpk所屬的類別,確定話題類別在話題影響力計算公式中的權(quán)重tc;tc0代表話題類別的初始權(quán)重,wb代表某一時間段內(nèi)要溯源的話題tpk的微博數(shù)量,wba表示這一時間段內(nèi)網(wǎng)絡(luò)中的所有微博數(shù);(2.4)計算話題tpk的內(nèi)容影響力CIN;(2.5)計算話題的意見領(lǐng)袖的影響力LIN,其中影響因素包括用戶對話題的敏感度貢獻(xiàn)度UC和權(quán)威度UA,用戶的影響力排名中前5位用戶為話題的意見領(lǐng)袖,他們的影響力之和為話題的意見領(lǐng)袖影響力;t表示實(shí)驗(yàn)持續(xù)時間,Butp(i)表示距實(shí)驗(yàn)起始時間第i個時間步用戶u所發(fā)布的與話題tp有關(guān)的微博數(shù),包括轉(zhuǎn)發(fā)、回復(fù)、原創(chuàng)微博,代表Butp(i)的均值;Bitp表示距實(shí)驗(yàn)起始時間第i個時間步與話題tp有關(guān)的微博數(shù),代表Bitp的均值,以1h為一個時間步,u1代表該用戶之前他的關(guān)注者中參與話題的人數(shù),u2代表該用戶之后他的粉絲中參與話題的人數(shù),b1代表用戶參與話題前他的關(guān)注者發(fā)表的與話題相關(guān)的微博數(shù),b2代表用戶參與話題后他的粉絲發(fā)表的與話題相關(guān)的微博數(shù),在影響力計算中的權(quán)重分配為:機(jī)構(gòu)和媒體,UA=1.0;明星達(dá)人,UA=0.8;草根用戶,UA=0.4;(2.6)計算話題的影響力強(qiáng)度TIN;TIN=CIN+LIN;(2.7)重復(fù)上述(2.1)到(2.6)步,計算出與話題tp相關(guān)的k個話題的影響力;(3)根據(jù)影響力計算公式,以1h為一個時間步計算話題的影響力,得到話題在傳播過程中隨著時間變化的的影響力趨勢,其影響力強(qiáng)度從話題初期的緩慢增長到急劇上升最后達(dá)到平穩(wěn)狀態(tài),即話題成長為熱點(diǎn);(4)推導(dǎo)話題溯源遞推公式,并確定其溯源遞推終止條件,輸出引發(fā)話題的源頭wbp:(4.1)根據(jù)話題的影響力變化趨勢逆向推導(dǎo),得到溯源遞推公式:TIN(tp)=minTIN(tpk);(4.2)對話題的溯源模型進(jìn)行動力學(xué)分析,仿真話題傳播的演化過程,當(dāng)演化曲線趨于平穩(wěn)時即停止話題的溯源遞推,話題溯源模型包括三個狀態(tài),以N表示未接觸話題狀態(tài)即未激活狀態(tài),A表示接觸話題并傳播狀態(tài)即激活狀態(tài),R表示接觸話題而不愿傳播狀態(tài)即免疫狀態(tài);未激活態(tài)到激活態(tài)的概率為λ,激活態(tài)到免疫態(tài)的概率為μ,未激活態(tài)到免疫態(tài)的概率為θ;a(t),n(t),r(t)分別為A,N,R狀態(tài)的密度;(4.3)輸出曲線中處于話題從出現(xiàn)到發(fā)展成為熱門話題的臨界區(qū)間的微博wbp,p=1……n。本專利技術(shù)的有益效果是:1、改進(jìn)微博網(wǎng)絡(luò)中的影響力計算方法,從宏觀層面考慮話題的影響力,使話題的影響力的度量方法更加全面并適合于話題溯源模型。2、對話題溯源遞推公式加入了動力學(xué)分析,改進(jìn)了傳統(tǒng)SIR傳染病模型中不同類型節(jié)點(diǎn)的狀態(tài)轉(zhuǎn)移關(guān)系,使得話題溯源遞推的終止條件更加準(zhǔn)確。3、由話題的影響力變化規(guī)律來構(gòu)建話題的溯源遞推公式,將話題的相似性與社會影響力相結(jié)合進(jìn)行溯源的方法在以短文本信息為主的微博網(wǎng)絡(luò)中更加準(zhǔn)確有效。附圖說明圖1為基于話題影響力的話題溯源的系統(tǒng)流程圖;圖2為話題溯源遞推算法的流程圖。具體實(shí)施方式下面結(jié)合附圖對本專利技術(shù)作進(jìn)一步描述。本專利技術(shù)的功能實(shí)現(xiàn)包括下述模塊:(1)查詢話題擴(kuò)展模塊根據(jù)信息檢索領(lǐng)域的隱形語義查詢擴(kuò)展方法,對輸入的話題詞組進(jìn)行語義擴(kuò)展,得到與給定話題相關(guān)的其他話題;(2)微博話題的影響力計算模塊對微博網(wǎng)絡(luò)中的用戶關(guān)系及信息傳播規(guī)律進(jìn)行探究,確定話題影響力由話題內(nèi)容和意見領(lǐng)袖的影響力共同決定,并分別給出話題內(nèi)容影響力計算公式和意見領(lǐng)袖的影響力計算公式;(3)話題影響力變化趨勢分析模塊根據(jù)話題影響力計算公式繪制話題在傳播過程中的影響力變化趨勢曲線,并分析其傳播規(guī)律;(4)話題溯源遞推模塊推導(dǎo)話題溯源遞推公式,并確定其溯源遞推終止條件,最終輸出引發(fā)話題的源頭。查詢話題擴(kuò)展模塊的步驟為:1)對數(shù)據(jù)集中的所有微博進(jìn)行預(yù)處理,構(gòu)建基于向量空間的文本數(shù)據(jù)庫;2)對用戶提交的查詢話題進(jìn)行預(yù)處理,形成查詢的向量形式;3)根據(jù)隱形語義查詢擴(kuò)展方法獲得與給定話題語義相關(guān)的其他話題。微博話題影響力計算模塊的步驟為:1)根據(jù)公式計算話題內(nèi)每條微博的內(nèi)容影響力;2)所有微博內(nèi)容影響力的平均值作為話題的內(nèi)容影響力;3)根據(jù)公式計算參與話題的每位用戶的影響力;4)用戶影響本文檔來自技高網(wǎng)
    ...
    一種基于話題影響力的微博話題溯源方法

    【技術(shù)保護(hù)點(diǎn)】
    一種基于話題影響力的微博話題溯源方法,其特征在于:(1)根據(jù)信息檢索領(lǐng)域的隱形語義查詢擴(kuò)展方法,對輸入的話題詞組tp進(jìn)行語義擴(kuò)展,得到與給定話題相關(guān)的前k個話題:(1.1)對數(shù)據(jù)集中的所有微博進(jìn)行去停用詞、詞干化預(yù)處理,構(gòu)建基于向量空間模型的文本數(shù)據(jù)庫;(1.2)對用戶提交的查詢話題進(jìn)行去停用詞、詞干化預(yù)處理,形成查詢的向量形式TP;(1.3)根據(jù)隱形語義索引LSI方法獲得與給定話題語義相關(guān)的前k個話題;(2)確定微博網(wǎng)絡(luò)中的用戶關(guān)系及信息傳播規(guī)律,確定話題影響力TIN:(2.1)在微博中搜索話題tpk包含的所有微博wbj,j=1……n;(2.2)計算每條微博wbj的影響力wbinj;wbinj=log?fwj×log?cmj×cpj,其中,fwj代表微博的被轉(zhuǎn)發(fā)數(shù),cmj代表微博的回復(fù)數(shù),cpj代表微博的有效回復(fù)率即回復(fù)的微博中有效回復(fù)數(shù)占回復(fù)數(shù)之比;(2.3)通過標(biāo)簽字段判斷話題tpk所屬的類別,確定話題類別在話題影響力計算公式中的權(quán)重tc;tc=logwbawb×tc0]]>tc0代表話題類別的初始權(quán)重,wb代表某一時間段內(nèi)要溯源的話題tpk的微博數(shù)量,wba表示這一時間段內(nèi)網(wǎng)絡(luò)中的所有微博數(shù);(2.4)計算話題tpk的內(nèi)容影響力CIN;CIN=1wb×Σj=1wb(wbinj)×tc]]>(2.5)計算話題的意見領(lǐng)袖的影響力LIN,其中影響因素包括用戶對話題的敏感度貢獻(xiàn)度UC和權(quán)威度UA,用戶的影響力排名中前5位用戶為話題的意見領(lǐng)袖,他們的影響力之和為話題的意見領(lǐng)袖影響力;t表示實(shí)驗(yàn)持續(xù)時間,Butp(i)表示距實(shí)驗(yàn)起始時間第i個時間步用戶u所發(fā)布的與話題tp有關(guān)的微博數(shù),包括轉(zhuǎn)發(fā)、回復(fù)、原創(chuàng)微博,代表Butp(i)的均值;Bitp表示距實(shí)驗(yàn)起始時間第i個時間步與話題tp有關(guān)的微博數(shù),代表Bitp的均值,以1h為一個時間步,UC=logu2u1+logb2b1]]>u1代表該用戶之前他的關(guān)注者中參與話題的人數(shù),u2代表該用戶之后他的粉絲中參與話題的人數(shù),b1代表用戶參與話題前他的關(guān)注者發(fā)表的與話題相關(guān)的微博數(shù),b2代表用戶參與話題后他的粉絲發(fā)表的與話題相關(guān)的微博數(shù),在影響力計算中的權(quán)重分配為:機(jī)構(gòu)和媒體,UA=1.0;明星達(dá)人,UA=0.8;草根用戶,UA=0.4;(2.6)計算話題的影響力強(qiáng)度TIN;TIN=CIN+LIN;(2.7)重復(fù)上述(2.1)到(2.6)步,計算出與話題tp相關(guān)的k個話題的影響力;(3)根據(jù)影響力計算公式,以1h為一個時間步計算話題的影響力,得到話題在傳播過程中隨著時間變化的的影響力趨勢,其影響力強(qiáng)度從話題初期的緩慢增長到急劇上升最后達(dá)到平穩(wěn)狀態(tài),即話題成長為熱點(diǎn);(4)推導(dǎo)話題溯源遞推公式,并確定其溯源遞推終止條件,輸出引發(fā)話題的源頭wbp:(4.1)根據(jù)話題的影響力變化趨勢逆向推導(dǎo),得到溯源遞推公式:TIN(tp)=min?TIN(tpk);(4.2)對話題的溯源模型進(jìn)行動力學(xué)分析,仿真話題傳播的演化過程,當(dāng)演化曲線趨于平穩(wěn)時即停止話題的溯源遞推,da(t)dt=-λn(t)a(t)]]>dn(t)dt=λn(t)a(t)-μa(t)]]>dr(t)dt=μa(t)+θn(t)]]>話題溯源模型包括三個狀態(tài),以N表示未接觸話題狀態(tài)即未激活狀態(tài),A表示接觸話題并傳播狀態(tài)即激活狀態(tài),R表示接觸話題而不愿傳播狀態(tài)即免疫狀態(tài);未激活態(tài)到激活態(tài)的概率為λ,激活態(tài)到免疫態(tài)的概率為μ,未激活態(tài)到免疫態(tài)的概率為θ;a(t),n(t),r(t)分別為A,N,R狀態(tài)的密度;(4.3)輸出曲線中處于話題從出現(xiàn)到發(fā)展成為熱門話題的臨界區(qū)間的微博wbp,p=1……n。...

    【技術(shù)特征摘要】
    1.一種基于話題影響力的微博話題溯源方法,其特征在于:(1)根據(jù)信息檢索領(lǐng)域的隱形語義查詢擴(kuò)展方法,對輸入的話題詞組tp進(jìn)行語義擴(kuò)展,得到與給定話題相關(guān)的前k個話題:(1.1)對數(shù)據(jù)集中的所有微博進(jìn)行去停用詞、詞干化預(yù)處理,構(gòu)建基于向量空間模型的文本數(shù)據(jù)庫;(1.2)對用戶提交的查詢話題進(jìn)行去停用詞、詞干化預(yù)處理,形成查詢的向量形式TP;(1.3)根據(jù)隱形語義索引LSI方法獲得與給定話題語義相關(guān)的前k個話題;(2)確定微博網(wǎng)絡(luò)中的用戶關(guān)系及信息傳播規(guī)律,確定話題影響力TIN:(2.1)在微博中搜索話題tpk包含的所有微博wbj,j=1……n;(2.2)計算每條微博wbj的影響力wbinj;wbinj=logfwj×logcmj×cpj,其中,fwj代表微博的被轉(zhuǎn)發(fā)數(shù),cmj代表微博的回復(fù)數(shù),cpj代表微博的有效回復(fù)率即回復(fù)的微博中有效回復(fù)數(shù)占回復(fù)數(shù)之比;(2.3)通過標(biāo)簽字段判斷話題tpk所屬的類別,確定話題類別在話題影響力計算公式中的權(quán)重tc;tc0代表話題類別的初始權(quán)重,wb代表某一時間段內(nèi)要溯源的話題tpk的微博數(shù)量,wba表示這一時間段內(nèi)網(wǎng)絡(luò)中的所有微博數(shù);(2.4)計算話題tpk的內(nèi)容影響力CIN;(2.5)計算話題的意見領(lǐng)袖的影響力LIN,其中影響因素包括用戶對話題的敏感度貢獻(xiàn)度UC和權(quán)威度UA,用戶的影響力排名中前5位用戶為話題的意見領(lǐng)袖,他們的影響力之和為話題的意見領(lǐng)袖影響力;t表示實(shí)驗(yàn)持續(xù)時間,Butp(i)表示距實(shí)驗(yàn)起始時間第i個時間步用戶u所發(fā)布的與話題詞組tp有關(guān)的微博數(shù),包括轉(zhuǎn)發(fā)、回復(fù)、原創(chuàng)微博,代表Butp(i)的均值;Bitp表示距實(shí)...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:楊靜,董圓,張健沛,王勇,初妍,張樂君,楊悅,張澤寶,國林
    申請(專利權(quán))人:哈爾濱工程大學(xué)
    類型:發(fā)明
    國別省市:黑龍江;23

    網(wǎng)友詢問留言 已有1條評論
    • 來自[黑龍江省哈爾濱市聯(lián)通] 2014年12月08日 16:25
      指談話的題目談?wù)摰闹黝}
      0
    1
    主站蜘蛛池模板: 无码国产精品一区二区免费3p| 国产在线无码视频一区二区三区 | 伊人久久无码精品中文字幕| 人妻无码中文字幕免费视频蜜桃| 无码aⅴ精品一区二区三区| 亚洲欧洲精品无码AV| 久久久国产精品无码一区二区三区 | 一级毛片中出无码| 日韩精品无码一区二区三区| 无码人妻AⅤ一区二区三区水密桃 无码欧精品亚洲日韩一区夜夜嗨 无码免费又爽又高潮喷水的视频 无码毛片一区二区三区中文字幕 无码毛片一区二区三区视频免费播放 | 亚洲a无码综合a国产av中文| 亚洲AV无码久久寂寞少妇| 无码任你躁久久久久久久 | 免费无码又爽又刺激一高潮| 亚洲AV无码一区二区大桥未久| 无码精品国产一区二区三区免费| 亚洲精品国产日韩无码AV永久免费网 | AV无码久久久久不卡蜜桃| 波多野结衣AV无码久久一区| 无码av大香线蕉伊人久久| 亚洲国产精品无码久久98| 日韩乱码人妻无码中文字幕| 亚洲av永久无码制服河南实里| 久久中文精品无码中文字幕| 成年午夜无码av片在线观看| 亚洲Av无码乱码在线观看性色| 无码av无码天堂资源网| 国产精品无码无卡在线观看久| 无码亚洲成a人在线观看| 亚洲最大av资源站无码av网址 | 亚洲中文字幕无码av| 亚洲国产成人无码av在线播放| 四虎成人精品无码| 国产50部艳色禁片无码| 无码精品一区二区三区在线| 无码囯产精品一区二区免费| 麻豆aⅴ精品无码一区二区| 亚洲AV无码一区二区三区在线| 日韩人妻无码一区二区三区99| 中文字幕无码日韩欧毛 | 无码日韩人妻精品久久|