本發(fā)明專利技術(shù)屬于話題溯源范疇語義社會網(wǎng)絡(luò)中的數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種基于話題影響力的微博話題溯源方法。本發(fā)明專利技術(shù)包括:根據(jù)信息檢索領(lǐng)域的隱形語義查詢擴(kuò)展方法,對輸入的話題詞組tp進(jìn)行語義擴(kuò)展,得到與給定話題相關(guān)的前k個話題;確定微博網(wǎng)絡(luò)中的用戶關(guān)系及信息傳播規(guī)律,確定話題影響力TIN;根據(jù)影響力計算公式,以1h為一個時間步計算話題的影響力,得到話題在傳播過程中隨著時間變化的影響力趨勢,其影響力強(qiáng)度從話題初期的緩慢增長到急劇上升最后達(dá)到平穩(wěn)狀態(tài),即話題成長為熱點(diǎn);推導(dǎo)話題溯源遞推公式,并確定其溯源遞推終止條件,輸出引發(fā)話題的源頭。本發(fā)明專利技術(shù)使話題溯源遞推的終止條件更加準(zhǔn)確,溯源更加準(zhǔn)確有效。
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種基于話題影響力的微博話題溯源方法
本專利技術(shù)屬于話題溯源范疇語義社會網(wǎng)絡(luò)中的數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種基于話題影響力的微博話題溯源方法。
技術(shù)介紹
本文所提出的話題溯源方法主要依據(jù)話題影響力的變化趨勢,故量化話題的影響力成為關(guān)鍵。目前,在線社會網(wǎng)絡(luò)的影響力研究主要分為兩大類:一是從結(jié)點(diǎn)的屬性特征分析影響力;二是基于社會網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)計算影響力。較早的研究常采用用戶的粉絲數(shù)作為度量影響力的指標(biāo),這種方法過于直接簡單缺乏理論分析,在多數(shù)情況下并不準(zhǔn)確。另外,也有其他研究者借鑒WEB數(shù)據(jù)挖掘中鏈接分析的方法,如LeaderRank方法,在網(wǎng)絡(luò)中增加一個與所有節(jié)點(diǎn)雙向聯(lián)通的節(jié)點(diǎn)來改進(jìn)PageRank方法在非連通圖下排序不唯一的缺點(diǎn);還有一種類PageRank方法稱為TwitterRank。該方法對主題內(nèi)容敏感,并且認(rèn)為用戶的影響力是其所有粉絲影響力的總和;由于上述方法僅依靠網(wǎng)絡(luò)結(jié)構(gòu),使得某些節(jié)點(diǎn)能夠采用增加虛假粉絲的手段提高影響力。針對以上方法存在的缺陷,本文通過話題的內(nèi)容與話題中意見領(lǐng)袖的影響力確定話題在網(wǎng)絡(luò)中的全局影響力,使得話題的影響力度量更為全面準(zhǔn)確,并適合于話題溯源研究。目前在話題研究方面,有學(xué)者提出一種K樹模型,根據(jù)事件發(fā)生的時間戳,推測信息傳播的路徑以此達(dá)到溯源的目的;另有學(xué)者將互聯(lián)網(wǎng)上的話題溯源抽象為一個排序問題,并提出基于文檔時間、話題相關(guān)性和文檔之間關(guān)系三者結(jié)合的TCL話題溯源模型;還有人通過分析博客空間的轉(zhuǎn)發(fā)網(wǎng)絡(luò),根據(jù)時間和鏈接關(guān)系進(jìn)行回溯抽取出信息傳播的骨干關(guān)系。當(dāng)前的話題溯源方法大多基于內(nèi)容相似度、時間順序以及鏈接關(guān)系,而如今的微博不同于以往的信息載體,其文本短小且用戶經(jīng)常采用轉(zhuǎn)發(fā)機(jī)制來推動信息傳播,并不適合進(jìn)行頁面相似度分析。由于話題在傳播擴(kuò)散過程中影響力不斷變化,因此可以通過分析語義相似的話題間影響力的變化情況,根據(jù)傳播理論中的動力學(xué)分析逐層縮小話題溯源的范圍,最終達(dá)到溯源的目的?;谝陨戏治觯緦@夹g(shù)提出了一種基于話題影響力的微博話題溯源方法。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)的目的在于提出一種溯源準(zhǔn)確度更高的基于話題影響力的微博話題溯源方法。本專利技術(shù)的目的是這樣實(shí)現(xiàn)的:(1)根據(jù)信息檢索領(lǐng)域的隱形語義查詢擴(kuò)展方法,對輸入的話題詞組tp進(jìn)行語義擴(kuò)展,得到與給定話題相關(guān)的前k個話題:(1.1)對數(shù)據(jù)集中的所有微博進(jìn)行去停用詞、詞干化預(yù)處理,構(gòu)建基于向量空間模型的文本數(shù)據(jù)庫;(1.2)對用戶提交的查詢話題進(jìn)行去停用詞、詞干化預(yù)處理,形成查詢的向量形式TP;(1.3)根據(jù)隱形語義索引LSI方法獲得與給定話題語義相關(guān)的前k個話題;(2)確定微博網(wǎng)絡(luò)中的用戶關(guān)系及信息傳播規(guī)律,確定話題影響力TIN:(2.1)在微博中搜索話題tpk包含的所有微博wbj,j=1……n;(2.2)計算每條微博wbj的影響力wbinj;wbinj=logfwj×logcmj×cpj,其中,fwj代表微博的被轉(zhuǎn)發(fā)數(shù),cmj代表微博的回復(fù)數(shù),cpj代表微博的有效回復(fù)率即回復(fù)的微博中有效回復(fù)數(shù)占回復(fù)數(shù)之比;(2.3)通過標(biāo)簽字段判斷話題tpk所屬的類別,確定話題類別在話題影響力計算公式中的權(quán)重tc;tc0代表話題類別的初始權(quán)重,wb代表某一時間段內(nèi)要溯源的話題tpk的微博數(shù)量,wba表示這一時間段內(nèi)網(wǎng)絡(luò)中的所有微博數(shù);(2.4)計算話題tpk的內(nèi)容影響力CIN;(2.5)計算話題的意見領(lǐng)袖的影響力LIN,其中影響因素包括用戶對話題的敏感度貢獻(xiàn)度UC和權(quán)威度UA,用戶的影響力排名中前5位用戶為話題的意見領(lǐng)袖,他們的影響力之和為話題的意見領(lǐng)袖影響力;t表示實(shí)驗(yàn)持續(xù)時間,Butp(i)表示距實(shí)驗(yàn)起始時間第i個時間步用戶u所發(fā)布的與話題tp有關(guān)的微博數(shù),包括轉(zhuǎn)發(fā)、回復(fù)、原創(chuàng)微博,代表Butp(i)的均值;Bitp表示距實(shí)驗(yàn)起始時間第i個時間步與話題tp有關(guān)的微博數(shù),代表Bitp的均值,以1h為一個時間步,u1代表該用戶之前他的關(guān)注者中參與話題的人數(shù),u2代表該用戶之后他的粉絲中參與話題的人數(shù),b1代表用戶參與話題前他的關(guān)注者發(fā)表的與話題相關(guān)的微博數(shù),b2代表用戶參與話題后他的粉絲發(fā)表的與話題相關(guān)的微博數(shù),在影響力計算中的權(quán)重分配為:機(jī)構(gòu)和媒體,UA=1.0;明星達(dá)人,UA=0.8;草根用戶,UA=0.4;(2.6)計算話題的影響力強(qiáng)度TIN;TIN=CIN+LIN;(2.7)重復(fù)上述(2.1)到(2.6)步,計算出與話題tp相關(guān)的k個話題的影響力;(3)根據(jù)影響力計算公式,以1h為一個時間步計算話題的影響力,得到話題在傳播過程中隨著時間變化的的影響力趨勢,其影響力強(qiáng)度從話題初期的緩慢增長到急劇上升最后達(dá)到平穩(wěn)狀態(tài),即話題成長為熱點(diǎn);(4)推導(dǎo)話題溯源遞推公式,并確定其溯源遞推終止條件,輸出引發(fā)話題的源頭wbp:(4.1)根據(jù)話題的影響力變化趨勢逆向推導(dǎo),得到溯源遞推公式:TIN(tp)=minTIN(tpk);(4.2)對話題的溯源模型進(jìn)行動力學(xué)分析,仿真話題傳播的演化過程,當(dāng)演化曲線趨于平穩(wěn)時即停止話題的溯源遞推,話題溯源模型包括三個狀態(tài),以N表示未接觸話題狀態(tài)即未激活狀態(tài),A表示接觸話題并傳播狀態(tài)即激活狀態(tài),R表示接觸話題而不愿傳播狀態(tài)即免疫狀態(tài);未激活態(tài)到激活態(tài)的概率為λ,激活態(tài)到免疫態(tài)的概率為μ,未激活態(tài)到免疫態(tài)的概率為θ;a(t),n(t),r(t)分別為A,N,R狀態(tài)的密度;(4.3)輸出曲線中處于話題從出現(xiàn)到發(fā)展成為熱門話題的臨界區(qū)間的微博wbp,p=1……n。本專利技術(shù)的有益效果是:1、改進(jìn)微博網(wǎng)絡(luò)中的影響力計算方法,從宏觀層面考慮話題的影響力,使話題的影響力的度量方法更加全面并適合于話題溯源模型。2、對話題溯源遞推公式加入了動力學(xué)分析,改進(jìn)了傳統(tǒng)SIR傳染病模型中不同類型節(jié)點(diǎn)的狀態(tài)轉(zhuǎn)移關(guān)系,使得話題溯源遞推的終止條件更加準(zhǔn)確。3、由話題的影響力變化規(guī)律來構(gòu)建話題的溯源遞推公式,將話題的相似性與社會影響力相結(jié)合進(jìn)行溯源的方法在以短文本信息為主的微博網(wǎng)絡(luò)中更加準(zhǔn)確有效。附圖說明圖1為基于話題影響力的話題溯源的系統(tǒng)流程圖;圖2為話題溯源遞推算法的流程圖。具體實(shí)施方式下面結(jié)合附圖對本專利技術(shù)作進(jìn)一步描述。本專利技術(shù)的功能實(shí)現(xiàn)包括下述模塊:(1)查詢話題擴(kuò)展模塊根據(jù)信息檢索領(lǐng)域的隱形語義查詢擴(kuò)展方法,對輸入的話題詞組進(jìn)行語義擴(kuò)展,得到與給定話題相關(guān)的其他話題;(2)微博話題的影響力計算模塊對微博網(wǎng)絡(luò)中的用戶關(guān)系及信息傳播規(guī)律進(jìn)行探究,確定話題影響力由話題內(nèi)容和意見領(lǐng)袖的影響力共同決定,并分別給出話題內(nèi)容影響力計算公式和意見領(lǐng)袖的影響力計算公式;(3)話題影響力變化趨勢分析模塊根據(jù)話題影響力計算公式繪制話題在傳播過程中的影響力變化趨勢曲線,并分析其傳播規(guī)律;(4)話題溯源遞推模塊推導(dǎo)話題溯源遞推公式,并確定其溯源遞推終止條件,最終輸出引發(fā)話題的源頭。查詢話題擴(kuò)展模塊的步驟為:1)對數(shù)據(jù)集中的所有微博進(jìn)行預(yù)處理,構(gòu)建基于向量空間的文本數(shù)據(jù)庫;2)對用戶提交的查詢話題進(jìn)行預(yù)處理,形成查詢的向量形式;3)根據(jù)隱形語義查詢擴(kuò)展方法獲得與給定話題語義相關(guān)的其他話題。微博話題影響力計算模塊的步驟為:1)根據(jù)公式計算話題內(nèi)每條微博的內(nèi)容影響力;2)所有微博內(nèi)容影響力的平均值作為話題的內(nèi)容影響力;3)根據(jù)公式計算參與話題的每位用戶的影響力;4)用戶影響本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
一種基于話題影響力的微博話題溯源方法,其特征在于:(1)根據(jù)信息檢索領(lǐng)域的隱形語義查詢擴(kuò)展方法,對輸入的話題詞組tp進(jìn)行語義擴(kuò)展,得到與給定話題相關(guān)的前k個話題:(1.1)對數(shù)據(jù)集中的所有微博進(jìn)行去停用詞、詞干化預(yù)處理,構(gòu)建基于向量空間模型的文本數(shù)據(jù)庫;(1.2)對用戶提交的查詢話題進(jìn)行去停用詞、詞干化預(yù)處理,形成查詢的向量形式TP;(1.3)根據(jù)隱形語義索引LSI方法獲得與給定話題語義相關(guān)的前k個話題;(2)確定微博網(wǎng)絡(luò)中的用戶關(guān)系及信息傳播規(guī)律,確定話題影響力TIN:(2.1)在微博中搜索話題tpk包含的所有微博wbj,j=1……n;(2.2)計算每條微博wbj的影響力wbinj;wbinj=log?fwj×log?cmj×cpj,其中,fwj代表微博的被轉(zhuǎn)發(fā)數(shù),cmj代表微博的回復(fù)數(shù),cpj代表微博的有效回復(fù)率即回復(fù)的微博中有效回復(fù)數(shù)占回復(fù)數(shù)之比;(2.3)通過標(biāo)簽字段判斷話題tpk所屬的類別,確定話題類別在話題影響力計算公式中的權(quán)重tc;tc=logwbawb×tc0]]>tc0代表話題類別的初始權(quán)重,wb代表某一時間段內(nèi)要溯源的話題tpk的微博數(shù)量,wba表示這一時間段內(nèi)網(wǎng)絡(luò)中的所有微博數(shù);(2.4)計算話題tpk的內(nèi)容影響力CIN;CIN=1wb×Σj=1wb(wbinj)×tc]]>(2.5)計算話題的意見領(lǐng)袖的影響力LIN,其中影響因素包括用戶對話題的敏感度貢獻(xiàn)度UC和權(quán)威度UA,用戶的影響力排名中前5位用戶為話題的意見領(lǐng)袖,他們的影響力之和為話題的意見領(lǐng)袖影響力;t表示實(shí)驗(yàn)持續(xù)時間,Butp(i)表示距實(shí)驗(yàn)起始時間第i個時間步用戶u所發(fā)布的與話題tp有關(guān)的微博數(shù),包括轉(zhuǎn)發(fā)、回復(fù)、原創(chuàng)微博,代表Butp(i)的均值;Bitp表示距實(shí)驗(yàn)起始時間第i個時間步與話題tp有關(guān)的微博數(shù),代表Bitp的均值,以1h為一個時間步,UC=logu2u1+logb2b1]]>u1代表該用戶之前他的關(guān)注者中參與話題的人數(shù),u2代表該用戶之后他的粉絲中參與話題的人數(shù),b1代表用戶參與話題前他的關(guān)注者發(fā)表的與話題相關(guān)的微博數(shù),b2代表用戶參與話題后他的粉絲發(fā)表的與話題相關(guān)的微博數(shù),在影響力計算中的權(quán)重分配為:機(jī)構(gòu)和媒體,UA=1.0;明星達(dá)人,UA=0.8;草根用戶,UA=0.4;(2.6)計算話題的影響力強(qiáng)度TIN;TIN=CIN+LIN;(2.7)重復(fù)上述(2.1)到(2.6)步,計算出與話題tp相關(guān)的k個話題的影響力;(3)根據(jù)影響力計算公式,以1h為一個時間步計算話題的影響力,得到話題在傳播過程中隨著時間變化的的影響力趨勢,其影響力強(qiáng)度從話題初期的緩慢增長到急劇上升最后達(dá)到平穩(wěn)狀態(tài),即話題成長為熱點(diǎn);(4)推導(dǎo)話題溯源遞推公式,并確定其溯源遞推終止條件,輸出引發(fā)話題的源頭wbp:(4.1)根據(jù)話題的影響力變化趨勢逆向推導(dǎo),得到溯源遞推公式:TIN(tp)=min?TIN(tpk);(4.2)對話題的溯源模型進(jìn)行動力學(xué)分析,仿真話題傳播的演化過程,當(dāng)演化曲線趨于平穩(wěn)時即停止話題的溯源遞推,da(t)dt=-λn(t)a(t)]]>dn(t)dt=λn(t)a(t)-μa(t)]]>dr(t)dt=μa(t)+θn(t)]]>話題溯源模型包括三個狀態(tài),以N表示未接觸話題狀態(tài)即未激活狀態(tài),A表示接觸話題并傳播狀態(tài)即激活狀態(tài),R表示接觸話題而不愿傳播狀態(tài)即免疫狀態(tài);未激活態(tài)到激活態(tài)的概率為λ,激活態(tài)到免疫態(tài)的概率為μ,未激活態(tài)到免疫態(tài)的概率為θ;a(t),n(t),r(t)分別為A,N,R狀態(tài)的密度;(4.3)輸出曲線中處于話題從出現(xiàn)到發(fā)展成為熱門話題的臨界區(qū)間的微博wbp,p=1……n。...
【技術(shù)特征摘要】
1.一種基于話題影響力的微博話題溯源方法,其特征在于:(1)根據(jù)信息檢索領(lǐng)域的隱形語義查詢擴(kuò)展方法,對輸入的話題詞組tp進(jìn)行語義擴(kuò)展,得到與給定話題相關(guān)的前k個話題:(1.1)對數(shù)據(jù)集中的所有微博進(jìn)行去停用詞、詞干化預(yù)處理,構(gòu)建基于向量空間模型的文本數(shù)據(jù)庫;(1.2)對用戶提交的查詢話題進(jìn)行去停用詞、詞干化預(yù)處理,形成查詢的向量形式TP;(1.3)根據(jù)隱形語義索引LSI方法獲得與給定話題語義相關(guān)的前k個話題;(2)確定微博網(wǎng)絡(luò)中的用戶關(guān)系及信息傳播規(guī)律,確定話題影響力TIN:(2.1)在微博中搜索話題tpk包含的所有微博wbj,j=1……n;(2.2)計算每條微博wbj的影響力wbinj;wbinj=logfwj×logcmj×cpj,其中,fwj代表微博的被轉(zhuǎn)發(fā)數(shù),cmj代表微博的回復(fù)數(shù),cpj代表微博的有效回復(fù)率即回復(fù)的微博中有效回復(fù)數(shù)占回復(fù)數(shù)之比;(2.3)通過標(biāo)簽字段判斷話題tpk所屬的類別,確定話題類別在話題影響力計算公式中的權(quán)重tc;tc0代表話題類別的初始權(quán)重,wb代表某一時間段內(nèi)要溯源的話題tpk的微博數(shù)量,wba表示這一時間段內(nèi)網(wǎng)絡(luò)中的所有微博數(shù);(2.4)計算話題tpk的內(nèi)容影響力CIN;(2.5)計算話題的意見領(lǐng)袖的影響力LIN,其中影響因素包括用戶對話題的敏感度貢獻(xiàn)度UC和權(quán)威度UA,用戶的影響力排名中前5位用戶為話題的意見領(lǐng)袖,他們的影響力之和為話題的意見領(lǐng)袖影響力;t表示實(shí)驗(yàn)持續(xù)時間,Butp(i)表示距實(shí)驗(yàn)起始時間第i個時間步用戶u所發(fā)布的與話題詞組tp有關(guān)的微博數(shù),包括轉(zhuǎn)發(fā)、回復(fù)、原創(chuàng)微博,代表Butp(i)的均值;Bitp表示距實(shí)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:楊靜,董圓,張健沛,王勇,初妍,張樂君,楊悅,張澤寶,國林,
申請(專利權(quán))人:哈爾濱工程大學(xué),
類型:發(fā)明
國別省市:黑龍江;23