基于變進(jìn)制編碼技術(shù)的快速詞義排歧方法,屬于自然語言處理技術(shù)領(lǐng)域,其特征在于:引入變進(jìn)制編碼技術(shù),對不同狀態(tài)路徑進(jìn)行統(tǒng)一編碼,使義項(xiàng)的狀態(tài)路徑與變進(jìn)制編碼一一對應(yīng)起來;按照變進(jìn)制進(jìn)位方式,通過編碼順序調(diào)整方便地完成整個狀態(tài)空間的路徑遍歷,同時(shí)以直接進(jìn)位列為分界,將相鄰路徑的狀態(tài)變化合理地分解成互相獨(dú)立的三大部分,通過考慮它們之間的相互影響形成四張概念距離修正值表;根據(jù)相鄰路徑的不同狀態(tài)變化情況,通過檢索四張修正值表對前一路徑概念距離進(jìn)行修正,方便地計(jì)算出新路徑的概念距離;本發(fā)明專利技術(shù)以空間換時(shí)間,大大降低了計(jì)算復(fù)雜度,提高了計(jì)算效率。(*該技術(shù)在2024年保護(hù)過期,可自由使用*)
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于自然語言處理
技術(shù)介紹
詞義排歧(Word Sense Disambiguation,WSD)是自然語言處理研究領(lǐng)域的重要基礎(chǔ)技術(shù),在自然語言處理的各個應(yīng)用領(lǐng)域,包括機(jī)器翻譯、信息檢索、文本分類等,都有重要的應(yīng)用價(jià)值。概括地說,詞義排歧的處理目標(biāo)就是確定句子中每個詞語的準(zhǔn)確義項(xiàng)。為此,需要進(jìn)行以下兩階段的處理1)確定每個詞語的所有可能義項(xiàng),這可以通過對每個詞語的各個義項(xiàng)進(jìn)行了語義解釋或編碼的語義詞典體現(xiàn)出來;2)基于詞語的語言使用環(huán)境確定合適的意義描述,這可以利用各個詞語義項(xiàng)所聯(lián)系的外部知識源,包括其詞匯語義知識和百科知識,并通過局部語境中不同詞語的意義相關(guān)性計(jì)算得到。文獻(xiàn)對目前的典型詞義排歧技術(shù)進(jìn)行了簡單綜述。在目前的各種詞義排歧技術(shù)中,Guo(2002)提出的WSD技術(shù)有其處理特點(diǎn)。在詞語義項(xiàng)定義方面,通過對目前電子詞典的釋義文本的自動處理,提取形成各個義項(xiàng)釋義的原語(Primitive)描述集合,大大提高了義項(xiàng)描述提取的自適應(yīng)性;在詞語相關(guān)度計(jì)算方面,可以直接計(jì)算不同義項(xiàng)的源語描述集中不同源語的語義相關(guān)度,從而降低了語義相關(guān)性知識的獲取難度。同時(shí),通過考慮語境中所有義項(xiàng)組合的總體意義貢獻(xiàn)情況,取得了較好的整體排歧效果。其處理方法簡要描述如下假設(shè)兩個詞語的義項(xiàng)釋義的原語描述集分別為P1,P2,......,Pm和Q1,Q2,......,Qn,我們可以定義Σx=1mΣy=1nPrimitive_Rev(Px,Qy)]]>為這兩個義項(xiàng)間的語義相關(guān)值。其中Primitive_Rev(Px,Qy)表示兩個原語之間的語義相關(guān)度計(jì)算值。這樣,如果句子中有k個詞,每個詞有ni個義項(xiàng),分別通過不同的原語描述集進(jìn)行描述,那么詞義排歧時(shí)共需考慮M=Πi=0k-1ni]]>種可能的義項(xiàng)排列組合。對于每一種可能的排列組合中的k個義項(xiàng),對任意兩個義項(xiàng)按照上面的公式計(jì)算它們之間的語義相關(guān)度,這樣共會求出Ck2(即 )個語義相關(guān)值,然后求出這Ck2個值的總和,作為這種可能排列組合的概念距離。詞義排歧的處理目標(biāo),就是從所有義項(xiàng)排列組合中選擇概念距離最小的組合路徑。由于在這個計(jì)算過程中,我們需要對所有的義項(xiàng)排列組合路徑進(jìn)行一次窮舉搜索,全部計(jì)算量為k(k-1)2MP2]]>(假設(shè)每個義項(xiàng)釋義的源語描述集長度都為P),即時(shí)間復(fù)雜度為O(n2)。隨著k的增大,計(jì)算量是非常大的。因此,目前在使用該算法對實(shí)際句子進(jìn)行處理過程中,一般將完整的句子分成幾個片段,每段大約5個詞,分別對每段應(yīng)用上述算法,最后將所有段的結(jié)果綜合在一起作為最終結(jié)果。這種做法無疑大大降低了整個算法的處理準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)的目的在于提供一種可大大降低計(jì)算復(fù)雜度、提高計(jì)算效率的。本專利技術(shù)的特征在于它依次含有以下步驟(1)計(jì)算機(jī)初始化設(shè)定描述具有k個詞的輸入語句中各個詞wi的ni個義項(xiàng)的義項(xiàng)狀態(tài)空間它的列由k個詞wi從左到右排列而成,i∈,它的行由各個詞wi的ni個義項(xiàng)從上到下排列而成,ni=0,1,...,ni-1,具長度可變,ni從電子語義詞典提取;TS狀態(tài)空間中所有義項(xiàng)描述總數(shù),TS=Σi=0k-1ni;]]>狀態(tài)路徑s0s1...sk-1,si∈,表示句子中第i個詞的第si個義項(xiàng)編號,路徑總數(shù)M=Πi=0k-1ni;]]>狀態(tài)路徑的變進(jìn)制編碼p=Σi=0k-1(si*Πx=i+1k-1nx);]]>狀態(tài)路徑的變進(jìn)制解碼 義項(xiàng)內(nèi)容描述數(shù)組Sense和Sense之間的語義相關(guān)值Sense_Rev(Sense,Sense)=Σx=1mΣy=1nPrimitive_Rev(Px,Qy),]]>其中兩個義項(xiàng)的原語描述集分別為P1,P2,......,Pm和Q1,Q2,......,Qn;所述之Primitive_Rev(Px,Qy)從外部語義知識庫提取;Ni,j是一個二維到一維的映射函子,表示把狀態(tài)空間中第i列第j行的義項(xiàng)狀態(tài)映射到義項(xiàng)內(nèi)容描述數(shù)組Sense]>path(i,p)路徑編碼為p的路徑上第i列位置上的義項(xiàng)狀態(tài)描述,即si=path(i,p),i∈;total_path(i)狀態(tài)空間中第i列之前的所有可能路徑總數(shù),total_path(i)=Πa=0i-1na;]]>概念距離狀態(tài)路徑中任意兩個義項(xiàng)之間的語義相關(guān)值的總和;(2)輸入需要進(jìn)行詞義排歧的語句;(3)詞語義項(xiàng)查詢,它依次含有以下步驟(3.1)初始化i=0,j=0;(3.2)若i<k,則從語義詞典中查出句子中第i個詞的所有ni個義項(xiàng)描述,且順序保存在義項(xiàng)內(nèi)容描述數(shù)組Sense位置上;(3.3)令i=i+1,j=j(luò)+ni,重復(fù)步驟(3.2),直到i=k,終止;(4)構(gòu)造輸入語句中各義項(xiàng)之間的語義相關(guān)數(shù)據(jù)表,它依次含有以下步驟(4.1)設(shè)初始義項(xiàng)a=0;(4.2)若a<TS,則設(shè)另一義項(xiàng)b=0;(4.3)若b<TS,則調(diào)用語義相關(guān)值計(jì)算公式計(jì)算義項(xiàng)a、b之間的語義相關(guān)值relation_value=Sense_Rev(Sense,Sense)=Σx=1mΣy=1nPrimitive_Rev(Px,Qy);]]>(4.4)令b=b+1,重復(fù)步驟(4.3),一直到b不再小于TS;(4.5)令a=a+1,重復(fù)步驟(4.1--4.3);(4.6)若a不再小于TS,終止;(5)詞語義項(xiàng)排歧,它依次含有以下步驟(5.1)用變進(jìn)制編碼描述狀態(tài)空間中的所有狀態(tài)路徑路徑編碼從0開始,按照變進(jìn)制數(shù)的進(jìn)位方式,每次加1得到新的路徑編碼,一直加到M-1,順序得到所有的路徑編碼。再利用變進(jìn)制編碼與狀態(tài)路徑描述之間的一一對應(yīng)關(guān)系,得到各自相應(yīng)的路徑描述;(5.2)利用變進(jìn)制編碼的進(jìn)位特點(diǎn),將相鄰路徑的狀態(tài)變化分解成互相獨(dú)立的三大部分,通過考慮它們之間的相互影響,形成四張概念距離修正值表設(shè)第i列是產(chǎn)生直接進(jìn)位的部分,稱為第二部分,該列的義項(xiàng)編號從m進(jìn)位為m+1;第0列到第i-1列是不發(fā)生改變的部分,稱為第一部分;第i+1列到第k-1列是產(chǎn)生進(jìn)位傳遞的部分,稱為第三部分,其中各列的義項(xiàng)編號從nx-1變?yōu)?,x∈;所述的四張概念距離修正值表為表1存儲第二部分的變動對第一部分產(chǎn)生影響的修正值,用rev_value_1表示; 表2存儲第三部分的變動對第一部分產(chǎn)生影響的修正值,用rev_value_2表示;表3存儲第三部分的變動對第二部分產(chǎn)生影響的修正值,用rev_value_3表示;表4存儲第三部分的變動對自身產(chǎn)生影響的修正值,用,用rev_value_4表示;(5.3)構(gòu)造步驟(5.2)所述的四張修正值表(5.31)構(gòu)造rev_value_1表當(dāng)1≤i≤(k-1),且在i確定的條件下,0≤j≤(total_path(i)-1),0≤m≤(ni-2)時(shí),它依次含有以下步驟(5.311)設(shè)i=0;(5.312)若i<k,則令j=0;(5.313)若j<total_path(i),則令m=0;(5.314)若m<ni-2,則計(jì)算rev_本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
基于變進(jìn)制編碼技術(shù)的快速詞義排歧方法,其特征在于,它依次含有以下步驟:(1)計(jì)算機(jī)初始化設(shè)定:描述具有k個詞的輸入語句中各個詞w↓[i]的n↓[i]個義項(xiàng)的義項(xiàng)狀態(tài)空間:它的列由k個詞w↓[i]從左到右排列而成,i∈ [0,k-1],它的行由各個詞w↓[i]的n↓[i]個義項(xiàng)從上到下排列而成,n↓[i]=0,1,…,n↓[i]-1,具長度可變,n↓[i]從電子語義詞典提取;TS:狀態(tài)空間中所有義項(xiàng)描述總數(shù),TS=*n↓[i];狀態(tài)路徑:s ↓[0]s↓[1]…s↓[k-1],s↓[i]∈[0,n↓[i]-1],表示句子中第i個詞的第s↓[i]個義項(xiàng)編號,路徑總數(shù)M=*n↓[i];狀態(tài)路徑的變進(jìn)制編碼:***;狀態(tài)路徑的變進(jìn)制解碼:***;義項(xiàng)內(nèi)容描述數(shù) 組Sense[]:順序存儲句子中k個詞語的所有TS個義項(xiàng)描述,所述之義項(xiàng)描述從外部語義詞典提取;狀態(tài)路徑中任意兩個義項(xiàng)Sense[a]和Sense[b]之間的語義相關(guān)值Sense_Rev(Sense[a],Sense[b])=**P rimitive_Rev(P↓[x],Q↓[y]),其中兩個義項(xiàng)的原語描述集分別為:P↓[1],P↓[2],……,P↓[m]和Q↓[1],Q↓[2],……,Q↓[n];所述之Primitive_Rev(P↓[x],Q↓[y])從外部語義知識庫提取;N↓[i.j]:是一個二維到一維的映射函子,表示把狀態(tài)空間中第i列第j行的義項(xiàng)狀態(tài)映射到義項(xiàng)內(nèi)容描述數(shù)組Sense[]的特定下標(biāo),具體映射公式為:N↓[i,j]=*n↓[a]+j;path(i,p):路徑編碼為p的路 徑上第i列位置上的義項(xiàng)狀態(tài)描述,即:s↓[i]=path(i,p),i∈[0,k-1];total_path(i):狀態(tài)空間中第i列之前的所有可能路徑總數(shù),total_path(i)=*n↓[a];概念距離:狀態(tài)路徑中任意兩 個義項(xiàng)之間的語義相關(guān)值的總和;(2)輸入需要進(jìn)行詞義排歧的語句;(3)詞語義項(xiàng)查詢,它依次含有以下步驟:(3.1)初始化i=0,j=0;(3.2)若:i<k,則:從語義詞典中查出句子中第i個詞的所有n↓[i] 個義項(xiàng)描述,且順序保存在義項(xiàng)內(nèi)容描述數(shù)組Sense[]中的[j,j+n↓[i]]位置上;(3.3)令i=i+1,j=j+n↓[...
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:周強(qiáng),陳祖舜,梅立軍,徐偉平,
申請(專利權(quán))人:清華大學(xué),
類型:發(fā)明
國別省市:11[中國|北京]
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。