【技術(shù)實現(xiàn)步驟摘要】
一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法
本專利技術(shù)涉及信息選擇與語義關(guān)聯(lián)領(lǐng)域,特別是一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法。
技術(shù)介紹
基于encoder-decoder框架的Seq2Seq模型于2014年在機器翻譯領(lǐng)域中被Sutskever等人提出并流行開來,其意義在于完全基于數(shù)據(jù)本身,從數(shù)據(jù)中學(xué)習(xí)特征出來,并且相比于其他抽象式摘要方法可以得到更好的效果。Rush等人在2015年發(fā)表的論文中將神經(jīng)語言模型和基于上下文的輸入編碼器相結(jié)合,提出了一種基于encoder-decoder框架的句子摘要模型,在給定輸入句子的情況下,逐個生成摘要的每個詞。Lopyrev等人用LSTM作為encoder-decoder框架的模型,并且使用了注意力模型來生成新聞文章的標(biāo)題,效果很好。同時又提出了一種簡化版的注意力機制(attentionmechanism),相比于復(fù)雜版的注意力機制在解決新聞標(biāo)題生成問題上有更好的效果。Cheng等人提出一種由分層文檔encoder和基于注意力機制的抽取器組成的單文檔摘要框架,該框架能實現(xiàn)詞層面與句子層面的摘要。Tan等人提出一種新型的基于圖結(jié)構(gòu)的注意力機制,能發(fā)現(xiàn)文檔中的顯著的信息,在此基礎(chǔ)之上提出一種分層次的解碼算法生成長序列摘要。近年來,Seq2Seq和注意力模型的大規(guī)模使用將抽象式的摘要研究提高了一個水平。然而在文本摘要的研究中仍然存在許多問題與瓶頸需待解決。例如,在語言模型普遍存在的未登入詞(out-of-vocabulary)問題,人名、機構(gòu)名等這些專有名詞并未在給定的詞表中出現(xiàn),在生成摘要時無法生成這些詞 ...
【技術(shù)保護點】
1.一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法,其特征在于:包括以下步驟:步驟S1:基于Encoder?Decoder模型的基礎(chǔ)之上結(jié)合注意力機制,以獲取輸入序列的足夠信息;步驟S2:采用拷貝機制與覆蓋度機制解決未登入詞問題與生成摘要子句重復(fù)的問題;步驟S3:設(shè)計一種選擇網(wǎng)絡(luò),通過對編碼器生成的隱含層進行過濾,從輸入原文的編碼信息中篩選出更為有用的信息作為輸入原文的二次編碼信息,以實現(xiàn)信息選擇的目的,過濾冗余信息;步驟S4:通過比較原文與摘要的語義相關(guān)度,校正摘要的語義,提升摘要與原文的語義關(guān)聯(lián),得到最后模型。
【技術(shù)特征摘要】
1.一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法,其特征在于:包括以下步驟:步驟S1:基于Encoder-Decoder模型的基礎(chǔ)之上結(jié)合注意力機制,以獲取輸入序列的足夠信息;步驟S2:采用拷貝機制與覆蓋度機制解決未登入詞問題與生成摘要子句重復(fù)的問題;步驟S3:設(shè)計一種選擇網(wǎng)絡(luò),通過對編碼器生成的隱含層進行過濾,從輸入原文的編碼信息中篩選出更為有用的信息作為輸入原文的二次編碼信息,以實現(xiàn)信息選擇的目的,過濾冗余信息;步驟S4:通過比較原文與摘要的語義相關(guān)度,校正摘要的語義,提升摘要與原文的語義關(guān)聯(lián),得到最后模型。2.根據(jù)權(quán)利要求1所述的一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法,其特征在于:步驟S1具體包括以下步驟:步驟S11:將注意力機制引入Encoder-Decoder模型之中;步驟S12:編碼器將輸入編碼成一個向量序列;在解碼的時候,每一步都會選擇性的從向量序列中挑選一個子集進行進一步處理,生成當(dāng)前步驟的語義向量;步驟S13:在產(chǎn)生輸出的時候,先產(chǎn)生一個注意力分布,表示接下來輸出的時候要重點關(guān)注輸入序列中的哪些部分,然后根據(jù)關(guān)注的區(qū)域來產(chǎn)生下一個輸出。3.根據(jù)權(quán)利要求2所述的一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法,其特征在于:所述Encoder-Decoder模型采用雙向LSTM作為編碼器Encoder,生成由編碼器各個隱含層狀態(tài)所組成的序列其中表示正向LSTM的隱狀態(tài),表示反向LSTM的隱狀態(tài);解碼器decoder由單向LSTM組成,在解碼器執(zhí)行第t步時,通過結(jié)合上一步生成詞yt-1與解碼器狀態(tài)st生成該步中的摘要結(jié)果yt;解碼器執(zhí)行第t步時的注意力分布采用下式計算:式中,v、Wh、Ws、battn是待學(xué)習(xí)的參數(shù),hi表示編碼器輸出;采用下式利用所述注意力分布生成語義向量c:通過結(jié)合語義向量c與解碼器狀態(tài)st生成詞表的概率分布Pvocab:Pvocab=softmax(V′(V[st,c]+b)+b′);式中,V′、V、b、b′是待學(xué)習(xí)的參數(shù),Pvocab表示生成下一個詞時詞表中所有詞的概率分布,通過該概率分布,獲取預(yù)測詞的概率P(w):P(w)=Pvocab(w);式中,w表示預(yù)測詞。4.根據(jù)權(quán)利要求1所述的一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法,其特征在于:步驟S2具體包括以下步驟:步驟S21:采用拷貝機制定義一個生成概率pgen∈[0,1]:式中,bptr為待學(xué)習(xí)的參數(shù),σ為sigmoid激活函數(shù),pgen表示選擇從詞表生成詞或是從輸入序列中拷貝對應(yīng)詞的概率,c表示語義向量,st表示解碼器狀態(tài),yt表示當(dāng)前步驟中的摘要結(jié)果;步驟S22:通過將未登入詞加入詞表生成拓展詞表并通過拓展詞表的概率分布獲取預(yù)測詞的概率,進而將公式P(w)=Pvocab(w)替換為:式中,wi表示出現(xiàn)在原文中的詞;步驟S23:采用覆蓋度機制為維持一個覆蓋度向量ct,由于注意力分布含有原文的位置信息,通過避免相同位置詞重復(fù)出現(xiàn)來避免生成重復(fù)的文本;覆蓋度向量通過累加解碼器之前步驟的注意力分布來表示:式中,表示到解碼器生成第t個詞為止注意力分布對應(yīng)的第i個詞對生成摘要的影響的覆蓋度向量;步驟S24:將覆蓋度向量融合到注意力機制中,表示在每一步生成注意力分布時能考慮到之前生成詞的分布情況,避免生成重復(fù)的文本,即在公式中引...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:郭文忠,陳立群,郭昆,陳羽中,
申請(專利權(quán))人:福州大學(xué),
類型:發(fā)明
國別省市:福建,35
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。