• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>福州大學(xué)專利>正文

    一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法制造技術(shù)

    技術(shù)編號:20025762 閱讀:53 留言:0更新日期:2019-01-06 04:37
    本發(fā)明專利技術(shù)涉及一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法,首先基于Encoder?Decoder模型的基礎(chǔ)之上結(jié)合注意力機制以獲取輸入序列足夠的信息;接著采用拷貝機制與覆蓋度機制解決生成摘要中的未登入詞問題與子句重復(fù)的問題;然后設(shè)計一種選擇網(wǎng)絡(luò),通過該網(wǎng)絡(luò)對原文進行二次編碼以過濾冗余信息;最后通過比較原文與摘要的語義相關(guān)度,校正摘要的語義,提升摘要與原文的語義關(guān)聯(lián)。

    【技術(shù)實現(xiàn)步驟摘要】
    一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法
    本專利技術(shù)涉及信息選擇與語義關(guān)聯(lián)領(lǐng)域,特別是一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法。
    技術(shù)介紹
    基于encoder-decoder框架的Seq2Seq模型于2014年在機器翻譯領(lǐng)域中被Sutskever等人提出并流行開來,其意義在于完全基于數(shù)據(jù)本身,從數(shù)據(jù)中學(xué)習(xí)特征出來,并且相比于其他抽象式摘要方法可以得到更好的效果。Rush等人在2015年發(fā)表的論文中將神經(jīng)語言模型和基于上下文的輸入編碼器相結(jié)合,提出了一種基于encoder-decoder框架的句子摘要模型,在給定輸入句子的情況下,逐個生成摘要的每個詞。Lopyrev等人用LSTM作為encoder-decoder框架的模型,并且使用了注意力模型來生成新聞文章的標(biāo)題,效果很好。同時又提出了一種簡化版的注意力機制(attentionmechanism),相比于復(fù)雜版的注意力機制在解決新聞標(biāo)題生成問題上有更好的效果。Cheng等人提出一種由分層文檔encoder和基于注意力機制的抽取器組成的單文檔摘要框架,該框架能實現(xiàn)詞層面與句子層面的摘要。Tan等人提出一種新型的基于圖結(jié)構(gòu)的注意力機制,能發(fā)現(xiàn)文檔中的顯著的信息,在此基礎(chǔ)之上提出一種分層次的解碼算法生成長序列摘要。近年來,Seq2Seq和注意力模型的大規(guī)模使用將抽象式的摘要研究提高了一個水平。然而在文本摘要的研究中仍然存在許多問題與瓶頸需待解決。例如,在語言模型普遍存在的未登入詞(out-of-vocabulary)問題,人名、機構(gòu)名等這些專有名詞并未在給定的詞表中出現(xiàn),在生成摘要時無法生成這些詞;在生成多句摘要時,Seq2Seq模型中普遍存在摘要結(jié)果中子句重復(fù)、信息冗余的問題;生成的摘要的語義與原文的語義可能存在偏差甚至大相徑庭的情況。由此可見,生成摘要的準(zhǔn)確性以及可讀性有較大提升空間。
    技術(shù)實現(xiàn)思路
    有鑒于此,本專利技術(shù)的目的是提出一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法,能夠綜合改善生成摘要中存在的未登入詞、句子重復(fù)、信息冗余以及生成摘要的語義與原文的語義存在偏差甚至大相徑庭等問題。本專利技術(shù)采用以下方案實現(xiàn):一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法,包括以下步驟:步驟S1:基于Encoder-Decoder模型的基礎(chǔ)之上結(jié)合注意力機制,以獲取輸入序列的足夠信息;步驟S2:采用拷貝機制與覆蓋度機制解決未登入詞問題與生成摘要子句重復(fù)的問題;步驟S3:設(shè)計一種選擇網(wǎng)絡(luò),通過對編碼器生成的隱含層進行過濾,從輸入原文的編碼信息中篩選出更為有用的信息作為輸入原文的二次編碼信息,以實現(xiàn)信息選擇的目的,過濾冗余信息;步驟S4:通過比較原文與摘要的語義相關(guān)度,校正摘要的語義,提升摘要與原文的語義關(guān)聯(lián),得到最后模型。進一步地,步驟S1具體包括以下步驟:步驟S11:將注意力機制引入Encoder-Decoder模型之中;步驟S12:編碼器將輸入編碼成一個向量序列;在解碼的時候,每一步都會選擇性的從向量序列中挑選一個子集進行進一步處理,生成當(dāng)前步驟的語義向量;步驟S13:在產(chǎn)生輸出的時候,先產(chǎn)生一個注意力分布,表示接下來輸出的時候要重點關(guān)注輸入序列中的哪些部分,然后根據(jù)關(guān)注的區(qū)域來產(chǎn)生下一個輸出。進一步地,所述Encoder-Decoder模型采用雙向LSTM作為編碼器Encoder,生成由編碼器各個隱含層狀態(tài)所組成的序列其中表示正向LSTM的隱狀態(tài),表示反向LSTM的隱狀態(tài);解碼器decoder由單向LSTM組成,在解碼器執(zhí)行第t步時,通過結(jié)合上一步生成詞yt-1與解碼器狀態(tài)st生成該步中的摘要結(jié)果yt;解碼器執(zhí)行第t步時的注意力分布采用下式計算:式中,v、Wh、Ws、battn是待學(xué)習(xí)的參數(shù),hi表示編碼器輸出;采用下式利用所述注意力分布生成語義向量c:通過結(jié)合語義向量c與解碼器狀態(tài)st生成詞表的概率分布Pvocab:Pvocab=softmax(V'(V[st,c]+b)+b');式中,V'、V、b、b'是待學(xué)習(xí)的參數(shù),Pvocab表示生成下一個詞時詞表中所有詞的概率分布,通過該概率分布,獲取預(yù)測詞的概率P(w):P(w)=Pvocab(w);式中,w表示預(yù)測詞。進一步地,步驟S2具體包括以下步驟:步驟S21:采用拷貝機制定義一個生成概率pgen∈[0,1]:式中,bptr為待學(xué)習(xí)的參數(shù),σ為sigmoid激活函數(shù),pgen表示選擇從詞表生成詞或是從輸入序列中拷貝對應(yīng)詞的概率,c表示語義向量,st表示解碼器狀態(tài),yt表示當(dāng)前步驟中的摘要結(jié)果;步驟S22:通過將未登入詞加入詞表生成拓展詞表并通過拓展詞表的概率分布獲取預(yù)測詞的概率,進而將公式P(w)=Pvocab(w)替換為:式中,wi表示出現(xiàn)在原文中的詞;步驟S23:采用覆蓋度機制為維持一個覆蓋度向量ct,由于注意力分布含有原文的位置信息,通過避免相同位置詞重復(fù)出現(xiàn)來避免生成重復(fù)的文本;覆蓋度向量通過累加解碼器之前步驟的注意力分布來表示:式中,表示到解碼器生成第t個詞為止注意力分布對應(yīng)的第i個詞對生成摘要的影響的覆蓋度向量;步驟S24:將覆蓋度向量融合到注意力機制中,表示在每一步生成注意力分布時能考慮到之前生成詞的分布情況,避免生成重復(fù)的文本,即在公式中引入覆蓋度向量,得到下式:式中,wc為待學(xué)習(xí)的參數(shù);步驟S25:采用下式來定義覆蓋度損失以懲罰重復(fù)生成相同位置詞的情況:式中,表示表示到解碼器生成第t個詞為止注意力分布對應(yīng)的第i個詞對生成摘要的影響的覆蓋度向量;在訓(xùn)練時,解碼器第t步的損失函數(shù)定義如下:式中,表示標(biāo)準(zhǔn)摘要結(jié)果中的目標(biāo)詞;整個長度為T的摘要序列的損失為:進一步地,所述步驟S3具體包括以下步驟:步驟S31:保留RNN的最后一個狀態(tài)或是平均池化RNN的輸出來提取句子或是整個文檔的信息,并對原文進行卷積,獲取詞之間的上下文關(guān)系,獲取文檔中詞的特征信息;步驟S32:通過結(jié)合文檔每個詞的特征信息與整個文檔的特征信息對編碼器的輸出進行選擇,生成二次編碼信息,使主要內(nèi)容暴露出來。進一步地,步驟S31具體為:步驟S311:將一個長度為n的文檔表示為一個矩陣W=[w1,w2,…,wn]∈Rn×d,其wi中表示第i個詞的詞向量;一個寬度為h的卷積核K∈Rh×d能夠?qū)⒁粋€文檔中連續(xù)的h個詞進行卷積生成一個新的特征,通過卷積操作遍歷整個文檔能夠生成一個特征映射f=[f1,f2,...,fn-h+1]∈Rn-h+1,其中fi定義為:fi=ReLU(K·Wi:i+h-1+b);式中,Wi:i+h-1表示窗口大小為h的詞向量矩陣,b表示偏置;步驟S312:通過最大池化特征映射,將結(jié)果f'作為卷積核K對應(yīng)于該文檔每個詞的特征信息:f'=max(f);步驟S313:通過連結(jié)雙向LSTM的正向最后一個隱含狀態(tài)與反向第一個隱藏狀態(tài)來表示整個文檔的特征信息s:進一步地,步驟S32具體包括以下步驟:步驟S321:對于編碼器每個輸出結(jié)果hi,選擇網(wǎng)絡(luò)通過將hi與s、f'結(jié)合生成一個權(quán)重映射sGatei:sGatei=σ(Ishi+Jss+Ksf'+b)式中,Is、Js、Ks為待學(xué)習(xí)的參數(shù);sGatei綜合文檔的特征信息與文檔中詞的特征調(diào)整編碼結(jié)果,對突出的主要信息賦予更高的權(quán)重,對于不重要的信息弱化其對整個文檔的作用;本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護點】
    1.一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法,其特征在于:包括以下步驟:步驟S1:基于Encoder?Decoder模型的基礎(chǔ)之上結(jié)合注意力機制,以獲取輸入序列的足夠信息;步驟S2:采用拷貝機制與覆蓋度機制解決未登入詞問題與生成摘要子句重復(fù)的問題;步驟S3:設(shè)計一種選擇網(wǎng)絡(luò),通過對編碼器生成的隱含層進行過濾,從輸入原文的編碼信息中篩選出更為有用的信息作為輸入原文的二次編碼信息,以實現(xiàn)信息選擇的目的,過濾冗余信息;步驟S4:通過比較原文與摘要的語義相關(guān)度,校正摘要的語義,提升摘要與原文的語義關(guān)聯(lián),得到最后模型。

    【技術(shù)特征摘要】
    1.一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法,其特征在于:包括以下步驟:步驟S1:基于Encoder-Decoder模型的基礎(chǔ)之上結(jié)合注意力機制,以獲取輸入序列的足夠信息;步驟S2:采用拷貝機制與覆蓋度機制解決未登入詞問題與生成摘要子句重復(fù)的問題;步驟S3:設(shè)計一種選擇網(wǎng)絡(luò),通過對編碼器生成的隱含層進行過濾,從輸入原文的編碼信息中篩選出更為有用的信息作為輸入原文的二次編碼信息,以實現(xiàn)信息選擇的目的,過濾冗余信息;步驟S4:通過比較原文與摘要的語義相關(guān)度,校正摘要的語義,提升摘要與原文的語義關(guān)聯(lián),得到最后模型。2.根據(jù)權(quán)利要求1所述的一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法,其特征在于:步驟S1具體包括以下步驟:步驟S11:將注意力機制引入Encoder-Decoder模型之中;步驟S12:編碼器將輸入編碼成一個向量序列;在解碼的時候,每一步都會選擇性的從向量序列中挑選一個子集進行進一步處理,生成當(dāng)前步驟的語義向量;步驟S13:在產(chǎn)生輸出的時候,先產(chǎn)生一個注意力分布,表示接下來輸出的時候要重點關(guān)注輸入序列中的哪些部分,然后根據(jù)關(guān)注的區(qū)域來產(chǎn)生下一個輸出。3.根據(jù)權(quán)利要求2所述的一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法,其特征在于:所述Encoder-Decoder模型采用雙向LSTM作為編碼器Encoder,生成由編碼器各個隱含層狀態(tài)所組成的序列其中表示正向LSTM的隱狀態(tài),表示反向LSTM的隱狀態(tài);解碼器decoder由單向LSTM組成,在解碼器執(zhí)行第t步時,通過結(jié)合上一步生成詞yt-1與解碼器狀態(tài)st生成該步中的摘要結(jié)果yt;解碼器執(zhí)行第t步時的注意力分布采用下式計算:式中,v、Wh、Ws、battn是待學(xué)習(xí)的參數(shù),hi表示編碼器輸出;采用下式利用所述注意力分布生成語義向量c:通過結(jié)合語義向量c與解碼器狀態(tài)st生成詞表的概率分布Pvocab:Pvocab=softmax(V′(V[st,c]+b)+b′);式中,V′、V、b、b′是待學(xué)習(xí)的參數(shù),Pvocab表示生成下一個詞時詞表中所有詞的概率分布,通過該概率分布,獲取預(yù)測詞的概率P(w):P(w)=Pvocab(w);式中,w表示預(yù)測詞。4.根據(jù)權(quán)利要求1所述的一種融合信息選擇與語義關(guān)聯(lián)的文本摘要模型生成算法,其特征在于:步驟S2具體包括以下步驟:步驟S21:采用拷貝機制定義一個生成概率pgen∈[0,1]:式中,bptr為待學(xué)習(xí)的參數(shù),σ為sigmoid激活函數(shù),pgen表示選擇從詞表生成詞或是從輸入序列中拷貝對應(yīng)詞的概率,c表示語義向量,st表示解碼器狀態(tài),yt表示當(dāng)前步驟中的摘要結(jié)果;步驟S22:通過將未登入詞加入詞表生成拓展詞表并通過拓展詞表的概率分布獲取預(yù)測詞的概率,進而將公式P(w)=Pvocab(w)替換為:式中,wi表示出現(xiàn)在原文中的詞;步驟S23:采用覆蓋度機制為維持一個覆蓋度向量ct,由于注意力分布含有原文的位置信息,通過避免相同位置詞重復(fù)出現(xiàn)來避免生成重復(fù)的文本;覆蓋度向量通過累加解碼器之前步驟的注意力分布來表示:式中,表示到解碼器生成第t個詞為止注意力分布對應(yīng)的第i個詞對生成摘要的影響的覆蓋度向量;步驟S24:將覆蓋度向量融合到注意力機制中,表示在每一步生成注意力分布時能考慮到之前生成詞的分布情況,避免生成重復(fù)的文本,即在公式中引...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:郭文忠陳立群郭昆陳羽中
    申請(專利權(quán))人:福州大學(xué)
    類型:發(fā)明
    國別省市:福建,35

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    相關(guān)領(lǐng)域技術(shù)
    • 暫無相關(guān)專利
    主站蜘蛛池模板: 精品久久久久久无码免费| 国产精品va无码二区| 免费A级毛片无码视频| 无码成A毛片免费| 无码永久免费AV网站| 国产成人A人亚洲精品无码| 亚洲AV无码专区国产乱码不卡| 亚洲一级特黄大片无码毛片| 亚洲国产成人精品无码一区二区| 国产又爽又黄无码无遮挡在线观看 | 国产午夜精品无码| 亚洲AV无码AV男人的天堂不卡| 亚洲av无码不卡| 本道天堂成在人线av无码免费| 熟妇人妻无码xxx视频| 久久午夜伦鲁片免费无码| 亚洲精品中文字幕无码蜜桃| 国产精品无码一区二区三区免费| 亚洲av无码专区在线电影天堂 | 亚洲中文字幕无码久久精品1 | 久久精品无码一区二区三区不卡 | 免费无码黄十八禁网站在线观看| 无码专区天天躁天天躁在线| 亚洲日韩v无码中文字幕| 亚洲熟妇少妇任你躁在线观看无码| 无码丰满熟妇juliaann与黑人| 无码aⅴ精品一区二区三区浪潮| 国产在线拍偷自揄拍无码| 中文字幕日韩精品无码内射| 精品无码综合一区| 精品无码国产污污污免费网站国产 | 在线A级毛片无码免费真人 | 黄A无码片内射无码视频| av色欲无码人妻中文字幕| 国产品无码一区二区三区在线| 特级毛片内射www无码| 无码精品蜜桃一区二区三区WW| 精品无人区无码乱码毛片国产| 午夜无码中文字幕在线播放| 国产综合无码一区二区辣椒| 国产50部艳色禁片无码|