• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種通過深度卷積神經網絡進行短文本間相似度計算的方法技術

    技術編號:15541935 閱讀:764 留言:0更新日期:2017-06-05 11:06
    本發明專利技術公開了一種通過深度卷積神經網絡進行短文本間相似度計算的方法,目的在于,利用短文本中出現的每一個詞語計算短文本間的相似度,使相似度的值計算的更加準確,所采用的技術方案為:1)把若干短文本表示成若干個矩陣,用相應的詞向量依次替換文本中的每個單詞,得到一個有序的向量序列,視為一個矩陣;2)對兩個表示目標短文本的矩陣生成其相似矩陣;通過對詞向量之間的余弦相似度進行排列,得到其相似矩陣;3)把相似矩陣的行和列平鋪成相同維度;4)把相似矩陣降維成一個值作為相似度;對于所有同維度的相似矩陣,通過深度卷積神經網絡對相似矩陣進行訓練降維,再通過多層感知機計算相似程度,來代表相似度的值。

    A method for computing similarity between essays by depth convolution neural network

    The invention discloses a method, through deep convolutional neural networks for short text similarity calculation is to calculate the similarity between this passage, the use of every word in the short text, the similarity calculation is more accurate, the technical proposal is as follows: 1) the number of short text representation a number of matrix, with the corresponding word vector in turn replaced each word in the text, to obtain an ordered sequence vector, as a matrix; 2) of the two target matrix representation of short text generating the similarity matrix; through the arrangement of the words to the cosine similarity between the amount, the similarity matrix is derived; 3) the similarity matrix of rows and columns of tile into the same dimension; 4) the similarity matrix reduction into a value as similarity; for all dimensions with similar matrix, through the depth of the convolutional neural network to The similarity matrix is trained to reduce the dimensionality, and then the similarity is calculated by the multilayer perceptron to represent the similarity values.

    【技術實現步驟摘要】
    一種通過深度卷積神經網絡進行短文本間相似度計算的方法
    本專利技術涉及對文本間相似度的計算方法,具體涉及一種通過深度卷積神經網絡進行短文本間相似度計算的方法。
    技術介紹
    隨著社區問答類網站的發展,大量不同類型的問題和回答在一起,讓用戶很難找到有用或感興趣的內容。解決上述問題的方法之一是對社區問答系統的問題和回答進行分類,方便用戶直接在自己感興趣的話題中進行搜索和瀏覽。而人工對這些問題和回答進行分類,需要他們在知識領域具有很強的專業知識,同時會消耗相當大的時間和精力。而且隨著社區問答系統的廣泛應用,問題和回答出現的速度逐步加快,人工標注的速度無法適應問題和回答出現的速度。為此,針對社區問答類系統的大量碎片化知識,尋求一種有效的短文本表示方法并對文本間進行相似度計算是一個緊迫的任務。現有技術中公開的,專利號為CN201310661778.2的中國專利“基于語義的文本相似度計算方法”包括三個步驟:(1)對文本集進行預處理,提取出初始特征詞,將其表示成由關鍵詞和概念兩部分組成的向量模型;(2)然后分別計算關鍵詞部分的語義相似度和概念部分的語義相似度,通過對兩部分進行求和最終得到文本的語義相似度。上述專利通過分別計算關鍵詞部分的語義相似度和概念部分的語義相似度來計算文本之間的相似度,關鍵詞和概念不能代替全部文本。因此,上述專利進行文本相似度計算的依據是不完整的,不能完全代表兩段文本之間的相似度。
    技術實現思路
    為了解決現有技術中的問題,本專利技術提出一種通過深度卷積神經網絡進行短文本間相似度計算的方法,能夠利用短文本中出現的每一個詞語計算短文本間的相似度,使相似度的值計算的更加準確。為了實現以上目的,本專利技術所采用的技術方案為:包括以下步驟:1)將若干個短文本表示成若干個矩陣:爬取Wikipedia上全部知識領域相關頁面中出現的詞語作為詞表,對詞表進行訓練,每個詞語得到一個詞向量,用相應的詞向量依次替換短文本中的每個單詞,得到一個有序的向量序列,視為一個矩陣;2)對若干個短文本進行兩兩組合,并對每組的兩個短文本的矩陣生成其相似矩陣:對于每組的兩個短文本,取其相對應的兩個矩陣,依次計算其詞向量之間的余弦相似度,對余弦相似度進行排列,得到每組兩個短文本的相似矩陣;3)將相似矩陣的行和列平鋪成相同維度:統計已有所有相似矩陣的行數和列數,分別找到最大的行數和最多的列數,以最多的行數和列數作為基準,平鋪所有的相似矩陣,使其具有相同的行數和相同的列數,稱為同維度的相似矩陣;4)將相似矩陣降維成一個值作為相似度:對于所有同維度的相似矩陣,通過深度卷積神經網絡對相似矩陣進行訓練降維,再通過多層感知機計算相似程度,來代表相似度的值,完成短文本間相似度計算。所述步驟1)中采用Google在網上發布的word2vec的開源代碼對詞表進行訓練。所述步驟1)中爬取Wikipedia上全部知識領域相關頁面中出現的詞語時消除重復出現的詞語和字母與數字組合的詞語。所述步驟1)中用詞向量依次替換短文本中的單詞前對短文本進行預處理:首先去除字母與數字組合的詞語和標點符號,然后定義停用詞,并消除停用詞。所述步驟2)中對每組的兩個短文本的矩陣生成其相似矩陣的具體步驟如下:2.1)從兩個矩陣中各取一個詞向量,兩個向量分別為a、b,則余弦相似度的計算公式如下:其中,a·b表示向量a與向量b的點積;||a||和||b||分別表示向量a和向量b的模;2.2)對于兩個矩陣的每一個行向量,依次計算其余弦相似度,并作為相似矩陣相應位置上面的值,計算公式如下:σij=cos(Qi,Wj)其中,Qi表示矩陣Q第i行的行向量,Wj表示矩陣W第j行的行向量,σij代表相似矩陣第i行、第j列上對應的值,所得的相似矩陣的行數與矩陣Q的行數相同,相似矩陣的列數與矩陣W的行數相同。所述步驟2.1)中詞向量維度固定,則兩個向量a、b的余弦相似度的計算公式為:其中,xk表示向量x中第k維所對應的值。所述步驟3)中將相似矩陣的行和列平鋪成相同維度的具體過程如下:3.1)針對所有的相似矩陣,統計其行數和列數,找到最大的行數rowmax和最大的列數colmax;3.2)平鋪矩陣時,把矩陣緊密排列,直到行數為rowmax,列數為colmax,若無法恰好得到需要的維度,則把多余的部分刪除掉。所述步驟4)中將相似矩陣降維成一個值作為相似度的具體過程如下:4.1)利用深度卷積神經網絡對所有同維度的相似矩陣進行訓練,依次經過兩個卷積層,兩個池化層,以及一個全連接層之后,每個相似矩陣被降維成一個向量;4.2)用多層感知機處理經過深度卷積神經網絡降維得到的向量,最后每個向量降維得到兩個值,分別是相似程度和不相似程度,相似程度的值即代表了短文本之間相似度的值。與現有技術相比,本專利技術利用深度卷積神經網絡計算短文本之間的相似度,通過訓練把詞語表示成向量形式,實現了文本的量化,通過詞向量之間余弦相似度的計算構建了相似矩陣,平鋪所有的相似矩陣使其具有相同維度,平鋪過程中不會產生特征的丟失,最后采用深度卷積神經網絡和多層感知機計算相似度。將若干個短文本表示成若干個矩陣,把不可量化表示的短文本表示成可量化的矩陣形式,方便對文本間的相似度進行計算。對若干個短文本進行兩兩組合,并對每組的兩個短文本的矩陣生成其相似矩陣,通過依次計算詞向量之間的余弦相似度來生成兩段短文本之間的相似矩陣,余弦相似度計算簡單,相似矩陣為計算相似度奠定基礎。將相似矩陣的行和列平鋪成相同維度使用平鋪的方法把相似矩陣的行和列統一成相同維度,不會導致特征的丟失。將相似矩陣降維成一個值作為相似度通過深度卷積神經網絡和多層感知機訓練相似矩陣并計算相似度,使得計算文本相似度的模型可以很好的被訓練出來,提高了相似度的值計算的準確度。附圖說明圖1是本專利技術的流程框圖;圖2是本專利技術中相似矩陣的生成模型圖;圖3是本專利技術矩陣的平鋪方法圖。具體實施方式下面結合具體的實施例和說明書附圖對本專利技術作進一步的解釋說明。本專利技術包括以下步驟:(1)把若干短文本表示成若干個矩陣:首先,選取Wikipedia上全部知識領域相關頁面中出現的詞語作為詞表;然后,利用Google在網上發布的word2vec的開源代碼對詞表進行訓練,每個詞語都表示為一個向量;最后,用詞表中相應的詞向量依次替換文本中的每個單詞,每個詞向量占一行,得到一個有序的向量序列,可以把其看成一個矩陣,行數是單詞數目;(2)對若干個短文本進行兩兩組合,并對每組的兩個短文本的矩陣生成其相似矩陣:首先,對于兩段文本,取其在步驟(1)中相對應的兩個矩陣,從兩個矩陣中各取一個向量,計算這兩個向量的余弦值,就可以得到對應的兩段文本在統計學方法中的相似度情況;其次,對于兩個相似矩陣的每一個行向量之間都計算其余弦相似度,并作為相似矩陣相應位置上面的值;最后,得到一個完整填充的相似矩陣;(3)把相似矩陣的行和列平鋪成相同維度:首先,統計步驟(2)中現有相似矩陣的行數和列數,找到最大的行數和最大的列數;其次,以最大的行數和最大的列數作為基準,平鋪所有的相似矩陣,從而使相似矩陣具有相同的維度;(4)把相似矩陣降維成一個值作為相似度:對于所有步驟(3)中得到的同維度的相似矩陣,通過深度卷積神經網絡對相似矩陣進行訓練降維,再通過多層感知機計算相似程度本文檔來自技高網...
    一種通過深度卷積神經網絡進行短文本間相似度計算的方法

    【技術保護點】
    一種通過深度卷積神經網絡進行短文本間相似度計算的方法,其特征在于,包括以下步驟:1)將若干個短文本表示成若干個矩陣:爬取Wikipedia上全部知識領域相關頁面中出現的詞語作為詞表,對詞表進行訓練,每個詞語得到一個詞向量,用相應的詞向量依次替換短文本中的每個單詞,得到一個有序的向量序列,視為一個矩陣;2)對若干個短文本進行兩兩組合,并對每組的兩個短文本的矩陣生成其相似矩陣:對于每組的兩個短文本,取其相對應的兩個矩陣,依次計算其詞向量之間的余弦相似度,對余弦相似度進行排列,得到每組兩個短文本的相似矩陣;3)將相似矩陣的行和列平鋪成相同維度:統計已有所有相似矩陣的行數和列數,分別找到最大的行數和最多的列數,以最多的行數和列數作為基準,平鋪所有的相似矩陣,使其具有相同的行數和相同的列數,稱為同維度的相似矩陣;4)將相似矩陣降維成一個值作為相似度:對于所有同維度的相似矩陣,通過深度卷積神經網絡對相似矩陣進行訓練降維,再通過多層感知機計算相似程度,來代表相似度的值,完成短文本間相似度計算。

    【技術特征摘要】
    1.一種通過深度卷積神經網絡進行短文本間相似度計算的方法,其特征在于,包括以下步驟:1)將若干個短文本表示成若干個矩陣:爬取Wikipedia上全部知識領域相關頁面中出現的詞語作為詞表,對詞表進行訓練,每個詞語得到一個詞向量,用相應的詞向量依次替換短文本中的每個單詞,得到一個有序的向量序列,視為一個矩陣;2)對若干個短文本進行兩兩組合,并對每組的兩個短文本的矩陣生成其相似矩陣:對于每組的兩個短文本,取其相對應的兩個矩陣,依次計算其詞向量之間的余弦相似度,對余弦相似度進行排列,得到每組兩個短文本的相似矩陣;3)將相似矩陣的行和列平鋪成相同維度:統計已有所有相似矩陣的行數和列數,分別找到最大的行數和最多的列數,以最多的行數和列數作為基準,平鋪所有的相似矩陣,使其具有相同的行數和相同的列數,稱為同維度的相似矩陣;4)將相似矩陣降維成一個值作為相似度:對于所有同維度的相似矩陣,通過深度卷積神經網絡對相似矩陣進行訓練降維,再通過多層感知機計算相似程度,來代表相似度的值,完成短文本間相似度計算。2.根據權利要求1所述的一種通過深度卷積神經網絡進行短文本間相似度計算的方法,其特征在于,所述步驟1)中采用Google在網上發布的word2vec的開源代碼對詞表進行訓練。3.根據權利要求2所述的一種通過深度卷積神經網絡進行短文本間相似度計算的方法,其特征在于,所述步驟1)中爬取Wikipedia上全部知識領域相關頁面中出現的詞語時消除重復出現的詞語和字母與數字組合的詞語。4.根據權利要求3所述的一種通過深度卷積神經網絡進行短文本間相似度計算的方法,其特征在于,所述步驟1)中用詞向量依次替換短文本中的單詞前對短文本進行預處理:首先去除字母與數字組合的詞語和標點符號,然后定義停用詞,并消除停用詞。5.根據權利要求1所述的一種通過深度卷積神經網絡進行短文本間相似度計算的方法,其特征在于,所述步驟2)中對每組的兩個短文本的矩陣生成其相似矩陣的具體步驟如下:2.1)從兩個矩陣中各取一個詞向量,兩個向量分別為a、b,則余弦相似度的計...

    【專利技術屬性】
    技術研發人員:魏筆凡郭朝彤劉均鄭慶華吳蓓鄭元浩石磊吳科煒
    申請(專利權)人:西安交通大學
    類型:發明
    國別省市:陜西,61

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 人妻丰满熟妇aⅴ无码| 国精无码欧精品亚洲一区| 毛片免费全部播放无码| 亚洲AV日韩AV无码污污网站| 亚洲AV无码不卡在线观看下载| 中文字幕精品无码久久久久久3D日动漫 | 国产精品白浆无码流出| 亚洲一区AV无码少妇电影☆| 日韩av无码国产精品| 性无码免费一区二区三区在线| 无码A级毛片日韩精品| AV大片在线无码永久免费| 国产亚洲精久久久久久无码AV| 少妇无码AV无码专区线| 无码人妻一区二区三区在线视频 | 国产AV无码专区亚洲AV麻豆丫| 一区二区三区无码视频免费福利| 国产成人无码精品久久久小说| 亚洲国产成人精品无码一区二区| 波多野结衣AV无码| 四虎成人精品无码永久在线| 亚洲av无码不卡久久| 色窝窝无码一区二区三区 | 精品无码国产污污污免费网站国产| 精品无码AV一区二区三区不卡| 亚洲成A人片在线观看无码不卡| 国产激情无码一区二区三区| 国产精品成人无码久久久| 久久久久亚洲精品无码网址色欲| 亚洲日韩乱码中文无码蜜桃臀| 免费人妻无码不卡中文字幕系| 国产AV无码专区亚洲AV男同| 亚洲中文字幕无码爆乳AV| 亚洲中文字幕不卡无码| 中文字幕丰满伦子无码| 亚洲av中文无码乱人伦在线r▽| 亚洲中文字幕无码中文字在线 | 色窝窝无码一区二区三区成人网站| 亚洲AV永久青草无码精品| 无码人妻精品一区二区三区久久| 精品无码人妻久久久久久|