The invention discloses a method, through deep convolutional neural networks for short text similarity calculation is to calculate the similarity between this passage, the use of every word in the short text, the similarity calculation is more accurate, the technical proposal is as follows: 1) the number of short text representation a number of matrix, with the corresponding word vector in turn replaced each word in the text, to obtain an ordered sequence vector, as a matrix; 2) of the two target matrix representation of short text generating the similarity matrix; through the arrangement of the words to the cosine similarity between the amount, the similarity matrix is derived; 3) the similarity matrix of rows and columns of tile into the same dimension; 4) the similarity matrix reduction into a value as similarity; for all dimensions with similar matrix, through the depth of the convolutional neural network to The similarity matrix is trained to reduce the dimensionality, and then the similarity is calculated by the multilayer perceptron to represent the similarity values.
【技術實現步驟摘要】
一種通過深度卷積神經網絡進行短文本間相似度計算的方法
本專利技術涉及對文本間相似度的計算方法,具體涉及一種通過深度卷積神經網絡進行短文本間相似度計算的方法。
技術介紹
隨著社區問答類網站的發展,大量不同類型的問題和回答在一起,讓用戶很難找到有用或感興趣的內容。解決上述問題的方法之一是對社區問答系統的問題和回答進行分類,方便用戶直接在自己感興趣的話題中進行搜索和瀏覽。而人工對這些問題和回答進行分類,需要他們在知識領域具有很強的專業知識,同時會消耗相當大的時間和精力。而且隨著社區問答系統的廣泛應用,問題和回答出現的速度逐步加快,人工標注的速度無法適應問題和回答出現的速度。為此,針對社區問答類系統的大量碎片化知識,尋求一種有效的短文本表示方法并對文本間進行相似度計算是一個緊迫的任務。現有技術中公開的,專利號為CN201310661778.2的中國專利“基于語義的文本相似度計算方法”包括三個步驟:(1)對文本集進行預處理,提取出初始特征詞,將其表示成由關鍵詞和概念兩部分組成的向量模型;(2)然后分別計算關鍵詞部分的語義相似度和概念部分的語義相似度,通過對兩部分進行求和最終得到文本的語義相似度。上述專利通過分別計算關鍵詞部分的語義相似度和概念部分的語義相似度來計算文本之間的相似度,關鍵詞和概念不能代替全部文本。因此,上述專利進行文本相似度計算的依據是不完整的,不能完全代表兩段文本之間的相似度。
技術實現思路
為了解決現有技術中的問題,本專利技術提出一種通過深度卷積神經網絡進行短文本間相似度計算的方法,能夠利用短文本中出現的每一個詞語計算短文本間的相似度,使相似度的值計算 ...
【技術保護點】
一種通過深度卷積神經網絡進行短文本間相似度計算的方法,其特征在于,包括以下步驟:1)將若干個短文本表示成若干個矩陣:爬取Wikipedia上全部知識領域相關頁面中出現的詞語作為詞表,對詞表進行訓練,每個詞語得到一個詞向量,用相應的詞向量依次替換短文本中的每個單詞,得到一個有序的向量序列,視為一個矩陣;2)對若干個短文本進行兩兩組合,并對每組的兩個短文本的矩陣生成其相似矩陣:對于每組的兩個短文本,取其相對應的兩個矩陣,依次計算其詞向量之間的余弦相似度,對余弦相似度進行排列,得到每組兩個短文本的相似矩陣;3)將相似矩陣的行和列平鋪成相同維度:統計已有所有相似矩陣的行數和列數,分別找到最大的行數和最多的列數,以最多的行數和列數作為基準,平鋪所有的相似矩陣,使其具有相同的行數和相同的列數,稱為同維度的相似矩陣;4)將相似矩陣降維成一個值作為相似度:對于所有同維度的相似矩陣,通過深度卷積神經網絡對相似矩陣進行訓練降維,再通過多層感知機計算相似程度,來代表相似度的值,完成短文本間相似度計算。
【技術特征摘要】
1.一種通過深度卷積神經網絡進行短文本間相似度計算的方法,其特征在于,包括以下步驟:1)將若干個短文本表示成若干個矩陣:爬取Wikipedia上全部知識領域相關頁面中出現的詞語作為詞表,對詞表進行訓練,每個詞語得到一個詞向量,用相應的詞向量依次替換短文本中的每個單詞,得到一個有序的向量序列,視為一個矩陣;2)對若干個短文本進行兩兩組合,并對每組的兩個短文本的矩陣生成其相似矩陣:對于每組的兩個短文本,取其相對應的兩個矩陣,依次計算其詞向量之間的余弦相似度,對余弦相似度進行排列,得到每組兩個短文本的相似矩陣;3)將相似矩陣的行和列平鋪成相同維度:統計已有所有相似矩陣的行數和列數,分別找到最大的行數和最多的列數,以最多的行數和列數作為基準,平鋪所有的相似矩陣,使其具有相同的行數和相同的列數,稱為同維度的相似矩陣;4)將相似矩陣降維成一個值作為相似度:對于所有同維度的相似矩陣,通過深度卷積神經網絡對相似矩陣進行訓練降維,再通過多層感知機計算相似程度,來代表相似度的值,完成短文本間相似度計算。2.根據權利要求1所述的一種通過深度卷積神經網絡進行短文本間相似度計算的方法,其特征在于,所述步驟1)中采用Google在網上發布的word2vec的開源代碼對詞表進行訓練。3.根據權利要求2所述的一種通過深度卷積神經網絡進行短文本間相似度計算的方法,其特征在于,所述步驟1)中爬取Wikipedia上全部知識領域相關頁面中出現的詞語時消除重復出現的詞語和字母與數字組合的詞語。4.根據權利要求3所述的一種通過深度卷積神經網絡進行短文本間相似度計算的方法,其特征在于,所述步驟1)中用詞向量依次替換短文本中的單詞前對短文本進行預處理:首先去除字母與數字組合的詞語和標點符號,然后定義停用詞,并消除停用詞。5.根據權利要求1所述的一種通過深度卷積神經網絡進行短文本間相似度計算的方法,其特征在于,所述步驟2)中對每組的兩個短文本的矩陣生成其相似矩陣的具體步驟如下:2.1)從兩個矩陣中各取一個詞向量,兩個向量分別為a、b,則余弦相似度的計...
【專利技術屬性】
技術研發人員:魏筆凡,郭朝彤,劉均,鄭慶華,吳蓓,鄭元浩,石磊,吳科煒,
申請(專利權)人:西安交通大學,
類型:發明
國別省市:陜西,61
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。