The invention discloses a social network text clustering method based on a convolution neural network, which comprises the following steps: text preprocessing: filtering unwanted characters and converting them into word vectors. Feature mapping: the local feature preserving algorithm is used to map the word vector into a convolutional neural network model, and the two feature vectors are used as the target features of the training of convolutional neural networks. Convolutional neural network: the training process of convolutional neural network takes the word vector as input, and the two feature vectors are trained as target features. K means: two yuan according to the clustering feature vector output convolutional neural network, using unsupervised learning algorithm K means clustering in machine learning, the clustering result is obtained.
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法
本專利技術(shù)是一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法。
技術(shù)介紹
隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的用戶喜歡在網(wǎng)絡(luò)上發(fā)布自己的觀點(diǎn)、分享個人的生活狀態(tài),同時加強(qiáng)與朋友的溝通交流,社交媒體也因此發(fā)展迅猛。微博,作為一個基于用戶關(guān)系信息分享、傳播以及獲取的平臺,改變了傳統(tǒng)網(wǎng)絡(luò)媒體交流方式,開創(chuàng)了一個新的社交媒體互動模式,給用戶提供更為豐富的信息內(nèi)容和便捷的溝通方式,迅速成為了最受歡迎的社交網(wǎng)絡(luò)媒體。在微博平臺中,用戶通過發(fā)表個人對社會熱點(diǎn)事件的看法、某一產(chǎn)品的購物體驗(yàn)等等,來表達(dá)自己的情感,形成了海量的話題文本信息。充分處理分析這些文本信息具有重要的社會價值、商業(yè)價值以及用戶價值。而有效處理海量微博信息的基礎(chǔ)是對微博文本進(jìn)行聚類,因此微博文本聚類的實(shí)現(xiàn)具有重要意義。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)針對微博文本聚類問題,考慮微博文本的非正式性、稀疏性,設(shè)計一種將適合微博短文本的聚類方法,為社交網(wǎng)絡(luò)的輿情分析奠定基礎(chǔ)。技術(shù)方案如下:一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法,包括下列步驟:1)文本預(yù)處理:過濾無用字符,同時轉(zhuǎn)換為詞向量。2)特征映射:通過局部特征保持算法將詞向量映射為卷積神經(jīng)網(wǎng)絡(luò)模型可用的二元特征向量,作為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)特征。3)卷積神經(jīng)網(wǎng)絡(luò):卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,以詞向量為輸入,二元特征向量為目標(biāo)特征進(jìn)行訓(xùn)練,4)K-means聚類:根據(jù)卷積神經(jīng)網(wǎng)絡(luò)輸出的二元特征向量,使用機(jī)器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)算法K-means進(jìn)行聚類,獲得聚類結(jié)果。本專利技術(shù)的基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法,利用卷積神經(jīng)網(wǎng)絡(luò)對 ...
【技術(shù)保護(hù)點(diǎn)】
一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法,包括下列步驟:1)文本預(yù)處理:過濾無用字符,同時轉(zhuǎn)換為詞向量;2)特征映射:通過局部特征保持算法將詞向量映射為卷積神經(jīng)網(wǎng)絡(luò)模型可用的二元特征向量,作為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)特征;3)卷積神經(jīng)網(wǎng)絡(luò):卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,以詞向量為輸入,二元特征向量為目標(biāo)特征進(jìn)行訓(xùn)練;4)K?means聚類:根據(jù)卷積神經(jīng)網(wǎng)絡(luò)輸出的二元特征向量,使用機(jī)器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)算法K?means進(jìn)行聚類,獲得聚類結(jié)果。
【技術(shù)特征摘要】
1.一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法,包括下列步驟:1)文本預(yù)處理:過濾無用字符,同時轉(zhuǎn)換為詞向量;2)特征映射:通過局部特征保持算法將詞向量映射為卷積神經(jīng)網(wǎng)絡(luò)模型可用的二元特征向量,作為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:金志剛,胡博宏,羅詠梅,
申請(專利權(quán))人:天津大學(xué),
類型:發(fā)明
國別省市:天津,12
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。