• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>天津大學(xué)專利>正文

    一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法技術(shù)

    技術(shù)編號:15542200 閱讀:134 留言:0更新日期:2017-06-05 11:15
    本發(fā)明專利技術(shù)公開一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法,包括下列步驟:文本預(yù)處理:過濾無用字符,同時轉(zhuǎn)換為詞向量。特征映射:通過局部特征保持算法將詞向量映射為卷積神經(jīng)網(wǎng)絡(luò)模型可用的二元特征向量,作為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)特征。卷積神經(jīng)網(wǎng)絡(luò):卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,以詞向量為輸入,二元特征向量為目標(biāo)特征進(jìn)行訓(xùn)練。K?means聚類:根據(jù)卷積神經(jīng)網(wǎng)絡(luò)輸出的二元特征向量,使用機(jī)器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)算法K?means進(jìn)行聚類,獲得聚類結(jié)果。

    A method of text clustering in social network based on convolutional neural network

    The invention discloses a social network text clustering method based on a convolution neural network, which comprises the following steps: text preprocessing: filtering unwanted characters and converting them into word vectors. Feature mapping: the local feature preserving algorithm is used to map the word vector into a convolutional neural network model, and the two feature vectors are used as the target features of the training of convolutional neural networks. Convolutional neural network: the training process of convolutional neural network takes the word vector as input, and the two feature vectors are trained as target features. K means: two yuan according to the clustering feature vector output convolutional neural network, using unsupervised learning algorithm K means clustering in machine learning, the clustering result is obtained.

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法
    本專利技術(shù)是一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法。
    技術(shù)介紹
    隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的用戶喜歡在網(wǎng)絡(luò)上發(fā)布自己的觀點(diǎn)、分享個人的生活狀態(tài),同時加強(qiáng)與朋友的溝通交流,社交媒體也因此發(fā)展迅猛。微博,作為一個基于用戶關(guān)系信息分享、傳播以及獲取的平臺,改變了傳統(tǒng)網(wǎng)絡(luò)媒體交流方式,開創(chuàng)了一個新的社交媒體互動模式,給用戶提供更為豐富的信息內(nèi)容和便捷的溝通方式,迅速成為了最受歡迎的社交網(wǎng)絡(luò)媒體。在微博平臺中,用戶通過發(fā)表個人對社會熱點(diǎn)事件的看法、某一產(chǎn)品的購物體驗(yàn)等等,來表達(dá)自己的情感,形成了海量的話題文本信息。充分處理分析這些文本信息具有重要的社會價值、商業(yè)價值以及用戶價值。而有效處理海量微博信息的基礎(chǔ)是對微博文本進(jìn)行聚類,因此微博文本聚類的實(shí)現(xiàn)具有重要意義。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)針對微博文本聚類問題,考慮微博文本的非正式性、稀疏性,設(shè)計一種將適合微博短文本的聚類方法,為社交網(wǎng)絡(luò)的輿情分析奠定基礎(chǔ)。技術(shù)方案如下:一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法,包括下列步驟:1)文本預(yù)處理:過濾無用字符,同時轉(zhuǎn)換為詞向量。2)特征映射:通過局部特征保持算法將詞向量映射為卷積神經(jīng)網(wǎng)絡(luò)模型可用的二元特征向量,作為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)特征。3)卷積神經(jīng)網(wǎng)絡(luò):卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,以詞向量為輸入,二元特征向量為目標(biāo)特征進(jìn)行訓(xùn)練,4)K-means聚類:根據(jù)卷積神經(jīng)網(wǎng)絡(luò)輸出的二元特征向量,使用機(jī)器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)算法K-means進(jìn)行聚類,獲得聚類結(jié)果。本專利技術(shù)的基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法,利用卷積神經(jīng)網(wǎng)絡(luò)對局部特征強(qiáng)大的抽象表示能力學(xué)習(xí)微博文本的特征,并使用機(jī)器學(xué)習(xí)中的聚類算法對特征進(jìn)行處理,實(shí)現(xiàn)微博文本的聚類。本方法考慮到手工標(biāo)記數(shù)據(jù)集類別的成本過高,因此使用自然語言處理中的局部保持限制算法對原始特征進(jìn)行處理,將文本信息映射為二元數(shù)值向量,作為該微博文本的抽象表示。本專利技術(shù)的有益效果如下:1.利用卷積神經(jīng)網(wǎng)絡(luò)模型的局部特征抽象表示能力學(xué)習(xí)短文本的抽象特征,進(jìn)而實(shí)現(xiàn)短文本的聚類;2.通過自然語言處理中的特征映射算法將短文本的原始特征映射為卷積神經(jīng)網(wǎng)絡(luò)模型可用的抽象特征,進(jìn)而避免了使用高成本的人工標(biāo)注數(shù)據(jù)集,具有工程實(shí)踐意義。附圖說明圖1微博文本聚類整體架構(gòu)圖2本方法使用的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)具體實(shí)施方式下面結(jié)合附圖對實(shí)施方式進(jìn)行說明。本方法的整體架構(gòu)如圖1所示,以下詳細(xì)說明:5)文本預(yù)處理:過濾無用字符,例如“轉(zhuǎn)發(fā)微博”等;同時,使用Word2Vec工具轉(zhuǎn)換為詞向量。6)特征映射:通過局部特征保持算法將詞向量映射為卷積神經(jīng)網(wǎng)絡(luò)模型可用的二元特征向量,作為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)特征。7)卷積神經(jīng)網(wǎng)絡(luò):卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,以詞向量為輸入,二元特征向量為目標(biāo)特征進(jìn)行訓(xùn)練,下文詳細(xì)描述。8)K-means聚類:使用機(jī)器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)算法K-means進(jìn)行聚類,獲得聚類結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練模型架構(gòu)如圖2所示,以下詳細(xì)說明:1)模型由若干組(一般3-5組)卷積層與池化層連接組成。2)模型中的雙向箭頭表示模型的訓(xùn)練流程,向上箭頭表示學(xué)習(xí)過程(前向傳播),向下箭頭表示微調(diào)過程(誤差反向傳播),兩過程不斷循環(huán)直至誤差低于閾值,即模型訓(xùn)練完成。3)最后將深度特征表示輸出,用于聚類。本文檔來自技高網(wǎng)...
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法

    【技術(shù)保護(hù)點(diǎn)】
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法,包括下列步驟:1)文本預(yù)處理:過濾無用字符,同時轉(zhuǎn)換為詞向量;2)特征映射:通過局部特征保持算法將詞向量映射為卷積神經(jīng)網(wǎng)絡(luò)模型可用的二元特征向量,作為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)特征;3)卷積神經(jīng)網(wǎng)絡(luò):卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,以詞向量為輸入,二元特征向量為目標(biāo)特征進(jìn)行訓(xùn)練;4)K?means聚類:根據(jù)卷積神經(jīng)網(wǎng)絡(luò)輸出的二元特征向量,使用機(jī)器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)算法K?means進(jìn)行聚類,獲得聚類結(jié)果。

    【技術(shù)特征摘要】
    1.一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法,包括下列步驟:1)文本預(yù)處理:過濾無用字符,同時轉(zhuǎn)換為詞向量;2)特征映射:通過局部特征保持算法將詞向量映射為卷積神經(jīng)網(wǎng)絡(luò)模型可用的二元特征向量,作為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:金志剛胡博宏羅詠梅
    申請(專利權(quán))人:天津大學(xué)
    類型:發(fā)明
    國別省市:天津,12

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码欧精品亚洲日韩一区| 亚洲AV无码国产精品色午友在线| 日韩av无码中文字幕| 无码区国产区在线播放| 伊人天堂av无码av日韩av| 丰满少妇人妻无码| 曰韩无码无遮挡A级毛片| 日韩精品无码一区二区三区 | 无码人妻少妇久久中文字幕| 亚洲日韩精品无码专区网址| 免费无码一区二区三区蜜桃大| 久久青草亚洲AV无码麻豆| 人妻丰满熟妇A v无码区不卡| av无码久久久久不卡免费网站 | 国产在线无码不卡影视影院| 麻豆精品无码国产在线果冻| 色爱无码AV综合区| 亚洲AV无码一区二区乱孑伦AS| 曰韩无码AV片免费播放不卡| av中文无码乱人伦在线观看| 中文无码一区二区不卡αv| 久久综合精品国产二区无码| 亚洲AV无码欧洲AV无码网站| 日韩精品无码视频一区二区蜜桃| 韩国无码AV片在线观看网站 | 亚洲桃色AV无码| 亚洲男人在线无码视频| 少妇人妻av无码专区| 丰满少妇人妻无码专区| 无码专区永久免费AV网站| 亚洲GV天堂GV无码男同| 东京热HEYZO无码专区| 国产福利无码一区在线 | 日韩AV无码一区二区三区不卡毛片 | 亚洲av无码一区二区乱子伦as| 亚洲精品色午夜无码专区日韩| 亚洲中文字幕无码爆乳AV| 国产爆乳无码一区二区麻豆| 久久午夜无码免费| 99久久人妻无码精品系列蜜桃| 无码区日韩特区永久免费系列|