【技術(shù)實(shí)現(xiàn)步驟摘要】
一種結(jié)合注意力機(jī)制LSTM和神經(jīng)主題模型的服務(wù)發(fā)現(xiàn)方法
本專利技術(shù)涉及計(jì)算機(jī)
,具體涉及一種基于注意力機(jī)制的LSTM和神經(jīng)主題模型相結(jié)合的服務(wù)發(fā)現(xiàn)方法。
技術(shù)介紹
面向服務(wù)的體系結(jié)構(gòu)促成了軟件開發(fā)和集成的新范例,其中系統(tǒng)功能封裝為松散耦合且可互操作的服務(wù)。因此,為了滿足現(xiàn)代軟件應(yīng)用程序開發(fā)中的高度互操作性和靈活性需求,越來越多的Web服務(wù)和云服務(wù)被開發(fā)出來。Web服務(wù)數(shù)量的激增給開發(fā)人員帶來了便利,但同時(shí)也給從大規(guī)模服務(wù)注冊中心快速選擇出滿足用戶需要的合適的服務(wù)帶來了困難。在現(xiàn)有的服務(wù)注冊中心中,Web服務(wù)大部分被用(WSDL)Web服務(wù)描述語言進(jìn)行描述。從描述中提取出的關(guān)鍵詞數(shù)量十分有限且語義稀疏,并且這些關(guān)鍵詞難以組成合理的自然語句。在大多數(shù)服務(wù)搜索引擎中采用的關(guān)鍵字匹配方法可能會(huì)檢索到不相關(guān)的服務(wù)或丟失相關(guān)的服務(wù),針對(duì)這些問題有兩類改進(jìn)的方法。第一類方法使用域本體注釋服務(wù)和查詢,并利用本體推理進(jìn)行服務(wù)匹配。但是,構(gòu)造這樣的本體并在語義上注釋W(xué)eb服務(wù)是一項(xiàng)耗時(shí)且難以實(shí)際應(yīng)用的任務(wù)。另一類方法使用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行服務(wù)匹配的方法。通過例如LDA模型來獲取服務(wù)的描述和用戶的查詢文本的主題分布,以及結(jié)合詞向量和主題模型來緩解服務(wù)描述的語義稀疏問題。本申請(qǐng)專利技術(shù)人在實(shí)施本專利技術(shù)的過程中,發(fā)現(xiàn)現(xiàn)有技術(shù)的方法,至少存在如下技術(shù)問題:一些自然語言處理領(lǐng)域的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法在服務(wù)聚類和服務(wù)推薦等方面取得了一定的進(jìn)展,但由于復(fù)雜的深度學(xué)習(xí)模型和方法需要大量的包含上下文信息的語句作為訓(xùn)練語料, ...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于注意力機(jī)制的LSTM和神經(jīng)主題模型相結(jié)合的服務(wù)發(fā)現(xiàn)方法,其特征在于,包括:/nS1:分別對(duì)Web服務(wù)描述和查詢請(qǐng)求進(jìn)行關(guān)鍵詞抽取,對(duì)抽取出的服務(wù)描述關(guān)鍵詞和查詢請(qǐng)求關(guān)鍵詞進(jìn)行預(yù)處理;/nS2:對(duì)預(yù)處理后的服務(wù)描述關(guān)鍵詞進(jìn)行語義增強(qiáng)并經(jīng)過神經(jīng)主題模型的處理得到服務(wù)描述的主題信息,對(duì)預(yù)處理后的查詢請(qǐng)求關(guān)鍵詞進(jìn)行語義增強(qiáng)并經(jīng)過神經(jīng)主題模型的處理得到查詢請(qǐng)求的主題信息;/nS3:通過詞嵌入技術(shù)將預(yù)處理后的服務(wù)描述關(guān)鍵詞和查詢請(qǐng)求關(guān)鍵詞轉(zhuǎn)化為向量化形式,并得到服務(wù)描述的詞向量矩陣和查詢請(qǐng)求的詞向量矩陣;/nS4:基于服務(wù)描述的主題信息和服務(wù)描述的詞向量矩陣,通過結(jié)合注意力機(jī)制的雙向LSTM對(duì)服務(wù)描述進(jìn)行特征提取,得到服務(wù)描述的語義特征向量,基于查詢請(qǐng)求的主題信息和查詢請(qǐng)求的詞向量矩陣,通過結(jié)合注意力機(jī)制的雙向LSTM對(duì)查詢請(qǐng)求進(jìn)行特征提取,得到查詢請(qǐng)求的語義特征向量;/nS5:對(duì)查詢請(qǐng)求的語義特征向量和服務(wù)描述的語義特征向量計(jì)算相似度,從注冊服務(wù)庫中找出與查詢請(qǐng)求相似度最高的k個(gè)服務(wù),其中,k為大于0的正整數(shù)。/n
【技術(shù)特征摘要】
1.一種基于注意力機(jī)制的LSTM和神經(jīng)主題模型相結(jié)合的服務(wù)發(fā)現(xiàn)方法,其特征在于,包括:
S1:分別對(duì)Web服務(wù)描述和查詢請(qǐng)求進(jìn)行關(guān)鍵詞抽取,對(duì)抽取出的服務(wù)描述關(guān)鍵詞和查詢請(qǐng)求關(guān)鍵詞進(jìn)行預(yù)處理;
S2:對(duì)預(yù)處理后的服務(wù)描述關(guān)鍵詞進(jìn)行語義增強(qiáng)并經(jīng)過神經(jīng)主題模型的處理得到服務(wù)描述的主題信息,對(duì)預(yù)處理后的查詢請(qǐng)求關(guān)鍵詞進(jìn)行語義增強(qiáng)并經(jīng)過神經(jīng)主題模型的處理得到查詢請(qǐng)求的主題信息;
S3:通過詞嵌入技術(shù)將預(yù)處理后的服務(wù)描述關(guān)鍵詞和查詢請(qǐng)求關(guān)鍵詞轉(zhuǎn)化為向量化形式,并得到服務(wù)描述的詞向量矩陣和查詢請(qǐng)求的詞向量矩陣;
S4:基于服務(wù)描述的主題信息和服務(wù)描述的詞向量矩陣,通過結(jié)合注意力機(jī)制的雙向LSTM對(duì)服務(wù)描述進(jìn)行特征提取,得到服務(wù)描述的語義特征向量,基于查詢請(qǐng)求的主題信息和查詢請(qǐng)求的詞向量矩陣,通過結(jié)合注意力機(jī)制的雙向LSTM對(duì)查詢請(qǐng)求進(jìn)行特征提取,得到查詢請(qǐng)求的語義特征向量;
S5:對(duì)查詢請(qǐng)求的語義特征向量和服務(wù)描述的語義特征向量計(jì)算相似度,從注冊服務(wù)庫中找出與查詢請(qǐng)求相似度最高的k個(gè)服務(wù),其中,k為大于0的正整數(shù)。
2.如權(quán)利要求1所述的服務(wù)發(fā)現(xiàn)方法,其特征在于,S1具體包括:
S1.1:分別對(duì)Web服務(wù)描述和查詢請(qǐng)求進(jìn)行關(guān)鍵詞抽取,抽取出自然語言詞匯作為服務(wù)描述關(guān)鍵詞和查詢請(qǐng)求關(guān)鍵詞;
S1.2:對(duì)抽取出的自然語言詞匯進(jìn)行分詞、去除停用詞以及詞形還原處理。
3.如權(quán)利要求1所述的方法,其特征在于,S2具體包括:
S2.1:從預(yù)設(shè)百科類網(wǎng)站中查詢與抽取出的服務(wù)描述關(guān)鍵詞、查詢請(qǐng)求關(guān)鍵詞對(duì)應(yīng)的詞條,并從中選取對(duì)詞條進(jìn)行釋義的第一段作為增強(qiáng)語義的內(nèi)容添加到提取出的關(guān)鍵詞中;
S2.2:對(duì)進(jìn)行語義增強(qiáng)后的服務(wù)描述和查詢請(qǐng)求描述信息進(jìn)行詞袋化處理,得到服務(wù)描述的詞袋向量和查詢請(qǐng)求的詞袋向量;
S2.3:將服務(wù)描述的詞袋向量和查詢請(qǐng)求的詞袋向量作為神經(jīng)主題模型的輸入,通過多層感知機(jī)的處理得到重參數(shù)化的參數(shù),重參數(shù)化的結(jié)果經(jīng)過softmax歸一化作為服務(wù)描述的主題信息和查詢請(qǐng)求的主題信息。
4.如權(quán)利要求1所述的服務(wù)發(fā)現(xiàn)方法,其特征在于,S3具體包括:
對(duì)S1中預(yù)處理后的服務(wù)描述關(guān)鍵詞通過預(yù)訓(xùn)練好的詞向量模型,查找到對(duì)應(yīng)詞匯的詞向量,并將服務(wù)描述中所有詞匯的向量拼接成為服務(wù)描述對(duì)應(yīng)的詞向量矩陣;
對(duì)S1中預(yù)處理后的查詢請(qǐng)求關(guān)鍵詞通過預(yù)訓(xùn)練好的詞向量模型,查找到對(duì)應(yīng)詞匯的詞向量,并將查詢請(qǐng)求中所有詞匯的向量拼接成為查詢請(qǐng)求對(duì)應(yīng)的詞向量矩陣。
5.如權(quán)利要求1所述的服務(wù)發(fā)現(xiàn)方法,其特征在于,S4具體包括:
S4.1:使用雙向LSTM對(duì)S3中得到的服務(wù)描述的詞向量矩陣和查詢請(qǐng)求的詞向量矩陣進(jìn)行序列特征提取,得到服務(wù)描述的詞向量矩陣和查詢請(qǐng)求的詞向量矩陣中每一個(gè)詞對(duì)應(yīng)的上下文向量;
S4.2:通過注意力機(jī)制基于提取出的上下文向量、服務(wù)描述的主題信息以及查詢請(qǐng)求的主題信息,通過一個(gè)全連接層和激活函數(shù)以及歸一化處理,得到每一個(gè)詞匯的相關(guān)系數(shù),其中,每一個(gè)詞對(duì)應(yīng)一個(gè)權(quán)重,用以表示當(dāng)前詞匯和描述整體主題分布的相關(guān)系數(shù);
S4.3:基于S4.2中得到的每一個(gè)詞匯的相關(guān)性系數(shù),對(duì)S4.1中得到的上下文向量矩陣進(jìn)行加權(quán)求和,將加權(quán)就和結(jié)果作為服務(wù)描述的語義特征向量和查詢請(qǐng)求的語義特征向量。
6.如權(quán)利要求1所述的服務(wù)發(fā)現(xiàn)方法,其特征在于,S5具體包括:
對(duì)查詢請(qǐng)求的語義特征向量和服務(wù)描述的語義特征向量計(jì)算余弦相似度,并進(jìn)行排序,將相似度符合預(yù)設(shè)條件的服務(wù)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李兵,姚力,王健,
申請(qǐng)(專利權(quán))人:武漢大學(xué),
類型:發(fā)明
國別省市:湖北;42
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。