• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁(yè) > 專利查詢>武漢大學(xué)專利>正文

    一種從文本中識(shí)別軟件體系結(jié)構(gòu)壞味道討論的方法技術(shù)

    技術(shù)編號(hào):25989090 閱讀:29 留言:0更新日期:2020-10-20 18:57
    本發(fā)明專利技術(shù)公開(kāi)了一種從文本中識(shí)別軟件體系結(jié)構(gòu)壞味道討論的方法,包括以下步驟:1)對(duì)軟件開(kāi)發(fā)專業(yè)問(wèn)答社區(qū)的問(wèn)答帖進(jìn)行文本爬取,構(gòu)造用于識(shí)別軟件體系結(jié)構(gòu)壞味道討論的數(shù)據(jù)集;2)對(duì)數(shù)據(jù)集中的文本進(jìn)行精簡(jiǎn)文本內(nèi)容的預(yù)處理;3)對(duì)步驟2)的文本通過(guò)自然語(yǔ)言處理技術(shù)提取文本特征獲得處理后的特征向量數(shù)據(jù)集;4)在得到每個(gè)文本的特征后,使用訓(xùn)練集訓(xùn)練二分類器;5)訓(xùn)練好的各分類器對(duì)測(cè)試集中文檔進(jìn)行預(yù)測(cè)獲得分類結(jié)果,并評(píng)估分類器識(shí)別軟件體系結(jié)構(gòu)壞味道的性能;6)對(duì)比結(jié)果,分析特征提取和分類器的最優(yōu)組合。本發(fā)明專利技術(shù)提供了一種識(shí)別軟件體系結(jié)構(gòu)壞味道討論的自動(dòng)化方法,能根據(jù)設(shè)定快速獲得特征提取和分類模型的最優(yōu)組合。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種從文本中識(shí)別軟件體系結(jié)構(gòu)壞味道討論的方法
    本專利技術(shù)涉及軟件工程
    ,尤其涉及一種從文本中識(shí)別軟件體系結(jié)構(gòu)壞味道討論的方法。
    技術(shù)介紹
    在軟件定義一切的時(shí)代,軟件系統(tǒng)的復(fù)雜性不斷提高,同時(shí)由于軟件開(kāi)發(fā)成本的增加和已有軟件體系結(jié)構(gòu)的逐漸完善,使得開(kāi)發(fā)者逐漸趨向于發(fā)展和適應(yīng)已有的系統(tǒng)以滿足新的需求,而非構(gòu)建一個(gè)全新的軟件系統(tǒng)。開(kāi)發(fā)者也因此需要對(duì)軟件應(yīng)用程序進(jìn)行長(zhǎng)期的維護(hù)和升級(jí)。在軟件的整個(gè)生命周期,其代碼始終在經(jīng)歷著演化修改。在軟件代碼演化的過(guò)程中,軟件的體系結(jié)構(gòu)可能會(huì)產(chǎn)生一些對(duì)后續(xù)演化產(chǎn)生重大負(fù)面影響的壞味道。開(kāi)發(fā)者需要修正系統(tǒng)中發(fā)現(xiàn)的“壞味道”來(lái)對(duì)系統(tǒng)進(jìn)行維護(hù)。壞味道可以根據(jù)粒度分為三種:體系結(jié)構(gòu)壞味道,設(shè)計(jì)壞味道,代碼壞味道。三種壞味道均會(huì)對(duì)軟件質(zhì)量造成不同程度的破壞。其中體系結(jié)構(gòu)壞味道是一個(gè)較高階的設(shè)計(jì)問(wèn)題,會(huì)持續(xù)并累加地對(duì)系統(tǒng)維護(hù)產(chǎn)生負(fù)面影響,并且重構(gòu)體系結(jié)構(gòu)壞味道比重構(gòu)代碼壞味道和設(shè)計(jì)壞味道更費(fèi)時(shí)費(fèi)力。因此,研究者們需要討論和識(shí)別各種類型的壞味道。開(kāi)發(fā)人員與研究人員通過(guò)參考文檔、書籍或在線資源的方式研究軟件體系結(jié)構(gòu)壞味道,即使找到了相關(guān)示例,示例的質(zhì)量也約束著研究進(jìn)展。研究的缺失與用例的匱乏造成了軟件體系結(jié)構(gòu)壞味道研究的困難。因此我們需要優(yōu)化對(duì)“軟件體系結(jié)構(gòu)壞味道”的獲取和識(shí)別方法,從搜索結(jié)果中區(qū)分出與軟件體系結(jié)構(gòu)壞味道相關(guān)與不相關(guān)的示例,以幫助開(kāi)發(fā)人員快速獲取研究用例,以促進(jìn)對(duì)軟件體系結(jié)構(gòu)壞味道的相關(guān)研究。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)要解決的技術(shù)問(wèn)題在于針對(duì)現(xiàn)有技術(shù)中的缺陷,提供一種從文本中識(shí)別軟件體系結(jié)構(gòu)壞味道討論的方法,解決從文本中識(shí)別特定主題內(nèi)容的問(wèn)題,對(duì)軟件開(kāi)發(fā)專業(yè)問(wèn)答社區(qū)的問(wèn)答帖的文本內(nèi)容進(jìn)行分析,使用自動(dòng)化分類技術(shù)將問(wèn)答貼分為軟件體系結(jié)構(gòu)壞味道相關(guān)帖和不相關(guān)帖,以提供軟件體系結(jié)構(gòu)壞味道的討論實(shí)例。本專利技術(shù)解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:一種從文本中識(shí)別軟件體系結(jié)構(gòu)壞味道討論的方法,包括以下步驟:1)對(duì)軟件開(kāi)發(fā)專業(yè)問(wèn)答社區(qū)的問(wèn)答帖進(jìn)行文本爬取,并人工標(biāo)記出與軟件體系結(jié)構(gòu)壞味道相關(guān)和不相關(guān)的文本帖,作為測(cè)試集和訓(xùn)練集,構(gòu)造用于識(shí)別軟件體系結(jié)構(gòu)壞味道討論的數(shù)據(jù)集;2)對(duì)數(shù)據(jù)集中的文本進(jìn)行精簡(jiǎn)文本內(nèi)容的預(yù)處理;3)對(duì)步驟2)的文本通過(guò)自然語(yǔ)言處理技術(shù)提取文本特征獲得處理后的特征向量數(shù)據(jù)集,所述特征向量數(shù)據(jù)集包括:BoW特征向量數(shù)據(jù)集、TF-IDF特征向量數(shù)據(jù)集和Word2Vec特征向量數(shù)據(jù)集;4)在得到每個(gè)文本的特征后,將經(jīng)過(guò)步驟3)處理后得到的數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,使用訓(xùn)練集訓(xùn)練二分類器;具體如下:根據(jù)步驟3)得到的三個(gè)特征數(shù)據(jù)集分別訓(xùn)練LR分類器、RF分類器、SVM分類器和KNN分類器,獲得3種特征提取和上述分類模型相結(jié)合的各種組合的分類器;并用訓(xùn)練好的各分類器對(duì)測(cè)試集中文檔進(jìn)行預(yù)測(cè)獲得分類結(jié)果;5)訓(xùn)練好的各分類器對(duì)測(cè)試集中文檔進(jìn)行預(yù)測(cè)獲得分類結(jié)果,并評(píng)估分類器識(shí)別軟件體系結(jié)構(gòu)壞味道問(wèn)答貼的性能,性能評(píng)估采用以下四個(gè)指標(biāo):正確率(Accuracy)、準(zhǔn)確率(Precision)、召回率(Recall)和F1-score;6)對(duì)比結(jié)果,分析獲得特征提取和分類器的最優(yōu)組合,并用最終組合的分類模型進(jìn)行識(shí)別。按上述方案,所述步驟1)中,具體包括以下步驟:步驟1.1)文本數(shù)據(jù)爬取;首先從軟件開(kāi)發(fā)問(wèn)答社區(qū)以軟件體系結(jié)構(gòu)壞味道作為關(guān)鍵詞對(duì)問(wèn)答貼進(jìn)行搜索,在搜索結(jié)果中,將所有的軟件體系結(jié)構(gòu)壞味道相關(guān)的問(wèn)答帖抽取出來(lái),記錄URL鏈接;然后從搜索結(jié)果中篩除的不相關(guān)問(wèn)答帖中隨機(jī)抽取相近數(shù)量的不相關(guān)問(wèn)答帖,記錄URL鏈接;從而構(gòu)成一個(gè)平衡數(shù)據(jù)集。步驟1.2)利用URL鏈接爬取每個(gè)問(wèn)答帖中的title-question-answer,并人工標(biāo)記為軟件體系結(jié)構(gòu)壞味道相關(guān)或不相關(guān)的問(wèn)答帖,存入CSV文件中,以待后續(xù)步驟使用。按上述方案,所述步驟2)中預(yù)處理包括:對(duì)數(shù)據(jù)進(jìn)行清洗、去除無(wú)用字符和詞的原始形態(tài)還原;所述對(duì)數(shù)據(jù)進(jìn)行清洗為刪除無(wú)用字符和網(wǎng)頁(yè)文本包含的轉(zhuǎn)義字符;所述去除無(wú)用字符為刪除單詞長(zhǎng)度3個(gè)字母以下的單詞,并對(duì)文本做英文停用詞處理;所述詞的原始形態(tài)還原包括詞干還原和詞形還原,利用NLTK工具包,將文本內(nèi)的所有單詞的變形詞還原為詞的原始形態(tài)。按上述方案,所述步驟3)中對(duì)步驟2)的文本通過(guò)自然語(yǔ)言處理技術(shù)提取文本特征獲得處理后的特征向量數(shù)據(jù)集具體如下:步驟3.1)使用Bag-of-Words技術(shù)處理步驟2)中得到的數(shù)據(jù)集,計(jì)算文本數(shù)據(jù)集中每個(gè)文檔中每個(gè)單詞出現(xiàn)的頻率,所有單詞的頻數(shù)組合成為文檔的特征向量,將本步驟得到的所有文檔的特征向量保存為BoW特征向量數(shù)據(jù)集;步驟3.2)使用TF-IDF技術(shù)處理步驟2)中得到的數(shù)據(jù)集,計(jì)算文本數(shù)據(jù)集中每個(gè)文檔中每個(gè)單詞的TF值和IDF值,相乘后得到TF-IDF值作為文檔的特征,保存為TF-IDF特征向量數(shù)據(jù)集;步驟3.3)使用Word2Vec技術(shù)處理步驟2)中得到的數(shù)據(jù)集,通過(guò)映射函數(shù)將文本數(shù)據(jù)集中每個(gè)文檔中每個(gè)單詞轉(zhuǎn)化為特征空間中的向量值,一個(gè)文本內(nèi)所有單詞的向量求平均后作為該文檔的特征,將所有文檔的特征向量保存為Word2Vec特征向量數(shù)據(jù)集。本專利技術(shù)產(chǎn)生的有益效果是:提供了一種從文本中識(shí)別軟件體系結(jié)構(gòu)壞味道討論的自動(dòng)化技術(shù),能根據(jù)設(shè)定快速獲得特征提取和分類模型的最優(yōu)組合。附圖說(shuō)明下面將結(jié)合附圖及實(shí)施例對(duì)本專利技術(shù)作進(jìn)一步說(shuō)明,附圖中:圖1是本專利技術(shù)實(shí)施例的方法流程圖。具體實(shí)施方式為了使本專利技術(shù)的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例,對(duì)本專利技術(shù)進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本專利技術(shù),并不用于限定本專利技術(shù)。如圖1所示,一種從文本中識(shí)別軟件體系結(jié)構(gòu)壞味道討論的方法,包括以下步驟:步驟1,對(duì)軟件開(kāi)發(fā)專業(yè)問(wèn)答社區(qū)的問(wèn)答帖進(jìn)行爬取,并人工標(biāo)記出與軟件體系結(jié)構(gòu)壞味道相關(guān)和不相關(guān)的文本帖,由此構(gòu)造用于自動(dòng)識(shí)別軟件體系結(jié)構(gòu)壞味道討論的數(shù)據(jù)集;步驟1.1,實(shí)驗(yàn)數(shù)據(jù)爬取。首先從軟件開(kāi)發(fā)問(wèn)答社區(qū)以“architecturesmell”,“architecturalsmell”,“architecturebadsmell”,“architecturalbadsmell”,“architecturedefect”,“architecturaldefect”,“architecturalviolation”,“architectureviolation”,“architecturalrefactoring”,“architecturerefactoring”,“architectureantipattern”,“architecturalantipattern”,“architectureanti-pattern”和“architecturalanti-pattern”14個(gè)詞條作為關(guān)鍵詞,搜索得到共計(jì)5950條數(shù)據(jù)。在每條關(guān)鍵詞的搜索結(jié)本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】
    1.一種從文本中識(shí)別軟件體系結(jié)構(gòu)壞味道討論的方法,其特征在于,包括以下步驟:/n1)對(duì)軟件開(kāi)發(fā)專業(yè)問(wèn)答社區(qū)的問(wèn)答帖進(jìn)行文本爬取,并人工標(biāo)記出與軟件體系結(jié)構(gòu)壞味道相關(guān)和不相關(guān)的文本帖,作為測(cè)試集和訓(xùn)練集,構(gòu)造用于識(shí)別軟件體系結(jié)構(gòu)壞味道討論的數(shù)據(jù)集;/n2)對(duì)數(shù)據(jù)集中的文本進(jìn)行精簡(jiǎn)文本內(nèi)容的預(yù)處理;/n3)對(duì)步驟2)的文本通過(guò)自然語(yǔ)言處理技術(shù)提取文本特征獲得處理后的特征向量數(shù)據(jù)集,所述特征向量數(shù)據(jù)集包括:BoW特征向量數(shù)據(jù)集、TF-IDF特征向量數(shù)據(jù)集和Word2Vec特征向量數(shù)據(jù)集;/n4)在得到每個(gè)文本的特征后,將經(jīng)過(guò)步驟3)處理后得到的數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,使用訓(xùn)練集訓(xùn)練分類器集合中的二分類器;/n5)訓(xùn)練好的各分類器對(duì)測(cè)試集中文檔進(jìn)行預(yù)測(cè)獲得分類結(jié)果,并評(píng)估分類器識(shí)別軟件體系結(jié)構(gòu)壞味道問(wèn)答貼的性能,性能評(píng)估采用以下四個(gè)指標(biāo):正確率、準(zhǔn)確率、召回率和F1-score;/n6)對(duì)比結(jié)果,分析獲得特征提取和分類器的最優(yōu)組合,并用最終組合的分類模型從文本中識(shí)別軟件體系結(jié)構(gòu)壞味道討論。/n

    【技術(shù)特征摘要】
    1.一種從文本中識(shí)別軟件體系結(jié)構(gòu)壞味道討論的方法,其特征在于,包括以下步驟:
    1)對(duì)軟件開(kāi)發(fā)專業(yè)問(wèn)答社區(qū)的問(wèn)答帖進(jìn)行文本爬取,并人工標(biāo)記出與軟件體系結(jié)構(gòu)壞味道相關(guān)和不相關(guān)的文本帖,作為測(cè)試集和訓(xùn)練集,構(gòu)造用于識(shí)別軟件體系結(jié)構(gòu)壞味道討論的數(shù)據(jù)集;
    2)對(duì)數(shù)據(jù)集中的文本進(jìn)行精簡(jiǎn)文本內(nèi)容的預(yù)處理;
    3)對(duì)步驟2)的文本通過(guò)自然語(yǔ)言處理技術(shù)提取文本特征獲得處理后的特征向量數(shù)據(jù)集,所述特征向量數(shù)據(jù)集包括:BoW特征向量數(shù)據(jù)集、TF-IDF特征向量數(shù)據(jù)集和Word2Vec特征向量數(shù)據(jù)集;
    4)在得到每個(gè)文本的特征后,將經(jīng)過(guò)步驟3)處理后得到的數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,使用訓(xùn)練集訓(xùn)練分類器集合中的二分類器;
    5)訓(xùn)練好的各分類器對(duì)測(cè)試集中文檔進(jìn)行預(yù)測(cè)獲得分類結(jié)果,并評(píng)估分類器識(shí)別軟件體系結(jié)構(gòu)壞味道問(wèn)答貼的性能,性能評(píng)估采用以下四個(gè)指標(biāo):正確率、準(zhǔn)確率、召回率和F1-score;
    6)對(duì)比結(jié)果,分析獲得特征提取和分類器的最優(yōu)組合,并用最終組合的分類模型從文本中識(shí)別軟件體系結(jié)構(gòu)壞味道討論。


    2.根據(jù)權(quán)利要求1所述的從文本中識(shí)別軟件體系結(jié)構(gòu)壞味道討論的方法,其特征在于,所述步驟1)中,具體包括以下步驟:
    步驟1.1)文本數(shù)據(jù)爬取;首先從軟件開(kāi)發(fā)問(wèn)答社區(qū)以軟件體系結(jié)構(gòu)壞味道作為關(guān)鍵詞對(duì)問(wèn)答貼進(jìn)行搜索,在搜索結(jié)果中,將所有的軟件體系結(jié)構(gòu)壞味道相關(guān)的問(wèn)答帖抽取出來(lái),記錄URL鏈接;然后從搜索結(jié)果中篩除的不相關(guān)問(wèn)答帖中隨機(jī)抽取相近數(shù)量的不相關(guān)問(wèn)答帖,記錄URL鏈接;從而構(gòu)成一個(gè)平衡數(shù)據(jù)集。
    步驟1.2)利用URL鏈接爬取每個(gè)問(wèn)答帖中的title-question-answer,并人工標(biāo)記為軟件體系結(jié)構(gòu)壞味道相關(guān)或不相關(guān)的問(wèn)答帖,存入CSV文件中,以待后續(xù)步驟使用。


    3.根據(jù)權(quán)利要求1所述的從文本中識(shí)別軟件...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:梁鵬魯帆田方超李雪瑩
    申請(qǐng)(專利權(quán))人:武漢大學(xué)
    類型:發(fā)明
    國(guó)別省市:湖北;42

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 国产成人无码A区精油按摩| 亚洲AV无码一区二区乱子仑| 内射人妻少妇无码一本一道| 好硬~好爽~别进去~动态图, 69式真人无码视频免 | 高清无码一区二区在线观看吞精 | 亚洲av专区无码观看精品天堂| 成人免费无码大片a毛片软件| 无码乱人伦一区二区亚洲一 | 欧洲精品久久久av无码电影| 国产精品无码专区在线播放| 久久ZYZ资源站无码中文动漫| 国产成人无码AⅤ片在线观看| 在线观看亚洲AV每日更新无码| 国产AV无码专区亚洲AV毛网站| 国产乱子伦精品免费无码专区| 精品久久无码中文字幕| 亚洲国产AV无码专区亚洲AV| 人妻老妇乱子伦精品无码专区| 欧洲精品无码成人久久久| 欧洲Av无码放荡人妇网站| 久久无码无码久久综合综合| 免费a级毛片无码a∨免费软件| 无码av中文一二三区| 无码国模国产在线观看| 永久免费无码网站在线观看| 亚洲aⅴ无码专区在线观看春色| 无码少妇一区二区性色AV| 欧洲成人午夜精品无码区久久| 亚洲av日韩av高潮潮喷无码| 国产成年无码久久久久毛片| 天堂Aⅴ无码一区二区三区| 国产亚洲精品无码拍拍拍色欲 | 免费A级毛片无码A∨免费| 亚洲AV日韩AV永久无码久久| 久久人妻少妇嫩草AV无码专区| 无码精品国产VA在线观看| 毛片无码免费无码播放| 92午夜少妇极品福利无码电影| 亚洲国产精品无码久久98| 亚洲av无码成人影院一区| 最新亚洲人成无码网www电影|