• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    多詞單元提取方法和設備及人工神經網絡訓練方法和設備技術

    技術編號:9831260 閱讀:141 留言:0更新日期:2014-04-01 20:06
    本申請公開了一種多詞單元提取方法和設備及人工神經網絡訓練方法和設備。提取多詞單元的方法包括:針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的語言學特征作為特征量;將特征量作為參數輸入到人工神經網絡中;采用人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據第一和第二可能性判斷該分詞是否為多詞單元的一部分;提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞以形成多詞單元;以及獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。

    【技術實現步驟摘要】
    多詞單元提取方法和設備及人工神經網絡訓練方法和設備
    本申請總體上涉及自然語言處理的領域,尤其涉及提取語句中的多詞單元的方法和設備以及訓練用于提取語句中的多詞單元的人工神經網絡的方法和設備。
    技術介紹
    經典的自然語言處理系統通常假設每個詞為一個語義單元,但是這并沒有包含多詞單元的情形。多詞單元跨越詞的邊界,因而多詞單元有著特殊的解讀方法。識別和提取多詞單元是多詞單元處理領域的主要關注點,并且也被認為是進一步研究的瓶頸。多詞單元是自然語言處理中比較普遍并且沒有精確定義的一個概念。一般,多詞單元指的是兩個或兩個以上的詞單元同時出現在一起的概率相對較高的詞組合,并且該詞組合具有完整的語義。多詞單元在自然語言處理領域是相當普遍的現象,因此多詞單元的識別和提取非常重要。由于沒有充足的詞搭配知識,并且詞組合信息分散于各個分詞之中,因此將分開的詞根據原意重新組合以成為獨立語義單元,從而獲得原來的完整語義是非常困難的,尤其是處理像中文這種文字間沒有分割的語言。多詞單元的識別和提取可廣泛應用于機器翻譯、高效句法分析、優化信息檢索和詞義消歧等方面。目前普遍應用于識別和提取多詞單元的方法有排序方法、局部最大值方法(LocalMaxima)和條件隨機場方法(ConditionalRandomFields)等。在識別和提取多詞單元時使用的特征值包括分詞間互信息、t分數、熵和共現頻率等。另外,識別和提取多詞單元還涉及分詞工具、詞形標注工具、詞性標注工具和停詞表等的使用?,F有技術中的識別和提取多詞單元的方法基本上采用如下過程:對目標語句進行分詞和/或詞性標注;根據分析和/或詞性標注的結果計算相應的特征值,例如頻率、分詞共現率和互信息等;以及根據所計算的特征值使用特定算法或模型對候選多詞單元進行篩選,從而得到比較準確的多詞單元。但是,現有技術中的方法無法保證對目標語句進行分詞和/或詞性標注的準確性,從而經常引入錯誤信息,導致訓練過程中的信息本身就包含相互矛盾的數據,或者導致實際應用中的特征值本身與實際情況有偏差。多詞單元是與短語或詞塊不同的概念,因此多詞單元的識別和提取方法不同于短語或詞塊的識別和提取方法。具體地,短語中的某些介詞短語并不具有完整的語義,因此利用短語的識別和提取方法來識別和提取多詞單元并不能取得良好的效果。另外,詞塊是定義在句法層面中的,因此在識別和提取詞塊時需要考慮組成詞塊的句法信息和詞性信息,對于語義的完整性并沒有嚴格的要求,所以將詞塊的識別和提取方法應用到多詞單元的識別和提取也是不可行的。因此,期望提供一種提取語句中的多詞單元的方法和設備,其能夠提高多詞單元的識別和提取的準確性和效率。
    技術實現思路
    在下文中將給出關于本專利技術的簡要概述,以便提供關于本專利技術的某些方面的基本理解。應當理解,這個概述并不是關于本專利技術的窮舉性概述。它并不是意圖確定本專利技術的關鍵或重要部分,也不是意圖限定本專利技術的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。本專利技術將人工神經網絡應用到多詞單元的識別和提取。人工神經網絡是一種模擬動物神經網絡行為特征來進行分布式并行信息處理的算法模型。人工神經網絡依靠系統的復雜程度,通過調整內部大量節點之間的相互連接關系,達到處理信息的目的。人工神經網絡包括大量的節點及其之間的相互連接。人工神經網絡中的每個節點表示一種特定的輸出函數,節點之間的連接表示對應于該連接的加權值,稱之為權重,其相當于人工神經網絡的記憶。人工神經網絡的輸出根據人工神經網絡的連接方式、權重值和輸出函數的不同而不同。根據本專利技術的實施例,提供了一種提取語句中的多詞單元的方法,包括:針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;將特征量作為人工神經網絡的參數輸入到人工神經網絡中;采用人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,其中,該方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。根據上述提取語句中的多詞單元的方法,還包括:依次將語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。根據上述提取語句中的多詞單元的方法,還包括:將N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及根據泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將詞性容錯信息也作為N元組中的分詞的特征量。根據本專利技術的另一實施例,提供了一種提取語句中的多詞單元的設備,包括:語言學特征獲取單元,其針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;輸入單元,其將特征量作為人工神經網絡的參數輸入到人工神經網絡中;判斷單元,其采用人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及提取單元,其提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,其中,該設備還包括:反饋信息獲取單元,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊的特征量。根據上述提取語句中的多詞單元的設備,還包括:組合單元,其依次將語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。根據上述提取語句中的多詞單元的設備,還包括:泛化單元,其將N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及詞性容錯信息獲取單元,其根據泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將詞性容錯信息也作為N元組中的分詞的特征量。根據本專利技術的又一實施例,提供了一種訓練人工神經網絡的方法,人工神經網絡用于提取語句中的多詞單元,該方法包括:針對將每個訓練語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或更多個語言學特征作為特征量,其中,訓練語句中的多詞單元已被標注;將特征量作為人工神經網絡的參數輸入到人工神經網絡中;采用人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據第一可能性和第二可能性的比較結果來判斷該分詞是否為多詞單元的一部分;以及根據判斷的結果和標注的結果,來訓練人工神經網絡,其中,該方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。根據上述一種訓練人工神經網絡的方法,還包括:依次將訓練語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。根據上述一種訓練人工神經網絡的方法,還包括:將N元組中的分詞的詞形本文檔來自技高網
    ...
    多詞單元提取方法和設備及人工神經網絡訓練方法和設備

    【技術保護點】
    一種提取語句中的多詞單元的方法,包括:針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,其中,所述方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。

    【技術特征摘要】
    1.一種提取語句中的多詞單元的方法,包括:針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,其中,所述方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。2.根據權利要求1中所述的方法,還包括:依次將所述語句中相鄰的N個分詞組合為N元組以形成所述分詞塊,其中N為大于或等于2的自然數。3.根據權利要求2所述的方法,還包括:將所述N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及根據所述泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取所述泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將所述詞性容錯信息也作為所述N元組中的分詞的特征量。4.一種提取語句中的多詞單元的設備,包括:語言學特征獲取單元,其針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;輸入單元,其將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;判斷單元,其采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及提取單元,其提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,其中,所述設備還包括:反饋信息獲取單元,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。5.根據權利要求4所述的設備,還包括:組合單元,其依次將所述語句中相鄰的N個分詞組合為N元組以形成所述分詞塊,其中N為大于或等于2的自然數。6.根據權利要求5所述的設備,還包括:泛化單元,其將所述N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及詞性容錯信息獲取單元,其根據所述泛化...

    【專利技術屬性】
    技術研發人員:付亦雯葛乃晟,鄭仲光,孟遙,于浩,
    申請(專利權)人:富士通株式會社
    類型:發明
    國別省市:日本;JP

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品无码不卡| 中文字幕无码视频专区| 久久精品成人无码观看56| 一本加勒比HEZYO无码资源网| 亚洲va中文字幕无码久久不卡| 中文午夜人妻无码看片| 日韩加勒比一本无码精品| 国产av无码专区亚洲av桃花庵| 亚洲中文字幕无码久久2020| 国产精品无码免费专区午夜| 亚洲中文字幕无码久久| 久久亚洲av无码精品浪潮| 西西人体444www大胆无码视频| 日韩a级无码免费视频| 日本精品无码一区二区三区久久久| 亚洲国产精品无码专区在线观看| 无码av不卡一区二区三区| 亚洲熟妇av午夜无码不卡| 无码少妇一区二区| 亚洲中久无码永久在线观看同| 成人免费无码大片a毛片| 无码精品A∨在线观看免费| 国产亚洲精久久久久久无码AV| 国语成本人片免费av无码| 精品国产v无码大片在线观看| 国产无遮挡无码视频免费软件| 国产精品va在线观看无码| 67194成是人免费无码| 亚洲国产AV无码一区二区三区| 精品亚洲A∨无码一区二区三区 | 久久午夜伦鲁片免费无码| 国产精品无码一区二区在线观一| 免费无遮挡无码视频网站| 国产精品无码无卡在线观看久| 亚洲精品无码成人| 国产精品无码无卡在线观看久| 99久无码中文字幕一本久道 | 中文字幕无码不卡免费视频| 92午夜少妇极品福利无码电影| 人妻少妇看A偷人无码电影| 99久久人妻无码精品系列 |