【技術實現步驟摘要】
多詞單元提取方法和設備及人工神經網絡訓練方法和設備
本申請總體上涉及自然語言處理的領域,尤其涉及提取語句中的多詞單元的方法和設備以及訓練用于提取語句中的多詞單元的人工神經網絡的方法和設備。
技術介紹
經典的自然語言處理系統通常假設每個詞為一個語義單元,但是這并沒有包含多詞單元的情形。多詞單元跨越詞的邊界,因而多詞單元有著特殊的解讀方法。識別和提取多詞單元是多詞單元處理領域的主要關注點,并且也被認為是進一步研究的瓶頸。多詞單元是自然語言處理中比較普遍并且沒有精確定義的一個概念。一般,多詞單元指的是兩個或兩個以上的詞單元同時出現在一起的概率相對較高的詞組合,并且該詞組合具有完整的語義。多詞單元在自然語言處理領域是相當普遍的現象,因此多詞單元的識別和提取非常重要。由于沒有充足的詞搭配知識,并且詞組合信息分散于各個分詞之中,因此將分開的詞根據原意重新組合以成為獨立語義單元,從而獲得原來的完整語義是非常困難的,尤其是處理像中文這種文字間沒有分割的語言。多詞單元的識別和提取可廣泛應用于機器翻譯、高效句法分析、優化信息檢索和詞義消歧等方面。目前普遍應用于識別和提取多詞單元的方法有排序方法、局部最大值方法(LocalMaxima)和條件隨機場方法(ConditionalRandomFields)等。在識別和提取多詞單元時使用的特征值包括分詞間互信息、t分數、熵和共現頻率等。另外,識別和提取多詞單元還涉及分詞工具、詞形標注工具、詞性標注工具和停詞表等的使用?,F有技術中的識別和提取多詞單元的方法基本上采用如下過程:對目標語句進行分詞和/或詞性標注;根據分析和/或詞性標注的結果 ...
【技術保護點】
一種提取語句中的多詞單元的方法,包括:針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,其中,所述方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。
【技術特征摘要】
1.一種提取語句中的多詞單元的方法,包括:針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,其中,所述方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。2.根據權利要求1中所述的方法,還包括:依次將所述語句中相鄰的N個分詞組合為N元組以形成所述分詞塊,其中N為大于或等于2的自然數。3.根據權利要求2所述的方法,還包括:將所述N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及根據所述泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取所述泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將所述詞性容錯信息也作為所述N元組中的分詞的特征量。4.一種提取語句中的多詞單元的設備,包括:語言學特征獲取單元,其針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;輸入單元,其將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;判斷單元,其采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及提取單元,其提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,其中,所述設備還包括:反饋信息獲取單元,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。5.根據權利要求4所述的設備,還包括:組合單元,其依次將所述語句中相鄰的N個分詞組合為N元組以形成所述分詞塊,其中N為大于或等于2的自然數。6.根據權利要求5所述的設備,還包括:泛化單元,其將所述N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及詞性容錯信息獲取單元,其根據所述泛化...
【專利技術屬性】
技術研發人員:付亦雯,葛乃晟,鄭仲光,孟遙,于浩,
申請(專利權)人:富士通株式會社,
類型:發明
國別省市:日本;JP
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。