本發明專利技術實施例公開了一種實體消歧方法及裝置,所述方法包括:利用預先訓練的用于識別待消歧實體的第一識別模型,識別目標文本中的待消歧實體;根據預先訓練的用于識別預設字段信息的第二識別模型、預先構建的用于實體消歧的分類模型以及所述目標文本,對所述待消歧實體進行消歧。利用本發明專利技術實施例,提高了搜索的準確度。
【技術實現步驟摘要】
本專利技術涉及實體消歧
,特別涉及一種實體消歧方法及裝置。
技術介紹
實體消歧是為了解決自然語言中廣泛存在的命名實體(后文中簡稱“實體”)的歧義(一詞多義)問題,屬于詞義消歧的一部分,是自然語言處理中非常重要的基礎性工作。在視頻搜索引擎中存在大量的影視劇名的實體,而影視劇名存在大量的歧義,歧義分為兩個方面:其一,影視劇名是一個普通詞語或短語(例如:“少帥”既是一個普通的詞語也是一部影視劇名稱,類似的還有“大丈夫”、“蘋果”、“臥虎藏龍”等);其二,一個影視劇名對應多個影視劇實體(例如:“非誠勿擾”即是一部電影的名稱,也是一檔綜藝節目的名稱,電影“美人魚”有多個不同的版本)。每一個不同概念意義事物的敘述內容稱為義項,如果能準確識別有歧義的實體,準確的對歧義實體消歧,即區分實體的真正義項,將對于視頻搜索引擎的優化有很大的幫助。實體消歧可以分為有監督學習方法和無監督學習方法。前者從標注了義項的大規模訓練數據中抽取歧義詞義項的特征屬性,然后根據實體詞在文本中出現位置的上下文,給出匹配度最高的歧義詞義項作為消歧的結果,而后者對大量未標注義項的語料中通過聚類方法將歧義詞聚類出不同的義項,同一聚類類別中的特征作為該義項的特征。對于有監督學習方法,需要對訓練數據做大量地人工標注工作,如:確定歧義詞存在的候選義項,以及標注大量用于抽取歧義詞義項特征的訓練數據,這無疑需要大量的人工成本,而且有監督方法無法很好解決沒有出現在標注集中的歧義詞的消歧。而基于聚類的無監督學習方法,最終的類別(義項)數是不確定的,聚類類別與實際義項也無法一一對應,導致基于無監督學習方法的消歧準確度不高,進而導致搜索的準確度不高。
技術實現思路
本專利技術實施例的目的在于提供一種實體消歧方法及裝置,以提高搜索的準確度。為達到上述目的,本專利技術實施例公開了一種實體消歧方法,方法包括:利用預先訓練的用于識別待消歧實體的第一識別模型,識別目標文本中的待消歧實體;根據預先訓練的用于識別預設字段信息的第二識別模型、預先構建的用于實體消歧的分類模型以及所述目標文本,對所述待消歧實體進行消歧。較佳的,所述根據預先訓練的用于識別預設字段信息的第二識別模型、預先構建的用于實體消歧的分類模型以及所述目標文本,對所述待消歧實體進行消歧,包括:利用預先訓練的用于識別預設字段信息的第二識別模型,從所述目標文本中識別所述待消歧實體上下文中的預設字段信息;計算所識別的預設字段信息與所述待消歧實體的每一義項的預設字段信息的匹配度;根據所述匹配度以及所述分類模型,對所述待消歧實體進行消歧。較佳的,所述根據匹配度以及所述分類模型,對所述待消歧實體進行消歧,包括:將最高匹配度對應的義項,確定為所述待消歧實體的實際義項。較佳的,所述根據匹配度以及所述分類模型,對所述待消歧實體進行消歧,包括:在所有匹配度中存在不小于預設第一閾值的匹配度的情況下,將匹配度不小于預設第一閾值對應的義項,確定為所述待消歧實體的實際義項。較佳的,所述根據匹配度以及所述分類模型,對所述待消歧實體進行消歧,還包括:在所有匹配度均小于預設第一閾值的情況下,根據所述分類模型、所述待消歧實體的每一義項、所述待消歧實體的上下文詞,對所述待消歧實體進行消歧。為達到上述目的,本專利技術實施例公開了一種實體消歧裝置,裝置包括:識別模塊,用于利用預先訓練的用于識別待消歧實體的第一識別模型,識別目標文本中的待消歧實體;消歧模塊,用于根據預先訓練的用于識別預設字段信息的第二識別模型、預先構建的用于實體消歧的分類模型以及所述目標文本,對所述待消歧實體進行消歧。較佳的,所述消歧模塊,包括:識別單元,用于利用預先訓練的用于識別預設字段信息的第二識別模型,從所述目標文本中識別所述待消歧實體上下文中的預設字段信息;計算單元,用于計算所識別的預設字段信息與所述待消歧實體的每一義項的預設字段信息的匹配度;消歧單元,用于根據所述匹配度以及所述分類模型,對所述待消歧實體進行消歧。較佳的,所述消歧單元,具體用于:將最高匹配度對應的義項,確定為所述待消歧實體的實際義項。較佳的,所述消歧單元,具體用于:在所有匹配度中存在不小于預設第一閾值的匹配度的情況下,將匹配度不小于預設第一閾值對應的義項,確定為所述待消歧實體的實際義項。較佳的,所述消歧單元,還具體用于:在所有匹配度均小于預設第一閾值的情況下,根據所述分類模型、所述待消歧實體的每一義項、所述待消歧實體的上下文詞,對所述待消歧實體進行消歧。由上述的技術方案可見,本專利技術實施例提供的一種實體消歧方法及裝置,利用預先訓練的用于識別待消歧實體的第一識別模型,識別目標文本中的待消歧實體;根據預先訓練的用于識別預設字段信息的第二識別模型、預先構建的用于實體消歧的分類模型以及所述目標文本,對所述待消歧實體進行消歧。可見,預先構建多個實體識別和分類模型,利用數據庫作為唯一數據源,無需進行人工標注訓練數據,不再需要標注集,解決了沒有出現在標注集中的歧義詞的消歧問題,也節省了人工成本。而且可以通過數據庫自動抽取待消歧實體的不同義項和義項特征,義項類別與實際的義項類別可以一一對應,提高了實體消歧的準確度,進而提高了搜索的準確度。當然,實施本專利技術的任一產品或方法必不一定需要同時達到以上所述的所有優點。附圖說明為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1為本專利技術實施例提供的一種實體消歧方法的流程示意圖;圖2為本專利技術實施例提供的一種實體消歧裝置的結構示意圖。具體實施方式下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例?;诒緦@夹g中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。下面首先對本專利技術實施例提供的一種實體消歧方法進行詳細說明。參見圖1,圖1為本專利技術實施例提供的一種實體消歧方法的流程示意圖,可以包括如下步驟:S101,利用預先訓練的用于識別待消歧實體的第一識別模型,識別目標文本中的待消歧實體;具體的,命名實體(簡稱實體)是指人名、機構名、地名以及其他所有以名稱為標識的實體。其中,待消歧實體可以為音樂實體、影視劇實體等等。利用中文分詞技術對目標文本進行分詞,抽取目標文本中的實體詞和實體上下文詞,將實體詞和實體上下文詞輸入預先訓練好的第一識別模型,識別出目標文本的待消歧實體,以便后續對待消歧實體進行消歧。例如,對于目標文本“非誠勿擾電影第二部”,對該文本分詞后得到實體詞“非誠勿擾”,上下文詞為“電影”和“第二部”。將“非誠勿擾”、“電影”和“第二部”輸入第一識別模型,從而識別出待消歧實體為“非誠勿擾”。其中,中文分詞技術為現有技術,本專利技術實施例在此不對其進行贅述。具體的,以待消歧實體為影視劇實體為例,預先訓練用于識別待消歧實體的第一識別模型的過程可以為:從視頻數據庫中抽取所有影視劇實體名稱,將影視劇實體名稱與分詞系統中的普通詞典對比,得到沒有在普通詞典中出現的影視劇實體列本文檔來自技高網...

【技術保護點】
一種實體消歧方法,其特征在于,所述方法包括:利用預先訓練的用于識別待消歧實體的第一識別模型,識別目標文本中的待消歧實體;根據預先訓練的用于識別預設字段信息的第二識別模型、預先構建的用于實體消歧的分類模型以及所述目標文本,對所述待消歧實體進行消歧。
【技術特征摘要】
1.一種實體消歧方法,其特征在于,所述方法包括:利用預先訓練的用于識別待消歧實體的第一識別模型,識別目標文本中的待消歧實體;根據預先訓練的用于識別預設字段信息的第二識別模型、預先構建的用于實體消歧的分類模型以及所述目標文本,對所述待消歧實體進行消歧。2.根據權利要求1所述的方法,其特征在于,所述根據預先訓練的用于識別預設字段信息的第二識別模型、預先構建的用于實體消歧的分類模型以及所述目標文本,對所述待消歧實體進行消歧,包括:利用預先訓練的用于識別預設字段信息的第二識別模型,從所述目標文本中識別所述待消歧實體上下文中的預設字段信息;計算所識別的預設字段信息與所述待消歧實體的每一義項的預設字段信息的匹配度;根據所述匹配度以及所述分類模型,對所述待消歧實體進行消歧。3.根據權利要求2所述的方法,其特征在于,所述根據匹配度以及所述分類模型,對所述待消歧實體進行消歧,包括:將最高匹配度對應的義項,確定為所述待消歧實體的實際義項。4.根據權利要求2所述的方法,其特征在于,所述根據匹配度以及所述分類模型,對所述待消歧實體進行消歧,包括:在所有匹配度中存在不小于預設第一閾值的匹配度的情況下,將匹配度不小于預設第一閾值對應的義項,確定為所述待消歧實體的實際義項。5.根據權利要求4所述的方法,其特征在于,所述根據匹配度以及所述分類模型,對所述待消歧實體進行消歧,還包括:在所有匹配度均小于預設第一閾值的情況下,根據所述分類模...
【專利技術屬性】
技術研發人員:劉兵,苗艷軍,
申請(專利權)人:北京奇藝世紀科技有限公司,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。