本申請實施例屬于語義識別技術領域,涉及一種電話通話中信息提取方法,包括對電話通話進行語音識別,并且對語音識別的結果提取詞嵌入向量;將詞嵌入向量輸入到預先訓練的識別網絡,以輸出與詞嵌入向量相應的概率矩陣;將概率矩陣輸入到CRF層,以識別詞嵌入向量中的命名實體;對命名實體消歧,以提取命名實體包含的信息。本申請還提供一種電話通話中信息提取裝置、計算機設備及存儲介質。本申請首先提取概率矩陣,之后通過CRF層對對概率矩陣進行約束,之后輸出命名實體,最后通過對命名實體的消歧將命名實體中包含的信息提取出來。該方案能夠簡化命名實體的提取過程,同時保證命名實體提取的準確度,該方案能夠快速提取通話中產生的信息。
【技術實現步驟摘要】
一種電話通話中信息提取方法、裝置及計算機設備
本申請涉及語義識別
,尤其涉及一種電話通話中信息提取方法、裝置及計算機設備
技術介紹
自然語言處理中的一個重要任務,是提取自然語言當中存在的具體信息,其中一種信息的提取,是通過命名實體識別(Namedentityrecognition)實現的。其中命名實體是一段信息中具有一定標識的信息要素,例如公司名、人名、時間、地點等。目前,隨著人工智能的發展,命名實體識別任務的準確率越來越高,但是不同于存在自然定界符的其他語系語言,漢語中命名實體的識別存在困難,一般的首先需要進行中文分詞(ChineseWordSegmentation),在分詞過程中,基于單詞的命名實體識別模型容易產生實體邊界錯誤分割以及出現不帶詞的詞匯(out-of-vocabulary)的問題,因此為了提升命名實體識別的性能,需要使用能夠捕獲來自不同子空間和任意相鄰字符的全局依懶性的神經網絡。而這類網絡的結構和算法復雜,運行效率很低。使得識別方法無法運用到對即時性有要求的項目中去,本申請要解決的技術問題是現有的電話通話中信息提取效率低的問題。
技術實現思路
本申請實施例的目的在于提出一種電話通話中信息提取方法、裝置及計算機設備,能夠快速提取通話中產生的信息。為了解決上述技術問題,本申請實施例提供一種電話通話中信息提取方法,采用了如下所述的技術方案:一種電話通話中信息提取方法,該方法包括:對電話通話進行語音識別,并且對語音識別的結果提取詞嵌入向量;將所述詞嵌入向量輸入到預先訓練的識別網絡,以輸出與詞嵌入向量相應的概率矩陣;將所述概率矩陣輸入到CRF層,以識別詞嵌入向量中的命名實體;對所述命名實體消歧,以提取命名實體包含的信息。進一步的,所述將所述詞嵌入向量輸入到預先訓練的識別網絡,以輸出與詞嵌入向量相應的概率矩陣,具體包括:將所述詞嵌入向量輸入到HybridGatedConvolutions層以獲取一組第一特征向量;將所述一組第一特征向量輸入到HighwayBiLSTM層以獲取一組第二特征向量;將所述一組第二特征向量輸入到GatedSelf-Attention層以獲取概率矩陣。進一步的,所述將所述詞嵌入向量輸入到HybridGatedConvolutions層以獲取一組第一特征向量具體包括:在激活函數下對詞嵌入向量做空洞卷積;根據所述激活函數的輸出,對詞嵌入向量做空洞門卷積;對詞嵌入向量做門卷積,并且與所述空洞門卷積的輸出在矩陣中拼接以獲得一組第一特征向量;進一步的,所述將所述一組第一特征向量輸入到HighwayBiLSTM層以獲取一組第二特征向量具體包括:將所述一組第一特征向量輸入到BiLSTM,以獲得一組中間向量;對所述一組中間向量做門控處理,以獲得一組第二特征向量。進一步的,所述將所述一組第二特征向量輸入到GatedSelf-Attention層以獲取概率矩陣具體包括:通過所述第二特征向量初始化注意力參數;根據所述注意力參數處理對應的所述第二特征向量,并且將處理過后的所述第二特征向量拼接為中間矩陣;對所述中間矩陣做門控處理,以獲得概率矩陣。進一步的,所述對語音識別的結果提取詞嵌入向量,通過預設的提取網絡提取,提取網絡和識別網絡的訓練方法為:通過語音識別的結果和詞嵌入向量,訓練所述提取網絡;固定所述提取網絡的參數,通過提取網絡的輸出結果訓練所述識別網絡。進一步的,所述將所述概率矩陣輸入到CRF層,以識別詞嵌入向量中的命名實體,其中CRF層的訓練方式具體包括:通過最小化L(θ)反向傳播優化網絡參數,訓練CRF層;其中為詞嵌入向量中的命名實體屬于各標簽的概率,為概率最高的標簽,為序列轉化的概率,其中,O為所述概率矩陣,T為O的轉置矩陣yi為標簽序列y中標簽i。為了解決上述技術問題,本申請實施例還提供一種……,采用了如下所述的技術方案:一種電話通話中信息提取裝置,包括:詞嵌入向量提取模塊,用于對電話通話進行語音識別,并且對語音識別的結果提取詞嵌入向量;概率矩陣輸出模塊,用于將所述詞嵌入向量輸入到預先訓練的識別網絡,以輸出與詞嵌入向量相應的概率矩陣;命名實體提去模塊,用于將所述概率矩陣輸入到CRF層,以識別詞嵌入向量中的命名實體;消歧模塊,用于對所述命名實體消歧,以提取命名實體包含的信息。為了解決上述技術問題,本申請實施例還提供一種計算機設備,采用了如下所述的技術方案:一種計算機設備,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器執行所述計算機程序時實現如上所述的分布式鎖的高效調用方法的步驟。為了解決上述技術問題,本申請實施例還提供一種計算機可讀存儲介質,采用了如下所述的技術方案:一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如上所述的分布式鎖的高效調用方法的步驟。與現有技術相比,本申請實施例主要有以下有益效果:通過首先提取詞嵌入向量,之后通過識別網絡根據詞嵌入向量提取詞嵌入向量對應于要提取的命名實體的概率向量并拼接為概率矩陣,之后通過CRF層對對概率矩陣進行約束,防止提取錯誤的命名實體,之后輸出命名實體,最后通過對命名實體的消歧將命名實體中包含的信息提取出來。該方案能夠簡化命名實體的提取過程,同時保證命名實體提取的準確度,該方案能夠快速提取通話中產生的信息。附圖說明為了更清楚地說明本申請中的方案,下面將對本申請實施例描述中所需要使用的附圖作一個簡單介紹,顯而易見地,下面描述中的附圖是本申請的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1根據本申請的一種電話通話中信息提取方法的一個實施例的流程圖;圖2是根據本申請的一種電話通話中信息提取裝置的一個實施例的結構示意圖;圖3是根據本申請的計算機設備的一個實施例的結構示意圖。具體實施方式除非另有定義,本文所使用的所有的技術和科學術語與屬于本申請的
的技術人員通常理解的含義相同;本文中在申請的說明書中所使用的術語只是為了描述具體的實施例的目的,不是旨在于限制本申請;本申請的說明書和權利要求書及上述附圖說明中的術語“包括”和“具有”以及它們的任何變形,意圖在于覆蓋不排他的包含。本申請的說明書和權利要求書或上述附圖中的術語“第一”、“第二”等是用于區別不同對象,而不是用于描述特定順序。在本文中提及“實施例”意味著,結合實施例描述的特定特征、結構或特性可以包含在本申請的至少一個實施例中。在說明書中的各個位置出現該短語并不一定均是指相同的實施例,也不是與其它實施例互斥的獨立的或備選的實施例。本領域技術人員顯式地和隱式地理解本文檔來自技高網...
【技術保護點】
1.一種電話通話中信息提取方法,其特征在于,該方法包括:/n對電話通話進行語音識別,并且對語音識別的結果提取詞嵌入向量;/n將所述詞嵌入向量輸入到預先訓練的識別網絡,以輸出與詞嵌入向量相應的概率矩陣;/n將所述概率矩陣輸入到CRF層,以識別詞嵌入向量中的命名實體;/n對所述命名實體消歧,以提取命名實體包含的信息。/n
【技術特征摘要】
1.一種電話通話中信息提取方法,其特征在于,該方法包括:
對電話通話進行語音識別,并且對語音識別的結果提取詞嵌入向量;
將所述詞嵌入向量輸入到預先訓練的識別網絡,以輸出與詞嵌入向量相應的概率矩陣;
將所述概率矩陣輸入到CRF層,以識別詞嵌入向量中的命名實體;
對所述命名實體消歧,以提取命名實體包含的信息。
2.根據權利要求1所述的一種電話通話中信息提取方法,其特征在于:所述將所述詞嵌入向量輸入到預先訓練的識別網絡,以輸出與詞嵌入向量相應的概率矩陣,具體包括:
將所述詞嵌入向量輸入到HybridGatedConvolutions層以獲取一組第一特征向量;
將所述一組第一特征向量輸入到HighwayBiLSTM層以獲取一組第二特征向量;
將所述一組第二特征向量輸入到GatedSelf-Attention層以獲取概率矩陣。
3.根據權利要求2所述的一種電話通話中信息提取方法,其特征在于:所述將所述詞嵌入向量輸入到HybridGatedConvolutions層以獲取一組第一特征向量具體包括:
在激活函數下對詞嵌入向量做空洞卷積;
根據所述激活函數的輸出,對詞嵌入向量做空洞門卷積;
對詞嵌入向量做門卷積,并且與所述空洞門卷積的輸出在矩陣中拼接以獲得一組第一特征向量;
4.根據權利要求2所述的一種電話通話中信息提取方法,其特征在于:所述將所述一組第一特征向量輸入到HighwayBiLSTM層以獲取一組第二特征向量具體包括:
將所述一組第一特征向量輸入到BiLSTM,以獲得一組中間向量;
對所述一組中間向量做門控處理,以獲得一組第二特征向量。
5.根據權利要求2所述的一種電話通話中信息提取方法,其特征在于:所述將所述一組第二特征向量輸入到GatedSelf-Attention層以獲取概率矩陣具體包括:
通過所述第二特征向量初始化注意力參數;
根據所述注意力參數處理對應的所述第二...
【專利技術屬性】
技術研發人員:劉嗣平,柯登峰,湯丁青,林旻,
申請(專利權)人:廣州九四智能科技有限公司,
類型:發明
國別省市:廣東;44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。