【技術實現步驟摘要】
一種語義提取方法、裝置、計算機設備及存儲介質
[0001]本申請涉及自然語言處理
,尤其涉及一種語義提取方法、裝置、計算機設備及存儲介質
技術介紹
[0002]人工智能的一項重要的應用領域是自然語言處理,在此基礎之上,自然語言識別能夠用于智能問答的應用場景。目前,隨著人工智能的發展,智能問答的效果越來越好,然而,這一進展大部分是基于單回合對話的應用場景下取得。多輪對話模型(Multi-turn Dialogue Modelling)是一種使用機器自動實現人類對話的技術的任務,在多輪對話模型中,目前的模型還不能讓人滿意。一個主要的原因,在于日常對話中指代詞或語句省略的使用。因此構建的模型僅僅考慮當前語句,而不要考慮歷史語句,機器學習的效果就會產生偏差。無法取得更好的語義提取效果。這影響了智能問答及其他需要對多輪對話進行處理的應用的準確率。
技術實現思路
[0003]本申請實施例的目的在于提出一種結果準確的語義提取方法,能夠根據對話情況,克服對話中代詞和省略詞造成的影響。
[0004]為了解決上述技術問題,本申請實施例提供一種語義提取方法,采用了如下所述的技術方案:
[0005]一種語義提取方法,該方法包括
[0006]分別對歷史問答語句和當前問答語句進行標記,以獲取歷史標記向量和當前標記向量;
[0007]分別將歷史標記向量和當前標記向量輸入到預先訓練的編碼網絡,以獲取歷史語句編碼和當前語句編碼;
[0008]將歷史語句編碼和當前語句編碼輸入到預先訓練的解碼 ...
【技術保護點】
【技術特征摘要】
1.一種語義提取方法,其特征在于,該方法包括:分別對歷史問答語句和當前問答語句進行標記,以獲取歷史標記向量和當前標記向量;分別將歷史標記向量和當前標記向量輸入到預先訓練的編碼網絡,以獲取歷史語句編碼和當前語句編碼;將歷史語句編碼和當前語句編碼輸入到預先訓練的解碼器中,以獲取重寫語句。2.根據權利要求1所述的一種語義提取方法,其特征在于:所述分別對歷史問答語句和當前問答語句進行標記,以獲取歷史標記語句和當前標記語句,具體包括:分別對歷史問答語句和當前問答語句映射,以獲取歷史問答語句和當前問答語句對應的word embeddings;分別根據歷史問答語句和當前問答語句中單詞的位置,確定歷史問答語句和當前問答語句對應的position embeddings;分別根據歷史問答語句和當前問答語句在問答中所在的對話輪次,確定歷史問答語句和當前問答語句對應的turn embeddings;將相互對應的word embeddings、position embeddings、turn embeddings相加,以分別獲取取歷史問答語句對應的歷史標記向量和當前問答語句對應的當前標記向量。3.根據權利要求1所述的一種語義提取方法,其特征在于:所述分別將歷史標記向量和當前標記向量輸入到預先訓練的編碼網絡,以獲取歷史語句編碼和當前語句編碼,具體包括:分別將歷史標記向量和當前標記向量輸入到MultiHead Attention層,以提取特征;將MultiHead Attention層的輸出結果加和,并且歸一化;將歸一化的結果輸入到前饋神經網絡,以分別獲取歷史標記向量對應的歷史語句編碼,和當前標記向量對應的當前語句編碼。4.根據權利要求3所述的一種語義提取方法,其特征在于:所述MultiHead Attention層中提取特征的方法包括:MultiHead(Q,K,V)=Concat(head1,
…
,head
h
)W
O
其中Concat()是將向量拼接為矩陣,head
i
為歷史標記向量和當前標記向量對應的中間向量,W
O
為降維矩陣,并且:其中Attention為注意力機制算法,W
i
為歷史標記向量或當前標記向量,并且:其中Q、K、V、通過訓練確定,并且K
T
為矩陣K的轉置,d
k
為矩陣K的維度...
【專利技術屬性】
技術研發人員:劉嗣平,柯登峰,湯丁青,林旻,
申請(專利權)人:廣州九四智能科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。