• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種語義提取方法、裝置、計算機設備及存儲介質制造方法及圖紙

    技術編號:27358019 閱讀:24 留言:0更新日期:2021-02-19 13:38
    本申請實施例屬于自然語言處理技術領域,一種語義提取方法,包括分別對歷史問答語句和當前問答語句進行標記,以獲取歷史標記向量和當前標記向量;分別將歷史標記向量和當前標記向量輸入到預先訓練的編碼網絡,以獲取歷史語句編碼和當前語句編碼;將歷史語句編碼和當前語句編碼輸入到預先訓練的解碼器中,以獲取重寫語句。本申請還提供一種語義提取裝置、計算機設備及存儲介質。本申請通過對歷史問答語句和當前問答語句進行標記,之后分別進行編碼,之后將編碼后的歷史語句編碼和當前語句編碼輸入到解碼器中,進行解碼,解碼過程中進行解碼可以被實現省略或指代的字詞被歷史問答中相應的字詞替代,本申請記載的方案語義提取準確。確。確。

    【技術實現步驟摘要】
    一種語義提取方法、裝置、計算機設備及存儲介質


    [0001]本申請涉及自然語言處理
    ,尤其涉及一種語義提取方法、裝置、計算機設備及存儲介質

    技術介紹

    [0002]人工智能的一項重要的應用領域是自然語言處理,在此基礎之上,自然語言識別能夠用于智能問答的應用場景。目前,隨著人工智能的發展,智能問答的效果越來越好,然而,這一進展大部分是基于單回合對話的應用場景下取得。多輪對話模型(Multi-turn Dialogue Modelling)是一種使用機器自動實現人類對話的技術的任務,在多輪對話模型中,目前的模型還不能讓人滿意。一個主要的原因,在于日常對話中指代詞或語句省略的使用。因此構建的模型僅僅考慮當前語句,而不要考慮歷史語句,機器學習的效果就會產生偏差。無法取得更好的語義提取效果。這影響了智能問答及其他需要對多輪對話進行處理的應用的準確率。

    技術實現思路

    [0003]本申請實施例的目的在于提出一種結果準確的語義提取方法,能夠根據對話情況,克服對話中代詞和省略詞造成的影響。
    [0004]為了解決上述技術問題,本申請實施例提供一種語義提取方法,采用了如下所述的技術方案:
    [0005]一種語義提取方法,該方法包括
    [0006]分別對歷史問答語句和當前問答語句進行標記,以獲取歷史標記向量和當前標記向量;
    [0007]分別將歷史標記向量和當前標記向量輸入到預先訓練的編碼網絡,以獲取歷史語句編碼和當前語句編碼;
    [0008]將歷史語句編碼和當前語句編碼輸入到預先訓練的解碼器中,以獲取重寫語句。
    [0009]進一步的,所述分別對歷史問答語句和當前問答語句進行標記,以獲取歷史標記語句和當前標記語句,具體包括:
    [0010]分別對歷史問答語句和當前問答語句映射,以獲取歷史問答語句和當前問答語句對應的word embeddings;
    [0011]分別根據歷史問答語句和當前問答語句中單詞的位置,確定歷史問答語句和當前問答語句對應的position embeddings;
    [0012]分別根據歷史問答語句和當前問答語句在問答中所在的對話輪次,確定歷史問答語句和當前問答語句對應的turn embeddings;
    [0013]將相互對應的word embeddings、position embeddings、turn embeddings相加,以分別獲取取歷史問答語句對應的歷史標記向量和當前問答語句對應的當前標記向量。
    [0014]進一步的,所述分別將歷史標記向量和當前標記向量輸入到預先訓練的編碼網
    絡,以獲取歷史語句編碼和當前語句編碼,具體包括:
    [0015]分別將歷史標記向量和當前標記向量輸入到MultiHead Attention層,以提取特征;
    [0016]將MultiHead Attention層的輸出結果加和,并且歸一化;
    [0017]將歸一化的結果輸入到前饋神經網絡,以分別獲取歷史標記向量對應的歷史語句編碼,和當前標記向量對應的當前語句編碼。
    [0018]進一步的,所述MultiHead Attention層中提取特征的方法包括:
    [0019]MultiHead(Q,K,V)=Concat(head1,

    ,head
    h
    )W
    O
    [0020]其中Concat()是將向量拼接為矩陣,head
    i
    為歷史標記向量和當前標記向量對應的中間向量,W
    O
    為降維矩陣,并且:
    [0021]head
    i
    =Attention(QW
    iQ
    ,KW
    iK
    ,VW
    iV
    )
    [0022]其中Attention為注意力機制算法,W
    i
    為歷史標記向量或當前標記向量,并且:
    [0023][0024]其中Q、K、V、通過訓練確定,并且K
    T
    為矩陣K的轉置,d
    k
    為矩陣K的維度。
    [0025]進一步的,所述前饋神經網絡的計算包括:
    [0026]FNN(x)=max(0,xW1+b1)W2+b2[0027]其中W1、W2、b1、b2通過訓練確定,x為所述歸一化的結果。
    [0028]進一步的,所述將歷史語句編碼和當前語句編碼輸入到預先訓練的解碼器中,以獲取重寫語句中解碼器的訓練過程具體包括:
    [0029]輸入預設的訓練數據,最大化譯碼概率p,其中:
    [0030][0031]其中a,a

    ,λ的計算如下:
    [0032][0033][0034][0035]其中a為當前語句計算注意力運算的結果,a

    為對歷史語句計算注意力的結果,向量w通過訓練獲取,C,D的計算如下:
    [0036][0037][0038][0039]其中s為預設常量,表示concat運算,M的計算如下:
    [0040]M
    l
    =MultiHead(D
    (l-1)
    ,D
    (l-1)
    ,D
    (l-1)
    )。
    [0041]為了解決上述技術問題,本申請實施例還提供一種智能回答方法,采用了如下所述的技術方案:
    [0042]一種智能回答方法,該方法包括權利要求如上所述的一種語義提取方法,該方法還包括:
    [0043]將所述重寫語句和截止符順次輸入到預先訓練好的回答網絡,所述回答網絡中包括至少一層LSTM;
    [0044]根據所述重寫語句,通過LSTM輸出回答向量;
    [0045]循環將回答向量輸入到LSTM,并且輸出回答向量,直到LSTM輸出截止符;
    [0046]將回答向量拼接,并且映射為自然語言,以輸出回答文本。
    [0047]進一步的,所述回答網絡的訓練方法包括:
    [0048]最大化對數似然條件概率函數
    [0049][0050]其中x
    n
    表示訓練用問答語句,y
    n
    表示輸出的回答文本,θ表示網絡模型參數。
    [0051]為了解決上述技術問題,本申請實施例還提供一種語義提取裝置,采用了如下所述的技術方案:
    [0052]一種語義提取裝置,包括
    [0053]預處理模塊,用于分別對歷史問答語句和當前問答語句進行標記,以獲取歷史標記向量和當前標記向量;
    [0054]編碼模塊,用于分別將歷史標記向量和當前標記向量輸入到預先訓練的編碼網絡,以獲取歷史語句編碼和當前語句編碼;
    [0055]重寫模塊,將歷史語句編碼和當前語句編碼輸入到預先訓練的解碼器中,以獲取重寫語句。
    [0056]為了解決上述技術問題,本申請實施例還提供一種計算機設備,采用了如下所述的技術方案:
    [0057]一種計算機設備,包括存儲器和處理器,所述存儲器中存儲有計算機程序,其特征在于;所述處理器執行所述計算機程本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種語義提取方法,其特征在于,該方法包括:分別對歷史問答語句和當前問答語句進行標記,以獲取歷史標記向量和當前標記向量;分別將歷史標記向量和當前標記向量輸入到預先訓練的編碼網絡,以獲取歷史語句編碼和當前語句編碼;將歷史語句編碼和當前語句編碼輸入到預先訓練的解碼器中,以獲取重寫語句。2.根據權利要求1所述的一種語義提取方法,其特征在于:所述分別對歷史問答語句和當前問答語句進行標記,以獲取歷史標記語句和當前標記語句,具體包括:分別對歷史問答語句和當前問答語句映射,以獲取歷史問答語句和當前問答語句對應的word embeddings;分別根據歷史問答語句和當前問答語句中單詞的位置,確定歷史問答語句和當前問答語句對應的position embeddings;分別根據歷史問答語句和當前問答語句在問答中所在的對話輪次,確定歷史問答語句和當前問答語句對應的turn embeddings;將相互對應的word embeddings、position embeddings、turn embeddings相加,以分別獲取取歷史問答語句對應的歷史標記向量和當前問答語句對應的當前標記向量。3.根據權利要求1所述的一種語義提取方法,其特征在于:所述分別將歷史標記向量和當前標記向量輸入到預先訓練的編碼網絡,以獲取歷史語句編碼和當前語句編碼,具體包括:分別將歷史標記向量和當前標記向量輸入到MultiHead Attention層,以提取特征;將MultiHead Attention層的輸出結果加和,并且歸一化;將歸一化的結果輸入到前饋神經網絡,以分別獲取歷史標記向量對應的歷史語句編碼,和當前標記向量對應的當前語句編碼。4.根據權利要求3所述的一種語義提取方法,其特征在于:所述MultiHead Attention層中提取特征的方法包括:MultiHead(Q,K,V)=Concat(head1,

    ,head
    h
    )W
    O
    其中Concat()是將向量拼接為矩陣,head
    i
    為歷史標記向量和當前標記向量對應的中間向量,W
    O
    為降維矩陣,并且:其中Attention為注意力機制算法,W
    i
    為歷史標記向量或當前標記向量,并且:其中Q、K、V、通過訓練確定,并且K
    T
    為矩陣K的轉置,d
    k
    為矩陣K的維度...

    【專利技術屬性】
    技術研發人員:劉嗣平柯登峰湯丁青林旻
    申請(專利權)人:廣州九四智能科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码精品尤物一区二区三区| 无码av最新无码av专区| 久久午夜夜伦鲁鲁片免费无码| 人妻无码αv中文字幕久久琪琪布| 久久精品国产亚洲AV无码娇色 | 亚洲中文字幕无码久久精品1| 日韩精品无码久久久久久 | 欧洲黑大粗无码免费| 亚洲av无码不卡| 一本大道无码人妻精品专区 | 久久精品岛国av一区二区无码| 毛片一区二区三区无码| 国产精品无码av在线播放| 无码人妻一区二区三区免费视频| 亚洲av无码成人精品区一本二本| 直接看的成人无码视频网站| 成人无码一区二区三区| 黑人无码精品又粗又大又长| 人妻丰满熟妇AV无码区HD| 久久精品无码一区二区三区不卡 | 中文字幕无码视频手机免费看| 亚洲综合无码精品一区二区三区| 亚洲Av无码乱码在线播放| 性饥渴少妇AV无码毛片| 69天堂人成无码麻豆免费视频| 亚洲精品无码不卡在线播HE| 综合无码一区二区三区| 久久无码AV中文出轨人妻| 免费a级毛片无码av| 国产亚洲?V无码?V男人的天堂 | 精品无码AV无码免费专区| 精品无码一区二区三区爱欲| 亚洲精品无码专区在线在线播放| 中文字幕无码久久久| 亚洲熟妇无码乱子AV电影| 国产精品无码无在线观看| 四虎成人精品无码| 免费A级毛片无码视频| 国产成人无码AV麻豆| 免费无码一区二区三区蜜桃大 | 久久激情亚洲精品无码?V|