本發明專利技術公開了一種用于多輪問答系統中缺失語義補充的方法,其特征在于,包括以下步驟:S1、獲取用戶在問答系統中輸入的問題;S2、根據用戶輸入的在先問題對當前問題進行缺失語義補充,且所述缺失語義補充是從指代消解和/或省略恢復的角度進行語義補充;S3、對缺失語義補充后的當前問題進行檢索。本發明專利技術通過指代消解和/或省略恢復對當前問題進行缺失語義補充,能夠針對用戶輸入的問題進行準確的回答,本發明專利技術方法允許用戶使用省略句進行提問,提高了人機交互的流暢性和準確性,獲得更好的用戶體驗。
【技術實現步驟摘要】
一種用于多輪問答系統中缺失語義補充的方法
本專利技術涉及信息處理
,尤其涉及一種用于多輪問答系統中缺失語義補充的方法。
技術介紹
自動問答系統,又稱QA(QuestionAnswering)系統,可稱為新一代的搜索引擎,用戶不需要把自己的問題分解成關鍵字,可把整個問題直接交給該系統,既能用自然語言句子提問,又能為用戶直接返回答案,可更好地滿足用戶的檢索需求,因此,自動問答系統成為企業智能客服的首選,但是該系統目前還存在一些缺點,例如用戶每次輸入的語句都彼此獨立,不能建立準確的上下文語境,因而對用戶而言,每次檢索必須輸入語義完整的問句,與人的語言行為相違背。根據上文信息建立語境,從指代和省略兩個角度,對當前提問信息進行語義補充,從而允許用戶可以使用省略句進行提問,提高人機交互的流暢性和準確性,提供更好的用戶體驗。在交互式問答中,人們在提問的同時,會建立相應的語境,在這個語境中的接下來的問題,往往會出現指代和省略現象,由此造成單個提問語義缺失的問題,給問題檢索帶來大量的麻煩。語義缺失主要包括以下兩種情況:1.指代型語義缺失。用戶輸入問題上下文相關,為保障上下文連貫性,后一個問題與前一個問題之間存在指代關系,即后一個問題中存在某個指代詞指代前一個問題中的名詞,由此造成指代型語義缺失,例如,連續兩個問題:“朝陽區海關可以辦理什么業務?”,“它的電話是多少?”。在后一個問題中,“它”指代的是“朝陽區海關”,缺失語義“朝陽區海關”信息。2.省略型語義缺失。用戶輸入問題上下文相關,后一個問題中應該具備的成分,有時出于上下文連貫性的需要,在后一個問句中并不出現,構成省略型語義缺失,例如,連續兩個問題:“銀行卡轉賬如何辦理?”,“收費嗎?”。第二個問句中省略了主語“銀行卡轉賬”,缺失“銀行卡轉賬”信息。目前的檢索系統,依然要求用戶輸入語義完整的句子,對于語義缺失的句子并不能有效找到正確答案,如百度研發的小度機器人,雖然針對客觀問題有極高的準確率,但不能準確檢索出多輪問答中存在語義缺失問題的答案。
技術實現思路
本專利技術所要解決的技術問題在于如何克服現有技術中在多輪問答系統中,對于語義缺失的句子無法找到正確答案的缺陷。為了解決上述技術問題,本專利技術提供了一種用于多輪問答系統中缺失語義補充的方法,其特征在于,包括以下步驟:S1、獲取用戶在問答系統中輸入的問題;S2、根據用戶輸入的在先問題對當前問題進行缺失語義補充,且所述缺失語義補充是從指代消解和/或省略恢復的角度進行語義補充;S3、對缺失語義補充后的當前問題進行檢索。進一步地,所述步驟S2中的從指代消解的角度進行語義補充,具體包括以下步驟:S21、根據用戶在問答系統中輸入的問題構建表述對;S22、抽取表述對的特征,所述表述對的特征包括人工特征、詞向量特征和交互特征中的一種或多種;S23、根據表述對的特征進行代詞消解。進一步地,所述步驟S21中構建表述對具體包括以下步驟:S211、根據用戶在問答系統中輸入的問題,將指代詞和候選先行語分別做集合;S212、將指代詞集合和候選先行語集合進行笛卡爾積運算,得到表述對集合。進一步地,所述步驟S22中,人工特征包括14維指代詞和10維先行語,且指代詞和先行語的每一維均為布爾類型,其中14維指代詞分別為“指人”、“指物”、“單數”、“復數”、“男”、“女”、“地點”、“時間”、“自己”、“專有名詞”、“非人”、“非物”、“非地點”、“指機構”,10維先行語分別為“人”、“男”、“女”、“單數”、“復數”、“物品”、“機構團體”、“地名”、“新詞”、“時間”。進一步地,所述步驟S22中的詞向量特征包括指代詞詞向量特征、先行語詞向量特征、指代詞上下文特征和先行語上下文特征,所述指代詞詞向量特征和先行語詞向量特征分別為指代詞和先行語的詞向量,所述指代詞上下文特征和先行語上下文特征由以下公式得到:其中,w0,w1,…,wi,…,wm為一個句子中每個詞的詞向量,wi為待計算上下文特征的詞的詞向量,n為窗口大小,即包含候選詞前后各n個詞,k為窗口大小為n中所包含的詞的個數,v為第i個詞的上下文特征。進一步地,所述步驟S22中的交互特征為指代詞和先行語之間的交互信息,包括指代詞和先行語所在的句子的偏移,指代詞和先行語在句子中的偏移,指代詞和先行語之間的句子距離和詞距離,其中句子偏移和句子距離以句子為基本單位來計算,在句子中的偏移和詞距離以詞為單位計算。進一步地,所述步驟S2中的從省略恢復的角度進行語義補充,具體包括以下步驟:S24、根據用戶在問答系統中輸入的問題構建共現語言模型,并計算出共現語言模型中的候選目標詞與當前句子中的詞的共現概率;S25、將計算結果分值最高的先行語作為最佳先行語進行省略恢復。進一步地,所述步驟S24具體包括以下步驟:S241、根據用戶在問答系統中輸入的問題進行詞性標注;S242、將詞性標注為名詞或動詞作為候選目標詞;S243、在以所述候選目標詞為中心的前后各n個詞范圍內,設計大小為n的滑動窗口;S244、在所述滑動窗口中,以候選目標詞為中心,從第一個詞滑向最后一個詞,依次統計出窗口中候選目標詞與當前句子中的詞的共現概率。進一步地,所述步驟S244中共現概率由以下計算公式得到:其中,wi為當前句子中出現的詞,wj為候選目標詞,W為詞表,c(wi,wj)表示wi和wj的共現計數。進一步地,所述步驟S25具體為:將共現概率p(wi,wj)與概率閾值d進行比較,將p(wi,wj)>d且未在當前句子中出現的詞作為最佳先行語,并將所述最佳先行語補充到當前句子中。本專利技術的用于多輪問答系統中缺失語義補充的方法,具有如下有益效果:1、本專利技術通過指代消解和/或省略恢復對當前問題進行缺失語義補充,能夠針對用戶輸入的問題進行準確的回答。2、本專利技術方法允許用戶使用省略句進行提問,提高了人機交互的流暢性和準確性,獲得更好的用戶體驗。附圖說明為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它附圖。圖1是本專利技術中用于多輪問答系統中缺失語義補充的方法的流程圖;圖2是本專利技術實施例中的指代消解模塊的整體框圖;圖3是本專利技術實施例中的指代消解模塊模型訓練的數據流圖;圖4是本專利技術實施例中的指代消解模塊實現指代消解的數據流圖;圖5是本專利技術實施例中的省略恢復模塊訓練過程的流程圖;圖6是本專利技術實施例中的語義補充模塊的整體框圖。具體實施方式下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有作出創造性勞動的前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。本專利技術提供了一種用于多輪問答系統中缺失語義補充的方法,其特征在于,包括以下步驟:S1、獲取用戶在問答系統中輸入的問題;S2、根據用戶輸入的在先問題對當前問題進行缺失語義補充,且所述缺失語義補充是從指代消解和/或省略恢復的角度進行語義補充,從指代消解的角度進行語義補充具體包括以本文檔來自技高網...
【技術保護點】
一種用于多輪問答系統中缺失語義補充的方法,其特征在于,包括以下步驟:S1、獲取用戶在問答系統中輸入的問題;S2、根據用戶輸入的在先問題對當前問題進行缺失語義補充,所述缺失語義補充是從指代消解和/或省略恢復的角度進行語義補充;S3、對缺失語義補充后的當前問題進行檢索。
【技術特征摘要】
1.一種用于多輪問答系統中缺失語義補充的方法,其特征在于,包括以下步驟:S1、獲取用戶在問答系統中輸入的問題;S2、根據用戶輸入的在先問題對當前問題進行缺失語義補充,所述缺失語義補充是從指代消解和/或省略恢復的角度進行語義補充;S3、對缺失語義補充后的當前問題進行檢索,其中,所述步驟S2中的從指代消解的角度進行語義補充,具體包括以下步驟:S21、根據用戶在問答系統中輸入的問題構建表述對;S22、抽取表述對的特征,所述表述對的特征包括人工特征、詞向量特征和交互特征中的一種或多種;S23、根據表述對的特征進行指代詞消解。2.根據權利要求1所述的用于多輪問答系統中缺失語義補充的方法,其特征在于,所述步驟S21中構建表述對具體包括以下步驟:S211、根據用戶在問答系統中輸入的問題,將指代詞和候選先行語分別做集合;S212、將指代詞集合和候選先行語集合進行笛卡爾積運算,得到表述對集合。3.根據權利要求1或2所述的用于多輪問答系統中缺失語義補充的方法,其特征在于,所述步驟S22中,人工特征包括14維指代詞和10維先行語,且指代詞和先行語的每一維均為布爾類型,其中14維指代詞分別為“指人”、“指物”、“單數”、“復數”、“男”、“女”、“地點”、“時間”、“自己”、“專有名詞”、“非人”、“非物”、“非地點”、“指機構”,10維先行語分別為“人”、“男”、“女”、“單數”、“復數”、“物品”、“機構團體”、“地名”、“新詞”、“時間”。4.根據權利要求1或2所述的用于多輪問答系統中缺失語義補充的方法,其特征在于,所述步驟S22中的詞向量特征包括指代詞詞向量特征、先行語詞向量特征、指代詞上下文特征和先行語上下文特征,所述指代詞詞向量特征和先行語詞向量特征分別為指代詞和先行語的詞向量,所述指代詞上下文特征和先行語上下文特征由以下公式得到:其中,w0,w1,…,wi,…,wm為一個句子中每個詞的詞向量,wi為待計算上下文特征的詞的詞向量,n為窗口大小,即...
【專利技術屬性】
技術研發人員:游世學,杜新凱,
申請(專利權)人:北京中科匯聯科技股份有限公司,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。