本發(fā)明專利技術(shù)實(shí)施例提供一種語(yǔ)音文本串的解析方法和裝置。所述方法包括:獲取待解析的語(yǔ)音文本串;將所述語(yǔ)音文本串與預(yù)設(shè)的多個(gè)正則表達(dá)匹配模板進(jìn)行匹配,獲取匹配的正則表達(dá)匹配模板的信息,其中,所述正則表達(dá)匹配模板以結(jié)構(gòu)化形式表達(dá),在第一結(jié)構(gòu)化標(biāo)簽中描述正則表達(dá)式的規(guī)則字符串序列,在至少一個(gè)第二結(jié)構(gòu)化標(biāo)簽中表示所述規(guī)則字符串序列中相應(yīng)的匹配字符串;輸出所述匹配的正則表達(dá)匹配模板的信息。通過(guò)構(gòu)建結(jié)構(gòu)化形式的正則表達(dá)匹配模板的方式,使得正則表達(dá)式的表達(dá)和管理規(guī)范、簡(jiǎn)單。
【技術(shù)實(shí)現(xiàn)步驟摘要】
語(yǔ)音文本串的解析方法和裝置
本專利技術(shù)涉及語(yǔ)義分析技術(shù),尤其涉及一種語(yǔ)音文本串的解析方法和裝置。
技術(shù)介紹
目前,基于語(yǔ)音識(shí)別的應(yīng)用由于其使用便利性,已得到廣泛的應(yīng)用。用戶在輸入語(yǔ)音時(shí)通常以口語(yǔ)化的方式表達(dá)其意圖,因此在將用戶的語(yǔ)音轉(zhuǎn)換為語(yǔ)音文本串后進(jìn)行解析時(shí),需要使用適于口語(yǔ)表達(dá)的解析方式。規(guī)則匹配是口語(yǔ)化語(yǔ)義解析比較常用的方法,使用預(yù)先編制好的規(guī)則串與(語(yǔ)音轉(zhuǎn)換后的)語(yǔ)音文本串進(jìn)行字符串匹配。現(xiàn)有的用于口語(yǔ)解析的正則表達(dá)式通常是以非常抽象的方式呈現(xiàn)出來(lái)的。例如,假設(shè)要解析發(fā)短信的命令,則需要這樣編寫規(guī)則:“(給)(.+)(發(fā)|回)(信息|短信)”或/和“(發(fā)|回)(信息|短信)(給)(.+)”,并將所述規(guī)則存入數(shù)據(jù)庫(kù)。當(dāng)用戶語(yǔ)音錄入“給劉德華發(fā)短信”時(shí),在將所述語(yǔ)音轉(zhuǎn)換為相應(yīng)的文本串后,可匹配上前者的規(guī)則,進(jìn)而給出解析結(jié)果。目前的正則表達(dá)式的編寫和維護(hù)存在以下缺點(diǎn):首先,正則表達(dá)式的編寫規(guī)則抽象難懂,而且容易發(fā)生編寫錯(cuò)誤。其次,現(xiàn)有的方案需要將關(guān)鍵詞直接寫入正則表達(dá)式中,例如“(信息|短信)”,而且很多正則表達(dá)式都包含同樣的關(guān)鍵詞。那么,當(dāng)修改、添加、刪除關(guān)鍵詞的時(shí)候,就需要操作很多個(gè)正則表達(dá)式,非常繁瑣。再次,對(duì)于要提取的參數(shù),現(xiàn)有的基于正則表達(dá)式的方法都是通過(guò)參數(shù)的順序來(lái)表示,例如,在“(給)(.+)(發(fā)|回)(信息|短信)”中,用第二個(gè)參數(shù)來(lái)表示要提取的參數(shù)。這導(dǎo)致了每次編寫正則表達(dá)式都要去數(shù)參數(shù)的順序,容易出錯(cuò)。最后,隨著需要進(jìn)行語(yǔ)義解析的領(lǐng)域的增加,要編寫的正則表達(dá)式也越來(lái)越多,有效地管理和維護(hù)編寫的正則表達(dá)式成為一個(gè)契待解決的問題。專利技術(shù)內(nèi)容本專利技術(shù)的目的在于,提供一種語(yǔ)音文本串的解析方法和裝置,通過(guò)結(jié)構(gòu)化形式來(lái)表達(dá)和管理正則表達(dá)式,以有效地管理和維護(hù)編寫的正則表達(dá)式。根據(jù)本專利技術(shù)的一方面,提供一種語(yǔ)音文本串的解析方法,其特征在于,所述方法包括:獲取待解析的語(yǔ)音文本串;將所述語(yǔ)音文本串與預(yù)設(shè)的多個(gè)正則表達(dá)匹配模板進(jìn)行匹配,獲取匹配的正則表達(dá)匹配模板的信息,其中,所述正則表達(dá)匹配模板以結(jié)構(gòu)化形式表達(dá),在第一結(jié)構(gòu)化標(biāo)簽中描述正則表達(dá)式的規(guī)則字符串序列,在至少一個(gè)第二結(jié)構(gòu)化標(biāo)簽中表示所述規(guī)則字符串序列中相應(yīng)的匹配字符串;輸出所述匹配的正則表達(dá)匹配模板的信息。優(yōu)選地,在所述第二結(jié)構(gòu)化標(biāo)簽中還包括所述匹配字符串的替換字符串的信息。其中,在所述將所述語(yǔ)音文本串與預(yù)設(shè)的多個(gè)正則表達(dá)匹配模板進(jìn)行匹配的處理中,對(duì)于任一匹配字符串,將所述語(yǔ)音文本串中相應(yīng)的字符串與所述匹配字符串以及其替換字符串進(jìn)行匹配。優(yōu)選地,在所述第一結(jié)構(gòu)化標(biāo)簽中,所述正則表達(dá)式的規(guī)則字符串序列中待提取的參數(shù)以變量表達(dá),并且在第三結(jié)構(gòu)化標(biāo)簽中描述與待提取的參數(shù)相應(yīng)的變量的信息。優(yōu)選地,所述將所述語(yǔ)音文本串與預(yù)設(shè)的多個(gè)正則表達(dá)匹配模板進(jìn)行匹配的處理還包括:根據(jù)所述第一結(jié)構(gòu)化標(biāo)簽中的變量從所述語(yǔ)音文本串提取符合相應(yīng)的第三結(jié)構(gòu)化標(biāo)簽中的描述的參數(shù)數(shù)據(jù);所述輸出所述匹配的正則表達(dá)匹配模板的信息的處理還包括:輸出提取的參數(shù)數(shù)據(jù)。優(yōu)選地,在第四結(jié)構(gòu)化標(biāo)簽中描述所述正則表達(dá)匹配模板表示的用戶意圖的數(shù)據(jù)。相應(yīng)地,所述將所述語(yǔ)音文本串與預(yù)設(shè)的多個(gè)正則表達(dá)匹配模板進(jìn)行匹配的處理還包括:提取與所述匹配的正則表達(dá)匹配模板相應(yīng)的第四結(jié)構(gòu)化標(biāo)簽的數(shù)據(jù);所述輸出所述匹配的正則表達(dá)匹配模板的信息的處理還包括:輸出所述正則表達(dá)匹配模板表示的用戶意圖的數(shù)據(jù)。所述結(jié)構(gòu)化形式可以是XML語(yǔ)言格式,所述正則表達(dá)匹配模板可以是DOM樹。根據(jù)本專利技術(shù)的另一方面,還提供一種語(yǔ)音文本串的解析裝置。所述裝置包括:語(yǔ)音文本串獲取單元,用于獲取待解析的語(yǔ)音文本串;正則表達(dá)匹配單元,用于將所述語(yǔ)音文本串與預(yù)設(shè)的多個(gè)正則表達(dá)匹配模板進(jìn)行匹配,獲取匹配的正則表達(dá)匹配模板的信息,其中,所述正則表達(dá)匹配模板以結(jié)構(gòu)化形式表達(dá),在第一結(jié)構(gòu)化標(biāo)簽中描述正則表達(dá)式的規(guī)則字符串序列,在至少一個(gè)第二結(jié)構(gòu)化標(biāo)簽中表示所述規(guī)則字符串序列中相應(yīng)的匹配字符串;正則表達(dá)輸出單元,用于輸出所述匹配的正則表達(dá)匹配模板的信息。優(yōu)選地,在所述第二結(jié)構(gòu)化標(biāo)簽中還包括所述匹配字符串的替換字符串的信息。其中,正則表達(dá)匹配單元用于對(duì)于任一匹配字符串,將所述語(yǔ)音文本串中相應(yīng)的字符串與所述匹配字符串以及其替換字符串進(jìn)行匹配。優(yōu)選地,在所述第一結(jié)構(gòu)化標(biāo)簽中,所述正則表達(dá)式的規(guī)則字符串序列中待提取的參數(shù)以變量表達(dá),并且在第三結(jié)構(gòu)化標(biāo)簽中描述與待提取的參數(shù)相應(yīng)的變量的信息。優(yōu)選地,所述正則表達(dá)匹配單元還用于根據(jù)所述第一結(jié)構(gòu)化標(biāo)簽中的變量從所述語(yǔ)音文本串提取符合相應(yīng)的第三結(jié)構(gòu)化標(biāo)簽中的描述的參數(shù)數(shù)據(jù);所述正則表達(dá)輸出單元還用于輸出提取的參數(shù)數(shù)據(jù)。優(yōu)選地,在第四結(jié)構(gòu)化標(biāo)簽中描述所述正則表達(dá)匹配模板表示的用戶意圖的數(shù)據(jù);相應(yīng)地,所述正則表達(dá)匹配單元還用于提取與所述匹配的正則表達(dá)匹配模板相應(yīng)的第四結(jié)構(gòu)化標(biāo)簽的數(shù)據(jù);所述正則表達(dá)輸出單元還用于輸出所述正則表達(dá)匹配模板表示的用戶意圖的數(shù)據(jù)。所述結(jié)構(gòu)化形式可以是XML語(yǔ)言格式,所述正則表達(dá)匹配模板可以是DOM樹。根據(jù)本專利技術(shù)示例性實(shí)施例的語(yǔ)音文本串的解析方法和實(shí)現(xiàn)所述方法的裝置通過(guò)構(gòu)建結(jié)構(gòu)化形式的正則表達(dá)匹配模板的方式,使得正則表達(dá)式的表達(dá)和管理規(guī)范、簡(jiǎn)單。通過(guò)結(jié)構(gòu)化形式編寫的規(guī)則也更為直觀,容易理解。此外,基本的結(jié)構(gòu)化標(biāo)簽可被重復(fù)利用,更提高了管理效率。此外,通過(guò)例如XML可擴(kuò)展標(biāo)記語(yǔ)言構(gòu)建和管理正則表達(dá)式,與其他編程語(yǔ)言或軟件工具之間的兼容性強(qiáng),使得如此編寫的正則表達(dá)式可用性強(qiáng)。附圖說(shuō)明圖1是示出根據(jù)本專利技術(shù)的基本構(gòu)思編寫的正則表達(dá)匹配模板的示例;圖2是示出根據(jù)本專利技術(shù)的示例性實(shí)施例一的語(yǔ)音文本串的解析方法的流程圖;圖3是示出根據(jù)本專利技術(shù)的示例性實(shí)施例二的語(yǔ)音文本串的解析裝置的邏輯框圖。具體實(shí)施方式本專利技術(shù)的基本專利技術(shù)構(gòu)思是,以結(jié)構(gòu)化形式的正則表達(dá)匹配模板來(lái)描述正則表達(dá)式,使用結(jié)構(gòu)化標(biāo)簽(第一結(jié)構(gòu)化標(biāo)簽)描述正則表達(dá)式的,并且通過(guò)至少一個(gè)另一種結(jié)構(gòu)化標(biāo)簽(第二結(jié)構(gòu)化標(biāo)簽)來(lái)分別表示所述規(guī)則字符串序列中的各匹配字符串。這樣,在結(jié)構(gòu)化標(biāo)簽中描述的規(guī)則字符串序列直觀、易懂,隱藏了所述規(guī)則字符串序列中的匹配字符串的復(fù)雜度,同時(shí)通過(guò)第二結(jié)構(gòu)化標(biāo)簽表示的所述匹配字符串還可在多個(gè)正則表達(dá)匹配模板重復(fù)被使用,提高了正則表達(dá)式的可復(fù)用性和可維護(hù)性。此外,使用變量來(lái)表達(dá)所述正則表達(dá)式的規(guī)則字符串序列中待提取的參數(shù),并且還通過(guò)再另一種結(jié)構(gòu)化標(biāo)簽(第三結(jié)構(gòu)化標(biāo)簽)描述與待提取的參數(shù)相應(yīng)的變量的信息。由此,通過(guò)正則表達(dá)匹配模板還可提取出輸入的語(yǔ)音文本串中的參數(shù)數(shù)據(jù),如變量名稱(即參數(shù)名稱)及其參數(shù)值,用戶無(wú)需記住正則表達(dá)式中提取參數(shù)的位置,降低出錯(cuò)率。在本文中以目前廣泛使用的結(jié)構(gòu)化描述形式的XML語(yǔ)言表達(dá)的正則表達(dá)匹配模板作為示例對(duì)本專利技術(shù)的示例性實(shí)施例進(jìn)行描述。需要理解,本專利技術(shù)提出的正則表達(dá)匹配模板可使用任何可擴(kuò)展的結(jié)構(gòu)化表達(dá)形式來(lái)進(jìn)行表達(dá)/描述,而不限于使用XML語(yǔ)言的方式。圖1是示出根據(jù)本專利技術(shù)的基本構(gòu)思編寫的正則表達(dá)匹配模板的示例,其示出用于表達(dá)發(fā)送信息的正則表達(dá)匹配模板。參照?qǐng)D1,標(biāo)簽<template>定義的是所述正則表達(dá)匹配模板,其中的標(biāo)簽<pattern>(第一結(jié)構(gòu)化標(biāo)簽)用于描述規(guī)則字符串序列“【發(fā)送】本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
一種語(yǔ)音文本串的解析方法,其特征在于,所述方法包括:獲取待解析的語(yǔ)音文本串;將所述語(yǔ)音文本串與預(yù)設(shè)的多個(gè)正則表達(dá)匹配模板進(jìn)行匹配,獲取匹配的正則表達(dá)匹配模板的信息,其中,所述正則表達(dá)匹配模板以結(jié)構(gòu)化形式表達(dá),在第一結(jié)構(gòu)化標(biāo)簽中描述正則表達(dá)式的規(guī)則字符串序列,在至少一個(gè)第二結(jié)構(gòu)化標(biāo)簽中表示所述規(guī)則字符串序列中相應(yīng)的匹配字符串;輸出所述匹配的正則表達(dá)匹配模板的信息。
【技術(shù)特征摘要】
1.一種語(yǔ)音文本串的解析方法,其特征在于,所述方法包括:獲取待解析的語(yǔ)音文本串;將所述語(yǔ)音文本串與預(yù)設(shè)的多個(gè)正則表達(dá)匹配模板進(jìn)行匹配,獲取匹配的正則表達(dá)匹配模板的信息,其中,所述正則表達(dá)匹配模板以結(jié)構(gòu)化形式表達(dá),在第一結(jié)構(gòu)化標(biāo)簽中描述正則表達(dá)式的規(guī)則字符串序列,所述規(guī)則字符串序列中待提取的參數(shù)以變量表達(dá),在至少一個(gè)第二結(jié)構(gòu)化標(biāo)簽中表示所述規(guī)則字符串序列中相應(yīng)的匹配字符串,在第三結(jié)構(gòu)化標(biāo)簽中描述與待提取的參數(shù)相應(yīng)的變量的信息;所述將所述語(yǔ)音文本串與預(yù)設(shè)的多個(gè)正則表達(dá)匹配模板進(jìn)行匹配,獲取匹配的正則表達(dá)匹配模板的信息,包括:根據(jù)所述第一結(jié)構(gòu)化標(biāo)簽中的變量從所述語(yǔ)音文本串提取符合相應(yīng)的第三結(jié)構(gòu)化標(biāo)簽中的描述的參數(shù)數(shù)據(jù);輸出所述匹配的正則表達(dá)匹配模板的信息,包括:輸出提取的參數(shù)數(shù)據(jù)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述第二結(jié)構(gòu)化標(biāo)簽中還包括所述匹配字符串的替換字符串的信息,其中,在所述將所述語(yǔ)音文本串與預(yù)設(shè)的多個(gè)正則表達(dá)匹配模板進(jìn)行匹配的處理中,對(duì)于任一匹配字符串,將所述語(yǔ)音文本串中相應(yīng)的字符串與所述匹配字符串以及其替換字符串進(jìn)行匹配。3.根據(jù)權(quán)利要求1~2中任一項(xiàng)所述的方法,其特征在于,在第四結(jié)構(gòu)化標(biāo)簽中描述所述正則表達(dá)匹配模板表示的用戶意圖的數(shù)據(jù),所述將所述語(yǔ)音文本串與預(yù)設(shè)的多個(gè)正則表達(dá)匹配模板進(jìn)行匹配的處理還包括:提取與所述匹配的正則表達(dá)匹配模板相應(yīng)的第四結(jié)構(gòu)化標(biāo)簽的數(shù)據(jù),所述輸出所述匹配的正則表達(dá)匹配模板的信息的處理還包括:輸出所述正則表達(dá)匹配模板表示的用戶意圖的數(shù)據(jù)。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述結(jié)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:時(shí)培軒,
申請(qǐng)(專利權(quán))人:百度在線網(wǎng)絡(luò)技術(shù)北京有限公司,
類型:發(fā)明
國(guó)別省市:北京;11
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。