本發明專利技術公開一種根據音頻內容和演講人標識檢索音頻信息的方法和裝置。基于內容和基于演講人的音頻信息結果被結合在一起以提供對音頻信息的引用。一個檢索同包含一個文本串及一個給定的演講人標識的文本查詢相對應的信息的查詢搜索系統。一個對音頻信息進行轉換并建立索引以創建以時間標記的內容索引文件和演講人索引文件的索引系統。一個使用所產生的內容和演講人索引,根據音頻內容和演講人標識執行查詢-文檔匹配的音頻檢索系統。(*該技術在2020年保護過期,可自由使用*)
【技術實現步驟摘要】
本專利技術涉及信息檢索系統,更確切地,涉及從一個多媒體數據庫文件中檢索滿足用戶指定要求的多媒體信息,如音頻和視頻信息的方法和裝置。信息檢索系統主要集中在從大的文本集合中檢索文本文檔。文本檢索的基本原理已經充分地提出并整理發布。例如,可參見G.Salton,Automatic Text Processing,Addison-Wesley,1989。索引是一種將文檔描述同查詢描述進行匹配的機制。索引建立階段(indexingphase)用一組字或詞句對文檔進行描述,而檢索階段(retrieval phase)用一組字或詞句對查詢進行描述。當文檔描述同查詢描述匹配時一個文檔(或其中的一部分)得到檢索。多媒體對象,例如音頻和視頻文件所需的數據檢索模型同文本文檔所需的模型有很大的不同。對這些多媒體信息建立索引的標準特征集合有一點共性。對音頻數據庫建立索引的一種方法是使用某種音頻提示,例如鼓掌,音樂或演講。相似地,對視頻信息建立索引的一種方法是使用關鍵幀,或相片的變化。對于有影響的演講中的音頻和視頻信息,例如從廣播中摘出的音頻和視頻信息,對應的文本可以使用語音識別系統得到,而轉換文本可以用作建立相關音頻(及視頻)的索引。當前的音頻信息檢索系統包含兩個部分,即一個語音識別系統,用于將音頻信息轉換為用于建立索引的文本,和一個基于文本的信息檢索系統。語音識別系統一般由三個部分組成,即詞匯表,語言模型和一組針對詞匯表中每個詞的發音。詞匯表是由語音識別器用來將語音翻譯為文本的一組詞。作為解碼處理的一部分,該識別器將來自語音輸入的聲音同詞匯表中的詞進行匹配。因此,詞匯表定義了可以被轉換的詞。如果一個詞不在詞匯表中,則該詞將得不到識別,不可識別的詞必須首先被加入到詞匯表中。語言模型是同特定領域相關的詞匯表中一系列詞的數據庫。其中還包括這些詞以特定次序出現時的一組概率。當使用語音模型時,語音識別器的輸出將偏向高概率詞序。這樣,正確的解碼處理是判斷用戶所說的一系列詞是否在語言模型中具有高概率。這樣,當用戶說了一個不常見的詞序時,解碼性能將下降。詞的識別完全基于它的發音,也就是說,詞的語音表示。為了得到最好的準確率,必須使用同特定領域相關的語言模型。建立這樣一個語言模型需要明確的文本轉換及語音。基于文本的信息檢索系統一般分兩步進行工作。第一步是離線(off-line)建索引階段,這時會收集同文本文檔相關的統計信息來建立索引。第二步是在線(on-line)搜索并檢索階段,使用該索引來進行查詢-文檔匹配,隨后將相關的文檔(及附加信息)返回給用戶。在建立索引階段,會對語音識別系統的文本輸出進行處理以得到在檢索階段用于快速搜索的文檔描述。在建立索引過程中,一般按序執行下列操作(i)標記化(tokenization),(ii)標記語音段落,(iii)形態(morphological)分析,及(iv)使用標準的結束詞(stop-word)列表刪除結束詞。標記化探測語句邊界。形態分析是一種語音信號處理的形式,它將名詞分解為其詞根,并附加一個指示復數形式的標記。同樣,動詞被分解為指示人,時態和語氣的單元,并附加該動詞的詞根。關于索引建立過程的一般性討論可以參見于在此作為參照的S.Dharanipragada et al.,"Audio-Indexing forBroadcast News,"in Proc.SDR97,1997。當用戶使用這樣一個基于內容的音頻信息檢索系統來檢索其中包含一或多個在用戶定義的查詢中定義的關鍵詞的音頻文件時,當前的音頻信息檢索系統不允許用戶根據演講人標識有選擇性地檢索相關的音頻文件。這樣,需要一種方法和裝置,可以根據演講人標識和音頻內容來檢索音頻信息。一般而言,這里所揭示的是一種根據音頻內容和演講人標識用于檢索音頻信息的方法和裝置。所揭示的音頻檢索系統將基于內容和基于演講人的音頻信息檢索的結果結合在一起來提供對音頻信息(并間接對視頻)的引用。根據本專利技術的一個方面,查詢搜索系統檢索同包含一個文本串(一或多個關鍵詞)的文本查詢及給定演講人的標識相對應的信息。用戶定義的查詢約束(constraints)同經索引的音頻或視頻數據庫(或兩者)進行比較并對包含與給定演講人所說的指定詞相關的音頻/視頻片段進行檢索,展現給用戶。所揭示的音頻檢索系統由兩個主要部分組成。一個檢索系統,轉換音頻信息并對其建立索引以創建用時間標記的內容索引文件和演講人索引文件;一個音頻檢索系統使用所生成的內容索引和演講人索引,根據音頻內容和演講人標識執行查詢-文檔匹配。將相關的文檔(及可能的附加信息)返回給用戶。通過比較內容和演講人兩個領域中文檔片段的起止時間,對符合用戶指定內容和演講人約束的文檔進行標識。根據本專利技術的另一個方面,內容和演講人兩個領域之間交迭的部分也已考慮在內。那些交迭較多的文檔片段權重越高。通常,對于符合用戶定義內容和演講人約束的文檔,使用下面的等式計算出一個組合分值分配給該文檔組合分值=(分級文檔分值+(lambda*演講人片段分值))*交迭因子分級文檔分值對基于內容的信息檢索進行分級,例如,使用Okapi等式。演講人片段分值是一個距離度量值,用來指示演講人片段和所登記的演講人信息之間的接近程度,它可以在索引建立階段進行計算。Lambda是在對演講人進行標識的過程中一個用于記錄可信度的變量,它是一個介于0和1之間的值。通常,交迭因子用來補償完全沒有交迭的片段,是一個介于0和1之間的值。根據本專利技術該組合分值可以用來對返回給用戶的所標識的文檔進行分級排序,將最匹配的片段放在列表的頭部。通過下面所參照的詳細描述和附圖,可以更完整地理解本專利技術以及本專利技術進一步的特征和優點。附圖說明圖1是根據本專利技術的一個音頻檢索系統的方框圖;圖2A是圖1內容索引文件中文檔數據庫的一張表;圖2B是圖1內容索引文件中文檔存儲塊(chunk)索引的一張表;圖2C是圖1內容索引文件中單字組(unigram)文件(詞頻)的一張表;圖2D是圖1內容索引文件中倒排(inverse)文檔索引(IDF)的一張表;圖3是圖1中演講人索引的一張表;圖4根據本專利技術示出了一個有代表性的演講人的登記過程;圖5是一張流程圖,描述了圖1中音頻檢索系統所執行的一個示例性的索引建立系統過程;及圖6是一張流程圖,描述了圖1中音頻檢索系統所執行的一個示例性的內容和演講人音頻檢索系統過程。在圖1中示出了根據本專利技術的一個音頻檢索系統100。如下面所進一步討論的,該音頻檢索系統100結合了兩種根據音頻內容以及演講人標識來搜索音頻資料以提供對音頻信息(及間接對視頻)引用的不同方法。特別地,用戶指定的基于內容的檢索結果,例如Web搜索引擎的結果,根據本專利技術將同基于演講人的檢索結果結合在一起。本專利技術允許一個查詢搜索系統檢索同包含一個附加約束,也就是給定演講人的標識的文本查詢相對應的信息。這樣,一個用戶查詢包括一個文本串,包含了一或多個關鍵詞,以及給定演講人的標識。本專利技術將用戶定義查詢的約束同一個經索引的音頻及/或視頻數據庫進行比較,并檢索相關的包含給定演講人所說的指定詞的音頻/視頻片段。如圖1所示,本專利技術的音頻檢索系統100包含兩個主要部分,也就是說,一個轉換音頻信息并對其建立索引的音頻檢索系統50本文檔來自技高網...
【技術保護點】
一種從一或多個音頻源檢索音頻信息的方法,所述方法包括步驟:接收用戶查詢,該查詢的約束至少要指定一個內容和一個演講人;并且將所述用戶查詢同所述音頻源的一個內容索引和一個演講人索引進行比較以識別滿足用戶查詢要求的音頻信息。
【技術特征摘要】
...
【專利技術屬性】
技術研發人員:霍梅沃恩薩德莫哈姆德貝基,阿蘭查爾斯路易斯特里特施勒,瑪荷什維斯萬納坦,
申請(專利權)人:國際商業機器公司,
類型:發明
國別省市:US[美國]
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。