使用基于社區的問題回答(CQA)數據來生成常問問題(FAQ)數據。題目層次生成模塊接收多個數據源并且生成數據源的題目層次,其中數據源具有一個或多個主題,而主題具有一個或多個題目。特征分類器基于題目層次將多個CQA數據分類成一個或多個題目,其中CQA數據包含多個問題回答對。選擇模塊基于分類從CQA數據中選擇多個問題回答對,測量所選擇的問題回答對的質量,并且使用所選擇的CQA數據的問題回答對來生成FAQ數據。
【技術實現步驟摘要】
【國外來華專利技術】根據基于社區的問題回答檔案庫的自動常問問題匯編相關申請的交叉引用本申請要求于2010年4月6日提交的、名稱為“Automatic Frequently AskedQuestion Compilation from Community-based Question Answering Achieve,,的美國臨時申請第61/321,133號的權益,其全部內容通過引用結合于此。
技術介紹
本專利技術一般地涉及來自社區生成的問題回答對的數據或者其它非結構化的存檔數據的常問問題(FAQ)列表的生成。基于社區的問題回答(CQA)數據和常問問題(FAQ)數據的相似之處在于兩者均使用成對的問題與回答來提供信息。然而,在提供CQA數據的服務累積用戶生成的問題回答對的同時,FAQ數據通常以顯著的成本由專家關于一個或多個主題手工進行匯編。因此,FAQ數據通常是簡練的、全面的、良好劃分的,并且以正式的合乎文法的語言書寫,然而,CQA數據在語言和內容兩方面具有參差不齊的質量,并且由于大量的提供數據的參與者而通常具有松散的結構并且被粗糙地劃分。通過要求FAQ數據領域的一個或多個專家監視FAQ主題的發展和FAQ主題用戶行為的變化,FAQ數據的維護引入了額外的復雜性。因此,常規的FAQ數據通常是欠維護的并且很快變得過時。雖然CQA數據更能被維護,但是甚至在最特定層級的CQA數據中都會有的大量的問題回答對導致了信息超載。另外,用于生成CQA數據的內容的質量從極好到不 切題急劇變化。進一步,CQA數據的常規種類結構通常沒有特定得足以包括便于用戶訪問的特定關系。
技術實現思路
本專利技術的實施例涉及用于對與主題相關聯的基于社區的問題回答(CQA)數據進行分層次地分類和總結以呈現出與該主題相關聯的簡練的且分層次地組織的常問問題(FAQ)數據的方法和系統。在一個實施例中,通過從與特定主題相關聯的一個或多個源中以及與特定主題相關聯的結構化數據中檢索數據來生成針對該特定主題的題目層次。例如,與特定主題相關聯的數據從與該特定主題相關聯的網站或手冊中檢索,并且被用來生成與該主題相關聯的題目層次。使用來自題目層次的數據,從一個或多個CQA源中檢索CQA數據并將其用于訓練分類器。在一個實施例中,使用來自一個或多個CQA源的數據來訓練分類器如類別特征質心(CFC)分類器。在訓練之后,分類器根據題目層次將CQA數據組織成一個或多個題目。題目之內的CQA數據中包括的問題回答對被簇集,并且基于相關性得分和質量得分將題目的簇內的問題回答對的子集與該題目進行關聯并進行存儲。因此,所存儲的與題目相關聯的數據包括一個或多個如下問題回答對所述問題回答對具有至少閾值數目的與先前識別的高質量問題回答對相關聯的特征,并且還具有與包括該問題回答對的簇的質心相距比較小的距離。與簇的質心相距小的距離表示問題回答對高度相關于與簇相關聯的題目。附圖說明圖I是根據本專利技術的實施例的用于使用基于社區的問題回答(CQA)數據來生成常問問題(FAQ )數據的系統環境的高級框圖。圖2是根據本專利技術的實施例的計算裝置的框圖。圖3是根據本專利技術的實施例的FAQ生成器的框圖。圖4是根據本專利技術的實施例的用于使用CQA數據來生成FAQ數據的過程的流程圖。圖5是根據本專利技術的實施例的用于基于CQA數據的分類來選擇CQA數據以用于生·成FAQ數據的過程的流程圖。具體實施例方式FAQ牛成平臺體系結構本專利技術的實施例可以使用多種體系結構(例如圖I中示出的示例性體系結構)來實現。在這個實施例中,常問問題(FAQ)生成器130從一個或多個數據源110AU10B以及一個或多個社區問題回答(CQA)源115AU15B中檢索數據,并且根據所檢索的數據來生成FAQ數據。在圖I示出的實施例中,FAQ生成器130、數據源IlOA和IlOB以及CQA源115A和115B耦合到網絡120。雖然圖I描繪了兩個數據源110AU10B和兩個CQA源115A、115B,但是在其它實施例中可以使用更多數目或更少數目的數據源110和CQA源115。一個或多個數據源110AU10B包括計算裝置或存儲裝置,所述計算裝置或存儲裝置包括與一個或多個特定主題相關聯的數據。如在此使用的那樣,“主題(topic)”指的是頂層級或總名稱,而“題目(theme)”指的是“主題”內的種類。在層次上,主題是層次的頂層級,而“題目”是主題內的種類或類別。例如,主題可以是產品名稱,而與主題相關聯的題目可以是產品的不同特征。數據源110AU10B包括與主題相關聯的數據。數據源110A、110B的例子包括特定于產品的網站、產品手冊或者特定于其它領域的網頁或網站。另外,數據源110A、IIOB包括其它信息源如在線百科全書。一個或多個CQA源115AU15B包括計算裝置或存儲裝置,所述計算裝置或存儲裝置包括與一個或多個特定主題和/或主題內的一個或多個題目相關聯的CAQ數據。在一個實施例中,CQA數據包括被構造成使得一個或多個答案與問題相關聯的用戶生成的問題回答對。CQA源115可以將存儲的問題回答對與主題、題目或其它種類相關聯,以便于隨后的數據檢索。可以包括使用無線通信系統的局域網和/或廣域網的任意組合的網絡120在一個或多個數據源110A、110B、一個或多個CQA源115A、115B和/或FAQ生成器130之間傳送數據。在實施例中,網絡120是因特網,并且使用無線通信系統與有線通信系統的組合來傳送數據。FAQ生成器130包括經由網絡120來與一個或多個數據源110A、IlOB和/或一個或多個CQA源115AU15B進行通信的一個或多個計算裝置。在圖3示出的實施例中,FAQ生成器130包括題目層次生成模塊310、特征分類器320以及選擇模塊330。如上面結合數據源110AU10B所描述的那樣,題目層次生成模塊310被配置成基于與從一個或多個數據源110A、110B中檢索的主題相關聯的數據的結構或層次來生成識別主題內的題目的題目層次。特征分類器320被配置成使用題目層次、采用基于質心的分類器從一個或多個CQA源115AU15B中生成類別特征質心。選擇模塊330被配置成選擇一個或多個所分類的CQA數據以生成FAQ數據。數據源110AU10B包括與主題相關聯的數據。在一個實施例中,題目層次生成模塊310使用數據源110內的數據的結構或層次來生成識別主題內的題目以及題目彼此之間的關系的題目層次。例如,在線百科全書的關于主題的數據的分層大綱和/或特定于主題的網站的結構由FAQ生成器130識別,并且被用來生成主題內的題目的結構化對象模型。使用與主題相關聯的在線百科全書數據的結構或特定于主題的網站的版塊(section)的結構,將結構化對象模型進一步提煉成題目層次。FAQ生成器130的特征分類器320基于主題和題目的題目層次將CQA數據分類。在一個實施例中,特征分類器320是修改的類別特征質心(mCFC)分類器,以使用來自題目層次的題目對所接收的CQA數據進行分類。例如,mCFC分類器對具有至少兩個子題目的非 葉題目進行分類,所述至少兩個子題目可以是直接子題目或者子題目的后代。根據常見質心分類器來采用mCFC分類器的基本框架,在所述常見質心分類器中,原型或“質心”用作針對題目的代表(delegate)。本文檔來自技高網...
【技術保護點】
【技術特征摘要】
【國外來華專利技術】...
【專利技術屬性】
技術研發人員:蔡達成,明朝燕,
申請(專利權)人:新加坡國立大學,
類型:
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。