The invention discloses an information mining method and device, the method includes translation for each keyword to be translated and the corresponding object contains keywords, translation from various keywords corresponding to identify at least one of the guide words, the translation guide word translation for the translation in the guiding role of the various keywords corresponding to bigger, will be translated and the guide words as the basis of search, the information retrieval object to be translated; obtain high reference value from the search results in at least one of the search items and return. Therefore, the invention is obtained through the object to be translated corresponding to the larger boot citation guide words, combined with guided retrieval reference information to be translated using translation and translation guide words to translate object object, and through the acquisition and at least one retrieval entry return reference value is high from the search results, effectively enhance the the efficiency and effectiveness of assisted translation search based on network.
【技術實現(xiàn)步驟摘要】
一種信息挖掘方法及裝置
本專利技術屬于數(shù)據(jù)挖掘
,尤其涉及一種信息挖掘方法及裝置。
技術介紹
翻譯人員的翻譯能力不僅取決于其雙語水平,還取決于其對翻譯工具和翻譯資源的掌握能力。隨著互聯(lián)網(wǎng)技術的發(fā)展,互聯(lián)網(wǎng)中蘊含了越來越豐富的能夠輔助翻譯的網(wǎng)絡資源,翻譯人員在遇到疑難詞匯或短語時也越來越傾向于借助互聯(lián)網(wǎng)來實現(xiàn)輔助翻譯。目前,基于互聯(lián)網(wǎng)實現(xiàn)輔助翻譯的手段主要有三種:1)借助網(wǎng)絡詞典,2)借助網(wǎng)絡自動翻譯機器,3)借助網(wǎng)絡搜索引擎從網(wǎng)絡搜索翻譯參考信息。對于網(wǎng)絡詞典而言,如在線翻譯詞典等,由于其尚未提供足夠的語境翻譯信息,易導致翻譯人員在面對同一詞匯/短語的多個翻譯譯項(如計算機對應computer、calculatingmachine等多個譯項)時,往往無法決策;而網(wǎng)絡自動翻譯機器,如Google在線翻譯等,因受機器翻譯技術發(fā)展水平的限制,翻譯質量常不盡如人意,距離實用化還有很大差距;借助網(wǎng)絡搜索引擎,可以對互聯(lián)網(wǎng)上的多語言官方網(wǎng)站、翻譯論壇、翻譯社區(qū)等蘊含的大量雙語信息進行檢索應用,這些信息具有動態(tài)性,并包含了大量的雙語語境信息,能夠較好地輔助翻譯人員進行翻譯。為了提高對互聯(lián)網(wǎng)上的翻譯參考信息進行檢索時的檢索效率及效果,得到參考價值較高的翻譯參考信息,進而實現(xiàn)更好地輔助翻譯,如何高效、準確地獲取互聯(lián)網(wǎng)中蘊含的與當前翻譯需求關聯(lián)較緊密的翻譯參考信息變得十分重要。
技術實現(xiàn)思路
有鑒于此,本專利技術的目的在于提供一種信息挖掘方法及裝置,以實現(xiàn)高效、準確地獲取互聯(lián)網(wǎng)中蘊含的與當前翻譯需求關聯(lián)較緊密的翻譯參考信息,進而提升基于網(wǎng)絡搜索的輔助翻譯效率及效果。為此,本 ...
【技術保護點】
一種信息挖掘方法,其特征在于,包括:獲得待譯對象包含的各個關鍵詞,及各個關鍵詞在目標語言中對應的翻譯譯項;從各個關鍵詞對應的翻譯譯項中確定出至少一個譯文引導詞,所述譯文引導詞為各個關鍵詞對應的翻譯譯項中所起的引導作用較大的翻譯譯項;其中,翻譯譯項所起的引導作用為:在將待譯對象及翻譯譯項作為檢索依據(jù),來利用翻譯譯項對待譯對象進行引導式檢索時,翻譯譯項對檢索出所述待譯對象對應的翻譯參考信息所起到的引導作用;將所述待譯對象及所述譯文引導詞作為檢索依據(jù),檢索所述待譯對象對應的翻譯參考信息,得到檢索結果;基于預定的參考價值評價方式,從所述檢索結果包含的各檢索條目中獲得參考價值較高的至少一個檢索條目,并返回所述至少一個檢索條目。
【技術特征摘要】
1.一種信息挖掘方法,其特征在于,包括:獲得待譯對象包含的各個關鍵詞,及各個關鍵詞在目標語言中對應的翻譯譯項;從各個關鍵詞對應的翻譯譯項中確定出至少一個譯文引導詞,所述譯文引導詞為各個關鍵詞對應的翻譯譯項中所起的引導作用較大的翻譯譯項;其中,翻譯譯項所起的引導作用為:在將待譯對象及翻譯譯項作為檢索依據(jù),來利用翻譯譯項對待譯對象進行引導式檢索時,翻譯譯項對檢索出所述待譯對象對應的翻譯參考信息所起到的引導作用;將所述待譯對象及所述譯文引導詞作為檢索依據(jù),檢索所述待譯對象對應的翻譯參考信息,得到檢索結果;基于預定的參考價值評價方式,從所述檢索結果包含的各檢索條目中獲得參考價值較高的至少一個檢索條目,并返回所述至少一個檢索條目。2.根據(jù)權利要求1所述的方法,其特征在于,所述從各個關鍵詞對應的翻譯譯項中確定出至少一個譯文引導詞包括:對各個關鍵詞的翻譯譯項按照各翻譯譯項所起的引導作用的大小進行排序處理,得到一譯項序列;從所述譯項序列的相應端獲得引導作用較大的至少一個翻譯譯項作為譯文引導詞。3.根據(jù)權利要求2所述的方法,其特征在于,所述對各個關鍵詞的翻譯譯項按照各翻譯譯項所起的引導作用的大小進行排序處理,包括:依據(jù)各個關鍵詞所對應的翻譯譯項的數(shù)量,對不同關鍵詞的翻譯譯項進行排序;其中,同一關鍵詞的各個翻譯譯項作為一個整體參與排序,關鍵詞對應的翻譯譯項的數(shù)量與關鍵詞翻譯譯項所起引導作用的大小呈反向關系;當存在所對應的翻譯譯項數(shù)量相同的不同關鍵詞時,按所述不同關鍵詞分別在所述待譯對象中的重要度,對所述不同關鍵詞的翻譯譯項進行排序;其中,關鍵詞在待譯對象中的重要度與關鍵詞翻譯譯項所起的引導作用的大小呈正向關系;依據(jù)采用同一關鍵詞的每個翻譯譯項對待譯對象進行引導式檢索時搜索引擎返回的檢索條目的個數(shù),對同一關鍵詞的各個翻譯譯項進行排序;翻譯譯項對應的檢索條目的個數(shù)與翻譯譯項所起的引導作用的大小呈正向關系。4.根據(jù)權利要求1所述的方法,其特征在于,所述將所述待譯對象及所述譯文引導詞作為檢索依據(jù),檢索所述待譯對象對應的翻譯參考信息,得到檢索結果,包括:將所述待譯對象及所述譯文引導詞作為檢索依據(jù)在多個預定的搜索引擎中進行檢索,得到多個搜索引擎的檢索結果。5.根據(jù)權利要求4所述的方法,其特征在于,基于預定的參考價值評價方式,從所述檢索結果包含的各檢索條目中獲得參考價值較高的至少一個檢索條目,包括:對所述多個搜索引擎的檢索結果進行噪音濾除處理,并對濾除噪音后所得的多個搜索引擎的檢索結果中相同的檢索條目進行合并處理;依據(jù)待譯對象及譯文引導詞在所述合并處理后所得的各檢索條目中的出現(xiàn)位置、距離、信息來源,及所述各檢索條目在每個搜索引擎返回檢索結果中的默認排序中的任意一種或多種,計算合并后所得的各檢索條目與所述待譯對象的相關度數(shù)值;基于相關度數(shù)值,對合并后所得的各個檢索條目進行排序;從排序后所...
【專利技術屬性】
技術研發(fā)人員:王偉,
申請(專利權)人:東軟集團股份有限公司,
類型:發(fā)明
國別省市:遼寧,21
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。