【技術實現步驟摘要】
本專利技術涉及網絡
,尤其涉及一種獲取文字提示文件的方法及裝置。
技術介紹
隨著網絡技術的發展,網絡提供的多媒體資源越來越豐富,例如,大量的音頻文件和視頻文件。當然,為了充分體現多媒體文件的語音內容,網絡中流傳的多媒體文件通常會附帶與其語音內容對應的文字提示文件,例如,音頻文件往往會附帶歌詞文件。一般地,這些文字提示文件是由用戶上傳的。然而,由于這些文字提示文件是用戶自己制作的,所以該文件中包括的提示信息通常會出現錯誤,例如,歌詞文件中包括了用戶的祝福語、廣告語或者廣告鏈接。由于用戶上傳的文字提示文件中包括的提示信息通常會出現錯誤,會導致文字提示文件的準確性差,因此亟需一種準確獲取文字提示文件的方法。
技術實現思路
為了解決現有技術的問題,本專利技術實施例提供了一種獲取文字提示文件的方法及裝置。所述技術方案如下:一方面,提供了一種獲取文字提示文件的方法及裝置方法,所述方法包括:獲取第一文字提示文件和至少一個第二文字提示文件,所述第一文字提示文件和所述第二文字提示文件均對應同一個多媒體文件;對于所述第一文字提示文件中多行提示信息中的每行,如果所述行與任一個第二文字提示文件的至少一行之間的相似度大于第一數值,則將所述第二文字提示文件的至少一行確定為第一目標行,將所述第一目標行所在的第二文字提示文件確定為第一目標文字提示文件;如果所述第一目標文字提示文件的數量與所述至少一個第二文字提示文件的數量的比例大于第二數值,則將與所述行之間相似度最高的第一目標行確定為待合成的行;根據所述第一文字提示文件中多行提示信息對應的待合成的行,合成文字提示文件。本專利技術實施例 ...
【技術保護點】
一種獲取文字提示文件的方法,其特征在于,所述方法包括:獲取第一文字提示文件和至少一個第二文字提示文件,所述第一文字提示文件和所述第二文字提示文件均對應同一個多媒體文件;對于所述第一文字提示文件中多行提示信息中的每行,如果所述行與任一個第二文字提示文件的至少一行之間的相似度大于第一數值,則將所述第二文字提示文件的至少一行確定為第一目標行,將所述第一目標行所在的第二文字提示文件確定為第一目標文字提示文件;如果所述第一目標文字提示文件的數量與所述至少一個第二文字提示文件的數量的比例大于第二數值,則將與所述行之間相似度最高的第一目標行確定為待合成的行;根據所述第一文字提示文件中多行提示信息對應的待合成的行,合成文字提示文件。
【技術特征摘要】
1.一種獲取文字提示文件的方法,其特征在于,所述方法包括:獲取第一文字提示文件和至少一個第二文字提示文件,所述第一文字提示文件和所述第二文字提示文件均對應同一個多媒體文件;對于所述第一文字提示文件中多行提示信息中的每行,如果所述行與任一個第二文字提示文件的至少一行之間的相似度大于第一數值,則將所述第二文字提示文件的至少一行確定為第一目標行,將所述第一目標行所在的第二文字提示文件確定為第一目標文字提示文件;如果所述第一目標文字提示文件的數量與所述至少一個第二文字提示文件的數量的比例大于第二數值,則將與所述行之間相似度最高的第一目標行確定為待合成的行;根據所述第一文字提示文件中多行提示信息對應的待合成的行,合成文字提示文件。2.根據權利要求1所述的方法,其特征在于,所述方法還包括:對于所述第一文字提示文件中多行提示信息中的每行、以及所述至少一個第二文字提示文件中的每個第二文字提示文件,比較所述第一文字提示文件的所述行與所述第二文字提示文件的至少一行所包括的字符數;當所述第一文字提示文件的所述行所包括的字符數不小于所述第二文字提示文件的至少一行所包括的字符數,則將所述行所包括的字符數確定為目標字符數;或,當所述第一文字提示文件的所述行所包括的字符數小于所述第二文字提示文件的至少一行所包括的字符數,則將所述第二文字提示文件的至少一行所包括的字符數確定為目標字符數;確定所述第一文字提示文件的所述行和所述第二文字提示文件的至少一行中的相同字符數;將所述相同字符數與所述目標字符數的比值,獲取為所述行與所述第二文字提示文件的至少一行之間的相似度。3.根據權利要求1所述的方法,其特征在于,所述獲取第一文字提示文件和至少一個第二文字提示文件包括:獲取多個版本的文字提示文件,所述多個版本的文字提示文件均對應所述同一個多媒體文件;確定所述多個版本的文字提示文件中,每個文字提示文件所包括的文件字符數、以及多個所述文件字符數中的中位數;在所述多個版本的文件提示文件中,將文件字符數與所述中位數最相近的文字提示文件獲取為所述第一文字提示信息,將除所述第一文字提示文件之外的文字提示文件獲取為所述第二文字提示文件。4.根據權利要求3所述的方法,其特征在于,所述獲取多個版本的文字提示文件包括:獲取待檢測的多個版本的文字提示文件,所述待檢測的多個版本的文字提示文件均對應所述同一多媒體文件;如果檢測到所述待檢測的多個版本的文字提示文件所包括的字符中存在英文字符,則將所述英文字符轉換為預置詞形的英文字符;或,如果檢測到所述待檢測的多個版本的文字提示文件所包括的字符中存在繁體中文字符,則將所述繁體中文字符轉換為簡體中文字符;將字符轉換后的所述待檢測的多個版本的文字提示文件獲取為所述多個版本的文字提示文件。5.根據權利要求1所述的方法,其特征在于,所述方法還包括:對于所述第一文字提示文件中多行提示信息中的每行,如果所述行與任一個第二文字提示文件的至少一行之間的相似度均不大于所述第一數值,或,如果所述第一目標文字提示文件的數量與所述至少一個第二文字提示文件的數量的比例不大于所述第二數值,則將所述行與所述行的下一行合并,且與所述第二文字提示文件的至少一行比較相似度;如果合并后的行與所述第二文字提示文件的至少一行的相似度大于所述第一數值,則將所述第二文字提示文件的至少一行確定為第二目標行,將所述第二目標行所在的第二文字提示文件確定為第二目標文字提示文件;如果所述第二目標文字提示文件的數量與所述至少一個第二文字提示文件的數量的比例大于所述第二數值,則將與所述行之間相似度最高的第二目標行確定為所述待合成的行。6.根據權利要求1所述的方法,其特征在于,對于所述第一文字提示文件中多行提示信息中的每行,所述任一個第二文字提示文件的至少一行是指:所述第二文字提示文件中未進行過相似度計算的第一行、第一行和第一行的上一行或第一行和第一行的下一行;或者,如果確定所述第一文字提示文件的第三數值的行與對應的所述第二文字提示文件的至少一行的相似度均不大于所述第一數值,則所述行的下一行對應的所述第二文字提示文件的至少一行是指:所述第二文字提示文件中未進行過相似度計算的第二行、第二行和第二行的上一行或第二行和第二行的下一行。7.一種...
【專利技術屬性】
技術研發人員:劉勇,莊正中,劉翠,陳傳藝,李祖輝,
申請(專利權)人:廣州酷狗計算機科技有限公司,
類型:發明
國別省市:廣東;44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。