System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于漢盲轉換,尤其涉及一種基于兩部分loss的漢盲自動轉換方法及系統。
技術介紹
1、根據世界衛生組織統計,全球約有2.85億視力障礙人士,其中3900萬人完全失去視力,2.46億人為視力殘余人士。盲文是專門為盲人設計的一種凸點字,是盲人傳遞獲取信息的特殊文字,是視障人士獲取信息,學習知識的重要媒介。
2、現有盲文圖書總量有限、品種單一,無法滿足視障者閱讀需求。盲人總數與人均擁有盲文出版物種類的比例是60000:1,平均約6萬多個盲人擁有1種盲文書,約150個盲人擁有1冊盲文書刊,盲人讀物資源匱乏,內容也較為陳舊,讀書狀況令人擔憂,高效漢盲翻譯方法對于廣大視障人士而言意義重大。
3、漢盲翻譯是指利用計算機將漢語,包括標點符號、英文、數字等信息自動化地轉化為盲文的一種技術。漢盲翻譯技術不僅可以幫助明眼人與盲人更好地交流,還可以幫助盲人更好地學習與生活,而且對盲文推廣等相關工作具有重要的意義。當前漢盲翻譯軟件欠缺、技術落后,無法滿足助殘領域需求。
4、傳統的漢盲翻譯方法大多采用多步翻譯的方法,首先基于盲文分詞連寫規則對漢語進行分詞,然后將分詞后的漢語轉換為對應的拼音,最終將拼音轉換為對應的盲文。該方法需要構建多種語料庫,例如分詞語料庫,漢語拼音語料庫以及拼音到盲文對照語料庫等,語料庫構建困難。此外,多個步驟的轉換,錯誤率疊加,導致總體翻譯正確率低。針對多步翻譯方法的局限性,基于深度學習的端到端的翻譯模型逐漸應用到漢盲翻譯領域,提高了翻譯準確率并簡化了算法。然而現有的端到端的漢盲翻譯方法將
技術實現思路
1、為解決上述技術問題,本專利技術結合了上述兩種翻譯方法的優點,提出了一種基于兩部分loss的端到端漢盲自動轉換方法及系統,將漢盲翻譯任務劃分為兩個子任務,即盲點生成以及盲文分詞任務,使用兩部分loss分別優化盲點生成以及盲文分詞兩個任務。與以往多步翻譯方法不同的是,本專利技術所使用的數據僅為漢盲對照語料庫,而不需要拼音,分詞等語料庫。此外,多步翻譯方法的多個步驟是串行的,而本專利技術的方法是并行的,翻譯時同時生成盲點以及對應的分詞標記。與傳統的端到端漢盲翻譯方法不同的是,本專利技術將漢盲翻譯的兩個子任務解耦,分別使用兩個loss去優化兩個任務,增加了翻譯準確率。
2、首先需要對原始對照數據進行處理,構建以上兩個任務的輸入以及標簽,訓練時分別使用兩個loss優化這兩個子任務,以解決上述現有技術存在的問題。
3、為實現上述目的,本專利技術提供了一種基于兩部分loss的漢盲自動轉換方法,包括:
4、構建漢盲平行語料庫,對所述漢盲平行語料庫進行處理,獲得漢語序列、不帶分詞的盲點序列以及盲點對應的盲文分詞標記序列;
5、對所述漢語序列、所述不帶分詞的盲點序列、所述盲文分詞標記序列進行編碼;
6、構建端到端的機器翻譯模型,基于編碼后的數據對所述機器翻譯模型進行訓練,獲得基于兩部分loss的機器翻譯模型;
7、將待轉換漢語句子輸入基于兩部分loss的機器翻譯模型,獲得預測盲點序列與分詞標記,基于所述分詞標記在預測盲點序列中插入空格,獲得最終盲文序列,完成漢盲自動轉換。
8、可選的,對所述漢盲平行語料庫進行處理的過程包括:
9、構建盲文分詞標記定義,根據空格符號將所述盲文序列分割為若干個片段,根據所述盲文分詞標記定義對若干個片段中的每個盲方進行標記,獲得盲文分詞標記序列;去除所述盲文序列中的全部空格符號,獲得不帶分詞的盲點序列。
10、可選的,編碼的過程包括:
11、分別基于漢語與盲方數據構建字典,獲得漢語字典與盲文字典;根據漢語字典對漢盲平行語料庫中的漢語序列進行編碼獲得漢語序列編碼,根據盲文字典獲得所述盲文序列編碼,根據分詞標記定義給定分詞標記對應的順序編碼,根據對應的順序編碼對盲文分詞標記序列進行編碼,獲得盲文分詞標記序列編碼;其中,漢語字典中每個字符對應一個數字編號,盲文字典中每個盲文ascii碼對應一個數字編號。
12、可選的,基于深度學習構建端到端的機器翻譯模型,所述機器翻譯模型包括但不限于transformer模型與gpt模型。
13、可選的,訓練所述機器翻譯模型的過程包括:將編碼后的漢語序列經過嵌入層學習其嵌入表示后輸入至機器翻譯模型中,對其進行特征提取,每個時間步模型會輸出一個向量,將其分割為兩部分分別預測當前時間步的盲點以及分詞標記,將不帶分詞的盲點序列以及盲點對應的盲文分詞標記序列作為目標序列,結合盲點以及分詞標記的預測結果,使用兩個交叉熵損失函數對機器翻譯模型進行訓練,獲得基于兩部分loss的機器翻譯模型;
14、可選的,基于漢語序列、真實盲點序列構建從左到右的盲點因果條件概率;基于漢語序列與真實盲文分詞標記序列構建從左到右的分詞因果條件概率;基于盲點因果條件概率與分詞因果條件概率分別構建交叉熵損失函數。
15、本專利技術還提供一種基于兩部分loss的漢盲自動轉換系統,包括:
16、構建數據模塊、搭建模型模塊、訓練模型模塊與翻譯模塊;
17、所述構建數據模塊用于構建漢語盲文平行語料庫并進行處理;
18、所述搭建模型模塊用于基于深度學習構建機器翻譯模型;
19、所述訓練模型模塊用于基于處理后的數據對機器翻譯模型進行訓練,在每個時間步預測盲方及其相應的分詞標記,將模型每個時間步的輸出向量分割為兩部分,使用兩個loss分別優化兩個任務;
20、所述翻譯模塊用于通過所述機器翻譯模型對漢語句子進行翻譯,獲得最終盲文序列。
21、與現有技術相比,本專利技術具有如下優點和技術效果:
22、本專利技術將漢盲翻譯任務劃分為兩個子任務,即盲點生成以及盲文分詞任務,使用兩部分loss分別優化盲點生成以及盲文分詞兩個任務。首先需要對原始對照數據進行處理,構建以上兩個任務的輸入以及標簽,訓練時分別使用兩個loss優化這兩個子任務。本專利技術在每個時間步預測一個盲方及其相應的分詞標記,將模型的輸出向量分割為兩部分,每一部分使用一個loss進行優化,分別完成兩個任務,兩部分的預測結果結合得到最終的盲文序列,翻譯準確率得到提高。
本文檔來自技高網...【技術保護點】
1.一種基于兩部分Loss的漢盲自動轉換方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于兩部分Loss的漢盲自動轉換方法,其特征在于,
3.根據權利要求1所述的基于兩部分Loss的漢盲自動轉換方法,其特征在于,
4.根據權利要求1所述的基于兩部分Loss的漢盲自動轉換方法,其特征在于,
5.根據權利要求1所述的基于兩部分Loss的漢盲自動轉換方法,其特征在于,
6.根據權利要求5所述的基于兩部分Loss的漢盲自動轉換方法,其特征在于,
7.一種基于兩部分Loss的漢盲自動轉換系統,其特征在于,包括:
【技術特征摘要】
1.一種基于兩部分loss的漢盲自動轉換方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于兩部分loss的漢盲自動轉換方法,其特征在于,
3.根據權利要求1所述的基于兩部分loss的漢盲自動轉換方法,其特征在于,
4.根據權利要求1所述的基于兩部分...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。