System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于翻譯,具體涉及一種翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng)、方法及設(shè)備。
技術(shù)介紹
1、隨著全球化的進(jìn)一步深入,翻譯項(xiàng)目對(duì)提高翻譯效率的需求日益迫切。目前,業(yè)內(nèi)人士運(yùn)用各種翻譯技術(shù),如計(jì)算機(jī)輔助翻譯(computer-assisted?translation,cat)、機(jī)器翻譯(machine?translation,mt)、術(shù)語(yǔ)管理、語(yǔ)料庫(kù)和語(yǔ)料庫(kù)查詢工具、云翻譯協(xié)作平臺(tái)等技術(shù),以提升大型翻譯項(xiàng)目中的翻譯質(zhì)量和效率。但隨著網(wǎng)絡(luò)上雙語(yǔ)信息的快速增長(zhǎng)及翻譯項(xiàng)目規(guī)模的不斷增大,對(duì)術(shù)語(yǔ)與語(yǔ)料數(shù)據(jù)管理提出了更高的要求。
2、目前許多技術(shù)可以自動(dòng)提取術(shù)語(yǔ),如采用基于規(guī)則的方法,基于構(gòu)詞特點(diǎn)、句法特點(diǎn)以及領(lǐng)域特點(diǎn)自動(dòng)提取術(shù)語(yǔ),從語(yǔ)料中抽取匹配模板的詞語(yǔ)。基于數(shù)理統(tǒng)計(jì)的方法主要為統(tǒng)計(jì)量計(jì)算和機(jī)器學(xué)習(xí)方法。基于統(tǒng)計(jì)量的方法通過(guò)計(jì)算詞頻、互信息、tf-idf等統(tǒng)計(jì)量來(lái)提取術(shù)語(yǔ),具有通用性。基于機(jī)器學(xué)習(xí)的方法主要是利用已標(biāo)注的大規(guī)模語(yǔ)料訓(xùn)練模型,通過(guò)模型預(yù)測(cè)未標(biāo)注的語(yǔ)料,將術(shù)語(yǔ)抽取問(wèn)題轉(zhuǎn)為序列標(biāo)注問(wèn)題或分類問(wèn)題。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,支持向量機(jī)(svm)、深度學(xué)習(xí)等方法開(kāi)始用于訓(xùn)練模型并進(jìn)行術(shù)語(yǔ)識(shí)別。除此之外,還可以融合上述多種方法提取術(shù)語(yǔ)。除了自動(dòng)提取術(shù)語(yǔ)外,還可以直接從雙語(yǔ)術(shù)語(yǔ)庫(kù)中獲取雙語(yǔ)術(shù)語(yǔ)對(duì)。
3、術(shù)語(yǔ)管理方面,主要使用術(shù)語(yǔ)管理軟件如sdl?multiterm來(lái)創(chuàng)建和管理術(shù)語(yǔ)庫(kù)。這類軟件的主要功能包括術(shù)語(yǔ)錄入、編輯、驗(yàn)證、檢索、分類、標(biāo)準(zhǔn)化、共享和協(xié)作,幫助用戶確保術(shù)語(yǔ)的準(zhǔn)確性和一致性,并支持多語(yǔ)言術(shù)語(yǔ)管理
4、而雙語(yǔ)語(yǔ)料的提取主要有兩種方法。第一種方法直接獲取雙語(yǔ)文本并對(duì)齊。使用平行語(yǔ)料庫(kù)收集工具,如網(wǎng)絡(luò)爬蟲(chóng)工具從雙語(yǔ)網(wǎng)站上爬取文章或者使用api收集雙語(yǔ)文本對(duì)并對(duì)齊,或是直接從平行語(yǔ)料庫(kù)網(wǎng)站如opus(open?parallel?corpus)、tatoeba、europarl、un?corpora、linguistic?data?consortium(ldc)、gigaword和多語(yǔ)種數(shù)據(jù)庫(kù)中的語(yǔ)料庫(kù)等免費(fèi)或付費(fèi)下載雙語(yǔ)語(yǔ)料。
5、第二種方法是將單語(yǔ)文本翻譯為雙語(yǔ)文本。可以采用自動(dòng)翻譯工具如googletranslate?api、microsoft?translator?api等將單語(yǔ)文本自動(dòng)翻譯成另一種語(yǔ)言,并通過(guò)譯后編輯形成雙語(yǔ)文本。一些工具如sdl?trados?studio、memoq、omegat中翻譯記憶中的雙語(yǔ)句對(duì)也可以用于形成雙語(yǔ)語(yǔ)料庫(kù)。
6、目前,術(shù)語(yǔ)和語(yǔ)料管理流程仍存在以下問(wèn)題:通常將術(shù)語(yǔ)和語(yǔ)料分別進(jìn)行存儲(chǔ),未實(shí)現(xiàn)術(shù)語(yǔ)與語(yǔ)料的統(tǒng)一管理;無(wú)法根據(jù)原文本中識(shí)別的某一領(lǐng)域的術(shù)語(yǔ)不斷擴(kuò)充相關(guān)語(yǔ)料,并實(shí)時(shí)更新術(shù)語(yǔ)庫(kù);未結(jié)合網(wǎng)絡(luò)爬蟲(chóng)技術(shù)、gpt模型等多種新興技術(shù),實(shí)現(xiàn)術(shù)語(yǔ)語(yǔ)料雙語(yǔ)數(shù)據(jù)管理。因此現(xiàn)有管理系統(tǒng)已不能滿足大型翻譯項(xiàng)目的翻譯效率需求。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中無(wú)法根據(jù)原文本中識(shí)別的某一領(lǐng)域的術(shù)語(yǔ)不斷擴(kuò)充相關(guān)語(yǔ)料,及術(shù)語(yǔ)與語(yǔ)料的管理不夠合理,從而導(dǎo)致翻譯結(jié)果不夠準(zhǔn)確,翻譯效率較低的問(wèn)題,本專利技術(shù)提供了一種翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng)、方法及設(shè)備。
2、為了實(shí)現(xiàn)上述目的,本專利技術(shù)提供如下技術(shù)方案:
3、一種翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng),包括:
4、術(shù)語(yǔ)識(shí)別整理模塊,用于提取待翻譯的原文本中的術(shù)語(yǔ),并篩選整理出第一高頻術(shù)語(yǔ),所述第一高頻術(shù)語(yǔ)包括在原文本中出現(xiàn)頻率超過(guò)設(shè)定閾值的術(shù)語(yǔ);
5、語(yǔ)料提取整理模塊,用于根據(jù)所述第一高頻術(shù)語(yǔ),在相關(guān)網(wǎng)站上使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取與所述第一高頻術(shù)語(yǔ)的語(yǔ)言種類相同的單語(yǔ)語(yǔ)料數(shù)據(jù),將單語(yǔ)語(yǔ)料作為原文本,輸入術(shù)語(yǔ)識(shí)別整理模塊獲取第二高頻術(shù)語(yǔ),所述第二高頻術(shù)語(yǔ)包括在單語(yǔ)語(yǔ)料中出現(xiàn)頻率超過(guò)設(shè)定閾值的術(shù)語(yǔ);
6、術(shù)語(yǔ)語(yǔ)料翻譯模塊,用于將所述第一高頻術(shù)語(yǔ)、第二高頻術(shù)語(yǔ)和對(duì)應(yīng)的單語(yǔ)語(yǔ)料合并為一個(gè)單語(yǔ)文件,將所述單語(yǔ)文件進(jìn)行翻譯后,得到用戶所需的雙語(yǔ)文件,所述雙語(yǔ)文件包括雙語(yǔ)術(shù)語(yǔ)對(duì)和雙語(yǔ)語(yǔ)料對(duì);
7、數(shù)據(jù)庫(kù)創(chuàng)建維護(hù)模塊,用于創(chuàng)建關(guān)于雙語(yǔ)術(shù)語(yǔ)對(duì)和雙語(yǔ)語(yǔ)料對(duì)的雙語(yǔ)數(shù)據(jù)庫(kù),在相關(guān)數(shù)據(jù)庫(kù)中采用雙語(yǔ)對(duì)照的結(jié)構(gòu)存儲(chǔ)雙語(yǔ)文件中的雙語(yǔ)術(shù)語(yǔ)對(duì)和雙語(yǔ)語(yǔ)料對(duì),并進(jìn)行維護(hù)與分享。
8、進(jìn)一步地,還包括情景輔助模塊,用于在雙語(yǔ)數(shù)據(jù)庫(kù)的管理過(guò)程中通過(guò)gpt模型提供相關(guān)術(shù)語(yǔ)的專業(yè)背景知識(shí)作為參考信息,或給出翻譯建議,或輔助解決相關(guān)數(shù)據(jù)庫(kù)創(chuàng)建和維護(hù)的技術(shù)問(wèn)題。
9、進(jìn)一步地,在所述術(shù)語(yǔ)識(shí)別整理模塊,使用情景輔助模塊獲取專業(yè)背景信息;在所述術(shù)語(yǔ)語(yǔ)料翻譯模塊,使用情景輔助模塊獲取專業(yè)背景知識(shí)和翻譯建議;在術(shù)語(yǔ)庫(kù)創(chuàng)建維護(hù)模塊,使用情景輔助模塊獲取相關(guān)數(shù)據(jù)庫(kù)創(chuàng)建和維護(hù)過(guò)程中技術(shù)問(wèn)題的解決方案。
10、進(jìn)一步地,所述提取待翻譯的原文本中的術(shù)語(yǔ),并篩選整理出第一高頻術(shù)語(yǔ)的步驟包括:
11、根據(jù)待翻譯的原文本,使用自然語(yǔ)言處理技術(shù)自動(dòng)提取原文本中的術(shù)語(yǔ),得到術(shù)語(yǔ)的自動(dòng)識(shí)別結(jié)果;
12、通過(guò)關(guān)鍵字上下文檢索系統(tǒng)查看所述術(shù)語(yǔ)的自動(dòng)識(shí)別結(jié)果的上下文,處理自動(dòng)識(shí)別結(jié)果中重復(fù)、部分重疊、不完整的識(shí)別結(jié)果;
13、通過(guò)排序篩選出術(shù)語(yǔ)出現(xiàn)頻率超過(guò)設(shè)定閾值的的術(shù)語(yǔ),得到基于原文本的第一高頻術(shù)語(yǔ)。
14、進(jìn)一步地,所述根據(jù)所述第一高頻術(shù)語(yǔ),在相關(guān)網(wǎng)站上使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取與所述高頻術(shù)語(yǔ)的語(yǔ)言種類相同的單語(yǔ)語(yǔ)料數(shù)據(jù)的步驟包括:
15、獲取相關(guān)領(lǐng)域的權(quán)威網(wǎng)站;
16、在所述權(quán)威網(wǎng)站上,輸入術(shù)語(yǔ)識(shí)別整理模塊中提取的第一高頻術(shù)語(yǔ),使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取與第一高頻術(shù)語(yǔ)有關(guān)的最新單語(yǔ)語(yǔ)料數(shù)據(jù)并保存。
17、進(jìn)一步地,所述將所述第一高頻術(shù)語(yǔ)、第二高頻術(shù)語(yǔ)和對(duì)應(yīng)的單語(yǔ)語(yǔ)料合并為一個(gè)單語(yǔ)文件,將所述單語(yǔ)文件進(jìn)行翻譯后,得到用戶所需的雙語(yǔ)文件的步驟包括:
18、將所述第一高頻術(shù)語(yǔ)、第二高頻術(shù)語(yǔ)和單語(yǔ)語(yǔ)料合并為一個(gè)單語(yǔ)文件;
19、將合并的單語(yǔ)文件通過(guò)機(jī)器翻譯引擎預(yù)翻譯為雙語(yǔ)文件;
20、借助所述情景輔助模塊中的gpt模型輔助譯者進(jìn)行雙語(yǔ)文件的譯后編輯和譯文質(zhì)量檢測(cè)。
21、進(jìn)一步地,所述創(chuàng)建關(guān)于雙語(yǔ)術(shù)語(yǔ)對(duì)和雙語(yǔ)語(yǔ)料對(duì)的雙語(yǔ)數(shù)據(jù)庫(kù),在相關(guān)數(shù)據(jù)庫(kù)中采用雙語(yǔ)對(duì)照的結(jié)構(gòu)存儲(chǔ)雙語(yǔ)文件中的雙語(yǔ)術(shù)語(yǔ)對(duì)和雙語(yǔ)語(yǔ)料對(duì),并進(jìn)行維護(hù)與分享的步驟包括:
22、在my?sql數(shù)據(jù)庫(kù)中采用雙語(yǔ)對(duì)照的結(jié)構(gòu)存儲(chǔ)雙語(yǔ)術(shù)語(yǔ)對(duì)、雙語(yǔ)語(yǔ)料對(duì),創(chuàng)建雙語(yǔ)術(shù)語(yǔ)及雙語(yǔ)語(yǔ)料數(shù)據(jù)庫(kù);
23、在my?sql數(shù)據(jù)庫(kù)中的術(shù)語(yǔ)和翻譯字段上創(chuàng)建索引;
24、定期更新并分享存儲(chǔ)雙語(yǔ)術(shù)語(yǔ)及雙語(yǔ)語(yǔ)料的雙語(yǔ)數(shù)據(jù)庫(kù)。
25、一種翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理方法,包括:
26、提取待翻譯的原文本中的術(shù)語(yǔ),并篩選整理出第一高頻術(shù)語(yǔ),所述第一高頻術(shù)語(yǔ)包括在原文本中出現(xiàn)本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng),其特征在于,還包括情景輔助模塊,用于在雙語(yǔ)數(shù)據(jù)庫(kù)的管理過(guò)程中通過(guò)GPT模型提供相關(guān)術(shù)語(yǔ)的專業(yè)背景知識(shí)作為參考信息,或給出翻譯建議,或輔助解決相關(guān)數(shù)據(jù)庫(kù)創(chuàng)建和維護(hù)的技術(shù)問(wèn)題。
3.根據(jù)權(quán)利要求2所述的翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng),其特征在于,在所述術(shù)語(yǔ)識(shí)別整理模塊,使用情景輔助模塊獲取專業(yè)背景信息;在所述術(shù)語(yǔ)語(yǔ)料翻譯模塊,使用情景輔助模塊獲取專業(yè)背景知識(shí)和翻譯建議;在術(shù)語(yǔ)庫(kù)創(chuàng)建維護(hù)模塊,使用情景輔助模塊獲取相關(guān)數(shù)據(jù)庫(kù)創(chuàng)建和維護(hù)過(guò)程中技術(shù)問(wèn)題的解決方案。
4.根據(jù)權(quán)利要求1所述的翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng),其特征在于,所述提取待翻譯的原文本中的術(shù)語(yǔ),并篩選整理出第一高頻術(shù)語(yǔ)的步驟包括:
5.根據(jù)權(quán)利要求1所述的翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng),其特征在于,所述根據(jù)所述第一高頻術(shù)語(yǔ),在相關(guān)網(wǎng)站上使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取與所述高頻術(shù)語(yǔ)的語(yǔ)言種類相同的單語(yǔ)語(yǔ)料數(shù)據(jù)的步驟包括:
6.根據(jù)權(quán)利要求2所
7.根據(jù)權(quán)利要求1所述的翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng),其特征在于,所述創(chuàng)建關(guān)于雙語(yǔ)術(shù)語(yǔ)對(duì)和雙語(yǔ)語(yǔ)料對(duì)的雙語(yǔ)數(shù)據(jù)庫(kù),在相關(guān)數(shù)據(jù)庫(kù)中采用雙語(yǔ)對(duì)照的結(jié)構(gòu)存儲(chǔ)雙語(yǔ)文件中的雙語(yǔ)術(shù)語(yǔ)對(duì)和雙語(yǔ)語(yǔ)料對(duì),并進(jìn)行維護(hù)與分享的步驟包括:
8.一種翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理方法,其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,其特征在于,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)執(zhí)行指令和數(shù)據(jù),所述處理器讀取并執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)執(zhí)行指令和數(shù)據(jù),并將結(jié)果寫回存儲(chǔ)器,以實(shí)現(xiàn)如權(quán)利要求8所述的一種翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理方法。
...【技術(shù)特征摘要】
1.一種翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng),其特征在于,還包括情景輔助模塊,用于在雙語(yǔ)數(shù)據(jù)庫(kù)的管理過(guò)程中通過(guò)gpt模型提供相關(guān)術(shù)語(yǔ)的專業(yè)背景知識(shí)作為參考信息,或給出翻譯建議,或輔助解決相關(guān)數(shù)據(jù)庫(kù)創(chuàng)建和維護(hù)的技術(shù)問(wèn)題。
3.根據(jù)權(quán)利要求2所述的翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng),其特征在于,在所述術(shù)語(yǔ)識(shí)別整理模塊,使用情景輔助模塊獲取專業(yè)背景信息;在所述術(shù)語(yǔ)語(yǔ)料翻譯模塊,使用情景輔助模塊獲取專業(yè)背景知識(shí)和翻譯建議;在術(shù)語(yǔ)庫(kù)創(chuàng)建維護(hù)模塊,使用情景輔助模塊獲取相關(guān)數(shù)據(jù)庫(kù)創(chuàng)建和維護(hù)過(guò)程中技術(shù)問(wèn)題的解決方案。
4.根據(jù)權(quán)利要求1所述的翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng),其特征在于,所述提取待翻譯的原文本中的術(shù)語(yǔ),并篩選整理出第一高頻術(shù)語(yǔ)的步驟包括:
5.根據(jù)權(quán)利要求1所述的翻譯項(xiàng)目中術(shù)語(yǔ)和語(yǔ)料的數(shù)據(jù)管理系統(tǒng),其特征在于,所述根據(jù)所述第一高頻...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:龍昱瓊,周小玲,蔣莉華,陳喜華,
申請(qǐng)(專利權(quán))人:華南師范大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。