• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    多語混合文本的分句方法和裝置制造方法及圖紙

    技術編號:9642390 閱讀:127 留言:0更新日期:2014-02-07 00:54
    本發明專利技術提出一種多語混合文本的分句方法,其中該方法包括以下步驟:獲取多語混合文本,并獲取多語混合文本的字符編碼;根據字符編碼確定多語混合文本的第一類分割點;以及根據第一類分割點將多語混合文本分割為多個分句。本發明專利技術實施例的多語混合文本的分句方法,根據多語混合文本的字符編碼,確定第一類分割點,并將多語混合文本分割為多個分句,能夠在多語混合文本中由于格式混亂,或者在標點缺失的情況下有效進行句子劃分,提高了分句的準確性。此外,提高了多語語料的召回率,為翻譯系統提供了豐富的語料資源,保證翻譯系統的質量。

    【技術實現步驟摘要】
    【專利摘要】本專利技術提出一種多語混合文本的分句方法,其中該方法包括以下步驟:獲取多語混合文本,并獲取多語混合文本的字符編碼;根據字符編碼確定多語混合文本的第一類分割點;以及根據第一類分割點將多語混合文本分割為多個分句。本專利技術實施例的多語混合文本的分句方法,根據多語混合文本的字符編碼,確定第一類分割點,并將多語混合文本分割為多個分句,能夠在多語混合文本中由于格式混亂,或者在標點缺失的情況下有效進行句子劃分,提高了分句的準確性。此外,提高了多語語料的召回率,為翻譯系統提供了豐富的語料資源,保證翻譯系統的質量。【專利說明】多語混合文本的分句方法和裝置
    本專利技術涉及計算機互聯網
    ,特別涉及一種多語混合文本的分句方法。
    技術介紹
    統計機器翻譯已經逐漸成為一種主流的機器翻譯方法。統計機器翻譯系統主要以句子為翻譯單位,構建統計機器翻譯系統所需要的訓練語料主要是基于雙語句對,例如英語和中文。因此可以看出,雙語語料對統計機器翻譯系統的質量起著重要作用。因此為了構建高質量的統計機器翻譯系統,必須搜集大量的雙語語料。隨著互聯網技術的不斷發展,互聯網上存在著大量的多語(例如雙語)混合文本,為搜集雙語語料提供了便利條件。可以對這些多語混合文本進行分句,以識別出所需要的語言的句子,并進一步找出互譯的雙語句對。因此,如何有效的對多語混合文本進行分句已成為搜集雙語語料的關鍵。目前,對多語混合文本主要的分句方法是根據標點進行分句,例如,可在多語混合文本中遇到句號、問號、感嘆號等這類表示句子結束的標點之后進行分句。但是,大多數多語混合文本都存在格式混亂的問題,并且在多語混合文本中還會存在該有標點的地方缺失標點的情況,因此,現有通過標點對多語混合文本進行分句的方式,難以有效地劃分句子,致使分句不夠準確。此外,現有方法中雙語語料召回率較低,難以有效提高統計機器翻譯系統的質量。
    技術實現思路
    本專利技術旨在至少在一定程度上解決上述技術問題。為此,本專利技術的第一個目的在于提出一種多語混合文本的分句方法,能夠在多語混合文本中由于格式混亂,或者在標點缺失的情況下有效進行句子劃分,提高了分句的準確性。此外,提高了多語語料的召回率,為翻譯系統提供了豐富的語料資源,保證翻譯系統的質量。為達上述目的,根據本專利技術第一方面實施例提出了一種多語混合文本的分句方法,包括:獲取多語混合文本,并獲取多語混合文本的字符編碼;根據字符編碼確定多語混合文本的第一類分割點;以及根據第一類分割點將多語混合文本分割為多個分句。本專利技術實施例的多語混合文本的分句方法,根據多語混合文本的字符編碼,確定第一類分割點,并將多語混合文本分割為多個分句,能夠在多語混合文本中由于格式混亂,或者在標點缺失的情況下有效進行句子劃分,提高了分句的準確性。此外,提高了多語語料的召回率,為翻譯系統提供了豐富的語料資源,保證翻譯系統的質量。本專利技術第二方面實施例提供了一種多語混合文本的分句裝置,包括:第一獲取模塊,用于獲取多語混合文本,并獲取多語混合文本的字符編碼;第一確定模塊,用于根據字符編碼確定多語混合文本的第一類分割點;以及分割模塊,用于根據第一類分割點將多語混合文本分割為多個分句。本專利技術實施例的多語混合文本的分句裝置,根據多語混合文本的字符編碼,確定第一類分割點,并將多語混合文本分割為多個分句,能夠在多語混合文本中由于格式混亂,或者在標點缺失的情況下有效進行句子劃分,提高了分句的準確性。此外,提高了多語語料的召回率,為翻譯系統提供了豐富的語料資源,保證翻譯系統的質量。本專利技術的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。【專利附圖】【附圖說明】本專利技術的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中:圖1為根據本專利技術一個實施例的多語混合文本的分句方法的流程圖;圖2為根據本專利技術另一個實施例的多語混合文本的分句方法的流程圖;圖3為根據本專利技術又一個實施例的多語混合文本的分句方法的流程圖;圖4為根據本專利技術一個實施例的多語混合文本的分句裝置的結構示意圖;圖5為根據本專利技術另一個實施例的多語混合文本的分句裝置的結構示意圖;圖6為根據本專利技術又一個實施例的多語混合文本的分句裝置的結構示意圖。【具體實施方式】下面詳細描述本專利技術的實施例,實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本專利技術,而不能理解為對本專利技術的限制。在本專利技術的描述中,需要理解的是,術語“中心”、“縱向”、“橫向”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底”、“內”、“外”等指示的方位或位置關系為基于附圖所示的方位或位置關系,僅是為了便于描述本專利技術和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作,因此不能理解為對本專利技術的限制。此外,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性。在本專利技術的描述中,需要說明的是,除非另有明確的規定和限定,術語“安裝”、“相連”、“連接”應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內部的連通。對于本領域的普通技術人員而言,可以具體情況理解上述術語在本專利技術中的具體含義。流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現特定邏輯功能或過程的步驟的可執行指令的代碼的模塊、片段或部分,并且本專利技術的優選實施方式的范圍包括另外的實現,其中可以不按所示出或討論的順序,包括根據所涉及的功能按基本同時的方式或按相反的順序,來執行功能,這應被本專利技術的實施例所屬
    的技術人員所理解。下面參考附圖描述根據本專利技術實施例的眼動軌跡規律分析方法和裝置。為使分句更加準確、可靠,提高翻譯系統的質量,本專利技術提出一種多語混合文本的分句方法,包括:獲取多語混合文本,并獲取多語混合文本的字符編碼;根據字符編碼確定多語混合文本的第一類分割點;以及根據第一類分割點將多語混合文本分割為多個分句。圖1為根據本專利技術一個實施例的多語混合文本的分句方法的流程圖。如圖1所示,根據本專利技術實施例的多語混合文本的分句方法包括:S101,獲取多語混合文本,并獲取多語混合文本的字符編碼。在本專利技術的實施例中,多語混合文本為包含至少一種語言類型的文本。多語混合文本的字符編碼為根據預設的編碼方法對該多語混合文本進行編碼而生成的二進制代碼。舉例來說,根據相應編碼方法對多語混合文本中字符進行編碼,以生成相應的ASCII碼(美國標準信息交換碼)或GB2312 (漢字字符集國家標準編碼)等。S102,根據字符編碼確定多語混合文本的第一類分割點。在本專利技術的實施例中,第一類分割點為除標點之外的能夠表示句子開始或結束的標志。舉例來說,對于中日文混合文本,中文和日文句子之間大多會存在空格,則這些空格即可為第一類分割點。對于中英文,或者是西文混合文本,也可以根據字符編碼確定中英文或者不同西文之間的分界處,并將這些分界處作為第一類分割點。S103,根本文檔來自技高網
    ...

    【技術保護點】
    一種多語混合文本的分句方法,其特征在于,包括以下步驟:獲取多語混合文本,并獲取所述多語混合文本的字符編碼;根據所述字符編碼確定所述多語混合文本的第一類分割點;以及根據所述第一類分割點將所述多語混合文本分割為多個分句。

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:吳禮文劉紅雨何中軍吳華
    申請(專利權)人:北京百度網訊科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 韩国19禁无遮挡啪啪无码网站| 国模无码一区二区三区不卡| 亚洲熟妇无码爱v在线观看| 无码人妻视频一区二区三区| 亚洲AV无码一区二区三区久久精品 | 超清无码一区二区三区| 色噜噜综合亚洲av中文无码 | 一级电影在线播放无码| 无码AV岛国片在线播放| 久久久无码精品亚洲日韩软件 | 亚洲精品无码专区久久同性男| 久久水蜜桃亚洲av无码精品麻豆| 一本色道无码道在线| 亚洲av永久无码| 少妇精品无码一区二区三区| 久久精品无码一区二区三区日韩 | 亚洲Aⅴ无码一区二区二三区软件 亚洲?V无码乱码国产精品 | 亚洲不卡中文字幕无码| 免费无码又爽又刺激高潮的视频 | 未满十八18禁止免费无码网站| 国产成人精品无码专区| 国产精品亚洲专区无码WEB| 97性无码区免费| 人妻丰满熟妇岳AV无码区HD| 亚洲AV无码欧洲AV无码网站| 在线精品自拍无码| 潮喷无码正在播放| 中文无码喷潮在线播放| 久久国产精品无码网站| 中文无码喷潮在线播放| 中文字幕人妻无码一区二区三区| 人妻无码中文字幕| 中文字幕在线无码一区二区三区| 日韩人妻无码精品无码中文字幕| 国产免费AV片无码永久免费| 人妻无码久久精品| 久久久久无码专区亚洲av| 中文无码喷潮在线播放| 久久人妻av无码中文专区| 麻豆aⅴ精品无码一区二区| 精品无码国产自产在线观看水浒传 |