• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種選擇讀取目標(biāo)文檔的編碼格式的方法及其系統(tǒng)技術(shù)方案

    技術(shù)編號(hào):11300554 閱讀:112 留言:0更新日期:2015-04-15 18:02
    本發(fā)明專利技術(shù)提供一種選擇讀取目標(biāo)文檔的編碼格式的方法及其系統(tǒng),首先通過(guò)參考編碼格式讀取參考文檔獲得亂碼模式,然后在對(duì)目標(biāo)文檔讀取時(shí),對(duì)于每種編碼格式,將該編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的數(shù)據(jù)與確定的亂碼模式進(jìn)行比較,確定利用該編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂碼;再統(tǒng)計(jì)利用每種編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂碼,并進(jìn)行比較,然后確定讀取所述目標(biāo)文檔的編碼格式。上述技術(shù)方案有效避免了現(xiàn)有技術(shù)中只是讀出所述目標(biāo)文檔的前幾個(gè)字節(jié),判定這些字節(jié)的值,從而得知其編碼的格式,但是,有時(shí)候,目標(biāo)文檔的前幾個(gè)字節(jié)并沒(méi)有保留該文檔的編碼格式信息,無(wú)法獲得該文檔的編碼格式的問(wèn)題。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    【專利摘要】本專利技術(shù)提供一種選擇讀取目標(biāo)文檔的編碼格式的方法及其系統(tǒng),首先通過(guò)參考編碼格式讀取參考文檔獲得亂碼模式,然后在對(duì)目標(biāo)文檔讀取時(shí),對(duì)于每種編碼格式,將該編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的數(shù)據(jù)與確定的亂碼模式進(jìn)行比較,確定利用該編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂碼;再統(tǒng)計(jì)利用每種編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂碼,并進(jìn)行比較,然后確定讀取所述目標(biāo)文檔的編碼格式。上述技術(shù)方案有效避免了現(xiàn)有技術(shù)中只是讀出所述目標(biāo)文檔的前幾個(gè)字節(jié),判定這些字節(jié)的值,從而得知其編碼的格式,但是,有時(shí)候,目標(biāo)文檔的前幾個(gè)字節(jié)并沒(méi)有保留該文檔的編碼格式信息,無(wú)法獲得該文檔的編碼格式的問(wèn)題。【專利說(shuō)明】一種選擇讀取目標(biāo)文檔的編碼格式的方法及其系統(tǒng)
    本專利技術(shù)涉及一種選擇讀取目標(biāo)文檔的編碼格式的方法及其系統(tǒng),屬于電數(shù)字?jǐn)?shù)據(jù) 處理

    技術(shù)介紹
    編碼格式是指用預(yù)先規(guī)定的方法將文字、數(shù)字或其他對(duì)象編成數(shù)碼。編碼格式在 電子計(jì)算機(jī)、電視等相關(guān)領(lǐng)域廣泛使用。文件編碼格式也稱為字符編碼格式,用于指定在處 理文本時(shí)如何表示字符。讀取中文文件時(shí),未正確匹配文件編碼格式的情況可能會(huì)導(dǎo)致發(fā) 生異常或產(chǎn)生不正確的結(jié)果。常見(jiàn)的漢字編碼格式包括GB2312、BIG5、GBK、UTF-8等,對(duì)于 簡(jiǎn)體漢字的編碼格式,目前又以GB2312和UTF-8最為常用。 在windows系統(tǒng)中,文本文檔被廣泛使用,開(kāi)發(fā)人員在編寫程序讀取文檔時(shí)經(jīng)常 遇到中文編碼格式問(wèn)題。例如,當(dāng)讀取一個(gè)文檔進(jìn)行后續(xù)處理時(shí),發(fā)現(xiàn)程序產(chǎn)出的結(jié)果與預(yù) 期不一致,通過(guò)調(diào)試跟蹤,發(fā)現(xiàn)根本原因是讀取文件時(shí),由于程序中用于讀取文件的編碼格 式與文件本身的編碼格式不一致,導(dǎo)致程序讀取得到的是亂碼,從而帶來(lái)了后續(xù)的錯(cuò)誤。這 種情況普遍存在于開(kāi)發(fā)過(guò)程中。此外,當(dāng)需要讀取的文檔數(shù)量很多,并且這些文件的編碼格 式可能不一致時(shí),就更需要能夠有一種選擇讀取目標(biāo)文檔的編碼格式的方法來(lái)提高開(kāi)發(fā)效 率。 現(xiàn)有技術(shù)中公開(kāi)的文本文檔的編碼格式讀取方法,是讀出文本文檔的前幾個(gè)字 節(jié),判定這些字節(jié)的值,從而得知其編碼的格式。但是,有時(shí)候,文本文檔的前幾個(gè)字節(jié)并沒(méi) 有保留該文本文檔的編碼格式信息,通過(guò)這種方法就無(wú)法得到該文本文檔的編碼格式。如 果能夠有一種機(jī)制,通過(guò)選擇正確的編碼格式來(lái)讀取文檔,將可以大大降低由于文件編碼 格式引起的問(wèn)題,提高開(kāi)發(fā)效率。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)所要解決的技術(shù)問(wèn)題是現(xiàn)有技術(shù)只是讀出所述目標(biāo)文檔的前幾個(gè)字節(jié),判 定這些字節(jié)的值,從而得知其編碼的格式,但是,有時(shí)候,目標(biāo)文檔的前幾個(gè)字節(jié)并沒(méi)有保 留該文檔的編碼格式信息,無(wú)法獲得該文檔的編碼格式的問(wèn)題。 為解決上述技術(shù)問(wèn)題,本專利技術(shù)是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的: -種選擇讀取目標(biāo)文檔的編碼格式的方法,包括: 通過(guò)至少一個(gè)參考編碼格式讀取參考文檔,確定利用所述參考編碼格式讀取參考 文檔時(shí)得到的全部或部分亂碼模式; 每次利用一種編碼格式讀取目標(biāo)文檔; 對(duì)于每種編碼格式,將該編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的數(shù)據(jù)與確定的亂碼 模式進(jìn)行比較,確定利用該編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂碼; 統(tǒng)計(jì)利用每種編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂碼,并進(jìn)行比較,然后確定 讀取所述目標(biāo)文檔的編碼格式。 所述參考編碼格式屬于包含了全部或部分編碼格式的編碼格式集,且所述參考編 碼格式是該編碼格式集中讀取所述參考文檔時(shí)會(huì)產(chǎn)生亂碼的編碼格式。 通過(guò)所有的參考編碼格式讀取參考文檔,確定利用所述參考編碼格式讀取參考文 檔時(shí)得到的全部或部分亂碼模式。 所述確定利用所述參考編碼格式讀取參考文檔時(shí)得到的全部或部分亂碼模式的 過(guò)程如下: 對(duì)于使用參考編碼格式讀取參考文檔時(shí)獲得的亂碼字符串,刪除亂碼字符串中的 非有效判斷字符,獲取有效判斷字符;統(tǒng)計(jì)有效判斷字符中亂碼字符的出現(xiàn)次數(shù),獲取亂碼 模式。 所述非有效判斷字符指英文字母、數(shù)字和空白字符;所述有效判斷字符指除所述 非有效判斷字符以外的所有字符。 統(tǒng)計(jì)有效判斷字符中亂碼字符的出現(xiàn)次數(shù),獲取亂碼模式時(shí),預(yù)先設(shè)定次數(shù)的閾 值,對(duì)于出現(xiàn)次數(shù)大于所述閾值的所有亂碼字符,保存為亂碼模式。 統(tǒng)計(jì)有效判斷字符中亂碼字符的出現(xiàn)次數(shù),獲取亂碼模式時(shí),按亂碼字符出現(xiàn)次 數(shù)倒序排列亂碼字符;取得排列在前的部分亂碼字符,并將所取的亂碼字符保存為亂碼模 式。 取得排列在前k%的亂碼字符,并將所取的亂碼字符保存為亂碼模式,其中k為正 數(shù),50彡k彡100。 所述每次利用一種編碼格式讀取目標(biāo)文檔時(shí)讀取部分內(nèi)容,直到獲得預(yù)先設(shè)置的 有效判斷字符數(shù)為止;若讀取所述文檔的所有內(nèi)容后仍未獲得預(yù)先設(shè)置的有效判斷字符 數(shù),則按實(shí)際獲取的有效判斷字符數(shù)為準(zhǔn)。 有效判斷字符數(shù)為50-1000。 將該編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的數(shù)據(jù)與確定的亂碼模式進(jìn)行比較,確定 利用該編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂碼的過(guò)程為: 將通過(guò)每個(gè)編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的數(shù)據(jù)逐個(gè)與所述亂碼模式中的 亂碼字符逐個(gè)比較,如果亂碼字符包含此數(shù)據(jù),則判定此數(shù)據(jù)為亂碼,否則,則不認(rèn)為該數(shù) 據(jù)為亂碼。 統(tǒng)計(jì)利用每種編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂碼,并進(jìn)行比較,然后確定 讀取所述目標(biāo)文檔的編碼格式的過(guò)程為: 統(tǒng)計(jì)利用每種編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂碼比例,選擇亂碼比例最低 的編碼格式作為讀取所述目標(biāo)文檔的編碼格式。 統(tǒng)計(jì)利用每種編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂碼,并進(jìn)行比較,然后確定 讀取所述目標(biāo)文檔的編碼格式的過(guò)程為: 統(tǒng)計(jì)利用每種編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂碼比例,選擇亂碼比例低于 預(yù)設(shè)閾值的編碼格式作為讀取所述目標(biāo)文檔的編碼格式。 所述亂碼比例為所述亂碼字符占有效判斷字符的比例。 在每次利用一種編碼格式讀取目標(biāo)文檔時(shí),所述編碼格式屬于所述編碼格式集。 一種選擇讀取目標(biāo)文檔的編碼格式的系統(tǒng),包括: 亂碼模式生成模塊,用于通過(guò)至少一個(gè)參考編碼格式讀取參考文檔,確定利用所 述參考編碼格式讀取參考文檔時(shí)得到的全部或部分亂碼模式; 目標(biāo)文檔讀取模塊,用于每次利用一種編碼格式讀取目標(biāo)文檔; 讀取亂碼模塊,用于對(duì)于每種編碼格式,將該編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生 的數(shù)據(jù)與確定的亂碼模式進(jìn)行比較,確定利用該編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂 碼; 讀取編碼格式選擇模塊,用于統(tǒng)計(jì)利用每種編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的 亂碼,并進(jìn)行比較,然后確定讀取所述目標(biāo)文檔的編碼格式。 所述參考編碼格式屬于包含了全部或部分編碼格式的編碼格式集,且所述參考編 碼格式是該編碼格式集中讀取所述參考文檔時(shí)會(huì)產(chǎn)生亂碼的編碼格式。 通過(guò)所有的參考編碼格式讀取參考文檔,確定利用所述參考編碼格式讀取參考文 檔時(shí)得到的全部或部分亂碼模式。 所述確定利用所述參考編碼格式讀取參考文檔時(shí)得到的全部或部分亂碼模式的 過(guò)程如下: 對(duì)于使用參考編碼格式讀取參考文檔時(shí)獲得的亂碼字符串,刪除亂碼字符串中的 非有效判斷字符,獲取有效判斷字符;統(tǒng)計(jì)有效判斷字符中亂碼字符的出現(xiàn)次數(shù),獲取亂碼 模式。 所述非有效判斷字符指英文字母、數(shù)字和空白字符;所述有效判斷字符指除所本文檔來(lái)自技高網(wǎng)
    ...
    一種選擇讀取目標(biāo)文檔的編碼格式的方法及其系統(tǒng)

    【技術(shù)保護(hù)點(diǎn)】
    一種選擇讀取目標(biāo)文檔的編碼格式的方法,其特征在于,包括:通過(guò)至少一個(gè)參考編碼格式讀取參考文檔,確定利用所述參考編碼格式讀取參考文檔時(shí)得到的全部或部分亂碼模式;每次利用一種編碼格式讀取目標(biāo)文檔;對(duì)于每種編碼格式,將該編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的數(shù)據(jù)與確定的亂碼模式進(jìn)行比較,確定利用該編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂碼;統(tǒng)計(jì)利用每種編碼格式讀取所述目標(biāo)文檔時(shí)產(chǎn)生的亂碼,并進(jìn)行比較,然后確定讀取所述目標(biāo)文檔的編碼格式。

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:葉茂萬(wàn)巍金立峰王元龍
    申請(qǐng)(專利權(quán))人:北大方正集團(tuán)有限公司北京方正阿帕比技術(shù)有限公司北京大學(xué)
    類型:發(fā)明
    國(guó)別省市:北京;11

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av无码一区二区三区天堂古代| 久久无码专区国产精品| 精品亚洲成A人无码成A在线观看 | 无码人妻精品一区二区三区东京热| 亚洲∧v久久久无码精品| 成人免费无码大片A毛片抽搐 | 无码日韩人妻精品久久| 亚洲日韩精品无码专区网址 | (无码视频)在线观看| 亚洲Av综合色区无码专区桃色| 亚洲av永久无码| av区无码字幕中文色| 亚洲国产精品无码久久SM| 免费无遮挡无码永久在线观看视频| 无码毛片视频一区二区本码| 日韩综合无码一区二区| 日韩毛片无码永久免费看| 亚洲最大天堂无码精品区| 久久久无码精品亚洲日韩蜜臀浪潮| heyzo高无码国产精品| 国产精品成人一区无码| 99久无码中文字幕一本久道| 亚洲AV无码无限在线观看不卡 | 国精品无码一区二区三区在线 | 无码国产伦一区二区三区视频| 人妻丰满熟妇A v无码区不卡| 亚洲精品无码久久久久久| 亚洲中文字幕无码av| 无码免费午夜福利片在线| 中文字幕亚洲精品无码| 亚洲人成网亚洲欧洲无码| 亚洲国产成人无码AV在线影院 | 无码人妻精品一区二区三| 国产精品无码专区| 国产成人无码区免费网站| 波多野结衣AV无码久久一区| 潮喷大喷水系列无码久久精品| 亚洲国产av无码精品| 亚洲精品~无码抽插 | 日韩AV无码中文无码不卡电影| 无码人妻精品一区二区三区在线 |