本發(fā)明專利技術(shù)提供了一種拆分文檔的方法和裝置,其方法包括:解析出原始文檔的xml格式的內(nèi)容文件和段落樣式文件;在所述內(nèi)容文件中,查找應(yīng)用所述段落樣式文件中的每個(gè)段落樣式的段落位置;將所述查找到的各個(gè)段落位置處的段落內(nèi)容分別輸出到不同的新文檔中。本發(fā)明專利技術(shù)提供了一種拆分文檔的裝置。本發(fā)明專利技術(shù)的實(shí)施例通過(guò)解析原始文檔的內(nèi)容文件和段落樣式文件,通過(guò)段落樣式文件中段落樣式對(duì)內(nèi)容文件中的內(nèi)容進(jìn)行拆分,提取出的內(nèi)容存儲(chǔ)到新的文檔中。所以克服了人工直接從文檔中提取內(nèi)容,拆分成新的文檔效率較低的問(wèn)題,達(dá)到了高效、快捷的效果。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及印刷領(lǐng)域,具體而言,涉及ー種拆分文檔的方法和裝置。
技術(shù)介紹
圖書通常由主書名頁(yè)、文前輔文、正文、文中輔文和文后輔文這幾個(gè)部分組成。其中,正文由篇、章和節(jié)組成。通過(guò)對(duì)圖書數(shù)字化處理,可將圖書以電子文檔的形式保存。在圖書出版前,需要對(duì)圖書進(jìn)行編纂。由于圖書是由多個(gè)部分組成,在編纂過(guò)程中,可將各個(gè)部分由不同的作者編纂。例如,將含有一本圖書內(nèi)容的文檔進(jìn)行拆分,拆分為三個(gè)文檔,再將三個(gè)文檔交給三個(gè)不同的作者處理,如審校、修改或排版等。目前對(duì)文檔進(jìn)行拆分的過(guò)程,采用人工的方式進(jìn)行拆分。這種拆分方式存在效率低、時(shí)間長(zhǎng)的問(wèn)題,影響了圖書的出版時(shí)間。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)g在提供一種拆分文檔的方法和裝置,以解決上述人工拆分文檔效率低、時(shí)間長(zhǎng)的問(wèn)題。在本專利技術(shù)的實(shí)施例中,提供了一種拆分文檔的方法,包括解析出原始文檔的xml格式的內(nèi)容文件和段落樣式文件;在所述內(nèi)容文件中,查找應(yīng)用所述段落樣式文件中的每個(gè)段落樣式的段落位置;將所述查找到的各個(gè)段落位置處的段落內(nèi)容分別輸出到不同的新文檔中。在本專利技術(shù)的實(shí)施例中,提供了一種拆分文檔的裝置,包括解析模塊,用于解析出原始文檔的xml格式的內(nèi)容文件和段落樣式文件;查找模塊,用于在所述內(nèi)容文件中,查找應(yīng)用所述段落樣式文件中的每個(gè)段落樣式的段落位置;拆分模塊,用于將所述查找到的各個(gè)段落位置處的段落內(nèi)容分別輸出到不同的新文檔中。本專利技術(shù)的實(shí)施例通過(guò)解析原始文檔的內(nèi)容文件和段落樣式文件,通過(guò)段落樣式文件中段落樣式對(duì)內(nèi)容文件中的內(nèi)容進(jìn)行拆分,提取出的內(nèi)容存儲(chǔ)到新的文檔中。所以克服了人工直接從文檔中提取內(nèi)容,拆分成新的文檔效率較低的問(wèn)題,達(dá)到了高效、快捷的效果O附圖說(shuō)明此處所說(shuō)明的附圖用來(lái)提供對(duì)本專利技術(shù)的進(jìn)ー步理解,構(gòu)成本申請(qǐng)的一部分,本專利技術(shù)的示意性實(shí)施例及其說(shuō)明用于解釋本專利技術(shù),并不構(gòu)成對(duì)本專利技術(shù)的不當(dāng)限定。在附圖中圖I示出了本專利技術(shù)實(shí)施例一的流程圖;圖2示出了本專利技術(shù)實(shí)施例ニ的流程圖;圖3示出了本專利技術(shù)實(shí)施例中所顯示的內(nèi)容文件的屏幕截圖;圖4示出了本專利技術(shù)實(shí)施例中所顯示的段落樣式文件的屏幕截圖;圖5示出了本專利技術(shù)實(shí)施例三的流程圖6示出了本專利技術(shù)實(shí)施例中所顯示的實(shí)例文件的屏幕截圖;圖7示出了本專利技術(shù)實(shí)施例中所顯示的大綱文件的屏幕截圖;圖8示出了本專利技術(shù)實(shí)施例四的裝置結(jié)構(gòu)框圖。具體實(shí)施例方式下面將參考附圖并結(jié)合實(shí)施例,來(lái)詳細(xì)說(shuō)明本專利技術(shù)。參見(jiàn)圖1,實(shí)施例一包括以下步驟步驟Sll :解析出原始文檔的xml格式的內(nèi)容文件和段落樣式文件。原始文檔是由多個(gè)文件組成,至少包括記錄原始文檔中存儲(chǔ)的字?jǐn)?shù)數(shù)據(jù)的xml格式的內(nèi)容文件,規(guī)定字符數(shù)據(jù)顯示的段落結(jié)構(gòu)樣式存儲(chǔ)在xml格式的段落樣式文件中。如word格式的文檔,通過(guò)壓縮/解壓算法,可提取出xml格式的內(nèi)容文件和段落樣式文件?!げ襟ES12 :在所述內(nèi)容文件中,查找應(yīng)用所述段落樣式文件中的每個(gè)段落樣式的段落位置。步驟S13 :將所述查找到的各個(gè)段落位置處的段落內(nèi)容分別輸出到不同的新文檔中。通過(guò)在內(nèi)容文件中按照各個(gè)段落樣式查找的段落位置,將原始文檔分為各個(gè)不同的新的文檔。由于不同的段落樣式體現(xiàn)了文檔的結(jié)構(gòu),通過(guò)段落樣式拆分文檔,可將原始文檔規(guī)范的拆分為多個(gè)文檔,且處理時(shí)間短,效率高。各個(gè)不同的新文檔采用不同的段落樣式結(jié)構(gòu),以便于后續(xù)的處理、編纂。在內(nèi)容文件中查找段落樣式文件中的各個(gè)段落樣式、以及輸出文檔的過(guò)程,可有多種不同的方式,下面給出優(yōu)選的方式并通過(guò)實(shí)施例ニ說(shuō)明,參見(jiàn)圖2,包括以下步驟S21 :解析出原始文檔的xml格式的內(nèi)容文件和段落樣式文件。S22 :在所述內(nèi)容文件中遍歷所述段落樣式文件中的每個(gè)段落樣式所對(duì)應(yīng)的段落樣式ID。內(nèi)容文件存在的段落樣式ID與段落樣式文件中的段落樣式具有對(duì)應(yīng)關(guān)系。參見(jiàn)圖3、圖4所示的內(nèi)容文件、段落樣式文件的屏幕截圖,圖3中所示的ID為〈W :P style w:val =“1”/>,說(shuō)明段落樣式ID為“1”,該段落樣式ID對(duì)應(yīng)圖4中的段落樣式名稱為“章標(biāo)題”的段落樣式。參見(jiàn)圖4的屏幕截圖上所示的命令參數(shù)<w style w type = “paragraph” w :styleid = “I”/>,<w name w val = “章標(biāo)題”/>該命令參數(shù)為段落樣式ID為“1”,段落樣式的名稱為“章標(biāo)題”。通過(guò)這種對(duì)應(yīng)關(guān)系,可在內(nèi)容文件中找到對(duì)應(yīng)段落樣式文件中各個(gè)段落樣式的段落樣式ID。S23 :查找當(dāng)前的所述段落樣式ID在所述內(nèi)容文件中所對(duì)應(yīng)的所有標(biāo)識(shí)段落的段落標(biāo)記作為所述段落位置。在內(nèi)容文件中找到段落樣式ID后,可查找到應(yīng)用該段落樣式ID所對(duì)應(yīng)的段落樣式的各個(gè)段落。參見(jiàn)圖3,遍歷與段落樣式ID為“I”對(duì)應(yīng)的段落標(biāo)記〈w :p>,統(tǒng)計(jì)遍歷到的段落標(biāo)記數(shù)量。S24:為所述段落標(biāo)記排序并記錄序號(hào)。在內(nèi)容文件中,會(huì)有多個(gè)段落樣式ID,每個(gè)段落樣式ID又分別與段落標(biāo)記相對(duì)應(yīng),為這些段落標(biāo)記排序并記錄序號(hào)后,可區(qū)別出應(yīng)用不同段落樣式的各個(gè)段落。序號(hào)包括起始序號(hào)和結(jié)束序號(hào),例如在內(nèi)容文件中應(yīng)用段落樣式名稱為“章標(biāo)題”的段落樣式共有5段,對(duì)應(yīng)的起始序號(hào)為3,結(jié)束序號(hào)為7。S25 :將所述記錄的序號(hào)與所述不同的新文檔的標(biāo)識(shí)建立關(guān)聯(lián)關(guān)系。創(chuàng)建新文檔,將記錄的起始序號(hào)、結(jié)束序號(hào)與新文檔的標(biāo)識(shí)建立關(guān)聯(lián)關(guān)系。S26 :在所述內(nèi)容文件中提取所述起始序號(hào)和結(jié)束序號(hào)之間的段落內(nèi)容,存儲(chǔ)到對(duì)應(yīng)的所述新文檔中。在本實(shí)施例中,將起始序號(hào)為3、結(jié)束序號(hào)為7之間的段落的內(nèi)容存儲(chǔ)到新的文檔中。 通過(guò)上述的過(guò)程,將內(nèi)容文件中應(yīng)用各個(gè)不同段落樣式的各個(gè)段落的內(nèi)容,存儲(chǔ)到相應(yīng)的各個(gè)不同的新文檔中。為便于對(duì)內(nèi)容文件和段落樣式文件進(jìn)行處理,本專利技術(shù)的實(shí)施例還創(chuàng)建用于存儲(chǔ)原始文檔的段落樣式的結(jié)構(gòu)的大綱文件。大綱文件采用xml格式,其每個(gè)節(jié)點(diǎn)對(duì)應(yīng)ー種段落樣式,將為每個(gè)段落樣式ID記錄的序號(hào)與不同的新文檔的標(biāo)識(shí)建立關(guān)聯(lián)關(guān)系,并存儲(chǔ)到大綱文件的相應(yīng)節(jié)點(diǎn)內(nèi)。使用大綱文件,按照記錄的序號(hào),從內(nèi)容文件中提取各個(gè)段落的內(nèi)容存儲(chǔ)到相關(guān)聯(lián)的文檔內(nèi)。下面通過(guò)實(shí)施例三詳細(xì)說(shuō)明,參見(jiàn)圖5,包括以下步驟S31 :預(yù)先通過(guò)schema文件生成樹(shù)形實(shí)例文件;schema文件定義了構(gòu)成原始文檔的各個(gè)元素的之間的結(jié)構(gòu)關(guān)系,將元素的名稱作為所述實(shí)例文件的節(jié)點(diǎn)的名稱。通過(guò)schema文件,可定義多種不同段落樣式結(jié)構(gòu)的多個(gè)原始文檔。如在其中ー個(gè)原始文檔中的“章標(biāo)題”的段落樣式下添加“節(jié)標(biāo)題”的段落樣式;在另ー個(gè)原始文檔的“正文”段落樣式下添加“文前輔文”的段落樣式。由于各個(gè)原始文檔的各個(gè)元素之間的結(jié)構(gòu)關(guān)系,都是通過(guò)schema文件定義,通過(guò)schema文件生成的實(shí)例文件,包含最全的文檔的段落樣式的結(jié)構(gòu)關(guān)系,這些結(jié)構(gòu)關(guān)系通過(guò)文檔的各個(gè)元素之間的關(guān)系體現(xiàn)。實(shí)例文件的體現(xiàn)各個(gè)段落樣式之間結(jié)構(gòu)的屏幕截圖可參見(jiàn)圖6。S32 :在所述段落樣式文件中查找到與段落樣式ID對(duì)應(yīng)的段落樣式的名稱。原始文檔的段落樣式文件中包括多個(gè)段落樣式,每個(gè)段落樣式的名稱也存在于段落樣式文件中,如圖4中的段落樣式名稱“章標(biāo)題”。S33:使用所述查找的段落樣式的名稱,遍歷所述實(shí)例文件中具有相同名稱的節(jié)點(diǎn),采用遍歷到的節(jié)點(diǎn)構(gòu)建所述大綱文件。原始文檔通過(guò)schema文件定義生成的,通schema文件生成的實(shí)施文件的各個(gè)節(jié)點(diǎn)的名稱包括原始本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種拆分文檔的方法,其特征在于,包括:解析出原始文檔的xml格式的內(nèi)容文件和段落樣式文件;在所述內(nèi)容文件中,查找應(yīng)用所述段落樣式文件中的每個(gè)段落樣式的段落位置;將所述查找到的各個(gè)段落位置處的段落內(nèi)容分別輸出到不同的新文檔中。
【技術(shù)特征摘要】
1.一種拆分文檔的方法,其特征在于,包括 解析出原始文檔的xml格式的內(nèi)容文件和段落樣式文件; 在所述內(nèi)容文件中,查找應(yīng)用所述段落樣式文件中的每個(gè)段落樣式的段落位置; 將所述查找到的各個(gè)段落位置處的段落內(nèi)容分別輸出到不同的新文檔中。2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述查找的過(guò)程包括 在所述內(nèi)容文件中遍歷所述段落樣式文件中的每個(gè)段落樣式所對(duì)應(yīng)的段落樣式ID ;查找當(dāng)前的所述段落樣式ID在所述內(nèi)容文件中所對(duì)應(yīng)的所有標(biāo)識(shí)段落的段落標(biāo)記作為所述段落位置; 為所述段落標(biāo)記排序并記錄序號(hào)。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述輸出的過(guò)程包括 創(chuàng)建所述不同的新文檔; 將所述記錄的序號(hào)與所述不同的新文檔的標(biāo)識(shí)建立關(guān)聯(lián)關(guān)系; 所述序號(hào)包括起始序號(hào)和結(jié)束序號(hào); 在所述內(nèi)容文件中提取所述起始序號(hào)和結(jié)束序號(hào)之間的段落內(nèi)容,存儲(chǔ)到對(duì)應(yīng)的所述新文檔中。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,還包括 建立含有所述原始文檔的段落樣式的結(jié)構(gòu)的大綱文件,其中,所述大綱文件為xml格式,其節(jié)點(diǎn)的名稱來(lái)自所述段落樣式文件中各個(gè)段落樣式的名稱; 將所述建立的關(guān)聯(lián)關(guān)系作為屬性值存儲(chǔ)在所述各個(gè)節(jié)點(diǎn)中。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述建立含有文檔的段落樣式的結(jié)構(gòu)的大綱文件包括 預(yù)先通過(guò)schema文件生成樹(shù)形實(shí)例文件;其中,所述schema文件定義了構(gòu)成所述原始文檔的各個(gè)元素的之間的結(jié)構(gòu)關(guān)系,將所述元素的名稱作為所述實(shí)例文件的節(jié)點(diǎn)的名稱;在所述段落樣式文件中查找到與所述段落樣式ID對(duì)應(yīng)的段落樣式的名稱; 使用所述查找的段落樣式的名稱,遍歷所述實(shí)例文件中具有相同名稱的節(jié)點(diǎn); 采用遍歷到的節(jié)點(diǎn)構(gòu)建所述大綱文件。6.一種拆分文檔的裝置,其特征在于,包括 解析模塊,用于解析出原始文檔的xml格式的內(nèi)容文件和段落樣式文件;...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:岳永強(qiáng),
申請(qǐng)(專利權(quán))人:北大方正集團(tuán)有限公司,北京北大方正電子有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。