本公開涉及一種壓縮方法、解壓縮方法、壓縮裝置以及解壓縮裝置。所述壓縮方法包括使計算機執行處理,所述處理包括:確定目標字符串是否記錄在第一字典中,目標字符串為包含在輸入數據中的壓縮目標,第一字典使壓縮碼與對應的字符串相關;當目標字符串被記錄在第一字典中時,輸出與目標字符串對應的壓縮碼;當目標字符串未記錄在第一字典中時,在第一數據中搜索目標字符串,第一數據所積累的字符串是輸入數據的一部分并且已經被確定為未記錄在第一字典中;當在第一數據中檢索到目標字符串時,在與第一字典不同的第二字典中記錄匹配的字符串;以及輸出與目標字符串在第二字典中的記錄號對應的壓縮碼。
【技術實現步驟摘要】
本文中論述的實施方式涉及編碼程序等,更具體地,涉及壓縮方法、解壓縮方法、壓縮裝置以及解壓縮裝置。
技術介紹
近年來,已經有使用靜態字典對壓縮目標文件進行編碼的常規技術。靜態字典是下述字典:基于普通的英文語言字典、日文語言字典、教科書等來指定詞和字符出現在文檔中的出現頻率,并且對出現頻率較高的詞分配較短的壓縮碼。在常規技術中,基于靜態字典通過將壓縮目標文件中的文本轉換成分配給靜態字典中的詞和字符的壓縮碼來執行壓縮處理,以形成壓縮文件。例如,日本公開特許公報No.08-288861、國際專利申請的日本國家公開No.2004-514366以及日本公開特許公報No.06-222903公開了常規技術。然而,在上述常規技術的情況下,分配給未記錄在靜態字典中的詞的壓縮碼的長度按照壓縮文件的數據而增加,這降低了壓縮文件的壓縮率。例如,在常規技術中所使用的靜態字典中,未記錄以下詞,包括人名、地名以及化名。因此,通過將這些詞分成形成這些詞的字符并且將這些字符轉換成分配給相應的字符的壓縮碼來執行壓縮處理。在這種情況下,降低了壓縮目標文件的壓縮率。根據實施方式的一方面,提供了一種編碼程序和一種解壓縮程序,所述編碼程序和所述解壓縮程序防止分配給壓縮文件中的詞等的字符串的壓縮碼的長度增加。
技術實現思路
根據本專利技術的一方面,一種壓縮方法包括:確定包含在輸入數據中的
作為壓縮目標的字符串是否記錄在第一字典中,在第一字典中,字符串和與字符串對應的壓縮碼彼此相關;輸出與記錄在第一字典中的作為壓縮目標的字符串對應的壓縮碼;當作為壓縮目標的字符串未記錄在第一字典中時,對照作為壓縮目標的字符串檢查第一數據,第一數據所積累的字符串用作未被確定為記錄在第一字典中的輸入數據的一部分;在與第一字典不同的第二字典中記錄匹配的字符串;以及輸出與作為壓縮目標的字符串在第二字典中的記錄號對應的壓縮碼。附圖說明圖1是示出了根據實施方式的信息處理裝置的壓縮處理的流程的示例的第一視圖;圖2是示出了動態字典部的示例的視圖;圖3是示出了實施方式中的信息處理裝置的壓縮處理的流程的示例的第二視圖;圖4是示出了壓縮文件的塊配置的示例的視圖;圖5是示出了實施方式中的信息處理裝置的解壓縮處理的流程的示例的視圖;圖6是示出了實施方式中的信息處理裝置的配置的功能框圖;圖7是示出了用于壓縮的zelkova樹的數據結構的示例的視圖;圖8是示出了用于解壓縮的zelkova樹的數據結構的示例的視圖;圖9是示出了實施方式中的壓縮單元的配置的示例的功能框圖;圖10是示出了實施方式中的解壓縮單元的配置的示例的功能框圖;圖11是示出了實施方式中的壓縮單元的處理步驟的流程圖;圖12是示出了實施方式中的解壓縮單元的處理步驟的流程圖;圖13是示出了計算機的硬件配置的示例的示圖;圖14是示出了在計算機中運行的程序的配置的示例的示圖;以及圖15是示出了根據另一實施方式的系統中的裝置的配置的示例的視圖。具體實施方式將參照附圖來說明本專利技術的優選實施方式。實施方式不限制本專利技術。圖1是根據實施方式的信息處理裝置的壓縮處理的流程的示例。在信息處理裝置中,在存儲器中設置了存儲區A1、存儲區A2、存儲區A3以及存儲區A4作為用于壓縮處理的工作區。在下面的描述中,存儲區A1、存儲區A2以及存儲區A3分別被稱為編碼部、參考部以及動態字典部。信息處理裝置讀取作為壓縮目標的文件F1,并且從文件F1中的文本提取在文件F1中均以頭字符開始并且由終止符定界的字符串作為詞。例如,文件F1包括數據“…Kataoka△talks△…”。包含詞“Kataoka△”、“talks△”等。終止符是以下符號:空格(空白)、逗號(,)或者句點(.)。在實施方式中,作為示例由“△(三角形)”來表示終止符。信息處理裝置比較位過濾器C1與字符串,并且確定字符串是否符合(hit)位過濾器C1。位過濾器是用于指定使用靜態字典來壓縮的詞的字符串的過濾器。當字符串符合位過濾器C1時,信息處理裝置基于靜態字典將字符串轉換成與詞的字符串對應的壓縮碼并且輸出壓縮數據。另一方面,當字符串不符合位過濾器C1的靜態字典時,信息處理裝置將字符串轉換成與在動態字典中記錄的詞的字符串對應的壓縮碼并且輸出壓縮數據。靜態字典是下述字典:基于普通的英文語言字典、日文語言字典、教科書等來指定詞和字符出現在文檔中的出現頻率,并且對出現頻率較高的詞和字符分配較短的壓縮碼。動態字典使不符合位過濾器C1的字符串被存儲在滑動窗口上的編碼部中,并且被對照在參考部中積累的字符串進行檢查。在動態字典中記錄匹配的字符串,并且將匹配的字符串的記錄號分配為壓縮碼。稍后將詳細地描述動態字典。描述了在信息處理裝置生成文件F1中作為壓縮目標的詞的字符串“talks△”的壓縮數據時的處理。假定詞的字符串“talks△”符合位過濾器C1。信息處理裝置比較詞的字符串“talks△”與位過濾器C1,并且確定詞的字符串“talks△”是否符合位過濾器C1。由于詞的字符串“talks△”符合位過濾器C1,所以信息處理裝置將詞的字符串“talks△”編碼成記錄在靜態字典中的壓縮碼。信息處理裝置生成包括標識符“0”和詞的字
符串“talks△”的壓縮碼的壓縮數據d1。標識符“0”是指示基于靜態字典對字符串進行了編碼的信息。信息處理裝置將壓縮數據d1寫入存儲區A4中。然后,描述了在信息處理裝置生成文件F1中作為壓縮目標的詞的字符串“Kataoka△”的壓縮數據時的處理。假定字符串“Kataoka△”不符合位過濾器C1。信息處理裝置比較詞的字符串“Kataoka△”與位過濾器C1,并且確定詞的字符串“Kataoka△”是否符合位過濾器C1。由于詞的字符串“Kataoka△”不符合位過濾器C1,所以信息處理裝置執行以下處理。信息處理裝置將詞的字符串“Kataoka△”存儲在存儲區A1中,并且比較存儲區A2中存儲的詞的字符串與存儲區A1中存儲的詞的字符串,以搜索“匹配的詞”。“匹配的詞”是存儲區A2中存儲的、與存儲區A1中存儲的詞的字符串相匹配的詞。例如,當在存儲區A2中已經存儲有字符串“...Kataoka△...”時,匹配的詞是“Kataoka△”。信息處理裝置在存儲區A2中搜索“K”并且順序地檢查“a”、“t”、“a”、“o”、“k”、“a”以及“△”是否在通過搜索而定位的“K”在存儲區A2中的位置之后是以該順序連續。當匹配的詞的長度等于或大于預定長度Lmin時,信息處理裝置在動態字典部的存儲區A3中記錄匹配的詞“Kataoka△”。信息處理裝置基于動態字典部中的記錄內容來生成壓縮碼。也就是說,信息處理裝置將在動態字典部中記錄的匹配的詞的記錄號指定為字符串“Kataoka△”的壓縮碼。信息處理裝置生成包含標識符“1”和詞的字符串“Kataoka△”的壓縮碼的壓縮數據d2。標識符“1”是指示基于動態字典對字符串進行了編碼的信息。信息處理裝置將壓縮數據d2寫入存儲區A4中。信息處理裝置將在存儲區A1中存儲的字符串添加至存儲區A2,以更新存儲區A2。存儲區A2是數據大小被限定的數據區。例如,存儲區A2是大約幾千字節至幾萬字節(例如,64千字節)的存儲區。當存儲有具有等于或大于針對存儲區A2限定的數據大小的數本文檔來自技高網...
【技術保護點】
一種通過計算機執行的壓縮方法,所述壓縮方法包括使所述計算機執行處理,所述處理包括:確定目標字符串是否記錄在第一字典中,所述目標字符串為包含在輸入數據中的壓縮目標,所述第一字典使壓縮碼與對應的字符串相關;當所述目標字符串被記錄在所述第一字典中時,輸出與所述目標字符串對應的壓縮碼;當所述目標字符串未記錄在所述第一字典中時,在第一數據中搜索所述目標字符串,所述第一數據所積累的字符串是所述輸入數據的一部分并且已經被確定為未記錄在所述第一字典中;當在所述第一數據中檢索到所述目標字符串時,在與所述第一字典不同的第二字典中記錄匹配的字符串;以及輸出與所述目標字符串在所述第二字典中的記錄號對應的壓縮碼。
【技術特征摘要】
2015.01.30 JP 2015-0177161.一種通過計算機執行的壓縮方法,所述壓縮方法包括使所述計算機執行處理,所述處理包括:確定目標字符串是否記錄在第一字典中,所述目標字符串為包含在輸入數據中的壓縮目標,所述第一字典使壓縮碼與對應的字符串相關;當所述目標字符串被記錄在所述第一字典中時,輸出與所述目標字符串對應的壓縮碼;當所述目標字符串未記錄在所述第一字典中時,在第一數據中搜索所述目標字符串,所述第一數據所積累的字符串是所述輸入數據的一部分并且已經被確定為未記錄在所述第一字典中;當在所述第一數據中檢索到所述目標字符串時,在與所述第一字典不同的第二字典中記錄匹配的字符串;以及輸出與所述目標字符串在所述第二字典中的記錄號對應的壓縮碼。2.根據權利要求1所述的壓縮方法,其中,所述處理還執行:搜索與未記錄在所述第一字典中的所述目標字符串匹配的詞;當所述匹配的詞的長度等于或大于預定長度時在所述第二字典中記錄所述匹配的詞;以及所述輸出對基于所述記錄號的信息進行輸出。3.根據權利要求1或2所述的壓縮方法,其中,所述處理還執行:搜索與未記錄在所述第一字典中的所述目標字符串匹配的詞;以及當所述匹配的詞的長度小于預定長度時基于所述第一字典輸出與所述目標字符串的各個字符對應的壓縮碼。4.一種通過計算機執行的解壓縮方法,所述解壓縮方法包括使所述計算機執行處理,所述處理包括:確定壓縮碼的標識符是第一標識符還是第二標識符;當所述壓縮碼的標識符是所述第一標識符時,基于使得碼串與解壓縮信息彼此對應的信息和所述壓縮碼來對所述壓縮碼進行解壓縮;以及當所述壓縮碼的標識符是所述第二標識符時,基于由包含在壓縮數據中的與記錄位置相關的信息指示的位置的信息來對所述壓縮碼進行解壓縮。5.一種壓縮裝置,包括:確定單元(102),所述確...
【專利技術屬性】
技術研發人員:片岡正弘,鈴木泰裕,松村量,
申請(專利權)人:富士通株式會社,
類型:發明
國別省市:日本;JP
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。