本發(fā)明專利技術公開了一種采用譯碼的漢字檢索方法:在中文平臺上不需調用漢字輸入法,而根據某種常用和簡便的編碼原則從鍵盤輸入ASCII基本碼字符,生成一個字符串。另一方面,將被檢索的數據按漢字內碼和與輸入字符串所用相同的編碼原則譯碼,返回一個字符串。將兩個字符串進行比較,如果相等或被檢索字符串蘊含檢索字符串,則判別為“真”;否則為“假”,從而達到進行漢字檢索的目的。(*該技術在2019年保護過期,可自由使用*)
【技術實現步驟摘要】
本專利技術涉及一種計算機應用
中采用編碼和譯碼方式進行信息檢索的方法,尤其是指一種采用譯碼方式的應用于計算機系統上的漢字檢索技術。如今世界已經進入一個信息時代,信息處理包括信息檢索已經越來越成為廣大普通百姓日常必需之事。例如,一個大型圖書館的藏書多達幾百萬甚至上千萬冊,想要找到自己需要的書籍必須首先進行檢索;如今的一張電腦光盤容量達幾個G以上,可以存儲數億漢字,或是存儲上萬首MIDI音樂,其數量超過了大多數人畢生閱讀過的書籍或欣賞過的樂曲,要是不進行檢索人們會覺得無從下手;在郵市上,集郵愛護者面對的是幾萬種的郵品及其價格,他也必須通過檢索,才能找到自己喜歡并且價格合適的郵品。所以,沒有優(yōu)良的檢索手段,想要查找到需要的信息如同海底撈針。此外,廣大的華人電腦用戶也要求電腦軟件能使用漢字。經過二十多年的不懈努力,漢字的輸入輸出方法都已相當完善,可是漢字的檢索尚待改進。解決漢字檢索的困難便顯得極為緊迫。如圖1所示,現在的漢字檢索流程是在中文平臺上選一種漢字輸入法,輸入檢索字的“模板”字符串,然后將被檢索的數據字符串逐段取出,如若其中有一段和模板的字符串完全相等,則判別為“真”。現在的漢字檢索方法必須調用漢字輸入法并按照漢字方式輸入,而且一般在檢索字段中不能含有符號或西文,否則往往無法識別。然而,在實際中上述的漢字檢索碰到了各種各樣的困難,如1.有些電腦軟件運行時在漢字平臺上可以輸出漢字卻不能輸入漢字,因此難以用漢字作為檢索字;2.有些電腦軟件運行時盡管允許輸入漢字,但當輸入中既包含漢字又有西文、符號時會遇到麻煩或因為切換而使操作相當繁瑣;3.在信息發(fā)達的當今社會,許多文化水平尚不甚高的普通中國民眾掌握漢字輸入方法有困難,但也有大量的信息需要選擇和檢索,這就要求有簡易的漢字檢索方法與之適配。針對上述情況,本專利技術的目的在于提供一種。操作者可以不必調用漢字輸入法,甚至不必掌握漢字輸入法,即能進行漢字檢索。本專利技術的另一目的在于使用簡捷的編碼,使操作簡單、使用方便,提高了漢字檢索的效率,達到簡便、高速、高效的目的。電子計算機是處理信息的機器,它所處理的信息不僅有數字還有文字、圖形,聲音以及其它可以轉換成電信號的物理量。在電子計算機的內部無論數據、地址,運控都使用二進制,因此計算機對于信息的輸入輸出都要進行編碼和譯碼,使用的是美國標準信息代碼ASCII碼。ASCII碼事實上已為國際公認,中國國標GB 1988《信息交換用的七位編碼字符集》基本上等同ASCII基本碼。GB 2311《信息處理交換用于七位編碼字符集的擴充方法》,GB 11383《信息處理信息交換用八位代碼結構和編碼規(guī)則》規(guī)定了擴展碼的使用方法。GB 15273(等同ISO 8859)規(guī)定了多種非英文的拼音字母的擴展碼編號。漢字等文字數較多的文種則使用兩個毗連的ASCII碼,即雙字節(jié)形式,便可在電腦中存儲。這種雙ASCII的形式,稱為內碼。所以漢字是以內碼的形式在電腦中儲存的。漢字字符集只是內碼和漢字的映射關系表,是電腦儲存漢字的規(guī)范。內碼存儲在電腦中,它符合一字一碼、一碼一字的原則。目前電腦用的漢字庫主要有兩類一.基本庫①GB 2312標準《信息交換用漢字編碼字符集基本集》國標區(qū)位碼,簡稱GB碼。共94區(qū)94位,其中一級漢字3755個,二級漢字3008個,共6763個簡體漢字。②GB/T 12345“信息交換用漢字編碼字符集輔助集”簡稱GBFT,包含6866個繁體漢字。GB/T12345盡管稱為輔助集,實際卻是基本庫,其中一二級漢字庫和GB 2312相同,只是增加了103個60年代漢字簡化時被精簡掉的漢字。二.擴展庫漢字的單字個數甚多,為滿足編寫整理古籍需求,中國國家標準局制訂了GB 7578 《信息交換用漢字編碼字符集 第二輔助集》GB 13131《信息交換用漢字編碼字符集 第三輔助集》GB 7590 《信息交換用漢字編碼字符集 第四輔助集》GB 13132《信息交換用漢字編碼字符集 第五輔助集》第三、第五輔助集乃是第二、第四輔助集的繁體字。以上幾個輔助集盡管是強制性標準,卻似乎很少有人使用。也許和這些字符集都使用了94區(qū)94位,要通過ESC控制命令“轉義”完成字符集轉換,編電腦程序有點麻煩有關系。除了要擴大字庫外,針對以往的漢化軟件只能簡繁體切換不能同時使用的局限性,又制訂了允許簡繁日韓漢字同時使用的ISO/IEC 10466.1/GB 13000.1《CJK統一漢字編碼字符集》,簡稱CJK即“中、日、韓”,收集了20902個漢字。而在港臺則使用CNS 11643標準,俗稱大五碼BIG 5的字符集,含有13053個繁體漢字。目前國內電腦漢字大字庫用《漢字擴展內碼規(guī)范》GBK,它涵蓋CJK漢字以及BIG 5非漢字庫,另加80個漢字部首和構件。漢化的關鍵是輸入輸出的編碼和譯碼。它們都分兩個步驟進行對于輸入,首先是把漢字按照某種規(guī)則編成外碼,然后將外碼轉換為雙ASCII碼的內碼儲存;對于輸出,首先是讀出存儲著的ASCII內碼,再調用漢字字符集輸出內碼相對應的漢字。從鍵盤連續(xù)按一些鍵來輸入漢字,這類漢字輸入法的編碼叫做外碼,外碼未必符合一碼一字。電腦操作輸入漢字時先用易于記憶、編碼較短的外碼鍵入漢字,再由電腦自動轉換為內碼存儲。用任何方法輸入漢字,都得經過編碼錄入電腦,本專利技術的檢索法只和漢字內碼有直接聯系,和外碼以及漢字輸入方式無直接關系。反過來說,用任何方式方法輸入的漢字,都可以用本專利技術的譯碼法檢索。任何電腦軟件都是程序,典型的電腦軟件則是用算法語言編寫的源程序。漢化源程序有幾種不同的類型①在字符串及其相關的輸入輸出中用漢字;②算法語言的保留字用漢字;③變量名用漢字。也就是說,漢化并非要求全部使用漢字,而是根據需要可以中西文、阿拉伯數字、符號混用,以取得最佳效果為目標。因此,檢索漢字實質上就是作字符串比較,當被檢索字符串和檢索字符串比較判別為相等時為“真”。本專利技術的技術方案如下一種,包括下述步驟(1)加載漢字檢索系統(2)選擇字符集的類型(3)輸入檢索字(4)按編碼法生成“檢索字符串”(5)讀出被檢索的數據(6)按譯碼法生成“別稱字符串”(7)比較“檢索字符串”和“別稱字符串”(8)做被檢索數據的相關運作(9)檢查數據是否終了(10)進入下一個數據區(qū)(11)檢索完畢本專利技術改變了漢字檢索的思路和運行流程在中文平臺上不調入漢字輸入法,而根據某種常用和簡便的編碼原則從鍵盤輸入ASCII基本碼字符,組成一個字符串。另一方面,將被檢索的數據字符串按漢字內碼和與輸入字符串所用相同的編碼原則譯碼,返回一個字符串。將兩個字符串進行比較,如果相等或被檢索字符串蘊含檢索字符串,則判別為“真”。前述的用來從鍵盤輸入由ASCII基本碼字符組成的檢索字符串的常用和簡便的編碼方法是這樣的通常采用漢語拼音首字符的方法,即采用輸入檢索字的每一個漢字的漢語拼音的第一個字母(不管它是聲母還是韻母)的方式來進行檢索,因為這種方式不需背誦編碼規(guī)則,擊鍵次數較少,易學好懂、操作簡便,只要會漢語拼音即可。由于本漢字檢索方法提出的方法不需要漢字輸入模塊,因而可以應用于不能輸入漢字,但能輸出漢字的場合;可以避免中西文和符號輸入切換時的操作困難;而且,實際上配合本專利技術的是簡短的編碼法本文檔來自技高網...
【技術保護點】
一種采用譯碼的漢字檢索方法,其特征在于包括下述步驟:(1)加載漢字檢索系統,(2)選擇字符集的類型,(3)輸入檢索字,(4)按編碼法生成“檢索字符串”,(5)讀出被檢索的數據,(6)按譯碼法生成“別稱字符串”,( 7)比較“檢索字符串”和“別稱字符串”,(8)做被檢索數據的相關運作,(9)檢查數據是否終了,(10)進入下一個數據區(qū),(11)檢索完畢。
【技術特征摘要】
【專利技術屬性】
技術研發(fā)人員:汪文虎,
申請(專利權)人:汪文虎,
類型:發(fā)明
國別省市:31[中國|上海]
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。