System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據管理,更具體的說是涉及一種高效存儲和檢索跨語言的文字數據的方法、系統及存儲介質。
技術介紹
1、現今,在數據管理領域中,大多研究者的關注點在成文或成句的數據存儲研究及數據應用之上,對于組成文本、句子的文字本身的存儲和潛在價值的研究較少。文字是組成句子、文本的基本單元,這些基本單元根據詞性分為名詞、代詞、數詞、動詞、形容詞、副詞、地名、節日、人名、日期、感嘆詞和情態詞等,文字所屬語法結構主語、謂語、賓語、表語、定語、狀語、補語是組成句子的關鍵,不同句子按照結構劃分為主謂、主謂賓、主謂雙賓、主謂賓補、主系表,而句子之間前后存在的語義關系構成了文本。句子和文本會因表達者所屬領域以及情感意圖變化,該變化直接影響句子和文本的數量級,對存儲環境的大小要求和檢索調用速度產生間接影響。
2、因此,如何克服因表達者情感意圖變化引起的文本數據量大、占用存儲空間多、可擴展和改進性較低的問題是本領域技術人員亟需解決的技術問題。
技術實現思路
1、有鑒于此,本專利技術提供了一種高效存儲和檢索跨語言的文字數據的方法、系統及存儲介質,解決了
技術介紹
存在的問題。
2、為了實現上述目的,本專利技術提供如下技術方案:
3、一種高效存儲和檢索跨語言的文字數據的方法,包括以下步驟:
4、將不同的句子按照句子的結構進行劃分,構建結構樹;
5、按照文字所屬語法結構分類不同詞性文字,形成語法線性鏈表;
6、將相同詞性文字存儲在同維線性鏈表
7、以漢語為檢索基準建立n維線性鏈表,將同一文字的不同語種表示放入同維語種線性鏈表;
8、基于建立的語法線性鏈表、詞性線性鏈表和語種線性鏈表,獲取待檢索文字的位置并將位置信息輸出,完成檢索操作。
9、可選的,劃分類別包括:主謂、主謂賓、主謂雙賓、主謂賓補、主系表。
10、可選的,結構樹中,根節點為主語,主語的子節點為及物謂語、不及物謂語、系動詞;及物謂語的子節點為直接賓語,直接賓語的子節點為間接賓語和賓語補足語;系動詞的子節點為表語;不及物謂語沒有子節點。
11、可選的,結構樹中,每個節點存放有可做該節點所有詞性的線性鏈表中頭節點的索引值。
12、可選的,在詞性線性鏈表中,固定不同維度的索引值后所鏈接的詞性序列,以在索引值相同時區分類別。
13、可選的,在形成語法線性鏈表時,通過詞性類別的中英文對照表,獲取對應英文的首字母,確定首字母在字母表中的位置序號,對位置序號取26的余數作為索引值存放詞性類別。
14、可選的,在語種線性鏈表中,根據每種語言的索引值前后順序找出對應文字的語言表達;其中,每種語言的索引值前后順序為不同語言的拼音首字母在字母表中的位置序號取26的余數之后的順序。
15、一種高效存儲和檢索跨語言的文字數據的系統,應用以上任一項所述的高效存儲和檢索跨語言的文字數據的方法,包括:
16、劃分模塊,用于將不同的句子按照句子的結構進行劃分,構建結構樹;
17、第一構建模塊,用于按照文字所屬語法結構分類不同詞性文字,形成語法線性鏈表;
18、第二構建模塊,用于將相同詞性文字存儲在同維線性鏈表中,以詞性依次類推形成以詞性類別為維度的多維詞性線性鏈表;
19、第三構建模塊,用于以漢語為檢索基準建立n維線性鏈表,將同一文字的不同語種表示放入同維語種線性鏈表;
20、檢索模塊,用于根據建立的語法線性鏈表、詞性線性鏈表和語種線性鏈表,獲取待檢索文字的位置并將位置信息輸出,完成檢索操作。
21、一種計算機可存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現以上任一項所述高效存儲和檢索跨語言的文字數據的方法的步驟。
22、經由上述的技術方案可知,與現有技術相比,本專利技術公開提供了一種高效存儲和檢索跨語言的文字數據的方法、系統及存儲介質,建立了索引不同語種、詞性以及語法的線性鏈表,達到了高效存儲和檢索的效果,克服了因表達者情感意圖變化引起的文本數據量大、占用存儲空間多、可擴展和改進性較低的問題。
本文檔來自技高網...【技術保護點】
1.一種高效存儲和檢索跨語言的文字數據的方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種高效存儲和檢索跨語言的文字數據的方法,其特征在于,劃分類別包括:主謂、主謂賓、主謂雙賓、主謂賓補、主系表。
3.根據權利要求1所述的一種高效存儲和檢索跨語言的文字數據的方法,其特征在于,結構樹中,根節點為主語,主語的子節點為及物謂語、不及物謂語、系動詞;及物謂語的子節點為直接賓語,直接賓語的子節點為間接賓語和賓語補足語;系動詞的子節點為表語;不及物謂語沒有子節點。
4.根據權利要求1所述的一種高效存儲和檢索跨語言的文字數據的方法,其特征在于,結構樹中,每個節點存放有可做該節點所有詞性的線性鏈表中頭節點的索引值。
5.根據權利要求1所述的一種高效存儲和檢索跨語言的文字數據的方法,其特征在于,在詞性線性鏈表中,固定不同維度的索引值后所鏈接的詞性序列,以在索引值相同時區分類別。
6.根據權利要求1所述的一種高效存儲和檢索跨語言的文字數據的方法,其特征在于,在形成語法線性鏈表時,通過詞性類別的中英文對照表,獲取對應英文的首字母,
7.根據權利要求1所述的一種高效存儲和檢索跨語言的文字數據的方法,其特征在于,在語種線性鏈表中,根據每種語言的索引值前后順序找出對應文字的語言表達;其中,每種語言的索引值前后順序為不同語言的拼音首字母在字母表中的位置序號取26的余數之后的順序。
8.一種高效存儲和檢索跨語言的文字數據的系統,應用如權利要求1-7任一項所述的高效存儲和檢索跨語言的文字數據的方法,其特征在于,包括:
9.一種計算機可存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1-7任一項所述高效存儲和檢索跨語言的文字數據的方法的步驟。
...【技術特征摘要】
1.一種高效存儲和檢索跨語言的文字數據的方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種高效存儲和檢索跨語言的文字數據的方法,其特征在于,劃分類別包括:主謂、主謂賓、主謂雙賓、主謂賓補、主系表。
3.根據權利要求1所述的一種高效存儲和檢索跨語言的文字數據的方法,其特征在于,結構樹中,根節點為主語,主語的子節點為及物謂語、不及物謂語、系動詞;及物謂語的子節點為直接賓語,直接賓語的子節點為間接賓語和賓語補足語;系動詞的子節點為表語;不及物謂語沒有子節點。
4.根據權利要求1所述的一種高效存儲和檢索跨語言的文字數據的方法,其特征在于,結構樹中,每個節點存放有可做該節點所有詞性的線性鏈表中頭節點的索引值。
5.根據權利要求1所述的一種高效存儲和檢索跨語言的文字數據的方法,其特征在于,在詞性線性鏈表中,固定不同維度的索引值后所鏈接的詞性序列,以在索引值相同時區分類別...
【專利技術屬性】
技術研發人員:古麗米拉·克孜爾別克,葉爾江·哈力木,孫偉,曹姍姍,張志勇,馬妍,
申請(專利權)人:新疆農業大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。