System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據處理,尤其涉及一種支持檢索的數據存儲方法、索引方法及存儲系統。
技術介紹
1、互聯網時代,業務應用飛速增長,隨之而來的大數據運營已成為常態,海量數據的運營且數據內容繁雜也為對于數據庫內數據的檢索帶來巨大壓力。
2、現有技術中公開了一種數據存儲與檢索裝置,包括:索引文件管理模塊,為數據制定索引信息,并將所述數據的索引信息記錄在索引文件中;定位文件管理模塊,為所述數據制定存儲位置信息,并將所述數據的存儲位置信息記錄在定位文件中;數據文件管理模塊,按所述存儲文件信息,將所述數據存儲為數據文件以供檢索。通過該技術方案,可以在數據應用,尤其是在使用海量數據的場合下,避免一次性加載過量數據,減輕系統壓力,同時,提高數據存儲、檢索和恢復的效率。
3、但上述技術方案中,不能在保證對于數據的檢索效率的同時保證檢索效果。
技術實現思路
1、本專利技術的目的在于:提供一種支持檢索的數據存儲方法、索引方法及存儲系統,能夠在存儲數據的同時兼顧對于數據的后期檢索,有效避免了對于數據無效檢索現象的發生。
2、為此,第一方面,本專利技術提供了一種支持檢索的數據存儲方法,所述支持檢索的數據存儲方法包括:
3、將單個存儲主體的內容與停用詞表比對確定單個存儲主體中的若干特征詞;
4、確定各特征詞對于存儲主體的表征能力參數;
5、將存儲主體的特征詞以及特征詞的表征能力參數生成為索引信息表并與存儲主體共同存儲;
6、其中,
7、所述表征能力參數根據特征詞的連續特征值和出現次數確定,且表征能力參數分別與所述連續特征值和所述出現次數成正相關;
8、其中,針對文本類型的存儲主體,連續特征值為連續的若干相同間隔的字段內,特征詞連續出現的最大連續字段數量與存儲主體包含的總字段數量的比值;
9、針對視頻或音頻類型的存儲主體,連續特征值為連續的若干相同間隔的時段內,特征詞連續出現的最大連續時段數量與存儲主體包含的總時段數量的比值。
10、作為支持檢索的數據存儲方法的優選技術方案,在所述確定各特征詞對于存儲主體的表征能力參數中,將特征詞的連續特征值和特征詞的出現次數的乘積確定為特征詞對于存儲主體的表征能力參數。
11、作為支持檢索的數據存儲方法的優選技術方案,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為文本,執行以下步驟:
12、統計存儲主體中出現次數大于一次的詞語;
13、比對統計出的各詞語的出現次數,將排名前預設數量名次的詞語確定為該存儲主體的特征詞。
14、作為支持檢索的數據存儲方法的優選技術方案,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為音頻執行以下步驟:
15、對存儲主體進行音頻文字識別;
16、統計存儲主體中出現次數大于一次的詞語;
17、比對統計出的各詞語的出現次數,將排名前預設數量名次的詞語確定為該存儲主體的特征詞。
18、作為支持檢索的數據存儲方法的優選技術方案,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為視頻執行以下步驟;
19、對存儲主體分別進行音頻文字識別和圖像文字識別;
20、統計存儲主體中出現次數大于一次的詞語;
21、比對統計出的各詞語的出現次數,將排名前預設數量名次的詞語確定為該存儲主體的特征詞。
22、作為支持檢索的數據存儲方法的優選技術方案,在所述確定特征詞對于存儲主體的表征能力參數之后還包括:
23、對存儲主體的特征詞進行語義分析,將語義相同的若干特征詞的表征能力參數均確定為語義相同的各特征詞中的表征能力參數中的數值最高的一項。
24、第二方面,本專利技術提供了一種索引方法,用于上述方案中的支持檢索的數據存儲方法得到的數據庫的檢索,包括:
25、確定特征詞與檢索內容匹配的存儲主體;
26、讀取對應的索引信息表,根據特征詞對于存儲主體的表征能力參數確定索引信息對于存儲主體的展示順序。
27、作為索引方法的優選技術方案,根據特征詞對于存儲主體的表征能力參數確定索引信息對于存儲主體的展示順序包括:
28、確定各存儲主體與檢索內容匹配的特征詞;
29、以各存儲主體與檢索內容匹配的特征詞的表征能力參數之和由大到小的順序作為所述索引信息對于各存儲主體的展示順序。
30、第三方面,本專利技術提供一種數據存儲系統,應用上述的支持檢索的數據存儲方法進行數據存儲,包括:
31、數據存儲模塊,用于存儲主體的存儲;
32、提取模塊,與所述數據存儲模塊連接,用于提取存儲主體的特征詞并統計特征詞的出現次數和出現節點;
33、計算模塊,與所述提取模塊連接,用于計算特征詞的連續特征值和表征能力參數;
34、索引支持模塊,分別與所述提取模塊和所述計算模塊連接,用于生成包括存儲主體的特征詞以及存儲主體的特征詞的表征能力參數的索引數據表并存儲。
35、作為數據存儲系統的優選技術方案,所述計算模塊設有語義分析單元,所述語義分析單元用于確定語義相同的特征詞并刷新語義相同的特征詞的表征能力參數。
36、本專利技術的有益效果為:
37、本專利技術提供的支持檢索的數據存儲方法通過對于表征能力參數的確定,考慮到了詞語在存儲主體內連續性與詞語對于存儲主體的表征能力的相關關系,由于在實際應用中,存在特征詞集中出現于某一時段的情況,由于這一情況下特征詞大多僅能表征對應時段的內容,這使得特征詞的出現次數的表征性較弱,相比之下,特征詞在若干相鄰的時段連續出現更具表征性,說明特征詞較大程度地貫穿在存儲主體內,如此通過出現次數和連續特征值確定的表征能力參數能夠更好的體現特征詞與存儲主體的相關度,綜上,本申請的數據存儲方法能夠在存儲數據的同時兼顧對于數據的后期檢索,保證了對數據庫內檢索內容的有效索引,進而有效避免了對于數據無效檢索現象的發生。
38、進一步的,本專利技術對于不同類型的存儲主體的連續特征值分別采用字段與總字段比值和時段和總時段比值的方式進行確定,如此設定能夠使音頻、視頻和文本類型的存儲主體在響應檢索時具有良好的統一性,使表征能力參數對于不同類型的存儲主體具有可比對性,在對于多種文件類型檢索的情況下展示的索引信息準確可靠,進一步保證了對數據庫內檢索內容的有效索引。
本文檔來自技高網...【技術保護點】
1.一種支持檢索的數據存儲方法,其特征在于,包括:
2.根據權利要求1所述的支持檢索的數據存儲方法,其特征在于,在所述確定各特征詞對于存儲主體的表征能力參數中,將特征詞的連續特征值和特征詞的出現次數的乘積確定為特征詞對于存儲主體的表征能力參數。
3.根據權利要求2所述的支持檢索的數據存儲方法,其特征在于,在所述確定特征詞對于存儲主體的表征能力參數之后還包括:
4.根據權利要求3所述的支持檢索的數據存儲方法,其特征在于,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為文本,執行以下步驟:
5.根據權利要求4所述的支持檢索的數據存儲方法,其特征在于,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為音頻執行以下步驟:
6.根據權利要求5所述的支持檢索的數據存儲方法,其特征在于,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為視頻執行以下步驟;
7.一種索引方法,用于以權利要求1至權利要求6中任一項所述的
8.根據權利要求7所述的索引方法,其特征在于,根據特征詞對于存儲主體的表征能力參數確定索引信息對于存儲主體的展示順序包括:
9.一種數據存儲系統,應用權利要求1至權利要求6任一項所述的支持檢索的數據存儲方法進行數據存儲,其特征在于,包括:
10.根據權利要求9所述的數據存儲系統,其特征在于,所述計算模塊設有語義分析單元,所述語義分析單元用于確定語義相同的特征詞并刷新語義相同的特征詞的表征能力參數。
...【技術特征摘要】
1.一種支持檢索的數據存儲方法,其特征在于,包括:
2.根據權利要求1所述的支持檢索的數據存儲方法,其特征在于,在所述確定各特征詞對于存儲主體的表征能力參數中,將特征詞的連續特征值和特征詞的出現次數的乘積確定為特征詞對于存儲主體的表征能力參數。
3.根據權利要求2所述的支持檢索的數據存儲方法,其特征在于,在所述確定特征詞對于存儲主體的表征能力參數之后還包括:
4.根據權利要求3所述的支持檢索的數據存儲方法,其特征在于,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為文本,執行以下步驟:
5.根據權利要求4所述的支持檢索的數據存儲方法,其特征在于,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為音頻執行以下步驟:
【專利技術屬性】
技術研發人員:金峰,毛萌,
申請(專利權)人:中能數創天津科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。