System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 日韩av片无码一区二区三区不卡 ,亚洲国产综合无码一区二区二三区,人妻少妇精品无码专区漫画
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    支持檢索的數據存儲方法、索引方法及存儲系統技術方案

    技術編號:43631606 閱讀:14 留言:0更新日期:2024-12-11 15:12
    本發明專利技術涉及數據處理領域,具體公開了一種支持檢索的數據存儲方法、索引方法及存儲系統,包括將單個存儲主體的內容與停用詞表比對確定單個存儲主體中的若干特征詞;確定各特征詞對于存儲主體的表征能力參數;將存儲主體的特征詞以及特征詞的表征能力參數生成為索引信息表并與存儲主體共同存儲,表征能力參數根據特征詞的連續特征值和出現次數確定;通過表征能力參數的確定,考慮到了詞語在存儲主體內連續性與詞語對于存儲主體的表征能力的相關關系,能夠在存儲數據的同時兼顧對于數據的后期檢索,保證了數據庫內對應檢索內容的有效索引,進而有效避免了對于數據無效檢索現象的發生。

    【技術實現步驟摘要】

    本專利技術涉及數據處理,尤其涉及一種支持檢索的數據存儲方法、索引方法及存儲系統


    技術介紹

    1、互聯網時代,業務應用飛速增長,隨之而來的大數據運營已成為常態,海量數據的運營且數據內容繁雜也為對于數據庫內數據的檢索帶來巨大壓力。

    2、現有技術中公開了一種數據存儲與檢索裝置,包括:索引文件管理模塊,為數據制定索引信息,并將所述數據的索引信息記錄在索引文件中;定位文件管理模塊,為所述數據制定存儲位置信息,并將所述數據的存儲位置信息記錄在定位文件中;數據文件管理模塊,按所述存儲文件信息,將所述數據存儲為數據文件以供檢索。通過該技術方案,可以在數據應用,尤其是在使用海量數據的場合下,避免一次性加載過量數據,減輕系統壓力,同時,提高數據存儲、檢索和恢復的效率。

    3、但上述技術方案中,不能在保證對于數據的檢索效率的同時保證檢索效果。


    技術實現思路

    1、本專利技術的目的在于:提供一種支持檢索的數據存儲方法、索引方法及存儲系統,能夠在存儲數據的同時兼顧對于數據的后期檢索,有效避免了對于數據無效檢索現象的發生。

    2、為此,第一方面,本專利技術提供了一種支持檢索的數據存儲方法,所述支持檢索的數據存儲方法包括:

    3、將單個存儲主體的內容與停用詞表比對確定單個存儲主體中的若干特征詞;

    4、確定各特征詞對于存儲主體的表征能力參數;

    5、將存儲主體的特征詞以及特征詞的表征能力參數生成為索引信息表并與存儲主體共同存儲;

    6、其中,所述特征詞為排除所述停用詞表包含的詞語的情況下,在所述存儲主體內出現次數排名前預設數量名次的詞語;

    7、所述表征能力參數根據特征詞的連續特征值和出現次數確定,且表征能力參數分別與所述連續特征值和所述出現次數成正相關;

    8、其中,針對文本類型的存儲主體,連續特征值為連續的若干相同間隔的字段內,特征詞連續出現的最大連續字段數量與存儲主體包含的總字段數量的比值;

    9、針對視頻或音頻類型的存儲主體,連續特征值為連續的若干相同間隔的時段內,特征詞連續出現的最大連續時段數量與存儲主體包含的總時段數量的比值。

    10、作為支持檢索的數據存儲方法的優選技術方案,在所述確定各特征詞對于存儲主體的表征能力參數中,將特征詞的連續特征值和特征詞的出現次數的乘積確定為特征詞對于存儲主體的表征能力參數。

    11、作為支持檢索的數據存儲方法的優選技術方案,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為文本,執行以下步驟:

    12、統計存儲主體中出現次數大于一次的詞語;

    13、比對統計出的各詞語的出現次數,將排名前預設數量名次的詞語確定為該存儲主體的特征詞。

    14、作為支持檢索的數據存儲方法的優選技術方案,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為音頻執行以下步驟:

    15、對存儲主體進行音頻文字識別;

    16、統計存儲主體中出現次數大于一次的詞語;

    17、比對統計出的各詞語的出現次數,將排名前預設數量名次的詞語確定為該存儲主體的特征詞。

    18、作為支持檢索的數據存儲方法的優選技術方案,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為視頻執行以下步驟;

    19、對存儲主體分別進行音頻文字識別和圖像文字識別;

    20、統計存儲主體中出現次數大于一次的詞語;

    21、比對統計出的各詞語的出現次數,將排名前預設數量名次的詞語確定為該存儲主體的特征詞。

    22、作為支持檢索的數據存儲方法的優選技術方案,在所述確定特征詞對于存儲主體的表征能力參數之后還包括:

    23、對存儲主體的特征詞進行語義分析,將語義相同的若干特征詞的表征能力參數均確定為語義相同的各特征詞中的表征能力參數中的數值最高的一項。

    24、第二方面,本專利技術提供了一種索引方法,用于上述方案中的支持檢索的數據存儲方法得到的數據庫的檢索,包括:

    25、確定特征詞與檢索內容匹配的存儲主體;

    26、讀取對應的索引信息表,根據特征詞對于存儲主體的表征能力參數確定索引信息對于存儲主體的展示順序。

    27、作為索引方法的優選技術方案,根據特征詞對于存儲主體的表征能力參數確定索引信息對于存儲主體的展示順序包括:

    28、確定各存儲主體與檢索內容匹配的特征詞;

    29、以各存儲主體與檢索內容匹配的特征詞的表征能力參數之和由大到小的順序作為所述索引信息對于各存儲主體的展示順序。

    30、第三方面,本專利技術提供一種數據存儲系統,應用上述的支持檢索的數據存儲方法進行數據存儲,包括:

    31、數據存儲模塊,用于存儲主體的存儲;

    32、提取模塊,與所述數據存儲模塊連接,用于提取存儲主體的特征詞并統計特征詞的出現次數和出現節點;

    33、計算模塊,與所述提取模塊連接,用于計算特征詞的連續特征值和表征能力參數;

    34、索引支持模塊,分別與所述提取模塊和所述計算模塊連接,用于生成包括存儲主體的特征詞以及存儲主體的特征詞的表征能力參數的索引數據表并存儲。

    35、作為數據存儲系統的優選技術方案,所述計算模塊設有語義分析單元,所述語義分析單元用于確定語義相同的特征詞并刷新語義相同的特征詞的表征能力參數。

    36、本專利技術的有益效果為:

    37、本專利技術提供的支持檢索的數據存儲方法通過對于表征能力參數的確定,考慮到了詞語在存儲主體內連續性與詞語對于存儲主體的表征能力的相關關系,由于在實際應用中,存在特征詞集中出現于某一時段的情況,由于這一情況下特征詞大多僅能表征對應時段的內容,這使得特征詞的出現次數的表征性較弱,相比之下,特征詞在若干相鄰的時段連續出現更具表征性,說明特征詞較大程度地貫穿在存儲主體內,如此通過出現次數和連續特征值確定的表征能力參數能夠更好的體現特征詞與存儲主體的相關度,綜上,本申請的數據存儲方法能夠在存儲數據的同時兼顧對于數據的后期檢索,保證了對數據庫內檢索內容的有效索引,進而有效避免了對于數據無效檢索現象的發生。

    38、進一步的,本專利技術對于不同類型的存儲主體的連續特征值分別采用字段與總字段比值和時段和總時段比值的方式進行確定,如此設定能夠使音頻、視頻和文本類型的存儲主體在響應檢索時具有良好的統一性,使表征能力參數對于不同類型的存儲主體具有可比對性,在對于多種文件類型檢索的情況下展示的索引信息準確可靠,進一步保證了對數據庫內檢索內容的有效索引。

    本文檔來自技高網...

    【技術保護點】

    1.一種支持檢索的數據存儲方法,其特征在于,包括:

    2.根據權利要求1所述的支持檢索的數據存儲方法,其特征在于,在所述確定各特征詞對于存儲主體的表征能力參數中,將特征詞的連續特征值和特征詞的出現次數的乘積確定為特征詞對于存儲主體的表征能力參數。

    3.根據權利要求2所述的支持檢索的數據存儲方法,其特征在于,在所述確定特征詞對于存儲主體的表征能力參數之后還包括:

    4.根據權利要求3所述的支持檢索的數據存儲方法,其特征在于,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為文本,執行以下步驟:

    5.根據權利要求4所述的支持檢索的數據存儲方法,其特征在于,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為音頻執行以下步驟:

    6.根據權利要求5所述的支持檢索的數據存儲方法,其特征在于,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為視頻執行以下步驟;

    7.一種索引方法,用于以權利要求1至權利要求6中任一項所述的支持檢索的數據存儲方法得到的數據庫的檢索,其特征在于,包括:

    8.根據權利要求7所述的索引方法,其特征在于,根據特征詞對于存儲主體的表征能力參數確定索引信息對于存儲主體的展示順序包括:

    9.一種數據存儲系統,應用權利要求1至權利要求6任一項所述的支持檢索的數據存儲方法進行數據存儲,其特征在于,包括:

    10.根據權利要求9所述的數據存儲系統,其特征在于,所述計算模塊設有語義分析單元,所述語義分析單元用于確定語義相同的特征詞并刷新語義相同的特征詞的表征能力參數。

    ...

    【技術特征摘要】

    1.一種支持檢索的數據存儲方法,其特征在于,包括:

    2.根據權利要求1所述的支持檢索的數據存儲方法,其特征在于,在所述確定各特征詞對于存儲主體的表征能力參數中,將特征詞的連續特征值和特征詞的出現次數的乘積確定為特征詞對于存儲主體的表征能力參數。

    3.根據權利要求2所述的支持檢索的數據存儲方法,其特征在于,在所述確定特征詞對于存儲主體的表征能力參數之后還包括:

    4.根據權利要求3所述的支持檢索的數據存儲方法,其特征在于,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為文本,執行以下步驟:

    5.根據權利要求4所述的支持檢索的數據存儲方法,其特征在于,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應于存儲主體類別為音頻執行以下步驟:

    【專利技術屬性】
    技術研發人員:金峰毛萌
    申請(專利權)人:中能數創天津科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码成人精品区大在线| 人妻少妇无码视频在线| 国产亚洲情侣一区二区无码AV| 国产高清无码二区| 久久久久亚洲av无码尤物| 丰满亚洲大尺度无码无码专线| 亚洲国产精品无码久久一线| 岛国av无码免费无禁网站| 亚洲av无码一区二区三区网站 | 亚洲av日韩av高潮潮喷无码| 亚洲aⅴ无码专区在线观看春色| 亚洲中文字幕久久精品无码喷水| 久久精品日韩av无码| 熟妇人妻AV无码一区二区三区| 日韩aⅴ人妻无码一区二区| 亚洲AV色吊丝无码| 无码精品视频一区二区三区 | 不卡无码人妻一区三区音频| 人妻aⅴ中文字幕无码| 色窝窝无码一区二区三区色欲 | 久久午夜夜伦鲁鲁片免费无码| 日韩乱码人妻无码中文字幕视频| 中文AV人妻AV无码中文视频| 亚洲av无码专区国产乱码在线观看| 人妻系列无码专区久久五月天 | 无码人妻精品一区二区蜜桃| 无码国产精品一区二区免费模式| 国产综合无码一区二区三区| 精选观看中文字幕高清无码| mm1313亚洲精品无码又大又粗| 成人无码嫩草影院| 免费无码国产在线观国内自拍中文字幕 | 色欲A∨无码蜜臀AV免费播| 久久亚洲精品AB无码播放| 国产AV无码专区亚洲AV男同| 亚洲日韩精品一区二区三区无码| 久久精品无码一区二区日韩AV | 亚洲人成无码网站在线观看| 亚洲爆乳少妇无码激情| 精品久久久久久久无码久中文字幕 | 精品久久久无码中文字幕天天|