• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>李隆烽專利>正文

    一種基于語義分析的數據處理系統及方法技術方案

    技術編號:15329492 閱讀:142 留言:0更新日期:2017-05-16 13:09
    本發明專利技術提供一種基于語義分析的數據處理系統和方法,包括:數據篩選模塊對目標數據進行分割并建立次級結構;數據分析模塊對分割后數據的次級結構進行語義分析并對結果建立索引;運算模塊對所述的索引進行逐項運算并記錄運算結果;聯合模塊依索引運算記錄,將索引對應的數據進行關聯。本發明專利技術應用于小數據或含有結構的數據時,較單純使用語義分析高效和簡便。

    Data processing system and method based on semantic analysis

    The invention provides a semantic analysis of the data processing system and method based on data filtering module includes: segmentation of the target data and establish a secondary structure; data analysis module of the secondary structure of segmented data semantic analysis and indexing of the operation of the module; the index for each operation and record the operation result the joint operation module; ISO cited records, the index corresponding data association. When applied to small data or structured data, the method is more efficient and simpler than simply using semantic analysis.

    【技術實現步驟摘要】
    一種基于語義分析的數據處理系統及方法
    本專利技術屬于人工智能領域,尤其是涉及一種信息分析與處理

    技術介紹
    通過計算機對數據進行運算和關聯是一種常見需求。搜索引擎是一種簡單化的方式,其優點在于精度高和簡便性。但是搜索引擎有很強的局限性:只能搜索關鍵詞相關內容;無法識別關鍵詞的語義并進一步處理;無法對數據進行多對多處理。語義分析是一種有效的處理方式,通過對不同的數據進行分析,可使計算機理解數據的語義,而不被語言的表達形式所限制。但是現有的語義分析算法復雜,精度低,軟硬件和時間開支龐大。語義分析精度嚴重依賴大量的統計,當數據過少時,語義分析很難建立足夠的精度。常見數據一般都包含一定的非語義結構,語義分析并不能理解和利用這些結構。
    技術實現思路
    針對上述存在的問題,本專利技術提供一種數據處理系統,可以克服現有搜索引擎使用有局限而語義分析復雜低效的問題,有效利用數據本身的非語義結構,并優化小數據的語義分析效果。本專利技術提供一種數據處理系統,包括:數據篩選模塊:對不同數據進行分割,可使用語義分析或其他方法對數據進行結構分割以建立次級結構。特別的,數據的次級結構可以重疊,并且可以是數據自身。數據分析模塊:對所述分割后數據的某次級結構進行語義分析,并用結果建立索引。對同一筆數據的多個不同結構可以進行相應的多次分析并建立多個索引。運算模塊:對所述的索引進行逐項運算,依運算結果對索引進行記錄。聯合模塊:依索引運算記錄,將索引對應的數據進行關聯。本專利技術提供了一種數據處理方法,包括以下步驟:對目標數據進行分割;對分割后數據的某部分或全部進行語義分析并對結果建立索引;對索引進行運算并記錄運算結果;依索引運算記錄,將索引對應的數據進行關聯。附圖說明圖1,本專利技術數據處理系統結構圖。圖2,本專利技術數據處理系統工作流程圖。圖3,本專利技術數據處理方法步驟圖。具體實施方式以下所述僅是本專利技術的優選實施方案,應當指出,本領域技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。實施方案一,應用于智能客服,即能夠自動回答客戶提問的系統。本專利技術應用于智能客服時,比單純使用語義分析要更加精確和簡便。為了便于理解本專利技術的特點,先說明單純使用語義分析的方法。單純使用語義分析時,語義分析引擎先對知識庫進行拆字斷句、提取關鍵詞、建立語義表和邏輯表,此過程依賴于對知識庫和其他大量數據的統計,不僅極其復雜和漫長,而且對知識庫本身要求嚴苛;且最終的語義表和邏輯表極其龐大。當客戶進行提問時,對提問進行拆字斷句、提取關鍵詞、建立語義表,此過程的結果依舊依賴于對知識庫和其他大量數據的統計;然后依據所述知識庫的邏輯表和語義表進行關聯,由于知識庫語義表和邏輯表的龐大,需要進行大量的計算。當知識庫中存在答案時,還需要依據語義表使用語言生成器系統生成自然語言。應當注意的是,由于歷史積累和用戶習慣的,廠商都有產品說明書和人工客服的客服問答記錄,盡管可以將產品說明書和客服問答記錄作為知識庫的一部分單純使用語義分析處理,但是這樣使用使得產品說明書和客服問答記錄天然的內在結構得不到利用。對于使用本專利技術的系統,僅需要如下流程:對客服問答記錄的用戶提問進行語義分析并建立語義表;當客戶進行提問時,對提問進行語義分析并建立語義表;用客戶問題的語義表對問答記錄中問題的語義表進行檢索或其他簡單運算,判斷是否相似。客服問答記錄語義表中有和客戶問題語義表匹配項,則所述客服問答記錄語義表對應項的問題與客戶提問相同,直接將客服問答記錄中問題對應的答案給予客戶即可。使用本方法后,不用全知識庫的語義表,不僅提高了效率還減少了知識污染;不用建立邏輯表,即減少了知識庫的維護又提高了回答相應速度。特別的,由于客服問答記錄既有的大量重復問答嚴重影響了系統效率,本系統還可以合并相似問答以優化系統。具體方法如下:對客服問答記錄中的提問逐項進行語義分析并建立語義表,再進行簡單運算,判斷是否相似。記錄語義表中相似的條目,對其相應問答記錄的提問和答案進行語義分析并建立語義表,并進行簡單運算,判斷是否相似。若相似,則建立相似記錄,給予客戶回答時依所述記錄將相似問題折疊顯示。實施方案二,應用于輿情分析,及時分析媒體中產品相關信息。傳統方法有三種,人工分析,建模分析,單純語義分析。人工分析即對數據進行人工記錄并統計,對記錄的理解程度和靈活性最高,但效率低下、及時性差且資源消耗高。建模分析依靠人工建立算法,對數據進行計算,效率最高,對記錄的理解程度差,靈活性差,及時性差,資源消耗高。語義分析不需要依賴人工,但由于媒體內容的碎片化、多樣化、復雜化和流行性,導致語義分析的時效性差,精度和可靠性也差,設備資源消耗更高。所述碎片化是指語言表達過短且不完整,所述多樣化是表達方式差異較大,所述復雜化是指即使同一表達其語義含義也可能截然不同,流行性是指大量相似的表達方式會爆發性的突然出現和消失。使用本系統進行輿情分析,包含如下流程:對數據進行篩選,可使用多樣化的篩選方式,如先進行檢索關鍵詞,并包含關鍵詞上下文一定范圍。對篩選后的數據進行語義分析,并對結果進行簡單運算,合并相似內容形成數據群,并記錄群中數據的數量。把不同數據群劃分到不同的維度。所述維度是人工建立的集合,約定以一定的方法使系統自動合并相似數據群。特別的,當某數據群包含數據過大或增長過快時,系統可對該數據群建立臨時維度,其后再由人工處理。因此當突然爆發媒體流行時,也不會錯失輿情。本實施方案一和實施方案二中所述的簡單運算是指不需要進行語義分析或不依賴對于對知識庫進行語義分析生成的邏輯表的運算,包括但不限于邏輯運算符,人工給定的算法,人工給定的有限邏輯表。本領域普通技術人員可以理解:實現上述系統實施的全部或部分可以通過程序指令相關的硬件來實現,前述的方法亦可以通過程序指令相關的硬件來完成。最后應說明的是:以上各實施例僅用以說明本專利技術的技術方案,而非對其限制;盡管參照前述各實施例對本專利技術進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施方案進行修改,或者對其中部分或者全部技術特征進行等同替換;而這些修改或者替換,并不使修改后相應方案的本質脫離本專利技術各實施方案的范圍。本文檔來自技高網...
    一種基于語義分析的數據處理系統及方法

    【技術保護點】
    一種基于語義分析的數據處理系統,其特征在于,包括:通過數據篩選模塊:對不同數據進行分割并建立次級結構;通過數據分析模塊對所述次級結構進行逐項語義分析并建立索引;通過運算模塊對所述索引進行逐項運算并進行記錄;聯合模塊依運算結果對所述語義索引對應數據進行關聯。

    【技術特征摘要】
    1.一種基于語義分析的數據處理系統,其特征在于,包括:通過數據篩選模塊:對不同數據進行分割并建立次級結構;通過數據分析模塊對所述次級結構進行逐項語義分析并建立索引;通過運算模塊對所述索引進行逐項運算并進行記錄;聯合模塊依運算結果對所述語義索引對應數據進行關聯。2.如權利要求1所述數據篩選模塊,其特征在于,可使用語義分析或其他方法對數據進行結構分割以建立次級結構;特別的,數據的次級結構可以重疊,并且可以是數據自身。3.如權利要求1所述數據分析模塊,其特征在于,對所述分割后數據的某次級結構進行語義分析,并用結果建立索引;特別的,對同一筆數據的多個不同次級結構可...

    【專利技術屬性】
    技術研發人員:李隆烽
    申請(專利權)人:李隆烽
    類型:發明
    國別省市:上海,31

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品一级无码鲁丝片| 亚洲国产成人无码AV在线| 无码乱码av天堂一区二区| 五月丁香六月综合缴清无码| 无码精品人妻一区| 精品久久久久久无码中文字幕一区 | 中文字幕无码日韩欧毛| 老司机无码精品A| 亚洲国产精品无码久久一区二区 | 久久久无码精品午夜| 国产日韩AV免费无码一区二区三区| 亚洲精品无码久久久久APP| 久久精品无码av| 无码一区18禁3D| 国产午夜鲁丝片AV无码免费| 亚洲av无码片vr一区二区三区| 中文字幕无码精品三级在线电影| r级无码视频在线观看| 永久免费av无码网站韩国毛片| 一夲道无码人妻精品一区二区| 无码国产69精品久久久久孕妇| 99久久亚洲精品无码毛片| 久久久久av无码免费网| 免费看成人AA片无码视频羞羞网| 国产热の有码热の无码视频| 国产精品va无码一区二区| 国产成人无码区免费A∨视频网站| 在人线av无码免费高潮喷水| 亚洲AV人无码激艳猛片| 亚洲精品无码高潮喷水A片软| 国产乱人无码伦av在线a| 久久精品?ⅴ无码中文字幕| 亚洲av无码成人精品区| 国产精品无码AV天天爽播放器 | 免费A级毛片无码A∨男男| 18禁无遮挡无码网站免费| 人妻av中文字幕无码专区| 久久亚洲精品成人无码| 激情无码亚洲一区二区三区| 无码日韩人妻av一区免费| 国产成人亚洲精品无码AV大片 |