本申請?zhí)峁┮环N郵件信息提取方法、裝置及電子設備,郵件信息提取方法包括:確定待提取郵件信息的目標郵件頁面;解析所述目標郵件頁面,得到多個第一要素對應的屬性信息;根據(jù)所述屬性信息確定所述第一要素對應的第一要素內容;確定所述目標郵件頁面對應的目標郵件文本,并將所述目標郵件文本輸入至預設要素識別模型中,得到第二要素以及所述第二要素對應的第二要素內容;組合所述第一要素與所述第一要素內容,以及組合所述第二要素與所述第二要素內容,得到提取的郵件信息。上述方法能夠提高郵件信息提取的準確性。郵件信息提取的準確性。郵件信息提取的準確性。
【技術實現(xiàn)步驟摘要】
郵件信息提取方法、裝置及電子設備
[0001]本申請屬于計算機
,涉及數(shù)據(jù)處理技術,尤其涉及一種郵件信息提取方法、裝置及電子設備。
技術介紹
[0002]隨著互聯(lián)網通訊的不斷發(fā)展,越來越多的信息傳遞以電子郵件的方式出現(xiàn)在人們的日常工作、學習和生活當中,郵件通信已成為大部分人不可缺少的通信、交流方式。面對海量的電子郵件,如何快速、有效地分析郵件信息成為大數(shù)據(jù)時代對海量電子郵件分析的一個焦點。
[0003]然而,相關技術中,往往需要通過有關安全協(xié)議幫助郵件的接收者過濾非法郵件與垃圾郵件,卻無法進一步理解郵件內容,導致郵件信息提取的準確性低下。
技術實現(xiàn)思路
[0004]本申請實施例提供了一種郵件信息提取方法、裝置及電子設備,以解決郵件信息提取的準確性低下的問題。
[0005]本申請實施例第一方面提供一種郵件信息提取方法,所述方法包括:確定待提取郵件信息的目標郵件頁面;解析所述目標郵件頁面,得到多個第一要素對應的屬性信息;根據(jù)所述屬性信息確定所述第一要素對應的第一要素內容;確定所述目標郵件頁面對應的目標郵件文本,并將所述目標郵件文本輸入至預設要素識別模型中,得到第二要素以及所述第二要素對應的第二要素內容;組合所述第一要素與所述第一要素內容,以及組合所述第二要素與所述第二要素內容,得到提取的郵件信息。
[0006]進一步地,在本申請實施例提供的上述方法中,所述確定待提取郵件信息的目標郵件頁面,包括:獲取初始郵件集;從所述初始郵件集內選取與預設要素關鍵詞關聯(lián)的目標郵件集;根據(jù)渲染指令對所述目標郵件集內每一目標郵件進行頁面渲染,得到目標郵件頁面。
[0007]進一步地,在本申請實施例提供的上述方法中,所述解析所述目標郵件頁面,得到多個第一要素對應的屬性信息,包括:根據(jù)所述預設要素關鍵詞獲取與之關聯(lián)的第一要素;確定所述第一要素在所述目標郵件頁面內的要素位置;根據(jù)所述要素位置確定所述第一要素對應的要素尺寸;組合所述要素位置與所述要素尺寸,得到第一要素的屬性信息。
[0008]進一步地,在本申請實施例提供的上述方法中,所述根據(jù)所述屬性信息確定所述第一要素對應的第一要素內容,包括:根據(jù)所述屬性信息確定所述第一要素對應的所述要素位置;獲取所述要素位置對應的鄰域內的多個數(shù)據(jù)塊;從所述多個數(shù)據(jù)塊內選取目標數(shù)據(jù)塊,并將所述目標數(shù)據(jù)塊對應的內容作為所述第一要素對應的第一要素內容。
[0009]進一步地,在本申請實施例提供的上述方法中,所述從所述多個數(shù)據(jù)塊內選取目標數(shù)據(jù)塊,包括:解析所述鄰域內的每個數(shù)據(jù)塊,得到所述每個數(shù)據(jù)塊對應的數(shù)據(jù)塊長度與數(shù)據(jù)類型;根據(jù)所述數(shù)據(jù)塊長度與所述數(shù)據(jù)類型從所述鄰域內的多個數(shù)據(jù)塊內選取目標數(shù)
據(jù)塊。
[0010]進一步地,在本申請實施例提供的上述方法中,所述確定所述目標郵件頁面對應的目標郵件文本,包括:獲取所述目標郵件頁面對應的初始郵件文本;從所述初始郵件文本內刪除所述第一要素與所述第一要素內容,得到目標郵件文本。
[0011]進一步地,在本申請實施例提供的上述方法中,所述將所述目標郵件文本輸入至預設要素識別模型中,得到第二要素以及所述第二要素對應的第二要素內容,包括:將所述目標郵件文本輸入至所述預設要素識別模型的嵌入層,得到文本特征向量序列;將所述文本特征向量序列輸入至所述預設要素識別模型的特征編碼層,得到字符級特征向量序列;將所述字符級特征向量序列輸入至所述預設要素識別模型的標簽預測網絡層,得到每個字符級特征向量對應的標簽;根據(jù)所述標簽確定第二要素以及所述第二要素對應的第二要素內容。
[0012]進一步地,在本申請實施例提供的上述方法中,在所述組合所述第一要素與所述第一要素內容,以及組合所述第二要素與所述第二要素內容之后,所述方法還包括:確定所述第一要素對應的第一預設附加內容以及所述第二要素對應的第二預設附加內容;根據(jù)所述第一預設附加內容更新所述第一要素內容,得到目標第一要素內容;根據(jù)所述第二預設附加內容更新所述第二要素內容,得到目標第二要素內容;發(fā)送所述第一要素與所述目標第一要素內容,以及所述第二要素與所述目標第二要素內容至終端設備。
[0013]本申請實施例第二方面還提供一種郵件信息提取裝置,所述裝置包括:頁面確定模塊,用于確定待提取郵件信息的目標郵件頁面;頁面解析模塊,用于解析所述目標郵件頁面,得到多個第一要素對應的屬性信息;內容確定模塊,用于根據(jù)所述屬性信息確定所述第一要素對應的第一要素內容;模型處理模塊,用于確定所述目標郵件頁面對應的目標郵件文本,并將所述目標郵件文本輸入至預設要素識別模型中,得到第二要素以及所述第二要素對應的第二要素內容;內容組合模塊,用于組合所述第一要素與所述第一要素內容,以及組合所述第二要素與所述第二要素內容,得到提取的郵件信息。
[0014]本申請實施例第三方面還提供一種電子設備,所述電子設備包括控制器與存儲器,所述控制器用于執(zhí)行所述存儲器中存儲的計算機程序時實現(xiàn)如上述任意一項所述的郵件信息提取方法。
[0015]本申請實施例第四方面還提供一種計算機可讀存儲介質,計算機可讀存儲介質上存儲有計算機程序,計算機程序被控制器執(zhí)行時實現(xiàn)上述郵件信息提取方法。
[0016]本申請實施例提供的上述郵件信息提取方法,解析目標郵件頁面,得到多個第一要素對應的屬性信息;根據(jù)所述屬性信息確定所述第一要素對應的第一要素內容;確定所述目標郵件頁面對應的目標郵件文本,并將所述目標郵件文本輸入至預設要素識別模型中,得到第二要素以及所述第二要素對應的第二要素內容;組合所述第一要素與所述第一要素內容,以及組合所述第二要素與所述第二要素內容,得到提取的郵件信息。本申請實施例根據(jù)屬性信息確定郵件內的第一要素對應的第一要素內容,通過將目標郵件文本輸入至預設要素識別模型中確定郵件內第二要素以及第二要素內容,結合屬性分析與模型處理的方式提取郵件信息,能夠提高郵件信息提取的準確性。
附圖說明
[0017]圖1是本申請實施例提供的一種郵件信息提取方法的應用場景圖。
[0018]圖2是本申請實施例提供的一種郵件信息提取方法的流程圖。
[0019]圖3是本申請實施例提供的一種目標郵件頁面的確定流程圖。
[0020]圖4是本申請實施例提供的一種屬性信息的確定流程圖。
[0021]圖5是本申請實施例提供的一種第一要素內容的確定流程圖。
[0022]圖6是本申請實施例提供的一種目標數(shù)據(jù)塊的選取流程圖。
[0023]圖7是本申請實施例提供的一種目標郵件文本的確定流程圖。
[0024]圖8是本申請實施例提供的一種預設要素識別模型的處理流程圖。
[0025]圖9是本申請實施例提供的一種應用于終端設備的顯示流程圖。
[0026]圖10是本申請實施例提供的一種郵件信息提取裝置的結構示意圖。
[0027]圖11是本申請實施例提供的一種電子設備的結構示意圖。
具體實施方式
[0028]需要說明的是,本申請的說明書和權利要求書及附圖中的術語“第本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種郵件信息提取方法,其特征在于,所述方法包括:確定待提取郵件信息的目標郵件頁面;解析所述目標郵件頁面,得到多個第一要素對應的屬性信息;根據(jù)所述屬性信息確定所述第一要素對應的第一要素內容;確定所述目標郵件頁面對應的目標郵件文本,并將所述目標郵件文本輸入至預設要素識別模型中,得到第二要素以及所述第二要素對應的第二要素內容;組合所述第一要素與所述第一要素內容,以及組合所述第二要素與所述第二要素內容,得到提取的郵件信息。2.如權利要求1所述的方法,其特征在于,所述確定待提取郵件信息的目標郵件頁面,包括:獲取初始郵件集;從所述初始郵件集內選取與預設要素關鍵詞關聯(lián)的目標郵件集;根據(jù)渲染指令對所述目標郵件集內每一目標郵件進行頁面渲染,得到目標郵件頁面。3.如權利要求2所述的方法,其特征在于,所述解析所述目標郵件頁面,得到多個第一要素對應的屬性信息,包括:根據(jù)所述預設要素關鍵詞獲取與之關聯(lián)的第一要素;確定所述第一要素在所述目標郵件頁面內的要素位置;根據(jù)所述要素位置確定所述第一要素對應的要素尺寸;組合所述要素位置與所述要素尺寸,得到第一要素的屬性信息。4.如權利要求3所述的方法,其特征在于,所述根據(jù)所述屬性信息確定所述第一要素對應的第一要素內容,包括:根據(jù)所述屬性信息確定所述第一要素對應的所述要素位置;獲取所述要素位置對應的鄰域內的多個數(shù)據(jù)塊;從所述多個數(shù)據(jù)塊內選取目標數(shù)據(jù)塊,并將所述目標數(shù)據(jù)塊對應的內容作為所述第一要素對應的第一要素內容。5.如權利要求4所述的方法,其特征在于,所述從所述多個數(shù)據(jù)塊內選取目標數(shù)據(jù)塊,包括:解析所述鄰域內的每個數(shù)據(jù)塊,得到所述每個數(shù)據(jù)塊對應的數(shù)據(jù)塊長度與數(shù)據(jù)類型;根據(jù)所述數(shù)據(jù)塊長度與所述數(shù)據(jù)類型從所述鄰域內的多個數(shù)據(jù)塊內選取目標數(shù)據(jù)塊。6.如權利要求1所述的方法,其特征在于,所述確定所述目標郵件頁面對應的目標郵件文本,包括:獲取所述目標郵件頁面對應的初始郵件文本;從所述初始郵件文本內刪除所述第一要素與所...
【專利技術屬性】
技術研發(fā)人員:吳培浩,
申請(專利權)人:廣州歡聚時代信息科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。