System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及文本處理,特別是涉及一種富文本的結構化信息提取方法、設備及存儲介質。
技術介紹
1、隨著網絡信息時代的發展和普及,富文本通常是獲取文本數據源的重要來源,例如,富文本包括基于超文本標記語言(hyper?text?markup?language,html)的網頁文檔、基于可擴展標記語言?(extensible?markup?language,xml)的辦公(office)文件、或者基于輕量級標記語言(markdown)的筆記(notebook)文件等。
2、但是,富文本往往格式多樣、包含過多的無用信息,導致無法直接使用,因此,如何對富文本中的有效信息進行提取,是本領域技術人員亟待解決的技術文本。
技術實現思路
1、為了解決上述技術問題,本申請至少提供一種富文本的結構化信息提取方法、設備及存儲介質。
2、本申請第一方面提供了一種富文本的結構化信息提取方法,方法包括:將原始富文本中的各個文本內容分別作為節點,各個文本內容之間的文檔結構關系作為邊,構建得到文本結構圖;對當前節點對應的文本內容進行編碼,得到當前節點對應的文本特征,以及,對當前節點在文本結構圖中的結構信息進行編碼,得到當前節點對應的圖結構特征;獲取當前節點與文本結構圖中的其他節點之間的連接緊密度和/或當前節點對應的文本內容的文本復雜度,基于連接緊密度和/或文本復雜度計算當前節點對應的特征融合權重;利用特征融合權重融合當前節點對應的文本特征和圖結構特征,得到當前節點對應的融合特征;基于融合特征預測
3、在一實施例中,獲取當前節點與文本結構圖中的其他節點之間的連接緊密度,包括:統計在文本結構圖中當前節點連接的邊的數量、和/或統計當前節點與根節點之間的邊的數量、和/或統計當前節點與根節點之間的路徑的數量,得到當前節點對應的圖結構統計結果;基于當前節點對應的圖結構統計結果,計算得到當前節點對應的連接緊密度。
4、在一實施例中,獲取當前節點對應的文本內容的文本復雜度,包括:統計當前節點對應的文本內容的字符數量、和/或統計當前節點對應的文本內容的語句數量、和/或統計當前節點對應的文本內容的段落數量,得到當前節點對應的文本統計結果;基于當前節點對應的文本統計結果,計算得到當前節點對應的文本復雜度。
5、在一實施例中,利用特征融合權重融合當前節點對應的文本特征和圖結構特征,得到當前節點對應的融合特征,包括:利用注意力機制對當前節點對應的文本特征和圖結構特征進行分析,得到注意力權重;結合特征融合權重和注意力權重,對當前節點對應的文本特征和圖結構特征進行加權融合,得到當前節點對應的融合特征。
6、在一實施例中,對當前節點在文本結構圖中的結構信息進行編碼,得到當前節點對應的圖結構特征,包括:提取當前節點的結構信息,對結構信息進行編碼得到當前節點的節點嵌入表示;確定當前節點對應的鄰近節點,獲取鄰近節點的節點嵌入表示;融合鄰近節點的節點嵌入表示和當前節點的節點嵌入表示,得到當前節點對應的圖結構特征。
7、在一實施例中,融合鄰近節點的節點嵌入表示和當前節點的節點嵌入表示,得到當前節點對應的圖結構特征,包括:基于當前節點的節點嵌入表示與鄰近節點的節點嵌入表示之間的向量距離,計算權重當前節點與鄰近節點之間的融合權重;基于當前節點與鄰近節點之間的融合權重,對鄰近節點的節點嵌入表示和當前節點的節點嵌入表示進行加權融合,得到當前節點對應的圖結構特征。
8、在一實施例中,結構化數據轉換格式包括鍵值對,鍵值對由鍵參數和值參數組成,不同結構化數據轉換格式對應不同的鍵參數;基于融合特征預測當前節點適配的結構化數據轉換格式,采用結構化數據轉換格式將當前節點對應的文本內容轉換為對應的結構化信息,包括:基于融合特征預測當前節點適配的結構化數據轉換格式,獲取適配的結構化數據格式對應的鍵參數;將當前節點對應的文本內容作為值參數,結合當前節點對應的鍵參數和值參數,得到當前節點對應的結構化信息。
9、在一實施例中,方法還包括:獲取篩選規則;選取出鍵參數滿足篩選規則的節點,得到信息輸出節點;獲取各個信息輸出節點對應的結構化信息,得到最終輸出信息。
10、本申請第二方面提供了一種富文本的結構化信息提取裝置,裝置包括:圖構建模塊,用于將原始富文本中的各個文本內容分別作為節點,各個文本內容之間的文檔結構關系作為邊,構建得到文本結構圖;編碼模塊,用于對當前節點對應的文本內容進行編碼,得到當前節點對應的文本特征,以及,對當前節點在文本結構圖中的結構信息進行編碼,得到當前節點對應的圖結構特征;權重計算模塊,用于獲取當前節點與文本結構圖中的其他節點之間的連接緊密度和/或當前節點對應的文本內容的文本復雜度,基于連接緊密度和/或文本復雜度計算當前節點對應的特征融合權重;特征融合模塊,用于利用特征融合權重融合當前節點對應的文本特征和圖結構特征,得到當前節點對應的融合特征;信息提取模塊,用于基于融合特征預測當前節點適配的結構化數據轉換格式,采用結構化數據轉換格式將當前節點對應的文本內容轉換為對應的結構化信息。
11、本申請第三方面提供了一種電子設備,包括存儲器和處理器,處理器用于執行存儲器中存儲的程序指令,以實現上述富文本的結構化信息提取方法。
12、本申請第四方面提供了一種計算機可讀存儲介質,其上存儲有程序指令,程序指令被處理器執行時實現上述富文本的結構化信息提取方法。
13、上述方案,通過將原始富文本中的各個文本內容分別作為節點,各個文本內容之間的文檔結構關系作為邊,構建得到文本結構圖;對當前節點對應的文本內容進行編碼,得到當前節點對應的文本特征,以及,對當前節點在文本結構圖中的結構信息進行編碼,得到當前節點對應的圖結構特征;獲取當前節點與文本結構圖中的其他節點之間的連接緊密度和/或當前節點對應的文本內容的文本復雜度,基于連接緊密度和/或文本復雜度計算當前節點對應的特征融合權重;利用特征融合權重融合當前節點對應的文本特征和圖結構特征,得到當前節點對應的融合特征;基于融合特征預測當前節點適配的結構化數據轉換格式,采用結構化數據轉換格式將當前節點對應的文本內容轉換為對應的結構化信息,可以準確靈活設定每個節點對應的特征融合權重,以提高每個不同節點最終得到的融合特征的特征表達能力,從而提升原始富文本的結構化信息提取的準確性和適用性。
14、應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋性的,而非限制本申請。
本文檔來自技高網...【技術保護點】
1.一種富文本的結構化信息提取方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,獲取所述當前節點與所述文本結構圖中的其他節點之間的連接緊密度,包括:
3.根據權利要求1所述的方法,其特征在于,獲取所述當前節點對應的文本內容的文本復雜度,包括:
4.根據權利要求1所述的方法,其特征在于,所述利用所述特征融合權重融合所述當前節點對應的文本特征和圖結構特征,得到所述當前節點對應的融合特征,包括:
5.根據權利要求1所述的方法,其特征在于,所述對所述當前節點在所述文本結構圖中的結構信息進行編碼,得到所述當前節點對應的圖結構特征,包括:
6.根據權利要求5所述的方法,其特征在于,所述融合所述鄰近節點的節點嵌入表示和所述當前節點的節點嵌入表示,得到所述當前節點對應的圖結構特征,包括:
7.根據權利要求1所述的方法,其特征在于,所述結構化數據轉換格式包括鍵值對,所述鍵值對由鍵參數和值參數組成,不同結構化數據轉換格式對應不同的鍵參數;所述基于所述融合特征預測所述當前節點適配的結構化數據轉換格式,采用
8.根據權利要求7所述的方法,其特征在于,所述方法還包括:
9.一種電子設備,其特征在于,所述電子設備包括存儲器和處理器,處理器用于執行存儲器中存儲的程序指令,以實現如權利要求1-8任一項所述方法中的步驟。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有程序指令,所述程序指令能夠被處理器執行以實現如權利要求1-8任一項所述方法中的步驟。
...【技術特征摘要】
1.一種富文本的結構化信息提取方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,獲取所述當前節點與所述文本結構圖中的其他節點之間的連接緊密度,包括:
3.根據權利要求1所述的方法,其特征在于,獲取所述當前節點對應的文本內容的文本復雜度,包括:
4.根據權利要求1所述的方法,其特征在于,所述利用所述特征融合權重融合所述當前節點對應的文本特征和圖結構特征,得到所述當前節點對應的融合特征,包括:
5.根據權利要求1所述的方法,其特征在于,所述對所述當前節點在所述文本結構圖中的結構信息進行編碼,得到所述當前節點對應的圖結構特征,包括:
6.根據權利要求5所述的方法,其特征在于,所述融合所述鄰近節點的節點嵌入表示和所述當前節點的節點嵌入表示,得到所述當前...
【專利技術屬性】
技術研發人員:陳浩,陳媛媛,巫笠平,曹瑩,范非凡,熊劍平,
申請(專利權)人:浙江大華技術股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。