利用文檔的二維表示來提取有助于文檔識別的分層結(jié)構(gòu)。利用統(tǒng)計剖析算法的二維自適應(yīng)來對該視覺結(jié)構(gòu)進(jìn)行語法剖析。這允許識別布局結(jié)構(gòu)(例如,欄、作者、標(biāo)題、腳注等-)等,使得文檔的結(jié)構(gòu)組成部分能被準(zhǔn)確地解釋。還可采用其它技術(shù)來幫助文檔布局識別。例如,可采用利用機(jī)器學(xué)習(xí)、基于圖像表示的剖析評分、上推技術(shù)和/或“快速特征”等的語法剖析技術(shù)來幫助文檔識別。
【技術(shù)實現(xiàn)步驟摘要】
【國外來華專利技術(shù)】文檔可視結(jié)構(gòu)的語法剖析站旦 冃豕隨著時間的推移,人們越來越依賴于計算機(jī)來幫助工作和休閑活動。然而, 計算機(jī)在需要標(biāo)識離散狀態(tài)以使信息能被處理的數(shù)字域中操作。這與以截然不同的 模擬方式工作的人類形成對比,在模擬方式中,發(fā)生的事情從不是全黑或全白的, 而是介于灰色陰影之間。由此,數(shù)字和模擬之間的一個核心區(qū)別是數(shù)字要求在時間 上不連續(xù)的離散狀態(tài)(例如,不同等級),而模擬在時間上是連續(xù)的。由于人類自 然地以模擬方式工作,因此計算技術(shù)已經(jīng)進(jìn)展以減輕因上述時間不連續(xù)而導(dǎo)致的與 將人類與計算機(jī)接口 (例如,數(shù)字計算接口)相關(guān)聯(lián)的困難。技術(shù)首先集中于試圖將現(xiàn)有的打字或排版信息輸入到計算機(jī)中。最初使用掃 描儀或光學(xué)成像儀來"數(shù)字化"圖片(例如,輸入圖像到計算系統(tǒng)中)。 一旦圖像 可被數(shù)字化到計算系統(tǒng)中,因此斷定印刷或排版的材料也應(yīng)能被數(shù)字化。然而,掃 描頁面的圖像在其被帶入計算系統(tǒng)后不能作為文本或符號來操縱,因為它沒有被系 統(tǒng)"識別",即系統(tǒng)不理解該頁面。字符和單詞是"圖片"而非實際的可編輯文本或符號。為克服對文本的這一限制,開發(fā)了光學(xué)字符識別(OCR)技術(shù),以利用 掃描技術(shù)來將文本數(shù)字化為可編輯頁面。如果利用允許OCR軟件將掃描的圖像轉(zhuǎn) 換成可編輯文本的特定文本字體,該技術(shù)能相當(dāng)好地工作。盡管文本被計算系統(tǒng)"識別",但是該過程丟失了重要的附加信息。該信息 包括諸如文本的格式、文本的間距、文本的方向以及通用頁面布局等內(nèi)容。由此, 如果一頁面是雙欄的并且在右上角有一圖片,則經(jīng)OCR掃描的頁面將變成文字處 理程序中的一組文本而沒有雙欄和圖片。或者,如果包括了圖片,則它通常最終被 嵌入在文本之間的某一隨機(jī)點處。當(dāng)利用不同的文檔構(gòu)造標(biāo)準(zhǔn)時這甚至更成問題。 典型的OCR技術(shù)一般不能用于"轉(zhuǎn)換"或正確地識別來自另一文檔標(biāo)準(zhǔn)的結(jié)構(gòu)。 相反,所得的識別試圖將所識別的部分限制或強(qiáng)制成其相關(guān)聯(lián)的標(biāo)準(zhǔn)。當(dāng)發(fā)生這一 情況時,OCR過程通常將諸如問號等"未知"標(biāo)記輸入到識別的部分中、以指示 它無法處理文檔的這些組成部分。概述以下提供了該主題的簡化概述以提供該主題的實施例的某些方面的基本理 解。本概述并非該主題的廣泛綜述。它并不旨在標(biāo)識各實施例的關(guān)鍵/決定性要素, 也不旨在勾畫本主題的范圍。其唯一的目的是以簡化的形式提出該主題的某些概 念,作為以后提出的更詳細(xì)描述的序言。提供了采用語法剖析來促進(jìn)文檔結(jié)構(gòu)識別的系統(tǒng)和方法。利用文檔的二維表 示來提取幫助文檔識別的分層結(jié)構(gòu)。利用統(tǒng)計剖析算法的二維自適應(yīng)來對文檔的可 視結(jié)構(gòu)進(jìn)行語法剖析。這允許識別布局結(jié)構(gòu)(例如,欄、作者、標(biāo)題、腳注等)等, 使得文檔的結(jié)構(gòu)組成部分可被準(zhǔn)確地解釋。可采用其它技術(shù)來幫助文檔布局識別。例如,可采用利用機(jī)器學(xué)習(xí)、基于圖像表示的剖析評分、上推(boosting)技術(shù)、和/或"快速特征"等的語法剖析技術(shù)來促進(jìn)文檔識別。這提供了具有實質(zhì)上提高 的準(zhǔn)確度的高效文檔識別。為實現(xiàn)上述和相關(guān)目的,此處結(jié)合以下描述和附圖描述了各實施例的說明性 方面。然而,這些方面僅指示了可采用本主題的原理的各種方式中的幾種,并且本 主題旨在包括所有這樣的方面及其等效方面。當(dāng)結(jié)合附圖考慮以下詳細(xì)描述時,本 主題的其它優(yōu)點和新穎特征將變得顯而易見。附圖簡述附圖說明圖1是根據(jù)一個實施例的一方面的文檔視覺結(jié)構(gòu)分析系統(tǒng)的框圖。圖2是根據(jù)一個實施例的一方面的文檔視覺結(jié)構(gòu)分析系統(tǒng)的另一框圖。 圖3是根據(jù)一個實施例的一方面的文檔視覺結(jié)構(gòu)分析系統(tǒng)的又一框圖。 圖4是根據(jù)一個實施例的一方面的來自UWIII數(shù)據(jù)庫的示例頁面的圖示。 圖5是根據(jù)一個實施例的一方面的用于訓(xùn)練數(shù)學(xué)表達(dá)式識別器的示例等式的 圖示。圖6是根據(jù)一個實施例的一方面的數(shù)學(xué)表達(dá)式的圖示。圖7是根據(jù)一個實施例的一方面的促進(jìn)文檔視覺結(jié)構(gòu)分析的方法的流程圖。圖8是根據(jù)一個實施例的一方面的促進(jìn)文檔視覺結(jié)構(gòu)分析的方法的另一流程圖。圖9示出了一個實施例可在其中運(yùn)作的示例操作環(huán)境。圖IO示出了一個實施例可在其中運(yùn)作的另一示例操作環(huán)境。詳細(xì)描述現(xiàn)在參考附圖來描述本主題,在全部附圖中,相同的參考標(biāo)號指代相同的元 素。在以下描述中,出于解釋的目的,闡明了眾多具體細(xì)節(jié)以提供對本主題的全面 理解。然而,很明顯,本主題在沒有這些具體細(xì)節(jié)的情況下也可實施。在其它情況 中,以框圖形式示出了公知的結(jié)構(gòu)和設(shè)備以便于描述各實施例。如本申請中所使用的,術(shù)語"組件"指的是計算機(jī)相關(guān)的實體,無論是硬件、 硬件和軟件的組合、軟件還是執(zhí)行中的軟件。例如,組件可以是,但不限于,運(yùn)行 在處理器上的進(jìn)程、處理器、對象、可執(zhí)行碼、執(zhí)行線程、程序和/或計算機(jī)。作 為說明,運(yùn)行在服務(wù)器上的應(yīng)用程序和服務(wù)器都可以是計算機(jī)組件。 一個或多個組 件可駐留在進(jìn)程和/或執(zhí)行線程中,—并且組件可位于一個計算機(jī)上和/或分布在兩個 或多個計算機(jī)之間。"線程"是操作系統(tǒng)內(nèi)核調(diào)度執(zhí)行的進(jìn)程內(nèi)的實體。如本領(lǐng)域 中公知的,每一線程具有相關(guān)聯(lián)的"上下文",它是與線程的執(zhí)行相關(guān)聯(lián)的易失性 數(shù)據(jù)。線程的上下文包括系統(tǒng)注冊表的內(nèi)容以及屬于該線程的進(jìn)程的虛擬地址。由 此,構(gòu)成線程的上下文的實際數(shù)據(jù)隨著其執(zhí)行而變化。提供了幫助通過利用視覺結(jié)構(gòu)來識別文檔的系統(tǒng)和方法。利用采用基于語法 的技術(shù)的二維剖析機(jī)制來識別文檔的固有分層結(jié)構(gòu)(例如,文檔—頁4節(jié)4欄—段 落等)。通過進(jìn)一步利用采用語法剖析機(jī)制的機(jī)器學(xué)習(xí)過程,可顯著提高識別文檔 的效率同時仍提供高準(zhǔn)確度。還可利用圖像評分技術(shù)來幫助提高剖析速度和效率。也可利用對文檔的快速特征的選擇以及用于剖析學(xué)習(xí)的上推技術(shù)來提高該系統(tǒng)和 方法的生產(chǎn)力。利用語法剖析來處理計算機(jī)語言和自然語言。在計算機(jī)語言的情況下,語法 是無歧義的,并且給定輸入有且僅有一種有效剖析。在自然語言的情況下,語法是 有歧義的并且給定輸入序列有非常大量的潛在剖析。統(tǒng)計上的自然語言剖析中的期 望是采用機(jī)器學(xué)習(xí)來產(chǎn)生一評分函數(shù),該函數(shù)將最高得分分配給正確的剖析。在此 處提供的系統(tǒng)和方法中,視覺結(jié)構(gòu)布局被建模為語法,并且基于語法成本函數(shù)來執(zhí) 行對最優(yōu)剖析的全局搜索。然后可利用機(jī)器學(xué)習(xí)來有辨別力地選擇特征并設(shè)置語法 剖析過程中的所有參數(shù),從而適用于各種各樣的視覺結(jié)構(gòu)布局。在圖1中,示出了根據(jù)一個實施例的一方面的文檔視覺結(jié)構(gòu)分析系統(tǒng)100的框圖。文檔視覺結(jié)構(gòu)分析系統(tǒng)100包括接收輸入104并提供輸出106的文檔視覺結(jié) 構(gòu)分析組件102。文檔視覺結(jié)構(gòu)分析組件102利用文檔的視覺結(jié)構(gòu)布局的非生成性 語法模型以便于為該視覺結(jié)構(gòu)布局確定一最優(yōu)剖析樹。輸入104包括例如文檔的頁的視覺布局。文檔視覺結(jié)構(gòu)分析組件102利用一語法剖析過程來剖析輸入104,該 過程剖析文檔的視覺結(jié)構(gòu)來提供輸出106。輸出106可以包括例如文檔視覺結(jié)構(gòu)布 局的最優(yōu)剖析樹。還可建立全局學(xué)習(xí)的"參考"語法來提供用于不同任務(wù)的剖析方 案而無需另外的語法學(xué)習(xí)。參看圖2,示出了根據(jù)一個實施例的一方面的文檔視覺結(jié)構(gòu)分析系統(tǒng)200的另 一框圖。文檔視覺結(jié)構(gòu)分析系統(tǒng)200包括接收視覺結(jié)構(gòu)輸入204并提供最優(yōu)剖析樹 206的文檔視覺結(jié)構(gòu)分析組件202。文檔視覺結(jié)構(gòu)分析組件202利用文檔視覺結(jié)構(gòu) 布局的有辨別力(discriminative)的語法模型。文檔視覺結(jié)構(gòu)分析組件202包括接 收組件208和本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
一種幫助識別的系統(tǒng),包括: 接收組件,它接收與文檔的視覺結(jié)構(gòu)相關(guān)聯(lián)的輸入;以及 語法組件,它至少部分地采用所述文檔的視覺結(jié)構(gòu)的語法分層結(jié)構(gòu)模型來幫助對所述輸入進(jìn)行語法剖析。
【技術(shù)特征摘要】
【國外來華專利技術(shù)】...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:PA沃拉,M希爾曼,
申請(專利權(quán))人:微軟公司,
類型:發(fā)明
國別省市:US[美國]
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。