• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法及裝置制造方法及圖紙

    技術(shù)編號(hào):15725010 閱讀:131 留言:0更新日期:2017-06-29 12:02
    本發(fā)明專利技術(shù)提供了一種面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法及裝置,涉及醫(yī)療實(shí)體識(shí)別技術(shù)領(lǐng)域。方法包括:獲取原始數(shù)據(jù)中的待處理語句;將待處理語句進(jìn)行單字切分,確定每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;根據(jù)預(yù)先設(shè)置的癥狀體征類術(shù)語切分策略,對(duì)待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體;根據(jù)預(yù)先設(shè)置的判斷策略確定癥狀體征類實(shí)體結(jié)果。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法及裝置
    本專利技術(shù)涉及醫(yī)療實(shí)體識(shí)別
    ,尤其涉及一種面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法及裝置。
    技術(shù)介紹
    目前,隨著網(wǎng)絡(luò)和醫(yī)療信息技術(shù)的發(fā)展、中國人口逐漸趨于老年化、互聯(lián)網(wǎng)醫(yī)療逐漸興起,人們對(duì)醫(yī)療服務(wù)需求水平越來越高。而這也與醫(yī)療資源的相對(duì)短缺之間的矛盾越專利技術(shù)顯。要實(shí)現(xiàn)疾病的智能診斷與治療,離不開從醫(yī)療大數(shù)據(jù)中識(shí)別出疾病與其癥狀體征的對(duì)應(yīng)關(guān)系,此過程即為癥狀體征實(shí)體識(shí)別過程。近年來,作為醫(yī)療健康數(shù)據(jù)分析的重要的一步,醫(yī)療實(shí)體識(shí)別(例如癥狀體征類的實(shí)體識(shí)別)可以抽取出相關(guān)文本中存在的醫(yī)療術(shù)語,對(duì)后續(xù)研究的性能起到重要的作用。目前常見的實(shí)體識(shí)別技術(shù)有基于詞表的醫(yī)學(xué)實(shí)體識(shí)別和基于條件隨機(jī)場(ConditionalRandomFields,簡稱CRF)的醫(yī)學(xué)實(shí)體識(shí)別,然而基于詞表的醫(yī)學(xué)實(shí)體識(shí)別僅僅依靠術(shù)語庫匹配,缺少上下文語境識(shí)別,且術(shù)語庫匹配存在較大局限性。而基于CRF的醫(yī)學(xué)實(shí)體識(shí)別技術(shù),缺少大數(shù)據(jù)語料庫和語言規(guī)則的應(yīng)用,語料均為人工標(biāo)注后的語料,而沒有利用半監(jiān)督學(xué)習(xí)等方法,增加對(duì)數(shù)量更龐大的未標(biāo)注數(shù)據(jù)的使用,使得模型不夠完善,缺少基于語言學(xué)與醫(yī)療信息的規(guī)則,僅僅依靠模型,對(duì)數(shù)據(jù)的針對(duì)性不夠強(qiáng)。可見,當(dāng)前的實(shí)體識(shí)別方案并不能準(zhǔn)確進(jìn)行癥狀體征類實(shí)體識(shí)別。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)的實(shí)施例提供一種面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法及裝置,以解決當(dāng)前的實(shí)體識(shí)別方案并不能準(zhǔn)確進(jìn)行癥狀體征類實(shí)體識(shí)別的問題。為達(dá)到上述目的,本專利技術(shù)采用如下技術(shù)方案:一種面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法,包括:獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;根據(jù)預(yù)先設(shè)置的癥狀體征類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體;若第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體中確定癥狀體征類實(shí)體結(jié)果。具體的,所述根據(jù)預(yù)先設(shè)置的判斷策略從第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體中確定癥狀體征類實(shí)體結(jié)果,包括:確定待處理語句在進(jìn)行術(shù)語切分時(shí),是否通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分;若待處理語句在進(jìn)行術(shù)語切分時(shí),通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組癥狀體征類候選實(shí)體中的候選實(shí)體作為癥狀體征類實(shí)體結(jié)果;若待處理語句在進(jìn)行術(shù)語切分時(shí),未通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組癥狀體征類候選實(shí)體中的候選實(shí)體作為癥狀體征類實(shí)體結(jié)果;或者,確定來源于相同待處理語句的原始字符串的第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為癥狀體征類實(shí)體結(jié)果;所述癥狀體征類實(shí)體結(jié)果中的實(shí)體類型包括癥狀實(shí)體和體征實(shí)體;在所述第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體中相對(duì)應(yīng)的實(shí)體的實(shí)體類型不一致時(shí),選擇第二組候選實(shí)體中的實(shí)體的實(shí)體類型作為所述相對(duì)應(yīng)的實(shí)體的實(shí)體類型。具體的,所述原始數(shù)據(jù)包括電子病歷數(shù)據(jù)、結(jié)算單數(shù)據(jù)、臨床科研數(shù)據(jù)、醫(yī)學(xué)知識(shí)庫數(shù)據(jù)、期刊文獻(xiàn)數(shù)據(jù)。具體的,根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列,包括:從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的CRF統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述CRF統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值;根據(jù)每個(gè)字在各語句中的CRF統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj;將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。具體的,根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體,包括:在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。進(jìn)一步的,該面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法,還包括:在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,IEk為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率;將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的癥狀體征本體庫匹配,若匹配成功,則將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存;確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例;將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新;其中,所述預(yù)測置信度為待處理語句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積;所述字典匹配標(biāo)記的實(shí)體比例為:其中,C為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);B為待處理語句中預(yù)測出的實(shí)體總數(shù)。具體的,根據(jù)預(yù)先設(shè)置的癥狀體征類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體,包括:將待處理語句中的標(biāo)點(diǎn)符號(hào)轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母;調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學(xué)術(shù)語表中的術(shù)語刪除,形成預(yù)處理后的待處理語句;將預(yù)處理后的待處理語句采用逆向最大匹配原則與預(yù)先設(shè)置的癥狀體征數(shù)據(jù)庫進(jìn)行匹配,將預(yù)處理后的待處理語句中與癥狀體征數(shù)據(jù)庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串作為初步實(shí)體抽出,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對(duì)應(yīng)的術(shù)語類型作為所述初步實(shí)體的實(shí)體類型;將預(yù)處理后的待處理語句的原始字符串與預(yù)先設(shè)置的句型數(shù)據(jù)庫進(jìn)行匹配;若所述預(yù)處理后的待處理語句的原始字符串與預(yù)先設(shè)置的句型數(shù)據(jù)庫中的句型格式匹配,則將所述預(yù)處理后的待處理語句的原始字符串采用逆向最大匹配原則與預(yù)先設(shè)置的疾病本體數(shù)據(jù)庫進(jìn)行匹配,將與疾病本體數(shù)據(jù)庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串作為初步實(shí)體抽出,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對(duì)應(yīng)的術(shù)語類型作為所述初步實(shí)體的實(shí)體類型;將預(yù)處理后的待處理語句中的各初步實(shí)體作為第二組候選實(shí)體。具體的,根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體,包括:判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末本文檔來自技高網(wǎng)...
    一種面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法及裝置

    【技術(shù)保護(hù)點(diǎn)】
    一種面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法,其特征在于,包括:獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;根據(jù)預(yù)先設(shè)置的癥狀體征類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體;若第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體中確定癥狀體征類實(shí)體結(jié)果。

    【技術(shù)特征摘要】
    1.一種面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法,其特征在于,包括:獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;根據(jù)預(yù)先設(shè)置的癥狀體征類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體;若第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體中確定癥狀體征類實(shí)體結(jié)果。2.根據(jù)權(quán)利要求1所述的面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法,其特征在于,所述根據(jù)預(yù)先設(shè)置的判斷策略從第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體中確定癥狀體征類實(shí)體結(jié)果,包括:確定待處理語句在進(jìn)行術(shù)語切分時(shí),是否通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分;若待處理語句在進(jìn)行術(shù)語切分時(shí),通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組癥狀體征類候選實(shí)體中的候選實(shí)體作為癥狀體征類實(shí)體結(jié)果;若待處理語句在進(jìn)行術(shù)語切分時(shí),未通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組癥狀體征類候選實(shí)體中的候選實(shí)體作為癥狀體征類實(shí)體結(jié)果;或者,確定來源于相同待處理語句的原始字符串的第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為癥狀體征類實(shí)體結(jié)果;所述癥狀體征類實(shí)體結(jié)果中的實(shí)體類型包括癥狀實(shí)體和體征實(shí)體;在所述第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體中相對(duì)應(yīng)的實(shí)體的實(shí)體類型不一致時(shí),選擇第二組候選實(shí)體中的實(shí)體的實(shí)體類型作為所述相對(duì)應(yīng)的實(shí)體的實(shí)體類型。3.根據(jù)權(quán)利要求2所述的面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法,其特征在于,所述原始數(shù)據(jù)包括電子病歷數(shù)據(jù)、結(jié)算單數(shù)據(jù)、臨床科研數(shù)據(jù)、醫(yī)學(xué)知識(shí)庫數(shù)據(jù)、期刊文獻(xiàn)數(shù)據(jù)。4.根據(jù)權(quán)利要求3所述的面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法,其特征在于,根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列,包括:從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的CRF統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述CRF統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值;根據(jù)每個(gè)字在各語句中的CRF統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj;將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。5.根據(jù)權(quán)利要求4所述的面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法,其特征在于,根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體,包括:在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。6.根據(jù)權(quán)利要求5所述的面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法,其特征在于,還包括:在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,IEk為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率;將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的癥狀體征本體庫匹配,若匹配成功,則將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存;確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例;將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新;其中,所述預(yù)測置信度為待處理語句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積;所述字典匹配標(biāo)記的實(shí)體比例為:其中,C為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);B為待處理語句中預(yù)測出的實(shí)體總數(shù)。7.根據(jù)權(quán)利要求6所述的面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法,其特征在于,根據(jù)預(yù)先設(shè)置的癥狀體征類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體,包括:將待處理語句中的標(biāo)點(diǎn)符號(hào)轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母;調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學(xué)術(shù)語表中的術(shù)語刪除,形成預(yù)處理后的待處理語句;將預(yù)處理后的待處理語句采用逆向最大匹配原則與預(yù)先設(shè)置的癥狀體征數(shù)據(jù)庫進(jìn)行匹配,將預(yù)處理后的待處理語句中與癥狀體征數(shù)據(jù)庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串作為初步實(shí)體抽出,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對(duì)應(yīng)的術(shù)語類型作為所述初步實(shí)體的實(shí)體類型;將預(yù)處理后的待處理語句的原始字符串與預(yù)先設(shè)置的句型數(shù)據(jù)庫進(jìn)行匹配;若所述預(yù)處理后的待處理語句的原始字符串與預(yù)先設(shè)置的句型數(shù)據(jù)庫中的句型格式匹配,則將所述預(yù)處理后的待處理語句的原始字符串采用逆向最大匹配原則與預(yù)先設(shè)置的疾病本體數(shù)據(jù)庫進(jìn)行匹配,將與疾病本體數(shù)據(jù)庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串作為初步實(shí)體抽出,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對(duì)應(yīng)的術(shù)語類型作為所述初步實(shí)體的實(shí)體類型;將預(yù)處理后的待處理語句中的各初步實(shí)體作為第二組候選實(shí)體。8.根據(jù)權(quán)利要求7所述的面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別方法,其特征在于,根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組癥狀體征類候選實(shí)體和第二組癥狀體征類候選實(shí)體,包括:判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符是否為預(yù)先設(shè)置的非癥狀體征術(shù)語字符;若各候選實(shí)體的末尾字符為預(yù)先設(shè)置的非癥狀體征術(shù)語字符,將所述候選實(shí)體舍棄。9.一種面向多數(shù)據(jù)源的癥狀體征類實(shí)體識(shí)別裝置,其特征在于,包括:待處理語句獲取單元,用于獲取原始數(shù)據(jù)中的待...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李雪莉關(guān)毅黃玉麗
    申請(qǐng)(專利權(quán))人:黑龍江特士信息技術(shù)有限公司哈爾濱工業(yè)大學(xué)
    類型:發(fā)明
    國別省市:黑龍江,23

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 无码av天天av天天爽| 亚无码乱人伦一区二区| 精品亚洲AV无码一区二区三区| 精品无码久久久久久尤物| 精品久久亚洲中文无码| 久久精品无码一区二区WWW| 亚洲av无码成h人动漫无遮挡| 亚洲精品无码99在线观看| 一本色道无码不卡在线观看| 亚洲一本到无码av中文字幕| 无码人妻精品一区二区三区99仓本| 久久无码无码久久综合综合| 亚洲成AV人片天堂网无码| 亚洲av永久无码精品三区在线4| 亚洲AV无码国产丝袜在线观看| 精品亚洲成A人无码成A在线观看| 无码国产精品一区二区免费I6| 亚洲精品无码久久久久A片苍井空| av中文无码乱人伦在线观看| 亚洲精品无码高潮喷水在线| 久久精品无码一区二区三区日韩| 人妻丝袜中文无码av影音先锋专区| 无套内射在线无码播放| 69久久精品无码一区二区| 中文字幕人妻无码一区二区三区| 亚洲熟妇av午夜无码不卡| 日韩夜夜高潮夜夜爽无码| 亚洲精品无码专区在线播放| 无码人妻一区二区三区免费视频| 亚洲综合无码AV一区二区| 一级电影在线播放无码| 精品无码久久久久久久久久| 亚洲AV无码国产剧情| av无码人妻一区二区三区牛牛| 亚洲av无码日韩av无码网站冲| 无码精品人妻一区二区三区免费看| 亚洲国产成人无码AV在线影院| 无码尹人久久相蕉无码| 亚洲精品无码AV中文字幕电影网站| 国产在线观看无码免费视频| 精品无码久久久久国产动漫3d|