• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種人類表型本體術語識別方法及系統技術方案

    技術編號:27262538 閱讀:23 留言:0更新日期:2021-02-06 11:23
    本公開公開的一種人類表型本體術語識別方法及系統,包括,獲取電子病歷;對電子病歷預處理,并切分出描述疾病癥狀的詞組;對每個詞組,計算該詞組與HPO庫中每個HPO的相似度得分,相似度得分最高的HPO為該詞組對應的HPO。實現了根據自然語言描述的電子病歷,自動識別出與該電子病歷對應的標準的HPO。出與該電子病歷對應的標準的HPO。出與該電子病歷對應的標準的HPO。

    【技術實現步驟摘要】
    一種人類表型本體術語識別方法及系統


    [0001]本專利技術涉及信息處理
    ,尤其涉及一種人類表型本體術語識別方法及系統。

    技術介紹

    [0002]本部分的陳述僅僅是提供了與本公開相關的
    技術介紹
    信息,不必然構成在先技術。
    [0003]近些年來,基因測序技術水平的提高使人們可以更加便捷地獲取基因組數據,同時也促進了科研工作者對人類疾病與基因組數據關系的研究。研究表明,越來越多的遺傳性疾病患者需要用到基因測序。隨著基因測序技術水平的不斷提高,基因數據產生的速度將會越來越快,預計到5年內將有超過一億的人類基因組被測序。對于每個病例,單基因遺傳疾病的診斷可能需要對數百種遺傳基因變異進行人工評估,在這個過程中存在一個瓶頸,即手動評估每一個患者的致病基因,這極為耗時耗力,進而出現了一系列加快評估致病基因的自動基因排序工具,如Phenomizer,Phenolyzer,hiPhive,Phive,PhiveIX,Phrank等,但這些工具往往需要以人類表型本體(Human Phenotype Ontology,HPO)作為輸入。
    [0004]人類表型本體現在已成為描述人類表型異常最常用的標準化用語之一,人類表型本體庫中包含大量的描述人類表型異常的用語,HPO的最新版本包含了超過13000個概念和超過156000個關于人類遺傳疾病的注釋,HPO共包括4大類,包括表型異常、臨床調節因素,死亡/衰老和遺傳模式,其中數目最多、臨床最常用的HPO是描述表型異常的標準用語,分為23大類,其中每個術語都描述了一種表型異常。/>[0005]傳統方法中,基于規則的方法依賴于現有的醫學詞匯,如正則表達式的運用,但基于自定義的規則和模板常常難以覆蓋各種語言現象,且泛化能力較差,研究者們很難設計出完整的規則來覆蓋各種情況。基于字典的方法因簡單性被廣泛使用,通過計算語義相似度,可以通過字典中已有的詞組來對目標概念進行標注;但是,該方法過分依賴外部數據的規模和質量,且搜集語料的過程耗費大量人力資源。

    技術實現思路

    [0006]本公開為了解決上述問題,提出了一種人類表型本體術語識別方法及系統,通過計算描述疾病癥狀的詞組與HPO庫中每個HPO的相似度得分,識別出該詞組對應的HPO,實現了根據自然語言描述的電子病歷,自動識別出與該電子病歷對應的標準的人類表型本體術語(HPO)。
    [0007]為實現上述目的,本公開采用如下技術方案:
    [0008]第一方面,提出了一種人類表型本體術語識別方法,包括,
    [0009]獲取電子病歷;
    [0010]對電子病歷預處理,并切分出描述疾病癥狀的詞組;
    [0011]對每個詞組,計算該詞組與HPO庫中每個HPO的相似度得分,相似度得分最高的HPO
    為該詞組對應的HPO。
    [0012]進一步的,計算詞組相似度得分的具體過程為:
    [0013]基于n-gram匹配算法計算詞組與HPO庫中每個HPO的相似度;
    [0014]基于WMD算法計算詞組與HPO庫中每個HPO的相似度;
    [0015]將兩個相似度進行加權求和,獲得該詞組與HPO庫中每個HPO的相似度得分。
    [0016]第二方面,提出了一種人類表型本體術語識別系統,包括,
    [0017]采集模塊,用于獲取電子病歷;
    [0018]預處理及詞組切分模塊,用于對電子病歷預處理,并切分出描述疾病癥狀的詞組;
    [0019]HPO識別模塊,用于對每個詞組,計算該詞組與HPO庫中每個HPO的相似度得分,相似度得分最高的HPO為該詞組對應的HPO。
    [0020]第三方面,提出了一種電子設備,包括存儲器和處理器以及存儲在存儲器上并在處理器上運行的計算機指令,所述計算機指令被處理器運行時,完成一種人類表型本體術語識別方法所述的步驟。
    [0021]第四方面,提出了一種計算機可讀存儲介質,用于存儲計算機指令,所述計算機指令被處理器執行時,完成一種人類表型本體術語識別方法所述的步驟。
    [0022]與現有技術相比,本公開的有益效果為:
    [0023]1、本公開通過計算描述疾病癥狀的詞組與HPO庫中每個HPO的相似度得分,識別出該詞組對應的HPO,實現了根據自然語言描述的電子病歷,自動識別出與該電子病歷對應的標準的人類表型本體術語(HPO)。
    [0024]2、在計算描述疾病癥狀的詞組與HPO庫中每個HPO的相似度得分時,分別通過n-gram匹配算法和WMD算法計算了詞組的相似度,進而將兩個相似度加權求和獲取最終的相似度得分,通過兩種方法計算相似度后再加權求和的方式,獲取的詞組的相似度得分,提高了相似度計算的準確率,進而提高了HPO識別的準確率。
    [0025]本專利技術附加方面的優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。
    附圖說明
    [0026]構成本申請的一部分的說明書附圖用來提供對本申請的進一步理解,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。
    [0027]圖1為本公開實施例1公開方法的流程圖。
    具體實施方式:
    [0028]下面結合附圖與實施例對本公開作進一步說明。
    [0029]應該指出,以下詳細說明都是例示性的,旨在對本申請提供進一步的說明。除非另有指明,本文使用的所有技術和科學術語具有與本申請所屬
    的普通技術人員通常理解的相同含義。
    [0030]需要注意的是,這里所使用的術語僅是為了描述具體實施方式,而非意圖限制根據本申請的示例性實施方式。如在這里所使用的,除非上下文另外明確指出,否則單數形式也意圖包括復數形式,此外,還應當理解的是,當在本說明書中使用術語“包含”和/或“包
    括”時,其指明存在特征、步驟、操作、器件、組件和/或它們的組合。
    [0031]在本公開中,術語如“上”、“下”、“左”、“右”、“前”、“后”、“豎直”、“水平”、“側”、“底”等指示的方位或位置關系為基于附圖所示的方位或位置關系,只是為了便于敘述本公開各部件或元件結構關系而確定的關系詞組,并非特指本公開中任一部件或元件,不能理解為對本公開的限制。
    [0032]本公開中,術語如“固接”、“相連”、“連接”等應做廣義理解,表示可以是固定連接,也可以是一體地連接或可拆卸連接;可以是直接相連,也可以通過中間媒介間接相連。對于本領域的相關科研或技術人員,可以根據具體情況確定上述術語在本公開中的具體含義,不能理解為對本公開的限制。
    [0033]實施例1
    [0034]在該實施例中,公開了一種人類表型本體術語識別方法,包括,獲取電子病歷;
    [0035]對電子病歷預處理,并切分出描述疾病癥狀的詞組;
    [0036]對每個詞組,計算該詞組與HPO庫中每個HPO的相似度得分,相似度得分最高的HPO為該詞組對應的HPO。
    [0037]進一步的,對電子病歷的預處理,包括,分詞、去停用詞和否定術語檢出。
    [0038]進一本文檔來自技高網...

    【技術保護點】

    【技術特征摘要】
    1.一種人類表型本體術語識別方法,其特征在于,包括:獲取電子病歷;對電子病歷預處理,并切分出描述疾病癥狀的詞組;對每個詞組,計算該詞組與HPO庫中每個HPO的相似度得分,相似度得分最高的HPO為該詞組對應的HPO。2.如權利要求1所述的一種人類表型本體術語識別方法,其特征在于,對電子病歷的預處理,包括,分詞、去停用詞和否定術語檢出。3.如權利要求1所述的一種人類表型本體術語識別方法,其特征在于,HPO庫是過濾與癥狀描述無關的HPO后的HPO庫。4.如權利要求1所述的一種人類表型本體術語識別方法,其特征在于,計算詞組相似度得分的具體過程為:基于n-gram匹配算法計算詞組與HPO庫中每個HPO的相似度;基于WMD算法計算詞組與HPO庫中每個HPO的相似度;將兩個相似度進行加權求和,獲得該詞組與HPO庫中每個HPO的相似度得分。5.如權利要求4所述的一種人類表型本體術語識別方法,其特征在于,基于n-gram匹配算法計算詞組與HPO庫中每個HPO的相似度的具體過程為:將詞組及HPO庫中HPO分別進行n-gram劃分;計算詞組與HPO庫中HPO的n-gram匹配信息;計算每個n-gram匹配的準確度;根據每個n-gram匹配的準確度及不同n-gram的權重,計算獲得詞組與HPO庫中每個HPO的相似度。6.如權利要求4所述的一種人類表型本體術語識別方法,其特征在于,基于WMD算法計算詞組與...

    【專利技術屬性】
    技術研發人員:徐衛志李廣震范勝玉于惠曹洋蔡曉雅耿艷芳趙晗龍開放
    申請(專利權)人:山東師范大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 成年轻人电影www无码| 国产成人午夜无码电影在线观看 | 无码人妻AⅤ一区二区三区水密桃| 国产成人无码AV麻豆| 人妻老妇乱子伦精品无码专区| 国产V亚洲V天堂无码久久久| 久久无码AV一区二区三区| 久久久久亚洲AV无码专区网站| 日韩精品无码免费一区二区三区| 国产av永久精品无码| 曰产无码久久久久久精品| 中文字幕人妻无码系列第三区| 国产怡春院无码一区二区| 未满十八18禁止免费无码网站| 亚洲高清无码在线观看| 无码中文在线二区免费| 蜜桃臀AV高潮无码| 久久无码无码久久综合综合 | 亚洲Av无码专区国产乱码DVD| 精品人妻无码一区二区色欲产成人| 无码人妻久久一区二区三区| 国产精品成人无码久久久久久 | 无码av免费一区二区三区试看| 无码欧精品亚洲日韩一区夜夜嗨| 无码中文人妻在线一区二区三区| 午夜无码国产理论在线| 久久午夜夜伦鲁鲁片无码免费| 日韩成人无码中文字幕| 亚洲日韩精品无码专区网站| 色欲AV无码一区二区三区| MM1313亚洲精品无码久久| 无码中文字幕av免费放| 亚洲成a人无码亚洲成av无码| 久久久久av无码免费网| 亚洲av无码不卡久久| 亚洲中文字幕无码久久2020| 特级小箩利无码毛片| 手机在线观看?v无码片| 成年无码av片在线| 亚洲中文字幕无码一区| 亚洲AV无码久久精品成人|