• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁(yè) > 專利查詢>吳長(zhǎng)林專利>正文

    含有漢語(yǔ)的字符串的分詞方法及在字符串中檢索詞的方法技術(shù)

    技術(shù)編號(hào):2912169 閱讀:261 留言:0更新日期:2012-04-11 18:40
    本發(fā)明專利技術(shù)提供了一種含有漢語(yǔ)字符串的分詞方法,包括:接收包含有漢語(yǔ)字符的字符串;對(duì)于每個(gè)字符,確定所述字符串中該字符的語(yǔ)義作用范圍;對(duì)于每個(gè)字符,在其語(yǔ)義作用范圍內(nèi),確定與該字符可匹配成詞的其他字符并構(gòu)成詞。經(jīng)過(guò)對(duì)每個(gè)字符的語(yǔ)義作用范圍的界定,體現(xiàn)漢語(yǔ)作為非線性語(yǔ)言和其它線性語(yǔ)言之間區(qū)別。從而切分出的結(jié)果詞匯可以更準(zhǔn)確反應(yīng)漢語(yǔ)字符中的語(yǔ)義劃分關(guān)系。本發(fā)明專利技術(shù)還提供了一種在字符串中檢索詞的方法,包括:確定該字符串中包含待檢索詞的字符;確定該字符的語(yǔ)義作用范圍內(nèi)所記錄的構(gòu)成的詞;確定與該待檢詞匹配的所記錄的詞。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及一種自然語(yǔ)言數(shù)據(jù)處理的
    ,特別是指包含有 漢語(yǔ)字符串的分詞方法及在字符串中檢索詞的方法。
    技術(shù)介紹
    漢語(yǔ)沒(méi)有單詞的概念,而是按照字來(lái)直接構(gòu)成語(yǔ)句。在英語(yǔ)中, 詞和詞之間是以空格為自然分隔符的。但在漢語(yǔ)中,詞和詞之間沒(méi) 有明顯的分隔,所以在作漢語(yǔ)的信息處理的時(shí)候,就需要對(duì)漢語(yǔ)句 子進(jìn)行分詞,即將漢字字符串中的各個(gè)漢字轉(zhuǎn)化成為漢語(yǔ)詞。目前 對(duì)漢語(yǔ)句子的分詞方法,都照搬了英文或者其他印歐語(yǔ)言的特點(diǎn), 力圖把漢語(yǔ)句子切分為 一個(gè)連續(xù)的、無(wú)交疊的詞匯的序列。這種分詞方法是建立在中文字符的語(yǔ)義作用范圍是緊鄰左右這 一狹窄范圍的基礎(chǔ)上的,因此切分出來(lái)的詞匯在原句子中是連續(xù)的 中文字符構(gòu)成。而這并不完全符合漢語(yǔ)構(gòu)成句子時(shí)的構(gòu)詞習(xí)慣,因 為漢語(yǔ)在構(gòu)成句子時(shí),并不確保每個(gè)詞匯中的每個(gè)字在句子中都是 連續(xù)出現(xiàn)的。從而影響了后續(xù)的應(yīng)用,例如對(duì)檢索、搜索、翻譯、 摘要等應(yīng)用。為了用符合漢語(yǔ)構(gòu)成句子時(shí)的構(gòu)詞習(xí)慣對(duì)含有漢語(yǔ)的 字符串進(jìn)行分詞。就需要更準(zhǔn)確的翻譯漢語(yǔ)字符中的語(yǔ)義劃分關(guān)系。
    技術(shù)實(shí)現(xiàn)思路
    有鑒于此,本專利技術(shù)的主要目的在于提供 一 種含有漢語(yǔ)的字符串的 分詞方法及在字符串中檢索詞的方法,用于限定語(yǔ)義作用范圍以更 準(zhǔn)確反應(yīng)漢語(yǔ)字符中的語(yǔ)義劃分關(guān)系。本專利技術(shù)提供了一種含有漢語(yǔ)字符串的分詞方法,包括A、 接收包含有漢語(yǔ)字符的字符串;B、 對(duì)于每個(gè)字符,確定所述字符串中該字符的語(yǔ)義作用范圍;C、 對(duì)于每個(gè)字符,在其語(yǔ)義作用范圍內(nèi),確定與該字符可匹配 成詞的其他字符并構(gòu)成詞。由上可以看出,經(jīng)過(guò)步驟B完成了對(duì)每個(gè)字符的語(yǔ)義作用范圍 的界定,由此體現(xiàn)出了漢語(yǔ)作為非線性語(yǔ)言和其它線性語(yǔ)言之間區(qū) 別。如此就可以在步驟C中完成語(yǔ)義作用范圍內(nèi)的構(gòu)詞匹配。從而 實(shí)現(xiàn)了所切分出的結(jié)果詞匯可以更準(zhǔn)確反應(yīng)漢語(yǔ)字符中的語(yǔ)義劃分 關(guān)系。優(yōu)選的是,所述步驟B包括Bll、對(duì)于每個(gè)字符,設(shè)置所述字 符串中可距離該字符的最遠(yuǎn)距離為最大跳躍長(zhǎng)度;B21、確定所述字 符的最大跳躍長(zhǎng)度范圍內(nèi)最近的界限分隔符標(biāo)點(diǎn);B31、確定所述最 近的界限分隔符標(biāo)點(diǎn)到所述字符的距離值和最大跳躍長(zhǎng)度值中的最 小值,所述字符到該最小值距離所形成的距離區(qū)間作為所述字符的 語(yǔ)義作用范圍。由上可以看出,因?yàn)橐粋€(gè)字符的語(yǔ)義作用范圍是不可能越過(guò)界限 分隔符標(biāo)點(diǎn)的,所以通過(guò)步驟Bll、步驟B21和步驟B31就將每個(gè) 字符的語(yǔ)義作用范圍界定在既不超過(guò)最大跳躍長(zhǎng)度范圍又不越過(guò)界 限分隔符標(biāo)點(diǎn)的范圍內(nèi)。優(yōu)選的是,所述步驟B包括B12、對(duì)于每個(gè)字符,設(shè)置所述字 符串中距離該字符最遠(yuǎn)距離為最大跳躍長(zhǎng)度;B22、計(jì)算所述字符串 的每個(gè)字符到所述字符串一個(gè)端點(diǎn)的距離作為真實(shí)偏移量;B32,計(jì) 算每個(gè)字符的虛擬偏移量,虛擬偏移量=真實(shí)偏移量+所述端點(diǎn)與該 字符之間的界限分隔符標(biāo)點(diǎn)的數(shù)量x不小于最大跳躍長(zhǎng)度的數(shù)值; B42,對(duì)于每個(gè)字符,與該字符虛擬偏移量值之差小于最大跳躍長(zhǎng)度 值的其他字符組成該字符的語(yǔ)義作用范圍。由上可以看出,虛擬偏移量體系是在真實(shí)偏移量即機(jī)械字符的基 礎(chǔ)上,考慮了界限分隔符標(biāo)點(diǎn)的劃界作用而產(chǎn)生的對(duì)字符的語(yǔ)義位 置進(jìn)行描述的體系。在步驟B32中將界限分隔符標(biāo)點(diǎn)的權(quán)重設(shè)為不小于最大跳躍長(zhǎng)度的數(shù)值。這樣就保證了在進(jìn)行語(yǔ)義作用范圍界定 的時(shí)候絕對(duì)不會(huì)越過(guò)界限分隔符標(biāo)點(diǎn)。并且因?yàn)橛辛硕康奈恢皿w 系,所以在虛擬偏移量的基礎(chǔ)上可以非常方便的進(jìn)行進(jìn)一步的處理。優(yōu)選的是,步驟C中構(gòu)成詞為采用非線性切分法構(gòu)成詞,包括 在該字符的語(yǔ)義作用范圍內(nèi),依次判斷與該字符非連續(xù)的匹配的跳 詞構(gòu)成詞。由上可以看出,經(jīng)過(guò)本步驟可以在有效的界定了字符的語(yǔ)義作用 范圍之后,在所述語(yǔ)義作用范圍之內(nèi)進(jìn)行有效的非線性詞匯的切分。優(yōu)選的是,所述界限分隔符標(biāo)點(diǎn)包括句號(hào)、逗號(hào)、分號(hào)、問(wèn)號(hào)和 感嘆號(hào)以及所包含字符的長(zhǎng)度之和超過(guò)最大跳躍長(zhǎng)度的引號(hào)或括號(hào)。由上可以看出,標(biāo)點(diǎn)符號(hào)被分為了界限分隔符標(biāo)點(diǎn)和非界限分隔 符標(biāo)點(diǎn)。界限分隔符標(biāo)點(diǎn)是刻畫(huà)了語(yǔ)義作用范圍的標(biāo)點(diǎn),通常可以 理解為被用來(lái)斷句的標(biāo)點(diǎn)。例如句號(hào)、逗號(hào)、分號(hào)、問(wèn)號(hào)和感嘆號(hào) 等。對(duì)于所包含字符的長(zhǎng)度之和超過(guò)最大跳躍長(zhǎng)度的引號(hào)或括號(hào)也 被視為界限分隔符。其他的對(duì)語(yǔ)義作用范圍沒(méi)有影響的標(biāo)點(diǎn)則被視 為非界限分隔符標(biāo)點(diǎn)。例如所包含字符的長(zhǎng)度之和沒(méi)有超過(guò)最大跳躍長(zhǎng)度的引號(hào)。非界限分隔符標(biāo)點(diǎn)被視為普通的字符。優(yōu)選的是,步驟C中構(gòu)成詞的步驟還包括采用線性切分法構(gòu) 成詞。由上可以看出,經(jīng)過(guò)本步驟還可以在所述語(yǔ)義作用范圍之內(nèi)進(jìn)行 有效的線性詞匯的切分。優(yōu)選的是,所述線性切分法包括至少以下之一正向最大匹配法、 逆向最大匹配法、雙向最大匹配法、逐詞遍歷匹配法、最大似然概 率法、或切割標(biāo)志法。優(yōu)選的是,所述步驟C后還包括,D、記錄所構(gòu)成的詞以及各個(gè) 詞之間的語(yǔ)義關(guān)系。由上可以看出,經(jīng)過(guò)本步驟可以在切分出結(jié)果詞匯不僅記錄詞匯 還記錄各個(gè)詞匯之間的語(yǔ)義關(guān)系。優(yōu)選的是,步驟D所述記錄各個(gè)詞之間的語(yǔ)義關(guān)系包括Dl, 將所有構(gòu)成的詞按照在字符串中的位置進(jìn)行排序,包括根據(jù)各個(gè) 詞的第一個(gè)字符在字符串中的先后位置對(duì)各個(gè)詞進(jìn)行先后排序;且, 當(dāng)不同詞的第 一個(gè)字符在字符串中的位置相同時(shí),根據(jù)詞的最后一 個(gè)字符在字符串中的先后位置對(duì)不同詞進(jìn)行先后排序;且,當(dāng)不同 詞的第一個(gè)字符和最后一個(gè)字符在字符串中的位置一樣時(shí),根據(jù)詞 所包含字符數(shù)量值對(duì)不同詞進(jìn)行先后排序;D2,為每個(gè)字符記錄其 所屬詞的詞匯序列號(hào)。由上可以看出,所述詞匯序列號(hào)包含了詞匯之間的語(yǔ)義關(guān)系。記 錄記錄各個(gè)詞的詞匯序列號(hào)就記錄了各個(gè)詞之間的語(yǔ)義關(guān)系。本專利技術(shù)還提供了一種在字符串中檢索詞的方法,其特征在于,包括M、確定該字符串中包含待檢索詞的字符;N、確定該字符的語(yǔ)義作用范圍內(nèi)所記錄的構(gòu)成的詞;0、確定與該祠4全詞匹配的所記錄的詞。附圖說(shuō)明圖1為對(duì)字符串進(jìn)行分詞的預(yù)處理流程圖; 圖2為一個(gè)實(shí)施例中一個(gè)示例字符串及其對(duì)應(yīng)的真實(shí)偏移量記 錄結(jié)果示意圖3為計(jì)算字符的虛擬偏移量的流程圖4為一個(gè)實(shí)施例中一個(gè)示例字符串及其對(duì)應(yīng)的虛擬偏移量記 錄結(jié)果示意圖5為同時(shí)記錄了虛擬偏移量和真實(shí)偏移量的記錄結(jié)果示意圖; 圖6為一個(gè)同時(shí)記錄了虛擬偏移量和真實(shí)偏移量的句子的記錄 結(jié)果示意圖7為一個(gè)示例語(yǔ)句的字符串的示意圖8為采用了正向最大匹配法以及逆向最大匹配法的分詞方案 對(duì)圖7中的示例字符串切分得到的結(jié)果示意7圖9為非線性切分的流程圖10為含有跳詞情況的示例語(yǔ)句的字符串的示意圖; 圖11為本實(shí)施例中將切分出來(lái)的分詞結(jié)果進(jìn)行立體關(guān)聯(lián)得到立 體分詞結(jié)果的流程圖12為記錄的具有歧義的示例語(yǔ)句的第一種切分結(jié)果的示意圖13為記錄的具有歧義的示例語(yǔ)句的第二種切分結(jié)果的示意圖14為記錄了具有歧義的示例所有可能的切分結(jié)果的示意圖15為錯(cuò)誤跳詞的示例語(yǔ)句字符串的示意圖16為帶真實(shí)偏移量的字符串的示意圖17為帶了虛擬偏移量的字符串的示意圖18為切分出的結(jié)果示意圖19為帶真實(shí)偏移量的切分結(jié)果示意圖20為帶虛擬偏移量的切分結(jié)果示意圖21為使用真實(shí)偏移量而產(chǎn)生跳詞錯(cuò)誤的切分結(jié)果的示意圖22為使用虛擬偏移量而避免了跳詞錯(cuò)誤的切分結(jié)果的示意圖23為使用真實(shí)偏移量而記錄了錯(cuò)誤跳詞的記錄結(jié)果的示意圖24為使用虛擬偏移量而避免了跳詞錯(cuò)誤的記錄結(jié)果的示意圖25為帶虛擬偏移量的多種跳詞示例語(yǔ)句字符串的示意圖; 圖26為本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】
    一種含有漢語(yǔ)的字符串的分詞方法,其特征在于,包括: A、接收包含有漢語(yǔ)字符的字符串; B、對(duì)于每個(gè)字符,確定所述字符串中該字符的語(yǔ)義作用范圍; C、對(duì)于每個(gè)字符,在其語(yǔ)義作用范圍內(nèi),確定與該字符可匹配成詞的其他字符并構(gòu)成詞。

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:吳長(zhǎng)林陳飔
    申請(qǐng)(專利權(quán))人:吳長(zhǎng)林
    類型:發(fā)明
    國(guó)別省市:81[中國(guó)|廣州]

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 国模吧无码一区二区三区| 亚洲国产超清无码专区| 亚洲高清无码专区视频| 国产乱子伦精品无码码专区| 无码一区二区三区免费| 无码天堂亚洲国产AV| 无码精品人妻一区二区三区漫画| 成人免费无遮挡无码黄漫视频| 玖玖资源站无码专区| 免费无码H肉动漫在线观看麻豆 | 亚洲AV无码专区在线电影成人 | 国产午夜片无码区在线播放| 无码人妻丰满熟妇啪啪网站牛牛| 亚洲AV无码欧洲AV无码网站| 宅男在线国产精品无码| 色综合久久久无码中文字幕| 最新无码人妻在线不卡| 无码人妻视频一区二区三区| 亚洲桃色AV无码| 亚洲Av无码乱码在线观看性色| 好了av第四综合无码久久| 无码国产精成人午夜视频不卡| 亚洲AV无码国产精品色| 无码超乳爆乳中文字幕久久| 亚洲ⅴ国产v天堂a无码二区| 国精品无码一区二区三区在线| 日韩人妻无码一区二区三区| 久久无码精品一区二区三区| av无码a在线观看| 国产丝袜无码一区二区三区视频| 中文无码日韩欧免费视频| 国产成人无码免费看片软件| 亚洲中久无码不卡永久在线观看| 国产一区二区三区无码免费| 国产成人亚洲精品无码AV大片| 亚洲&#228;v永久无码精品天堂久久 | 色综合无码AV网站| 免费无码国产在线观国内自拍中文字幕 | 国产精品成人无码免费| 亚洲AV无码之日韩精品| 亚洲桃色AV无码|