【技術實現步驟摘要】
一種信息處理方法及電子設備
本專利技術涉及計算機
,特別涉及一種信息處理方法及電子設備。
技術介紹
在自然語言文本中,和文本表述的主題不相關的詞匯或者短語一般稱為無關語。是否是無關語的一個判定標準是:去掉句子中的無關語,對該文本要表達的語義不產生影響。例如,在句子“你好,請問到售后重裝系統要收費么?”中,“你好”和“請問”就是兩個無關語,去掉這兩個詞匯對句子要表達的主題不產生任何影響。在實際中,在使用智能問答、文本分類等系統中,當對語義進行分析和處理時,由于無關語的存在,易對其語義的分析和處理造成影響,從而易導致分析和處理的結果不準確,因此,如何降低無關語對語義的影響是人們一直重視的問題。現有技術中降低無關語的影響主要有兩種方法:第一種:通過停止詞匯表(StopWords),停止詞匯表是由整理的停止詞構成的詞典,其中,在文本處理的過程中存在一些需要被剔除的詞,如“的”、“了”、“著”等無意義詞匯就稱為停止詞。該方法是基于該停止詞匯表對語料庫進行處理,當在語料庫中存在停止詞匯表中的停止詞時就停止對該停止詞的處理。第二種:逆文檔頻率(InverseDocumentFrequency)的方法,在該方法中,假設在語料庫中出現頻度高的詞匯的重要程度低,即該詞匯的逆文檔頻率較低,則將該詞匯按照無關語處理。然而,當用第一種方法處理語料庫中的無關語時,由于整理停止詞匯表大多是由人工完成,故占用時間較長,且往往因為受到觀察者理解的局限性,或者受到某些特殊情況下的個別語句的影響,易導致確定從的停止詞的準確性較低。當用第二種方法處理語料庫中的無關語時,是采用了一種假設的方 ...
【技術保護點】
一種信息處理方法,應用于一電子設備中,所述電子設備包括一初始信息集合和待處理信息集合,所述初始信息集合包含有至少一個初始信息,所述待處理信息集合中包含有至少一個待處理信息,所述方法包括:在所述至少一個初始信息中,確定M個第一標識信息和N個第二標識信息,M、N均為正整數;其中,每個第一標識信息為在所述待處理信息集合中出現頻率大于一預設出現頻率閾值的初始信息,每個第二標識信息為將所述至少一個初始信息拆分后獲得的至少一個分段信息中滿足一預設條件的分段信息;在所述待處理信息集合中,分別根據每個第一標識信息按預定規則進行搜索,獲得與所述M個第一標識信息相應的M’搜索信息組,其中,所述M’搜索信息組中包含的至少一個搜索信息構成第一信息集合;M’為小于或等于M的正整數;在所述待處理信息集合中,分別根據每個第二標識信息在所述待處理信息中進行擴展,獲得與所述N個第二標識信息相應的N’個擴展信息組,所述N個擴展信息組中包含的至少一個擴展信息構成第二信息集合;N’為小于或等于N的正整數;將所述第一信息集合、所述第二信息集合與所述初始信息集合進行合并,獲得包含至少一個更新信息的更新信息集合,所述更新信息集合用 ...
【技術特征摘要】
1.一種信息處理方法,應用于一電子設備中,所述電子設備包括一初始信息集合和待處理信息集合,所述初始信息集合包含有至少一個初始信息,所述待處理信息集合中包含有至少一個待處理信息,所述方法包括:在所述至少一個初始信息中,確定M個第一標識信息和N個第二標識信息,M、N均為正整數;其中,每個第一標識信息為在所述待處理信息集合中出現頻率大于一預設出現頻率閾值的初始信息,每個第二標識信息為將所述至少一個初始信息拆分后獲得的至少一個分段信息中滿足一預設條件的分段信息;在所述待處理信息集合中,分別根據每個第一標識信息按預定規則進行搜索,獲得與所述M個第一標識信息相應的M’搜索信息組,其中,所述M’搜索信息組中包含的至少一個搜索信息構成第一信息集合;M’為小于或等于M的正整數;在所述待處理信息集合中,分別根據每個第二標識信息在所述待處理信息中進行擴展,獲得與所述N個第二標識信息相應的N’個擴展信息組,所述N’個擴展信息組中包含的至少一個擴展信息構成第二信息集合;N’為小于或等于N的正整數;將所述第一信息集合、所述第二信息集合與所述初始信息集合進行合并,獲得包含至少一個更新信息的更新信息集合,所述更新信息集合用于驗證所述至少一個待處理信息中是否存在所述更新信息,所述更新信息為所述搜索信息、所述擴展信息或所述初始信息;判斷所述待處理信息集合中是否存在與所述更新信息集合中的至少一個更新信息相匹配的待處理信息;若有,將該匹配的待處理信息標記為無關信息。2.如權利要求1所述的方法,其特征在于,所述在所述至少一個初始信息中,確定M個第一標識信息,具體為:確定第i個初始信息在所述待處理信息集合中的第i個出現頻率;i分別取不小于1且不大于所述初始信息集合中包含的初始信息的總量的整數;及,根據所述第i個初始信息在所述待處理信息中所處的位置,確定所述第i個初始信息位于待處理信息的第一位置區域的第一次數和位于待處理信息的第二位置區域的第二次數;根據所述第一次數和所述第二次數,確定所述第i個初始信息在所述待處理信息集合中的第i個有效頻率;若所述第i個出現頻率大于所述預設出現頻率閾值,且所述第i個有效頻率大于預設有效頻率閾值,則將所述第i個初始信息確定為所述第一標識信息,共確定出所述M個第一標識信息。3.如權利要求2所述的方法,其特征在于,所述根據所述第一次數和所述第二次數,確定所述第i個初始信息在所述待處理信息集合中的第i個有效頻率,具體為:根據所述第一次數、所述第二次數、及所述待處理信息集合中所包含的待處理信息的總數量的比值,確定所述第i個有效頻率。4.如權利要求2或3所述的方法,其特征在于,在確定所述M個第一標識信息之后,還包括:確定所述M個第一標識信息中的第t個第一標識信息對應的所述第一次數和所述第二次數;t分別取不小于1且不大于M的整數;比較所述第一次數和所述第二次數的大小,獲得一比較結果;當所述比較結果表明所述第一次數大于等于所述第二次數時,確定所述第t個第一標識信息為左側標識信息,所述左側標識信息具有第一標識參數,否則,確定所述第t個第一標識信息為右側標識信息,所述右側標識信息具有第二標識參數。5.如權利要求4所述的方法,其特征在于,所述在所述待處理信息集合中,分別將每個第一標識信息按預定規則進行搜索,獲得與所述M個第一標識信息相應的M’個搜索信息組,具體為:確定L個第一標識信息中的第p個第一標識信息位于所述待處理信息中的第一標識位置區域;p分別取不小于1且不大于L的整數,L為不大于M的整數;在所述待處理信息中,向所述第一標識位置區域的左側進行搜索,獲得與所述第p個第一標識信息對應的第p個左側搜索信息組,共獲得L’個左側搜索信息組;L’為不大于L的正整數;和/或確定R個第一標識信息中的第q個第一標識信息位于所述待處理信息中的第二標識位置區域;q分別取不小于1且不大于R的整數,R為不大于M的整數,且L+R=M;在所述待處理信息中,向所述第二標識位置區域的右側進行搜索,獲得與所述第q個第一標識信息對應的第q個右側搜索信息組,共獲得R’個右側搜索信息組;R’為不大于R的正整數,且L’+R’=M’;令所述L’個左側搜索信息組與所述R’個右側搜索信息組構成所述M’個搜索信息組。6.如權利要求5所述的方法,其特征在于,確定所述M’個搜索信息組中包含的所述至少一個搜索信息,具體為:確定所述M’個搜索信息組中的第p個左側搜索信息在所述待處理信息集合中出現的第一頻率,和/或確定所述M’個搜索信息組中的第q個右側搜索信息在所述待處理信息集合中出現的第二頻率;令頻率值大于第一預設候選頻率閾值的所述第一頻率對應的第p個左側搜索信息為所述搜索信息,和/或令頻率值大于所述第一預設候選頻率閾值的所述第二頻率對應的第q個右側搜索信息為所述搜索信息。7.如權利要求1所述的方法,其特征在于,所述在所述至少一個初始信息中,確定N個第二標識信息,具體為:確定第j個初始信息在所述待處理信息集合中的第j個出現頻率;j分別取不小于1且不大于所述初始信息集合中包含的初始信息的總量的整數;將所述第j個初始信息按照預設拆分條件進行拆分,獲得k個分段信息;k為正整數;確定所述k個分段信息中的第m個分段信息在所述待處理信息集合中出現的第m分段頻率;m分別取不小于1且不大于k的整數;判斷所述第j個出現頻率與所述第m分段頻率之間的差值是否大于一預設分段頻率閾值;若所述差值大于所述預設分段頻率閾值,將所述第m個分段信息確定為所述第二標識信息,共確定出所述N個第二標識信息。8.如權利要求7所述的方法,其特征在于,在所述待處理信息集合中,分別根據每個第二標識信息在所述待處理信息中進行擴展,獲得與所述N個第二標識信息相應的N’個擴展信息組,所述N’個擴展信息組中包含的至少一個擴展信息構成第二信息集合,具體為:確定所述N個第二標識信息中的第r個第二標識信息在所述待處理信息中占用的第r個標識長度;r分別取不小1且不大于N的整數;根據所述第r個標識長度對所述第r個第二標識信息進行擴展,獲得與所述第r個第二標識信息對應的、包含有h個擴展信息的第r個擴展信息組,共獲得所述N’個擴展信息組;其中每個擴展信息的擴展長度不小于所述第r個標識長度;h為正整數;根據預設驗證條件對所述第r個擴展信息組中的所述h個擴展信息進行驗證;令驗證成功的擴展信息構成所述第二信息集合。9.如權利要求8所述的方法,其特征在于,所述根據預設驗證條件對所述第r個擴展信息組中的所述h個擴展信息進行驗證,包括:確定所述第r個第二標識信息的起始標識字符、終止標識字符;及,確定所述h個擴展信息中的第x個擴展信息的起始擴展字符、終止擴展字符;x分別取不小于1且不大于h的整數;驗證所述起始標識字符與所述起始擴展字符是否匹配,及所述終止標識字符與所述終止擴展字符是否匹配;其中,若所述起始標識字符與所述起始擴展字符匹配成功,或所述終止標識字符與所述終止擴展字符匹配成功,則確定對所述第x個擴展信息驗證成功。10.如權利要求9所述的方法,其特征在于,確定對所述第x個擴展信息驗證成功,包括:確定所述r個第二標識信息在所述待處理信息集合中出現的第r分段頻率;及,確定匹配成功的所述第x個擴展信息在所述...
【專利技術屬性】
技術研發人員:吳昱明,周丹,王石,曹存根,賈煒,
申請(專利權)人:聯想北京有限公司,中國科學院計算技術研究所,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。