System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請實施例涉及文本匹配,尤其涉及一種文本匹配方法、裝置、計算機設(shè)備、計算機可讀存儲介質(zhì)、計算機程序產(chǎn)品。
技術(shù)介紹
1、在當今數(shù)字化時代,內(nèi)容平臺作為信息傳播的重要載體,承載著海量的文本數(shù)據(jù)。為了確保平臺內(nèi)容的合規(guī)性、安全性以及提升用戶體驗,對文本中詞組的有效監(jiān)控成為了內(nèi)容平臺不可或缺的一部分。
2、目前,ac自動機方案以其高效的基礎(chǔ)內(nèi)容識別能力,成為了眾多內(nèi)容平臺的過濾詞組的首選方案。然而,傳統(tǒng)的ac自動機方案在應(yīng)對大規(guī)模用戶、復雜業(yè)務(wù)場景時,需要按個對業(yè)務(wù)詞庫進行配置與修改,這不僅增加了運營成本,還難以保證配置或修改的及時性和準確性,并且,對于超長文本匹配常常會出現(xiàn)文本匹配失敗的問題。
3、需要說明的是,上述內(nèi)容并不必然是現(xiàn)有技術(shù),也不用于限制本申請的專利保護范圍。
技術(shù)實現(xiàn)思路
1、本申請實施例提供一種文本匹配方法、裝置、計算機設(shè)備、計算機可讀存儲介質(zhì)、計算機程序產(chǎn)品,以解決或緩解上面提出的一項或更多項技術(shù)問題。
2、本申請實施例的一個方面提供了一種文本匹配方法,所述方法包括:
3、根據(jù)文本類型創(chuàng)建多個目標組合,其中,每個目標組合包括多個詞組;
4、在多個業(yè)務(wù)詞庫與多個所述目標組合之間建立綁定關(guān)系;
5、在所述綁定關(guān)系建立的情況下,將目標業(yè)務(wù)下的目標文本與目標業(yè)務(wù)詞庫綁定的一個或多個目標組合進行文本匹配以得到匹配結(jié)果,所述目標業(yè)務(wù)詞庫為多個業(yè)務(wù)詞庫之一;
6、其中,所述文本匹配包括:按字符順
7、可選地,根據(jù)文本類型創(chuàng)建多個目標組合,包括:
8、創(chuàng)建詞組詞庫;
9、根據(jù)文本類型對所述詞組詞庫中的詞進行詞分類和打包,以得到多個所述目標組合。
10、可選地,按字符順序?qū)λ瞿繕宋谋具M行冗余切分,以進行多文本塊匹配,包括:
11、確定所述目標文本的字符長度;
12、在所述字符長度大于預設(shè)閾值的情況下,根據(jù)所述目標文本得到多個文本塊;
13、通過多個文本匹配服務(wù)實例,對多個文本塊進行分布式匹配操作以得到所述匹配結(jié)果;
14、其中,一個文本匹配服務(wù)實例對應(yīng)一個文本塊,所述分布式匹配操作在于對所述多個文本塊并行操作。
15、可選地,對多個文本塊進行分布式匹配操作以得到所述匹配結(jié)果,包括:
16、獲取所述分布式匹配操作的多個分布式匹配結(jié)果,一個文本塊對應(yīng)一個分布式匹配結(jié)果;
17、對所述多個分布式匹配結(jié)果進行拼接操作,以得到針對所述目標文本的所述匹配結(jié)果。
18、可選地,所述預設(shè)字符長度通過以下操作得到:
19、獲取所述目標業(yè)務(wù)詞庫綁定的一個或多個目標組合中各個詞組的最大字符長度;
20、將所述最大字符長度確定為所述預設(shè)字符長度。
21、可選地,所述文本匹配還包括:
22、確定所述目標文本的字符長度;
23、在所述字符長度不大于預設(shè)閾值的情況下,通過單個文本匹配服務(wù)實例,對所述目標文本進行匹配操作。
24、本申請實施例的另一個方面提供了一種文本匹配裝置,所述裝置包括:
25、創(chuàng)建模塊,用于根據(jù)文本類型創(chuàng)建多個目標組合,其中,每個目標組合包括多個詞組;
26、建立模塊,用于在多個業(yè)務(wù)詞庫與多個所述目標組合之間建立綁定關(guān)系;
27、匹配模塊,用于在所述綁定關(guān)系建立的情況下,將目標業(yè)務(wù)下的目標文本與目標業(yè)務(wù)詞庫綁定的一個或多個目標組合進行文本匹配以得到匹配結(jié)果,所述目標業(yè)務(wù)詞庫為多個業(yè)務(wù)詞庫之一。
28、本申請實施例的另一個方面提供了一種計算機設(shè)備,包括:
29、至少一個處理器;及
30、與所述至少一個處理器通信連接的存儲器;
31、其中:所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行如上所述的方法。
32、本申請實施例的另一個方面提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)內(nèi)存儲有計算機指令,所述計算機指令被處理器執(zhí)行時實現(xiàn)如上所述的方法。
33、本申請實施例的另一個方面提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的方法。
34、本申請實施例采用上述技術(shù)方案可以包括如下優(yōu)勢:
35、根據(jù)文本類型創(chuàng)建多個目標組合。每個目標組合包括多個詞組。根據(jù)業(yè)務(wù)需求,在多個業(yè)務(wù)詞庫(比如,彈幕詞庫、評論詞庫等)與多個目標組合之間建立綁定關(guān)系。其中,一個目標組合可以綁定多個業(yè)務(wù)詞庫。在綁定關(guān)系建立的情況下,將目標業(yè)務(wù)下的目標文本與目標業(yè)務(wù)詞庫綁定的一個或多個目標組合進行文本匹配以得到匹配結(jié)果。其中,文本匹配包括:按字符順序?qū)δ繕宋谋具M行冗余切分,以進行多文本塊匹配。每個文本塊與其相鄰的文本塊在交界處重疊預設(shè)字符長度的文本。可知,當需要在多個業(yè)務(wù)詞庫中添加或刪除某一個或多個詞組時,本申請實施例,無需逐一對這些業(yè)務(wù)詞庫進行操作。只需對目標組合進行配置(即添加或刪除詞組),所關(guān)聯(lián)的業(yè)務(wù)詞庫會隨之自動更新,從而提升了配置或修改多個業(yè)務(wù)詞庫的效率和文本匹配的成功率。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種文本匹配方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)文本類型創(chuàng)建多個目標組合,包括:
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,按字符順序?qū)λ瞿繕宋谋具M行冗余切分,以進行多文本塊匹配,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,對多個文本塊進行分布式匹配操作以得到所述匹配結(jié)果,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預設(shè)字符長度通過以下操作得到:
6.根據(jù)權(quán)利要求1至5任一項所述的方法,其特征在于,所述文本匹配還包括:
7.一種文本匹配裝置,其特征在于,所述裝置包括:
8.?一種計算機設(shè)備,其特征在于,包括:
9.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)內(nèi)存儲有計算機指令,所述計算機指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6中任一項所述的方法。
10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6所述方法的步驟。
【技術(shù)特征摘要】
1.一種文本匹配方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)文本類型創(chuàng)建多個目標組合,包括:
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,按字符順序?qū)λ瞿繕宋谋具M行冗余切分,以進行多文本塊匹配,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,對多個文本塊進行分布式匹配操作以得到所述匹配結(jié)果,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預設(shè)字符長度通過以下操作得到:
...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:曹森榮,
申請(專利權(quán))人:上海嗶哩嗶哩科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。