System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)屬于數(shù)據(jù)處理,尤其涉及一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法及系統(tǒng)。
技術(shù)介紹
1、本部分的陳述僅僅是提供了與本專(zhuān)利技術(shù)相關(guān)的
技術(shù)介紹
信息,不必然構(gòu)成在先技術(shù)。
2、目前,隨著大型語(yǔ)言模型如chatgpt、yuan1.0、盤(pán)古α等的快速發(fā)展,它們的應(yīng)用和影響力正在迅速擴(kuò)展,展現(xiàn)出了卓越的處理和生成語(yǔ)言的能力。這些模型因參數(shù)規(guī)模的持續(xù)增長(zhǎng),對(duì)大規(guī)模且高質(zhì)量的語(yǔ)料庫(kù)的需求也越來(lái)越高。互聯(lián)網(wǎng)網(wǎng)頁(yè)作為重要的語(yǔ)料庫(kù)來(lái)源之一,每天都在不斷產(chǎn)生大量新的內(nèi)容。這不僅為語(yǔ)言模型的訓(xùn)練提供了豐富的數(shù)據(jù)資源,同時(shí)也帶來(lái)了如何高效提取和處理這些數(shù)據(jù)的挑戰(zhàn)。
3、基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建高質(zhì)量語(yǔ)料庫(kù)的方法主要有以下兩個(gè)必要性。首先,對(duì)于大型預(yù)訓(xùn)練語(yǔ)言模型來(lái)說(shuō),確保數(shù)據(jù)的準(zhǔn)確性和高質(zhì)量是至關(guān)重要的。高質(zhì)量語(yǔ)料庫(kù)能夠提升模型的泛化能力,降低偏差風(fēng)險(xiǎn),從而確保模型輸出的可靠性與實(shí)用性。其次,海量的網(wǎng)頁(yè)數(shù)據(jù)集中包含著大量的重復(fù)、不雅及低質(zhì)量?jī)?nèi)容,文本質(zhì)量參差不齊,無(wú)法直接應(yīng)用于預(yù)訓(xùn)練語(yǔ)言模型。僅僅增加語(yǔ)料庫(kù)大小并不一定能夠帶來(lái)模型性能的提升,保障語(yǔ)料庫(kù)質(zhì)量成為模型優(yōu)化的關(guān)鍵。
4、因此,如何基于海量網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù),是需要解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、為克服上述現(xiàn)有技術(shù)的不足,本專(zhuān)利技術(shù)提供了一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法及系統(tǒng),通過(guò)質(zhì)量過(guò)濾、去重、仇恨言論檢測(cè)和困惑度計(jì)算系列操作,基于海量網(wǎng)頁(yè)數(shù)據(jù)集實(shí)現(xiàn)構(gòu)建大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù)。
2、
3、第一方面,本專(zhuān)利技術(shù)提供一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,包括:
4、對(duì)獲取的原始文本中網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取,將每個(gè)網(wǎng)頁(yè)保存為文檔,并對(duì)每個(gè)文檔進(jìn)行質(zhì)量過(guò)濾操作;
5、將過(guò)濾后的文檔去除重復(fù)項(xiàng),將相似的文檔分別拆分為多個(gè)獨(dú)立句子,將連續(xù)的獨(dú)立句子構(gòu)成句子群,對(duì)每個(gè)獨(dú)立句子進(jìn)行分詞處理,將句子群中每個(gè)詞語(yǔ)結(jié)合句子信息和位置信息構(gòu)成每個(gè)句子群的向量表示,計(jì)算兩兩句子群的向量表示之間的相似性,刪除重復(fù)的句子群;
6、基于訓(xùn)練好的語(yǔ)言模型對(duì)每個(gè)文檔進(jìn)行冒犯性言論檢測(cè),刪除含有冒犯性言論的句子;
7、基于訓(xùn)練好的困惑度計(jì)算模型對(duì)每個(gè)文檔計(jì)算困惑度得分,根據(jù)困惑度得分構(gòu)建語(yǔ)料庫(kù)。
8、第二方面,本專(zhuān)利技術(shù)提供一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的系統(tǒng),包括:
9、質(zhì)量過(guò)濾模塊,其被配置為:對(duì)獲取的原始文本中網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取,將每個(gè)網(wǎng)頁(yè)保存為文檔,并對(duì)每個(gè)文檔進(jìn)行質(zhì)量過(guò)濾操作;
10、數(shù)據(jù)去重模塊,其被配置為:將過(guò)濾后的文檔去除重復(fù)項(xiàng),將相似的文檔分別拆分為多個(gè)獨(dú)立句子,將連續(xù)的獨(dú)立句子構(gòu)成句子群,對(duì)每個(gè)獨(dú)立句子進(jìn)行分詞處理,將句子群中每個(gè)詞語(yǔ)結(jié)合句子信息和位置信息構(gòu)成每個(gè)句子群的向量表示,計(jì)算兩兩句子群的向量表示之間的相似性,刪除重復(fù)的句子群;
11、冒犯性言論檢測(cè)模塊,其被配置為:基于訓(xùn)練好的語(yǔ)言模型對(duì)每個(gè)文檔進(jìn)行冒犯性言論檢測(cè),刪除含有冒犯性言論的句子;
12、困惑度計(jì)算模塊,其被配置為:基于訓(xùn)練好的困惑度計(jì)算模型對(duì)每個(gè)文檔計(jì)算困惑度得分,根據(jù)困惑度得分構(gòu)建語(yǔ)料庫(kù)。
13、第三方面,本專(zhuān)利技術(shù)提供一種電子設(shè)備,包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí),完成第一方面所述的方法。
14、第四方面,本專(zhuān)利技術(shù)提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí),完成第一方面所述的方法。
15、以上一個(gè)或多個(gè)技術(shù)方案存在以下有益效果:
16、在本專(zhuān)利技術(shù)中,通過(guò)質(zhì)量過(guò)濾、去重、仇恨言論檢測(cè)和困惑度計(jì)算系列操作,可以基于海量網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù);質(zhì)量過(guò)濾和數(shù)據(jù)去重步驟,大幅降低了語(yǔ)料庫(kù)中的重復(fù)和低質(zhì)量?jī)?nèi)容,提高了模型的泛化能力和輸出的可靠性;此外,仇恨言論檢測(cè)和困惑度計(jì)算進(jìn)一步確保了語(yǔ)料庫(kù)的高標(biāo)準(zhǔn)和多層次質(zhì)量,減少了潛在的負(fù)面影響,使得模型在處理各種自然語(yǔ)言任務(wù)時(shí)更為精準(zhǔn)和高效。
17、本專(zhuān)利技術(shù)附加方面的優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本專(zhuān)利技術(shù)的實(shí)踐了解到。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,包括:
2.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,對(duì)獲取的原始文本中網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取,將每個(gè)網(wǎng)頁(yè)保存為文檔,具體為:
3.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,對(duì)每個(gè)文檔進(jìn)行質(zhì)量過(guò)濾操作,具體為:
4.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,基于URL網(wǎng)頁(yè)對(duì)過(guò)濾后的文檔去除重復(fù)項(xiàng),具體為:
5.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,將相似的文檔分別拆分為多個(gè)獨(dú)立句子之前,利用局部敏感哈希的方法對(duì)所有文檔進(jìn)行相似度比較,將所有相似的文檔聚類(lèi)到同一個(gè)桶中,分別對(duì)每個(gè)桶進(jìn)行句子群級(jí)別的相似度比較。
6.如權(quán)利要求5所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,在每個(gè)桶內(nèi),隨機(jī)選擇一個(gè)文檔,將文檔中的句子群與桶內(nèi)其他文檔的句子群分別進(jìn)行對(duì)比,計(jì)算兩個(gè)句子群向量之間的歐式距離,判定句子群的相似性;對(duì)于相似的句子群,刪除其中一個(gè)句子群。
7.如權(quán)利要
8.一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的系統(tǒng),其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí),完成權(quán)利要求1-7任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,用于存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí),完成權(quán)利要求1-7任一項(xiàng)所述的方法。
...【技術(shù)特征摘要】
1.一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,包括:
2.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,對(duì)獲取的原始文本中網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取,將每個(gè)網(wǎng)頁(yè)保存為文檔,具體為:
3.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,對(duì)每個(gè)文檔進(jìn)行質(zhì)量過(guò)濾操作,具體為:
4.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,基于url網(wǎng)頁(yè)對(duì)過(guò)濾后的文檔去除重復(fù)項(xiàng),具體為:
5.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,將相似的文檔分別拆分為多個(gè)獨(dú)立句子之前,利用局部敏感哈希的方法對(duì)所有文檔進(jìn)行相似度比較,將所有相似的文檔聚類(lèi)到同一個(gè)桶中,分別對(duì)每個(gè)桶進(jìn)行句子群級(jí)別的相似度比較。
6.如權(quán)利要求5所述的一種基于網(wǎng)頁(yè)數(shù)...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:趙志剛,肖連輝,劉福來(lái),王春曉,張儉,靳敏燕,
申請(qǐng)(專(zhuān)利權(quán))人:山東省計(jì)算中心國(guó)家超級(jí)計(jì)算濟(jì)南中心,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。