當(dāng)前位置: 首頁(yè) > 專(zhuān)利查詢(xún)>山東省計(jì)算中心國(guó)家超級(jí)計(jì)算濟(jì)南中心專(zhuān)利>正文

一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法及系統(tǒng)技術(shù)方案

技術(shù)編號(hào)：44370883 閱讀：9 留言：0更新日期：2025-02-25 09:49

本發(fā)明專(zhuān)利技術(shù)提出了一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法及系統(tǒng)，通過(guò)質(zhì)量過(guò)濾、去重、仇恨言論檢測(cè)和困惑度計(jì)算系列操作，可以基于海量網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù)；質(zhì)量過(guò)濾和數(shù)據(jù)去重步驟，大幅降低了語(yǔ)料庫(kù)中的重復(fù)和低質(zhì)量?jī)?nèi)容，提高了模型的泛化能力和輸出的可靠性；此外，仇恨言論檢測(cè)和困惑度計(jì)算進(jìn)一步確保了語(yǔ)料庫(kù)的高標(biāo)準(zhǔn)和多層次質(zhì)量，減少了潛在的負(fù)面影響，使得模型在處理各種自然語(yǔ)言任務(wù)時(shí)更為精準(zhǔn)和高效。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專(zhuān)利技術(shù)屬于數(shù)據(jù)處理，尤其涉及一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法及系統(tǒng)。

技術(shù)介紹

1、本部分的陳述僅僅是提供了與本專(zhuān)利技術(shù)相關(guān)的
技術(shù)介紹
信息，不必然構(gòu)成在先技術(shù)。

2、目前，隨著大型語(yǔ)言模型如chatgpt、yuan1.0、盤(pán)古α等的快速發(fā)展，它們的應(yīng)用和影響力正在迅速擴(kuò)展，展現(xiàn)出了卓越的處理和生成語(yǔ)言的能力。這些模型因參數(shù)規(guī)模的持續(xù)增長(zhǎng)，對(duì)大規(guī)模且高質(zhì)量的語(yǔ)料庫(kù)的需求也越來(lái)越高。互聯(lián)網(wǎng)網(wǎng)頁(yè)作為重要的語(yǔ)料庫(kù)來(lái)源之一，每天都在不斷產(chǎn)生大量新的內(nèi)容。這不僅為語(yǔ)言模型的訓(xùn)練提供了豐富的數(shù)據(jù)資源，同時(shí)也帶來(lái)了如何高效提取和處理這些數(shù)據(jù)的挑戰(zhàn)。

3、基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建高質(zhì)量語(yǔ)料庫(kù)的方法主要有以下兩個(gè)必要性。首先，對(duì)于大型預(yù)訓(xùn)練語(yǔ)言模型來(lái)說(shuō)，確保數(shù)據(jù)的準(zhǔn)確性和高質(zhì)量是至關(guān)重要的。高質(zhì)量語(yǔ)料庫(kù)能夠提升模型的泛化能力，降低偏差風(fēng)險(xiǎn)，從而確保模型輸出的可靠性與實(shí)用性。其次，海量的網(wǎng)頁(yè)數(shù)據(jù)集中包含著大量的重復(fù)、不雅及低質(zhì)量?jī)?nèi)容，文本質(zhì)量參差不齊，無(wú)法直接應(yīng)用于預(yù)訓(xùn)練語(yǔ)言模型。僅僅增加語(yǔ)料庫(kù)大小并不一定能夠帶來(lái)模型性能的提升，保障語(yǔ)料庫(kù)質(zhì)量成為模型優(yōu)化的關(guān)鍵。

4、因此，如何基于海量網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù)，是需要解決的技術(shù)問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、為克服上述現(xiàn)有技術(shù)的不足，本專(zhuān)利技術(shù)提供了一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法及系統(tǒng)，通過(guò)質(zhì)量過(guò)濾、去重、仇恨言論檢測(cè)和困惑度計(jì)算系列操作，基于海量網(wǎng)頁(yè)數(shù)據(jù)集實(shí)現(xiàn)構(gòu)建大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù)。

2、

3、第一方面，本專(zhuān)利技術(shù)提供一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法，包括：

4、對(duì)獲取的原始文本中網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取，將每個(gè)網(wǎng)頁(yè)保存為文檔，并對(duì)每個(gè)文檔進(jìn)行質(zhì)量過(guò)濾操作；

5、將過(guò)濾后的文檔去除重復(fù)項(xiàng)，將相似的文檔分別拆分為多個(gè)獨(dú)立句子，將連續(xù)的獨(dú)立句子構(gòu)成句子群，對(duì)每個(gè)獨(dú)立句子進(jìn)行分詞處理，將句子群中每個(gè)詞語(yǔ)結(jié)合句子信息和位置信息構(gòu)成每個(gè)句子群的向量表示，計(jì)算兩兩句子群的向量表示之間的相似性，刪除重復(fù)的句子群；

6、基于訓(xùn)練好的語(yǔ)言模型對(duì)每個(gè)文檔進(jìn)行冒犯性言論檢測(cè)，刪除含有冒犯性言論的句子；

7、基于訓(xùn)練好的困惑度計(jì)算模型對(duì)每個(gè)文檔計(jì)算困惑度得分，根據(jù)困惑度得分構(gòu)建語(yǔ)料庫(kù)。

8、第二方面，本專(zhuān)利技術(shù)提供一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的系統(tǒng)，包括：

9、質(zhì)量過(guò)濾模塊，其被配置為：對(duì)獲取的原始文本中網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取，將每個(gè)網(wǎng)頁(yè)保存為文檔，并對(duì)每個(gè)文檔進(jìn)行質(zhì)量過(guò)濾操作；

10、數(shù)據(jù)去重模塊，其被配置為：將過(guò)濾后的文檔去除重復(fù)項(xiàng)，將相似的文檔分別拆分為多個(gè)獨(dú)立句子，將連續(xù)的獨(dú)立句子構(gòu)成句子群，對(duì)每個(gè)獨(dú)立句子進(jìn)行分詞處理，將句子群中每個(gè)詞語(yǔ)結(jié)合句子信息和位置信息構(gòu)成每個(gè)句子群的向量表示，計(jì)算兩兩句子群的向量表示之間的相似性，刪除重復(fù)的句子群；

11、冒犯性言論檢測(cè)模塊，其被配置為：基于訓(xùn)練好的語(yǔ)言模型對(duì)每個(gè)文檔進(jìn)行冒犯性言論檢測(cè)，刪除含有冒犯性言論的句子；

12、困惑度計(jì)算模塊，其被配置為：基于訓(xùn)練好的困惑度計(jì)算模型對(duì)每個(gè)文檔計(jì)算困惑度得分，根據(jù)困惑度得分構(gòu)建語(yǔ)料庫(kù)。

13、第三方面，本專(zhuān)利技術(shù)提供一種電子設(shè)備，包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí)，完成第一方面所述的方法。

14、第四方面，本專(zhuān)利技術(shù)提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，用于存儲(chǔ)計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)，完成第一方面所述的方法。

15、以上一個(gè)或多個(gè)技術(shù)方案存在以下有益效果：

16、在本專(zhuān)利技術(shù)中，通過(guò)質(zhì)量過(guò)濾、去重、仇恨言論檢測(cè)和困惑度計(jì)算系列操作，可以基于海量網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù)；質(zhì)量過(guò)濾和數(shù)據(jù)去重步驟，大幅降低了語(yǔ)料庫(kù)中的重復(fù)和低質(zhì)量?jī)?nèi)容，提高了模型的泛化能力和輸出的可靠性；此外，仇恨言論檢測(cè)和困惑度計(jì)算進(jìn)一步確保了語(yǔ)料庫(kù)的高標(biāo)準(zhǔn)和多層次質(zhì)量，減少了潛在的負(fù)面影響，使得模型在處理各種自然語(yǔ)言任務(wù)時(shí)更為精準(zhǔn)和高效。

17、本專(zhuān)利技術(shù)附加方面的優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過(guò)本專(zhuān)利技術(shù)的實(shí)踐了解到。

本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法，其特征在于，包括：

2.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法，其特征在于，對(duì)獲取的原始文本中網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取，將每個(gè)網(wǎng)頁(yè)保存為文檔，具體為：

3.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法，其特征在于，對(duì)每個(gè)文檔進(jìn)行質(zhì)量過(guò)濾操作，具體為：

4.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法，其特征在于，基于URL網(wǎng)頁(yè)對(duì)過(guò)濾后的文檔去除重復(fù)項(xiàng)，具體為：

5.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法，其特征在于，將相似的文檔分別拆分為多個(gè)獨(dú)立句子之前，利用局部敏感哈希的方法對(duì)所有文檔進(jìn)行相似度比較，將所有相似的文檔聚類(lèi)到同一個(gè)桶中，分別對(duì)每個(gè)桶進(jìn)行句子群級(jí)別的相似度比較。

6.如權(quán)利要求5所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法，其特征在于，在每個(gè)桶內(nèi)，隨機(jī)選擇一個(gè)文檔，將文檔中的句子群與桶內(nèi)其他文檔的句子群分別進(jìn)行對(duì)比，計(jì)算兩個(gè)句子群向量之間的歐式距離，判定句子群的相似性；對(duì)于相似的句子群，刪除其中一個(gè)句子群。

7.如權(quán)利要

8.一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的系統(tǒng)，其特征在于，包括：

9.一種電子設(shè)備，其特征在于，包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí)，完成權(quán)利要求1-7任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，用于存儲(chǔ)計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)，完成權(quán)利要求1-7任一項(xiàng)所述的方法。

...

【技術(shù)特征摘要】

1.一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法，其特征在于，包括：

4.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法，其特征在于，基于url網(wǎng)頁(yè)對(duì)過(guò)濾后的文檔去除重復(fù)項(xiàng)，具體為：

6.如權(quán)利要求5所述的一種基于網(wǎng)頁(yè)數(shù)...

【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員：趙志剛，肖連輝，劉福來(lái)，王春曉，張儉，靳敏燕，
申請(qǐng)(專(zhuān)利權(quán))人：山東省計(jì)算中心國(guó)家超級(jí)計(jì)算濟(jì)南中心，
類(lèi)型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專(zhuān)利的主人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)