System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲AV永久无码天堂影院,久久无码人妻一区二区三区午夜 ,无码人妻丰满熟妇区96
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法及系統(tǒng)技術(shù)方案

    技術(shù)編號(hào):44370883 閱讀:9 留言:0更新日期:2025-02-25 09:49
    本發(fā)明專(zhuān)利技術(shù)提出了一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法及系統(tǒng),通過(guò)質(zhì)量過(guò)濾、去重、仇恨言論檢測(cè)和困惑度計(jì)算系列操作,可以基于海量網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù);質(zhì)量過(guò)濾和數(shù)據(jù)去重步驟,大幅降低了語(yǔ)料庫(kù)中的重復(fù)和低質(zhì)量?jī)?nèi)容,提高了模型的泛化能力和輸出的可靠性;此外,仇恨言論檢測(cè)和困惑度計(jì)算進(jìn)一步確保了語(yǔ)料庫(kù)的高標(biāo)準(zhǔn)和多層次質(zhì)量,減少了潛在的負(fù)面影響,使得模型在處理各種自然語(yǔ)言任務(wù)時(shí)更為精準(zhǔn)和高效。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專(zhuān)利技術(shù)屬于數(shù)據(jù)處理,尤其涉及一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法及系統(tǒng)


    技術(shù)介紹

    1、本部分的陳述僅僅是提供了與本專(zhuān)利技術(shù)相關(guān)的
    技術(shù)介紹
    信息,不必然構(gòu)成在先技術(shù)。

    2、目前,隨著大型語(yǔ)言模型如chatgpt、yuan1.0、盤(pán)古α等的快速發(fā)展,它們的應(yīng)用和影響力正在迅速擴(kuò)展,展現(xiàn)出了卓越的處理和生成語(yǔ)言的能力。這些模型因參數(shù)規(guī)模的持續(xù)增長(zhǎng),對(duì)大規(guī)模且高質(zhì)量的語(yǔ)料庫(kù)的需求也越來(lái)越高。互聯(lián)網(wǎng)網(wǎng)頁(yè)作為重要的語(yǔ)料庫(kù)來(lái)源之一,每天都在不斷產(chǎn)生大量新的內(nèi)容。這不僅為語(yǔ)言模型的訓(xùn)練提供了豐富的數(shù)據(jù)資源,同時(shí)也帶來(lái)了如何高效提取和處理這些數(shù)據(jù)的挑戰(zhàn)。

    3、基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建高質(zhì)量語(yǔ)料庫(kù)的方法主要有以下兩個(gè)必要性。首先,對(duì)于大型預(yù)訓(xùn)練語(yǔ)言模型來(lái)說(shuō),確保數(shù)據(jù)的準(zhǔn)確性和高質(zhì)量是至關(guān)重要的。高質(zhì)量語(yǔ)料庫(kù)能夠提升模型的泛化能力,降低偏差風(fēng)險(xiǎn),從而確保模型輸出的可靠性與實(shí)用性。其次,海量的網(wǎng)頁(yè)數(shù)據(jù)集中包含著大量的重復(fù)、不雅及低質(zhì)量?jī)?nèi)容,文本質(zhì)量參差不齊,無(wú)法直接應(yīng)用于預(yù)訓(xùn)練語(yǔ)言模型。僅僅增加語(yǔ)料庫(kù)大小并不一定能夠帶來(lái)模型性能的提升,保障語(yǔ)料庫(kù)質(zhì)量成為模型優(yōu)化的關(guān)鍵。

    4、因此,如何基于海量網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù),是需要解決的技術(shù)問(wèn)題。


    技術(shù)實(shí)現(xiàn)思路

    1、為克服上述現(xiàn)有技術(shù)的不足,本專(zhuān)利技術(shù)提供了一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法及系統(tǒng),通過(guò)質(zhì)量過(guò)濾、去重、仇恨言論檢測(cè)和困惑度計(jì)算系列操作,基于海量網(wǎng)頁(yè)數(shù)據(jù)集實(shí)現(xiàn)構(gòu)建大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù)。

    2、為了實(shí)現(xiàn)上述目的,本專(zhuān)利技術(shù)采用如下技術(shù)方案:

    3、第一方面,本專(zhuān)利技術(shù)提供一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,包括:

    4、對(duì)獲取的原始文本中網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取,將每個(gè)網(wǎng)頁(yè)保存為文檔,并對(duì)每個(gè)文檔進(jìn)行質(zhì)量過(guò)濾操作;

    5、將過(guò)濾后的文檔去除重復(fù)項(xiàng),將相似的文檔分別拆分為多個(gè)獨(dú)立句子,將連續(xù)的獨(dú)立句子構(gòu)成句子群,對(duì)每個(gè)獨(dú)立句子進(jìn)行分詞處理,將句子群中每個(gè)詞語(yǔ)結(jié)合句子信息和位置信息構(gòu)成每個(gè)句子群的向量表示,計(jì)算兩兩句子群的向量表示之間的相似性,刪除重復(fù)的句子群;

    6、基于訓(xùn)練好的語(yǔ)言模型對(duì)每個(gè)文檔進(jìn)行冒犯性言論檢測(cè),刪除含有冒犯性言論的句子;

    7、基于訓(xùn)練好的困惑度計(jì)算模型對(duì)每個(gè)文檔計(jì)算困惑度得分,根據(jù)困惑度得分構(gòu)建語(yǔ)料庫(kù)。

    8、第二方面,本專(zhuān)利技術(shù)提供一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的系統(tǒng),包括:

    9、質(zhì)量過(guò)濾模塊,其被配置為:對(duì)獲取的原始文本中網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取,將每個(gè)網(wǎng)頁(yè)保存為文檔,并對(duì)每個(gè)文檔進(jìn)行質(zhì)量過(guò)濾操作;

    10、數(shù)據(jù)去重模塊,其被配置為:將過(guò)濾后的文檔去除重復(fù)項(xiàng),將相似的文檔分別拆分為多個(gè)獨(dú)立句子,將連續(xù)的獨(dú)立句子構(gòu)成句子群,對(duì)每個(gè)獨(dú)立句子進(jìn)行分詞處理,將句子群中每個(gè)詞語(yǔ)結(jié)合句子信息和位置信息構(gòu)成每個(gè)句子群的向量表示,計(jì)算兩兩句子群的向量表示之間的相似性,刪除重復(fù)的句子群;

    11、冒犯性言論檢測(cè)模塊,其被配置為:基于訓(xùn)練好的語(yǔ)言模型對(duì)每個(gè)文檔進(jìn)行冒犯性言論檢測(cè),刪除含有冒犯性言論的句子;

    12、困惑度計(jì)算模塊,其被配置為:基于訓(xùn)練好的困惑度計(jì)算模型對(duì)每個(gè)文檔計(jì)算困惑度得分,根據(jù)困惑度得分構(gòu)建語(yǔ)料庫(kù)。

    13、第三方面,本專(zhuān)利技術(shù)提供一種電子設(shè)備,包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí),完成第一方面所述的方法。

    14、第四方面,本專(zhuān)利技術(shù)提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí),完成第一方面所述的方法。

    15、以上一個(gè)或多個(gè)技術(shù)方案存在以下有益效果:

    16、在本專(zhuān)利技術(shù)中,通過(guò)質(zhì)量過(guò)濾、去重、仇恨言論檢測(cè)和困惑度計(jì)算系列操作,可以基于海量網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù);質(zhì)量過(guò)濾和數(shù)據(jù)去重步驟,大幅降低了語(yǔ)料庫(kù)中的重復(fù)和低質(zhì)量?jī)?nèi)容,提高了模型的泛化能力和輸出的可靠性;此外,仇恨言論檢測(cè)和困惑度計(jì)算進(jìn)一步確保了語(yǔ)料庫(kù)的高標(biāo)準(zhǔn)和多層次質(zhì)量,減少了潛在的負(fù)面影響,使得模型在處理各種自然語(yǔ)言任務(wù)時(shí)更為精準(zhǔn)和高效。

    17、本專(zhuān)利技術(shù)附加方面的優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本專(zhuān)利技術(shù)的實(shí)踐了解到。

    本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,包括:

    2.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,對(duì)獲取的原始文本中網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取,將每個(gè)網(wǎng)頁(yè)保存為文檔,具體為:

    3.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,對(duì)每個(gè)文檔進(jìn)行質(zhì)量過(guò)濾操作,具體為:

    4.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,基于URL網(wǎng)頁(yè)對(duì)過(guò)濾后的文檔去除重復(fù)項(xiàng),具體為:

    5.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,將相似的文檔分別拆分為多個(gè)獨(dú)立句子之前,利用局部敏感哈希的方法對(duì)所有文檔進(jìn)行相似度比較,將所有相似的文檔聚類(lèi)到同一個(gè)桶中,分別對(duì)每個(gè)桶進(jìn)行句子群級(jí)別的相似度比較。

    6.如權(quán)利要求5所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,在每個(gè)桶內(nèi),隨機(jī)選擇一個(gè)文檔,將文檔中的句子群與桶內(nèi)其他文檔的句子群分別進(jìn)行對(duì)比,計(jì)算兩個(gè)句子群向量之間的歐式距離,判定句子群的相似性;對(duì)于相似的句子群,刪除其中一個(gè)句子群。

    7.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,基于訓(xùn)練好的語(yǔ)言模型對(duì)句子群進(jìn)行冒犯性檢測(cè),刪除含有冒犯性言論的句子,具體為:

    8.一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的系統(tǒng),其特征在于,包括:

    9.一種電子設(shè)備,其特征在于,包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí),完成權(quán)利要求1-7任一項(xiàng)所述的方法。

    10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,用于存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí),完成權(quán)利要求1-7任一項(xiàng)所述的方法。

    ...

    【技術(shù)特征摘要】

    1.一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,包括:

    2.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,對(duì)獲取的原始文本中網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取,將每個(gè)網(wǎng)頁(yè)保存為文檔,具體為:

    3.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,對(duì)每個(gè)文檔進(jìn)行質(zhì)量過(guò)濾操作,具體為:

    4.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,基于url網(wǎng)頁(yè)對(duì)過(guò)濾后的文檔去除重復(fù)項(xiàng),具體為:

    5.如權(quán)利要求1所述的一種基于網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建語(yǔ)料庫(kù)的方法,其特征在于,將相似的文檔分別拆分為多個(gè)獨(dú)立句子之前,利用局部敏感哈希的方法對(duì)所有文檔進(jìn)行相似度比較,將所有相似的文檔聚類(lèi)到同一個(gè)桶中,分別對(duì)每個(gè)桶進(jìn)行句子群級(jí)別的相似度比較。

    6.如權(quán)利要求5所述的一種基于網(wǎng)頁(yè)數(shù)...

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:趙志剛肖連輝劉福來(lái)王春曉張儉靳敏燕
    申請(qǐng)(專(zhuān)利權(quán))人:山東省計(jì)算中心國(guó)家超級(jí)計(jì)算濟(jì)南中心
    類(lèi)型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢(xún)問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 久久午夜无码免费| 精品人妻无码区二区三区| 精品久久久久久无码中文野结衣| 久久青青草原亚洲AV无码麻豆 | 久久久久成人精品无码中文字幕| 亚洲无码一区二区三区| 中文字幕人妻无码一夲道| 久久天堂av综合色无码专区| 国产色综合久久无码有码| 久久亚洲精品无码网站| 无码人妻少妇久久中文字幕蜜桃 | 国产AV一区二区三区无码野战| 无码人妻精品一区二区蜜桃百度| 熟妇人妻中文字幕无码老熟妇| 国产精品va无码一区二区| 无码人妻精品丰满熟妇区 | 久久久久无码国产精品一区| av中文无码乱人伦在线观看| AV无码久久久久不卡蜜桃| 最新无码人妻在线不卡| 亚洲av无码乱码国产精品fc2| 一本大道久久东京热无码AV | 一级毛片中出无码| 无码一区二区三区在线| 高清无码v视频日本www| 精品国产一区二区三区无码| 亚洲欧洲日产国码无码网站| 国产精品无码av在线播放| 亚洲精品无码激情AV| 永久免费无码网站在线观看个| 无码国产精品一区二区高潮| 特级做A爰片毛片免费看无码| 在线高清无码A.| 国产成人无码精品久久久久免费| 久久久久无码专区亚洲av| 无码人妻少妇伦在线电影| 亚洲AⅤ永久无码精品AA| 无码人妻精品一区二| 日韩人妻无码一区二区三区久久99| 国产成人综合日韩精品无码| 亚洲精品无码你懂的网站|