溫馨提示:您尚未登錄,請點 登陸 后下載,如果您還沒有賬戶請點 注冊 ,登陸完成后,請刷新本頁查看技術詳細信息。
本發明提出了一種基于網頁數據集構建語料庫的方法及系統,通過質量過濾、去重、仇恨言論檢測和困惑度計算系列操作,可以基于海量網頁數據集構建大規模、高質量的語料庫;質量過濾和數據去重步驟,大幅降低了語料庫中的重復和低質量內容,提高了模型的泛化能力...該專利屬于山東省計算中心(國家超級計算濟南中心)所有,僅供學習研究參考,未經過山東省計算中心(國家超級計算濟南中心)授權不得商用。
溫馨提示:您尚未登錄,請點 登陸 后下載,如果您還沒有賬戶請點 注冊 ,登陸完成后,請刷新本頁查看技術詳細信息。
本發明提出了一種基于網頁數據集構建語料庫的方法及系統,通過質量過濾、去重、仇恨言論檢測和困惑度計算系列操作,可以基于海量網頁數據集構建大規模、高質量的語料庫;質量過濾和數據去重步驟,大幅降低了語料庫中的重復和低質量內容,提高了模型的泛化能力...