System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及命名實體識別處理,尤其涉及一種命名實體識別模型訓練方法、裝置、電子設備及存儲介質。
技術介紹
1、命名實體識別(named?entity?recognition,ner)是自然語言處理中的一項基礎任務,用于識別文本中具有特定意義或者指代性強的實體,如人名、地名、機構名、日期時間或者專有名詞等。通過識別確定目標實體的實體的邊界和實體的類型進行識別確定實體。
2、受限于推理速度和部署環境的限制,特別是在手機端部署的模型,因其自身具備的擬合能力較差,因此需要大規模高質量的訓練數據對模型進行針對性調優。但是在實際操作中,特定領域往往缺乏足量的標注數據,此時需要耗費大量的時間成本和人力成本對數據進行標注處理,除了效率低之外,對于標注數據的質量也難以保證,進而對命名實體識別模型的實體識別準確性也有所影響。
技術實現思路
1、本申請實施例的目的是提供一種命名實體識別模型訓練方法、裝置、電子設備及存儲介質,以解決相關技術中實體命名模型訓練不方便且實體識別不準確的技術問題。
2、第一方面,本申請實施例提供了一種命名實體識別模型訓練方法,包括:
3、獲取領域數據,并對所述領域數據進行數據清洗處理,得到樣本數據;
4、獲取所述樣本數據的領域信息,并對所述樣本數據進行分析處理,得到所述樣本數據中每一數據的語義信息;
5、根據所設定的實體類型和所述領域信息及所述語義信息,對所述樣本數據進行實體標注,得到標注后的樣本數據;
6、
7、第二方面,本申請實施例提供了一種命名實體識別模型訓練裝置,包括:
8、數據獲取模塊,用于獲取領域數據,并對所述領域數據進行數據清洗處理,得到樣本數據;
9、數據分析模塊,用于獲取所述樣本數據的領域信息,并對所述樣本數據進行分析處理,得到所述樣本數據中每一數據的語義信息;
10、數據標注模塊,用于根據所設定的實體類型和所述領域信息及所述語義信息,對所述樣本數據進行實體標注,得到標注后的樣本數據;
11、模型訓練模塊,用于根據標注后的樣本數據對實體命名識別模型進行訓練,并在訓練完成時得到訓練好的命名實體識別模型。
12、第三方面,本申請實施例提供了一種電子設備,電子設備包括處理器、存儲器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述任一項所述的命名實體識別模型訓練方法中的步驟。
13、第四方面,本申請實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述任一項所述的命名實體識別模型訓練方法中的步驟。
14、本申請實施例提供了一種命名實體識別模型訓練方法、裝置、電子設備及存儲介質,在對所構建的命名實體識別模型進行訓練之前,確定用于進行模型訓練的數據,而在確定該數據時,通過獲取未標注的相關數據,并對其進行標注處理,進而利用標注后的數據進行模型訓練。具體地,獲取未標注的領域數據,以及設定好所需要進行識別的實體的實體類型,然后對領域數據利用大規模語言模型進行處理,基于所得到的上下文語義信息進行實體提取,得到領域數據中的實體并進行標注,最后利用標注后的領域數據對命名實體識別模型進行訓練。實現了無需對訓練數據進行人工標注,提高了訓練的便捷性,同時在對未標注數據進行處理時,利用大規模語言模型進行數據蒸餾,可以快速準確的完成對數據進行標注處理,進而基于標注好的數據進行訓練,提高了訓練的便捷性和準確性。
本文檔來自技高網...【技術保護點】
1.一種命名實體識別模型訓練方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,所述獲取所述樣本數據的領域信息,并對所述樣本數據進行分析處理,得到所述樣本數據中每一數據的語義信息,包括:
3.如權利要求1所述的方法,其特征在于,所述根據所設定的實體類型和所述領域信息及所述語義信息,對所述樣本數據進行實體標注,得到標注后的樣本數據,包括:
4.如權利要求3所述的方法,其特征在于,所述根據所述實體類型對所述樣本數據進行實體識別,確定所述樣本數據對應的第一實體,包括:
5.如權利要求3所述的方法,其特征在于,所述根據所述實體類型和所述第二實體對所述樣本數據進行實體標記,得到標記后的樣本數據,包括:
6.如權利要求5所述的方法,其特征在于,所述對所述標記結果進行去噪和歸一化處理,得到歸一化后的標記結果,包括:
7.如權利要求6所述的方法,其特征在于,所述篩選規則包括:實體長度、實體前后綴以及實體統稱;
8.一種命名實體識別模型訓練裝置,其特征在于,包括:
9.一種電子設備,其特征
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述的方法中的步驟。
...【技術特征摘要】
1.一種命名實體識別模型訓練方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,所述獲取所述樣本數據的領域信息,并對所述樣本數據進行分析處理,得到所述樣本數據中每一數據的語義信息,包括:
3.如權利要求1所述的方法,其特征在于,所述根據所設定的實體類型和所述領域信息及所述語義信息,對所述樣本數據進行實體標注,得到標注后的樣本數據,包括:
4.如權利要求3所述的方法,其特征在于,所述根據所述實體類型對所述樣本數據進行實體識別,確定所述樣本數據對應的第一實體,包括:
5.如權利要求3所述的方法,其特征在于,所述根據所述實體類型和所述第二實體對所述樣本數據進行實體標記,得到標記后的樣本數據,包括:
...【專利技術屬性】
技術研發人員:袁明磊,朱紅旗,
申請(專利權)人:廣東明創軟件科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。