System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲AV永久无码精品网站在线观看,精品国精品无码自拍自在线,在人线av无码免费高潮喷水
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    命名實體識別模型訓練方法、裝置、電子設備及存儲介質制造方法及圖紙

    技術編號:44489471 閱讀:3 留言:0更新日期:2025-03-04 17:54
    本申請公開了一種命名實體識別模型訓練方法、裝置、電子設備及存儲介質,該方法包括:獲取領域數據,并對領域數據進行數據清洗處理,得到樣本數據;獲取樣本數據的領域信息,并對樣本數據進行分析處理,得到樣本數據中每一數據的語義信息;根據所設定的實體類型和領域信息及語義信息,對樣本數據進行實體標注,得到標注后的樣本數據;根據標注后的樣本數據對實體命名識別模型進行訓練,并在訓練完成時得到訓練好的命名實體識別模型。通過大規模語言模型對數據進行蒸餾處理,對未標注數據進行特定場景的標注處理,進而對命名實體模型進行訓練,無需人工標注,提高了訓練的便捷性和準確性。

    【技術實現步驟摘要】

    本申請涉及命名實體識別處理,尤其涉及一種命名實體識別模型訓練方法、裝置、電子設備及存儲介質


    技術介紹

    1、命名實體識別(named?entity?recognition,ner)是自然語言處理中的一項基礎任務,用于識別文本中具有特定意義或者指代性強的實體,如人名、地名、機構名、日期時間或者專有名詞等。通過識別確定目標實體的實體的邊界和實體的類型進行識別確定實體。

    2、受限于推理速度和部署環境的限制,特別是在手機端部署的模型,因其自身具備的擬合能力較差,因此需要大規模高質量的訓練數據對模型進行針對性調優。但是在實際操作中,特定領域往往缺乏足量的標注數據,此時需要耗費大量的時間成本和人力成本對數據進行標注處理,除了效率低之外,對于標注數據的質量也難以保證,進而對命名實體識別模型的實體識別準確性也有所影響。


    技術實現思路

    1、本申請實施例的目的是提供一種命名實體識別模型訓練方法、裝置、電子設備及存儲介質,以解決相關技術中實體命名模型訓練不方便且實體識別不準確的技術問題。

    2、第一方面,本申請實施例提供了一種命名實體識別模型訓練方法,包括:

    3、獲取領域數據,并對所述領域數據進行數據清洗處理,得到樣本數據;

    4、獲取所述樣本數據的領域信息,并對所述樣本數據進行分析處理,得到所述樣本數據中每一數據的語義信息;

    5、根據所設定的實體類型和所述領域信息及所述語義信息,對所述樣本數據進行實體標注,得到標注后的樣本數據;

    6、根據標注后的樣本數據對實體命名識別模型進行訓練,并在訓練完成時得到訓練好的命名實體識別模型。

    7、第二方面,本申請實施例提供了一種命名實體識別模型訓練裝置,包括:

    8、數據獲取模塊,用于獲取領域數據,并對所述領域數據進行數據清洗處理,得到樣本數據;

    9、數據分析模塊,用于獲取所述樣本數據的領域信息,并對所述樣本數據進行分析處理,得到所述樣本數據中每一數據的語義信息;

    10、數據標注模塊,用于根據所設定的實體類型和所述領域信息及所述語義信息,對所述樣本數據進行實體標注,得到標注后的樣本數據;

    11、模型訓練模塊,用于根據標注后的樣本數據對實體命名識別模型進行訓練,并在訓練完成時得到訓練好的命名實體識別模型。

    12、第三方面,本申請實施例提供了一種電子設備,電子設備包括處理器、存儲器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述任一項所述的命名實體識別模型訓練方法中的步驟。

    13、第四方面,本申請實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述任一項所述的命名實體識別模型訓練方法中的步驟。

    14、本申請實施例提供了一種命名實體識別模型訓練方法、裝置、電子設備及存儲介質,在對所構建的命名實體識別模型進行訓練之前,確定用于進行模型訓練的數據,而在確定該數據時,通過獲取未標注的相關數據,并對其進行標注處理,進而利用標注后的數據進行模型訓練。具體地,獲取未標注的領域數據,以及設定好所需要進行識別的實體的實體類型,然后對領域數據利用大規模語言模型進行處理,基于所得到的上下文語義信息進行實體提取,得到領域數據中的實體并進行標注,最后利用標注后的領域數據對命名實體識別模型進行訓練。實現了無需對訓練數據進行人工標注,提高了訓練的便捷性,同時在對未標注數據進行處理時,利用大規模語言模型進行數據蒸餾,可以快速準確的完成對數據進行標注處理,進而基于標注好的數據進行訓練,提高了訓練的便捷性和準確性。

    本文檔來自技高網...

    【技術保護點】

    1.一種命名實體識別模型訓練方法,其特征在于,包括:

    2.如權利要求1所述的方法,其特征在于,所述獲取所述樣本數據的領域信息,并對所述樣本數據進行分析處理,得到所述樣本數據中每一數據的語義信息,包括:

    3.如權利要求1所述的方法,其特征在于,所述根據所設定的實體類型和所述領域信息及所述語義信息,對所述樣本數據進行實體標注,得到標注后的樣本數據,包括:

    4.如權利要求3所述的方法,其特征在于,所述根據所述實體類型對所述樣本數據進行實體識別,確定所述樣本數據對應的第一實體,包括:

    5.如權利要求3所述的方法,其特征在于,所述根據所述實體類型和所述第二實體對所述樣本數據進行實體標記,得到標記后的樣本數據,包括:

    6.如權利要求5所述的方法,其特征在于,所述對所述標記結果進行去噪和歸一化處理,得到歸一化后的標記結果,包括:

    7.如權利要求6所述的方法,其特征在于,所述篩選規則包括:實體長度、實體前后綴以及實體統稱;

    8.一種命名實體識別模型訓練裝置,其特征在于,包括:

    9.一種電子設備,其特征在于,所述電子設備包括處理器、存儲器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如權利要求1至7任一項所述的方法中的步驟。

    10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述的方法中的步驟。

    ...

    【技術特征摘要】

    1.一種命名實體識別模型訓練方法,其特征在于,包括:

    2.如權利要求1所述的方法,其特征在于,所述獲取所述樣本數據的領域信息,并對所述樣本數據進行分析處理,得到所述樣本數據中每一數據的語義信息,包括:

    3.如權利要求1所述的方法,其特征在于,所述根據所設定的實體類型和所述領域信息及所述語義信息,對所述樣本數據進行實體標注,得到標注后的樣本數據,包括:

    4.如權利要求3所述的方法,其特征在于,所述根據所述實體類型對所述樣本數據進行實體識別,確定所述樣本數據對應的第一實體,包括:

    5.如權利要求3所述的方法,其特征在于,所述根據所述實體類型和所述第二實體對所述樣本數據進行實體標記,得到標記后的樣本數據,包括:

    ...

    【專利技術屬性】
    技術研發人員:袁明磊朱紅旗,
    申請(專利權)人:廣東明創軟件科技有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产AV无码专区亚洲A∨毛片| 无码国内精品久久人妻| 内射人妻无套中出无码| 国产AV无码专区亚洲AWWW| 蜜桃臀无码内射一区二区三区| 中文无码字慕在线观看| 国产丝袜无码一区二区三区视频| 亚洲AV综合永久无码精品天堂| 久久久久琪琪去精品色无码| 影音先锋无码a∨男人资源站| 小13箩利洗澡无码视频网站| 国产a v无码专区亚洲av| 亚洲欧洲国产综合AV无码久久| 国产热の有码热の无码视频| 亚洲中文字幕无码爆乳av中文| 亚洲av午夜国产精品无码中文字| 无码乱人伦一区二区亚洲| 亚洲精品无码永久在线观看| 久久亚洲精品无码av| 无码区日韩特区永久免费系列| 亚洲av日韩av高潮潮喷无码| 亚洲精品无码久久久影院相关影片| 亚洲人成人伊人成综合网无码| 日韩av无码中文字幕| 无码国内精品久久人妻蜜桃| 亚洲精品无码MV在线观看| 中文无码久久精品| 潮喷失禁大喷水无码| 亚洲精品无码久久久久| 国产精品无码午夜福利| 国99精品无码一区二区三区| 亚洲VA成无码人在线观看天堂| 八戒理论片午影院无码爱恋| 国产丰满乱子伦无码专区| 韩日美无码精品无码| 亚洲AV无码一区东京热久久| 少妇人妻无码精品视频app| 色窝窝无码一区二区三区 | 久久精品无码午夜福利理论片| 大桥久未无码吹潮在线观看| 亚洲成A人片在线观看无码不卡|