• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    模型遷移方法、裝置及電子設備制造方法及圖紙

    技術編號:35546386 閱讀:29 留言:0更新日期:2022-11-12 15:24
    一種模型遷移方法及裝置,所述方法包括:基于源場景中的第一訓練樣本數據、與第一訓練樣本數據對應的樣本標簽對所述模型進行模型訓練,得到訓練完成的所述決策樹模型;基于目標場景中的無樣本標簽對應的第二訓練樣本數據,對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理,以完成將所述決策樹模型從源場景遷移至目標場景。一方面,解決了目標場景無標簽情況下模型初始化的問題,并提升遷移模型在目標場景的泛化效能;另一方面,僅需將源場景訓練的決策樹模型的模型參數輸出到目標場景,無需要使用源場景下的數據,滿足了數據安全和隱私保護的用戶需求。數據安全和隱私保護的用戶需求。數據安全和隱私保護的用戶需求。

    【技術實現步驟摘要】
    模型遷移方法、裝置及電子設備


    [0001]本說明書涉及計算機應用領域,尤其涉及一種模型遷移方法、裝置及電子設備。

    技術介紹

    [0002]通常,開發人員可以利用訓練機器學習模型的方式,獲取具有特定功能的機器學習模型,進而應用該模型完成特定任務,相對于人工完成上述任務,可以顯著節省人力資源;但是,由于機器學習模型的訓練過程是在特定的業務場景下完成的,因此,如果切換了新的業務場景,先前訓練的機器學習模型就很可能無法正常工作;假如重新訓練模型,則可能會由于新的業務場景缺乏歷史數據積累而無法完成。
    [0003]相關技術中,可以通過遷移學習的方法,使先前訓練的模型能夠適應新的業務場景;然而,傳統的遷移學習方式需要將原先的業務場景下的樣本數據與新場景下的樣本數據混合進行模型訓練,但在金融風控建模中,由于數據安全和隱私等要求,該特定的業務場景中的樣本數據無法直接使用,進而導致模型遷移無法完成。

    技術實現思路

    [0004]有鑒于此,本說明書提出一種模型遷移方法,所述模型為包括若干個決策樹的決策樹模型,所述方法包括:
    [0005]基于源場景中的第一訓練樣本數據、與第一訓練樣本數據對應的樣本標簽對所述模型進行模型訓練,得到訓練完成的所述決策樹模型;
    [0006]基于目標場景中的無樣本標簽對應的第二訓練樣本數據,對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理,以完成將所述決策樹模型從源場景遷移至目標場景。
    [0007]可選的,所述目標場景的第一訓練樣本數據的特征空間與所述源場景的第二訓練樣本數據的特征空間相同;所述目標場景的第一訓練樣本數據的特征分布與所述源場景的第二訓練樣本數據的特征分布不同。
    [0008]可選的,在對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理后,還包括:
    [0009]對剪枝后的所述決策樹模型中的每個決策樹分別進行決策參數調整,以完成將所述決策樹模型從源場景遷移至目標場景。
    [0010]可選的,所述每個決策樹包括根節點、非葉子節點、葉子節點;
    [0011]所述對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理,包括:
    [0012]將所述第二訓練樣本數據輸入至訓練完成的所述決策樹模型的每個決策樹進行預測,并記錄所述第二訓練樣本數據在每個決策樹中的每個節點的樣本分布;
    [0013]遍歷每個決策樹中的所有非葉子節點中的每個非葉子節點;
    [0014]針對每個決策樹,判斷所述第二訓練樣本數據在所述每個非葉子節點對應的葉子節點的樣本分布是否小于預設的樣本分布閾值,或者判斷所述第二訓練樣本數據在所述每
    個非葉子節點對應的葉子節點的樣本數量是否小于預設的樣本數量閾值;
    [0015]如果是,則將該決策樹的該非葉子節點對應的葉子節點進行剪枝,并輸出剪枝后的所述決策樹模型。
    [0016]可選的,所述決策參數為用于決策樹中的每個節點進行決策的決策特征閾值;
    [0017]所述對剪枝后的所述決策樹模型中的每個決策樹分別進行決策參數調整,包括:
    [0018]將所述第二訓練樣本數據輸入至剪枝后的所述決策樹模型的每個決策樹進行預測,并記錄所述第二訓練樣本數據在每個決策樹中的每個節點的樣本分布和所述第二訓練樣本數據中的所有樣本數據的后驗概率分布;
    [0019]從每個決策樹的根節點至非葉子節點進行層次遍歷;
    [0020]基于預設的損失函數,迭代計算每個決策樹中的每個節點的樣本分布和所述第二訓練樣本數據中的所有樣本數據的后驗概率分布,按預設步進值調整每個節點的決策特征閾值,以求解所述損失函數的最小值;
    [0021]將求解得到的所述損失函數為最小值時對應的每個節點的決策特征閾值,作為每個決策樹調整后的決策參數。
    [0022]可選的,所述損失函數基于以下公式表征:
    [0023][0024]其中,f(x)表征源場景下訓練得到決策樹模型對應的分類函數,p
    S
    (f(x))表征該機器學習模型在源場景的預測分布,p
    T
    (f(x))表征該機器學習模型在目標場景的預測分布;p
    s
    (x
    i
    )表征變量x
    i
    在源場景的概率分布,p
    T
    (x
    i
    )表征變量x
    i
    在目標場景的概率分布;T
    i
    表征變量x
    i
    在決策樹模型中的節點的一系列決策特征閥值;通過在目標場景搜索變量x
    i
    新的決策特征閥值,使得損失函數的值最小;
    [0025]所述損失函數中的JS(p
    S
    (f(x))||p
    T
    (f(x)))中的p
    S
    (f(x))和p
    T
    (f(x)分別作為p和q,以及損失函數中的JS(p
    S
    (x
    i
    )||p
    T
    (x
    i
    )中的p
    S
    (x
    i
    )和p
    T
    (x
    i
    )分別作為p和q,代入至以下公式中進行計算:
    [0026][0027]其中,JS(p||q)表征概率分布p和概率分布q的JS散度,表征概率分布p和概率分布的KL散度,表征概率分布q和概率分布的KL散度。
    [0028]可選的,所述決策樹模型中的決策樹為基于隨機森林算法構建或基于GDBT算法構建。
    [0029]本說明書還提供一種模型遷移裝置,所述模型為包括若干個決策樹的決策樹模型,所述裝置包括:
    [0030]訓練模塊,基于源場景中的第一訓練樣本數據、與第一訓練樣本數據對應的樣本標簽對所述模型進行模型訓練,得到訓練完成的所述決策樹模型;
    [0031]遷移模塊,基于目標場景中的無樣本標簽對應的第二訓練樣本數據,對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理,以完成將所述決策樹模型從源場景
    遷移至目標場景。
    [0032]可選的,所述目標場景的第一訓練樣本數據的特征空間與所述源場景的第二訓練樣本數據的特征空間相同;所述目標場景的第一訓練樣本數據的特征分布與所述源場景的第二訓練樣本數據的特征分布不同。
    [0033]可選的,在對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理后,所述遷移模塊進一步:
    [0034]對剪枝后的所述決策樹模型中的每個決策樹分別進行決策參數調整,以完成將所述決策樹模型從源場景遷移至目標場景。
    [0035]可選的,所述每個決策樹包括根節點、非葉子節點、葉子節點;
    [0036]所述遷移模塊:
    [0037]將所述第二訓練樣本數據輸入至訓練完成的所述決策樹模型的每個決策樹進行預測,并記錄所述第二訓練樣本數據在每個決策樹中的每個節點的樣本分布;
    [0038]遍歷每個決策樹中的所有非葉子節點中的每個非葉子節點;
    [0039]針對每個決策樹,判斷所本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種模型遷移方法,所述模型為包括若干個決策樹的決策樹模型,所述方法包括:基于源場景中的第一訓練樣本數據、與第一訓練樣本數據對應的樣本標簽對所述模型進行模型訓練,得到訓練完成的所述決策樹模型;基于目標場景中的無樣本標簽對應的第二訓練樣本數據,對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理,以完成將所述決策樹模型從源場景遷移至目標場景。2.根據權利要求1所述的方法,所述目標場景的第一訓練樣本數據的特征空間與所述源場景的第二訓練樣本數據的特征空間相同;所述目標場景的第一訓練樣本數據的特征分布與所述源場景的第二訓練樣本數據的特征分布不同。3.根據權利要求1所述的方法,在對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理后,還包括:對剪枝后的所述決策樹模型中的每個決策樹分別進行決策參數調整,以完成將所述決策樹模型從源場景遷移至目標場景。4.根據權利要求1所述的方法,所述每個決策樹包括根節點、非葉子節點、葉子節點;所述對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理,包括:將所述第二訓練樣本數據輸入至訓練完成的所述決策樹模型的每個決策樹進行預測,并記錄所述第二訓練樣本數據在每個決策樹中的每個節點的樣本分布;遍歷每個決策樹中的所有非葉子節點中的每個非葉子節點;針對每個決策樹,判斷所述第二訓練樣本數據在所述每個非葉子節點對應的葉子節點的樣本分布是否小于預設的樣本分布閾值,或者判斷所述第二訓練樣本數據在所述每個非葉子節點對應的葉子節點的樣本數量是否小于預設的樣本數量閾值;如果是,則將該決策樹的該非葉子節點對應的葉子節點進行剪枝,并輸出剪枝后的所述決策樹模型。5.根據權利要求3所述的方法,所述決策參數為用于決策樹中的每個節點進行決策的決策特征閾值;所述對剪枝后的所述決策樹模型中的每個決策樹分別進行決策參數調整,包括:將所述第二訓練樣本數據輸入至剪枝后的所述決策樹模型的每個決策樹進行預測,并記錄所述第二訓練樣本數據在每個決策樹中的每個節點的樣本分布和所述第二訓練樣本數據中的所有樣本數據的后驗概率分布;從每個決策樹的根節點至非葉子節點進行層次遍歷;基于預設的損失函數,迭代計算每個決策樹中的每個節點的樣本分布和所述第二訓練樣本數據中的所有樣本數據的后驗概率分布,按預設步進值調整每個節點的決策特征閾值,以求解所述損失函數的最小值;將求解得到的所述損失函數為最小值時對應的每個節點的決策特征閾值,作為每個決策樹調整后的決策參數。6.根據權利要求5所述的方法,所述損失函數基于以下公式表征:
    其中,f(x)表征源場景下訓練得到決策樹模型對應的分類函數,p
    S
    (f(x))表征該機器學習模型在源場景的預測分布,p
    T
    (f(x))表征該機器學習模型在目標場景的預測分布;p
    S
    (x
    i
    )表征變量x
    i
    在源場景的概率分布,p
    T
    (x
    i
    )表征變量x
    i
    在目標場景的概率分布;T
    i
    表征變量x
    i
    在決策樹模型中的節點的一系列決策特征閥值;通過在目標場景搜索變量x
    i
    新的決策特征閥值,使得損失函數的值最小;所述損失函數中的JS(p
    S
    (f(x))||p
    T
    (f(x)))中的p
    S
    (f(x))和p
    T
    (f(x)分別作為p和q,以及損失函數中的JS(p
    S
    (x
    i
    )||p
    T
    (x
    i
    )中的p
    S
    (x
    i
    )和p
    T
    (x
    i
    )分別作為p和q,代入至以下公式中進行計算:其中,JS(p||q)表征概率分布p和概率分布q的JS散度,表征概率分布p和概率分布的KL散度,表征概率分布q和概率分布的KL散度。7.根據權利要求1所述的方法,所述決策樹模型中的決策樹為基于隨機森林算法構建或基于GDBT算法構建。8.一種模型遷移裝置,所述模型為包括若干個決策樹的決策樹模型,所述裝置包括:訓練模塊,基...

    【專利技術屬性】
    技術研發人員:阮懷玉章鵬蘇煜
    申請(專利權)人:支付寶杭州信息技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲最大天堂无码精品区| 久久午夜伦鲁片免费无码| 亚洲a∨无码精品色午夜| 国产AV无码专区亚洲AV蜜芽| 国产成人精品无码一区二区三区| 99精品国产在热久久无码| 亚洲Av无码国产情品久久| 免费无码VA一区二区三区| av无码一区二区三区| 在线观看成人无码中文av天堂| 日日摸日日碰人妻无码| 精品无码国产一区二区三区AV| 亚洲av无码国产精品色在线看不卡| 亚洲的天堂av无码| 亚洲av日韩av高潮潮喷无码| 日韩乱码人妻无码中文字幕视频| 亚洲国产成人精品无码区二本| 亚洲VA中文字幕无码一二三区| 免费人妻av无码专区| 熟妇人妻无码中文字幕老熟妇| 免费人妻无码不卡中文字幕系| 亚洲第一极品精品无码久久| 国产仑乱无码内谢| 国产精品va无码二区| 日本无码一区二区三区白峰美 | 久久久g0g0午夜无码精品| 久久无码专区国产精品| 亚洲精品无码久久久久sm| 国产精品无码素人福利不卡| 亚洲精品无码专区2| 国产精品无码v在线观看| 超清无码一区二区三区| 狠狠噜天天噜日日噜无码| 日韩a级无码免费视频| 中文字幕人妻无码专区| 无码人妻丰满熟妇区五十路百度| 日韩精品专区AV无码| 精品亚洲A∨无码一区二区三区| 久久久久久久人妻无码中文字幕爆| 人妻系列无码专区无码中出| 麻豆国产精品无码视频|