• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    模型遷移方法、裝置及電子設備制造方法及圖紙

    技術編號:35546386 閱讀:29 留言:0更新日期:2022-11-12 15:24
    一種模型遷移方法及裝置,所述方法包括:基于源場景中的第一訓練樣本數據、與第一訓練樣本數據對應的樣本標簽對所述模型進行模型訓練,得到訓練完成的所述決策樹模型;基于目標場景中的無樣本標簽對應的第二訓練樣本數據,對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理,以完成將所述決策樹模型從源場景遷移至目標場景。一方面,解決了目標場景無標簽情況下模型初始化的問題,并提升遷移模型在目標場景的泛化效能;另一方面,僅需將源場景訓練的決策樹模型的模型參數輸出到目標場景,無需要使用源場景下的數據,滿足了數據安全和隱私保護的用戶需求。數據安全和隱私保護的用戶需求。數據安全和隱私保護的用戶需求。

    【技術實現步驟摘要】
    模型遷移方法、裝置及電子設備


    [0001]本說明書涉及計算機應用領域,尤其涉及一種模型遷移方法、裝置及電子設備。

    技術介紹

    [0002]通常,開發人員可以利用訓練機器學習模型的方式,獲取具有特定功能的機器學習模型,進而應用該模型完成特定任務,相對于人工完成上述任務,可以顯著節省人力資源;但是,由于機器學習模型的訓練過程是在特定的業務場景下完成的,因此,如果切換了新的業務場景,先前訓練的機器學習模型就很可能無法正常工作;假如重新訓練模型,則可能會由于新的業務場景缺乏歷史數據積累而無法完成。
    [0003]相關技術中,可以通過遷移學習的方法,使先前訓練的模型能夠適應新的業務場景;然而,傳統的遷移學習方式需要將原先的業務場景下的樣本數據與新場景下的樣本數據混合進行模型訓練,但在金融風控建模中,由于數據安全和隱私等要求,該特定的業務場景中的樣本數據無法直接使用,進而導致模型遷移無法完成。

    技術實現思路

    [0004]有鑒于此,本說明書提出一種模型遷移方法,所述模型為包括若干個決策樹的決策樹模型,所述方法包括:
    [0005]基于源場景中的第一訓練樣本數據、與第一訓練樣本數據對應的樣本標簽對所述模型進行模型訓練,得到訓練完成的所述決策樹模型;
    [0006]基于目標場景中的無樣本標簽對應的第二訓練樣本數據,對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理,以完成將所述決策樹模型從源場景遷移至目標場景。
    [0007]可選的,所述目標場景的第一訓練樣本數據的特征空間與所述源場景的第二訓練樣本數據的特征空間相同;所述目標場景的第一訓練樣本數據的特征分布與所述源場景的第二訓練樣本數據的特征分布不同。
    [0008]可選的,在對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理后,還包括:
    [0009]對剪枝后的所述決策樹模型中的每個決策樹分別進行決策參數調整,以完成將所述決策樹模型從源場景遷移至目標場景。
    [0010]可選的,所述每個決策樹包括根節點、非葉子節點、葉子節點;
    [0011]所述對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理,包括:
    [0012]將所述第二訓練樣本數據輸入至訓練完成的所述決策樹模型的每個決策樹進行預測,并記錄所述第二訓練樣本數據在每個決策樹中的每個節點的樣本分布;
    [0013]遍歷每個決策樹中的所有非葉子節點中的每個非葉子節點;
    [0014]針對每個決策樹,判斷所述第二訓練樣本數據在所述每個非葉子節點對應的葉子節點的樣本分布是否小于預設的樣本分布閾值,或者判斷所述第二訓練樣本數據在所述每
    個非葉子節點對應的葉子節點的樣本數量是否小于預設的樣本數量閾值;
    [0015]如果是,則將該決策樹的該非葉子節點對應的葉子節點進行剪枝,并輸出剪枝后的所述決策樹模型。
    [0016]可選的,所述決策參數為用于決策樹中的每個節點進行決策的決策特征閾值;
    [0017]所述對剪枝后的所述決策樹模型中的每個決策樹分別進行決策參數調整,包括:
    [0018]將所述第二訓練樣本數據輸入至剪枝后的所述決策樹模型的每個決策樹進行預測,并記錄所述第二訓練樣本數據在每個決策樹中的每個節點的樣本分布和所述第二訓練樣本數據中的所有樣本數據的后驗概率分布;
    [0019]從每個決策樹的根節點至非葉子節點進行層次遍歷;
    [0020]基于預設的損失函數,迭代計算每個決策樹中的每個節點的樣本分布和所述第二訓練樣本數據中的所有樣本數據的后驗概率分布,按預設步進值調整每個節點的決策特征閾值,以求解所述損失函數的最小值;
    [0021]將求解得到的所述損失函數為最小值時對應的每個節點的決策特征閾值,作為每個決策樹調整后的決策參數。
    [0022]可選的,所述損失函數基于以下公式表征:
    [0023][0024]其中,f(x)表征源場景下訓練得到決策樹模型對應的分類函數,p
    S
    (f(x))表征該機器學習模型在源場景的預測分布,p
    T
    (f(x))表征該機器學習模型在目標場景的預測分布;p
    s
    (x
    i
    )表征變量x
    i
    在源場景的概率分布,p
    T
    (x
    i
    )表征變量x
    i
    在目標場景的概率分布;T
    i
    表征變量x
    i
    在決策樹模型中的節點的一系列決策特征閥值;通過在目標場景搜索變量x
    i
    新的決策特征閥值,使得損失函數的值最小;
    [0025]所述損失函數中的JS(p
    S
    (f(x))||p
    T
    (f(x)))中的p
    S
    (f(x))和p
    T
    (f(x)分別作為p和q,以及損失函數中的JS(p
    S
    (x
    i
    )||p
    T
    (x
    i
    )中的p
    S
    (x
    i
    )和p
    T
    (x
    i
    )分別作為p和q,代入至以下公式中進行計算:
    [0026][0027]其中,JS(p||q)表征概率分布p和概率分布q的JS散度,表征概率分布p和概率分布的KL散度,表征概率分布q和概率分布的KL散度。
    [0028]可選的,所述決策樹模型中的決策樹為基于隨機森林算法構建或基于GDBT算法構建。
    [0029]本說明書還提供一種模型遷移裝置,所述模型為包括若干個決策樹的決策樹模型,所述裝置包括:
    [0030]訓練模塊,基于源場景中的第一訓練樣本數據、與第一訓練樣本數據對應的樣本標簽對所述模型進行模型訓練,得到訓練完成的所述決策樹模型;
    [0031]遷移模塊,基于目標場景中的無樣本標簽對應的第二訓練樣本數據,對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理,以完成將所述決策樹模型從源場景
    遷移至目標場景。
    [0032]可選的,所述目標場景的第一訓練樣本數據的特征空間與所述源場景的第二訓練樣本數據的特征空間相同;所述目標場景的第一訓練樣本數據的特征分布與所述源場景的第二訓練樣本數據的特征分布不同。
    [0033]可選的,在對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理后,所述遷移模塊進一步:
    [0034]對剪枝后的所述決策樹模型中的每個決策樹分別進行決策參數調整,以完成將所述決策樹模型從源場景遷移至目標場景。
    [0035]可選的,所述每個決策樹包括根節點、非葉子節點、葉子節點;
    [0036]所述遷移模塊:
    [0037]將所述第二訓練樣本數據輸入至訓練完成的所述決策樹模型的每個決策樹進行預測,并記錄所述第二訓練樣本數據在每個決策樹中的每個節點的樣本分布;
    [0038]遍歷每個決策樹中的所有非葉子節點中的每個非葉子節點;
    [0039]針對每個決策樹,判斷所本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種模型遷移方法,所述模型為包括若干個決策樹的決策樹模型,所述方法包括:基于源場景中的第一訓練樣本數據、與第一訓練樣本數據對應的樣本標簽對所述模型進行模型訓練,得到訓練完成的所述決策樹模型;基于目標場景中的無樣本標簽對應的第二訓練樣本數據,對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理,以完成將所述決策樹模型從源場景遷移至目標場景。2.根據權利要求1所述的方法,所述目標場景的第一訓練樣本數據的特征空間與所述源場景的第二訓練樣本數據的特征空間相同;所述目標場景的第一訓練樣本數據的特征分布與所述源場景的第二訓練樣本數據的特征分布不同。3.根據權利要求1所述的方法,在對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理后,還包括:對剪枝后的所述決策樹模型中的每個決策樹分別進行決策參數調整,以完成將所述決策樹模型從源場景遷移至目標場景。4.根據權利要求1所述的方法,所述每個決策樹包括根節點、非葉子節點、葉子節點;所述對訓練完成的所述決策樹模型中的每個決策樹分別進行剪枝處理,包括:將所述第二訓練樣本數據輸入至訓練完成的所述決策樹模型的每個決策樹進行預測,并記錄所述第二訓練樣本數據在每個決策樹中的每個節點的樣本分布;遍歷每個決策樹中的所有非葉子節點中的每個非葉子節點;針對每個決策樹,判斷所述第二訓練樣本數據在所述每個非葉子節點對應的葉子節點的樣本分布是否小于預設的樣本分布閾值,或者判斷所述第二訓練樣本數據在所述每個非葉子節點對應的葉子節點的樣本數量是否小于預設的樣本數量閾值;如果是,則將該決策樹的該非葉子節點對應的葉子節點進行剪枝,并輸出剪枝后的所述決策樹模型。5.根據權利要求3所述的方法,所述決策參數為用于決策樹中的每個節點進行決策的決策特征閾值;所述對剪枝后的所述決策樹模型中的每個決策樹分別進行決策參數調整,包括:將所述第二訓練樣本數據輸入至剪枝后的所述決策樹模型的每個決策樹進行預測,并記錄所述第二訓練樣本數據在每個決策樹中的每個節點的樣本分布和所述第二訓練樣本數據中的所有樣本數據的后驗概率分布;從每個決策樹的根節點至非葉子節點進行層次遍歷;基于預設的損失函數,迭代計算每個決策樹中的每個節點的樣本分布和所述第二訓練樣本數據中的所有樣本數據的后驗概率分布,按預設步進值調整每個節點的決策特征閾值,以求解所述損失函數的最小值;將求解得到的所述損失函數為最小值時對應的每個節點的決策特征閾值,作為每個決策樹調整后的決策參數。6.根據權利要求5所述的方法,所述損失函數基于以下公式表征:
    其中,f(x)表征源場景下訓練得到決策樹模型對應的分類函數,p
    S
    (f(x))表征該機器學習模型在源場景的預測分布,p
    T
    (f(x))表征該機器學習模型在目標場景的預測分布;p
    S
    (x
    i
    )表征變量x
    i
    在源場景的概率分布,p
    T
    (x
    i
    )表征變量x
    i
    在目標場景的概率分布;T
    i
    表征變量x
    i
    在決策樹模型中的節點的一系列決策特征閥值;通過在目標場景搜索變量x
    i
    新的決策特征閥值,使得損失函數的值最小;所述損失函數中的JS(p
    S
    (f(x))||p
    T
    (f(x)))中的p
    S
    (f(x))和p
    T
    (f(x)分別作為p和q,以及損失函數中的JS(p
    S
    (x
    i
    )||p
    T
    (x
    i
    )中的p
    S
    (x
    i
    )和p
    T
    (x
    i
    )分別作為p和q,代入至以下公式中進行計算:其中,JS(p||q)表征概率分布p和概率分布q的JS散度,表征概率分布p和概率分布的KL散度,表征概率分布q和概率分布的KL散度。7.根據權利要求1所述的方法,所述決策樹模型中的決策樹為基于隨機森林算法構建或基于GDBT算法構建。8.一種模型遷移裝置,所述模型為包括若干個決策樹的決策樹模型,所述裝置包括:訓練模塊,基...

    【專利技術屬性】
    技術研發人員:阮懷玉章鵬蘇煜
    申請(專利權)人:支付寶杭州信息技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码人妻少妇色欲AV一区二区 | 免费无码A片一区二三区| 亚洲乱亚洲乱少妇无码| 久久精品无码专区免费| 免费A级毛片av无码| 无码任你躁久久久久久老妇| 国产午夜无码精品免费看| 亚洲爆乳大丰满无码专区| 狠狠躁天天躁中文字幕无码| 无码人妻丰满熟妇啪啪网站牛牛 | 国产av无码专区亚洲av果冻传媒| 精品人妻大屁股白浆无码| 日韩人妻无码一区二区三区综合部| 欧洲人妻丰满av无码久久不卡| 少妇无码?V无码专区在线观看| 日本无码WWW在线视频观看| 国产成人无码一区二区在线播放 | 日韩av无码国产精品| 久久久久久人妻无码| 亚洲国产精品无码久久SM| 精品无码国产污污污免费网站国产| 亚洲av无码av在线播放| 色欲A∨无码蜜臀AV免费播| 亚洲综合av永久无码精品一区二区 | 国产产无码乱码精品久久鸭| 亚洲av无码乱码在线观看野外| 中文午夜人妻无码看片| 久久久久久亚洲Av无码精品专口 | 性饥渴少妇AV无码毛片| 亚洲av极品无码专区在线观看| 亚洲成AV人片在线播放无码| 国产成年无码久久久免费| 欧洲精品无码一区二区三区在线播放| 日韩av片无码一区二区不卡电影 | 无码精品蜜桃一区二区三区WW | 精品久久久久久无码人妻| 亚洲精品无码专区在线| 无码熟妇αⅴ人妻又粗又大| 无码免费午夜福利片在线| 无码少妇一区二区浪潮av| 国产日韩AV免费无码一区二区三区|