System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲中文字幕久久精品无码VA,国产亚洲精久久久久久无码77777,亚洲va成无码人在线观看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    標簽校正方法、裝置、計算機設備和計算機可讀存儲介質制造方法及圖紙

    技術編號:44485812 閱讀:3 留言:0更新日期:2025-03-04 17:51
    本申請涉及一種標簽校正方法、裝置、計算機設備和存儲介質。方法包括:根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;通過當前輪訓練完成的目標模型預測當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;根據各樣本分別在各類別標簽下的預測概率和各樣本的當前的標注標簽,確定當前輪樣本數據集中需要標簽校正的目標樣本、各目標樣本的預估真實標簽;將目標樣本的當前的標注標簽校正為預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。采用本方法能夠提高標簽校正的通用性和泛化性。

    【技術實現步驟摘要】

    本申請涉及人工智能,特別是涉及一種標簽校正方法、裝置、計算機設備和計算機可讀存儲介質


    技術介紹

    1、在監督學習的模型訓練中,需要使用帶標簽的樣本數據對模型進行訓練,這在分類任務中的應用非常廣泛,比如:文本情感的分類、圖像的分類、歌曲風格的分類等。然而,在實際應用中,樣本的標簽難免會出現誤標注的問題,即,樣本的標簽有噪聲,這給模型訓練的準確性造成很大影響。因此,需要對樣本的標簽進行校正。

    2、傳統方法中,一般是針對特定類型的樣本數據,專門制定特定的規則進行標簽校正。比如:針對文本數據集,需要人為構造關聯詞表或匹配規則等。這種方法受主觀因素影響很大,通用性和泛化性較差。


    技術實現思路

    1、本申請實施例提供了一種標簽校正方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品,可以提高標簽校正的通用性和泛化性。

    2、第一方面,本申請提供了一種標簽校正方法。所述方法包括:

    3、將待校正的初始樣本數據集作為當前輪的樣本數據集;

    4、在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;

    5、通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;

    6、根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;

    7、將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。

    8、第二方面,本申請還提供了一種標簽校正裝置。所述裝置包括:

    9、模型訓練模塊,用于將待校正的初始樣本數據集作為當前輪的樣本數據集;在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;

    10、置信學習模塊,用于通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;

    11、標簽校正模塊,用于將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。

    12、第三方面,本申請還提供了一種計算機設備。所述計算機設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現以下步驟:

    13、將待校正的初始樣本數據集作為當前輪的樣本數據集;

    14、在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;

    15、通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;

    16、根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;

    17、將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。

    18、第四方面,本申請還提供了一種計算機可讀存儲介質。所述計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現以下步驟:

    19、將待校正的初始樣本數據集作為當前輪的樣本數據集;

    20、在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;

    21、通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;

    22、根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;

    23、將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。

    24、第五方面,本申請還提供了一種計算機程序產品。所述計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現以下步驟:

    25、將待校正的初始樣本數據集作為當前輪的樣本數據集;

    26、在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;

    27、通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;

    28、根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;

    29、將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。

    30、上述標簽校正方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品,首先將待校正的初始樣本數據集作為當前輪的樣本數據集,然后在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,通過當前輪訓練完成的目標模型,預測當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率,根據各樣本分別在各類別標簽下的預測概率和各樣本的當前的標注標簽,確定當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各目標樣本的預估真實標簽,將目標樣本的當前的標注標簽校正為預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件則停止迭代,以多輪迭代的方式自適應地進行標簽校正,使得通用性和泛化性較好,無需專門針對特定類型的樣本數據制定特定的規則,就能使得針對任意類型的樣本數據都能通過迭代地標簽校正得到更加準本文檔來自技高網...

    【技術保護點】

    1.一種標簽校正方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,包括:

    3.根據權利要求1所述的方法,其特征在于,所述在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,包括:

    4.根據權利要求1所述的方法,其特征在于,在所述將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集之前,所述方法還包括:

    5.根據權利要求4所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率,確定各所述樣本的當前的標注標簽的標簽質量評分,包括:

    6.根據權利要求5所述的方法,其特征在于,所述分別針對每個所述樣本,根據所述樣本在當前的標注標簽下的預測概率與所述當前的標注標簽對應的概率門限值之間的差異,確定所述樣本的當前的標注標簽的標簽質量評分,包括:

    7.根據權利要求1所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽,包括:

    8.根據權利要求7所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本,包括:

    9.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率,確定各所述樣本的預測標簽,包括:

    10.根據權利要求9所述的方法,其特征在于,所述方法還包括:

    11.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本的預測標簽和當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本,包括:

    12.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本的預測標簽和當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本,包括:

    13.根據權利要求12所述的方法,其特征在于,所述方法還包括:

    14.根據權利要求7所述的方法,其特征在于,所述根據所述目標樣本分別在各所述類別標簽下的預測概率,確定所述目標樣本的預估真實標簽,包括:

    15.根據權利要求1至14中任一項所述的方法,其特征在于,所述滿足迭代停止條件包括滿足第一迭代停止條件和第二迭代停止條件中的任意一種;所述第一迭代停止條件是當前的迭代次數大于或等于第一預設迭代次數;所述第二迭代停止條件是當前輪中所述目標模型的性能指標的優化程度小于或等于預設指標門限值;所述當前輪中所述目標模型的性能指標的優化程度,用于表征當前輪訓練完成的目標模型相較于上一輪訓練完成的目標模型的性能指標的優化程度。

    16.根據權利要求15所述的方法,其特征在于,所述當前輪的樣本數據集包括當前輪的訓練集和當前輪的驗證集;所述當前輪的樣本數據集用于對基礎分類模型進行模型訓練;所述當前輪的驗證集用于確定所述前輪訓練完成的目標模型的性能指標。

    17.根據權利要求1至14中任一項所述的方法,其特征在于,所述方法還包括:

    18.一種標簽校正裝置,其特征在于,包括:

    19.一種計算機設備,包括存儲器及處理器,所述存儲器中儲存有計算機程序,其特征在于,所述計算機程序被所述處理器執行時,使得所述處理器執行如權利要求1至17中任一項所述的標簽校正方法的步驟。

    20.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至17中任一項所述的方法的步驟。

    21.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1至17中任一項所述的方法的步驟。

    ...

    【技術特征摘要】

    1.一種標簽校正方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,包括:

    3.根據權利要求1所述的方法,其特征在于,所述在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,包括:

    4.根據權利要求1所述的方法,其特征在于,在所述將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集之前,所述方法還包括:

    5.根據權利要求4所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率,確定各所述樣本的當前的標注標簽的標簽質量評分,包括:

    6.根據權利要求5所述的方法,其特征在于,所述分別針對每個所述樣本,根據所述樣本在當前的標注標簽下的預測概率與所述當前的標注標簽對應的概率門限值之間的差異,確定所述樣本的當前的標注標簽的標簽質量評分,包括:

    7.根據權利要求1所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽,包括:

    8.根據權利要求7所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本,包括:

    9.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率,確定各所述樣本的預測標簽,包括:

    10.根據權利要求9所述的方法,其特征在于,所述方法還包括:

    11.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本的預測標簽和當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標...

    【專利技術屬性】
    技術研發人員:鄧小龍帥朝春
    申請(專利權)人:廣東明創軟件科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av中文无码| 亚洲精品无码乱码成人| 国产午夜片无码区在线播放| 国产办公室秘书无码精品99| 999久久久无码国产精品| 成在人线av无码免费高潮水 | 亚洲中文字幕无码一区 | 中文无码精品A∨在线观看不卡| 久久水蜜桃亚洲AV无码精品| 国产成人精品无码免费看| 中文字幕久久久人妻无码| 亚洲日韩v无码中文字幕| 国产在线拍揄自揄拍无码视频| 亚洲av日韩av无码黑人| 国产免费午夜a无码v视频| AV无码免费永久在线观看| 中文无码久久精品| 少妇无码太爽了不卡视频在线看 | 国产成人综合日韩精品无码| 日韩AV无码中文无码不卡电影| 亚洲中文字幕无码爆乳av中文| 亚洲精品无码mⅴ在线观看| 亚洲AV无码一区二区二三区软件| 亚洲av无码成人精品区| 永久免费无码网站在线观看个| 一本一道VS无码中文字幕| 久久午夜伦鲁片免费无码| 无码人妻少妇久久中文字幕蜜桃 | 亚洲一区精品无码| 嫩草影院无码av| 亚洲精品无码成人片在线观看| av色欲无码人妻中文字幕| 日韩av无码国产精品| 日韩AV无码一区二区三区不卡| 精品无码国产AV一区二区三区| 西西444www无码大胆| 免费人成无码大片在线观看| 国产精品无码专区在线观看| 久久无码精品一区二区三区| 超清无码无卡中文字幕| 国产午夜精品无码|