System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码精品视频一区二区三区,精品久久久久久久无码,久久久久亚洲AV无码专区首JN
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種獎勵模型訓練方法、排序方法、裝置、設備及介質制造方法及圖紙

    技術編號:44457718 閱讀:3 留言:0更新日期:2025-02-28 19:04
    本發明專利技術公開了一種獎勵模型訓練方法、排序方法、裝置、設備及介質,應用于計算機技術領域,包括:對訓練數據集進行分組,得到預設數量個訓練數據子集;利用預設數量個訓練數據子集對待訓練的獎勵模型進行訓練,得到預設數量個初始獎勵模型;利用預設數量個初始獎勵模型確定每個訓練數據子集中訓練數據對的置信度,基于置信度對訓練數據對進行過濾,得到篩選后的訓練數據集;置信度為訓練數據對獲得贊成票的比例;基于篩選后的訓練數據集對初始獎勵模型中的目標初始獎勵模型進行訓練得到目標獎勵模型。本申請在對獎勵模型進行訓練的過程中,通過訓練數據對的置信度,對訓練數據對進行過濾,提高訓練數據對的質量,防止影響獎勵模型的擬合。

    【技術實現步驟摘要】

    本專利技術涉及計算機,特別涉及一種獎勵模型訓練方法、排序方法、裝置、設備及介質


    技術介紹

    1、獎勵模型的訓練數據往往有大量的噪聲數據,即有大量的訓練數據對其正例和負例被標注人員搞反,混在大量的訓練數據集中無法被挑出,這些數據在訓練時會嚴重影響模型的擬合。

    2、因此,如何對訓練數據進行降噪,降低噪聲數據的影響,提高獎勵模型的擬合性能是本領域技術人員急需解決的技術問題。


    技術實現思路

    1、有鑒于此,本專利技術的目的在于提供一種獎勵模型訓練方法、排序方法、裝置、設備及介質,解決了現有技術中噪聲數據無法過濾的技術問題。

    2、為解決上述技術問題,本專利技術提供了一種獎勵模型訓練方法,包括:

    3、對訓練數據集進行分組,得到預設數量個訓練數據子集;

    4、利用所述預設數量個訓練數據子集對多個待訓練的獎勵模型進行訓練,得到預設數量個初始獎勵模型;

    5、利用所述預設數量個初始獎勵模型確定每個訓練數據子集中訓練數據對對應的置信度,并基于所述置信度對所有的訓練數據對進行過濾,得到篩選后的訓練數據集;所述置信度為訓練數據對在預設數量個初始獎勵模型中獲得贊成票的比例,所述贊成票為贊成該訓練數據對中正例的參數值大于負例的參數值的投票;

    6、基于所述篩選后的訓練數據集對所述初始獎勵模型中的目標初始獎勵模型進行訓練,得到目標獎勵模型。

    7、可選的,利用所述預設數量個訓練數據子集對多個待訓練的獎勵模型進行訓練,得到預設數量個初始獎勵模型,包括:

    8、確定所述預設數量個訓練數據子集中每個訓練數據子集對應的待訓練的獎勵模型;

    9、利用每個所述訓練數據子集對相應的待訓練的獎勵模型進行訓練,得到所述預設數量個初始獎勵模型。

    10、可選的,利用所述預設數量個初始獎勵模型確定每個訓練數據子集中訓練數據對對應的置信度,并基于所述置信度對所有的訓練數據對進行過濾,得到篩選后的訓練數據集,包括:

    11、利用所述預設數量個初始獎勵模型確定每個訓練數據對的正例對應的參數值,以及負例對應的參數值;

    12、基于所述正例對應的參數值和所述負例對應的參數值確定每個所述訓練數據對的置信度;

    13、當所述置信度大于置信度閾值時,確定不對所述訓練數據對進行過濾;

    14、當所述置信度不大于所述置信度閾值時,確定對所述訓練數據對進行過濾。

    15、可選的,在基于所述篩選后的訓練數據集對所述初始獎勵模型中的目標初始獎勵模型進行訓練,得到目標獎勵模型之后,所述獎勵模型訓練方法還包括:

    16、基于所述篩選后的訓練數據集中每個訓練數據對對應的置信度確定平滑系數;

    17、基于每個訓練數據對對應的所述平滑系數,動態調整所述目標獎勵模型對應的損失函數;

    18、基于所述損失函數對所述目標獎勵模型進行訓練,得到最終的目標獎勵模型。

    19、可選的,基于每個訓練數據對對應的所述平滑系數,動態調整所述目標獎勵模型對應的損失函數,包括:

    20、基于所述平滑系數對排序損失函數進行加權標簽平滑處理,得到所述目標獎勵模型對應的所述損失函數。

    21、可選的,基于所述損失函數對所述目標獎勵模型進行訓練,得到最終的目標獎勵模型,包括:

    22、基于預設數量個初始獎勵模型確定的所述每個訓練數據對的正例和負例分別對應的多個參數值,基于所述多個參數值確定每個訓練數據對對應的平均差異值;其中,所述平均差異值為正例參數值和負例參數值之間差值的平均數;

    23、基于所述平均差異值確定動態調整邊際系數,并根據所述動態調整邊際系數對所述損失函數進行調整,得到調整后的損失函數;

    24、基于所述調整后的損失函數對所述目標獎勵模型進行訓練,直至所述調整后的損失函數收斂,得到所述最終的目標獎勵模型。

    25、可選的,對訓練數據集進行分組,得到預設數量個訓練數據子集,包括:

    26、對所述訓練數據集進行分組,得到十個訓練數據子集;其中,每個訓練數據子集包括的訓練數據對的數量相同。

    27、本申請還提供了一種排序方法,包括:

    28、獲取命令文本對應的多個大模型答復文本;其中,所述大模型答復文本為大模型根據接收的命令文本生成的輸出文本;

    29、基于每個大模型答復文本,利用目標獎勵模型得到答復質量參數;其中,所述目標獎勵模型為基于上述的獎勵模型訓練方法得到的模型;

    30、基于每個大模型答復文本對應的所述答復質量參數,對每個大模型答復文本進行排序,得到目標排序大模型答復文本。

    31、本申請還提供了一種獎勵模型訓練裝置,包括:

    32、分組模塊,用于對訓練數據集進行分組,得到預設數量個訓練數據子集;

    33、初始獎勵模型確定模塊,用于利用所述預設數量個訓練數據子集對多個待訓練的獎勵模型進行訓練,得到預設數量個初始獎勵模型;

    34、數據過濾模塊,用于利用所述預設數量個初始獎勵模型確定每個訓練數據子集中訓練數據對對應的置信度,并基于所述置信度對所有的訓練數據對進行過濾,得到篩選后的訓練數據集;所述置信度為訓練數據對在預設數量個初始獎勵模型中獲得贊成票的比例,所述贊成票為贊成該訓練數據對中正例的參數值大于負例的參數值的投票;

    35、目標獎勵確定模塊,用于基于所述篩選后的訓練數據集對所述初始獎勵模型中的目標初始獎勵模型進行訓練,得到目標獎勵模型。

    36、本申請還提供了一種排序裝置,包括:

    37、大模型答復文本獲取模塊,用于獲取命令文本對應的多個大模型答復文本;其中,所述大模型答復文本為大模型根據接收的命令文本生成的輸出文本;

    38、答復質量參數確定模塊,用于基于每個大模型答復文本,利用目標獎勵模型得到答復質量參數;其中,所述目標獎勵模型為基于上述的獎勵模型訓練方法得到的模型;

    39、排序模塊,用于基于每個大模型答復文本對應的所述答復質量參數,對每個大模型答復文本進行排序,得到目標排序大模型答復文本。

    40、本申請還提供了一種電子設備,包括:

    41、存儲器,用于存儲計算機程序;

    42、處理器,用于執行所述計算機程序時實現上述獎勵模型訓練方法和排序方法的步驟。

    43、本申請還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現上述獎勵模型訓練方法和排序方法的步驟。

    44、本申請還提供了一種計算機程序產品,包括計算機程序/指令,所述計算機程序/指令被處理器執行時實現上述獎勵模型訓練方法和排序方法的步驟。

    45、可見,本專利技術通過對訓練數據集進行分組,得到預設數量個訓練數據子集;利用預設數量個訓練數據子集對多個待訓練的獎勵模型進行訓練,得到預設數量個初始獎勵模型;利用預設數量個初始獎勵模型確定每個訓練數據子集中訓練數據本文檔來自技高網...

    【技術保護點】

    1.一種獎勵模型訓練方法,其特征在于,包括:

    2.根據權利要求1所述的獎勵模型訓練方法,其特征在于,利用所述預設數量個訓練數據子集對多個待訓練的獎勵模型進行訓練,得到預設數量個初始獎勵模型,包括:

    3.根據權利要求1所述的獎勵模型訓練方法,其特征在于,利用所述預設數量個初始獎勵模型確定每個訓練數據子集中訓練數據對對應的置信度,并基于所述置信度對所有的訓練數據對進行過濾,得到篩選后的訓練數據集,包括:

    4.根據權利要求1至3任一項所述的獎勵模型訓練方法,其特征在于,在基于所述篩選后的訓練數據集對所述初始獎勵模型中的目標初始獎勵模型進行訓練,得到目標獎勵模型之后,所述獎勵模型訓練方法還包括:

    5.根據權利要求4所述的獎勵模型訓練方法,其特征在于,基于每個訓練數據對對應的所述平滑系數,動態調整所述目標獎勵模型對應的損失函數,包括:

    6.根據權利要求4所述的獎勵模型訓練方法,其特征在于,基于所述損失函數對所述目標獎勵模型進行訓練,得到最終的目標獎勵模型,包括:

    7.根據權利要求1所述的獎勵模型訓練方法,其特征在于,對訓練數據集進行分組,得到預設數量個訓練數據子集,包括:

    8.一種排序方法,其特征在于,包括:

    9.一種獎勵模型訓練裝置,其特征在于,包括:

    10.一種排序裝置,其特征在于,包括:

    11.一種電子設備,其特征在于,包括:

    12.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至8任一項所述方法的步驟。

    13.一種計算機程序產品,其特征在于,包括計算機程序/指令,所述計算機程序/指令被處理器執行時實現上述獎勵模型訓練方法和排序方法的步驟。

    ...

    【技術特征摘要】

    1.一種獎勵模型訓練方法,其特征在于,包括:

    2.根據權利要求1所述的獎勵模型訓練方法,其特征在于,利用所述預設數量個訓練數據子集對多個待訓練的獎勵模型進行訓練,得到預設數量個初始獎勵模型,包括:

    3.根據權利要求1所述的獎勵模型訓練方法,其特征在于,利用所述預設數量個初始獎勵模型確定每個訓練數據子集中訓練數據對對應的置信度,并基于所述置信度對所有的訓練數據對進行過濾,得到篩選后的訓練數據集,包括:

    4.根據權利要求1至3任一項所述的獎勵模型訓練方法,其特征在于,在基于所述篩選后的訓練數據集對所述初始獎勵模型中的目標初始獎勵模型進行訓練,得到目標獎勵模型之后,所述獎勵模型訓練方法還包括:

    5.根據權利要求4所述的獎勵模型訓練方法,其特征在于,基于每個訓練數據對對應的所述平滑系數,動態調整所述目標獎勵模型對應的損失函數,包括:

    ...

    【專利技術屬性】
    技術研發人員:肖釩潘樹燊
    申請(專利權)人:騰訊音樂娛樂科技深圳有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码137片内射在线影院| 亚洲AV无码专区在线观看成人| 日韩人妻无码精品一专区| 亚洲啪啪AV无码片| 高清无码v视频日本www| 免费无码又爽又刺激网站直播| 无码人妻精品一区二区| 精品无码国产污污污免费| 波多野42部无码喷潮在线| 亚洲国产日产无码精品| 亚洲AV无码一区二区二三区入口| 无码精品A∨在线观看免费| 人妻系列AV无码专区| 国产AV无码专区亚洲AV蜜芽| 秋霞鲁丝片Av无码少妇| av无码aV天天aV天天爽| 久久精品日韩av无码| 精品无码久久久久久尤物| 亚洲中文久久精品无码ww16| 无码无套少妇毛多69XXX| 亚洲AV综合色区无码二区偷拍| 国产AV一区二区三区无码野战| 日韩久久无码免费毛片软件| 人妻少妇精品无码专区| 亚洲中文字幕久久无码| 无码国产精品一区二区免费| 午夜福利av无码一区二区| 一本色道无码道在线观看| 在线高清无码A.| 午夜不卡久久精品无码免费| 亚洲国产精品成人精品无码区在线 | 成人无码AV一区二区| 国产成人精品无码片区在线观看| 91精品无码久久久久久五月天 | 无码AV波多野结衣久久| 国产AV无码专区亚洲精品| 国产成人AV一区二区三区无码| 最新高清无码专区| 久久久久久久亚洲Av无码| 久久久久亚洲AV无码专区首JN| 久久久久久久亚洲Av无码|