System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产精品亚洲аv无码播放,国产精品无码一区二区在线观一 ,最新亚洲春色Av无码专区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種構建數據集的方法、設備和計算機可讀存儲介質技術

    技術編號:44247772 閱讀:10 留言:0更新日期:2025-02-11 13:44
    本申請公開了一種構建數據集的方法、設備和計算機可讀存儲介質,包括:獲取原始數據集的推理路徑;提取所述推理路徑中的主路徑和剩余路徑;根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據;以及合并所有增強數據作為新的數據集。通過本申請的方案,可以自動構建數據集,增強構建數據集的魯棒性,提高數據集的質量。

    【技術實現步驟摘要】

    本申請一般涉及人工智能。更具體地,本申請涉及一種構建數據集的方法、設備和計算機可讀存儲介質


    技術介紹

    1、目前監督微調(supervised?fine-tuning,“sft”)主要應用于深度學習模型或者大模型的訓練和優化。與無監督學習不同的是,sft需要標注數據,這意味著數據集通常和最終的任務相關,且包含輸入以及相應的輸出標簽。另外,對于一個好的微調的模型來說,不僅其能在訓練數據上表現良好,其還擁有很好的魯棒性,即在其他相似的任務和數據集上表現良好。

    2、然而,如何得到更高質量的標注數據集來進行sft是目前比較棘手的問題。一方面,人工專家標注高質量的數據集需要巨大的時間成本以及資金;另一方面,雖然當前自動生成的sft數據集數量很多,但是其包含太多的無效樣本和負樣本,由此導致訓練效果未能達到預期。

    3、有鑒于此,亟需提供一種構建數據集的方法,其能夠降低制作數據集的時間與經濟成本,增強構建數據集的魯棒性,由此提高數據集的質量。


    技術實現思路

    1、為了至少解決如上所提到的一個或多個技術問題,本申請在如下的多個方面中提出了一種構建數據集的方案。

    2、在第一方面中,本申請提供一種構建數據集的方法,其特征在于,包括:獲取原始數據集的推理路徑;提取所述推理路徑中的主路徑和剩余路徑;根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據;以及合并所有增強數據作為新的數據集。

    3、在一些實施例中,其中獲取原始數據集的推理路徑包括:對原始數據集進行采樣,獲取原始推理路徑;以及從原始推理路徑中提取正確的路徑,以生成推理路徑。

    4、在另一些實施例中,其中提取推理路徑中的主路徑和剩余路徑包括:提取重復次數最多的推理路徑作為所述主路徑;對除所述主路徑以外的所述推理路徑執行去重操作;以及提取所述去重操作后的推理路徑作為剩余路徑。

    5、在又一些實施例中,其中所述增強數據包括第一增強數據、第二增強數據和第三增強數據,其中根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據包括:對主路徑進行數據擾動,以生成主路徑答案和所述第一增強數據;校驗所述剩余路徑,以生成標準對比答案;將所述主路徑答案與所述標準對比答案進行對比,以生成所述第二增強數據;以及篩選所述標準對比答案,以生成所述第三增強數據。

    6、在又一些實施例中,其中對主路徑進行數據擾動,以生成主路徑答案和所述第一增強數據包括:當擾動未改變主路徑答案時,保留該答案與該路徑作為增強數據;以及當擾動改變答案時,對更改后的內容進行推理,以生成未校驗答案作為該路徑答案。

    7、在又一些實施例中,其中當對更改后的內容進行推理失敗后,更換數據擾動方式,并重新推理,直至生成未校驗答案。

    8、在又一些實施例中,其中校驗所述剩余路徑,以生成標準對比答案包括:使用與主路徑相同的擾動方式對剩余路徑進行擾動;對擾動后的路徑進行推理,以保留推理成功的路徑;以及選擇編輯距離最大且答案相同的多條剩余路徑作為標準比對答案。

    9、在又一些實施例中,其中將所述主路徑答案與所述標準對比答案進行對比,以生成所述第二增強數據包括:將所述未校驗答案與標準比對答案進行比對;以及保留一致性答案與該路徑,以生成增強數據。

    10、在又一些實施例中,其中篩選所述標準對比答案,以生成所述第三增強數據包括保留所述校驗過程中得到的正確答案和對應的剩余路徑。

    11、在第二方面中,本申請提供一種計算機可讀存儲介質,其上存儲有用于構建數據集的計算機程序指令,該計算機程序指令被一個或多個處理器執行時,使得實現根據第一方面任意一項所述的方法。

    12、在第三方面中,本申請提供一種用于構建數據集的設備,包括:處理器;存儲器,其上存儲有用于構建數據集的計算機指令,當所述計算機指令由處理器執行時,使得實現根據第一方面任意一項所述的方法。

    13、通過如上多個方面及實施例中所提供的一種構建數據集的方法、設備和計算機可讀存儲介質,本申請的方案通過獲取推理路徑,能夠自動構建數據集。進一步,在一些實施例中,通過對推理路徑進行擾動,可以增強構建數據集的魯棒性。更進一步地,在一些實施例中,通過推理路徑之間的校驗和對比,可以提高數據集的質量。

    本文檔來自技高網...

    【技術保護點】

    1.一種構建數據集的方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,其中獲取原始數據集的推理路徑包括:

    3.根據權利要求1所述的方法,其特征在于,其中提取所述推理路徑中的主路徑和剩余路徑包括:

    4.根據權利要求1所述的方法,其特征在于,其中所述增強數據包括第一增強數據、第二增強數據和第三增強數據,其中根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據包括:

    5.根據權利要求4所述的方法,其特征在于,其中對主路徑進行數據擾動,以生成主路徑答案和所述第一增強數據包括:

    6.根據權利要求5所述的方法,其特征在于,其中當對更改后的內容進行推理失敗后,更換數據擾動方式,并重新推理,直至生成未校驗答案。

    7.根據權利要求4所述的方法,其特征在于,其中校驗所述剩余路徑,以生成標準對比答案包括:

    8.根據權利要求5所述的方法,其特征在于,其中將所述主路徑答案與所述標準對比答案進行對比,以生成所述第二增強數據包括:

    9.根據權利要求7所述的方法,其特征在于,其中篩選所述標準對比答案,以生成所述第三增強數據包括保留所述校驗過程中得到的正確答案和對應的剩余路徑。

    10.一種計算機可讀存儲介質,其上存儲有用于構建數據集的計算機程序指令,該計算機程序指令被一個或多個處理器執行時,使得實現根據權利要求1-9中任意一項所述的方法。

    11.一種用于構建數據集的設備,包括:

    ...

    【技術特征摘要】

    1.一種構建數據集的方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,其中獲取原始數據集的推理路徑包括:

    3.根據權利要求1所述的方法,其特征在于,其中提取所述推理路徑中的主路徑和剩余路徑包括:

    4.根據權利要求1所述的方法,其特征在于,其中所述增強數據包括第一增強數據、第二增強數據和第三增強數據,其中根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據包括:

    5.根據權利要求4所述的方法,其特征在于,其中對主路徑進行數據擾動,以生成主路徑答案和所述第一增強數據包括:

    6.根據權利要求5所述的方法,其特征在于,其中當對更改后的內容進行推理失敗后,更換數據擾動方式,并...

    【專利技術屬性】
    技術研發人員:周熠陳葉增陳醉董翔
    申請(專利權)人:上海處理器技術創新中心
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产成人无码精品久久久免费 | 午夜无码性爽快影院6080| 国产av无码专区亚洲av果冻传媒 | 中文成人无码精品久久久不卡| 亚洲AV无码国产丝袜在线观看| 国产精品无码一区二区三区在| 国产成年无码久久久免费| 精品久久久久久久无码久中文字幕 | 亚洲精品无码日韩国产不卡?V| 日韩人妻精品无码一区二区三区 | 国产乱子伦精品无码专区| 亚洲中文字幕无码久久2020| 国产AV无码专区亚洲Av| 日韩精品无码Av一区二区| 午夜无码性爽快影院6080| 亚洲动漫精品无码av天堂| 国产激情无码一区二区三区| 加勒比无码一区二区三区| JAVA性无码HD中文| 久久久久亚洲AV无码专区首| 人妻无码久久中文字幕专区 | 亚洲欧洲自拍拍偷午夜色无码| 无码丰满熟妇浪潮一区二区AV| 亚洲中文久久精品无码1| 无码国产精品一区二区免费3p| 免费无码又爽又刺激网站直播| 国产成人无码网站| 少妇无码?V无码专区在线观看| 成人无码区免费视频观看| 亚洲av无码有乱码在线观看| 人妻少妇精品无码专区| 亚洲日韩av无码中文| 伊人久久精品无码麻豆一区| 亚洲6080yy久久无码产自国产| 亚洲精品无码av中文字幕| 亚洲AV色无码乱码在线观看| 亚无码乱人伦一区二区| 日韩久久无码免费毛片软件| 亚洲精品无码久久久| 国产成人AV一区二区三区无码| 无码专区狠狠躁躁天天躁|