System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲午夜无码AV毛片久久,无码粉嫩小泬无套在线观看,久久久g0g0午夜无码精品
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    數(shù)據(jù)處理方法、裝置、設備、存儲介質和程序產(chǎn)品制造方法及圖紙

    技術編號:44496416 閱讀:4 留言:0更新日期:2025-03-04 18:03
    本申請涉及一種數(shù)據(jù)處理方法、裝置、設備、存儲介質和程序產(chǎn)品。該方法包括:根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,得到全局索引表;對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表;根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集;各訓練數(shù)據(jù)索引集用于對待訓練模型進行模型訓練;各訓練數(shù)據(jù)在模型訓練中均勻分布,且每個訓練數(shù)據(jù)在各輪訓練中被選中的概率均相同。采用本方法能夠實現(xiàn)全局數(shù)據(jù)的均勻分布,降低訓練數(shù)據(jù)在訓練過程中出現(xiàn)數(shù)據(jù)偏差,提高模型的性能。

    【技術實現(xiàn)步驟摘要】

    本申請涉及人工智能,特別是涉及一種數(shù)據(jù)處理方法、裝置、設備、存儲介質和程序產(chǎn)品


    技術介紹

    1、隨著人工智能技術的發(fā)展,大規(guī)模機器學習模型因其強大的語言理解能力和廣泛的知識儲備,在多種領域中得到了廣泛引用。

    2、相關技術,在大規(guī)模機器學習模型的訓練過程中,例如,進行多語種數(shù)據(jù)的混合訓練,通常是對多語種數(shù)據(jù)在單個節(jié)點或小范圍內的數(shù)據(jù)進行打亂處理,并基于打亂后的多語種數(shù)據(jù)對進行模型訓練。

    3、然而,相關技術中對訓練數(shù)據(jù)打亂的方式,無法實現(xiàn)全局數(shù)據(jù)的均勻分布,導致訓練數(shù)據(jù)在訓練過程中出現(xiàn)數(shù)據(jù)偏差,影響模型的性能。


    技術實現(xiàn)思路

    1、基于此,有必要針對上述技術問題,提供一種數(shù)據(jù)處理方法、裝置、設備、存儲介質和程序產(chǎn)品,能夠實現(xiàn)全局數(shù)據(jù)的均勻分布,降低訓練數(shù)據(jù)在訓練過程中出現(xiàn)數(shù)據(jù)偏差,提高模型的性能。

    2、第一方面,本申請實施例提供了一種數(shù)據(jù)處理方法,該方法包括:

    3、根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,得到全局索引表;

    4、對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表;

    5、根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集;各訓練數(shù)據(jù)索引集用于對待訓練模型進行模型訓練;各訓練數(shù)據(jù)在模型訓練中均勻分布,且每個訓練數(shù)據(jù)在各輪訓練中被選中的概率均相同。

    6、在其中一個實施例中,根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:

    7、對各訓練數(shù)據(jù)文件中的訓練數(shù)據(jù)依次進行掃描,按照掃描順序對各訓練數(shù)據(jù)文件中的訓練數(shù)據(jù)進行排序,得到每個訓練數(shù)據(jù)的排序編號;

    8、將各訓練數(shù)據(jù)的排序編號作為對應訓練數(shù)據(jù)的唯一索引。

    9、在其中一個實施例中,根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:

    10、獲取各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)的數(shù)據(jù)特征信息;數(shù)據(jù)特征信息為用于描述和區(qū)分不同訓練數(shù)據(jù)的數(shù)據(jù)屬性;

    11、根據(jù)各訓練數(shù)據(jù)的數(shù)據(jù)特征信息,生成每個訓練數(shù)據(jù)的唯一索引。

    12、在其中一個實施例中,對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表,包括:

    13、獲取全局索引表對應的隨機參數(shù);隨機參數(shù)用于指定隨機數(shù)生成的范圍和條件;

    14、根據(jù)隨機參數(shù),對全局索引表中的索引進行隨機打亂處理,得到多個隨機數(shù);

    15、根據(jù)多個隨機數(shù),構建全局隨機索引表。

    16、在其中一個實施例中,根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集,包括:

    17、根據(jù)全局隨機索引表,生成各輪訓練的數(shù)據(jù)索引列表;

    18、根據(jù)各訓練數(shù)據(jù)文件,對各數(shù)據(jù)索引列表進行歸并處理,得到各輪訓練的訓練數(shù)據(jù)索引集。

    19、在其中一個實施例中,根據(jù)全局隨機索引表,生成各輪訓練的數(shù)據(jù)索引列表,包括:

    20、獲取各輪訓練的所需訓練數(shù)據(jù)量;

    21、按照全局隨機索引表中各索引的順序,依次從全局隨機索引表中提取與各所需訓練數(shù)據(jù)量匹配的索引;

    22、根據(jù)與各所需訓練數(shù)據(jù)量匹配的索引,生成各輪訓練的數(shù)據(jù)索引列表。

    23、在其中一個實施例中,根據(jù)各訓練數(shù)據(jù)文件,對各數(shù)據(jù)索引列表進行歸并處理,得到各輪訓練的訓練數(shù)據(jù)索引集,包括:

    24、對于任意一輪訓練,獲取當前訓練輪次的訓練數(shù)據(jù)索引集中各索引的所屬訓練數(shù)據(jù)文件;

    25、根據(jù)各所屬訓練數(shù)據(jù)文件,將屬于同一訓練數(shù)據(jù)文件的索引歸并,得到多個索引子列表;

    26、根據(jù)各索引子列表,確定當前訓練輪次的訓練數(shù)據(jù)索引集。

    27、在其中一個實施例中,全局索引表中包括各訓練數(shù)據(jù)的唯一索引與各訓練數(shù)據(jù)所在的訓練數(shù)據(jù)文件之間的映射關系;獲取當前訓練輪次的訓練數(shù)據(jù)索引集中各索引的所屬訓練數(shù)據(jù)文件,包括:

    28、對于訓練數(shù)據(jù)索引集中的任意一個索引,將映射關系中與索引相對應的訓練數(shù)據(jù)文件,確定為索引的所屬訓練數(shù)據(jù)文件。

    29、在其中一個實施例中,該方法還包括:

    30、對于各輪訓練中的當前訓練輪次,將當前訓練輪次的訓練數(shù)據(jù)索引集分配至待訓練模型對應的至少一個訓練節(jié)點,指示各訓練節(jié)點根據(jù)訓練數(shù)據(jù)索引集從訓練數(shù)據(jù)文件中讀取對應的訓練數(shù)據(jù)進行模型訓練。

    31、在其中一個實施例中,將當前訓練輪次的訓練數(shù)據(jù)索引集分配至待訓練模型對應的至少一個訓練節(jié)點,包括:

    32、獲取訓練數(shù)據(jù)索引集中索引子列表的列表數(shù)量;

    33、若各訓練節(jié)點的數(shù)量與列表數(shù)量相同,則向各訓練節(jié)點分別分配一個索引子列表;

    34、若各訓練節(jié)點的數(shù)量與列表數(shù)量不同,則根據(jù)預設的分配策略,向各訓練節(jié)點分配索引子列表。

    35、第二方面,本申請實施例還提供了一種數(shù)據(jù)處理裝置,該裝置包括:

    36、索引生成模塊,用于根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,得到全局索引表;

    37、索引打亂模塊,用于對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表;

    38、訓練集確定模塊,用于根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集;各訓練數(shù)據(jù)索引集用于對待訓練模型進行模型訓練;各訓練數(shù)據(jù)在模型訓練中均勻分布,且每個訓練數(shù)據(jù)在各輪訓練中被選中的概率均相同。

    39、第三方面,本申請實施例還提供了一種計算機設備。計算機設備包括存儲器和處理器,存儲器存儲有計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)上述第一方面中任一實施例中的步驟。

    40、第四方面,本申請實施例還提供了一種計算機可讀存儲介質。計算機可讀存儲介質,其上存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面中任一實施例中的步驟。

    41、第五方面,本申請實施例還提供了一種計算機程序產(chǎn)品。計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面中任一實施例中的步驟。

    42、本申請實施例提供的數(shù)據(jù)處理方法、裝置、設備、存儲介質和程序產(chǎn)品,根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,得到全局索引表,然后對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表,之后根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集,其中,各訓練數(shù)據(jù)索引集用于對待訓練模型進行模型訓練,各訓練數(shù)據(jù)在模型訓練中均勻分布,且每個訓練數(shù)據(jù)在各輪訓練中被選中的概率均相同。該方法中,對每個訓練數(shù)據(jù)生成唯一索引,該唯一索引可以使得每個訓練數(shù)據(jù)都能夠被唯一標識,便于對各訓練數(shù)據(jù)進行全局數(shù)據(jù)的統(tǒng)一管理。再根據(jù)各訓練數(shù)據(jù)的唯一索引生成全局索引表,在全局索引表中對各索引進行隨機打亂,由于隨機打亂的對象是數(shù)據(jù)索引,所以即使全局索引表中包括了全部訓練數(shù)據(jù)的索引,也使得數(shù)據(jù)體量大大減本文檔來自技高網(wǎng)...

    【技術保護點】

    1.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:

    2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各所述訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:

    3.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各所述訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:

    4.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述對所述全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表,包括:

    5.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述根據(jù)所述全局隨機索引表,確定所述待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集,包括:

    6.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)所述全局隨機索引表,生成所述各輪訓練的數(shù)據(jù)索引列表,包括:

    7.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)各所述訓練數(shù)據(jù)文件,對各所述數(shù)據(jù)索引列表進行歸并處理,得到所述各輪訓練的訓練數(shù)據(jù)索引集,包括:

    8.根據(jù)權利要求7所述的方法,其特征在于,所述全局索引表中包括各所述訓練數(shù)據(jù)的唯一索引與各所述訓練數(shù)據(jù)所在的訓練數(shù)據(jù)文件之間的映射關系;所述獲取當前訓練輪次的訓練數(shù)據(jù)索引集中各索引的所屬訓練數(shù)據(jù)文件,包括:

    9.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述方法還包括:

    10.根據(jù)權利要求9所述的方法,其特征在于,所述將當前訓練輪次的訓練數(shù)據(jù)索引集分配至所述待訓練模型對應的至少一個訓練節(jié)點,包括:

    11.一種數(shù)據(jù)處理裝置,其特征在于,所述裝置包括:

    12.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1至10中任一項所述的方法的步驟。

    13.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至10中任一項所述的方法的步驟。

    14.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至10中任一項所述的方法的步驟。

    ...

    【技術特征摘要】

    1.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:

    2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各所述訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:

    3.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各所述訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:

    4.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述對所述全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表,包括:

    5.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述根據(jù)所述全局隨機索引表,確定所述待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集,包括:

    6.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)所述全局隨機索引表,生成所述各輪訓練的數(shù)據(jù)索引列表,包括:

    7.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)各所述訓練數(shù)據(jù)文件,對各所述數(shù)據(jù)索引列表進行歸并處理,得到所述各輪訓練的訓練數(shù)據(jù)索引集,包括:

    8.根據(jù)權利要求7...

    【專利技術屬性】
    技術研發(fā)人員:請求不公布姓名
    申請(專利權)人:摩爾線程智能科技成都有限責任公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 色综合久久无码五十路人妻| 国产高清无码毛片| 91精品久久久久久无码| 6080YYY午夜理论片中无码| 精品人妻中文无码AV在线| 亚洲av无码国产精品色午夜字幕 | av区无码字幕中文色| 免费无码不卡视频在线观看| 中文字幕无码日韩专区免费| 老司机无码精品A| 人妻少妇看A偷人无码电影| av无码人妻一区二区三区牛牛| 69堂人成无码免费视频果冻传媒| 亚洲国产一二三精品无码| 亚洲精品人成无码中文毛片 | 亚洲精品无码AV人在线播放| 无码无套少妇毛多69XXX| 亚洲国产AV无码一区二区三区| 无码一区二区三区老色鬼| 亚洲精品色午夜无码专区日韩| heyzo专区无码综合| 精品亚洲成α人无码成α在线观看| 无码人妻丰满熟妇啪啪网站牛牛| 亚洲中文无码线在线观看| 精品久久久久久无码专区| 亚洲av成人无码久久精品| 无码GOGO大胆啪啪艺术| 无码国产精品一区二区免费模式 | 国产精品毛片无码| 午夜寂寞视频无码专区| 五月婷婷无码观看| 国产成人无码a区在线视频| AV无码小缝喷白浆在线观看 | 国产高清无码毛片| 中文字幕无码第1页| 国产在线拍偷自揄拍无码| 无码中文字幕日韩专区视频| 久久亚洲精品成人无码网站| 精品久久久无码21p发布| 西西人体444www大胆无码视频| 99久无码中文字幕一本久道|