語言模型訓練方法、設備、存儲介質以及產品技術

技術編號：44403644 閱讀：2 留言：0更新日期：2025-02-25 10:17

本申請公開了一種語言模型訓練方法、設備、存儲介質以及產品，涉及自然語言處理技術領域，方法包括：向各所述第二設備分別發(fā)送所述語言模型，以供各所述第二設備采用對應的本地私有數(shù)據(jù)對所述語言模型進行訓練，得到各所述第二設備對應的代理模型；接收各所述第二設備分別發(fā)送的所述代理模型，并基于模因算法和各所述代理模型進行模型聚合，得到聚合模型，將所述聚合模型確定為新的語言模型；以此迭代，直至滿足預設訓練結束條件，獲得訓練完成的語言模型。如此，可以在保護數(shù)據(jù)所有者的數(shù)據(jù)隱私的條件下，提高模型訓練效率。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本申請涉及自然語言處理，尤其涉及一種語言模型訓練方法、設備、存儲介質以及產品。

技術介紹

1、隨著自然語言處理領域中語言表示模型的相關技術的發(fā)展，越來越多的研究人員試圖將這些大型模型應用于bionlp(biomedical?natural?language?processing，生物醫(yī)學自然語言處理)。然而，隨著隱私保護需求的不斷增長和《通用數(shù)據(jù)保護條例》的出臺，收集生物醫(yī)學數(shù)據(jù)變得越來越困難。作為解決方案，聯(lián)邦學習近年來正在興起。在聯(lián)邦學習框架中，數(shù)據(jù)所有者不需要共享私人數(shù)據(jù)，也大大降低了隱私暴露的風險。

2、目前，已有許多研究者嘗試將聯(lián)邦學習應用于生物醫(yī)學自然語言處理領域。然而，現(xiàn)有的相關技術大多只使用簡單的模型，如svm(support?vector?machine，支持向量機)、邏輯回歸或一些簡單的神經網絡模型，導致模型訓練效率不高。

3、因此，如何在保護數(shù)據(jù)所有者的數(shù)據(jù)隱私的條件下，提高模型訓練效率是目前亟待解決的一個問題。

4、上述內容僅用于輔助理解本申請的技術方案，并不代表承認上述內容是現(xiàn)有技術。

技術實現(xiàn)思路

1、本申請的主要目的在于提供一種語言模型訓練方法、設備、存儲介質以及計算機程序產品，旨在解決如何在保護數(shù)據(jù)所有者的數(shù)據(jù)隱私的條件下，提高模型訓練效率的技術問題。

2、為實現(xiàn)上述目的，本申請?zhí)岢鲆环N語言模型訓練方法，所述第一設備與各個第二設備分別通信連接，所述第一設備部署待訓練的語言模型，所述的方法包括：

<p>3、向各所述第二設備分別發(fā)送所述語言模型，以供各所述第二設備采用對應的本地私有數(shù)據(jù)對所述語言模型進行訓練，得到各所述第二設備對應的代理模型；

4、接收各所述第二設備分別發(fā)送的所述代理模型，并基于模因算法和各所述代理模型進行模型聚合，得到聚合模型，將所述聚合模型確定為新的語言模型；

5、返回執(zhí)行向各所述第二設備分別發(fā)送所述語言模型，以供各所述第二設備采用對應的本地私有數(shù)據(jù)對所述語言模型進行訓練，得到各所述第二設備對應的代理模型的步驟，直至滿足預設訓練結束條件，獲得訓練完成的語言模型。

6、可選地，所述基于模因算法和各所述代理模型進行模型聚合，得到聚合模型的步驟包括：

7、基于所述模因算法和各所述代理模型，確定出若干個父代模型；

8、基于所述模因算法對所述若干個父代模型執(zhí)行遺傳操作，得到若干個子代模型；

9、將所述若干個子代模型確定為新的若干個父代模型；

10、返回執(zhí)行基于所述模因算法對所述若干個父代模型執(zhí)行遺傳操作，得到若干個子代模型的步驟，直至滿足預設遺傳停止條件，獲得所述聚合模型。

11、可選地，所述基于所述模因算法對所述若干個父代模型執(zhí)行遺傳操作，得到若干個子代模型的步驟包括：

12、基于所述模因算法，獲取所述若干個父代模型各自對應的模型參數(shù)；

13、基于所述若干個父代模型各自對應的模型參數(shù)進行復制，得到子代模型參數(shù)，以基于所述子代模型參數(shù)構建所述若干個子代模型。

14、可選地，所述基于所述模因算法對所述若干個父代模型執(zhí)行遺傳操作，得到若干個子代模型的步驟包括：

15、基于所述模因算法，獲取所述若干個父代模型各自對應的模型參數(shù)；

16、基于預設的交叉模型層數(shù)和所述若干個父代模型各自對應的模型參數(shù)進行算術交叉，得到子代模型參數(shù)，以基于所述子代模型參數(shù)構建所述若干個子代模型。

17、可選地，所述基于所述模因算法對所述若干個父代模型執(zhí)行遺傳操作，得到若干個子代模型的步驟包括：

18、基于所述模因算法，獲取所述若干個父代模型各自對應的模型參數(shù)；

19、基于所述若干個父代模型各自對應的模型參數(shù)進行線性變換，得到子代模型參數(shù)，以基于所述子代模型參數(shù)構建所述若干個子代模型。

20、此外，為實現(xiàn)上述目的，本申請?zhí)岢隽硪环N語言模型訓練方法，應用于多個第二設備中的任一個，各所述第二設備分別與第一設備通信連接，所述第一設備部署待訓練的語言模型，所述的方法包括：

21、接收所述第一設備發(fā)送的所述語言模型，采用對應的本地私有數(shù)據(jù)對所述語言模型進行訓練，得到對應的代理模型；

22、將所述代理模型發(fā)送至所述第二設備，以供所述第一設備基于模因算法和各所述代理模型進行模型聚合，得到聚合模型，并將所述聚合模型作為新的語言模型；

23、返回執(zhí)行接收所述第一設備發(fā)送的所述語言模型，采用對應的本地私有數(shù)據(jù)對所述語言模型進行訓練，得到對應的代理模型的步驟，直至滿足預設訓練結束條件，以供所述第一設備獲得訓練完成的語言模型。

24、可選地，所述接收所述第一設備發(fā)送的所述語言模型，采用對應的本地私有數(shù)據(jù)對所述語言模型進行訓練，得到對應的代理模型的步驟包括：

25、接收所述第一設備發(fā)送的所述語言模型，采用對應的本地私有數(shù)據(jù)對所述語言模型進行局部訓練，得到若干個局部模型；

26、基于所述若干個局部模型各自的模型效果進行局部搜索，得到模型效果最優(yōu)的目標局部模型，并將所述目標局部模型確定為所述代理模型。

27、此外，為實現(xiàn)上述目的，本申請還提出一種語言模型訓練設備，所述設備包括：存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述計算機程序配置為實現(xiàn)如上文所述的語言模型訓練方法的步驟。

28、此外，為實現(xiàn)上述目的，本申請還提出一種存儲介質，所述存儲介質為計算機可讀存儲介質，所述存儲介質上存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上文所述的語言模型訓練方法的步驟。

29、此外，為實現(xiàn)上述目的，本申請還提供一種計算機程序產品，所述計算機程序產品包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上文所述的語言模型訓練方法的步驟。

30、本申請?zhí)岢龅囊粋€或多個技術方案，至少具有以下技術效果：

31、通過在第一設備部署待訓練的語言模型，第一設備與各個第二設備分別通信連接，第二設備接收第一設備發(fā)送的語言模型，并采用本地私有數(shù)據(jù)對語言模型分別進行訓練，并將訓練后的語言模型發(fā)送至第一設備進行，模型聚合，從而實現(xiàn)在模型訓練過程中保護第二設備的數(shù)據(jù)隱私；其中，在每一輪訓練過程中，向各所述第二設備分別發(fā)送所述語言模型，以供各所述第二設備采用對應的本地私有數(shù)據(jù)對所述語言模型進行訓練，得到各所述第二設備對應的代理模型，每個第二設備需要從采用本地私有數(shù)據(jù)訓練后的多個語言模型中選擇出代理模型，以降低模型訓練時的計算成本；然后，第一設備接收各所述第二設備分別發(fā)送的所述代理模型，并基于模因算法和各所述代理模型進行模型聚合，得到聚合模型，將所述聚合模型確定為新的語言模型；返回執(zhí)行向各所述第二設備分別發(fā)送所述語言模型，以供各所述第二設備采用對應的本地私有數(shù)據(jù)對所述語言模型進行訓練，得到各所述第二設備對應的代理模型的步驟，直至滿足預設訓練結束條件，獲得訓練完成本文檔來自技高網...

【技術保護點】

1.一種語言模型訓練方法，其特征在于，應用于第一設備，所述第一設備與各個第二設備分別通信連接，所述第一設備部署待訓練的語言模型，所述的方法包括：

2.如權利要求1所述的方法，其特征在于，所述基于模因算法和各所述代理模型進行模型聚合，得到聚合模型的步驟包括：

3.如權利要求2所述的方法，其特征在于，所述基于所述模因算法對所述若干個父代模型執(zhí)行遺傳操作，得到若干個子代模型的步驟包括：

4.如權利要求2所述的方法，其特征在于，所述基于所述模因算法對所述若干個父代模型執(zhí)行遺傳操作，得到若干個子代模型的步驟包括：

5.如權利要求2所述的方法，其特征在于，所述基于所述模因算法對所述若干個父代模型執(zhí)行遺傳操作，得到若干個子代模型的步驟包括：

6.一種語言模型訓練方法，其特征在于，應用于多個第二設備中的任一個，各所述第二設備分別與第一設備通信連接，所述第一設備部署待訓練的語言模型，所述的方法包括：

7.如權利要求6所述的方法，其特征在于，所述接收所述第一設備發(fā)送的所述語言模型，采用對應的本地私有數(shù)據(jù)對所述語言模型進行訓練，得

8.一種語言模型訓練設備，其特征在于，所述設備包括：存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述計算機程序配置為實現(xiàn)如權利要求1至7中任一項所述的語言模型訓練方法的步驟。

9.一種存儲介質，其特征在于，所述存儲介質為計算機可讀存儲介質，所述存儲介質上存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至7中任一項所述的語言模型訓練方法的步驟。

10.一種計算機程序產品，其特征在于，所述計算機程序產品包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至7中任一項所述的語言模型訓練方法的步驟。

...

【技術特征摘要】

2.如權利要求1所述的方法，其特征在于，所述基于模因算法和各所述代理模型進行模型聚合，得到聚合模型的步驟包括：

3.如權利要求2所述的方法，其特征在于，所述基于所述模因算法對所述若干個父代模型執(zhí)行遺傳操作，得到若干個子代模型的步驟包括：

4.如權利要求2所述的方法，其特征在于，所述基于所述模因算法對所述若干個父代模型執(zhí)行遺傳操作，得到若干個子代模型的步驟包括：

5.如權利要求2所述的方法，其特征在于，所述基于所述模因算法對所述若干個父代模型執(zhí)行遺傳操作，得到若干個子代模型的步驟包括：

6.一種語言模型訓練方法，其特征在于，應用于多個第二設備中的任一個，各所述第二設備分別與第一設備通信連接，...

【專利技術屬性】
技術研發(fā)人員：姜迪，
申請(專利權)人：深圳前海微眾銀行股份有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術