System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 日韩美无码五月天,日日麻批免费40分钟无码,国精无码欧精品亚洲一区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    用于微調大語言模型的預處理文本的獲取方法及裝置制造方法及圖紙

    技術編號:44529065 閱讀:4 留言:0更新日期:2025-03-07 13:19
    本發明專利技術公開了一種用于微調大語言模型的預處理文本的獲取方法及裝置,涉及文本處理技術領域,主要目的在于解決現有用于微調大語言模型的預處理文本的獲取的問題。包括:確定待處理大語言模型的預處理任務,并對所述預處理任務進行量化統計,得到量化要素,所述預處理任務用于表征所述大語言模型適用于特定語言處理場景的內容;調取與所述預處理任務匹配的會話模板,并基于所述量化要素、所述會話模板確定目標檢索領域的檢索約束條件;響應于文本對象檢索指令,按照所述檢索約束條件在所述目標檢索領域搜索文本對象,并將搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本,以基于所述預處理文本對所述大語言模型進行微調。

    【技術實現步驟摘要】

    本專利技術涉及一種文本處理,特別是涉及一種用于微調大語言模型的預處理文本的獲取方法及裝置


    技術介紹

    1、隨著自然語言處理技術的快速發展,生成式預訓練大模型在一些特定任務或領域可能表現不佳,這時,通常需要使用作為預處理文本的微調語料對大模型進行微調訓練。其中,大模型(large?language?model,llm)微調語料的常見形式是“一問一答”的問答形式,通過問答實現多種任務,如生成大綱、生成摘要、文本續寫、提取關鍵詞、翻譯等。

    2、目前,現有預處理文本的生成通常包括從源語料中進行篩選,或者人工進行編寫,但是,從源語料中篩選出的預處理文本與處理任務存在較大誤差,使得預處理文本質量較差,無法保證大模型的場景實用性,并且人工編寫需要大量的人力資源,對工作人員的專業知識提出了較高要求,成本高,大大降低預處理文本獲取的有效性。


    技術實現思路

    1、有鑒于此,本專利技術提供一種用于微調大語言模型的預處理文本的獲取方法及裝置,主要目的在于解決現有用于微調大語言模型的預處理文本的獲取的問題。

    2、依據本專利技術一個方面,提供了一種用于微調大語言模型的預處理文本的獲取方法,包括:

    3、確定待處理大語言模型的預處理任務,并對所述預處理任務進行量化統計,得到量化要素,所述預處理任務用于表征所述大語言模型適用于特定語言處理場景的內容;

    4、調取與所述預處理任務匹配的會話模板,并基于所述量化要素、所述會話模板確定目標檢索領域的檢索約束條件;

    5、響應于文本對象檢索指令,按照所述檢索約束條件在所述目標檢索領域搜索文本對象,并將搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本,以基于所述預處理文本對所述大語言模型進行微調。

    6、進一步地,所述對所述預處理任務進行量化統計,得到量化要素包括:

    7、獲取所述預處理任務的歷史會話文本,并對所述歷史會話文本進行模板拆分,得到答案文本;

    8、確定所述答案文本中與所述預處理任務匹配的要素對象,并統計所述答案文本中所述要素對象的數量;

    9、基于所述要素對象、所述數量以及與所述要素對象匹配的預設要素條件生成量化要素。

    10、進一步地,所述基于所述量化要素、所述會話模板確定目標檢索領域的檢索約束條件包括:

    11、接收選取的目標檢索領域;

    12、按照所述會話模板提取所述量化要素的要素限定條件信息;

    13、基于所述目標檢索領域以及所述要素限定條件信息生成檢索約束條件。

    14、進一步地,所述確定待處理大語言模型的預處理任務包括:

    15、響應于文本生成指令,獲取預期進行大語言模型處理的預期目標;

    16、按照不同任務類型查詢與所述預期目標匹配的預處理任務,不同的任務類型匹配不同的預處理任務。

    17、進一步地,所述將搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本包括:

    18、按照所述預處理任務解析所述會話模板的問題模板以及答案模板;

    19、抽取所述文本對象中與所述問題模板匹配的問題文本,以及與答案模板匹配的答案文本;

    20、將所述問題文本以及所述答案文本按照所述會話模板進行組合,得到預處理文本。

    21、進一步地,所述搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本之前,所述方法還包括:

    22、獲取與所述預處理任務匹配的敏感信息;

    23、若所述文本對象中存在所述敏感信息,則刪除所述文本對象中的敏感信息,或通過預設字符替換所述文本對象中的敏感信息,以將刪除所述敏感信息或替換所述敏感信息后的文本對象進行整合。

    24、進一步地,所述方法還包括:

    25、確定所述大語言模型的編譯格式;

    26、若所述預處理文本的文本格式不匹配所述編輯格式,則按照所述編譯格式對所述預處理文本進行轉換,以基于轉換后的所述預處理文本進行預處理。

    27、依據本專利技術另一個方面,提供了一種用于微調大語言模型的預處理文本的獲取裝置,包括:

    28、確定模塊,用于確定待處理大語言模型的預處理任務,并對所述預處理任務進行量化統計,得到量化要素,所述預處理任務用于表征所述大語言模型適用于特定語言處理場景的內容;

    29、調取模塊,用于調取與所述預處理任務匹配的會話模板,并基于所述量化要素、所述會話模板確定目標檢索領域的檢索約束條件;

    30、整合模塊,用于響應于文本對象檢索指令,按照所述檢索約束條件在所述目標檢索領域搜索文本對象,并將搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本,以基于所述預處理文本對所述大語言模型進行微調。

    31、進一步地,所述確定模塊,具體用于獲取所述預處理任務的歷史會話文本,并對所述歷史會話文本進行模板拆分,得到答案文本;確定所述答案文本中與所述預處理任務匹配的要素對象,并統計所述答案文本中所述要素對象的數量;基于所述要素對象、所述數量以及與所述要素對象匹配的預設要素條件生成量化要素。

    32、進一步地,所述調取模塊,具體用于接收選取的目標檢索領域;按照所述會話模板提取所述量化要素的要素限定條件信息;基于所述目標檢索領域以及所述要素限定條件信息生成檢索約束條件。

    33、進一步地,所述確定模塊,具體還用于響應于文本生成指令,獲取預期進行大語言模型處理的預期目標;按照不同任務類型查詢與所述預期目標匹配的預處理任務,不同的任務類型匹配不同的預處理任務。

    34、進一步地,所述整合模塊,用于按照所述預處理任務解析所述會話模板的問題模板以及答案模板;抽取所述文本對象中與所述問題模板匹配的問題文本,以及與答案模板匹配的答案文本;將所述問題文本以及所述答案文本按照所述會話模板進行組合,得到預處理文本。

    35、進一步地,所述裝置還包括:

    36、獲取模塊,用于獲取與所述預處理任務匹配的敏感信息;

    37、刪除模塊,用于若所述文本對象中存在所述敏感信息,則刪除所述文本對象中的敏感信息,或通過預設字符替換所述文本對象中的敏感信息,以將刪除所述敏感信息或替換所述敏感信息后的文本對象進行整合。

    38、進一步地,所述確定模塊,還用于確定所述大語言模型的編譯格式;若所述預處理文本的文本格式不匹配所述編輯格式,則按照所述編譯格式對所述預處理文本進行轉換,以基于轉換后的所述預處理文本進行預處理。

    39、根據本專利技術的又一方面,提供了一種存儲介質,所述存儲介質中存儲有至少一可執行指令,所述可執行指令使處理器執行如上述用于微調大語言模型的預處理文本的獲取方法對應的操作。

    40、根據本專利技術的再一方面,提供了一種終端,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;

    41、所述存儲器用于存放至少一可執行指令,所述可執行本文檔來自技高網...

    【技術保護點】

    1.一種用于微調大語言模型的預處理文本的獲取方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述對所述預處理任務進行量化統計,得到量化要素包括:

    3.根據權利要求2所述的方法,其特征在于,所述基于所述量化要素、所述會話模板確定目標檢索領域的檢索約束條件包括:

    4.根據權利要求1所述的方法,其特征在于,所述確定待處理大語言模型的預處理任務包括:

    5.根據權利要求1所述的方法,其特征在于,所述將搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本包括:

    6.根據權利要求1所述的方法,其特征在于,所述搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本之前,所述方法還包括:

    7.根據權利要求1所述的方法,其特征在于,所述方法還包括:

    8.一種用于微調大語言模型的預處理文本的獲取裝置,其特征在于,包括:

    9.一種存儲介質,所述存儲介質中存儲有至少一可執行指令,所述可執行指令使處理器執行如權利要求1-7中任一項所述的用于微調大語言模型的預處理文本的獲取方法對應的操作。

    10.一種終端,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;

    ...

    【技術特征摘要】

    1.一種用于微調大語言模型的預處理文本的獲取方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述對所述預處理任務進行量化統計,得到量化要素包括:

    3.根據權利要求2所述的方法,其特征在于,所述基于所述量化要素、所述會話模板確定目標檢索領域的檢索約束條件包括:

    4.根據權利要求1所述的方法,其特征在于,所述確定待處理大語言模型的預處理任務包括:

    5.根據權利要求1所述的方法,其特征在于,所述將搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本包括:

    6.根據權利要求1所述的方法,...

    【專利技術屬性】
    技術研發人員:朱紫薇劉丹丹劉嘉
    申請(專利權)人:同方知網數字出版技術股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲无码一区二区三区| 久久男人Av资源网站无码软件| 欲色aV无码一区二区人妻| 毛片无码免费无码播放| 日韩少妇无码一区二区三区 | 亚洲Av永久无码精品三区在线| 久久无码专区国产精品| 无码人妻久久一区二区三区蜜桃| 无码人妻丰满熟妇区五十路百度| 免费看国产成年无码AV片| 亚洲AV日韩AV永久无码下载| 国模无码视频一区| 蜜桃无码一区二区三区| 曰韩精品无码一区二区三区| 色欲AV永久无码精品无码 | 中日韩精品无码一区二区三区 | 亚洲va中文字幕无码久久| 日韩AV片无码一区二区不卡| 久久久久亚洲AV无码网站| 中文字幕精品无码亚洲字| 无码视频一区二区三区| 亚洲精品无码中文久久字幕| 免费无码中文字幕A级毛片| 四虎影视无码永久免费| 无码人妻一区二区三区精品视频| 无码熟妇人妻av| 中文字幕无码不卡免费视频| 18禁免费无码无遮挡不卡网站| 亚洲AV永久无码区成人网站| 高h纯肉无码视频在线观看| 国产成A人亚洲精V品无码| 国产亚洲AV无码AV男人的天堂| 黑人无码精品又粗又大又长 | 亚洲日韩av无码| 国产成人无码一二三区视频| 国产亚洲人成无码网在线观看| 亚洲中文字幕无码不卡电影| 亚洲AV无码乱码在线观看富二代| 国产在线拍揄自揄拍无码| 免费无码中文字幕A级毛片| 中文字幕无码成人免费视频 |