【技術實現步驟摘要】
本專利技術屬于文本分類,具體地,涉及一種基于情景學習的長文檔多維度文本分類方法及系統,尤其是一種基于情景學習的自然語言處理的長文檔多維度文本分類方法。
技術介紹
1、文本分類任務是指將預定義的類別標簽賦值給輸入文本序列。文本分類任務處理過程大體可以分解為兩個步驟,首先基于神經網絡模型提取文本序列的特征信息,其次將文本特征信息傳遞給分類器,分類器輸出最終的類別標簽。在文本分類技術發展歷史中,bert及其變體,如roberta等模型,是一個重要節點。bert采用pre-training&fine-tuning的范式處理文本分類任務,在pre-training階段,bert通過無監督方式學習海量文本數據,然后在處理特定的下游文本分類任務時,再以一定數量的人工標注數據fine-tuning模型。該模型范式促使文本分類任務取得了重大的發展,但是依賴人工構建大量的訓練數據,在工業生產環境中,高質量訓練數據這一條件往往很難滿足。
2、隨機文本分類技術的進一步發展,gpt3提出了文本生成(text?generat?ion)方式統一處理各種nlp任務。由于gpt3擁有巨大的參數量、以及經過海量數據的預訓練,gpt3等大規模語言模型存儲了海量知識,已經擁有一定的語義理解、邏輯推理等能力,只需向gpt3等大規模語言模型輸入prompt指令,模型即能以文本生成方式輸出用戶預期結果。
3、情景學習是指在prompt指令構建過程中,插入與用戶問題相關的若干示例對<input,output>,這些示例對給語言模型回
4、雖然情景學習的研究結果表明,基于情景學習的文本分類任務解決方法,已經可以匹配fine-tuning范式的模型預測效果。但在長文檔分類任務中,受限于語言模型最長輸入的限制,如gpt3的最大輸入長度為4096,情景學習的效果受到了很大的限制。并且在多維度場景中,例如對一個長技術文檔,需要從廠商、技術、行業等多個維度,對技術文本進行分類,不僅增加了解決任務的難度,而且進一步降低了語言模型最長輸入的有效長度。這對如何基于情景學習處理長文檔多維度文本分類任務提出了挑戰。
5、專利文獻《對長文本網絡信息進行層級分類的方法、系統和服務器》(cn118535728a)提出的對長文本網絡信息進行層級分類的方法是先對長文本進行數據清洗預處理,計算效率相對較低,且沒有優化標注。
技術實現思路
1、針對現有技術中的缺陷,本專利技術的目的是提供一種基于情景學習的長文檔多維度文本分類方法及系統。
2、根據本專利技術提供的一種基于情景學習的長文檔多維度文本分類方法,包括:
3、模版構建步驟:構建查詢指令模版;
4、標注構建步驟:根據查詢指令模版構建人工標注的訓練、開發、測試數據集;
5、編碼步驟:根據標注訓練編碼器;
6、分類判斷步驟:基于語言模型,進行判斷分類;
7、采樣策略構建步驟:根據分類結果構建相關訓練樣本采樣策略;
8、推理步驟:基于查詢指令模版進行長文檔標簽類別推理。
9、優選地,所述指令模版對多維度文本分類任務進行單獨的描述,包括任務描述xdesc、示例樣本demonstration和文檔摘要xabst。
10、所述任務描述xdesc描述文本分類任務的要求、標簽集合和含義說明,包括文本分類任務的要求、不同維度標簽集合和任務說明信息。
11、所述標注構建步驟包括:
12、步驟s2.1:人工標記的訓練、測試數據,按照每類標簽15至30條進行標注;
13、步驟s2.2:長文檔純文本信息通過語言模型以問答摘要生成方式,轉換成長文檔的文檔摘要xabst;
14、步驟s2.3:將語料集合按照6:2:2的比例隨機劃分為訓練、開發、測試數據集。
15、所述標簽包括長文檔真實標簽集合labels和長文檔純文本信息xdoc。
16、所述長文檔純文本信息通過文件格式轉換或者文檔文本信息抽取方式獲得。
17、所述步驟s2.2中通過語言模型,將<labels,xdoc>數據對轉換為<labels,xabst>數據對。
18、優選地,所述編碼步驟包括:
19、步驟s3.1:編碼器在自定義數據集中全量微調訓練,取cls編碼對應的隱向量將文檔摘要xabst映射為vabst文檔摘要向量;
20、步驟s3.2:對輸入文本序列進行編碼,將編碼向量與全量訓練樣本進行查詢,獲取最相關的n條訓練樣本示例;
21、步驟s3.3:數據對i、j∈{1,n}中,任意兩個文檔摘要之間的相似度,根據labelsi真實值進行確定;
22、步驟s3.4:按照bert?fine-tuning參數微調訓練腳本,訓練編碼器,直至模型收斂,保存模型權重,并保存文檔摘要向量及其相關的元數據進向量數據庫。
23、所述編碼器的規模為base規模或者large規模,模型架構采用bert模型、roberta模型或encoder模型作為基準模型。
24、優選地,所述分類判斷步驟中語言模型先收集文檔摘要xabst中的局部性關鍵詞信息,并全局地分析文本特征,最終再作類別標簽預測,包括:
25、步驟s4.1:語言模型從文檔摘要中抽取關鍵詞信息的指令模版,生成文本特征分析的指令模版;
26、所述語言模型采用api接口調用或本地部署的方式,模型參數量選擇7b至130b。
27、步驟s4.2:將文檔摘要xabst作為輸入指令的組成部分,基于指令模版,抽取文檔摘要xabst包含的關鍵詞信息,輸出文本特征分析過程;
28、所述分析過程中,對于每一個<labels,xabst>樣本對,得到<文檔摘要xabst,關鍵詞列表keywords,文本特征分析reasoning,真實標簽集合labels>樣本對。
29、步驟s4.3:將所有數據對以元數據方式存儲進向量數據庫。
30、優選地,所述采樣策略構建步驟中查詢相關度最高的n個數據對并從向量數據庫中取出對應的元數據,按照相關性從低至高排序依次組裝成demonstration部分。
31、所述元數據包括數據信息。
32、所述推理步驟中將xdesc、demonstration、xabst依次組裝進查詢指令模版,生成查詢指令,并傳遞到語言模型,得到語言模型輸出的類別標簽預測文本,清洗得到預定義標簽集合中的類別標簽。
33、根據本專利技術提供的一種基于情景學習的長文檔多維度文本分類系統,包括:
34、模版構建模塊:構建查詢指令模版;
35、標注構建模塊:根據查詢指令模版構建人工標注的訓練、開發、測試數據集;
...
【技術保護點】
1.一種基于情景學習的長文檔多維度文本分類方法,其特征在于,包括:
2.根據權利要求1所述的基于情景學習的長文檔多維度文本分類方法,其特征在于,所述指令模版對多維度文本分類任務進行單獨的描述,包括任務描述xdesc、示例樣本demonstration和文檔摘要xabst;
3.根據權利要求1所述的基于情景學習的長文檔多維度文本分類方法,其特征在于,所述編碼步驟包括:
4.根據權利要求1所述的基于情景學習的長文檔多維度文本分類方法,其特征在于,所述分類判斷步驟中語言模型先收集文檔摘要xabst中的局部性關鍵詞信息,并全局地分析文本特征,最終再作類別標簽預測,包括:
5.根據權利要求1所述的基于情景學習的長文檔多維度文本分類方法,其特征在于,所述采樣策略構建步驟中查詢相關度最高的N個數據對并從向量數據庫中取出對應的元數據,按照相關性從低至高排序依次組裝成demonstration部分;
6.一種基于情景學習的長文檔多維度文本分類系統,其特征在于,包括:
7.根據權利要求6所述的基于情景學習的長文檔多維度文本分類系
8.根據權利要求6所述的基于情景學習的長文檔多維度文本分類系統,其特征在于,所述編碼模塊包括:
9.根據權利要求6所述的基于情景學習的長文檔多維度文本分類系統,其特征在于,所述分類判斷模塊中語言模型先收集文檔摘要xabst中的局部性關鍵詞信息,并全局地分析文本特征,最終再作類別標簽預測,包括:
10.根據權利要求6所述的基于情景學習的長文檔多維度文本分類系統,其特征在于,所述采樣策略構建模塊中查詢相關度最高的N個數據對并從向量數據庫中取出對應的元數據,按照相關性從低至高排序依次組裝成demonstration部分;
...【技術特征摘要】
1.一種基于情景學習的長文檔多維度文本分類方法,其特征在于,包括:
2.根據權利要求1所述的基于情景學習的長文檔多維度文本分類方法,其特征在于,所述指令模版對多維度文本分類任務進行單獨的描述,包括任務描述xdesc、示例樣本demonstration和文檔摘要xabst;
3.根據權利要求1所述的基于情景學習的長文檔多維度文本分類方法,其特征在于,所述編碼步驟包括:
4.根據權利要求1所述的基于情景學習的長文檔多維度文本分類方法,其特征在于,所述分類判斷步驟中語言模型先收集文檔摘要xabst中的局部性關鍵詞信息,并全局地分析文本特征,最終再作類別標簽預測,包括:
5.根據權利要求1所述的基于情景學習的長文檔多維度文本分類方法,其特征在于,所述采樣策略構建步驟中查詢相關度最高的n個數據對并從向量數據庫中取出對應的元數據,按照相關性從低至高排序依次組裝成demonstration部分;
...【專利技術屬性】
技術研發人員:李仲,賀梓然,王曉龍,祝凱,安國成,戴軍,馬利民,
申請(專利權)人:上海華訊網絡系統有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。