System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码无套少妇毛多69XXX,国产乱子伦精品免费无码专区,亚洲AV无码日韩AV无码导航
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于大語言模型的中文超長文本的分類方法技術

    技術編號:41987230 閱讀:25 留言:0更新日期:2024-07-12 12:15
    本發明專利技術公開了一種基于大語言模型的中文超長文本的分類方法,涉及超長文本處理技術領域,包括以下步驟:(1)獲取中文超長文本分類數據以及對應的分類標簽;(2)對中文超長文本數據預處理;(3)定義大語言模型的下游任務模型;(4)對中文長文本使用大語言模型BERT進行微調;(5)用訓練好的模型權重對中文超長文本預測類別。本發明專利技術的基于大語言模型的中文超長文本的分類方法在工程應用中可顯著提高中文超長文本分類的準確率。

    【技術實現步驟摘要】

    本專利技術涉及超長文本處理,具體是涉及一種基于大語言模型的中文超長文本的分類方法


    技術介紹

    1、隨著互聯網的發展,人們在日常生活中產生的文本數據量越來越大,網絡上的文本數據日益增長,采用文本分類技術對海量數據進行科學地組織和管理顯得尤為重要。文本分類常用于數字化圖書館、郵件過濾等領域,為文本資源的查詢、檢索提供了有力支撐,是當前的主要研究熱點之一。如何高效地對這些文本進行分類成為了一個重要的問題。目前,已有一些研究者提出了一些基于傳統機器學習、深度學習等方法的文本分類技術,但這些方法存在一些問題,如對超長文本的處理能力不足、對文本語義理解能力不足等。

    2、許多基于傳統的機器學習和深度學習的文本分類方法只在特定的、清洗較為干凈的數據集上效果較好,但在實際工程應用中分類的準確率較低。

    3、現有技術中,具體存在以下兩個缺點:

    4、(1)中文文本長度過長,若每行文本長度為幾千,但是大語言模型bert的最大長度較短,模型加載數據時會直接刪除大部分數據,丟棄了大部分數據特征,留下的數據特征量較少,可能刪去的數據才是文本的關鍵內容,大大降低的文本分類的準確率。

    5、(2)部分模型在學術上對超長中文文本的魯棒性較好,但是在實際工程應用中效果較差,達不到應用標準。


    技術實現思路

    1、本專利技術為了解決現有模型處理中文超長文本分類準確率較低的問題,提出了一種基于大語言模型的中文超長文本分類的方法,旨在工程應用中提高中文超長文本分類的準確率。

    >2、為了實現上述目的,本專利技術所述的方法包括以下步驟:

    3、(1)獲取中文超長文本分類數據以及對應的分類標簽;

    4、(2)對中文超長文本數據預處理;

    5、(3)定義大語言模型的下游任務模型;

    6、(4)對中文長文本使用大語言模型bert進行微調;

    7、(5)用訓練好的模型權重對中文超長文本預測類別。

    8、進一步地,所述步驟(1)中,具體還包括:

    9、獲取所有的文本分類的中文數據,再將所有分類的數據打好標簽,放在規定的文件夾內,清洗好數據。

    10、進一步地,所述步驟(2)中,具體還包括:

    11、將分類好的每份pdf文件轉換成圖片并提高圖片的分辨率,最后再通過ocr識別成文字;

    12、在加載數據時,將每行數據截成小于等于最大長度的文本并賦予與原文本相同的標簽,每行文本與上下文重疊的長度設為截斷文本長度的一半;隨后對截斷后的每個片段進行tokenize,生成以下三個輸入:

    13、片段中每個字對應詞表中的唯一標識;

    14、第一個句子和特殊符號的位置是0,第二個句子的位置是1;

    15、不足每行最大長度的位置為0,其他位置為1,為1的參與注意力計算。

    16、進一步地,所述步驟(3)中,具體還包括:

    17、在下游任務模型中定義一個全連接層,將bert輸出的向量維度轉為類別數;

    18、對長文本中截斷后的多個子句的embedding做循環,用bert語言模型對每個子句提取特征,獲取cls,所述cls為輸入文本中第一個詞的詞向量,加入到長文本的截斷后子句特征cls的集合,再對長文本所有子句cls集合取均值,作為該長文本最終cls輸出;

    19、所有子句cls集合取均值的公式如下:

    20、

    21、式中:

    22、clsi表示每個長句中每個子句的第一個詞的詞向量;

    23、l為所有子句的長度;

    24、將長文本最開始的cls標識符輸出對應的特征向量輸入到一個二分類或n分類輸出層中做softmax進行分類;

    25、所述softmax進行分類公式如下:

    26、p(c|h)=softmax(wh)

    27、式中:

    28、c為標簽;

    29、h為cls的最終隱藏狀態表示;

    30、w是分類任務的參數矩陣;

    31、通過softmax函數將多分類的輸出值轉換為范圍在[0,1]和為1的概率分布。

    32、進一步地,所述步驟(4)中,具體還包括:

    33、加載大語言模型的權重,輸入預處理后的數據集,在每個epoch中,一個所述epoch指的是所有數據訓練一次,對每次迭代中長文本的子句cls集合取均值,作為該長文本最終cls輸出,然后將每個長文本的最開始的cls標識符輸出對應的特征向量輸入到一個二分類或n分類輸出層中做softmax進行分類;

    34、在分類任務中,額外全連接層的參數訓練時是從零開始學習的,預訓練bert模型中的所有參數都是微調的;

    35、計算每個epoch訓練數據和驗證數據的損失函數值和準確率,多個epoch結束后保存損失函數值最小的模型權重,預測時可直接使用該最優模型權重。

    36、進一步地,所述步驟(5)中,具體還包括:

    37、獲取步驟(4)中訓練完成的分類模型的權重,對預處理好的預測集進行分類,并計算數據集的平均準確率,準確率的公式如下:

    38、sum(t′=tl)/l

    39、式中:

    40、t’表示預測出的數據標簽;

    41、tl為數據初始標簽;

    42、l則為預測數據的總標簽數。

    43、與現有技術相比,本專利技術具有如下的有益效果:

    44、1、超長文本數據使用大語言模型訓練加載數據時,將每行數據截成小于模型最大長度的文本并賦予與原文本相同的標簽,bert提取長文本所有子句提取特征,相比之前的模型可以挖掘出長文本數據的所有特征,而不是丟棄許多重要的特征,大大提升了超長中文文本分類的準確率;

    45、2、文本輸入到大語言模型bert中,將句子開始的cls標識符輸出對應的特征向量,然后將這個特征向量輸入到一個二分類(或者是n分類)輸出層中做softmax進行分類。分類任務中全連接的參數是從零開始學習的,而預訓練bert模型中的所有參數都是微調的。

    本文檔來自技高網...

    【技術保護點】

    1.一種基于大語言模型的中文超長文本的分類方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的方法,其特征在于,所述步驟(1)中,包括:獲取所有的文本分類的中文數據,再將所有分類的數據打好標簽,放在規定的文件夾內,清洗好數據。

    3.根據權利要求1所述的方法,其特征在于,所述步驟(2)中,包括:

    4.根據權利要求1所述的方法,其特征在于,所述步驟(3)中,包括:

    5.根據權利要求1所述的方法,其特征在于,所述步驟(4)中,包括:

    6.根據權利要求1所述的方法,其特征在于,所述步驟(5)中,包括:

    【技術特征摘要】

    1.一種基于大語言模型的中文超長文本的分類方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的方法,其特征在于,所述步驟(1)中,包括:獲取所有的文本分類的中文數據,再將所有分類的數據打好標簽,放在規定的文件夾內,清洗好數據。

    3.根據權利要求1所述的...

    【專利技術屬性】
    技術研發人員:蔣舜陳廣強司家慧李書云
    申請(專利權)人:中徽建技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩AV无码中文无码不卡电影| 91久久九九无码成人网站| 成人年无码AV片在线观看| 亚洲精品无码你懂的网站| 国产成年无码AV片在线韩国| 亚洲国产AV无码一区二区三区| 精品无码中出一区二区| 亚洲av永久无码精品天堂久久| 国产高清无码视频| 亚洲av永久无码天堂网| 亚洲一区无码精品色| 亚洲精品天堂无码中文字幕| 国产做无码视频在线观看浪潮| 永久免费无码网站在线观看个| 亚洲成av人片天堂网无码】| 精品久久久无码21p发布| 久久久国产精品无码免费专区 | 中文无码亚洲精品字幕| 日韩人妻系列无码专区| 亚洲爆乳精品无码一区二区| 久久久久成人精品无码中文字幕| 日韩成人无码中文字幕| 东京热人妻无码人av| 午夜无码一区二区三区在线观看 | 色综合久久无码中文字幕| 精品一区二区三区无码视频| 丰满亚洲大尺度无码无码专线| 亚洲av无码专区在线| 亚洲中文字幕无码久久2020 | 亚洲AV无码乱码在线观看牲色 | 国产AV无码专区亚洲AVJULIA | 无码专区久久综合久中文字幕| 中文字幕乱码无码人妻系列蜜桃 | 免费无码成人AV在线播放不卡| 中文无码久久精品| 亚洲国产成人片在线观看无码| 无码aⅴ精品一区二区三区浪潮| 无码孕妇孕交在线观看| 人妻无码αv中文字幕久久琪琪布 人妻无码第一区二区三区 | 无码国产精品一区二区免费式直播| 无码AV岛国片在线播放|