System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 丰满爆乳无码一区二区三区,亚洲私人无码综合久久网,中文字幕无码视频手机免费看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于多任務(wù)和GlobalPointer模型的信息提取方法及系統(tǒng)技術(shù)方案

    技術(shù)編號:44330043 閱讀:6 留言:0更新日期:2025-02-18 20:37
    本發(fā)明專利技術(shù)涉及自然語言處理技術(shù)領(lǐng)域,公開了一種基于多任務(wù)和GlobalPointer模型的信息提取方法及系統(tǒng),包括以下步驟:構(gòu)建包括編碼器、GlobalPointer模型、分類器的信息提取模型;使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練;將文本輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過GlobalPointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;使用GlobalPointer模型提取實體向量之間的關(guān)系;通過分類器對實體向量進行分類;綜合實體向量、關(guān)系、分類結(jié)果,輸出三元組數(shù)據(jù)提取結(jié)果。本發(fā)明專利技術(shù)解決了現(xiàn)有技術(shù)推理效率低、運算消耗大的問題,且具有能夠提高標簽利用率、適用于海量數(shù)據(jù)處理的特點。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及自然語言處理,更具體的,涉及一種基于多任務(wù)和globalpointer模型的信息提取方法及系統(tǒng)。


    技術(shù)介紹

    1、現(xiàn)有的信息抽取方法通常將實體識別、關(guān)系抽取和三元組提取任務(wù)分開處理。這些方法通常需要分別設(shè)計不同的模型或在模型輸入中引入特殊標記,這樣不僅訓(xùn)練復(fù)雜計算量大,而且在推理時需要多次運行模型,增加了時間和計算資源的消耗。此外,許多現(xiàn)有方法在處理長序列或海量數(shù)據(jù)時表現(xiàn)欠佳,模型的準確性和效率無法得到保證。

    2、另外近期也有一些統(tǒng)一信息抽取的模型被提出,例如基于統(tǒng)一結(jié)構(gòu)生成的統(tǒng)一信息抽取(uie)、基于統(tǒng)一語義匹配的通用信息抽取框架(usm)和基于跨度提取的高效統(tǒng)一信息提取框架(uniex)以及基于多任務(wù)指令微調(diào)大模型的統(tǒng)一信息抽取(instructuie)等。

    3、如現(xiàn)有一種基于有序結(jié)構(gòu)編碼指針網(wǎng)絡(luò)解碼的實體關(guān)系抽取方法,該方法包括:在輸入層利用bert預(yù)訓(xùn)練模型訓(xùn)練詞向量進行word?embedding,然后加入對抗訓(xùn)練生成句子向量表示的負例,構(gòu)建句子初始向量;在編碼層使用bi-lstm捕獲文本的全局語義信息;在解碼層使用指針網(wǎng)絡(luò)的解碼思想,分別進行頭實體抽取、尾實體和關(guān)系抽取,使用sigmoid代替softmax預(yù)測輸入,完成實體關(guān)系三元組抽取任務(wù)。

    4、然而現(xiàn)有技術(shù)存在推理效率低、運算消耗大的問題,因此如何專利技術(shù)一種推理效率高、運算消耗小的信息提取方法,是本
    亟需解決的技術(shù)問題。


    技術(shù)實現(xiàn)思路

    1、本專利技術(shù)為了解決現(xiàn)有技術(shù)推理效率低、運算消耗大的問題,提供了一種基于多任務(wù)和globalpointer模型的信息提取方法及系統(tǒng),其具有能夠提高標簽利用率、適用于海量數(shù)據(jù)處理的特點。

    2、為實現(xiàn)上述本專利技術(shù)目的,采用的技術(shù)方案如下:

    3、一種基于多任務(wù)和globalpointer模型的信息提取方法,包括以下步驟:

    4、構(gòu)建包括編碼器、globalpointer模型、分類器的信息提取模型;

    5、使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練;

    6、將文本輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過globalpointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;使用globalpointer模型提取實體向量之間的關(guān)系;通過分類器對實體向量進行分類;

    7、綜合實體向量、關(guān)系、分類結(jié)果,輸出三元組數(shù)據(jù)提取結(jié)果。

    8、優(yōu)選的,所述的編碼器采用bert類模型,具體的,采用bert、albert、roberta任一種語言模型編碼器。

    9、進一步的,所述的分類器具體為多層感知機分類器,支持單標簽和多標簽分類。

    10、更進一步的,使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練,具體步驟為:

    11、將命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集輸入信息提取模型中進行實體識別、關(guān)系提取、三元組數(shù)據(jù)提取任務(wù),得到混合批結(jié)果;

    12、分別計算混合批結(jié)果的實體識別損失、關(guān)系提取損失、三元組提取損失;計算損失時,使用損失掩碼實現(xiàn)任務(wù)間的隔離。

    13、更進一步的,進行實體識別任務(wù)時,將實體識別數(shù)據(jù)集的數(shù)據(jù)輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過globalpointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;通過分類器對實體向量進行分類,得到實體識別結(jié)果;

    14、進行關(guān)系提取任務(wù)時,將關(guān)系提取數(shù)據(jù)集的數(shù)據(jù)輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;直接將數(shù)據(jù)集的跨度轉(zhuǎn)化為實體向量,使用globalpointer模型提取實體向量之間的關(guān)系,得到關(guān)系提取結(jié)果;

    15、進行三元組數(shù)據(jù)提取任務(wù)時,將三元組提取數(shù)據(jù)集的數(shù)據(jù)輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過globalpointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;使用globalpointer模型提取實體向量之間的關(guān)系;通過分類器對實體向量進行分類;綜合實體向量、關(guān)系、分類結(jié)果,得到三元組數(shù)據(jù)提取結(jié)果。

    16、更進一步的,使用損失掩碼實現(xiàn)任務(wù)間的隔離,具體為:計算混合批結(jié)果中數(shù)據(jù)的損失時,若該數(shù)據(jù)為實體識別任務(wù),則損失掩碼忽略關(guān)系提取損失;若該數(shù)據(jù)為關(guān)系提取任務(wù)時,則損失掩碼忽略實體識別損失;若該數(shù)據(jù)為三元組數(shù)據(jù)提取任務(wù),則損失掩碼不忽略任何損失。

    17、更進一步的,將跨度轉(zhuǎn)化為實體向量,具體為:選取頭實體跨度,使用跨度的頭標記和尾標記的均值向量作為頭實體向量。

    18、更進一步的,使用globalpointer模型提取實體跨度的關(guān)系后,得到的實體關(guān)系的輸出為:頭實體、尾實體、該頭實體和尾實體的關(guān)系。

    19、更進一步的,通過分類器對實體向量進行分類后,得到的實體類別的輸出為:實體、該實體的類別。

    20、一種基于多任務(wù)和globalpointer模型的信息提取系統(tǒng),包括模型構(gòu)建模塊、模型訓(xùn)練模塊、信息提取模塊、結(jié)果輸出模塊;

    21、所述的模型構(gòu)建模塊用于構(gòu)建包括編碼器、globalpointer模型、分類器的信息提取模型;

    22、所述模型訓(xùn)練模塊用于使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練;

    23、所述的信息提取模塊用于將文本輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過globalpointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;使用globalpointer模型提取實體向量之間的關(guān)系;通過分類器對實體向量進行分類;

    24、所述的結(jié)果輸出模塊用于綜合實體向量、關(guān)系、分類結(jié)果,輸出三元組數(shù)據(jù)提取結(jié)果。

    25、本專利技術(shù)的有益效果如下:

    26、本專利技術(shù)提出包括編碼器、globalpointer模型、分類器的信息提取模型,采用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練;相比現(xiàn)有技術(shù)具有推理高效訓(xùn)練簡單的優(yōu)點,現(xiàn)有技術(shù)的信息抽取模型在推理不同任務(wù)時需要使用不同的提示模版多次推理且需要進行大量知識注入的預(yù)訓(xùn)練,而本專利技術(shù)的信息提取模型只需一次推理即可輸出所有任務(wù)的結(jié)果并且不需要再增加預(yù)訓(xùn)練的步驟;相比于usm和uniex不需要在輸入文本前增加特殊標記,因此本專利技術(shù)采用的信息提取模型的標記利用率更高,在處理大數(shù)據(jù)時更有優(yōu)勢。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    1.一種基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:所述的編碼器采用BERT類模型,具體的,采用BERT、ALBERT、RoBERTa任一種語言模型編碼器。

    3.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:所述的分類器具體為多層感知機分類器,支持單標簽和多標簽分類。

    4.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練,具體步驟為:

    5.根據(jù)權(quán)利要求4所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:

    6.根據(jù)權(quán)利要求5所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:使用損失掩碼實現(xiàn)任務(wù)間的隔離,具體為:計算混合批結(jié)果中數(shù)據(jù)的損失時,若該數(shù)據(jù)為實體識別任務(wù),則損失掩碼忽略關(guān)系提取損失;若該數(shù)據(jù)為關(guān)系提取任務(wù)時,則損失掩碼忽略實體識別損失;若該數(shù)據(jù)為三元組數(shù)據(jù)提取任務(wù),則損失掩碼不忽略任何損失。

    7.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:將跨度轉(zhuǎn)化為實體向量,具體為:選取頭實體跨度,使用跨度的頭標記和尾標記的均值向量作為頭實體向量。

    8.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:使用GlobalPointer模型提取實體跨度的關(guān)系后,得到的實體關(guān)系的輸出為:頭實體、尾實體、該頭實體和尾實體的關(guān)系。

    9.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:通過分類器對實體向量進行分類后,得到的實體類別的輸出為:實體、該實體的類別。

    10.一種基于多任務(wù)和GlobalPointer模型的信息提取系統(tǒng),其特征在于:包括模型構(gòu)建模塊、模型訓(xùn)練模塊、信息提取模塊、結(jié)果輸出模塊;

    ...

    【技術(shù)特征摘要】

    1.一種基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:所述的編碼器采用bert類模型,具體的,采用bert、albert、roberta任一種語言模型編碼器。

    3.根據(jù)權(quán)利要求1所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:所述的分類器具體為多層感知機分類器,支持單標簽和多標簽分類。

    4.根據(jù)權(quán)利要求1所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練,具體步驟為:

    5.根據(jù)權(quán)利要求4所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:

    6.根據(jù)權(quán)利要求5所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:使用損失掩碼實現(xiàn)任務(wù)間的隔離,具體為:計算混合...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:徐亞波李旭日牟昊何宇軒楊俊波
    申請(專利權(quán))人:廣州數(shù)說故事信息科技有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日日摸日日碰人妻无码| 亚洲日韩国产二区无码| 久久影院午夜理论片无码| 精品久久久久久无码人妻蜜桃| 亚洲色偷拍另类无码专区| 伊人久久一区二区三区无码| 永久免费无码网站在线观看| 无码人妻精品一区二区三区久久| 精品久久久无码人妻字幂| 性无码专区无码片| 国产精品va无码免费麻豆| 亚洲av永久无码精品表情包| 亚洲av无码成人精品区在线播放| 日韩精品专区AV无码| 中文无码日韩欧免费视频| 日本精品无码一区二区三区久久久| 亚洲Av无码乱码在线播放| 97久久精品无码一区二区| 国产精品无码久久久久久| 无码激情做a爰片毛片AV片 | 国产爆乳无码视频在线观看3| 中文字幕人妻无码专区| 国产精品成人99一区无码| 亚洲a∨无码男人的天堂| 亚洲AV无码一区东京热久久| 久久影院午夜理论片无码| 亚洲一区二区三区无码影院| 日韩精品中文字幕无码专区| 亚洲综合无码无在线观看 | 91精品国产综合久久四虎久久无码一级 | 亚洲av无码乱码国产精品fc2| 免费无码又爽又黄又刺激网站| 黑人巨大无码中文字幕无码| 无码国产精品一区二区免费I6| 日韩免费a级毛片无码a∨| 一区二区无码免费视频网站| 亚洲国产精品无码久久久秋霞1| 69ZXX少妇内射无码| 亚洲AV无码男人的天堂| 精品无码久久久久久国产| 亚洲一级特黄无码片|