• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于對(duì)抗訓(xùn)練的命名實(shí)體識(shí)別方法技術(shù)

    技術(shù)編號(hào):24252001 閱讀:37 留言:0更新日期:2020-05-22 23:48
    本發(fā)明專利技術(shù)公開了一種基于對(duì)抗訓(xùn)練的命名實(shí)體識(shí)別方法,分別通過RoBERTa模型訓(xùn)練和Bi?LSTM的訓(xùn)練獲得司法領(lǐng)域文字之間關(guān)聯(lián)性特征;然后將兩種關(guān)聯(lián)性特征拼接在一起,利用條件隨機(jī)場(chǎng)模型對(duì)訓(xùn)練樣本進(jìn)行預(yù)測(cè)獲得預(yù)測(cè)的結(jié)果;本發(fā)明專利技術(shù)能夠引入不同維度的外部詞向量與字向量與不同維度的司法領(lǐng)域文本字詞混合向量相結(jié)合,并且針對(duì)司法領(lǐng)域文本中混合詞向量進(jìn)行對(duì)抗擾動(dòng),增加模型識(shí)別的準(zhǔn)確率。

    A named entity recognition method based on confrontation training

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種基于對(duì)抗訓(xùn)練的命名實(shí)體識(shí)別方法
    本專利技術(shù)屬于命名實(shí)體識(shí)別的
    ,具體涉及一種基于對(duì)抗訓(xùn)練的命名實(shí)體識(shí)別方法。
    技術(shù)介紹
    命名實(shí)體識(shí)別在各個(gè)領(lǐng)域已經(jīng)有了廣泛的應(yīng)用,各領(lǐng)域也針對(duì)命名實(shí)體識(shí)別進(jìn)行了不同程度的優(yōu)化,在傳統(tǒng)的命名實(shí)體識(shí)別中需要耗費(fèi)大量的人員針對(duì)特定的領(lǐng)域進(jìn)行特征提取,并利用概率圖模型進(jìn)行命名實(shí)體識(shí)別,隨著近幾年深度學(xué)習(xí)的興起,各領(lǐng)域已經(jīng)利用深度學(xué)習(xí)的方法對(duì)命名實(shí)體識(shí)別進(jìn)行了大量的探索,目前在金融,醫(yī)療,法律領(lǐng)域已經(jīng)有大量的探索與實(shí)踐,減少了大量的人工成本,并提高了準(zhǔn)確率,如何利用這些信息尤為關(guān)鍵,在利用命名實(shí)體識(shí)別技術(shù),對(duì)某些特定領(lǐng)域中具有特定意義的實(shí)體,比如在司法文本中(嫌疑人,被告,原告等),通過這些實(shí)體的識(shí)別可以為之后信息提取、問答系統(tǒng)、句法分析、知識(shí)推理,構(gòu)建知識(shí)圖譜等重要任務(wù)打下來重要的基礎(chǔ)。目前,命名實(shí)體識(shí)別在司法領(lǐng)域中的主要方法分為三大類:第一類基于概率圖模型,該方法主要使用條件隨機(jī)場(chǎng)(CRF)模型,是給定一組輸入序列條件下另一組輸出序列的條件概率分布模型,通過輸入帶標(biāo)簽特定領(lǐng)域數(shù)據(jù),人工提取出相應(yīng)的特征與設(shè)定相應(yīng)的規(guī)則,從而對(duì)未標(biāo)注的文本進(jìn)行識(shí)別。第二類基于深度學(xué)習(xí)的方法,該方法主要使用雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)模型,利用詞向量嵌入信息,通過輸入帶標(biāo)簽特定領(lǐng)域數(shù)據(jù)到Bi-LSTM中從而大大的減少了人工的工作,并且可以得到更高的準(zhǔn)確率。第三類基于深度學(xué)習(xí)與傳統(tǒng)的方法相結(jié)合,該方法利用詞向量訓(xùn)練方法(Word2Vec)或者(GloVe)技術(shù)給定特定領(lǐng)域文本,特定領(lǐng)域詞表,在特定領(lǐng)域文本中我們通過文本來構(gòu)建語言模型,通過P(w1,w2,…wn)=P(w1)P(w2|w1)P(wn|w1,…,wn-1),把聯(lián)合概率轉(zhuǎn)化為條件概連乘,并利用馬爾科夫假設(shè)大大減少了參數(shù),而在詞表中的每一個(gè)詞都對(duì)應(yīng)著一個(gè)連續(xù)的特征向量,往一個(gè)概率模型中,輸入一段詞向量,輸出文本的聯(lián)合概率,從而去學(xué)習(xí)詞向量權(quán)重,構(gòu)建一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)f(wt-n+1…,wt)f(wt-n+1…,wt)來擬合條件概率P(wt|w1,…,wt-1),模型中輸入詞向量到線性的嵌入層(Embedding)層,利用可訓(xùn)練的參數(shù)矩陣C通過設(shè)置不同的滑動(dòng)窗口貫穿整個(gè)特定領(lǐng)域文本,來獲取到特定領(lǐng)域文本的詞向量,從而得到相應(yīng)的詞向量(wordvector),這里有兩種方法分別為跳字模型(Skip-gram)或連續(xù)詞袋子模型(CBOW)兩個(gè)模型去進(jìn)行訓(xùn)練,當(dāng)?shù)玫较鄳?yīng)的詞向量后,通過輸入Bi-LSTM層,在Bi-LSTM層中詞向量的輸入經(jīng)過每一個(gè)時(shí)間點(diǎn)的隱藏狀態(tài),這樣可以得到上下文的表示,最后的特征通過CRF層利用周圍的信息從而有效的得到相應(yīng)的標(biāo)簽,模型如圖1?,F(xiàn)有的特定領(lǐng)域的命名實(shí)體模型利用Bi-LSTM跟CRF模型相結(jié)合的方式,但模型提取特征的能力不夠強(qiáng)大,而Bi-LSTM中的建模只是簡(jiǎn)單的從左到右,或者從右到左進(jìn)行建模,并把隱狀態(tài)拼接在一起,但是這樣做的缺點(diǎn)是只能利用上文或者下文的信息,不能同時(shí)利用上文和下文的信息。并且,在特定領(lǐng)域中文本的數(shù)量與個(gè)數(shù)有限,沒有大量的數(shù)據(jù)進(jìn)行模型性能的提升。隨著BERT模型的出現(xiàn),在各領(lǐng)域中已經(jīng)逐步進(jìn)行應(yīng)用,但是在特定領(lǐng)域中卻沒有得到相應(yīng)的應(yīng)用,而BERT及后續(xù)的模型RoBERTa所帶來單詞之間相互獨(dú)立,微調(diào)時(shí)會(huì)帶來模型性能的損失等缺點(diǎn),數(shù)據(jù)的規(guī)模很大,模型的準(zhǔn)確率基本無法提升。
    技術(shù)實(shí)現(xiàn)思路
    有鑒于此,本專利技術(shù)提供了一種基于對(duì)抗訓(xùn)練的命名實(shí)體識(shí)別方法,能夠引入不同維度的外部詞向量與字向量與不同維度的司法領(lǐng)域文本字詞混合向量相結(jié)合,并且針對(duì)司法領(lǐng)域文本中混合詞向量進(jìn)行對(duì)抗擾動(dòng),增加模型識(shí)別的準(zhǔn)確率。實(shí)現(xiàn)本專利技術(shù)的技術(shù)方案如下:一種基于對(duì)抗訓(xùn)練的命名實(shí)體識(shí)別方法,包括以下步驟:步驟一、將司法領(lǐng)域的裁判文書切分為單個(gè)文字作為訓(xùn)練樣本,通過RoBERTa模型訓(xùn)練獲得司法領(lǐng)域文字之間關(guān)聯(lián)性特征;將司法領(lǐng)域的裁判文書切分為單個(gè)文字和詞組,利用Word2Vec方法將詞組轉(zhuǎn)換為詞向量,利用Fasttext方法將單個(gè)文字轉(zhuǎn)換為基于字的詞向量;引入司法領(lǐng)域之外的利用Word2Vec方法得到的詞向量,引入司法領(lǐng)域之外的利用Fasttext方法得到的基于字的詞向量;將所有詞向量混合;步驟二、對(duì)混合的詞向量矩陣進(jìn)行擾動(dòng),通過損失函數(shù)的最大值來找到最壞情況的擾動(dòng),利用外部經(jīng)驗(yàn)風(fēng)險(xiǎn)的最小化來得到模型的最佳魯棒參數(shù),從而得到對(duì)抗擾動(dòng)優(yōu)化后的詞向量;步驟三、利用長度為a的滑動(dòng)窗口將步驟二獲得的詞向量輸入Bi-LSTM,經(jīng)過Bi-LSTM的訓(xùn)練,獲得司法領(lǐng)域字詞之間的關(guān)聯(lián)性特征;步驟四、將步驟一和步驟三得到的兩個(gè)關(guān)聯(lián)性特征拼接在一起,然后利用條件隨機(jī)場(chǎng)模型對(duì)訓(xùn)練樣本進(jìn)行預(yù)測(cè)獲得預(yù)測(cè)的結(jié)果。進(jìn)一步地,1000<a<2000。有益效果:1.本專利技術(shù)引入不同維度的外部詞向量與字向量與不同維度的司法領(lǐng)域文本字詞混合向量相結(jié)合,豐富了司法領(lǐng)域命名實(shí)體識(shí)別的訓(xùn)練樣本。2.本專利技術(shù)利用RoBERTa提取出司法領(lǐng)域文本的特征后與不同維度的詞向量融合過后與Bi-LSTM特征相結(jié)合得到相應(yīng)特征在通過CRF得到結(jié)果。3.本專利技術(shù)針對(duì)司法領(lǐng)域文本中混合詞向量進(jìn)行對(duì)抗擾動(dòng),增加模型的泛化能力與魯棒性。附圖說明圖1為Bi-LSTM架構(gòu)示意圖。圖2為RoBERTa模型架構(gòu)示意圖。圖3為本專利技術(shù)詞向量模型示意圖。圖4為本專利技術(shù)命名實(shí)體識(shí)別模型架構(gòu)圖。具體實(shí)施方式下面結(jié)合附圖并舉實(shí)施例,對(duì)本專利技術(shù)進(jìn)行詳細(xì)描述。本專利技術(shù)提供了一種基于對(duì)抗訓(xùn)練的命名實(shí)體識(shí)別方法,如圖4所示,具體過程如下:步驟一、本專利技術(shù)引入了RoBERTa模型在司法領(lǐng)域,首先對(duì)每個(gè)司法領(lǐng)域文本進(jìn)行相應(yīng)的分詞,按照字的形式輸入到RoBERTa中,通過自注意力機(jī)制(self-attention)對(duì)不同的詞分配不同的權(quán)重,即假設(shè)輸入矩陣為X,最大的詞嵌入向量為512,通過不同的權(quán)重矩陣Wq,Wk,Wv,最終經(jīng)過softmax得到自注意力矩陣Z,經(jīng)過多頭機(jī)制,得到注意力層的多個(gè)表示子空間,最后拼接不同的矩陣Z,通過動(dòng)態(tài)的對(duì)部分詞的掩碼,提取出相應(yīng)的特征C,如圖2所示:在司法領(lǐng)域中,相應(yīng)的司法領(lǐng)域文本規(guī)模沒那么大,只有有限的數(shù)據(jù),而在有限的數(shù)據(jù)中通常得不到更好的模型效果,本專利技術(shù)引入基于字的Fasttext與基于詞的Word2Vec,通過構(gòu)造Embedding層,把司法領(lǐng)域文本構(gòu)造成N-1個(gè)one-hot詞向量,把所有的one-hot向量經(jīng)過N×V的矩陣,N為自己設(shè)定的維度,V是詞典的大小,得到向量相加求平均并乘以輸出的權(quán)重矩陣而得到相應(yīng)的概率分布,而其中的N×V矩陣即為字與詞向量矩陣W1與W2,這里指定了不同的字向量與詞向量維度,基于字的詞向量矩陣彌補(bǔ)了司法領(lǐng)域中專業(yè)詞匯較少的特點(diǎn),而基于詞的的詞向量矩陣因?yàn)槭撬痉I(lǐng)域的詞,所以能提供更精確的先驗(yàn)知識(shí),通過引入外部較大的通用字向量矩陣W3,與詞向量矩陣W4,本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】
    1.一種基于對(duì)抗訓(xùn)練的命名實(shí)體識(shí)別方法,其特征在于,包括以下步驟:/n步驟一、將司法領(lǐng)域的裁判文書切分為單個(gè)文字作為訓(xùn)練樣本,通過RoBERTa模型訓(xùn)練獲得司法領(lǐng)域文字之間關(guān)聯(lián)性特征;/n將司法領(lǐng)域的裁判文書切分為單個(gè)文字和詞組,利用Word2Vec方法將詞組轉(zhuǎn)換為詞向量,利用Fasttext方法將單個(gè)文字轉(zhuǎn)換為基于字的詞向量;引入司法領(lǐng)域之外的利用Word2Vec方法得到的詞向量,引入司法領(lǐng)域之外的利用Fasttext方法得到的基于字的詞向量;將所有詞向量混合;/n步驟二、對(duì)混合的詞向量矩陣進(jìn)行擾動(dòng),通過損失函數(shù)的最大值來找到最壞情況的擾動(dòng),利用外部經(jīng)驗(yàn)風(fēng)險(xiǎn)的最小化來得到模型的最佳魯棒參數(shù),從而得到對(duì)抗擾動(dòng)優(yōu)化后的詞向量;/n步驟三、利用長度為a的滑動(dòng)窗口將步驟二獲得的詞向量輸入Bi-LSTM,經(jīng)過Bi-LSTM的訓(xùn)練,獲得司法領(lǐng)域字詞之間的關(guān)聯(lián)性特征;/n步驟四、將步驟一和步驟三得到的兩個(gè)關(guān)聯(lián)性特征拼接在一起,然后利用條件隨機(jī)場(chǎng)模型對(duì)訓(xùn)練樣本進(jìn)行預(yù)測(cè)獲得預(yù)測(cè)的結(jié)果。/n

    【技術(shù)特征摘要】
    1.一種基于對(duì)抗訓(xùn)練的命名實(shí)體識(shí)別方法,其特征在于,包括以下步驟:
    步驟一、將司法領(lǐng)域的裁判文書切分為單個(gè)文字作為訓(xùn)練樣本,通過RoBERTa模型訓(xùn)練獲得司法領(lǐng)域文字之間關(guān)聯(lián)性特征;
    將司法領(lǐng)域的裁判文書切分為單個(gè)文字和詞組,利用Word2Vec方法將詞組轉(zhuǎn)換為詞向量,利用Fasttext方法將單個(gè)文字轉(zhuǎn)換為基于字的詞向量;引入司法領(lǐng)域之外的利用Word2Vec方法得到的詞向量,引入司法領(lǐng)域之外的利用Fasttext方法得到的基于字的詞向量;將所有詞向量混合;
    步驟二、對(duì)混合的詞向量矩陣進(jìn)行擾...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:袁超逸劉忠麟王立才,張起聞,羅琪彬,郝韞宏李孟書
    申請(qǐng)(專利權(quán))人:中國電子科技集團(tuán)公司第十五研究所,
    類型:發(fā)明
    國別省市:北京;11

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 国产精品无码一区二区在线观| 免费无码中文字幕A级毛片| 无码人妻精品一区二区三区夜夜嗨| 亚洲日韩乱码中文无码蜜桃臀网站| 亚洲中文无码a∨在线观看| 久久久无码精品人妻一区| 最新中文字幕AV无码不卡| 人妻丰满av无码中文字幕| 亚洲精品无码久久毛片| 亚洲AV无码一区二区三区性色| 国产精品三级在线观看无码| 中文字幕av无码无卡免费 | 精品久久久久久久无码| 中文字幕人妻三级中文无码视频| 中文字幕无码中文字幕有码| 国产成人A亚洲精V品无码 | 日韩经典精品无码一区| 免费人妻无码不卡中文字幕系| 日韩AV高清无码| 国产精品爽爽V在线观看无码| 18禁免费无码无遮挡不卡网站| 亚洲大尺度无码无码专区| 亚洲va中文字幕无码| 99精品人妻无码专区在线视频区| 亚洲综合无码AV一区二区| av无码aV天天aV天天爽| 亚洲AV无码乱码精品国产| 激情射精爆插热吻无码视频| 色欲aⅴ亚洲情无码AV蜜桃| 亚洲熟妇av午夜无码不卡| 无码八A片人妻少妇久久| 亚洲国产av高清无码| 亚洲中文字幕无码久久2020| 精品无码人妻一区二区三区品 | 成人h动漫精品一区二区无码| 一本大道无码av天堂| 国产在线拍揄自揄拍无码视频| 亚洲aⅴ无码专区在线观看| 亚洲av永久无码天堂网| 免费无码国产V片在线观看| 内射人妻无套中出无码|