【技術實現步驟摘要】
一種基于注意力狀態轉移模型的生物嵌套命名實體識別方法
[0001]本專利技術涉及一種基于注意力狀態轉移模型的生物嵌套命名實體識別方法,特別是針對DNA、RNA、蛋白質、細胞系和細胞這五種類型實體的識別。對于生物領域文本,以句子為單位送入模型,模型會遍歷句子中的每一個單詞來調整模型的狀態,模型的輸出即模型狀態轉移的信息會識別出句子中的候選實體及其類型,最后通過語義遮罩模型判斷候選實體是否滿足上下文信息,得到最后的實體及其類型,其中的實體包含嵌套實體或者長實體。
技術介紹
[0002]隨著生物研究的進展,積累了越來越多與生物相關的文本,對文本進行自動化處理的文本挖掘技術變得越來越重要,其中一項非常基礎且重要的任務是生物命名實體識別。通過命名實體識別技術,可以有效的提取出生物文本中的有關生物領域的實體名稱,比如DNA、RNA、蛋白質、細胞系和細胞這五個類型的實體。由于在實體與實體之間還存在一些嵌套的情況,這使得通過人工提取的效率不高,成本巨大且提取出的實體結果會受到人為因素的影響導致提取錯誤,同時嵌套實體的識別也會給提取增加一定的難度。因此,利用深度學習的模型來解決命名實體識別問題是當下的趨勢,并為后續進一步的實體鏈接、關系抽取、構建生物知識圖譜、生物知識問答等任務提供基礎。
[0003]傳統處理方式是將命名實體識別任務視為一個序列標注任務,為句子中每一個單詞打上一個標簽。然而這樣的處理方式不適用于嵌套命名實體的識別。近年來,人們提出了多種處理嵌套命名實體識別的方法:
[0004](1)修改序列標注模型,將 ...
【技術保護點】
【技術特征摘要】
1.一種基于注意力狀態轉移模型的生物嵌套命名實體識別方法,包含以下步驟:步驟1:將包含DNA、RNA、蛋白質、細胞系和細胞這五種類型實體標簽的生物領域文本分為訓練數據和測試數據;步驟2:根據注意力狀態轉移模型和語義遮罩模型的輸入形式,將訓練數據調整為滿足模型輸入的形式;注意力狀態轉移模型的輸入是模型的狀態,將其定義為一個元組(B1,S1,S2,B2),其中B1、B2表示兩個隊列,用其作為緩沖區(Buffer)來存儲上下文信息,S1、S2表示堆棧(Stack),用來存儲當前狀態下模型需要判斷的詞;其中S2結構僅存放一個詞來用于單個詞是否構成實體的判斷,S1結構中存放與S2可能構成實體的單詞;通過字典{'buffer1':[],'stack1':[],'stack2':[],'buffer2':[]}存放句子中的詞來表示當前模型的狀態;根據句子中實體及其類型生成注意力狀態轉移模型數據集的正例,當S1中單個詞構成實體或S1與S2中的詞構成時,模型的輸出標簽為其實體的類型,當S1中的詞與S2中的詞有關聯但并沒有構成一個完整的實體,用
‘
correlation
’
作為模型的輸出標簽;隨機抽取非實體的詞生成注意力狀態轉移模型數據集的負例,用
‘
not
’
表示負樣例的標簽;語義遮罩模型的輸入為用特殊標識符將原始句子與遮罩后句子間隔開的句子,遮罩的句子是在原始句子的基礎上,將原始句子中的類型實體用其類型標識符進行替換;根據句子中實體及其類型生成語義遮罩模型數據集的正例,隨機抽取非實體的詞生成注意力狀態轉移模型數據集的負例;步驟3:訓練注意力狀態轉移模型,用來學習詞與詞之間的關聯性,通過模型輸出的狀態可以從文本中提取出候選實體并判斷其類型;通過拼接上下文表示非上下文表示和字符級表示作為當前詞的詞向量作為當前詞的詞向量其中,通過預訓練模型獲得;非上下文表示通過預訓練的Wordvecs獲得;是單詞中的每個字符通過BiLSTM模型生成而來;[;]表示向量的拼接操作;B1、B2的狀態表示β1、β2都是通過單向LSTM模型對結構中的詞向量進行特征提取獲得的;的;其中,表示B1中第i個詞的d維向量表示,表示B2中第i個詞的d維向量表示;對于單個詞的類型判斷,S1的狀態表示S1也是通過單向LSTM模型對結構中的詞向量進行特征提取獲得的;其中,表示S1中第i個詞的d維向量表示;
S2的狀態表示S2是表示S2中單詞的d維向量表示;對于多個詞的類型判斷,由于模型需要關注到S1與S2兩個結構中詞的關聯性,引入了注意力機制;其中,表示縮放因子,用于優化點積注意力的缺陷,將值縮放到softmax函數變化最大的區域,放大差距;此時S1的狀態表示S1是對S1與S2中詞向量進行關注并通過LSTM的結果,S2的狀態表示S2是對S2與S1中詞向量進行關注的結果;S1=LSTM(Attention(S
′1,S
′2))
?????????
(6)S2=Attention(S
′2,S
′1)
???????????????
(7)其中,表示S1中h個詞的詞向量所構成的矩陣,表示S2中詞的詞向量詞向量所構成的矩陣;整個模型的狀態表示為由4個結構的狀態表示拼接而成;P
k
=[β1;S1;S2;β2]
?????????????????
(8)得到模型的狀態表示P
k
后,會通過多層感知器MLP進行分類,將分類結果為實體類型的詞作為候選實體;步驟4:訓練語義遮罩模型,用來判...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。