• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于注意力狀態轉移模型的生物嵌套命名實體識別方法技術

    技術編號:34852934 閱讀:32 留言:0更新日期:2022-09-08 07:53
    一種基于注意力狀態轉移模型的生物嵌套命名實體識別方法,包括:1.將包含DNA、RNA、蛋白質、細胞系和細胞這五種類型實體標簽的生物領域文本分為訓練數據和測試數據;2.根據注意力狀態轉移模型和語義遮罩模型的輸入形式,將訓練數據調整為滿足模型輸入的形式;3.訓練注意力狀態轉移模型,用來學習詞與詞之間的關聯性,通過模型輸出的狀態可以從文本中提取出候選實體并判斷其類型;4.訓練語義遮罩模型,用來判斷候選實體及其類型是否符合上下文語義;5.將測試數據輸入到注意力狀態轉移模型中,提取出候選實體,隨后將提取的實體進行遮罩,送入到語義遮罩模型中進行篩選,最終確認出符合上下文的真實實體。上下文的真實實體。上下文的真實實體。

    【技術實現步驟摘要】
    一種基于注意力狀態轉移模型的生物嵌套命名實體識別方法


    [0001]本專利技術涉及一種基于注意力狀態轉移模型的生物嵌套命名實體識別方法,特別是針對DNA、RNA、蛋白質、細胞系和細胞這五種類型實體的識別。對于生物領域文本,以句子為單位送入模型,模型會遍歷句子中的每一個單詞來調整模型的狀態,模型的輸出即模型狀態轉移的信息會識別出句子中的候選實體及其類型,最后通過語義遮罩模型判斷候選實體是否滿足上下文信息,得到最后的實體及其類型,其中的實體包含嵌套實體或者長實體。

    技術介紹

    [0002]隨著生物研究的進展,積累了越來越多與生物相關的文本,對文本進行自動化處理的文本挖掘技術變得越來越重要,其中一項非常基礎且重要的任務是生物命名實體識別。通過命名實體識別技術,可以有效的提取出生物文本中的有關生物領域的實體名稱,比如DNA、RNA、蛋白質、細胞系和細胞這五個類型的實體。由于在實體與實體之間還存在一些嵌套的情況,這使得通過人工提取的效率不高,成本巨大且提取出的實體結果會受到人為因素的影響導致提取錯誤,同時嵌套實體的識別也會給提取增加一定的難度。因此,利用深度學習的模型來解決命名實體識別問題是當下的趨勢,并為后續進一步的實體鏈接、關系抽取、構建生物知識圖譜、生物知識問答等任務提供基礎。
    [0003]傳統處理方式是將命名實體識別任務視為一個序列標注任務,為句子中每一個單詞打上一個標簽。然而這樣的處理方式不適用于嵌套命名實體的識別。近年來,人們提出了多種處理嵌套命名實體識別的方法:
    [0004](1)修改序列標注模型,將給每個單詞打上一個標簽轉變為給每個單詞打上多個標簽,每個單詞的標簽個數取決于嵌套實體的嵌套層數;或者是修改標簽的含義,讓每個標簽的含義更加具體來支持對嵌套實體的識別。
    [0005](2)利用超圖的方法,實際上是通過一個解碼器,給句子中的每個詞打上所有可能的標簽,這些標簽的組合可以識別出文本中所有可能的嵌套實體。
    [0006](3)基于跨度方法,該方法的思想是將實體識別視為跨度分類任務,即在文本中找出所有可能的跨度,然后預測它們的類別。
    [0007](4)基于閱讀理解的方法,該方法的思想是通過問答的方式,找到文本中實體的邊界。
    [0008](5)基于狀態轉移模型的方法,該方法的思想是將句子中的每個詞存放在數據結構中,通過解析每個詞來改變數據結構的狀態,最后通過狀態的輸出即可判斷出嵌套的實體。
    [0009]對于簡單修改序列標注模型,為每個單詞打上多個標簽會根據文本嵌套層數決定,缺乏泛化性,修改標簽的含義可能使標注信息出現歧義,導致嵌套實體無法正確識別的情況。對于基于跨度的方法存在計算成本高、忽略邊界信息以及難以識別長實體等問題。對于閱讀理解的方法,對于不同的領域需要構建不同的問題集,基于狀態轉移模型的方法,模型在特征表示方面缺少全局的上下文特征、特定狀態的變化需要一定的約束、在狀態輸出
    過程中,模型缺少注意力機制,忽視了結構之間的相關性。

    技術實現思路

    [0010]本專利技術要克服現有技術的上述缺點,提出一種基于注意力狀態轉移模型的生物嵌套命名實體識別方法。
    [0011]為了實現上述目的,本專利技術提供以下技術方案:
    [0012]一種基于注意力狀態轉移模型的生物嵌套命名實體識別方法,包含以下步驟:
    [0013]步驟1:將包含DNA、RNA、蛋白質、細胞系和細胞這五種類型實體標簽的生物領域文本分為訓練數據和測試數據;
    [0014]步驟2:根據注意力狀態轉移模型和語義遮罩模型的輸入形式,將訓練數據調整為滿足模型輸入的形式;
    [0015]注意力狀態轉移模型的輸入是模型的狀態,將其定義為一個元組(B1,S1,S2,B2),其中B1、B2表示兩個隊列,用其作為緩沖區(Buffer)來存儲上下文信息,S1、S2表示堆棧(Stack),用來存儲當前狀態下模型需要判斷的詞;其中S2結構僅存放一個詞來用于單個詞是否構成實體的判斷,S1結構中存放與S2可能構成實體的單詞;通過字典{'buffer1':[],'stack1':[],'stack2':[],'buffer2':[]}存放句子中的詞來表示當前模型的狀態;根據句子中實體及其類型生成注意力狀態轉移模型數據集的正例,當S1中單個詞構成實體或S1與S2中的詞構成時,模型的輸出標簽為其實體的類型,當S1中的詞與S2中的詞有關聯但并沒有構成一個完整的實體,用

    correlation

    作為模型的輸出標簽。隨機抽取非實體的詞生成注意力狀態轉移模型數據集的負例,用

    not

    表示負樣例的標簽;
    [0016]語義遮罩模型的輸入為用特殊標識符將原始句子與遮罩后句子間隔開的句子,遮罩的句子是在原始句子的基礎上,將原始句子中的類型實體用其類型標識符進行替換;根據句子中實體及其類型生成語義遮罩模型數據集的正例,隨機抽取非實體的詞生成注意力狀態轉移模型數據集的負例;
    [0017]步驟3:訓練注意力狀態轉移模型,用來學習詞與詞之間的關聯性,通過模型輸出的狀態可以從文本中提取出候選實體并判斷其類型;
    [0018]通過拼接上下文表示非上下文表示和字符級表示作為當前詞的詞向量
    [0019][0020]其中,通過預訓練模型獲得;非上下文表示通過預訓練的Wordvecs獲得;是單詞中的每個字符通過BiLSTM模型生成而來;[;]表示向量的拼接操作;
    [0021]B1、B2的狀態表示β1、β2都是通過單向LSTM模型對結構中的詞向量進行特征提取獲得的;
    [0022][0023][0024]其中,表示B1中第i個詞的d維向量表示,表示B2中第i個詞的d維
    向量表示;
    [0025]對于單個詞的類型判斷,S1的狀態表示S1也是通過單向LSTM模型對結構中的詞向量進行特征提取獲得的;
    [0026][0027]其中,表示S1中第i個詞的d維向量表示;
    [0028]S2的狀態表示S2是是表示S2中單詞的d維向量表示;
    [0029]對于多個詞的類型判斷,由于模型需要關注到S1與S2兩個結構中詞的關聯性,引入了注意力機制;
    [0030][0031]其中,表示縮放因子,用于優化點積注意力的缺陷,將值縮放到softmax函數變化最大的區域,放大差距。
    [0032]此時S1的狀態表示S1是對S1與S2中詞向量進行關注并通過LSTM的結果,S2的狀態表示S2是對S2與S1中詞向量進行關注的結果;
    [0033]S1=LSTM(Attention(S
    ′1,S
    ′2))
    ??
    (6)
    [0034]S2=Attention(S
    ′2,S
    ′1)
    ??
    (7)
    [0035]其中,表示S1中h個詞的詞向量所構成的矩陣,表示S2中詞的詞向量詞向量所構成的矩陣;
    [0036]整個模型的狀態表示為由4個結構的狀態表示拼本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種基于注意力狀態轉移模型的生物嵌套命名實體識別方法,包含以下步驟:步驟1:將包含DNA、RNA、蛋白質、細胞系和細胞這五種類型實體標簽的生物領域文本分為訓練數據和測試數據;步驟2:根據注意力狀態轉移模型和語義遮罩模型的輸入形式,將訓練數據調整為滿足模型輸入的形式;注意力狀態轉移模型的輸入是模型的狀態,將其定義為一個元組(B1,S1,S2,B2),其中B1、B2表示兩個隊列,用其作為緩沖區(Buffer)來存儲上下文信息,S1、S2表示堆棧(Stack),用來存儲當前狀態下模型需要判斷的詞;其中S2結構僅存放一個詞來用于單個詞是否構成實體的判斷,S1結構中存放與S2可能構成實體的單詞;通過字典{'buffer1':[],'stack1':[],'stack2':[],'buffer2':[]}存放句子中的詞來表示當前模型的狀態;根據句子中實體及其類型生成注意力狀態轉移模型數據集的正例,當S1中單個詞構成實體或S1與S2中的詞構成時,模型的輸出標簽為其實體的類型,當S1中的詞與S2中的詞有關聯但并沒有構成一個完整的實體,用

    correlation

    作為模型的輸出標簽;隨機抽取非實體的詞生成注意力狀態轉移模型數據集的負例,用

    not

    表示負樣例的標簽;語義遮罩模型的輸入為用特殊標識符將原始句子與遮罩后句子間隔開的句子,遮罩的句子是在原始句子的基礎上,將原始句子中的類型實體用其類型標識符進行替換;根據句子中實體及其類型生成語義遮罩模型數據集的正例,隨機抽取非實體的詞生成注意力狀態轉移模型數據集的負例;步驟3:訓練注意力狀態轉移模型,用來學習詞與詞之間的關聯性,通過模型輸出的狀態可以從文本中提取出候選實體并判斷其類型;通過拼接上下文表示非上下文表示和字符級表示作為當前詞的詞向量作為當前詞的詞向量其中,通過預訓練模型獲得;非上下文表示通過預訓練的Wordvecs獲得;是單詞中的每個字符通過BiLSTM模型生成而來;[;]表示向量的拼接操作;B1、B2的狀態表示β1、β2都是通過單向LSTM模型對結構中的詞向量進行特征提取獲得的;的;其中,表示B1中第i個詞的d維向量表示,表示B2中第i個詞的d維向量表示;對于單個詞的類型判斷,S1的狀態表示S1也是通過單向LSTM模型對結構中的詞向量進行特征提取獲得的;其中,表示S1中第i個詞的d維向量表示;
    S2的狀態表示S2是表示S2中單詞的d維向量表示;對于多個詞的類型判斷,由于模型需要關注到S1與S2兩個結構中詞的關聯性,引入了注意力機制;其中,表示縮放因子,用于優化點積注意力的缺陷,將值縮放到softmax函數變化最大的區域,放大差距;此時S1的狀態表示S1是對S1與S2中詞向量進行關注并通過LSTM的結果,S2的狀態表示S2是對S2與S1中詞向量進行關注的結果;S1=LSTM(Attention(S
    ′1,S
    ′2))
    ?????????
    (6)S2=Attention(S
    ′2,S
    ′1)
    ???????????????
    (7)其中,表示S1中h個詞的詞向量所構成的矩陣,表示S2中詞的詞向量詞向量所構成的矩陣;整個模型的狀態表示為由4個結構的狀態表示拼接而成;P
    k
    =[β1;S1;S2;β2]
    ?????????????????
    (8)得到模型的狀態表示P
    k
    后,會通過多層感知器MLP進行分類,將分類結果為實體類型的詞作為候選實體;步驟4:訓練語義遮罩模型,用來判...

    【專利技術屬性】
    技術研發人員:高楠楊博威王永健陳朋
    申請(專利權)人:浙江工業大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲中文字幕无码不卡电影| 亚洲av成人无码网站…| 亚洲va成无码人在线观看| 亚洲国产成人精品无码区在线秒播 | 无码av高潮喷水无码专区线| 亚洲熟妇无码一区二区三区导航 | 亚洲AV无码一区二区三区人| 亚洲国产成人精品无码区二本| 亚洲成av人片不卡无码久久| 台湾无码一区二区| 免费无码看av的网站| 人妻少妇偷人精品无码| 国产成人无码午夜福利软件| 无码毛片内射白浆视频| 欧洲Av无码放荡人妇网站| 熟妇人妻中文a∨无码| 免费无码又爽又刺激毛片| 亚洲AV成人噜噜无码网站| 国内精品无码一区二区三区| 免费无码又爽又刺激高潮的视频 | 一本无码人妻在中文字幕免费| 西西4444www大胆无码| 97人妻无码一区二区精品免费| 18禁超污无遮挡无码免费网站| 无码夜色一区二区三区| 亚洲中文久久精品无码1| 无码137片内射在线影院| 无码午夜成人1000部免费视频 | 久久久久久99av无码免费网站| 国产AⅤ无码专区亚洲AV | 无码人妻AⅤ一区二区三区水密桃 无码欧精品亚洲日韩一区夜夜嗨 无码免费又爽又高潮喷水的视频 无码毛片一区二区三区中文字幕 无码毛片一区二区三区视频免费播放 | 亚洲av专区无码观看精品天堂| 一本一道av中文字幕无码| 熟妇人妻中文a∨无码| 久久久久亚洲AV无码专区网站| 精品乱码一区内射人妻无码| 天码av无码一区二区三区四区| 影音先锋无码a∨男人资源站| 国模无码视频一区| 久久精品无码av| 无码中文字幕乱在线观看|