本發明專利技術涉及一種基于BiLSTM結合多頭注意力的中文重疊事件抽取系統,屬于自然語言處理領域,Bert編碼器作為文本編碼器,生成以標記上下文為條件的文本表示,并包含豐富的文本信息;事件類型檢測解碼器基于Bert文本分類模型,對事件進行分類;觸發詞提取解碼器通過事件類型檢測與觸發詞提取之間的條件依賴關系,根據獲取到的事件類型提取出觸發詞;事件元素提取解碼器采用多頭注意力結合雙向LSTM層對事件元素進行提取;損失權重調整模塊結合多個損失函數,利用多個目標的同方差不確定性為每個任務動態分配權重。個任務動態分配權重。個任務動態分配權重。
【技術實現步驟摘要】
基于BiLSTM結合多頭注意力的中文重疊事件抽取系統
[0001]本專利技術屬于自然語言處理領域,涉及一種基于BiLSTM結合多頭注意力的中文重疊事件抽取系統。
技術介紹
[0002]隨著互聯網技術的發展,大量信息以文本的形式存儲在計算機里,如何挖掘有價值的信息,已成為信息抽取的核心問題。事件抽取是信息抽取領域的研究熱點之一,核心任務是從無結構化的自然語言文本中抽取指定類型的信息,并以半結構化或結構化的形式進行表示。
[0003]目前主流的研究方法大多基于神經網絡,通過網絡提取特征。Chen等人提出基于動態多池化卷積神經網絡的方法,根據觸發詞和事件元素使用動態多池化層提取信息;Zeng等人提出用雙向LSTM和CRF抽取句子特征,用卷積神經網絡抽取語義特征進行中文事件抽取;Chen等人提出利用知識庫的遠程監督方法,生成大規模標注數據,應用到金融領域;Liu等人提出聯合多事件提取框架用于重疊事件抽取;Yang等人提出根據角色分離事件元素的方法解決角色重疊問題。
[0004]在現有技術中,存在以下問題:(1)對于應用場景復雜的中文金融事件元素提取,事件中含有較多未定義的公司名、專業詞匯。由于提取的特征不足,存在識別召回率較低問題。(2)對于多任務聯合學習模型,其底層網絡參數是共享的,因此,模型的收斂往往容易偏向于損失權重占比較大的任務,導致錯誤傳播問題。
技術實現思路
[0005]有鑒于此,本專利技術的目的在于提供一種基于BiLSTM結合多頭注意力的中文重疊事件抽取系統,采用多頭自注意力融合雙向LSTM進行事件元素的識別,可以更好地進行特征提取,獲取更豐富的語義信息,解決多任務聯合學習模型存在的提取特征不足導致事件元素識別召回率低的問題,本專利技術還根據損失占比為各任務設置損失權重,弱化下游任務對上游任務的影響,解決各個子任務損失占比相差較大導致錯誤傳播的問題。
[0006]為達到上述目的,本專利技術提供如下技術方案:
[0007]一種基于BiLSTM結合多頭注意力的中文重疊事件抽取系統,包括Bert編碼器、事件類型檢測解碼器、觸發詞提取解碼器、事件元素提取解碼器和損失權重調整模塊;
[0008]所述Bert編碼器作為文本編碼器,生成以標記上下文為條件的文本表示,并包含豐富的文本信息;
[0009]所述事件類型檢測解碼器基于Bert文本分類模型,對事件進行分類;
[0010]所述觸發詞提取解碼器通過事件類型檢測與觸發詞提取之間的條件依賴關系,根據獲取到的事件類型提取出觸發詞;
[0011]所述事件元素提取解碼器采用多頭注意力結合雙向LSTM層對事件元素進行提取;
[0012]所述損失權重調整模塊結合多個損失函數,利用多個目標的同方差不確定性為每
個任務動態分配權重。
[0013]進一步,所述事件類型檢測解碼器基于Bert文本分類模型,將最后一層輸出的第一個token位置當作句子的表示,然后連接全連接層進行分類,具體包括以下步驟:
[0014]S11:首先初始化嵌入矩陣為類型嵌入,其中E表示事件類型集合,d為詞向量維(d=768);
[0015]S12:通過相似性函數δ來度量候選類型c∈C和標記表示之間的相關性;
[0016]S13:通過測量具有相同相似度函數δ的自適應句子表征s
c
、類型嵌入c的相似度來預測事件類型。
[0017]進一步,所述觸發詞提取解碼器利用條件融合函數建立事件類型檢測和觸發詞提取之間的條件依賴關系模型,對類型檢測和觸發詞提取之間的條件依賴性進行建模,通過自注意力層來進一步細化觸發詞提取的表示。
[0018]進一步,所述事件元素提取解碼器首先使用條件融合函數φ對事件類型、觸發詞和事件元素進行依賴性建模,然后進行特征提取;采用多頭注意力結合雙向LSTM層來細化事件元素提取的表示:
[0019]Z
ct
=[Z
ct
′
;P]?????????????
(1)
[0020]Y
ct
=[Y
ct
′
;P]?????????????
(2)
[0021]X
ct
=[Z
ct
;Y
ct
]???????????
(3)
[0022]其中是相對位置嵌入,d
p
是維度,Z
ct
是經過雙向LSTM層后的矩陣表示,Y
ct
是經過多頭注意力層后的矩陣表示,X
ct
是兩層網絡融合拼接后的矩陣表示,如公式(1)~(3)所示,然后使用正則化進行降維;
[0023]最后使用指示符函數I(r,c)來指示該角色是否屬于根據預定義事件模式的類型,表示公式如(4)所示:
[0024][0025]使用一對taggers標記器來預測事件元素,其中表示X
c
中的第i個tokens表示,事件元素起始位置和結束位置的表示如公式(5)(6)所示:
[0026][0027][0028]選擇值的結果為預測的起始位置,選擇值的結果為預測的結束位置,ξ4,ξ5∈[0,1]是標量閾值;通過列舉所有起始位置,搜索句子中最近的結束位置,起始位置和結束位置之間的標記形成一個完整的事件元素。
[0029]進一步,所述損失權重調整模塊實施步驟如下:
[0030]手動設置初始化權重,結合多個損失函數,同時利用多個目標的同方差不確定性,如公式(7)所示,重新為每個任務分配權重:
[0031]l
′
=1/(2σ^2)
·
l+log(1+1/σ^2)
???
(7)
[0032]其中,σ表示高斯分布的標準差,l表示單任務部分的損失,l
′
表示權重更新后單任務的損失。
[0033]本專利技術的有益效果在于:本專利技術提高了對語句中的文字信息的提取能力,增強了
對句子結構的提取能力,并且能夠長距離的傳遞信息,從而更好地進行特征提取,獲取更豐富的語義信息。考慮到聯合學習多任務模型的各任務間損失量級相差較大,導致收斂方向傾向于某任務,本專利技術采用動態設置損失權重的方法,具體是根據各任務的損失占比重新為每個任務分配權重,以使各任務的損失在同一量級上,優化了整體模型的收斂方向,提高了模型的泛化性。
[0034]本專利技術的其他優點、目標和特征在某種程度上將在隨后的說明書中進行闡述,并且在某種程度上,基于對下文的考察研究對本領域技術人員而言將是顯而易見的,或者可以從本專利技術的實踐中得到教導。本專利技術的目標和其他優點可以通過下面的說明書來實現和獲得。
附圖說明
[0035]為了使本專利技術的目的、技術方案和優點更加清楚,下面將結合附圖對本專利技術作優選的詳細描述,其中:
[0036]圖1為本專利技術所述基于BiLSTM結合多頭注意力的中文重疊事件抽取系統結構示意本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于BiLSTM結合多頭注意力的中文重疊事件抽取系統,其特征在于:包括Bert編碼器、事件類型檢測解碼器、觸發詞提取解碼器、事件元素提取解碼器和損失權重調整模塊;所述Bert編碼器作為文本編碼器,生成以標記上下文為條件的文本表示,并包含豐富的文本信息;所述事件類型檢測解碼器基于Bert文本分類模型,對事件進行分類;所述觸發詞提取解碼器通過事件類型檢測與觸發詞提取之間的條件依賴關系,根據獲取到的事件類型提取出觸發詞;所述事件元素提取解碼器采用多頭注意力結合雙向LSTM層對事件元素進行提取;所述損失權重調整模塊結合多個損失函數,利用多個目標的同方差不確定性為每個任務動態分配權重。2.根據權利要求1所述的基于BiLSTM結合多頭注意力的中文重疊事件抽取系統,其特征在于:所述事件類型檢測解碼器基于Bert文本分類模型,將最后一層輸出的第一個token位置當作句子的表示,然后連接全連接層進行分類,具體包括以下步驟:S11:首先初始化嵌入矩陣為類型嵌入,其中E表示事件類型集合,d為詞向量維(d=768);S12:通過相似性函數δ來度量候選類型c∈C和標記表示之間的相關性;S13:通過測量具有相同相似度函數δ的自適應句子表征s
c
、類型嵌入c的相似度來預測事件類型。3.根據權利要求1所述的基于BiLSTM結合多頭注意力的中文重疊事件抽取系統,其特征在于:所述觸發詞提取解碼器利用條件融合函數建立事件類型檢測和觸發詞提取之間的條件依賴關系模型,對類型檢測和觸發詞提取之間的條件依賴性進行建模,通過自注意力層來進一步細化觸發詞提取的表示。4.根據權利要求1所述的基于BiLSTM結合多頭注意力的中文重疊事件抽取系統,其特征在于:所述事件元素提取解碼器首先使用條件融合函數φ對事件類型、觸發詞和事件元素進行依賴性建模,然后進行特征提取;采用多頭注意力結合雙向LSTM層來細化事件元素提取的表示:Z
ct
=[Z
ct
′...
【專利技術屬性】
技術研發人員:甘玲,張在軍,劉菊,胡柳慧,
申請(專利權)人:重慶郵電大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。