基于BiLSTM結合多頭注意力的中文重疊事件抽取系統技術方案

技術編號：34951200 閱讀：40 留言：0更新日期：2022-09-17 12:28

本發明專利技術涉及一種基于BiLSTM結合多頭注意力的中文重疊事件抽取系統，屬于自然語言處理領域，Bert編碼器作為文本編碼器，生成以標記上下文為條件的文本表示，并包含豐富的文本信息；事件類型檢測解碼器基于Bert文本分類模型，對事件進行分類；觸發詞提取解碼器通過事件類型檢測與觸發詞提取之間的條件依賴關系，根據獲取到的事件類型提取出觸發詞；事件元素提取解碼器采用多頭注意力結合雙向LSTM層對事件元素進行提取；損失權重調整模塊結合多個損失函數，利用多個目標的同方差不確定性為每個任務動態分配權重。個任務動態分配權重。個任務動態分配權重。

全部詳細技術資料下載

【技術實現步驟摘要】
基于BiLSTM結合多頭注意力的中文重疊事件抽取系統

[0001]本專利技術屬于自然語言處理領域，涉及一種基于BiLSTM結合多頭注意力的中文重疊事件抽取系統。

技術介紹

[0002]隨著互聯網技術的發展，大量信息以文本的形式存儲在計算機里，如何挖掘有價值的信息，已成為信息抽取的核心問題。事件抽取是信息抽取領域的研究熱點之一，核心任務是從無結構化的自然語言文本中抽取指定類型的信息，并以半結構化或結構化的形式進行表示。
[0003]目前主流的研究方法大多基于神經網絡，通過網絡提取特征。Chen等人提出基于動態多池化卷積神經網絡的方法，根據觸發詞和事件元素使用動態多池化層提取信息；Zeng等人提出用雙向LSTM和CRF抽取句子特征，用卷積神經網絡抽取語義特征進行中文事件抽取；Chen等人提出利用知識庫的遠程監督方法，生成大規模標注數據，應用到金融領域；Liu等人提出聯合多事件提取框架用于重疊事件抽取；Yang等人提出根據角色分離事件元素的方法解決角色重疊問題。
[0004]在現有技術中，存在以下問題：(1)對于應用場景復雜的中文金融事件元素提取，事件中含有較多未定義的公司名、專業詞匯。由于提取的特征不足，存在識別召回率較低問題。(2)對于多任務聯合學習模型，其底層網絡參數是共享的，因此，模型的收斂往往容易偏向于損失權重占比較大的任務，導致錯誤傳播問題。

技術實現思路

[0005]有鑒于此，本專利技術的目的在于提供一種基于BiLSTM結合多頭注意力的中文重疊事件抽取系統，采用多頭自注意力融合...

【技術保護點】

【技術特征摘要】
1.一種基于BiLSTM結合多頭注意力的中文重疊事件抽取系統，其特征在于：包括Bert編碼器、事件類型檢測解碼器、觸發詞提取解碼器、事件元素提取解碼器和損失權重調整模塊；所述Bert編碼器作為文本編碼器，生成以標記上下文為條件的文本表示，并包含豐富的文本信息；所述事件類型檢測解碼器基于Bert文本分類模型，對事件進行分類；所述觸發詞提取解碼器通過事件類型檢測與觸發詞提取之間的條件依賴關系，根據獲取到的事件類型提取出觸發詞；所述事件元素提取解碼器采用多頭注意力結合雙向LSTM層對事件元素進行提取；所述損失權重調整模塊結合多個損失函數，利用多個目標的同方差不確定性為每個任務動態分配權重。2.根據權利要求1所述的基于BiLSTM結合多頭注意力的中文重疊事件抽取系統，其特征在于：所述事件類型檢測解碼器基于Bert文本分類模型，將最后一層輸出的第一個token位置當作句子的表示，然后連接全連接層進行分類，具體包括以下步驟：S11：首先初始化嵌入矩陣為類型嵌入，其中E表示事件類型集合，d為詞向量維(d＝768)；S12：通過相似性函數δ來度量候選類型c∈C和標記表示之間的相關性；S13：通過測量具有相同相似度函數δ的自適應句子表征s
c
、類型嵌入c的相似度來預測事件類型。3.根據權利要求1所述的基于BiLSTM結合多頭注意力的中文重疊事件抽取系統，其特征在于：所述觸發詞提取解碼器利用條件融合函數建立事件類型檢測和觸發詞提取之間的條件依賴關系模型，對類型檢測和觸發詞提取之間的條件依賴性進行建模，通過自注意力層來進一步細化觸發詞提取的表示。4.根據權利要求1所述的基于BiLSTM結合多頭注意力的中文重疊事件抽取系統，其特征在于：所述事件元素提取解碼器首先使用條件融合函數φ對事件類型、觸發詞和事件元素進行依賴性建模，然后進行特征提取；采用多頭注意力結合雙向LSTM層來細化事件元素提取的表示：Z
ct
＝[Z
ct
′...

【專利技術屬性】
技術研發人員：甘玲，張在軍，劉菊，胡柳慧，
申請(專利權)人：重慶郵電大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術