• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種鐵路文本命名實體識別方法及裝置制造方法及圖紙

    技術編號:24252000 閱讀:50 留言:0更新日期:2020-05-22 23:48
    本發明專利技術實施例提供一種鐵路文本命名實體識別方法及裝置,該方法包括:對原始鐵路文本數據進行預處理,得到預處理鐵路文本數據信息;將預處理鐵路文本數據信息輸入預設BERT模型,得到鐵路文本向量信息;將鐵路文本向量信息輸入預設BiLSTM?CRF模型,得到鐵路文本命名實體識別結果信息;其中,BERT實現文本上下文的鐵路文本特征向量學習,獲得鐵路行業事故故障文本向量表示。通過利用預設BERT增強故障文本命名實體關鍵字的向量和語義表示,通過BiLSTM?CRF模型,實現對于故障文本向量的計算和識別,得到鐵路文本命名實體識別結果信息。

    A method and device of railway text named entity recognition

    【技術實現步驟摘要】
    一種鐵路文本命名實體識別方法及裝置
    本專利技術涉及信息處理
    ,尤其涉及一種鐵路文本命名實體識別方法及裝置。
    技術介紹
    鐵路具有技術復雜度高、運行速度快、載客量大、行車間隔小、救援難度大、安全性要求高等特點,局部故障很容易造成連鎖反應和放大效應,這對鐵路運營過程中突發故障的安全預警和快速處置提出了新的更高要求。鐵路安全領域實體名稱結構復雜,名稱縮略語眾多、專業術語性強,且安全文本數據多以Word、Excel等形式存儲,并以紙質形式存檔,受限于傳統技術限制,難以從原始數據庫中高效抽取數據有效信息來挖掘蘊藏在數據中的有效信息,而提取鐵路安全文本數據中蘊藏的潛在有效信息能夠大幅提升鐵路安全數據利用價值,進一步為鐵路智能化運維提供輔助決策。因此,如何有效的在鐵路安全文本中實現命名實體識別已經成為業界亟待解決的問題。
    技術實現思路
    本專利技術實施例提供一種鐵路文本命名實體識別方法及裝置,用以解決上述
    技術介紹
    中提出的技術問題,或至少部分解決上述
    技術介紹
    中提出的技術問題。第一方面,本專利技術實施例提供一種鐵路文本命名實體識別方法,包括:對原始鐵路文本數據進行預處理,得到預處理鐵路文本數據信息;將所述預處理鐵路文本數據信息輸入預設BERT模型,得到鐵路文本向量信息;將所述鐵路文本向量信息輸入預設BiLSTM-CRF模型,得到鐵路文本命名實體識別結果信息;其中,所述預設BERT模型是通過帶實體標記的樣本預處理鐵路文本數據信息訓練得到,所述預設BiLSTM-CRF模型是通過帶實體標記和語序標記的樣本鐵路文本向量信息訓練得到。更具體的,將所述預處理鐵路文本數據信息輸入預設BERT模型,得到鐵路文本向量信息的步驟之前,所述方法還包括:獲取樣本預處理鐵路文本數據信息,通過BIO標記對樣本預處理鐵路文本數據信息進行命名實體標記,并在樣本預處理鐵路文本數據信息的句首和句尾分別插入CLS標記和SEP標記,得到帶實體標記的樣本預處理鐵路文本向量信息;對所述帶實體標記的樣本預處理鐵路文本向量信息的語序信息進行編碼處理,得到帶實體標記和語序標記的樣本鐵路文本向量信息;根據所述帶實體標記和語序標記的樣本鐵路文本向量信息對BERT模型進行訓練,當BERT模型損失函數穩定收斂時,得到預設BERT模型。更具體的,在所述將所述鐵路文本向量信息輸入預設BiLSTM-CRF模型,得到鐵路文本命名實體識別結果信息的步驟之前,所述方法還包括:獲取帶實體標記和語序標記的樣本鐵路文本向量信息,根據所述帶實體標記和語序標記的樣本鐵路文本向量信息對BiLSTM模型進行訓練,輸出帶語序標簽的樣本鐵路文本上下文信息,當滿足預設訓練條件,得到訓練好的BiLSTM模型;根據所述帶語序標簽的樣本鐵路文本上下文信息對CRF模型進行訓練,當滿足第二預設訓練條件,得到訓練好的CRF模型,根據所述訓練好的BiLSTM模型的和訓練好的CRF模型得到預設BiLSTM-CRF模型。更具體的,所述根據所述帶實體標記和語序標記的樣本鐵路文本向量信息對BERT模型進行訓練,當BERT模型損失函數穩定收斂時,得到預設BERT模型的步驟,具體包括:將所述樣本鐵路文本向量中的部分字符進行遮掩處理,得到未被遮掩字符信息;通過未被遮掩字符的上下文含義,對被遮掩處理的部分字符進行預測;獲取無語序標簽的樣本隨機向量信息,根據所述無語序標簽的樣本隨機向量信息和無語序標簽的樣本隨機向量信息進行后續語句預測訓練;當預測值損失函數穩定收斂,且后續語句預測函數穩定收斂時,得到預設BERT模型。更具體的,所述對原始鐵路文本數據進行預處理的步驟具體包括:去除原始鐵路文本數據中的設備信號信息、設備編號信息和日期信息,得到第一鐵路文本數據信息;將所述第一鐵路文本數據信息拆分為單個漢字字符,并去除重復漢字字符,得到預處理鐵路文本數據信息。更具體的,所述BiLSTM模型包括前向LSTM模型和后向LSTM模型。第二方面,本專利技術實施例提供一種鐵路文本命名實體識別裝置,包括:預處理模塊,用于對原始鐵路文本數據進行預處理,得到預處理鐵路文本數據信息;向量轉換模塊,用于將所述預處理鐵路文本數據信息輸入預設BERT模型,得到鐵路文本向量信息;識別模塊,用于將所述鐵路文本向量信息輸入預設BiLSTM-CRF模型,得到鐵路文本命名實體識別結果信息;其中,所述預設BERT模型是通過帶實體標記的樣本預處理鐵路文本數據信息訓練得到,所述預設BiLSTM-CRF模型是通過帶實體標記和語序標記的樣本鐵路文本向量信息訓練得到。第三方面,本專利技術實施例提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如第一方面所述鐵路文本命名實體識別方法的步驟。第四方面,本專利技術實施例提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如第一方面所述鐵路文本命名實體識別方法的步驟。本專利技術實施例提供的一種鐵路文本命名實體識別方法及裝置,通過利用預設BERT增強故障文本命名實體關鍵字的向量和語義表示,通過預設BiLSTM-CRF模型,實現對于故障文本命名向量的計算和識別,并調整預測信息的排序關系,實現鐵路領域文本的特征抽取,減少人力成本得到鐵路文本命名實體識別結果信息。附圖說明為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1為本專利技術一實施例中所描述的鐵路文本命名實體識別方法流程示意圖;圖2為本專利技術一實施例所描述的BiLSTM神經網絡結構示意圖;圖3為本專利技術一實施例所描述的鐵路文本命名實體識別過程示意圖;圖4為本專利技術一實施例所描述的鐵路文本命名實體識別裝置結構示意圖;圖5為本專利技術一實施例所描述的電子設備結構示意圖。具體實施方式為使本專利技術實施例的目的、技術方案和優點更加清楚,下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。圖1為本專利技術一實施例中所描述的鐵路文本命名實體識別方法流程示意圖,如圖1所示,包括:步驟S1,對原始鐵路文本數據進行預處理,得到預處理鐵路文本數據信息;步驟S2,將所述預處理鐵路文本數據信息輸入預設BERT模型,得到鐵路文本向量信息;步驟S3,將所述鐵路文本向量信息輸入預設BiLSTM-CRF模型,得到鐵路文本命名實體識別結果信息;...

    【技術保護點】
    1.一種鐵路文本命名實體識別方法,其特征在于,包括:/n對原始鐵路文本數據進行預處理,得到預處理鐵路文本數據信息;/n將所述預處理鐵路文本數據信息輸入預設BERT模型,得到鐵路文本向量信息;/n將所述鐵路文本向量信息輸入預設BiLSTM-CRF模型,得到鐵路文本命名實體識別結果信息;/n其中,所述預設BERT模型是通過帶實體標記的樣本預處理鐵路文本數據信息訓練得到,所述預設BiLSTM-CRF模型是通過帶實體標記和語序標記的樣本鐵路文本向量信息訓練得到。/n

    【技術特征摘要】
    1.一種鐵路文本命名實體識別方法,其特征在于,包括:
    對原始鐵路文本數據進行預處理,得到預處理鐵路文本數據信息;
    將所述預處理鐵路文本數據信息輸入預設BERT模型,得到鐵路文本向量信息;
    將所述鐵路文本向量信息輸入預設BiLSTM-CRF模型,得到鐵路文本命名實體識別結果信息;
    其中,所述預設BERT模型是通過帶實體標記的樣本預處理鐵路文本數據信息訓練得到,所述預設BiLSTM-CRF模型是通過帶實體標記和語序標記的樣本鐵路文本向量信息訓練得到。


    2.根據權利要求1所述鐵路文本命名實體識別方法,其特征在于,在所述將所述預處理鐵路文本數據信息輸入預設BERT模型,得到鐵路文本向量信息的步驟之前,所述方法還包括:
    獲取樣本預處理鐵路文本數據信息,通過BIO標記對樣本預處理鐵路文本數據信息進行命名實體標記,并在樣本預處理鐵路文本數據信息的句首和句尾分別插入CLS標記和SEP標記,得到帶實體標記的樣本預處理鐵路文本向量信息;
    對所述帶實體標記的樣本預處理鐵路文本向量信息的語序信息進行編碼處理,得到帶實體標記和語序標記的樣本鐵路文本向量信息;
    根據所述帶實體標記和語序標記的樣本鐵路向量數據信息對BERT模型進行訓練,當BERT模型損失函數穩定收斂時,得到預設BERT模型。


    3.根據權利要求1所述鐵路文本命名實體識別方法,其特征在于,在所述將所述鐵路文本向量信息輸入預設BiLSTM-CRF模型,得到鐵路文本命名實體識別結果信息的步驟之前,所述方法還包括:
    獲取帶實體標記和語序標記的樣本鐵路文本向量信息,根據所述帶實體標記和語序標記的樣本鐵路文本向量信息對BiLSTM模型進行訓練,輸出帶語序標簽的樣本鐵路文本上下文信息,當滿足第一預設訓練條件,得到訓練好的BiLSTM模型;
    根據所述帶語序標簽的樣本鐵路文本上下文信息對CRF模型進行訓練,當滿足第二預設訓練條件,得到訓練好的CRF模型,根據所述訓練好的BiLSTM模型的和訓練好的CRF模型得到預設BiLSTM-CRF模型。


    4.根據權利要求2所述鐵路文本命名實體識別方法,其特征在于,所述根據所述帶實體標記和語...

    【專利技術屬性】
    技術研發人員:楊連報王同軍李新琴董興芝薛蕊李平朱建生馬小寧馬志強劉軍吳艷華鄒丹王喆代明睿張曉棟程智博趙冰
    申請(專利權)人:中國鐵道科學研究院集團有限公司電子計算技術研究所北京經緯信息技術有限公司中國鐵道科學研究院集團有限公司
    類型:發明
    國別省市:北京;11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 少妇无码AV无码专区线| 久久久久久国产精品无码超碰| 无码人妻一区二区三区免费手机| 精品无码久久久久国产动漫3d| 精品无码一区二区三区水蜜桃| 国产品无码一区二区三区在线蜜桃| 白嫩少妇激情无码| 国产av无码专区亚洲av果冻传媒| 中文字幕无码中文字幕有码| 中文人妻无码一区二区三区| 色综合无码AV网站| 国产乱妇无码大片在线观看| 中文字幕av无码不卡免费| 无码国产精成人午夜视频不卡 | 精品无人区无码乱码毛片国产| 人妻中文字系列无码专区| 无码专区6080yy国产电影| 亚洲日韩中文字幕无码一区| 国产精品亚韩精品无码a在线| 精品无码黑人又粗又大又长| 亚洲中文无码永久免费| 亚洲中文无码mv| 一本色道无码道DVD在线观看| 毛片免费全部播放无码| 亚洲国产AV无码专区亚洲AV| 中文字幕丰满乱孑伦无码专区| 精品无码国产污污污免费| 在线看片无码永久免费视频 | 乱人伦人妻中文字幕无码久久网 | 国产精品VA在线观看无码不卡| 精品无码综合一区二区三区 | 国产午夜鲁丝片AV无码免费| 久久亚洲AV成人无码电影| 亚洲国产精品无码av| 久久久久久国产精品无码超碰 | 国产精品va无码免费麻豆| 亚洲av无码一区二区三区在线播放| 亚洲av日韩av无码av| 亚洲aⅴ无码专区在线观看 | 无码精品A∨在线观看十八禁| 亚洲国产超清无码专区|