【技術實現步驟摘要】
本專利技術涉及自然語言處理領域,特別涉及一種基于雙向遞歸神經網絡的新企業名稱發現方法。
技術介紹
隨著互聯網的快速發展,產生了大量的、公開的網頁數據,也因此催發了各種基于大數據技術的新興產業,比如互聯網醫療、互聯網教育、企業或者個人征信等。這些互聯網產業的興起于繁榮離不開大量的信息數據分析,而信息分析的價值在于準確和敏銳,敏銳的分析要求及時快速的發現新的信息;但是直接從網頁上獲取到數據大部分都是非結構化的,為了使用這些數據,數據清洗工作成了各大公司耗費時間精力最多的地方。而數據清洗當中特定信息提取,特別是命名實體的提取又是經常發生的事情,比如做企業征信,最常見的任務就是從大篇幅文本當中提取公司的名字。除了常見的按照“省市+關鍵字+行業+組織形式”的規則來命名之外,還存在大量的例外,比如公司名沒有使用省市作為開頭,又或者在非正式文本里,公司名可能以簡寫、縮寫的方式出現,這直接導致了使用傳統的方式來進行的信息解析的召回率不高。此外隨著市場經濟的繁榮,新增加的企業主體不斷出現,新的市場主體的也會隨之出現在各種各樣的網絡數據或媒體新聞中,從海量的網頁資訊中快速準確的發現和提取出新的機構名稱,對于相關問題分析的及時性具有特別重要的意義。傳統的自然語言處理方法使用條件隨機場(CRF)對文本進行序列建模,進行文本分析識別和發現公司名。使用條件隨機場,首先需要根據待識別實體的
特點來設計構建特征模板,特征模板包括指定窗口大小上下文的一階詞或者多階詞組,詞的前綴、后綴,詞性標注等狀態特征;特征模板的構造非常耗時耗力,識別結果對特征模板的依賴程度極大,而手動 ...
【技術保護點】
一種基于雙向遞歸神經網絡的新企業名稱發現方法,其特征在于,通過現有的企業名稱數據自動標注樣本來訓練雙向遞歸神經網絡,通過所述雙向遞歸神經網絡自動識別出待處理文本中的企業名稱,并將其中新企業名稱提取出來。
【技術特征摘要】
1.一種基于雙向遞歸神經網絡的新企業名稱發現方法,其特征在于,通過現有的企業名稱數據自動標注樣本來訓練雙向遞歸神經網絡,通過所述雙向遞歸神經網絡自動識別出待處理文本中的企業名稱,并將其中新企業名稱提取出來。2.如權利要求1所述的方法,其特征在于,包含以下實現步驟:(1)使用現有企業名稱列表數據來自動標注訓練樣本中的企業名稱,并將企業名稱分段標記為:開始部分、中間部分、結束部分,將企業主體名稱以外的文字標記為無關部分;(2)將經過人工標記的訓練樣本中的文字序列,先正向再反向輸入所雙向述遞歸神經網絡中,訓練所述雙向遞歸神經網絡;(3)將待分析文本中的文字序列,先正向再反向輸入訓練好的所述雙向遞歸神經網絡中,經過雙向遞歸神經網絡判斷出文字序列中各個詞或者字的類型,并將其中相鄰的屬于企業名稱的開始中間結束部分對應的字詞作為一個整體提取出來;(4)將所述雙向遞歸神經網絡識別出來的企業名稱與現有企業列表數據對比,將不屬于現有企業名稱的作為新的企業名稱提取出來。3.如權利要求2所述的方法,其特征在于,所述雙向遞歸神經網絡采用如下向前算法公式: a h → t = Σ i I w i h → x i t + Σ h ′ → H w h → h ′ → b h ′ → t - 1 ]]> b h → t = θ ( a h → t ) ]]> a h ← t = Σ i I w i h ← x i t + Σ h ′ ← H w h ← h ′ ← b h ′ ← t + 1 ]]> b h ← t = θ ...
【專利技術屬性】
技術研發人員:劉世林,何宏靖,
申請(專利權)人:成都數聯銘品科技有限公司,
類型:發明
國別省市:四川;51
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。