• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于雙向遞歸神經網絡的新企業名稱發現方法技術

    技術編號:13738238 閱讀:119 留言:0更新日期:2016-09-22 09:58
    本發明專利技術涉及自然語言處理領域,特別涉及一種基于雙向遞歸神經網絡的新企業名稱發現方法,本發明專利技術通過現有的企業名稱數據自動標注樣本來訓練雙向遞歸神經網絡,通過雙向遞歸神經網絡的學習自動識別待處理文本中的企業名稱,并將不屬于現有企業名稱的新企業名稱提取出來,本發明專利技術通過對文本的基本元素,比如字、詞、標點符號等進行特征的自動學習,克服了傳統方式中需要手動設置特征的缺陷;不僅如此,本發明專利技術應用了雙向傳播的RNN使得待識別的自然語言序列的分類判斷結果依賴了上下文信息,提取和判斷的準備率更高,本發明專利技術方法通過已有數據特點來發現新的企業實體名稱,在大數據分析領域特別是以企業為分析主體的數據分析領域中具有重要的應用價值。

    【技術實現步驟摘要】

    本專利技術涉及自然語言處理領域,特別涉及一種基于雙向遞歸神經網絡的新企業名稱發現方法
    技術介紹
    隨著互聯網的快速發展,產生了大量的、公開的網頁數據,也因此催發了各種基于大數據技術的新興產業,比如互聯網醫療、互聯網教育、企業或者個人征信等。這些互聯網產業的興起于繁榮離不開大量的信息數據分析,而信息分析的價值在于準確和敏銳,敏銳的分析要求及時快速的發現新的信息;但是直接從網頁上獲取到數據大部分都是非結構化的,為了使用這些數據,數據清洗工作成了各大公司耗費時間精力最多的地方。而數據清洗當中特定信息提取,特別是命名實體的提取又是經常發生的事情,比如做企業征信,最常見的任務就是從大篇幅文本當中提取公司的名字。除了常見的按照“省市+關鍵字+行業+組織形式”的規則來命名之外,還存在大量的例外,比如公司名沒有使用省市作為開頭,又或者在非正式文本里,公司名可能以簡寫、縮寫的方式出現,這直接導致了使用傳統的方式來進行的信息解析的召回率不高。此外隨著市場經濟的繁榮,新增加的企業主體不斷出現,新的市場主體的也會隨之出現在各種各樣的網絡數據或媒體新聞中,從海量的網頁資訊中快速準確的發現和提取出新的機構名稱,對于相關問題分析的及時性具有特別重要的意義。傳統的自然語言處理方法使用條件隨機場(CRF)對文本進行序列建模,進行文本分析識別和發現公司名。使用條件隨機場,首先需要根據待識別實體的
    特點來設計構建特征模板,特征模板包括指定窗口大小上下文的一階詞或者多階詞組,詞的前綴、后綴,詞性標注等狀態特征;特征模板的構造非常耗時耗力,識別結果對特征模板的依賴程度極大,而手動設置的特征模板往往僅依據部分樣本的特點,通用性差;而且通常只能用到局部的上下文信息,各個特征模板的使用也是相互獨立的,預測不能依賴更長的歷史狀態信息,也無法利用更長未來的信息反饋來糾正可能的歷史錯誤;預測過程費時費力,預測結果難以實現全局最優。為了提升信息分析的敏銳性,研究一套基于自動化學習的方法來發現新的企業名稱流程是必須的。
    技術實現思路
    本專利技術的目的在于克服現有技術中所存在的上述不足,提供一種基于雙向遞歸神經網絡的新企業名稱發現方法。利用已有的企業名稱數據標注樣本來訓練所述雙向遞歸神經網絡,通過遞歸神經網絡來對文本中的企業主體名稱進行預測,發現待處理文本中的企業名稱,并進一步提取出新的企業名稱。本專利技術使用大量的已有數據來自動標注訓練樣本,極大的節省了神經網絡使用過程中手動標注樣本的時間成本,使得神經網絡的使用過程更加簡化。不僅如此通過雙向遞歸神經網絡預測企業主體名稱時既依賴了前文信息又依賴了后文信息,預測的結果實現了全局優化,識別的可靠性更高;且無需手動設置特征模板,節省人力且通用性更好,可以在各種類型的文本中發現并提取新的企業名稱,為相關信息的及時分析提供技術支撐。為了實現上述專利技術目的,本專利技術提供了以下技術方案:一種基于雙向遞歸神經網絡的新企業名稱發現方法,通過現有的企業名稱
    數據自動標注樣本來訓練雙向遞歸神經網絡,通過所述雙向遞歸神經網絡自動識別出待處理文本中的企業名稱,并將其中新企業名稱提取出來。本專利技術方法包含以下實現步驟:(1)使用現有企業名稱列表數據來自動標注訓練樣本中的企業名稱,并將企業名稱分段標記為:開始部分、中間部分、結束部分,將企業主體名稱以外的文字標記為無關部分;(2)將經過人工標記的訓練樣本中的文字序列,先正向再反向輸入所雙向述遞歸神經網絡中,來訓練所述雙向遞歸神經網絡,所述雙向遞歸神經網絡采用以下向前算法公式: a h → t = Σ i I w i h → x i t + Σ h ′ → H w h → h ′ → b h ′ → t - 1 ]]> b h → t = θ ( a h → t ) ]]> a h ← t = Σ i I w i h ← x i t + Σ h ′ ← H w h ← h ′ ← b h ′ ← t + 1 ]]> b h ← t = θ ( 本文檔來自技高網
    ...

    【技術保護點】
    一種基于雙向遞歸神經網絡的新企業名稱發現方法,其特征在于,通過現有的企業名稱數據自動標注樣本來訓練雙向遞歸神經網絡,通過所述雙向遞歸神經網絡自動識別出待處理文本中的企業名稱,并將其中新企業名稱提取出來。

    【技術特征摘要】
    1.一種基于雙向遞歸神經網絡的新企業名稱發現方法,其特征在于,通過現有的企業名稱數據自動標注樣本來訓練雙向遞歸神經網絡,通過所述雙向遞歸神經網絡自動識別出待處理文本中的企業名稱,并將其中新企業名稱提取出來。2.如權利要求1所述的方法,其特征在于,包含以下實現步驟:(1)使用現有企業名稱列表數據來自動標注訓練樣本中的企業名稱,并將企業名稱分段標記為:開始部分、中間部分、結束部分,將企業主體名稱以外的文字標記為無關部分;(2)將經過人工標記的訓練樣本中的文字序列,先正向再反向輸入所雙向述遞歸神經網絡中,訓練所述雙向遞歸神經網絡;(3)將待分析文本中的文字序列,先正向再反向輸入訓練好的所述雙向遞歸神經網絡中,經過雙向遞歸神經網絡判斷出文字序列中各個詞或者字的類型,并將其中相鄰的屬于企業名稱的開始中間結束部分對應的字詞作為一個整體提取出來;(4)將所述雙向遞歸神經網絡識別出來的企業名稱與現有企業列表數據對比,將不屬于現有企業名稱的作為新的企業名稱提取出來。3.如權利要求2所述的方法,其特征在于,所述雙向遞歸神經網絡采用如下向前算法公式: a h → t = Σ i I w i h → x i t + Σ h ′ → H w h → h ′ → b h ′ → t - 1 ]]> b h → t = θ ( a h → t ) ]]> a h ← t = Σ i I w i h ← x i t + Σ h ′ ← H w h ← h ′ ← b h ′ ← t + 1 ]]> b h ← t = θ ...

    【專利技術屬性】
    技術研發人員:劉世林何宏靖
    申請(專利權)人:成都數聯銘品科技有限公司
    類型:發明
    國別省市:四川;51

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码一区二区三区性色| 国产激情无码一区二区| 中文无码字慕在线观看| 亚洲AV无码一区二区三区鸳鸯影院 | 无码Aⅴ在线观看| 超清无码无卡中文字幕| 亚洲AV无码成人网站在线观看| 最新高清无码专区| 国产成人无码免费视频97 | 精品久久久久久无码免费| 无码人妻丝袜在线视频| 性无码专区无码片| 少妇性饥渴无码A区免费 | 国产白丝无码免费视频| 亚洲 无码 在线 专区| 亚洲AV无码一区二区三区性色| 国产AV无码专区亚洲A∨毛片| 国产成人年无码AV片在线观看 | 精品亚洲成α人无码成α在线观看 | 日韩精品人妻系列无码专区 | 无码办公室丝袜OL中文字幕| 亚洲2022国产成人精品无码区| av无码一区二区三区| 少妇人妻av无码专区| 人妻丰满熟AV无码区HD| 人妻精品久久无码区洗澡| 人妻少妇精品无码专区漫画| 亚洲AV成人无码久久WWW| 精品无码一区二区三区爱欲九九| 亚洲级αV无码毛片久久精品| 中文字幕无码不卡在线| 国产成人无码精品久久久免费| 精品少妇人妻av无码专区| 秋霞鲁丝片无码av| 国产精品无码v在线观看| 中文有无人妻vs无码人妻激烈 | 无码人妻精品一区二区蜜桃AV| 无码中文字幕色专区| 四虎成人精品国产永久免费无码| 亚洲乱亚洲乱少妇无码| 亚洲啪啪AV无码片|