• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>南京師范大學(xué)專利>正文

    基于CHI特征選取的文本事件分類方法技術(shù)

    技術(shù)編號:12170604 閱讀:105 留言:0更新日期:2015-10-08 04:02
    本發(fā)明專利技術(shù)公開了一種基于CHI特征選取的文本事件分類方法,包括針對訓(xùn)練語料的分類模型訓(xùn)練過程和文本分類過程。該方法通過分析中文文本事件的語言描述特征,選取CHI值作為主題特征向量,針對選取的訓(xùn)練語料形成特征文件和訓(xùn)練模版,最終實(shí)現(xiàn)文本事件信息的分類。其中,模型訓(xùn)練過程包括以下步驟:(1)文本訓(xùn)練語料選取;(2)文本語料預(yù)處理;(3)類別特征選取,生成特征文件集合;(4)文本特征向量生成及歸一化處理,生成特征向量文件;(5)SVM模型訓(xùn)練。文本分類過程與模型訓(xùn)練過程類似。本發(fā)明專利技術(shù)采用的方法可廣泛地應(yīng)用于中文文本數(shù)據(jù)挖掘的識別、分類、解析與監(jiān)測過程,能夠有效提升中文文本自然語言處理的解析效率與解析精度。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)屬于地理信息的數(shù)據(jù)挖掘領(lǐng)域,具體公開了一種基于CHI特征選取的文本 事件分類方法。
    技術(shù)介紹
    隨著互聯(lián)網(wǎng)資源爆炸式的增長,分類技術(shù)已經(jīng)成為倍受關(guān)注的領(lǐng)域和研究的熱 點(diǎn)。全球技術(shù)研究和咨詢公司相關(guān)調(diào)查報告顯示,未來10年中至少95%的人機(jī)交互信息是 文本語言,其中事件是人們認(rèn)知和理解世界的基本單位,包含著人類對事件信息描述的時 空與屬性要素信息W及事件各要素之間的語義關(guān)聯(lián)關(guān)系。 然而,文本中事件信息的有效利用和知識的發(fā)現(xiàn)成為了現(xiàn)今文本數(shù)據(jù)挖掘領(lǐng)域亟 待面對的問題。文本分類既能夠?yàn)樾畔⑴c知識的抽取奠定基礎(chǔ),又能夠有效降低文本中事 件信息的挖掘利用難度。目前,分類體系、模式匹配與機(jī)器學(xué)習(xí)等方法大部分應(yīng)用于文本的 分類,而缺乏完整的文本中事件的分類方法。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)的目的在于;依據(jù)中文文本事件描述特點(diǎn),提出一種基于CHI特征選取的 文本事件分類方法,有效改進(jìn)中文文本自然語言處理中事件類型的分類,提升了中文文本 事件的分類精度和效率,為文本數(shù)據(jù)挖掘提供基礎(chǔ)性分類依據(jù)。 為了實(shí)現(xiàn)上述目的,本專利技術(shù)通過分析中文文本事件的語言描述特征,選取CHI值 作為主題特征向量,針對選取的訓(xùn)練語料形成特征文件和訓(xùn)練模版,最終實(shí)現(xiàn)文本事件信 息的分類,具體的過程如下; 基于CHI特征選取的文本事件分類方法,其特征在于,包括如下過程:(一)分類模型訓(xùn)練過程:[000引步驟11 ;文本訓(xùn)練語料選取,即從網(wǎng)絡(luò)文本中篩選文本訓(xùn)練語料,選取的語料包 括多種類別的主題事件,每類包括多篇語料文本; 步驟12 ;對篩選的文本訓(xùn)練語料進(jìn)行預(yù)處理,具體方法如下: a)數(shù)據(jù)轉(zhuǎn)碼處理,將原始篩選文本中各種類別的中文編碼格式統(tǒng)一轉(zhuǎn)換為UTF-8 編碼格式, b)將原始語料的格式內(nèi)容進(jìn)行初步篩選,過濾無效字符,刪除低特征文本,C)文本分詞,使用ICTCLAS工具包對文本進(jìn)行分詞處理,建立停用詞表,對文本特 征進(jìn)行初步篩選,并建立每篇語料文本的特征表; 步驟13;訓(xùn)練語料類別特征選取;對于每一類別主題事件,對每篇語料的每個特 征根據(jù)其對主題類別的貢獻(xiàn)率W及對所在語料的貢獻(xiàn)率進(jìn)行特征的篩選,使用卡方統(tǒng)計(jì)量 CHI值作為特征選擇的指標(biāo),最終每個類別提取一定數(shù)量的特征,并合并所有事件類別的特 征形成特征集合文件; 步驟14;文本特征向量生成;使用步驟13中生成的特征集合文件,遍歷每一篇訓(xùn) 練語料,抽取其中包含的特征,計(jì)算相應(yīng)的特征值,生成特征向量文件,并進(jìn)行歸一化處理, 最終生成SVM訓(xùn)練文件;步驟15;SVM分類模型訓(xùn)練:使用生成的訓(xùn)練文件訓(xùn)練SVM模型,同時通過交叉檢 驗(yàn)工具調(diào)整參數(shù)對模型進(jìn)行優(yōu)化;(二)文本分類過程: 步驟21;對待分類的文本進(jìn)行預(yù)處理,生成待分類文本的特征表; 步驟22;使用步驟13生成的特征集合文件抽取待分類文本中的類別特征; 步驟23 ;待分類文本的文本特征向量生成;使用詞頻值生成文本的特征向量,并 將特征向量進(jìn)行歸一化處理; 步驟24 ;文本分類:使用步驟15訓(xùn)練生成的SVM分類模型,對歸一化的待分類文 本特征向量進(jìn)行分類,得到待分類文本主題類別的預(yù)測結(jié)果。 本專利技術(shù)基于CHI特征選取的文本事件分類方法,利用中文文本事件的語言描述特 征,選取CHI值作為主題特征向量,結(jié)合機(jī)器學(xué)習(xí)的方法,實(shí)現(xiàn)了有效的文本事件分類。其 優(yōu)點(diǎn)是分類模型中蘊(yùn)含所有類型的主題特征信息,因此可W更加準(zhǔn)確的實(shí)現(xiàn)事件文本的分 類。本專利技術(shù)所采用的方法可成功地應(yīng)用于中文文本數(shù)據(jù)挖掘的識別、分類、解析與監(jiān)測過 程,能夠有效提升中文文本自然語言處理的解析效率與解析精度。此外,基于CHI特征選取 的文本事件分類方法還能夠?yàn)樾畔⒌倪M(jìn)一步抽取奠定有效的技術(shù)基礎(chǔ)。【附圖說明】 圖1是本專利技術(shù)中文文本事件分類方法流程圖; 圖2是訓(xùn)練語料類別1特征集合示意圖;圖3是訓(xùn)練語料生成的特征集合文件示意圖;[002引圖4是歸一化處理后的SVM訓(xùn)練文件; 圖5是基于SVM模型形成的分類模型文件; 圖6是文本分類結(jié)果。【具體實(shí)施方式】[002引下面結(jié)合附圖和實(shí)施例,做進(jìn)一步詳細(xì)說明。 本方法總體流程參見圖1。本實(shí)例選取網(wǎng)絡(luò)新聞報道文稿作為模型訓(xùn)練的原始語 料,共選取9類主題包括;汽車、財經(jīng)、IT、健康、體育、旅游、教育、招聘、文化W及軍事的文 本,每類文本2000篇共18000篇語料,語料類別涵蓋了社會生活中絕大多數(shù)事件主題,覆蓋 度高,特征豐富,語料規(guī)模適中,可W提供足夠的訓(xùn)練、測試用語料。待分類文本語料選取 "暴雨"事件的網(wǎng)絡(luò)新聞報道20篇為例,作為實(shí)施示例。(一)分類模型訓(xùn)練過程: 步驟11 ;文本訓(xùn)練語料選取;即從網(wǎng)絡(luò)文本中篩選文本訓(xùn)練語料。 步驟12;文本語料預(yù)處理; 將篩選的文本訓(xùn)練語料進(jìn)行預(yù)處理,具體方法如下:a)數(shù)據(jù)轉(zhuǎn)碼處理,將原始篩選文本中各種類別的中文編碼格式統(tǒng)一轉(zhuǎn)換為UTF-8 編碼格式。 b)將原始語料的格式內(nèi)容進(jìn)行初步篩選,過濾無效字符,刪除低特征文本。C)文本分詞,使用中科院ICTCLAS工具包對文本進(jìn)行分詞處理,建立停用詞表,對 文本特征進(jìn)行初步篩選,并建立每篇語料文本的特征表。 步驟13;訓(xùn)練語料類別特征選取;[003引選取每類語料的特征,并生成特征集合文件,對于每一類別主題事件,并非每篇語 料的所有特征都是有用特征,需要對每個特征針對其對主題類別的貢獻(xiàn)率W及對所在語料 的貢獻(xiàn)率進(jìn)行特征的篩選,最終每個類別提取一定數(shù)量的特征,并合并所有事件類別的特 征形成特征集合文件,具體方法如下: a)計(jì)算CHI指標(biāo),使用CHI值作為特征選擇的指標(biāo),即卡方統(tǒng)計(jì)量。某個特征的 CHI值依據(jù)W下公式計(jì)算: 其中,公式中各個參數(shù)的含義,說明如下;t;表示文本特征,[00創(chuàng) C;表示類別,X2 (t,C);表示文本特征t與類另UC之間的相關(guān)關(guān)系,N;訓(xùn)練數(shù)據(jù)集文檔總數(shù), A;在一個類別中,包含某個詞的文檔的數(shù)量, B;在一個類別中,排除該類別,其他類別包含某個詞的文檔的數(shù)量, C;在一個類別中,不包含某個詞的文檔的數(shù)量, D;在一個類別中,不包含某個詞也不在該類別中的文檔的數(shù)量,b)特征集合選擇,計(jì)算每個類別每個特征的CHI值,按照CHI值降序排列,此處選 擇前200個特征作為該類別的特征集合,該集合的特征可W最大限度反映類別文本的領(lǐng)域 描述特性,特征集合將作為分類模型的重要依據(jù),W類型一特征的特征集合為例,參見圖2。 C)合并所有類別特征集合生成用W模型訓(xùn)練的特征集合文件,參見圖3。 步驟14;文本特征向量生成; 使用步驟13中生成的特征集合文件,遍歷每一篇訓(xùn)練語料,抽取其中包含的特 征,計(jì)算相應(yīng)的特征值,生成特征向量文件,并進(jìn)行歸一化處理。具體步驟包括:a)通過TF-IDF值計(jì)算文本特征值,TF-IDF用W評估字詞對于一個文件集或一個 語料庫中的其中一份文件的重要程度,字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增 加,但同時會隨著它在語料庫當(dāng)前第1頁1 2 本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】
    基于CHI特征選取的文本事件分類方法,其特征在于,包括如下過程:(一)分類模型訓(xùn)練過程:步驟11:文本訓(xùn)練語料選取,即從網(wǎng)絡(luò)文本中篩選文本訓(xùn)練語料,選取的語料包括多種類別的主題事件,每類包括多篇語料文本;步驟12:對篩選的文本訓(xùn)練語料進(jìn)行預(yù)處理,具體方法如下:a)數(shù)據(jù)轉(zhuǎn)碼處理,將原始篩選文本中各種類別的中文編碼格式統(tǒng)一轉(zhuǎn)換為UTF?8編碼格式,b)將原始語料的格式內(nèi)容進(jìn)行初步篩選,過濾無效字符,刪除低特征文本,c)文本分詞,使用ICTCLAS工具包對文本進(jìn)行分詞處理,建立停用詞表,對文本特征進(jìn)行初步篩選,并建立每篇語料文本的特征表;步驟13:訓(xùn)練語料類別特征選取:對于每一類別主題事件,對每篇語料的每個特征根據(jù)其對主題類別的貢獻(xiàn)率以及對所在語料的貢獻(xiàn)率進(jìn)行特征的篩選,使用卡方統(tǒng)計(jì)量CHI值作為特征選擇的指標(biāo),最終每個類別提取一定數(shù)量的特征,并合并所有事件類別的特征形成特征集合文件;步驟14:文本特征向量生成:使用步驟13中生成的特征集合文件,遍歷每一篇訓(xùn)練語料,抽取其中包含的特征,計(jì)算相應(yīng)的特征值,生成特征向量文件,并進(jìn)行歸一化處理,最終生成SVM訓(xùn)練文件;步驟15:SVM分類模型訓(xùn)練:使用生成的訓(xùn)練文件訓(xùn)練SVM模型,同時通過交叉檢驗(yàn)工具調(diào)整參數(shù)對模型進(jìn)行優(yōu)化;(二)文本分類過程:步驟21:對待分類的文本進(jìn)行預(yù)處理,生成待分類文本的特征表;步驟22:使用步驟13生成的特征集合文件抽取待分類文本中的類別特征;步驟23:待分類文本的文本特征向量生成:使用詞頻值生成文本的特征向量,并將特征向量進(jìn)行歸一化處理;步驟24:文本分類:使用步驟15訓(xùn)練生成的SVM分類模型,對歸一化的待分類文本特征向量進(jìn)行分類,得到待分類文本主題類別的預(yù)測結(jié)果。...

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:張雪英王曙顧佳誠廖健平朱瑞軍
    申請(專利權(quán))人:南京師范大學(xué)
    類型:發(fā)明
    國別省市:江蘇;32

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码不卡在线观看下载| 亚洲欧洲免费无码| 亚洲中文字幕无码不卡电影| 熟妇人妻AV无码一区二区三区| 无码精品A∨在线观看中文| 亚洲精品无码专区在线| 亚洲精品无码mv在线观看网站| 中文字幕久久久人妻无码| 中文精品无码中文字幕无码专区| 67194成是人免费无码| 日韩免费无码一区二区三区| H无码精品3D动漫在线观看| 国产免费AV片无码永久免费 | 99热门精品一区二区三区无码 | 亚洲AV无码乱码国产麻豆| 国产精品无码久久综合网| 亚洲av无码一区二区三区天堂古代 | 精品欧洲av无码一区二区| 亚洲AV综合色区无码另类小说| 亚洲无码日韩精品第一页| 成人无码区免费视频观看| 亚洲精品无码专区久久| 中文字幕AV无码一区二区三区| 亚洲韩国精品无码一区二区三区 | 亚洲精品无码成人片久久| 国产成人无码AV一区二区在线观看 | 久久人妻无码一区二区| 久久久久亚洲AV无码永不| 无码国产精品一区二区免费vr | 亚洲AV无码之国产精品| 亚洲熟妇无码AV不卡在线播放| av大片在线无码免费| 日韩毛片免费无码无毒视频观看| 67194成l人在线观看线路无码| 亚洲av永久无码精品三区在线4| 人妻无码中文久久久久专区| 久久久无码精品亚洲日韩蜜臀浪潮 | 东京热加勒比无码视频| 本免费AV无码专区一区| 亚洲av无码一区二区三区不卡| 亚洲AV综合色区无码另类小说|