• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于一致性聚類的Web文本分類方法技術

    技術編號:8594085 閱讀:328 留言:0更新日期:2013-04-18 07:18
    本發明專利技術公開了基于一致性聚類的Web文本分類方法,包括:輸入一段文字信息數據,其中包括n個文本;根據含有m個詞匯的預設詞庫,對n個文本進行分詞處理;根據每個文本中的分詞在詞庫中出現的次數,制作每個文本的m維向量空間模型,n個文本組合在一起形成n×m的向量空間矩陣;在n×m的向量空間矩陣中隨機提取n×m′的子矩陣,其中m′小于m,對n×m′子矩陣進行聚類分析;重復上述步驟r次,直到得到r個聚類分析結果;將r個聚類分析結果再進行聚類分析,得到最終聚類結果,這個最終聚類結果表征n個文本之間的歸類關系,由此將n個文本分類。本方法能夠克服聚類分析中的維度災難,對海量文本數據進行分析,特別適合網絡輿情監控等信息安全領域。

    【技術實現步驟摘要】

    本專利技術涉及文本分類方法,特別是基于一致性聚類的文本分類方法,屬于數據挖掘、機器學習和商務智能領域,特別針對海量、異質、高維數據聚類,并可用于知識融合和知識重用。
    技術介紹
    文本數據作為重要的信息載體之一,尤其是隨著互聯網的普及和流行,正以驚人的速度增長。如何從這些龐雜的信息中快速有效地尋找滿足需要的信息對人們來說是一個巨大的挑戰。文本分類作為處理和組織大量文本數據的關鍵技術,能夠很大程度上解決信息爆炸和信息雜亂所帶來的問題?;谕愇臋n相似程度大,不同類的文檔相似程度低的假設,文本分類目標是將一組文檔分成多個簇,使得相同的簇內的文檔具有較高的相似程度,不同簇的文檔差別較大。由于無法獲得類別標簽,文本分類的本質屬于聚類分析技術。然而文本數據具有海量、高維、稀疏等特點,使得單一的傳統聚類算法在面對文本數據時,不僅表現不佳,而且運行耗時巨大。特別是隨著互聯網的快速發展,網絡媒體作為一種新的信息傳播形式,已深入人們的日常生活。網友言論活躍已達到前所未有的程度,不論是國內還是國際重大事件,都能馬上形成網上輿論,通過網絡來表達觀點、傳播思想,進而產生巨大的輿論壓力,達到任何部門、機構都無法忽視的地步。可以說,互聯網已成為思想文化信息的集散地和社會輿論的放大器。因此需要從網絡信息采集系統從互聯網上采集新聞、論壇、博客、評論等輿情信息,存儲到采集信息數據庫中,再通過輿情分析引擎負責對采集信息進行清洗、智能研判和加工,分析結果保存在輿情成果庫中。輿情分析引擎依賴于智能分析技術和輿情知識庫,其基礎就是文本的聚類分析。
    技術實現思路
    針對上述技術缺陷,本專利技術提出。該方法以快速聚類法為核心,多次利用部分維度的文本數據獲得多個聚類結果,進而利用一致性聚類方法最終獲得具有高魯棒性和高質量的文本分類結果。利用部分維度有可能得到質量較高的基礎聚類結果,從一定程度上克服由高維導致的劣解;多個基礎聚類結果通過一致性聚類方法進行組合提高結果的魯棒性。一種基于一致性聚類的Web文本聚類方法,包括如下步驟步驟1:收集互聯網上的文本數據。步驟2 :將文本數據進行分詞處理。步驟3:停用詞移除。步驟4:詞干提取。步驟5 :針對每一條文本數據生成向量空間模型,X = {x」I < I < n},n為文本數據的數量。步驟6 :重復隨機抽取一定百分比維度的文本數據,指定類別個數,利用快速聚類法使用余弦相似度距離進行聚類,得到基礎聚類結果。用^表示第i個基礎聚類結果,Ki表示^的類別個數,則TI= l>i,…,^ii,…,^irI表示r個所有基礎聚類結果的集合。步驟7 :在基礎聚類結果上生成0-1 二元矩陣。用丨表示由上述基礎聚類結果得到的0-1 二元矩陣,b表示binary, n為樣本個數,其生成方式如公式(I)所示本文檔來自技高網...

    【技術保護點】
    一種基于一致性聚類的Web文本分類方法,其特征在于,包括以下步驟:步驟一,輸入一段文字信息數據,其中包括n個文本;步驟二,根據含有m個詞匯的預設詞庫,對n個文本進行分詞處理;步驟三,根據每個文本中的分詞在詞庫中出現的次數,制作每個文本的m維向量空間模型,n個文本組合在一起形成n×m的向量空間矩陣;步驟四,在n×m的向量空間矩陣中隨機提取n×m′的子矩陣,其中m′小于m,對n×m′子矩陣進行聚類分析;步驟五,重復步驟四r次,直到得到r個聚類分析結果;步驟六,將r個聚類分析結果再進行聚類分析,得到最終聚類結果,這個最終聚類結果表征n個文本之間的歸類關系,由此將n個文本分類。

    【技術特征摘要】
    1.一種基于一致性聚類的Web文本分類方法,其特征在于,包括以下步驟步驟一,輸入一段文字信息數據,其中包括η個文本;步驟二,根據含有m個詞匯的預設詞庫,對η個文本進行分詞處理;步驟三,根據每個文本中的分詞在詞庫中出現的次數,制作每個文本的m維向量空間模型,η個文本組合在一起形成nXm的向量空間矩陣;步驟四,在nXm的向量空間矩陣中隨機提取nXm'的子矩陣,其中m'小于m,對 nXm'子矩陣進行聚類分析;步驟五,重復步驟四r次,直到得到r個聚類分析結果;步驟六,將r個聚類分析結果再進行聚類分析,得到最終聚類結果,這個最終聚類結果表征η個文本之間的歸類關系,由此將η個文本分類。2.如權利要求1所述的基于一致性聚類的Web文本分類方法,其特征在于,所述步驟一中的文字信息數據來源于在互聯網上抓取一預設時間段內的文字信息數據。3.如權利要求2所述的基于一致性聚類的Web文本分類方法,其特征在于,所述在互聯網上抓取一預設時間段內的文字信息數據包括抓取特定網站、論壇、博客或微博中的Web 文本數據。4.如權利要求3所述的基于一致性聚類的Web文本分類方法,其特征在于,在權利要求1所述步驟二中,對每個文本進行分詞處理都包括以下步驟1)去掉Web文本的所有格式標簽;2)去掉無標簽文本中的停止詞;3)根據預設詞庫中的詞匯,按照文本文字從前...

    【專利技術屬性】
    技術研發人員:吳俊杰,劉洪甫,李紅,韓小汀
    申請(專利權)人:北京航空航天大學,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 一区二区三区无码被窝影院 | 亚洲AV无码精品国产成人| 免费无码又爽又刺激高潮软件 | 亚洲gv猛男gv无码男同短文 | 亚洲色偷拍另类无码专区| 亚洲AV无码AV男人的天堂| 久久午夜伦鲁片免费无码| 日韩中文无码有码免费视频| 亚洲啪啪AV无码片| 成人无码精品一区二区三区| 国产乱子伦精品无码专区| 无码AV天堂一区二区三区| 无码人妻精品一区二| 久久久久久久人妻无码中文字幕爆| 国产av激情无码久久| 亚洲精品无码人妻无码| 无码人妻精品一区二区三区99仓本| 亚洲人成无码网WWW| 亚洲精品中文字幕无码A片老| 台湾无码AV一区二区三区| 国产精品无码一区二区三区不卡| 亚洲成A人片在线观看无码不卡| 69成人免费视频无码专区| 精品国产V无码大片在线看| 国产成人无码区免费网站| 亚洲AV无码乱码在线观看牲色| 一本大道无码av天堂| 91久久精品无码一区二区毛片| 超清无码熟妇人妻AV在线电影| 日韩经典精品无码一区| 内射精品无码中文字幕| 无码人妻精品内射一二三AV| 亚洲av无码国产综合专区| 亚洲国产精品无码AAA片| 中文字幕无码乱人伦| 熟妇人妻系列aⅴ无码专区友真希| 国产人成无码视频在线观看| 白嫩无码人妻丰满熟妇啪啪区百度| 在线看片福利无码网址| 免费无码黄网站在线观看| 国产日产欧洲无码视频|