【技術實現步驟摘要】
本專利技術涉及文本分類方法,特別是基于一致性聚類的文本分類方法,屬于數據挖掘、機器學習和商務智能領域,特別針對海量、異質、高維數據聚類,并可用于知識融合和知識重用。
技術介紹
文本數據作為重要的信息載體之一,尤其是隨著互聯網的普及和流行,正以驚人的速度增長。如何從這些龐雜的信息中快速有效地尋找滿足需要的信息對人們來說是一個巨大的挑戰。文本分類作為處理和組織大量文本數據的關鍵技術,能夠很大程度上解決信息爆炸和信息雜亂所帶來的問題?;谕愇臋n相似程度大,不同類的文檔相似程度低的假設,文本分類目標是將一組文檔分成多個簇,使得相同的簇內的文檔具有較高的相似程度,不同簇的文檔差別較大。由于無法獲得類別標簽,文本分類的本質屬于聚類分析技術。然而文本數據具有海量、高維、稀疏等特點,使得單一的傳統聚類算法在面對文本數據時,不僅表現不佳,而且運行耗時巨大。特別是隨著互聯網的快速發展,網絡媒體作為一種新的信息傳播形式,已深入人們的日常生活。網友言論活躍已達到前所未有的程度,不論是國內還是國際重大事件,都能馬上形成網上輿論,通過網絡來表達觀點、傳播思想,進而產生巨大的輿論壓力,達到任何部門、機構都無法忽視的地步。可以說,互聯網已成為思想文化信息的集散地和社會輿論的放大器。因此需要從網絡信息采集系統從互聯網上采集新聞、論壇、博客、評論等輿情信息,存儲到采集信息數據庫中,再通過輿情分析引擎負責對采集信息進行清洗、智能研判和加工,分析結果保存在輿情成果庫中。輿情分析引擎依賴于智能分析技術和輿情知識庫,其基礎就是文本的聚類分析。
技術實現思路
針對上述技術缺陷,本專利技術提出。該方法以 ...
【技術保護點】
一種基于一致性聚類的Web文本分類方法,其特征在于,包括以下步驟:步驟一,輸入一段文字信息數據,其中包括n個文本;步驟二,根據含有m個詞匯的預設詞庫,對n個文本進行分詞處理;步驟三,根據每個文本中的分詞在詞庫中出現的次數,制作每個文本的m維向量空間模型,n個文本組合在一起形成n×m的向量空間矩陣;步驟四,在n×m的向量空間矩陣中隨機提取n×m′的子矩陣,其中m′小于m,對n×m′子矩陣進行聚類分析;步驟五,重復步驟四r次,直到得到r個聚類分析結果;步驟六,將r個聚類分析結果再進行聚類分析,得到最終聚類結果,這個最終聚類結果表征n個文本之間的歸類關系,由此將n個文本分類。
【技術特征摘要】
1.一種基于一致性聚類的Web文本分類方法,其特征在于,包括以下步驟步驟一,輸入一段文字信息數據,其中包括η個文本;步驟二,根據含有m個詞匯的預設詞庫,對η個文本進行分詞處理;步驟三,根據每個文本中的分詞在詞庫中出現的次數,制作每個文本的m維向量空間模型,η個文本組合在一起形成nXm的向量空間矩陣;步驟四,在nXm的向量空間矩陣中隨機提取nXm'的子矩陣,其中m'小于m,對 nXm'子矩陣進行聚類分析;步驟五,重復步驟四r次,直到得到r個聚類分析結果;步驟六,將r個聚類分析結果再進行聚類分析,得到最終聚類結果,這個最終聚類結果表征η個文本之間的歸類關系,由此將η個文本分類。2.如權利要求1所述的基于一致性聚類的Web文本分類方法,其特征在于,所述步驟一中的文字信息數據來源于在互聯網上抓取一預設時間段內的文字信息數據。3.如權利要求2所述的基于一致性聚類的Web文本分類方法,其特征在于,所述在互聯網上抓取一預設時間段內的文字信息數據包括抓取特定網站、論壇、博客或微博中的Web 文本數據。4.如權利要求3所述的基于一致性聚類的Web文本分類方法,其特征在于,在權利要求1所述步驟二中,對每個文本進行分詞處理都包括以下步驟1)去掉Web文本的所有格式標簽;2)去掉無標簽文本中的停止詞;3)根據預設詞庫中的詞匯,按照文本文字從前...
【專利技術屬性】
技術研發人員:吳俊杰,劉洪甫,李紅,韓小汀,
申請(專利權)人:北京航空航天大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。