The present invention provides a method and apparatus, seismic thematic word mining from micro-blog included micro-blog micro-blog each text text contains words from seismic feature extraction, calculation of each feature in the feature words in the text where micro-blog's weight TF based on the formula of PDF; activity, the dissemination of micro-blog text based on the correspondence and coverage for each micro-blog text influence; and based on the weights of the feature words the micro-blog text influence and micro-blog in the text, the term's popularity, in descending order according to the popularity of the size of each character, the ranking feature words before the earthquake as a subject. The invention improves the accuracy of the popularity calculation of feature words, and increases the accuracy of extracting hot topic words from earthquake micro-blog text data.
【技術實現步驟摘要】
一種從微博中挖掘地震主題詞的方法和裝置
本專利技術涉及地震信息采集
,更具體地,涉及一種從微博中挖掘地震主題詞的方法和裝置。
技術介紹
在地震發生時,大量關于地震災害的相關數據通過微博進行傳播。如何從大量的微博文本中挖掘、提取出熱門的地震主題信息,是一個需要解決的問題。而所獲取的地震微博信息為中文短文本信息,且夾雜了大量新聞事實、重復轉發等公眾信息含量較低的信息,因此需要對于地震微博信息需要經過篩選整理,并且按照微博信息傳播影響力的評價,提取出最能代表公眾的主題詞。詞頻-比例文檔頻率,即TermFrequencyProportionalDocumentFrequency(TF-PDF),是一種用于情報檢索與文本挖掘的常用加權技術。對于熱點話題的提取,代表熱點話題的特征詞匯應當在大量文檔中頻繁地出現。TF*PDF為在多個渠道多個文檔中頻繁出現的詞匯分配更大的權重,反之亦然,是一種更適合于提取熱點詞匯的特征詞權重計算方法。而現有的微博主題詞提取方法針對地震微博信息熱門主題詞的挖掘,仍存在一些問題:1、忽略了地震新聞微博及其內容純粹的轉發的噪聲影響;2、缺乏對能準確表示出地震信息的數量詞、日期時間表示詞組和地理位置表示詞組的挖掘提取;3、缺乏每條微博文本潛在包含的活躍度、傳播力、覆蓋度的綜合影響力對其包含的特征詞影響的考慮;上述幾個問題都會對主題詞流行熱度的計算造成影響,使挖掘地震主題詞的結果缺乏準確性和高效性。
技術實現思路
本專利技術提供一種克服上述問題或者至少部分地解決上述問題的從微博中挖掘地震主題詞的方法和裝置。根據本專利技術的一個方面,提供一種從微博 ...
【技術保護點】
一種從微博中挖掘地震主題詞的方法,其特征在于,包括:S1、對含有地震詞匯的微博文本集中的每個微博文本提取特征詞,基于TF?PDF公式計算每個特征詞在該特征詞所在微博文本中的權重;S2、基于微博文本對應的活躍度、傳播力以及覆蓋度,獲得每個微博文本的影響力;以及S3、基于各微博文本的影響力以及微博文本中各特征詞的權重,獲得各特征詞的流行度,按照各特征詞的流行度大小進行降序排列,將排名靠前的特征詞作為地震主題詞。
【技術特征摘要】
1.一種從微博中挖掘地震主題詞的方法,其特征在于,包括:S1、對含有地震詞匯的微博文本集中的每個微博文本提取特征詞,基于TF-PDF公式計算每個特征詞在該特征詞所在微博文本中的權重;S2、基于微博文本對應的活躍度、傳播力以及覆蓋度,獲得每個微博文本的影響力;以及S3、基于各微博文本的影響力以及微博文本中各特征詞的權重,獲得各特征詞的流行度,按照各特征詞的流行度大小進行降序排列,將排名靠前的特征詞作為地震主題詞。2.如權利要求1所述的方法,其特征在于,所述步驟S1之前還包括:采集一定時間范圍內含有地震詞匯的微博文本,構成微博文本集;以及將含有特定詞匯、特定話題或特定標題的微博文本、具有媒體認證的博主發送的微博文本和單純轉發的微博文本從所述微博文本集中剔除;其中,所述特定詞匯包括:中國地震臺網、中國地震局、統計以及新華社快訊中的一種或多種;特定話題包括:最新消息、地震直播以及地震最新動態中的一種或多種;特定標題包括:地震快訊和快訊中的一種或多種。3.如權利要求2所述的方法,其特征在于,所述步驟S1包括:S1.1、對所述微博文本集中每個微博文本進行分詞,并標注每個詞匯的詞性,基于不同正則表達式,對應提取每個微博文本中的不同詞性的詞匯組合;S1.2、從步驟S1.2得到的所有詞匯組合中提取名詞、動詞、量詞、數詞以及時間詞,作為所述特征詞;以及S1.3、利用空間向量模型將微博文本表示為向量,所述特征詞對應向量中的特征項,基于TF-PDF公式計算每個特征詞在各微博文本中的權重;其中,所述詞性至少包括名詞、數詞、量詞、位置詞、震級、時間詞、日期詞以及動詞。4.如權利要求2所述的方法,其特征在于,所述步驟S2包括:基于微博文本的博主在該時間范圍內,每天平均發微博數和轉發評論數之和,獲得該微博文本對應的活躍度;基于微博文本被轉發評論和被評論數之和,獲得該微博文本對應的傳播力;基于微博文本的博主的活躍粉絲數,獲得該微博文本對應的覆蓋度;基于地震發生的時間,分別設置對應所述活躍度、傳播力以及覆蓋度的3個影響力參數;以及基于微博文本對應的活躍度、傳播力、覆蓋度以及3個影響力參數,獲得每個...
【專利技術屬性】
技術研發人員:張曉東,陳欣意,鄒再超,李林,蘇偉,劉峻明,朱德海,孫瑞志,
申請(專利權)人:中國農業大學,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。