• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種從微博中挖掘地震主題詞的方法和裝置制造方法及圖紙

    技術編號:15691041 閱讀:97 留言:0更新日期:2017-06-24 03:55
    本發明專利技術提供一種從微博中挖掘地震主題詞的方法和裝置,方法包括:對含有地震詞匯的微博文本集中的每個微博文本提取特征詞,基于TF?PDF公式計算每個特征詞在該特征詞所在微博文本中的權重;基于微博文本對應的活躍度、傳播力以及覆蓋度,獲得每個微博文本的影響力;以及基于各微博文本的影響力以及微博文本中各特征詞的權重,獲得各特征詞的流行度,按照各特征詞的流行度大小進行降序排列,將排名靠前的特征詞作為地震主題詞。本發明專利技術提高了特征詞流行度計算的準確度,增加了從地震微博文本數據中提取熱門主題詞的準確性。

    Method and device for mining earthquake subject words from micro-blog

    The present invention provides a method and apparatus, seismic thematic word mining from micro-blog included micro-blog micro-blog each text text contains words from seismic feature extraction, calculation of each feature in the feature words in the text where micro-blog's weight TF based on the formula of PDF; activity, the dissemination of micro-blog text based on the correspondence and coverage for each micro-blog text influence; and based on the weights of the feature words the micro-blog text influence and micro-blog in the text, the term's popularity, in descending order according to the popularity of the size of each character, the ranking feature words before the earthquake as a subject. The invention improves the accuracy of the popularity calculation of feature words, and increases the accuracy of extracting hot topic words from earthquake micro-blog text data.

    【技術實現步驟摘要】
    一種從微博中挖掘地震主題詞的方法和裝置
    本專利技術涉及地震信息采集
    ,更具體地,涉及一種從微博中挖掘地震主題詞的方法和裝置。
    技術介紹
    在地震發生時,大量關于地震災害的相關數據通過微博進行傳播。如何從大量的微博文本中挖掘、提取出熱門的地震主題信息,是一個需要解決的問題。而所獲取的地震微博信息為中文短文本信息,且夾雜了大量新聞事實、重復轉發等公眾信息含量較低的信息,因此需要對于地震微博信息需要經過篩選整理,并且按照微博信息傳播影響力的評價,提取出最能代表公眾的主題詞。詞頻-比例文檔頻率,即TermFrequencyProportionalDocumentFrequency(TF-PDF),是一種用于情報檢索與文本挖掘的常用加權技術。對于熱點話題的提取,代表熱點話題的特征詞匯應當在大量文檔中頻繁地出現。TF*PDF為在多個渠道多個文檔中頻繁出現的詞匯分配更大的權重,反之亦然,是一種更適合于提取熱點詞匯的特征詞權重計算方法。而現有的微博主題詞提取方法針對地震微博信息熱門主題詞的挖掘,仍存在一些問題:1、忽略了地震新聞微博及其內容純粹的轉發的噪聲影響;2、缺乏對能準確表示出地震信息的數量詞、日期時間表示詞組和地理位置表示詞組的挖掘提取;3、缺乏每條微博文本潛在包含的活躍度、傳播力、覆蓋度的綜合影響力對其包含的特征詞影響的考慮;上述幾個問題都會對主題詞流行熱度的計算造成影響,使挖掘地震主題詞的結果缺乏準確性和高效性。
    技術實現思路
    本專利技術提供一種克服上述問題或者至少部分地解決上述問題的從微博中挖掘地震主題詞的方法和裝置。根據本專利技術的一個方面,提供一種從微博中挖掘地震主題詞的方法,包括:S1、對含有地震詞匯的微博文本集中的每個微博文本提取特征詞,基于TF-PDF公式計算每個特征詞在該特征詞所在微博文本中的權重;S2、基于微博文本對應的活躍度、傳播力以及覆蓋度,獲得每個微博文本的影響力;以及S3、基于各微博文本的影響力以及微博文本中各特征詞的權重,獲得各特征詞的流行度,按照各特征詞的流行度大小進行降序排列,將排名靠前的特征詞作為地震主題詞。根據本專利技術的另一個方面,提供一種從微博中挖掘地震主題詞的裝置,包括:權重計算單元,用于對含有地震詞匯的微博文本集中的每個微博文本提取特征詞,基于TF-PDF公式計算每個特征詞在該特征詞所在微博文本中的權重;影響力計算單元,基于微博文本對應的活躍度、傳播力以及覆蓋度,獲得每個微博文本的影響力;以及主題詞獲取單元,基于各微博文本的影響力以及微博文本中各特征詞的權重,獲得各特征詞的流行度,按照各特征詞的流行度大小進行降序排列,將排名靠前的特征詞作為地震主題詞。本申請提出一種挖掘微博文本的地震主題詞的方法和裝置,從公眾視角、以微博為數據源,通過綜合考慮基于TF-PDF公式獲得的特征詞的權重以及微博文本的影響力,獲得地震主題詞,提高了特征詞流行度計算的準確度,增加了從地震微博文本數據中提取熱門主題詞的準確性,為地震信息傳播、地震防災減災等研究的信息分析提供了重要數據源和分析方法的補充,具有極強的實用意義。附圖說明圖1為根據本專利技術實施例的從微博中挖掘地震主題詞的流程圖;圖2為現有技術中含有標題的微博的截圖;圖3為現有技術中含有話題的微博的截圖。具體實施方式下面結合附圖和實施例,對本專利技術的具體實施方式作進一步詳細描述。以下實施例用于說明本專利技術,但不用來限制本專利技術的范圍。圖1示出了本專利技術實施例的一種從微博中挖掘地震主題詞的流程圖,如圖1可知,本方法包括:S1、對含有地震詞匯的微博文本集中的每個微博文本提取特征詞,基于TF-PDF公式計算每個特征詞在該特征詞所在微博文本中的權重;S2、基于微博文本對應的活躍度、傳播力以及覆蓋度,獲得每個微博文本的影響力;以及S3、基于各微博文本的影響力以及微博文本中各特征詞的權重,獲得各特征詞的流行度,按照各特征詞的流行度大小進行降序排列,將排名靠前的特征詞作為地震主題詞。本申請提出一種挖掘微博文本的地震主題詞的方法和裝置,從公眾視角、以微博為數據源,通過綜合考慮基于TF-PDF公式獲得的特征詞的權重以及微博文本的影響力,獲得地震主題詞,提高了特征詞流行度計算的準確度,增加了從地震微博文本數據中提取熱門主題詞的準確性,為地震信息傳播、地震防災減災等研究的信息分析提供了重要數據源和分析方法的補充,具有極強的實用意義。以“地震”為關鍵詞搜索得到的微博文本中,微博內容多是事實描述,不含人們自身的感受,其微博數據產生于由地震臺網中心、媒體或個人轉發等,這些信息對于地震微博分析意義較小,但它們發布的數量和轉發量均比較多。本專利技術認為這些新聞微博對于地震微博信息分析有消極影響,因此對地震新聞微博及其轉發進行識別,并在識別提取之后將其從數據集中清洗過濾掉。在一個實施例中,所述步驟S1之前還包括:采集一定時間范圍內含有地震詞匯的微博文本,構成微博文本集;以及將含有特定詞匯、特定話題或特定標題的微博文本、具有媒體認證的博主發送的微博文本和單純轉發的微博文本從所述微博文本集中剔除。在微博的發布規則中,約定俗成地規定:標題顯示在【】符號中,圖2示出了專利技術人隨機從微博上截圖的關于含有標題的微博的示意圖,從圖2中可以明顯看出,該微博的標題“地震快訊”容納在【】符號中。話題顯示在兩個#符號中,圖3示出了專利技術人隨機從微博上截圖的含有話題的微博示意圖,圖3中可以明顯看出,該微博的話題“地震快訊”容納在兩個#號之間。通過檢索微博中是否含有【】符號或##符號,就可以獲得該微博的話題或標題。在一個實施例中,需要剔除的微博包括以下幾類:(1)包含“【地震快訊】”、“【快訊】”等的微博;(2)包含“#最新消息#”、“#地震快訊#”、“#地震直播#”、“#地震最新動態#”等的微博;(3)包含“中國地震臺網”、“中國地震局”、“新華社快訊”、“統計”等詞匯的微博;(4)單純轉發以上三類微博的微博。之所以要刪除以下微博,是因為本專利技術更多是從微博信息中挖掘提取公眾表達的地震熱詞,而新聞類信息及其大量純粹的轉發,會影響公眾本身信息的表達。當微博文本中如果存在繁體字,會對微博進行分詞解析形成困難,造成分詞結果的錯誤,所以,在一個實施例中,在對微博文本進行分詞之前,必須進行繁體轉簡體的操作。在一個實施例中,應用.NET框架的VisualStudioInternationalPack類庫中的ChineseConverter.dll將繁體中文漢字轉換為簡體中文漢字。在一個實施例中,所述步驟S1包括:S1.1、對所述微博文本集中每個微博文本進行分詞,并標注每個詞匯的詞性;基于不同正則表達式,對應提取每個微博文本中的不同詞性的詞匯組合。正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規則字符串”,這個“規則字符串”用來表達對字符串的一種過濾邏輯。給定一個正則表達式和另一個字符串,我們可以達到如下的目的:1.給定的字符串是否符合正則表達式的過濾邏輯(稱作“匹配”);2.可以通過正則表達式,從字符串中獲取我們想要的特定部分。表1示出了本專利技術實施例中的詞性標注表,包含了不同詞性的代碼信息、舉例以及備注信息。表1詞性標注表S1.2、從步驟S1.2得到的所有詞匯組合中提取本文檔來自技高網...
    一種從微博中挖掘地震主題詞的方法和裝置

    【技術保護點】
    一種從微博中挖掘地震主題詞的方法,其特征在于,包括:S1、對含有地震詞匯的微博文本集中的每個微博文本提取特征詞,基于TF?PDF公式計算每個特征詞在該特征詞所在微博文本中的權重;S2、基于微博文本對應的活躍度、傳播力以及覆蓋度,獲得每個微博文本的影響力;以及S3、基于各微博文本的影響力以及微博文本中各特征詞的權重,獲得各特征詞的流行度,按照各特征詞的流行度大小進行降序排列,將排名靠前的特征詞作為地震主題詞。

    【技術特征摘要】
    1.一種從微博中挖掘地震主題詞的方法,其特征在于,包括:S1、對含有地震詞匯的微博文本集中的每個微博文本提取特征詞,基于TF-PDF公式計算每個特征詞在該特征詞所在微博文本中的權重;S2、基于微博文本對應的活躍度、傳播力以及覆蓋度,獲得每個微博文本的影響力;以及S3、基于各微博文本的影響力以及微博文本中各特征詞的權重,獲得各特征詞的流行度,按照各特征詞的流行度大小進行降序排列,將排名靠前的特征詞作為地震主題詞。2.如權利要求1所述的方法,其特征在于,所述步驟S1之前還包括:采集一定時間范圍內含有地震詞匯的微博文本,構成微博文本集;以及將含有特定詞匯、特定話題或特定標題的微博文本、具有媒體認證的博主發送的微博文本和單純轉發的微博文本從所述微博文本集中剔除;其中,所述特定詞匯包括:中國地震臺網、中國地震局、統計以及新華社快訊中的一種或多種;特定話題包括:最新消息、地震直播以及地震最新動態中的一種或多種;特定標題包括:地震快訊和快訊中的一種或多種。3.如權利要求2所述的方法,其特征在于,所述步驟S1包括:S1.1、對所述微博文本集中每個微博文本進行分詞,并標注每個詞匯的詞性,基于不同正則表達式,對應提取每個微博文本中的不同詞性的詞匯組合;S1.2、從步驟S1.2得到的所有詞匯組合中提取名詞、動詞、量詞、數詞以及時間詞,作為所述特征詞;以及S1.3、利用空間向量模型將微博文本表示為向量,所述特征詞對應向量中的特征項,基于TF-PDF公式計算每個特征詞在各微博文本中的權重;其中,所述詞性至少包括名詞、數詞、量詞、位置詞、震級、時間詞、日期詞以及動詞。4.如權利要求2所述的方法,其特征在于,所述步驟S2包括:基于微博文本的博主在該時間范圍內,每天平均發微博數和轉發評論數之和,獲得該微博文本對應的活躍度;基于微博文本被轉發評論和被評論數之和,獲得該微博文本對應的傳播力;基于微博文本的博主的活躍粉絲數,獲得該微博文本對應的覆蓋度;基于地震發生的時間,分別設置對應所述活躍度、傳播力以及覆蓋度的3個影響力參數;以及基于微博文本對應的活躍度、傳播力、覆蓋度以及3個影響力參數,獲得每個...

    【專利技術屬性】
    技術研發人員:張曉東陳欣意鄒再超李林蘇偉劉峻明朱德海孫瑞志
    申請(專利權)人:中國農業大學
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文无码乱人伦中文视频在线V| 久久久久亚洲Av片无码v| 亚洲爆乳精品无码一区二区| 无码天堂亚洲国产AV| 亚洲国产精品无码专区| 最新无码人妻在线不卡| 国产精品无码A∨精品影院| 无码亚洲成a人在线观看| 无码人妻精品一区二区三区66| 国产精品无码专区在线播放| 国产爆乳无码一区二区麻豆| 日韩美无码五月天| 亚洲AV无码片一区二区三区| 午夜无码伦费影视在线观看| 国产精品无码翘臀在线观看 | 曰产无码久久久久久精品| 无码人妻精品一区二| 高清无码中文字幕在线观看视频| 精品久久久久久无码人妻热| 亚洲国产精品无码观看久久| 无码视频一区二区三区在线观看| 中文无码人妻有码人妻中文字幕| 中文字幕av无码一二三区电影| 亚洲AV人无码激艳猛片| 亚洲VA成无码人在线观看天堂| 日韩久久无码免费毛片软件| 国产乱人伦中文无无码视频试看 | 国产av永久精品无码| 亚洲午夜成人精品无码色欲| 无码人妻精品一区二区三区99仓本 | 亚洲va无码va在线va天堂| 东京热加勒比无码视频| 日韩无码系列综合区| 小泽玛丽无码视频一区| 国产福利无码一区在线 | 无码人妻久久一区二区三区免费| 午夜无码一区二区三区在线观看| 无码视频一区二区三区| 国产aⅴ激情无码久久久无码| 国产精品无码久久久久久久久久| 亚洲国产精品无码久久九九|