本發明專利技術公開了一種微博熱點話題挖掘裝置及方法。該裝置包括:采集模塊,適于通過開放接口采集微博信息,其中,微博信息包括:微博內容、以及微博參數;抽取模塊,適于對采集的微博內容進行分詞,并抽取出熱門關鍵詞組;計算模塊,適于對涉及熱門關鍵詞組的微博數量進行統計,并根據微博數量、以及相應微博的微博參數進行加權計算,獲取熱門關鍵詞組的熱度值;排序模塊,適于對熱門關鍵詞組的熱度值進行排序,獲取微博熱點話題排行。借助于本發明專利技術的技術方案,能夠準確地判斷出微博的熱門話題,使挖掘結果更能反映互聯網輿論的客觀事實。
【技術實現步驟摘要】
本專利技術涉及互聯網通信領域,特別是涉及一種。
技術介紹
在現有技術中,隨著互聯網的發展,微博成為人們獲取信息、交流信息的重要渠道,大量網民在微博中發表自己的意見和爆料各類新聞,每天有成千上萬的話題從微博上產生,如何更快速的從微博海量信息中獲取網民熱點將對了解社會發展形勢、掌握輿論動態起到指導性作用。目前普遍采用的微博熱點挖掘方法是通過對特定時間段內微博話題下的微博數量進行對比,通過數量排序得到最熱微博話題,微博數量越多說明話題越活躍。但是,上述 技術方案存在以下問題由于上述技術方案僅對單一話題的微博數量進行統計,因此容易對水軍暴力發布的話題誤判為熱點話題;并且,上述技術方案沒有考慮為微博轉發數和微博評論數對微博話題的因素,導致有些評論熱烈的微博話題被忽略,此外,上述技術方案也沒有考慮微博認證用戶(即,加V用戶)的因素,認證用戶參與越多的事件越是熱門話題,綜上,現有技術中的上述技術方案并不能夠全面準確的挖掘出微博熱點話題。
技術實現思路
鑒于上述問題,提出了本專利技術以便提供一種克服上述問題或者至少部分地解決上述問題的。本專利技術提供一種微博熱點話題挖掘裝置,包括采集模塊,適于通過開放接口采集微博信息,其中,微博信息包括微博內容、以及微博參數;抽取模塊,適于對采集的微博內容進行分詞,并抽取出熱門關鍵詞組;計算模塊,適于對涉及熱門關鍵詞組的微博數量進行統計,并根據微博數量、以及相應微博的微博參數進行加權計算,獲取熱門關鍵詞組的熱度值;排序模塊,適于對熱門關鍵詞組的熱度值進行排序,獲取微博熱點話題排行。可選地,采集模塊進一步適于通過一門戶微博指定的開放接口采集該門戶微博的微博信息。可選地,上述裝置還包括分類模塊,適于根據采集的微博內容采用自動聚類的方法對微博進行分類,獲取不同的微博類別。可選地,上述抽取模塊進一步適于對采集的各微博類別下的微博內容分別進行分詞,并分別抽取出各微博類別下的熱門關鍵詞組。可選地,上述抽取模塊進一步適于從采集的各微博類別下的微博內容中提取一個或多個中心詞;對從同一微博內容中提取的中心詞進行排序,并將排序后的中心詞進行組合,獲取中心詞組;統計各微博類別下每個中心詞組所涉及的微博數量,并根據微博數量從中心詞組中抽取出各微博類別下的熱門關鍵詞組。可選地,上述抽取模塊進一步包括過濾子模塊,適于根據垃圾詞組數據庫從中心詞組中過濾垃圾詞組。可選地,上述計算模塊進一步適于對同一微博類別下涉及熱門關鍵詞組的微博數量進行統計,并根據微博數量、以及相應微博的微博參數進行加權計算,獲取各微博類別下熱門關鍵詞組的熱度值。可選地,上述微博參數進一步包括以下一種或幾種組合微博總轉發數、微博總評論數、微博認證用戶轉發數、以及微博認證用戶評論數。可選地,上述計算模塊進一步適于根據以下公式分別獲取各微博類別下熱門關鍵詞組的熱度值熱門關鍵詞組的熱度值=涉及熱門關鍵詞組的微博數量*微博數量權重系數+微博總轉發數*總轉發數權重系數+微博總評論數*總評論數權重系數+微博認證用戶轉發數*認證用戶轉發數權重系數+微博認證用戶評論數*認證用戶評論數權重系數。 可選地,上述排序模塊進一步適于對各微博類別下熱門關鍵詞組的熱度值進行降序排序,分別獲取各微博類別下的微博熱點話題排行、以及總的微博熱點話題排行。可選地,上述裝置還包括獲取模塊,適于獲取微博熱點話題排行中每個微博熱點話題所涉及的微博內容;顯示模塊,適于根據用戶請求或者主動向用戶顯示相應微博熱點話題所涉及的微博內容。本專利技術還提供了一種微博熱點話題挖掘方法,包括通過開放接口采集微博信息,其中,微博信息包括微博內容、以及微博參數;對采集的微博內容進行分詞,并抽取出熱門關鍵詞組;對涉及熱門關鍵詞組的微博數量進行統計,并根據微博數量、以及相應微博的微博參數進行加權計算,獲取熱門關鍵詞組的熱度值;對熱門關鍵詞組的熱度值進行排序,獲取微博熱點話題排行。可選地,上述采集微博信息進一步包括通過一門戶微博指定的開放接口采集該門戶微博的微博信息。可選地,采集微博信息之后,上述方法還包括根據采集的微博內容采用自動聚類的方法對微博進行分類,獲取不同的微博類別。可選地,上述對采集的微博內容進行分詞,并抽取出熱門關鍵詞組進一步包括對采集的各微博類別下的微博內容分別進行分詞,并分別抽取出各微博類別下的熱門關鍵詞組。可選地,上述對采集的各微博類別下的微博內容分別進行分詞,并分別抽取出各微博類別下的熱門關鍵詞組進一步包括從采集的各微博類別下的微博內容中提取一個或多個中心詞;對從同一微博內容中提取的中心詞進行排序,并將排序后的中心詞進行組合,獲取中心詞組;統計各微博類別下每個中心詞組所涉及的微博數量,并根據微博數量從中心詞組中抽取出各微博類別下的熱門關鍵詞組。可選地,將排序后的中心詞進行組合,獲取中心詞組之后,上述方法還包括根據垃圾詞組數據庫從中心詞組中過濾垃圾詞組。可選地,上述對涉及熱門關鍵詞組的微博數量進行統計,并根據微博數量、以及相應微博的微博參數進行加權計算,獲取熱門關鍵詞組的熱度值進一步包括對同一微博類別下涉及熱門關鍵詞組的微博數量進行統計,并根據微博數量、以及相應微博的微博參數進行加權計算,獲取各微博類別下熱門關鍵詞組的熱度值。可選地,上述微博參數進一步包括以下一種或幾種組合微博總轉發數、微博總評論數、微博認證用戶轉發數、以及微博認證用戶評論數。可選地,上述根據微博數量、以及相應微博的微博參數進行加權計算,獲取各微博類別下熱門關鍵詞組的熱度值進一步包括根據以下公式分別獲取各微博類別下熱門關鍵詞組的熱度值熱門關鍵詞組的熱度值=涉及熱門關鍵詞組的微博數量*微博數量權重系數+微博總轉發數*總轉發數權重系數+微博總評論數*總評論數權重系數+微博認證用戶轉發數*認證用戶轉發數權重系數+微博認證用戶評論數*認證用戶評論數權重系數。可選地,上述對熱門關鍵詞組的熱度值進行排序,獲取微博熱點話題排行進一步包括對各微博類別下熱門關鍵詞組的熱度值進行降序排序,分別獲取各微博類別下的微博熱點話題排行、以及總的微博熱點話題排行。可選地,獲取微博熱點話題排行之后,上述方法還包括獲取微博熱點話題排行中每個微博熱點話題所涉及的微博內容;根據用戶請求或者主動向用戶顯示相應微博熱點話題所涉及的微博內容。·本專利技術有益效果如下通過根據采集的微博內容進行熱詞計算,并根據獲取的微博參數對計算出的熱詞進行熱度計算,從而能夠準確地判斷出微博的熱門話題,使挖掘結果更能反映互聯網輿論的客觀事實。上述說明僅是本專利技術技術方案的概述,為了能夠更清楚了解本專利技術的技術手段,而可依照說明書的內容予以實施,并且為了讓本專利技術的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本專利技術的具體實施方式。附圖說明通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本專利技術的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中圖I是本專利技術一個實施例的微博熱點話題挖掘裝置的結構示意圖;圖2是本專利技術一個實施例的抽取模塊的處理流程的示意圖;圖3是本專利技術一個實施例的微博參數和權重系數對應關系的示意圖;圖4是本專利技術一個實施例的微博熱點話題挖掘方法的流程圖。具體實施例方式下面將參照附圖更詳本文檔來自技高網...
【技術保護點】
一種微博熱點話題挖掘裝置,其特征在于,包括:采集模塊,適于通過開放接口采集微博信息,其中,所述微博信息包括:微博內容、以及微博參數;抽取模塊,適于對采集的所述微博內容進行分詞,并抽取出熱門關鍵詞組;計算模塊,適于對涉及所述熱門關鍵詞組的微博數量進行統計,并根據所述微博數量、以及相應微博的微博參數進行加權計算,獲取所述熱門關鍵詞組的熱度值;排序模塊,適于對所述熱門關鍵詞組的熱度值進行排序,獲取微博熱點話題排行。
【技術特征摘要】
【專利技術屬性】
技術研發人員:劉曉麗,林英杰,
申請(專利權)人:北京奇虎科技有限公司,奇智軟件北京有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。