本發明專利技術公開了一種挖掘熱點詞的方法與裝置。該方法包括:獲取輸入的文本流;對文本流進行分詞,獲取候選詞集;統計候選詞集中各候選詞在文本流中出現的當前頻率,獲取各候選詞在預先存儲的歷史數據中的各歷史頻率;根據候選詞的當前頻率以及各歷史頻率計算該候選詞的頻率異常性值,在歷史數據中存儲該候選詞的當前頻率信息并輸出預定數目的頻率異常的候選詞。應用本發明專利技術,可以擴展熱點詞的挖掘范圍、提高熱點詞挖掘效率。
【技術實現步驟摘要】
本專利技術涉及計算機通信技術,特別涉及一種挖掘熱點詞的方法與裝置。
技術介紹
隨著計算機通信技術的發展,尤其是3g網絡和智能移動終端的發展,用戶的網絡生活越來越豐富,在網絡上聊天、瀏覽新聞、看電影、玩游戲、搜索、購物、發布信息等,越來越成為網絡生活的一部分。例如,微博客(MicroBlog),即微博作為一個基于用戶關系的信息分享、傳播以及獲取平臺,用戶可以通過WEB、WAP以及各種客戶端組建個人社區,以140字左右的文字更新信息,并實現即時分享。由于網絡內容的豐富,網絡用戶從中獲取相關信息所花費的時間也越來越多,為了提高用戶的網絡體驗,各運營商通過熱點詞挖掘的方法,自動獲取最新的時訊,及時向網絡用戶進行推薦,例如,根據微博輸入的文本流信息,自動識別其中包含的熱點詞,并向關注的用戶推薦熱點信息,這樣,在提升網絡服務的同時,也有效降低了用戶獲取熱點信息所需的時間。圖1為現有挖掘熱點詞的方法流程示意圖。參見圖1,該流程包括步驟101,獲取輸入的文本流;本步驟中,通過對網頁、微博包含的內容進行處理,獲取網頁、微博內容對應的文本流,文本流可以按照預先設定的時間周期進行獲取,也可以進行隨機獲取。步驟102,對文本流進行分詞,獲取候選詞集;本步驟中,對文本流進行分詞獲取文本流中包含的詞語,具體可參見相關技術文獻。步驟103,將獲取的候選詞集與預先設置的熱點詞詞表進行匹配,獲取熱點候選詞集,并統計熱點候選詞的頻率;本步驟中,可以以人工的方式預先整理、收集一批熱點事件中可能包含的待關注詞語,例如地震、火災、演講、事故、北京、旅游、購物等詞語組成熱點詞詞表。文本流輸入之后,將經過分詞處理獲取的候選詞集與熱點詞詞表進行匹配,如果候選詞集中的候選詞包含在熱點詞詞表中,則將候選詞集中的該候選詞作為熱點候選詞,放入熱點候選詞集中,并統計該熱點候選詞在候選詞集中出現的次數或頻率,即統計分詞后出現在熱點詞詞表中的詞的頻率。步驟104,選取頻率最高的預定數目的熱點候選詞作為熱點詞輸出。本步驟中,將頻率最高的N個熱點候選詞作為熱點詞輸出。由上述可見,現有的挖掘熱點詞的方法,需要人工整理熱點詞詞表,工作量大;同時,大量新出現的人名、地名、機構名可能是未登錄詞,即未被整理至熱點詞詞表中進行收錄,但這些詞又往往是一個熱點事件或主題的主要部分,使得基于人工整理形成的熱點詞詞表挖掘范圍小,不能挖掘到此類熱點事件或主題,使得熱點詞挖掘效率較低;進一步地,很多熱點詞,例如北京、電影、緋聞等往往是一些頻率較高的詞,由于多個事件會包含該詞,尤其是在微博平臺中,網友聊天對話中極有可能夾帶北京、緋聞這些詞語,使得這些詞被提及或頻繁出現,但頻繁出現的該詞并不能反映出一個熱點事件或是話題,也就是說,僅僅依靠詞語在一定時間內的出現頻率不能夠真正反映出這個詞語的熱度;而且,輸出的熱點詞是單個的詞語,在缺乏上下文的環境中,單個詞語難以反映一個熱點事件或是話題,例如,對于輸出的熱點詞為科特迪瓦的情形,在缺乏相關知識背景下,用戶難以了解這個詞語代表了哪一個熱點的事件或是話題。
技術實現思路
有鑒于此,本專利技術的主要目的在于提出一種挖掘熱點詞的方法,能夠擴展熱點詞的挖掘范圍、提高熱點詞挖掘效率。本專利技術的另一目的在于提出一種挖掘熱點詞的裝置,能夠擴展熱點詞的挖掘范圍、提聞熱點詞挖掘效率。為達到上述目的,本專利技術提供了一種挖掘熱點詞的方法,該方法包括獲取輸入的文本流,對文本流進行分詞,獲取候選詞集;統計候選詞集中各候選詞在文本流中出現的當前頻率,獲取各候選詞在預先存儲的歷史數據中的各歷史頻率;根據候選詞的當前頻率以及各歷史頻率計算該候選詞的頻率異常性值,在歷史數據中存儲該候選詞的當前頻率信息并輸出預定數目的頻率異常的候選詞。 在獲取候選詞集后,進一步包括將預先設置的停用詞表與獲取的候選詞集進行匹配,將候選詞集中與停用詞表相匹配的詞語進行過濾。所述停用詞表包括無意義詞語、和/或,高文檔率詞語。所述獲取各候選詞在預先存儲的歷史數據中的各歷史頻率包括如果歷史數據中存儲有該候選詞的各歷史頻率,讀取該候選詞的各歷史頻率;如果歷史數據中未存儲有該候選詞的歷史頻率,計算歷史數據中存儲的所有候選詞的各歷史頻率的平均值,作為該候選詞的各歷史頻率。所述根據候選詞的當前頻率以及各歷史頻率計算該候選詞的頻率異常性值包括根據候選詞的各歷史頻率獲取該候選詞的歷史頻率的平均值;根據該候選詞的各歷史頻率以及獲取的該候選詞的歷史頻率的平均值,計算該候選詞的方差;獲取該候選詞的當前頻率與歷史頻率的平均值的差的絕對值,計算該絕對值與所述方差的商,得到該候選詞的頻率異常性值。所述輸出預定數目的頻率異常的候選詞為將預定數目的頻率異常的候選詞聚合成用以描述一個事件或主題的詞簇進行輸出。所述將預定數目的頻率異常的候選詞聚合成用以描述一個事件或主題的詞簇包括基于預定數目的頻率異常的候選詞,統計每兩個候選詞組成的詞組在同一文本流中出現的次數;統計該兩個候選詞在同一文本流中分別出現的次數,并獲取該兩個候選詞在同一文本流中分別出現的次數的乘積;獲取所述詞組在同一文本流中出現的次數與所述乘積的商,作為所述兩個候選詞之間的點間互信息距離;如果獲取的點間互信息距離值大于預先設置的點間互信息距離值閾值,則將該點間互信息距離值對應的兩個候選詞合成為一個詞簇。進一步包括基于選擇的預定數目的頻率異常的候選詞或者通過候選詞聚合形成的詞簇,觸發從預先設置的外部數據源執行搜索,并將搜索結果與預定數目的頻率異常的候選詞或者詞簇同時向用戶展示。一種挖掘熱點詞的裝置,該裝置包括分詞模塊、歷史數據存儲模塊以及頻率異常性值處理模塊,其中,分詞模塊,用于獲取輸入的文本流,對文本流進行分詞,獲取候選詞集;歷史數據存儲模塊,用于存儲候選詞的各歷史頻率;頻率異常性值處理模塊,用于統計候選詞集中各候選詞在文本流中出現的當前頻率,根據候選詞的當前頻率以及歷史數據存儲模塊存儲的該候選詞的各歷史頻率計算該候選詞的頻率異常性值,將計算得到的候選詞的當前頻率信息輸出至歷史數據存儲模塊,并輸出預定數目的頻率異常的候選詞。進一步包括去噪模塊,用于根據預先設置的停用詞表,與分詞模塊獲取的候選詞集進行匹配,將候選詞集中與停用詞表相匹配的詞語進行去噪處理。進一步包括候選詞聚合模塊,用于接收頻率異常性值處理模塊輸出的預定數目的頻率異常的候選詞,將獲取的候選詞聚合成用以描述一個事件或主題的詞簇。進一步包括搜索模塊,用于以獲取的詞簇或候選詞為搜索關鍵詞,觸發從預先設置的數據源執行搜索,向用戶展示詞簇以及搜索結果,或者,候選詞以及搜索結果。所述頻率異常性值處理模塊包括當前頻率統計單元、歷史頻率平均值計算單元、方差計算單元、異常性值計算單元以及候選詞輸出判斷單元,其中,當前頻率統計單元,用于統計候選詞集中各候選詞在輸入文本流中出現的當前頻率,將當前頻率信息分別輸出至歷史數據存儲模塊以及異常性值計算單元;歷史頻率平均值計算單元,用于讀取歷史數據存儲模塊存儲的各候選詞的歷史頻率,計算各候選詞的歷史頻率的平均值,輸出至異常性值計算單元;方差計算單元,用于根據歷史數據存儲模塊存儲的各候選詞的歷史頻率以及歷史頻率平均值計算單元計算得到的該候選詞的歷史頻率的平均值,計算各候選詞的方差,輸出至異常性值計算單元本文檔來自技高網...
【技術保護點】
一種挖掘熱點詞的方法,其特征在于,該方法包括:獲取輸入的文本流,對文本流進行分詞,獲取候選詞集;統計候選詞集中各候選詞在文本流中出現的當前頻率,獲取各候選詞在預先存儲的歷史數據中的各歷史頻率;根據候選詞的當前頻率以及各歷史頻率計算該候選詞的頻率異常性值,在歷史數據中存儲該候選詞的當前頻率信息并輸出預定數目的頻率異常的候選詞。
【技術特征摘要】
1.一種挖掘熱點詞的方法,其特征在于,該方法包括 獲取輸入的文本流,對文本流進行分詞,獲取候選詞集; 統計候選詞集中各候選詞在文本流中出現的當前頻率,獲取各候選詞在預先存儲的歷史數據中的各歷史頻率; 根據候選詞的當前頻率以及各歷史頻率計算該候選詞的頻率異常性值,在歷史數據中存儲該候選詞的當前頻率信息并輸出預定數目的頻率異常的候選詞。2.如權利要求1所述的方法,其特征在于,在獲取候選詞集后,進一步包括 將預先設置的停用詞表與獲取的候選詞集進行匹配,將候選詞集中與停用詞表相匹配的詞語進行過濾。3.如權利要求2所述的方法,其特征在于,所述停用詞表包括無意義詞語、和/或,高文檔率詞語。4.如權利要求1所述的方法,其特征在于,所述獲取各候選詞在預先存儲的歷史數據中的各歷史頻率包括 如果歷史數據中存儲有該候選詞的各歷史頻率,讀取該候選詞的各歷史頻率; 如果歷史數據中未存儲有該候選詞的歷史頻率,計算歷史數據中存儲的所有候選詞的各歷史頻率的平均值,作為該候選詞的各歷史頻率。5.如權利要求1所述的方法,其特征在于,所述根據候選詞的當前頻率以及各歷史頻率計算該候選詞的頻率異常性值包括 根據候選詞的各歷史頻率獲取該候選詞的歷史頻率的平均值; 根據該候選詞的各歷史頻率以及獲取的該候選詞的歷史頻率的平均值,計算該候選詞的方差; 獲取該候選詞的當前頻率與歷史頻率的平均值的差的絕對值,計算該絕對值與所述方差的商,得到該候選詞的頻率異常性值。6.如權利要求1至5任一項所述的方法,其特征在于,所述輸出預定數目的頻率異常的候選詞為 將預定數目的頻率異常的候選詞聚合成用以描述一個事件或主題的詞簇進行輸出。7.如權利要求6所述的方法,其特征在于,所述將預定數目的頻率異常的候選詞聚合成用以描述一個事件或主題的詞簇包括 基于預定數目的頻率異常的候選詞,統計每兩個候選詞組成的詞組在同一文本流中出現的次數; 統計該兩個候選詞在同一文本流中分別出現的次數,并獲取該兩個候選詞在同一文本流中分別出現的次數的乘積; 獲取所述詞組在同一文本流中出現的次數與所述乘積的商,作為所述兩個候選詞之間的點間互信息距離; 如果獲取的點間互信息距離值大于預先設置的點間互信息距離值閾值,則將該點間互信息距離值對應的兩個候選詞合成為一個詞簇。8.如權利要求1至5任一項所述的方法,其特征在于,進一步包括 基于選擇的預定數目的頻率異常的...
【專利技術屬性】
技術研發人員:羅侃,陳洪亮,楊志峰,
申請(專利權)人:騰訊科技深圳有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。