本申請公開了熱詞提取方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì),用于利用一段時間內(nèi)公開發(fā)布的文本信息分析生態(tài)環(huán)境領(lǐng)域的關(guān)鍵詞;所述方法具體包括:收集文本數(shù)據(jù);分詞處理;基于分詞處理結(jié)果抽取關(guān)鍵詞;基于分詞處理結(jié)果進行詞頻統(tǒng)計和關(guān)聯(lián)性分析;基于分詞處理結(jié)果進行主題聚類和共現(xiàn)網(wǎng)絡(luò)分析;基于抽取關(guān)鍵詞、詞頻統(tǒng)計和主題聚類的結(jié)果進行熱詞篩選。根據(jù)本申請的技術(shù)方案,本申請的優(yōu)勢在于:本申請分析出一段時間生態(tài)領(lǐng)域的關(guān)鍵詞,在宏觀政策管理和輿論宣傳引導(dǎo)上提供方向上的建議和參考;在文本數(shù)據(jù)分析方法上,在詞頻統(tǒng)計基礎(chǔ)上,本申請考慮相聯(lián)系詞匯的重要性和代表性進行詞語篩選,提供了更為準確的關(guān)鍵詞。提供了更為準確的關(guān)鍵詞。提供了更為準確的關(guān)鍵詞。
【技術(shù)實現(xiàn)步驟摘要】
熱詞提取方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)
[0001]本申請涉及語義分析領(lǐng)域,更具體地說,涉及一種熱詞提取方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)。
技術(shù)介紹
[0002]當(dāng)前通過文本分析挖掘熱點輿情已經(jīng)在政務(wù)領(lǐng)域得到廣泛應(yīng)用,但尚未在環(huán)保領(lǐng)域中實現(xiàn)。生態(tài)環(huán)境領(lǐng)域與其他公共事件領(lǐng)域的區(qū)別在于:
[0003]生態(tài)環(huán)境領(lǐng)域事件通常專業(yè)性較高;生態(tài)環(huán)境保護是工程、理學(xué)、管理學(xué)、經(jīng)濟學(xué)等專業(yè)學(xué)科交叉形成的學(xué)科,其與基礎(chǔ)學(xué)科聯(lián)系緊密,又有獨立的邏輯與學(xué)科體系。生態(tài)環(huán)境保護在生產(chǎn)生活的方方面面體現(xiàn),但除部分標志性環(huán)境污染事件外通常普通人難以關(guān)注,難以了解其內(nèi)在的運行邏輯。因此通過輿情文本等常規(guī)收集手段進行分析往往忽略一些熱點,而且通過普通分詞方法可能將一些專業(yè)術(shù)語拆分為無意義詞語。
[0004]生態(tài)環(huán)境領(lǐng)域產(chǎn)生的詞語聯(lián)系緊密,許多環(huán)保熱詞通常指向同一事件,如PM
2.5
、霧霾、大氣污染等詞語往往同時出現(xiàn),僅通過詞語詞頻統(tǒng)計等手段提取會產(chǎn)生重復(fù)。
[0005]因此,如何從海量的文本中提取生態(tài)環(huán)境領(lǐng)域熱詞成為本領(lǐng)域需要解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
[0006]有鑒于此,本申請?zhí)岢隽艘环N熱詞提取方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì),以實現(xiàn)從海量的文本中提取生態(tài)環(huán)境領(lǐng)域熱詞的準確性并提高生產(chǎn)效率。
[0007]根據(jù)本申請,提出了一種熱詞提取方法,所述方法包括:
[0008]步驟1:收集生態(tài)環(huán)境領(lǐng)域的文本數(shù)據(jù);
[0009]步驟2:分詞處理;
[0010]步驟3:基于分詞處理結(jié)果抽取關(guān)鍵詞,和/或基于分詞處理結(jié)果進行詞頻統(tǒng)計,和/或基于分詞處理結(jié)果進行主題聚類;
[0011]步驟4:基于抽取關(guān)鍵詞、詞頻統(tǒng)計和主題聚類的結(jié)果進行熱詞篩選。
[0012]作為上述方法的一種改進,所述步驟3還包括:基于分詞處理結(jié)果進行關(guān)聯(lián)性分析。
[0013]作為上述方法的一種改進,所述步驟3還包括:基于分詞處理結(jié)果進行共現(xiàn)網(wǎng)絡(luò)分析。
[0014]作為上述方法的一種改進,所述分詞處理采用Jieba庫分詞組件進行分詞,生成包含語義的詞語組合。
[0015]作為上述方法的一種改進,所述抽取關(guān)鍵詞采用基于MMR優(yōu)化的 TextRank算法,生成最適合表達文本含義的摘要詞語集合。
[0016]作為上述方法的一種改進,所述詞頻統(tǒng)計采用TF
?
IWF算法,生成出現(xiàn)頻率由高到底的詞語集合。
[0017]作為上述方法的一種改進,所述主題聚類采用LDA模型,生成話題的核心關(guān)鍵詞語和具體概率。
[0018]作為上述方法的一種改進,所述熱詞篩選是提取步驟3產(chǎn)生結(jié)果中排名靠前的詞語集合。
[0019]本申請還提供一種熱詞提取系統(tǒng),所述系統(tǒng)包括:
[0020]收集數(shù)據(jù)模塊,用于收集生態(tài)環(huán)境領(lǐng)域的文本信息;
[0021]分詞處理模塊,用于對收集的數(shù)據(jù)進行分詞處理;
[0022]熱詞計算模塊,用于基于分詞處理結(jié)果抽取關(guān)鍵詞,和/或基于分詞處理結(jié)果進行詞頻統(tǒng)計,和/或基于分詞處理結(jié)果進行主題聚類;
[0023]熱詞篩選模塊,用于基于抽取關(guān)鍵詞、詞頻統(tǒng)計和主題聚類的結(jié)果進行熱詞篩選。
[0024]本申請還提供一種計算機設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述任一項所述的方法。
[0025]本申請還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序當(dāng)被處理器執(zhí)行時使所述處理器執(zhí)行如上述任一項所述的方法。
[0026]根據(jù)本申請的技術(shù)方案,本申請的優(yōu)勢在于:
[0027]1、本申請回顧一段時間生態(tài)環(huán)境領(lǐng)域的熱點、焦點,分析出一段時間生態(tài)領(lǐng)域的關(guān)鍵詞,在宏觀政策管理和輿論宣傳引導(dǎo)上提供方向上的建議和參考。
[0028]2、在文本數(shù)據(jù)選擇范圍上,本申請結(jié)合媒體、輿論、官方等權(quán)威和非權(quán)威媒體進行分析,數(shù)據(jù)來源廣泛。
[0029]3、在文本數(shù)據(jù)分析方法上,在詞頻統(tǒng)計基礎(chǔ)上,本申請采用了聚類分析,用于建立不同詞匯之間的聯(lián)系,最后綜合考慮相聯(lián)系詞匯的重要性和代表性進行詞語篩選,提供了更為準確的關(guān)鍵詞。
[0030]4、在文本詞庫上,由于生態(tài)環(huán)境領(lǐng)域的專業(yè)性,本申請基于實踐經(jīng)驗提供了一套生態(tài)環(huán)境領(lǐng)域詞庫,用于文本詞匯的分詞和篩選。
[0031]5、考慮到生態(tài)環(huán)境熱詞在詞性、詞義上與其他主題詞匯的差異及其特征的長詞、連詞和專有用詞的特性,本申請在采用Jieba庫分詞組件通過指定分詞的詞典(包含碳生物多樣性保護、碳排放權(quán)交易、“三線一單”、生態(tài)產(chǎn)品價值實現(xiàn)生態(tài)環(huán)保規(guī)劃等重要特定詞匯)和自定義的詞典,替換掉默認的詞典,保證關(guān)鍵特定詞匯在分詞中不被拆散給予保留。
[0032]6、考慮到TextRank挑選摘要句時會側(cè)重于挑選那些與很多句子相似度高的句子,因此最后會導(dǎo)致挑選的很多句子冗余度比較高,從而遺漏一些帶有其他主題信息卻“勢單力薄”的句子的缺點,MMR算法(最大邊界相關(guān)算法)對TextRank進行優(yōu)化,通過計算Query文本與被搜索文檔之間的相似度,然后對文檔進行rank排序的算法進而達到優(yōu)化的目的。
[0033]7、考慮到TF
?
IDF算法采用文本逆頻率IDF對TF值加權(quán)取權(quán)值大的作為關(guān)鍵詞,但IDF的簡單結(jié)構(gòu)并不能有效地反映單詞的重要程度和特征詞的分布情況,使其無法很好地完成對權(quán)值調(diào)整的功能,結(jié)合生態(tài)環(huán)境熱詞中特征詞高頻出現(xiàn)的特征,所以TF
?
IDF算法的精度并不是很高,利用段落標注技術(shù),對處于不同位置的詞語給予不同的位置權(quán)重,對分詞結(jié)果中詞頻較高的同詞性詞語進行詞語相似度計算,合并相似度較高的詞語,通過詞語逆頻率TF
?
IWF算法,按權(quán)值排序得到關(guān)鍵詞,解決生態(tài)環(huán)境熱詞中文關(guān)鍵詞提取方法中對相
似度高的詞的不重視而導(dǎo)致關(guān)鍵詞提取精度不高的問題。
[0034]8、考慮到生態(tài)環(huán)境熱詞文本數(shù)據(jù)量非常大時,LDA算法采樣較慢,大文本數(shù)據(jù)下主題分類效率降低的問題,通過LDA并行優(yōu)化方法與流程,可以提高LDA模型在大規(guī)模文本數(shù)據(jù)下的使用效率,解決生態(tài)環(huán)境熱詞來源廣、數(shù)據(jù)多的問題。
[0035]本申請的其它特征和優(yōu)點將在隨后的具體實施方式部分予以詳細說明。
附圖說明
[0036]構(gòu)成本申請的一部分的附圖用來提供對本申請的進一步理解,本申請的示意性實施方式及其說明用于解釋本申請。在附圖中:
[0037]圖1為基于文本分析的生態(tài)環(huán)境領(lǐng)域熱詞提取方法流程圖;
[0038]圖2為分詞處理示意圖;
[0039]圖3為采用2021年生態(tài)環(huán)境部微信公眾號消息的TF(詞匯頻率)
?
IWF(逆詞匯頻率)結(jié)果示意圖;
[0040]圖4為采用2021年生態(tài)環(huán)境部微信公眾號消息的關(guān)聯(lián)性分析(Correspondenceanalysis)結(jié)果示意圖;...
【技術(shù)保護點】
【技術(shù)特征摘要】
1.熱詞提取方法,所述方法包括:步驟1:收集生態(tài)環(huán)境領(lǐng)域的文本數(shù)據(jù);步驟2:分詞處理;步驟3:基于分詞處理結(jié)果抽取關(guān)鍵詞,和/或基于分詞處理結(jié)果進行詞頻統(tǒng)計,和/或基于分詞處理結(jié)果進行主題聚類;步驟4:基于抽取關(guān)鍵詞、詞頻統(tǒng)計和主題聚類的結(jié)果進行熱詞篩選。2.根據(jù)權(quán)利要求1所述的熱詞提取方法,其特征在于,所述步驟3還包括:基于分詞處理結(jié)果進行關(guān)聯(lián)性分析。3.根據(jù)權(quán)利要求1所述的熱詞提取方法,其特征在于,所述步驟3還包括:基于分詞處理結(jié)果進行共現(xiàn)網(wǎng)絡(luò)分析。4.根據(jù)權(quán)利要求1所述的熱詞提取方法,其特征在于,所述分詞處理采用Jieba庫分詞組件進行分詞,生成包含語義的詞語組合。5.根據(jù)權(quán)利要求1所述的熱詞提取方法,其特征在于,所述抽取關(guān)鍵詞采用基于MMR優(yōu)化的TextRank算法,生成最適合表達文本含義的摘要詞語集合。6.根據(jù)權(quán)利要求1所述的熱詞提取方法,其特征在于,所述詞頻統(tǒng)計采用TF
?
IWF算法,生成出現(xiàn)頻率由高到底的詞語集合。7.根據(jù)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王曉婷,李勃,容冰,楊書豪,王倩,儲成君,劉侗一,李雅婷,
申請(專利權(quán))人:生態(tài)環(huán)境部環(huán)境規(guī)劃院,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。