當(dāng)前位置: 首頁 > 專利查詢>生態(tài)環(huán)境部環(huán)境規(guī)劃院專利>正文

熱詞提取方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)技術(shù)方案

技術(shù)編號：36690923 閱讀：18 留言：0更新日期：2023-02-27 19:58

本申請公開了熱詞提取方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)，用于利用一段時間內(nèi)公開發(fā)布的文本信息分析生態(tài)環(huán)境領(lǐng)域的關(guān)鍵詞；所述方法具體包括：收集文本數(shù)據(jù)；分詞處理；基于分詞處理結(jié)果抽取關(guān)鍵詞；基于分詞處理結(jié)果進行詞頻統(tǒng)計和關(guān)聯(lián)性分析；基于分詞處理結(jié)果進行主題聚類和共現(xiàn)網(wǎng)絡(luò)分析；基于抽取關(guān)鍵詞、詞頻統(tǒng)計和主題聚類的結(jié)果進行熱詞篩選。根據(jù)本申請的技術(shù)方案，本申請的優(yōu)勢在于：本申請分析出一段時間生態(tài)領(lǐng)域的關(guān)鍵詞，在宏觀政策管理和輿論宣傳引導(dǎo)上提供方向上的建議和參考；在文本數(shù)據(jù)分析方法上，在詞頻統(tǒng)計基礎(chǔ)上，本申請考慮相聯(lián)系詞匯的重要性和代表性進行詞語篩選，提供了更為準確的關(guān)鍵詞。提供了更為準確的關(guān)鍵詞。提供了更為準確的關(guān)鍵詞。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】
熱詞提取方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)

[0001]本申請涉及語義分析領(lǐng)域，更具體地說，涉及一種熱詞提取方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)。

技術(shù)介紹

[0002]當(dāng)前通過文本分析挖掘熱點輿情已經(jīng)在政務(wù)領(lǐng)域得到廣泛應(yīng)用，但尚未在環(huán)保領(lǐng)域中實現(xiàn)。生態(tài)環(huán)境領(lǐng)域與其他公共事件領(lǐng)域的區(qū)別在于：
[0003]生態(tài)環(huán)境領(lǐng)域事件通常專業(yè)性較高；生態(tài)環(huán)境保護是工程、理學(xué)、管理學(xué)、經(jīng)濟學(xué)等專業(yè)學(xué)科交叉形成的學(xué)科，其與基礎(chǔ)學(xué)科聯(lián)系緊密，又有獨立的邏輯與學(xué)科體系。生態(tài)環(huán)境保護在生產(chǎn)生活的方方面面體現(xiàn)，但除部分標志性環(huán)境污染事件外通常普通人難以關(guān)注，難以了解其內(nèi)在的運行邏輯。因此通過輿情文本等常規(guī)收集手段進行分析往往忽略一些熱點，而且通過普通分詞方法可能將一些專業(yè)術(shù)語拆分為無意義詞語。
[0004]生態(tài)環(huán)境領(lǐng)域產(chǎn)生的詞語聯(lián)系緊密，許多環(huán)保熱詞通常指向同一事件，如PM
2.5
、霧霾、大氣污染等詞語往往同時出現(xiàn)，僅通過詞語詞頻統(tǒng)計等手段提取會產(chǎn)生重復(fù)。
[0005]因此，如何從海量的文本中提取生態(tài)環(huán)境領(lǐng)域熱詞成為本領(lǐng)域需要解決的技術(shù)問題。

技術(shù)實現(xiàn)思路

[0006]有鑒于此，本申請?zhí)岢隽艘环N熱詞提取方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)，以實現(xiàn)從海量的文本中提取生態(tài)環(huán)境領(lǐng)域熱詞的準確性并提高生產(chǎn)效率。
[0007]根據(jù)本申請，提出了一種熱詞提取方法，所述方法包括：
[0008]步驟1：收集生態(tài)環(huán)境領(lǐng)域的文本數(shù)據(jù)；
[0009]步驟2：分詞處理；
[0010]步驟

【技術(shù)保護點】

【技術(shù)特征摘要】
1.熱詞提取方法，所述方法包括：步驟1：收集生態(tài)環(huán)境領(lǐng)域的文本數(shù)據(jù)；步驟2：分詞處理；步驟3：基于分詞處理結(jié)果抽取關(guān)鍵詞，和/或基于分詞處理結(jié)果進行詞頻統(tǒng)計，和/或基于分詞處理結(jié)果進行主題聚類；步驟4：基于抽取關(guān)鍵詞、詞頻統(tǒng)計和主題聚類的結(jié)果進行熱詞篩選。2.根據(jù)權(quán)利要求1所述的熱詞提取方法，其特征在于，所述步驟3還包括：基于分詞處理結(jié)果進行關(guān)聯(lián)性分析。3.根據(jù)權(quán)利要求1所述的熱詞提取方法，其特征在于，所述步驟3還包括：基于分詞處理結(jié)果進行共現(xiàn)網(wǎng)絡(luò)分析。4.根據(jù)權(quán)利要求1所述的熱詞提取方法，其特征在于，所述分詞處理采用Jieba庫分詞組件進行分詞，生成包含語義的詞語組合。5.根據(jù)權(quán)利要求1所述的熱詞提取方法，其特征在于，所述抽取關(guān)鍵詞采用基于MMR優(yōu)化的TextRank算法，生成最適合表達文本含義的摘要詞語集合。6.根據(jù)權(quán)利要求1所述的熱詞提取方法，其特征在于，所述詞頻統(tǒng)計采用TF
?
IWF算法，生成出現(xiàn)頻率由高到底的詞語集合。7.根據(jù)...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：王曉婷，李勃，容冰，楊書豪，王倩，儲成君，劉侗一，李雅婷，
申請(專利權(quán))人：生態(tài)環(huán)境部環(huán)境規(guī)劃院，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)