• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置制造方法及圖紙

    技術(shù)編號(hào):15704880 閱讀:244 留言:0更新日期:2017-06-26 10:12
    本發(fā)明專利技術(shù)提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,本發(fā)明專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法包括:獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)第一關(guān)鍵詞和第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,詞向量文件包括第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。本發(fā)明專利技術(shù)的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,通過考慮文本的語義信息來擴(kuò)展事件的關(guān)鍵詞,并通過擴(kuò)展后的關(guān)鍵詞進(jìn)行微博突發(fā)事件的檢測(cè),可以準(zhǔn)確的檢測(cè)微博突發(fā)事件,避免了將同一事件分成兩個(gè)微博事件,并可以進(jìn)行在線檢測(cè)。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置
    本專利技術(shù)涉及微博技術(shù),尤其涉及一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置。
    技術(shù)介紹
    微博的社會(huì)化特性及其可以被迅速、及時(shí)的傳播,吸引了大量對(duì)信息實(shí)時(shí)性有高需求的網(wǎng)民。微博使得世界上的每一個(gè)人都能夠成為信息源,并使之在全球傳播,這就使得微博本身所承載的信息量大大增加。微博已經(jīng)集合了海量的新聞、事件和信息,并且每天都在更新,每天都在流傳,對(duì)現(xiàn)實(shí)的社會(huì)產(chǎn)生巨大的影響。尤其是在突發(fā)事件的信息傳播上,微博更是超越了傳統(tǒng)媒體,成為了信息快速傳播的渠道。微博上的信息不僅發(fā)布及時(shí),而且也是現(xiàn)實(shí)社會(huì)生活的縮影,挖掘微博上的信息有利于從不同角度分析現(xiàn)實(shí)世界的情況。因此,從海量的微博數(shù)據(jù)檢測(cè)事件具有十分重要的意義。現(xiàn)有技術(shù)中的微博事件檢測(cè)的方法可以分為兩類,一類是針對(duì)特定事件的微博事件檢測(cè)方法,一類是通用的微博事件檢測(cè)方法。對(duì)于對(duì)特定事件的微博事件檢測(cè)方法,通常需要對(duì)事件具有一定的先驗(yàn)知識(shí),比如針對(duì)地震的微博事件檢測(cè),需要首先通過地震相關(guān)的關(guān)鍵詞找出相關(guān)微博,然后對(duì)這部分微博進(jìn)行分析,但是對(duì)于突發(fā)事件很難具有先驗(yàn)的信息,因此,該種微博事件檢測(cè)方法具有很強(qiáng)的局限性。對(duì)于通用的微博事件檢測(cè)方法不需要事件的先驗(yàn)知識(shí),主要包括基于突發(fā)特征檢測(cè)、主題模型、聚類或者圖的方法,但是這些方法普遍需要離線檢測(cè),不能處理流式數(shù)據(jù)。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,以解決上述技術(shù)問題。本專利技術(shù)提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法,包括:獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,所述詞向量文件包括所述第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。如上所述的方法,所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:根據(jù)所述詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。如上所述的方法,在所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件之前,還包括:獲取多個(gè)文本,并對(duì)各所述文本進(jìn)行文本分詞,得到所述訓(xùn)練詞語;采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件。如上所述的方法,在所述采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件之后,還包括:每隔預(yù)設(shè)周期更新所述詞向量文件,得到更新后的詞向量文件;相應(yīng)地,所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:根據(jù)所述更新后的詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。如上所述的方法,所述每隔預(yù)設(shè)周期更新所述詞向量文件,包括:每隔所述預(yù)設(shè)周期重新獲取多個(gè)文本,并對(duì)各重新獲取的文本進(jìn)行文本分詞,得到更新后的訓(xùn)練詞語;采用word2vec方法對(duì)所述更新后的訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述更新后的詞向量文件。如上所述的方法,所述根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件,包括:獲取所述多個(gè)微博被檢測(cè)出來的檢測(cè)時(shí)間;獲取所述多個(gè)微博的相關(guān)度,將相關(guān)度位于前N名的N個(gè)微博作為所述微博突發(fā)事件的相關(guān)微博,并獲取所述相關(guān)微博的摘要;獲取各所述相關(guān)微博的屬性,所述屬性包括:微博中出現(xiàn)的地點(diǎn)以及參與者,并獲取出現(xiàn)次數(shù)最多的目標(biāo)地點(diǎn)和出現(xiàn)次數(shù)最多的目標(biāo)參與者;根據(jù)所述相關(guān)微博的語義表達(dá),采用語義擴(kuò)展的Embedding細(xì)胞詞庫(kù)和支持向量機(jī)SVM方法,獲取所述微博突發(fā)事件的分類;采用基于所述SVM的情感分類方法,獲取所述微博突發(fā)事件的情感;根據(jù)所述檢測(cè)時(shí)間、相關(guān)微博、摘要、目標(biāo)地點(diǎn)、目標(biāo)參與者、微博突發(fā)事件的分類以及微博突發(fā)事件的情感,得到所述微博突發(fā)事件。如上所述的方法,所述獲取所述相關(guān)微博的摘要,包括:采用NLPIR分詞系統(tǒng)獲取對(duì)所述相關(guān)微博的第一描述;查詢所述相關(guān)微博中是否含有主體標(biāo)簽,所述第一描述中是否含有所述主體標(biāo)簽;若所述相關(guān)微博和所述第一描述中均含有主體標(biāo)簽,則將第一描述作為所述摘要;若所述相關(guān)微博中包含主體標(biāo)簽,第一描述中不包括主體標(biāo)簽,則將所述主體標(biāo)簽作為所述摘要;若所述相關(guān)微博中不包含主體標(biāo)簽,則獲取相關(guān)微博中包含最多關(guān)鍵詞的語句,將所述語句作為所述摘要;其中,所述關(guān)鍵詞是指所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞。本專利技術(shù)還提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)裝置,包括:第一關(guān)鍵詞獲取模塊,所述第一關(guān)鍵詞獲取模塊用于獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;微博突發(fā)事件檢測(cè)模塊,所述微博突發(fā)事件檢測(cè)模塊用于根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,所述詞向量文件包括所述第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。如上所述的裝置,所述微博突發(fā)事件檢測(cè)模塊包括:第二關(guān)鍵詞獲取單元,所述第二關(guān)鍵詞獲取單元用于根據(jù)所述詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;微博獲取單元,所述微博獲取單元用于根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;微博突發(fā)事件獲取單元,所述微博突發(fā)事件獲取單元用于根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。如上所述的裝置,所述裝置還包括:訓(xùn)練詞語獲取模塊,所述訓(xùn)練詞語獲取模塊用于獲取多個(gè)文本,并對(duì)各所述文本進(jìn)行文本分詞,得到所述訓(xùn)練詞語;詞向量文件獲取模塊,所述詞向量文件獲取模塊用于采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件。本專利技術(shù)提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,本專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法包括:獲取與待檢測(cè)的微博事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)第一關(guān)鍵詞和第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博事件;其中,第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,詞向量文件包括第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。本專利技術(shù)的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,通過考慮文本的語義信息來擴(kuò)展事件的關(guān)鍵詞,并通過擴(kuò)展后的關(guān)鍵詞進(jìn)行微博突發(fā)事件的檢測(cè),可以準(zhǔn)確的檢測(cè)到微博突發(fā)事件,避免將同一事件分成兩個(gè)微博事件,并可以進(jìn)行在線檢測(cè)。附圖說明為了更清楚地說明本專利技術(shù)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本專利技術(shù)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法的流程圖一;圖2為本專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法的流程圖二;圖3為本專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)裝置實(shí)施例一本文檔來自技高網(wǎng)...
    基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置

    【技術(shù)保護(hù)點(diǎn)】
    一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法,其特征在于,包括:獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,所述詞向量文件包括所述第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。

    【技術(shù)特征摘要】
    1.一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法,其特征在于,包括:獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,所述詞向量文件包括所述第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:根據(jù)所述詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件之前,還包括:獲取多個(gè)文本,并對(duì)各所述文本進(jìn)行文本分詞,得到所述訓(xùn)練詞語;采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件之后,還包括:每隔預(yù)設(shè)周期更新所述詞向量文件,得到更新后的詞向量文件;相應(yīng)地,所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:根據(jù)所述更新后的詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述每隔預(yù)設(shè)周期更新所述詞向量文件,包括:每隔所述預(yù)設(shè)周期重新獲取多個(gè)文本,并對(duì)各重新獲取的文本進(jìn)行文本分詞,得到更新后的訓(xùn)練詞語;采用word2vec方法對(duì)所述更新后的訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述更新后的詞向量文件。6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件,包括:獲取所述多個(gè)微博被檢測(cè)出來的檢測(cè)時(shí)間;獲取所述多個(gè)微博的相關(guān)度,將相關(guān)度位于前N名的N個(gè)微博作為所述微博突發(fā)事件的相關(guān)微博,并獲取所述相關(guān)微博的摘要;獲取各所述相關(guān)微博的屬性,所述屬性包括:微博中出現(xiàn)的地點(diǎn)以及參與者,并獲...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:胡春明吳博彭浩張日崇李建欣
    申請(qǐng)(專利權(quán))人:北京航空航天大學(xué)
    類型:發(fā)明
    國(guó)別省市:北京,11

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 无套中出丰满人妻无码| 国产午夜精品无码| 久久久亚洲精品无码| 国模无码一区二区三区不卡| 国产精品午夜无码体验区| 少妇无码AV无码一区| 国产AV无码专区亚洲AVJULIA| 亚洲国产超清无码专区| 日韩精品无码久久一区二区三| 亚洲va无码专区国产乱码| 国产精品无码av片在线观看播| 无码内射中文字幕岛国片| 人妻少妇精品无码专区| 无码国产精成人午夜视频一区二区 | 性无码免费一区二区三区在线| 精品亚洲av无码一区二区柚蜜| 欧洲无码一区二区三区在线观看| 久久无码人妻精品一区二区三区| 无码中文在线二区免费| 水蜜桃av无码一区二区| 国产V片在线播放免费无码| 无码午夜人妻一区二区不卡视频| 97久久精品亚洲中文字幕无码 | 水蜜桃av无码一区二区| 亚洲日韩精品一区二区三区无码 | 无码专区狠狠躁躁天天躁| 中文无码人妻有码人妻中文字幕| 免费无码一区二区三区蜜桃大 | 亚洲人片在线观看天堂无码 | 久久久无码精品人妻一区| 精品无码一区二区三区电影| 亚洲欧洲日产国码无码久久99| yy111111少妇影院里无码| 亚洲综合最新无码专区| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 亚洲av无码专区在线观看亚| 亚洲国产精品无码久久久| 91精品无码久久久久久五月天 | 日韩精品无码Av一区二区| 亚洲日韩VA无码中文字幕| 国产精品无码国模私拍视频|