• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng)及方法技術(shù)方案

    技術(shù)編號:34961803 閱讀:36 留言:0更新日期:2022-09-17 12:41
    本發(fā)明專利技術(shù)提出了一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng)及方法,涉及汽車輿情智能監(jiān)測里,方法包括:一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng),其特征在于,包括數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)表示模塊、多標(biāo)簽分類模塊、標(biāo)簽概率評價(jià)模塊、顯示模塊。數(shù)據(jù)預(yù)處理模塊用于對汽車輿情信息進(jìn)行預(yù)處理;數(shù)據(jù)表示模塊用于對預(yù)處理后的汽車輿情信息進(jìn)行向量化表示;多標(biāo)簽分類模塊用于使用數(shù)據(jù)集構(gòu)建多標(biāo)簽分類模型;標(biāo)簽概率評價(jià)模塊用于根據(jù)預(yù)測結(jié)果進(jìn)行計(jì)算標(biāo)簽預(yù)測概率得到最終結(jié)果;顯示模塊用于對多標(biāo)簽結(jié)果進(jìn)行可視化展示。實(shí)現(xiàn)了對汽車輿情的多標(biāo)簽分類,并改進(jìn)了現(xiàn)有方法所需模型構(gòu)建時(shí)間較長的問題,并且模型的編碼能力和準(zhǔn)確率較現(xiàn)有方法有很大的提高。法有很大的提高。法有很大的提高。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng)及方法


    [0001]本專利技術(shù)涉及文本分類領(lǐng)域,特別是涉及一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng)及方法。

    技術(shù)介紹

    [0002]隨著互聯(lián)網(wǎng)的發(fā)展和智能設(shè)備的普及,越來越多的網(wǎng)民愿意在社交平臺上發(fā)表自己的言論,網(wǎng)絡(luò)輿情對企業(yè)的影響也越來越大。其中,汽車行業(yè)輿情對于消費(fèi)者或者生產(chǎn)車間來說都是非常重要的,有效地輿情分析能夠幫助企業(yè)調(diào)研了解市場需求、確定目標(biāo)用戶、確定產(chǎn)品核心以及制訂更優(yōu)的策略,更有助于預(yù)測汽車行業(yè)的發(fā)展前景和投資價(jià)值。
    [0003]傳統(tǒng)的機(jī)器學(xué)習(xí)算法中能用來分類的模型包括NB模型、隨機(jī)森林模型、SVM分類模型、KNN分類模型以及神經(jīng)網(wǎng)絡(luò)分類模型。但是專門針對汽車輿情監(jiān)測的多標(biāo)簽文本分類方法還有很大的提升空間,一般只是通過情感分析的方法,判斷段落的正面情感或負(fù)面情感等,從而實(shí)現(xiàn)的汽車輿情環(huán)境監(jiān)測,而忽略了輿情信息中包含的對汽車各項(xiàng)參數(shù)的微觀監(jiān)測。
    [0004]鑒于此,本專利技術(shù)提出了一種面向汽車輿情的多標(biāo)簽文本分類方法,并使用獲取到的主題標(biāo)簽來實(shí)現(xiàn)汽車輿情口碑中優(yōu)劣表現(xiàn)的追蹤以及汽車行業(yè)未來發(fā)展策略的預(yù)測。

    技術(shù)實(shí)現(xiàn)思路

    [0005]為解決上述技術(shù)問題,本專利技術(shù)采用的一個(gè)技術(shù)方案是:提供一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng),包括數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)表示模塊、多標(biāo)簽分類模塊、標(biāo)簽概率評價(jià)模塊、顯示模塊。
    [0006]所述數(shù)據(jù)預(yù)處理模塊用于對汽車輿情信息進(jìn)行預(yù)處理;所述數(shù)據(jù)表示模塊用于對預(yù)處理后的汽車輿情信息進(jìn)行向量化表示;所述多標(biāo)簽分類模塊用于使用數(shù)據(jù)集構(gòu)建多標(biāo)簽分類模型,包括構(gòu)建分類模型和使用分類模型輸出標(biāo)簽預(yù)測結(jié)果兩部分;所述標(biāo)簽概率評價(jià)模塊,根據(jù)標(biāo)簽預(yù)測結(jié)果計(jì)算標(biāo)簽預(yù)測概率,若所述標(biāo)簽預(yù)測概率高于閾值,最終結(jié)果則采用標(biāo)簽預(yù)測結(jié)果,否則標(biāo)簽預(yù)測結(jié)果將不作為最終結(jié)果;所述顯示模塊,用于對多標(biāo)簽結(jié)果進(jìn)行可視化展示。
    [0007]進(jìn)一步的,所述預(yù)處理的方法如下:步驟一:數(shù)據(jù)清洗,用于刪除重復(fù)或與汽車領(lǐng)域無關(guān)的汽車輿情信息;步驟二:句子切分,以篇為單位,對經(jīng)過數(shù)據(jù)清洗的汽車輿情信息按照標(biāo)點(diǎn)符號等標(biāo)識符切分為句子;步驟三:去停用詞,采用詞頻統(tǒng)計(jì)和人工校驗(yàn)的方式,將詞頻較高且對分類結(jié)果無影響的詞匯與通用停用詞進(jìn)行組合,構(gòu)建去停用詞表,用于對汽車輿情信息進(jìn)行去停用詞操作。
    [0008]步驟四:one
    ?
    hot向量化表示,根據(jù)標(biāo)簽類型數(shù)量N(N&gt; 0),將每條汽車輿情句子變
    為行向量(1
    ×
    N),所屬標(biāo)簽類型置為1,非標(biāo)簽類型置為0。
    [0009]進(jìn)一步的,所述標(biāo)簽分類的方法如下:步驟一:設(shè)定ALBERT模型需要使用的參數(shù),包括詞表大小、詞向量大小、隱藏層大小、最大預(yù)訓(xùn)練序列長度、隱藏層數(shù)、激活函數(shù);步驟二:將經(jīng)過預(yù)處理的汽車輿情信息作為ALBERT模型的輸入,獲得第一向量特征;步驟三:利用基于統(tǒng)計(jì)方法的文本向量化計(jì)算方法,將汽車輿情信息轉(zhuǎn)換得到的特征表示矩陣作為第二向量特征;步驟四:將第一向量特征和第二向量特征分別送入TextCNN模型進(jìn)行訓(xùn)練;步驟五:將TextCNN模型的輸出結(jié)果對應(yīng)設(shè)置為第一標(biāo)簽預(yù)測結(jié)果和第二標(biāo)簽預(yù)測結(jié)果,并分別保存模型;步驟六:根據(jù)第一標(biāo)簽預(yù)測結(jié)果和第二標(biāo)簽預(yù)測結(jié)果分別計(jì)算標(biāo)簽預(yù)測概率,根據(jù)閾值α判斷是否采用第一標(biāo)簽預(yù)測結(jié)果和第一標(biāo)簽預(yù)測結(jié)果,或第一標(biāo)簽預(yù)測結(jié)果,或第二標(biāo)簽預(yù)測結(jié)果。若標(biāo)簽預(yù)測結(jié)果的概率高于閾值α(α&gt;0.75),最終結(jié)果則采用預(yù)測結(jié)果,否則預(yù)測結(jié)果將不作為最終結(jié)果。
    [0010]本專利技術(shù)的有益效果是:本專利技術(shù)實(shí)現(xiàn)了對汽車輿情的多標(biāo)簽分類,能夠從輿情信息中,對汽車各項(xiàng)參數(shù)的進(jìn)行微觀監(jiān)測,從而實(shí)現(xiàn)的汽車輿情環(huán)境監(jiān)測,并改進(jìn)了現(xiàn)有方法所需模型構(gòu)建時(shí)間較長的問題,能夠適應(yīng)汽車輿情信息的文本特點(diǎn),模型的編碼能力和準(zhǔn)確率也有了很大的提升。
    附圖說明
    [0011]圖1是本專利技術(shù)的一種面向汽車輿情的多標(biāo)簽文本分類方法所示的原理圖;圖2是本專利技術(shù)的面向汽車輿情的多標(biāo)簽文本分類方法所示的流程圖。
    具體實(shí)施方式
    [0012]下面結(jié)合附圖對本專利技術(shù)的較佳實(shí)施例進(jìn)行詳細(xì)闡述,以使本專利技術(shù)的優(yōu)點(diǎn)和特征能更易于被本領(lǐng)域技術(shù)人員理解,從而對本專利技術(shù)的保護(hù)范圍做出更為清楚明確的界定。
    [0013]請參閱圖1、圖2,本專利技術(shù)實(shí)施例包括:一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng),包括:數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)表示模塊、多標(biāo)簽分類模塊、標(biāo)簽概率評價(jià)模塊、顯示模塊。
    [0014]所述數(shù)據(jù)預(yù)處理模塊用于對汽車輿情信息進(jìn)行預(yù)處理;所述數(shù)據(jù)表示模塊用于對預(yù)處理后的汽車輿情信息進(jìn)行向量化表示;所述多標(biāo)簽分類模塊用于使用數(shù)據(jù)集構(gòu)建多標(biāo)簽分類模型,包括構(gòu)建分類模型和使用分類模型輸出標(biāo)簽預(yù)測結(jié)果兩部分;所述標(biāo)簽概率評價(jià)模塊,根據(jù)標(biāo)簽預(yù)測結(jié)果計(jì)算標(biāo)簽預(yù)測概率,若所述標(biāo)簽預(yù)測概率高于閾值,最終結(jié)果則采用標(biāo)簽預(yù)測結(jié)果,否則標(biāo)簽預(yù)測結(jié)果將不作為最終結(jié)果;所述顯示模塊,用于對多標(biāo)簽結(jié)果進(jìn)行可視化展示。
    [0015]其中,所述預(yù)處理的方法如下:步驟一:數(shù)據(jù)清洗,用于刪除重復(fù)或與汽車領(lǐng)域無關(guān)的汽車輿情信息;
    步驟二:句子切分,以篇為單位,對經(jīng)過數(shù)據(jù)清洗的汽車輿情信息按照標(biāo)點(diǎn)符號等標(biāo)識符切分為句子;步驟三:去停用詞,采用詞頻統(tǒng)計(jì)和人工校驗(yàn)的方式,將詞頻較高且對分類結(jié)果無影響的詞匯與通用停用詞進(jìn)行組合,構(gòu)建去停用詞表,用于對汽車輿情信息進(jìn)行去停用詞操作。
    [0016]步驟四:one
    ?
    hot向量化表示,根據(jù)標(biāo)簽類型數(shù)量N(N&gt; 0),將每條汽車輿情句子變?yōu)樾邢蛄浚?
    ×
    N),所屬標(biāo)簽類型置為1,非標(biāo)簽類型置為0。
    [0017]標(biāo)簽類型內(nèi)容分為產(chǎn)品、品牌、銷售服務(wù)、售后服務(wù)、車聯(lián)網(wǎng)五大標(biāo)簽。其中,產(chǎn)品標(biāo)簽包括造型、產(chǎn)品質(zhì)量、舒適性等方面標(biāo)簽;品牌標(biāo)簽包括品牌知名度、品牌形象、品牌社會(huì)責(zé)任等;銷售服務(wù)標(biāo)簽包括友好型、試乘試駕、價(jià)格和折扣等;售后服務(wù)標(biāo)簽包括接送服務(wù)、態(tài)度與行為、接車和交車等;車聯(lián)網(wǎng)標(biāo)簽包括注冊激活、SPIN管理等標(biāo)簽,共計(jì)206個(gè)標(biāo)簽類型。
    [0018]請參閱圖2,在另一個(gè)實(shí)施例中,一種面向汽車輿情的多標(biāo)簽文本分類方法,基于上述面向汽車輿情的多標(biāo)簽文本分類系統(tǒng),包括:步驟一:設(shè)定ALBERT模型需要使用的參數(shù),包括詞表大小、詞向量大小、隱藏層大小、最大預(yù)訓(xùn)練序列長度、隱藏層數(shù)、激活函數(shù);步驟二:將經(jīng)過預(yù)處理的汽車輿情信息作為ALBERT模型的輸入,獲得第一向量特征;步驟三:利用基于統(tǒng)計(jì)方法的文本向量化計(jì)算方法,將汽車輿情信息轉(zhuǎn)換得到的特征表示矩陣作為第二向量特征;步驟四:將第一向量特征和第二向量特征分別送入TextCNN模型進(jìn)行訓(xùn)練;步驟五:將TextCNN模型的輸出結(jié)果對應(yīng)設(shè)置為第一標(biāo)簽預(yù)測結(jié)果和第二標(biāo)簽預(yù)測結(jié)果,并分別保存模型;步驟六:根據(jù)第一標(biāo)簽預(yù)測結(jié)果和第二標(biāo)簽預(yù)測結(jié)果分別計(jì)算標(biāo)簽預(yù)測概率,根據(jù)閾值α判斷是否采用第一標(biāo)簽預(yù)測結(jié)果和第一標(biāo)簽預(yù)測結(jié)果,或第一標(biāo)簽預(yù)測結(jié)果,或第二標(biāo)簽預(yù)測結(jié)果。本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】

    【技術(shù)特征摘要】
    1.一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng),其特征在于,包括數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)表示模塊、多標(biāo)簽分類模塊、標(biāo)簽概率評價(jià)模塊、顯示模塊,其中:所述數(shù)據(jù)預(yù)處理模塊用于對汽車輿情信息進(jìn)行預(yù)處理;所述數(shù)據(jù)表示模塊用于對預(yù)處理后的汽車輿情信息進(jìn)行向量化表示;所述多標(biāo)簽分類模塊用于使用數(shù)據(jù)集構(gòu)建多標(biāo)簽分類模型,包括構(gòu)建分類模型和使用分類模型輸出標(biāo)簽預(yù)測結(jié)果兩部分;所述標(biāo)簽概率評價(jià)模塊,根據(jù)標(biāo)簽預(yù)測結(jié)果計(jì)算標(biāo)簽預(yù)測概率,若所述標(biāo)簽預(yù)測概率高于閾值,最終結(jié)果則采用標(biāo)簽預(yù)測結(jié)果,否則標(biāo)簽預(yù)測結(jié)果將不作為最終結(jié)果;所述顯示模塊,用于對多標(biāo)簽結(jié)果進(jìn)行可視化展示。2.如權(quán)利要求1所述的一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng),其特征在于,所述預(yù)處理的步驟如下:步驟一:數(shù)據(jù)清洗,用于刪除重復(fù)或與汽車領(lǐng)域無關(guān)的汽車輿情信息;步驟二:句子切分,以篇為單位,對經(jīng)過數(shù)據(jù)清洗的汽車輿情信息按照標(biāo)點(diǎn)符號等標(biāo)識符切分為句子;步驟三:去停用詞,采用詞頻統(tǒng)計(jì)和人工校驗(yàn)的方式,將詞頻較高且對分類結(jié)果無影響的詞匯與通用停用詞進(jìn)行組合,構(gòu)建去停用詞表,用于對汽車輿情信息進(jìn)行去停用詞操作;步驟四:one
    ?
    hot向量化...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李瑞瑞于沛趙偉
    申請(專利權(quán))人:北京富通東方科技有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 久久精品国产亚洲AV无码娇色| 日韩精品无码人妻免费视频| 国产成A人亚洲精V品无码| 台湾无码AV一区二区三区| 少妇无码AV无码专区在线观看| 中日韩精品无码一区二区三区| 日韩精品无码久久一区二区三| 亚洲AV无码成人精品区天堂| 国产精品无码免费播放| 中文人妻无码一区二区三区| 亚洲欧洲无码一区二区三区| 东京热无码av一区二区| 中文字幕无码亚洲欧洲日韩| 亚洲国产精品无码av| 亚洲av无码天堂一区二区三区 | 亚洲中文字幕无码永久在线| 91精品久久久久久无码| 亚洲精品色午夜无码专区日韩| 在线无码视频观看草草视频| 日韩精品无码一区二区中文字幕| 中文字幕精品无码久久久久久3D日动漫| 亚洲中文久久精品无码1| 国内精品人妻无码久久久影院| 亚洲AV无码国产精品永久一区| 亚洲av福利无码无一区二区 | 亚洲精品无码精品mV在线观看| 国产乱人伦中文无无码视频试看 | 性无码免费一区二区三区在线| 人妻无码一区二区三区| 国产精品爽爽va在线观看无码| 无码熟妇人妻在线视频| 亚洲AV成人无码网天堂| 亚洲中文字幕无码久久2020| 亚洲综合无码无在线观看| 亚洲AV无码一区二区一二区| 亚洲av日韩av无码av| 中文字幕亚洲精品无码| 无码人妻精品一区二区三区9厂| 无码人妻精一区二区三区| 无码不卡亚洲成?人片| heyzo专区无码综合|