本發(fā)明專利技術(shù)提出了一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng)及方法,涉及汽車輿情智能監(jiān)測里,方法包括:一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng),其特征在于,包括數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)表示模塊、多標(biāo)簽分類模塊、標(biāo)簽概率評價(jià)模塊、顯示模塊。數(shù)據(jù)預(yù)處理模塊用于對汽車輿情信息進(jìn)行預(yù)處理;數(shù)據(jù)表示模塊用于對預(yù)處理后的汽車輿情信息進(jìn)行向量化表示;多標(biāo)簽分類模塊用于使用數(shù)據(jù)集構(gòu)建多標(biāo)簽分類模型;標(biāo)簽概率評價(jià)模塊用于根據(jù)預(yù)測結(jié)果進(jìn)行計(jì)算標(biāo)簽預(yù)測概率得到最終結(jié)果;顯示模塊用于對多標(biāo)簽結(jié)果進(jìn)行可視化展示。實(shí)現(xiàn)了對汽車輿情的多標(biāo)簽分類,并改進(jìn)了現(xiàn)有方法所需模型構(gòu)建時(shí)間較長的問題,并且模型的編碼能力和準(zhǔn)確率較現(xiàn)有方法有很大的提高。法有很大的提高。法有很大的提高。
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng)及方法
[0001]本專利技術(shù)涉及文本分類領(lǐng)域,特別是涉及一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng)及方法。
技術(shù)介紹
[0002]隨著互聯(lián)網(wǎng)的發(fā)展和智能設(shè)備的普及,越來越多的網(wǎng)民愿意在社交平臺上發(fā)表自己的言論,網(wǎng)絡(luò)輿情對企業(yè)的影響也越來越大。其中,汽車行業(yè)輿情對于消費(fèi)者或者生產(chǎn)車間來說都是非常重要的,有效地輿情分析能夠幫助企業(yè)調(diào)研了解市場需求、確定目標(biāo)用戶、確定產(chǎn)品核心以及制訂更優(yōu)的策略,更有助于預(yù)測汽車行業(yè)的發(fā)展前景和投資價(jià)值。
[0003]傳統(tǒng)的機(jī)器學(xué)習(xí)算法中能用來分類的模型包括NB模型、隨機(jī)森林模型、SVM分類模型、KNN分類模型以及神經(jīng)網(wǎng)絡(luò)分類模型。但是專門針對汽車輿情監(jiān)測的多標(biāo)簽文本分類方法還有很大的提升空間,一般只是通過情感分析的方法,判斷段落的正面情感或負(fù)面情感等,從而實(shí)現(xiàn)的汽車輿情環(huán)境監(jiān)測,而忽略了輿情信息中包含的對汽車各項(xiàng)參數(shù)的微觀監(jiān)測。
[0004]鑒于此,本專利技術(shù)提出了一種面向汽車輿情的多標(biāo)簽文本分類方法,并使用獲取到的主題標(biāo)簽來實(shí)現(xiàn)汽車輿情口碑中優(yōu)劣表現(xiàn)的追蹤以及汽車行業(yè)未來發(fā)展策略的預(yù)測。
技術(shù)實(shí)現(xiàn)思路
[0005]為解決上述技術(shù)問題,本專利技術(shù)采用的一個(gè)技術(shù)方案是:提供一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng),包括數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)表示模塊、多標(biāo)簽分類模塊、標(biāo)簽概率評價(jià)模塊、顯示模塊。
[0006]所述數(shù)據(jù)預(yù)處理模塊用于對汽車輿情信息進(jìn)行預(yù)處理;所述數(shù)據(jù)表示模塊用于對預(yù)處理后的汽車輿情信息進(jìn)行向量化表示;所述多標(biāo)簽分類模塊用于使用數(shù)據(jù)集構(gòu)建多標(biāo)簽分類模型,包括構(gòu)建分類模型和使用分類模型輸出標(biāo)簽預(yù)測結(jié)果兩部分;所述標(biāo)簽概率評價(jià)模塊,根據(jù)標(biāo)簽預(yù)測結(jié)果計(jì)算標(biāo)簽預(yù)測概率,若所述標(biāo)簽預(yù)測概率高于閾值,最終結(jié)果則采用標(biāo)簽預(yù)測結(jié)果,否則標(biāo)簽預(yù)測結(jié)果將不作為最終結(jié)果;所述顯示模塊,用于對多標(biāo)簽結(jié)果進(jìn)行可視化展示。
[0007]進(jìn)一步的,所述預(yù)處理的方法如下:步驟一:數(shù)據(jù)清洗,用于刪除重復(fù)或與汽車領(lǐng)域無關(guān)的汽車輿情信息;步驟二:句子切分,以篇為單位,對經(jīng)過數(shù)據(jù)清洗的汽車輿情信息按照標(biāo)點(diǎn)符號等標(biāo)識符切分為句子;步驟三:去停用詞,采用詞頻統(tǒng)計(jì)和人工校驗(yàn)的方式,將詞頻較高且對分類結(jié)果無影響的詞匯與通用停用詞進(jìn)行組合,構(gòu)建去停用詞表,用于對汽車輿情信息進(jìn)行去停用詞操作。
[0008]步驟四:one
?
hot向量化表示,根據(jù)標(biāo)簽類型數(shù)量N(N> 0),將每條汽車輿情句子變
為行向量(1
×
N),所屬標(biāo)簽類型置為1,非標(biāo)簽類型置為0。
[0009]進(jìn)一步的,所述標(biāo)簽分類的方法如下:步驟一:設(shè)定ALBERT模型需要使用的參數(shù),包括詞表大小、詞向量大小、隱藏層大小、最大預(yù)訓(xùn)練序列長度、隱藏層數(shù)、激活函數(shù);步驟二:將經(jīng)過預(yù)處理的汽車輿情信息作為ALBERT模型的輸入,獲得第一向量特征;步驟三:利用基于統(tǒng)計(jì)方法的文本向量化計(jì)算方法,將汽車輿情信息轉(zhuǎn)換得到的特征表示矩陣作為第二向量特征;步驟四:將第一向量特征和第二向量特征分別送入TextCNN模型進(jìn)行訓(xùn)練;步驟五:將TextCNN模型的輸出結(jié)果對應(yīng)設(shè)置為第一標(biāo)簽預(yù)測結(jié)果和第二標(biāo)簽預(yù)測結(jié)果,并分別保存模型;步驟六:根據(jù)第一標(biāo)簽預(yù)測結(jié)果和第二標(biāo)簽預(yù)測結(jié)果分別計(jì)算標(biāo)簽預(yù)測概率,根據(jù)閾值α判斷是否采用第一標(biāo)簽預(yù)測結(jié)果和第一標(biāo)簽預(yù)測結(jié)果,或第一標(biāo)簽預(yù)測結(jié)果,或第二標(biāo)簽預(yù)測結(jié)果。若標(biāo)簽預(yù)測結(jié)果的概率高于閾值α(α>0.75),最終結(jié)果則采用預(yù)測結(jié)果,否則預(yù)測結(jié)果將不作為最終結(jié)果。
[0010]本專利技術(shù)的有益效果是:本專利技術(shù)實(shí)現(xiàn)了對汽車輿情的多標(biāo)簽分類,能夠從輿情信息中,對汽車各項(xiàng)參數(shù)的進(jìn)行微觀監(jiān)測,從而實(shí)現(xiàn)的汽車輿情環(huán)境監(jiān)測,并改進(jìn)了現(xiàn)有方法所需模型構(gòu)建時(shí)間較長的問題,能夠適應(yīng)汽車輿情信息的文本特點(diǎn),模型的編碼能力和準(zhǔn)確率也有了很大的提升。
附圖說明
[0011]圖1是本專利技術(shù)的一種面向汽車輿情的多標(biāo)簽文本分類方法所示的原理圖;圖2是本專利技術(shù)的面向汽車輿情的多標(biāo)簽文本分類方法所示的流程圖。
具體實(shí)施方式
[0012]下面結(jié)合附圖對本專利技術(shù)的較佳實(shí)施例進(jìn)行詳細(xì)闡述,以使本專利技術(shù)的優(yōu)點(diǎn)和特征能更易于被本領(lǐng)域技術(shù)人員理解,從而對本專利技術(shù)的保護(hù)范圍做出更為清楚明確的界定。
[0013]請參閱圖1、圖2,本專利技術(shù)實(shí)施例包括:一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng),包括:數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)表示模塊、多標(biāo)簽分類模塊、標(biāo)簽概率評價(jià)模塊、顯示模塊。
[0014]所述數(shù)據(jù)預(yù)處理模塊用于對汽車輿情信息進(jìn)行預(yù)處理;所述數(shù)據(jù)表示模塊用于對預(yù)處理后的汽車輿情信息進(jìn)行向量化表示;所述多標(biāo)簽分類模塊用于使用數(shù)據(jù)集構(gòu)建多標(biāo)簽分類模型,包括構(gòu)建分類模型和使用分類模型輸出標(biāo)簽預(yù)測結(jié)果兩部分;所述標(biāo)簽概率評價(jià)模塊,根據(jù)標(biāo)簽預(yù)測結(jié)果計(jì)算標(biāo)簽預(yù)測概率,若所述標(biāo)簽預(yù)測概率高于閾值,最終結(jié)果則采用標(biāo)簽預(yù)測結(jié)果,否則標(biāo)簽預(yù)測結(jié)果將不作為最終結(jié)果;所述顯示模塊,用于對多標(biāo)簽結(jié)果進(jìn)行可視化展示。
[0015]其中,所述預(yù)處理的方法如下:步驟一:數(shù)據(jù)清洗,用于刪除重復(fù)或與汽車領(lǐng)域無關(guān)的汽車輿情信息;
步驟二:句子切分,以篇為單位,對經(jīng)過數(shù)據(jù)清洗的汽車輿情信息按照標(biāo)點(diǎn)符號等標(biāo)識符切分為句子;步驟三:去停用詞,采用詞頻統(tǒng)計(jì)和人工校驗(yàn)的方式,將詞頻較高且對分類結(jié)果無影響的詞匯與通用停用詞進(jìn)行組合,構(gòu)建去停用詞表,用于對汽車輿情信息進(jìn)行去停用詞操作。
[0016]步驟四:one
?
hot向量化表示,根據(jù)標(biāo)簽類型數(shù)量N(N> 0),將每條汽車輿情句子變?yōu)樾邢蛄浚?
×
N),所屬標(biāo)簽類型置為1,非標(biāo)簽類型置為0。
[0017]標(biāo)簽類型內(nèi)容分為產(chǎn)品、品牌、銷售服務(wù)、售后服務(wù)、車聯(lián)網(wǎng)五大標(biāo)簽。其中,產(chǎn)品標(biāo)簽包括造型、產(chǎn)品質(zhì)量、舒適性等方面標(biāo)簽;品牌標(biāo)簽包括品牌知名度、品牌形象、品牌社會(huì)責(zé)任等;銷售服務(wù)標(biāo)簽包括友好型、試乘試駕、價(jià)格和折扣等;售后服務(wù)標(biāo)簽包括接送服務(wù)、態(tài)度與行為、接車和交車等;車聯(lián)網(wǎng)標(biāo)簽包括注冊激活、SPIN管理等標(biāo)簽,共計(jì)206個(gè)標(biāo)簽類型。
[0018]請參閱圖2,在另一個(gè)實(shí)施例中,一種面向汽車輿情的多標(biāo)簽文本分類方法,基于上述面向汽車輿情的多標(biāo)簽文本分類系統(tǒng),包括:步驟一:設(shè)定ALBERT模型需要使用的參數(shù),包括詞表大小、詞向量大小、隱藏層大小、最大預(yù)訓(xùn)練序列長度、隱藏層數(shù)、激活函數(shù);步驟二:將經(jīng)過預(yù)處理的汽車輿情信息作為ALBERT模型的輸入,獲得第一向量特征;步驟三:利用基于統(tǒng)計(jì)方法的文本向量化計(jì)算方法,將汽車輿情信息轉(zhuǎn)換得到的特征表示矩陣作為第二向量特征;步驟四:將第一向量特征和第二向量特征分別送入TextCNN模型進(jìn)行訓(xùn)練;步驟五:將TextCNN模型的輸出結(jié)果對應(yīng)設(shè)置為第一標(biāo)簽預(yù)測結(jié)果和第二標(biāo)簽預(yù)測結(jié)果,并分別保存模型;步驟六:根據(jù)第一標(biāo)簽預(yù)測結(jié)果和第二標(biāo)簽預(yù)測結(jié)果分別計(jì)算標(biāo)簽預(yù)測概率,根據(jù)閾值α判斷是否采用第一標(biāo)簽預(yù)測結(jié)果和第一標(biāo)簽預(yù)測結(jié)果,或第一標(biāo)簽預(yù)測結(jié)果,或第二標(biāo)簽預(yù)測結(jié)果。本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
1.一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng),其特征在于,包括數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)表示模塊、多標(biāo)簽分類模塊、標(biāo)簽概率評價(jià)模塊、顯示模塊,其中:所述數(shù)據(jù)預(yù)處理模塊用于對汽車輿情信息進(jìn)行預(yù)處理;所述數(shù)據(jù)表示模塊用于對預(yù)處理后的汽車輿情信息進(jìn)行向量化表示;所述多標(biāo)簽分類模塊用于使用數(shù)據(jù)集構(gòu)建多標(biāo)簽分類模型,包括構(gòu)建分類模型和使用分類模型輸出標(biāo)簽預(yù)測結(jié)果兩部分;所述標(biāo)簽概率評價(jià)模塊,根據(jù)標(biāo)簽預(yù)測結(jié)果計(jì)算標(biāo)簽預(yù)測概率,若所述標(biāo)簽預(yù)測概率高于閾值,最終結(jié)果則采用標(biāo)簽預(yù)測結(jié)果,否則標(biāo)簽預(yù)測結(jié)果將不作為最終結(jié)果;所述顯示模塊,用于對多標(biāo)簽結(jié)果進(jìn)行可視化展示。2.如權(quán)利要求1所述的一種面向汽車輿情的多標(biāo)簽文本分類系統(tǒng),其特征在于,所述預(yù)處理的步驟如下:步驟一:數(shù)據(jù)清洗,用于刪除重復(fù)或與汽車領(lǐng)域無關(guān)的汽車輿情信息;步驟二:句子切分,以篇為單位,對經(jīng)過數(shù)據(jù)清洗的汽車輿情信息按照標(biāo)點(diǎn)符號等標(biāo)識符切分為句子;步驟三:去停用詞,采用詞頻統(tǒng)計(jì)和人工校驗(yàn)的方式,將詞頻較高且對分類結(jié)果無影響的詞匯與通用停用詞進(jìn)行組合,構(gòu)建去停用詞表,用于對汽車輿情信息進(jìn)行去停用詞操作;步驟四:one
?
hot向量化...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李瑞瑞,于沛,趙偉,
申請(專利權(quán))人:北京富通東方科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。