【技術(shù)實現(xiàn)步驟摘要】
郵件分類方法和裝置
本專利技術(shù)涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種郵件分類方法和裝置。
技術(shù)介紹
電子郵件采用儲存-轉(zhuǎn)發(fā)方式在網(wǎng)絡(luò)上逐步傳遞信息,具有傳播速度快、交流對象廣泛、成本低廉等特點。在當前的互聯(lián)網(wǎng)信息化時代中,人們通過電子郵件進行交流或通信的行為越來越普遍。通常,電子郵件用戶的郵箱中包含多種類型的郵件,比如,商訊、社交、訂單、招聘、培訓(xùn)機構(gòu)、銀行理財?shù)阮愢]件,以及普通的對話郵件(如朋友間相互問候的郵件)等。若用戶的收件箱中商訊推廣等類郵件過多,則會造成用戶投訴過多的問題,而且將郵件無差別的投遞到用戶的收件箱中,可能會導(dǎo)致用戶的收件箱中各種類型的郵件混雜在一起,從而給用戶查看閱讀所需郵件造成困擾。因此,郵件系統(tǒng)往往會對郵件進行分類,將郵件劃分為多種類別,以使用戶獲得更好地郵箱體驗。例如,gmail郵箱在普通的收件箱之外有廣告郵件、網(wǎng)站動態(tài)信息郵件等,qq郵箱在普通的收件箱之外有訂閱郵件等。目前,現(xiàn)有的一種郵件分類方法主要是基于聚類算法:根據(jù)訓(xùn)練樣本郵件的郵件數(shù)據(jù)進行分詞后得到的特征詞,將訓(xùn)練樣本郵件劃分為若干郵件類別,并分別組成若干郵件類別的郵件數(shù)據(jù)樣本集;之后,根據(jù)待分類郵件的郵件數(shù)據(jù)的特征詞,計算待分類郵件屬于每個郵件類別的郵件數(shù)據(jù)樣本集的概率,將最大的概率所對應(yīng)的郵件類別作為待分類郵件的郵件類別,并將待分類郵件劃分到該郵件類別的郵件數(shù)據(jù)樣本集中。其中,郵件數(shù)據(jù)通常為郵件內(nèi)容。然而,本專利技術(shù)的專利技術(shù)人發(fā)現(xiàn),現(xiàn)有技術(shù)的郵件分類方法準確度較低,會出現(xiàn)一些郵件類別誤判的現(xiàn)象,而使得用戶不能及時查看到所需要的郵件:比如,用戶在求職期間可能較為關(guān)心招聘類郵件 ...
【技術(shù)保護點】
一種郵件分類方法,其特征在于,包括:對于預(yù)先確定的每個郵件類別,根據(jù)待分類郵件的特征詞,計算出所述待分類郵件屬于該郵件類別的概率后,將計算出的概率作為對應(yīng)該郵件類別的概率;將計算出的對應(yīng)各郵件類別的概率進行排序,并判斷所述待分類郵件的特征詞中是否包括最大的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對應(yīng)的郵件類別中;否則:計算出最大的概率和排序第二的概率的差值,并計算該差值與最大的概率的比值;若判定計算出的比值小于設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第二的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞,則將所述待分類郵件劃分到排序第二的概率所對應(yīng)的郵件類別中。
【技術(shù)特征摘要】
1.一種郵件分類方法,其特征在于,包括:對于預(yù)先確定的每個郵件類別,根據(jù)待分類郵件的特征詞,計算出所述待分類郵件屬于該郵件類別的概率后,將計算出的概率作為對應(yīng)該郵件類別的概率;將計算出的對應(yīng)各郵件類別的概率進行排序,并判斷所述待分類郵件的特征詞中是否包括最大的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對應(yīng)的郵件類別中;否則:計算出最大的概率和排序第二的概率的差值,并計算該差值與最大的概率的比值;若判定計算出的比值小于設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第二的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞,則將所述待分類郵件劃分到排序第二的概率所對應(yīng)的郵件類別中。2.如權(quán)利要求1所述的方法,其特征在于,所述計算出所述待分類郵件屬于該郵件類別的概率之前,還包括:確定出所述待分類郵件的特征詞中包含于該郵件類別的特征詞典中的特征詞的個數(shù),計算確定出的個數(shù)與所述待分類郵件的特征詞的總數(shù)的比值,作為所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率;并確認所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率大于設(shè)定的比率閾值。3.如權(quán)利要求2所述的方法,其特征在于,所述郵件類別的關(guān)鍵詞是預(yù)先確定的:針對每個郵件類別,對于該郵件類別的特征詞典中的每個特征詞,預(yù)先統(tǒng)計出該郵件類別中包含該特征詞的樣本郵件的數(shù)量并進行由大到小排序;將排序靠前的設(shè)定個數(shù)的特征詞作為該郵件類別的關(guān)鍵詞。4.如權(quán)利要求3所述的方法,其特征在于,對于預(yù)先確定的每個郵件類別,根據(jù)待分類郵件的特征詞,計算出所述待分類郵件屬于該郵件類別的概率,具體包括:記第i個郵件類別為Ci,所述待分類郵件的n個特征詞分別為F1,F2,...,Fn,計算出如下式1的值,將其作為所述待分類郵件屬于第i個郵件類別的概率:P(Ci)P(F1|Ci)P(F2|Ci)...P(Fn|Ci)(式1)式1中,其中,k取1~n之間的自然數(shù);為特征詞Fk在郵件類別Ci的郵件數(shù)據(jù)樣本集中出現(xiàn)的次數(shù);為郵件類別Ci的特征詞典中的各特征詞在郵件類別Ci的郵件數(shù)據(jù)樣本集中出現(xiàn)的次數(shù)之和;為郵件類別Ci的郵件數(shù)據(jù)樣本集中的樣本郵件的數(shù)量;S為各郵件類別的郵件數(shù)據(jù)樣本集中的樣本郵件的數(shù)量之和。5.如權(quán)利要求4所述的方法,其特征在于,所述郵件類別的特征詞典是根據(jù)如下方法得到的:對于每個郵件類別,對該郵件類別的郵件數(shù)據(jù)樣本集中的樣本郵件進行分詞,并統(tǒng)計出分詞后的每個詞語在該郵件類別的郵件數(shù)據(jù)樣本集中出現(xiàn)的次數(shù)作為該詞語的詞頻;去除分詞后的各詞語中的生僻詞和停用詞后,將詞頻大于設(shè)定下限閾值、小于設(shè)定上限閾值的詞語確定為該郵件類別的備選詞;將該郵件類別的備選詞中詞性信息與詞性信息表中記錄的詞性信息相匹配的備選詞,確定為該郵件類別的特征詞,該郵件類別的各特征詞組成該郵件類別的特征詞典;其中,各郵件類別的郵件數(shù)據(jù)樣本集是根據(jù)樣本郵件的特征向量之間的相似度,基于聚類算法劃分出來的。6.如權(quán)利要求4或5所述的方法,其特征在于,所述待分類郵件的特征詞具體包括:從所述待分類郵件的郵件標題中提取出的標題特征詞,以及從所述待分類郵件的郵件內(nèi)容中提取出的內(nèi)容特征詞;以及所述根據(jù)待分類郵件的特征詞,計算出所述待分類郵件屬于該郵件類別的概率,具體包括:根據(jù)所述待分類郵件的標題特征詞,計算出所述待分類郵件的郵件標題屬于該郵件類別的概率后,將該概率作為對應(yīng)該郵件類別的標題概率;并根據(jù)所述待分類郵件的內(nèi)容特征詞,計算出所述待分類郵件的郵件內(nèi)容屬于該郵件類別的概率后,將該概率作為對應(yīng)該郵件類別的內(nèi)容概率;以及所述將計算出的對應(yīng)各郵件類別的概率進行排序,并判斷所述待分類郵件的特征詞中是...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:陳玉焓,
申請(專利權(quán))人:新浪網(wǎng)技術(shù)中國有限公司,
類型:發(fā)明
國別省市:北京;11
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。