• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    郵件分類方法和裝置制造方法及圖紙

    技術(shù)編號:10316139 閱讀:102 留言:0更新日期:2014-08-13 17:35
    本發(fā)明專利技術(shù)公開了一種郵件分類方法和裝置,所述方法包括:對于每個郵件類別,計算出待分類郵件屬于該郵件類別的概率,將計算出的概率作為對應(yīng)該郵件類別的概率;將計算出的對應(yīng)各郵件類別的概率進行排序,并判斷待分類郵件的特征詞中是否包括最大的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞;若是,則將待分類郵件劃分到最大的概率所對應(yīng)的郵件類別中;否則計算最大的概率和排序第二的概率的差值、以及該差值與最大的概率的比值,若該比值小于設(shè)定差率閾值,且待分類郵件的特征詞中包括有排序第二的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞,則將待分類郵件劃分到排序第二的概率所對應(yīng)的郵件類別中。從而通過設(shè)定郵件類別的關(guān)鍵詞可使得郵件分類更為準確。

    【技術(shù)實現(xiàn)步驟摘要】
    郵件分類方法和裝置
    本專利技術(shù)涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種郵件分類方法和裝置。
    技術(shù)介紹
    電子郵件采用儲存-轉(zhuǎn)發(fā)方式在網(wǎng)絡(luò)上逐步傳遞信息,具有傳播速度快、交流對象廣泛、成本低廉等特點。在當前的互聯(lián)網(wǎng)信息化時代中,人們通過電子郵件進行交流或通信的行為越來越普遍。通常,電子郵件用戶的郵箱中包含多種類型的郵件,比如,商訊、社交、訂單、招聘、培訓(xùn)機構(gòu)、銀行理財?shù)阮愢]件,以及普通的對話郵件(如朋友間相互問候的郵件)等。若用戶的收件箱中商訊推廣等類郵件過多,則會造成用戶投訴過多的問題,而且將郵件無差別的投遞到用戶的收件箱中,可能會導(dǎo)致用戶的收件箱中各種類型的郵件混雜在一起,從而給用戶查看閱讀所需郵件造成困擾。因此,郵件系統(tǒng)往往會對郵件進行分類,將郵件劃分為多種類別,以使用戶獲得更好地郵箱體驗。例如,gmail郵箱在普通的收件箱之外有廣告郵件、網(wǎng)站動態(tài)信息郵件等,qq郵箱在普通的收件箱之外有訂閱郵件等。目前,現(xiàn)有的一種郵件分類方法主要是基于聚類算法:根據(jù)訓(xùn)練樣本郵件的郵件數(shù)據(jù)進行分詞后得到的特征詞,將訓(xùn)練樣本郵件劃分為若干郵件類別,并分別組成若干郵件類別的郵件數(shù)據(jù)樣本集;之后,根據(jù)待分類郵件的郵件數(shù)據(jù)的特征詞,計算待分類郵件屬于每個郵件類別的郵件數(shù)據(jù)樣本集的概率,將最大的概率所對應(yīng)的郵件類別作為待分類郵件的郵件類別,并將待分類郵件劃分到該郵件類別的郵件數(shù)據(jù)樣本集中。其中,郵件數(shù)據(jù)通常為郵件內(nèi)容。然而,本專利技術(shù)的專利技術(shù)人發(fā)現(xiàn),現(xiàn)有技術(shù)的郵件分類方法準確度較低,會出現(xiàn)一些郵件類別誤判的現(xiàn)象,而使得用戶不能及時查看到所需要的郵件:比如,用戶在求職期間可能較為關(guān)心招聘類郵件,現(xiàn)有技術(shù)的方法卻可能將招聘類郵件劃分到培訓(xùn)機構(gòu)類郵件中,使得用戶不能及時得到招聘類郵件的信息;再如,將普通的對話郵件劃分為商訊類郵件,可能使得用戶無法及時查看這些誤判的普通的對話郵件,給用戶帶來極大不便。因此,有必要提供一種能夠更為準確的對郵件進行分類的郵件分類方法。
    技術(shù)實現(xiàn)思路
    針對上述現(xiàn)有技術(shù)存在的缺陷,本專利技術(shù)提供了一種郵件分類方法和裝置,用以提高郵件分類的準確性。根據(jù)本專利技術(shù)的一個方面,提供了一種郵件分類方法,包括:對于預(yù)先確定的每個郵件類別,根據(jù)待分類郵件的特征詞,計算出所述待分類郵件屬于該郵件類別的概率后,將計算出的概率作為對應(yīng)該郵件類別的概率;將計算出的對應(yīng)各郵件類別的概率進行排序,并判斷所述待分類郵件的特征詞中是否包括最大的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對應(yīng)的郵件類別中;否則:計算出最大的概率和排序第二的概率的差值,并計算該差值與最大的概率的比值;若判定計算出的比值小于設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第二的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞,則將所述待分類郵件劃分到排序第二的概率所對應(yīng)的郵件類別中。較佳地,所述計算出所述待分類郵件屬于該郵件類別的概率之前,還包括:確定出所述待分類郵件的特征詞中包含于該郵件類別的特征詞典中的特征詞的個數(shù),計算確定出的個數(shù)與所述待分類郵件的特征詞的總數(shù)的比值,作為所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率;并確認所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率大于設(shè)定的比率閾值。其中,所述郵件類別的關(guān)鍵詞是預(yù)先確定的:針對每個郵件類別,對于該郵件類別的特征詞典中的每個特征詞,預(yù)先統(tǒng)計出該郵件類別中包含該特征詞的樣本郵件的數(shù)量并進行由大到小排序;將排序靠前的設(shè)定個數(shù)的特征詞作為該郵件類別的關(guān)鍵詞。較佳地,對于預(yù)先確定的每個郵件類別,根據(jù)待分類郵件的特征詞,計算出所述待分類郵件屬于該郵件類別的概率,具體包括:記第i個郵件類別為Ci,所述待分類郵件的n個特征詞分別為F1,F2,...,Fn,計算出如下式1的值,將其作為所述待分類郵件屬于第i個郵件類別的概率:P(Ci)P(F1|Ci)P(F2|Ci)...P(Fn|Ci)(式1)式1中,其中,k取1~n之間的自然數(shù);為特征詞Fk在郵件類別Ci的郵件數(shù)據(jù)樣本集中出現(xiàn)的次數(shù);為郵件類別Ci的特征詞典中的各特征詞在郵件類別Ci的郵件數(shù)據(jù)樣本集中出現(xiàn)的次數(shù)之和;為郵件類別Ci的郵件數(shù)據(jù)樣本集中的樣本郵件的數(shù)量;S為各郵件類別的郵件數(shù)據(jù)樣本集中的樣本郵件的數(shù)量之和。其中,所述郵件類別的特征詞典是根據(jù)如下方法得到的:對于每個郵件類別,對該郵件類別的郵件數(shù)據(jù)樣本集中的樣本郵件進行分詞,并統(tǒng)計出分詞后的每個詞語在該郵件類別的郵件數(shù)據(jù)樣本集中出現(xiàn)的次數(shù)作為該詞語的詞頻;去除分詞后的各詞語中的生僻詞和停用詞后,將詞頻大于設(shè)定下限閾值、小于設(shè)定上限閾值的詞語確定為該郵件類別的備選詞;將該郵件類別的備選詞中詞性信息與詞性信息表中記錄的詞性信息相匹配的備選詞,確定為該郵件類別的特征詞,該郵件類別的各特征詞組成該郵件類別的特征詞典;其中,各郵件類別的郵件數(shù)據(jù)樣本集是根據(jù)樣本郵件的特征向量之間的相似度,基于聚類算法劃分出來的。較佳地,所述待分類郵件的特征詞具體包括:從所述待分類郵件的郵件標題中提取出的標題特征詞,以及從所述待分類郵件的郵件內(nèi)容中提取出的內(nèi)容特征詞;以及所述根據(jù)待分類郵件的特征詞,計算出所述待分類郵件屬于該郵件類別的概率,具體包括:根據(jù)所述待分類郵件的標題特征詞,計算出所述待分類郵件的郵件標題屬于該郵件類別的概率后,將該概率作為對應(yīng)該郵件類別的標題概率;并根據(jù)所述待分類郵件的內(nèi)容特征詞,計算出所述待分類郵件的郵件內(nèi)容屬于該郵件類別的概率后,將該概率作為對應(yīng)該郵件類別的內(nèi)容概率;以及所述將計算出的對應(yīng)各郵件類別的概率進行排序,并判斷所述待分類郵件的特征詞中是否包括最大的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對應(yīng)的郵件類別中,具體包括:將計算出的對應(yīng)各郵件類別的標題概率進行排序,若判斷所述待分類郵件的標題特征詞中包括最大的標題概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞,則將最大的標題概率所對應(yīng)的郵件類別作為對應(yīng)郵件標題的待判定郵件類別;并將計算出的對應(yīng)各郵件類別的內(nèi)容概率進行排序,若判斷所述待分類郵件的內(nèi)容特征詞中包括最大的內(nèi)容概率所對應(yīng)的郵件類別的關(guān)鍵詞,則將最大的內(nèi)容概率所對應(yīng)的郵件類別作為對應(yīng)郵件內(nèi)容的待判定郵件類別;若所述對應(yīng)郵件標題的待判定郵件類別與所述對應(yīng)郵件內(nèi)容的待判定郵件類別相同,則將所述待分類郵件劃分到所述待判定郵件類別中。較佳地,在所述計算出最大的概率和排序第二的概率的差值,并計算該差值與最大的概率的比值后,還包括:若判斷所述該差值與最大的概率的比值不小于所述設(shè)定差率閾值,則將所述待分類郵件確定為對話郵件;若判斷所述該差值與最大的概率的比值小于所述設(shè)定差率閾值,且所述待分類郵件的特征詞中不包括排序第二的概率所對應(yīng)的郵件類別的關(guān)鍵詞,則:將所述該差值與最大的概率的比值作為第一分類概率差率后,進一步計算最大的概率和排序第三的概率的差值,將該差值與最大的概率的比值作為第二分類概率差率;若確定第二分類概率差率小于所述設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第三的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞,則將所述待分類郵件劃分到排序第三的概率所對應(yīng)的郵件類別中。根據(jù)本專利技術(shù)的另一個方面,還提供了一種郵件分類裝置,包括:概率計算模塊,用于對于預(yù)先確定的每個郵件類別,根據(jù)本文檔來自技高網(wǎng)
    ...
    郵件分類方法和裝置

    【技術(shù)保護點】
    一種郵件分類方法,其特征在于,包括:對于預(yù)先確定的每個郵件類別,根據(jù)待分類郵件的特征詞,計算出所述待分類郵件屬于該郵件類別的概率后,將計算出的概率作為對應(yīng)該郵件類別的概率;將計算出的對應(yīng)各郵件類別的概率進行排序,并判斷所述待分類郵件的特征詞中是否包括最大的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對應(yīng)的郵件類別中;否則:計算出最大的概率和排序第二的概率的差值,并計算該差值與最大的概率的比值;若判定計算出的比值小于設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第二的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞,則將所述待分類郵件劃分到排序第二的概率所對應(yīng)的郵件類別中。

    【技術(shù)特征摘要】
    1.一種郵件分類方法,其特征在于,包括:對于預(yù)先確定的每個郵件類別,根據(jù)待分類郵件的特征詞,計算出所述待分類郵件屬于該郵件類別的概率后,將計算出的概率作為對應(yīng)該郵件類別的概率;將計算出的對應(yīng)各郵件類別的概率進行排序,并判斷所述待分類郵件的特征詞中是否包括最大的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對應(yīng)的郵件類別中;否則:計算出最大的概率和排序第二的概率的差值,并計算該差值與最大的概率的比值;若判定計算出的比值小于設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第二的概率所對應(yīng)的郵件類別的至少一個關(guān)鍵詞,則將所述待分類郵件劃分到排序第二的概率所對應(yīng)的郵件類別中。2.如權(quán)利要求1所述的方法,其特征在于,所述計算出所述待分類郵件屬于該郵件類別的概率之前,還包括:確定出所述待分類郵件的特征詞中包含于該郵件類別的特征詞典中的特征詞的個數(shù),計算確定出的個數(shù)與所述待分類郵件的特征詞的總數(shù)的比值,作為所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率;并確認所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率大于設(shè)定的比率閾值。3.如權(quán)利要求2所述的方法,其特征在于,所述郵件類別的關(guān)鍵詞是預(yù)先確定的:針對每個郵件類別,對于該郵件類別的特征詞典中的每個特征詞,預(yù)先統(tǒng)計出該郵件類別中包含該特征詞的樣本郵件的數(shù)量并進行由大到小排序;將排序靠前的設(shè)定個數(shù)的特征詞作為該郵件類別的關(guān)鍵詞。4.如權(quán)利要求3所述的方法,其特征在于,對于預(yù)先確定的每個郵件類別,根據(jù)待分類郵件的特征詞,計算出所述待分類郵件屬于該郵件類別的概率,具體包括:記第i個郵件類別為Ci,所述待分類郵件的n個特征詞分別為F1,F2,...,Fn,計算出如下式1的值,將其作為所述待分類郵件屬于第i個郵件類別的概率:P(Ci)P(F1|Ci)P(F2|Ci)...P(Fn|Ci)(式1)式1中,其中,k取1~n之間的自然數(shù);為特征詞Fk在郵件類別Ci的郵件數(shù)據(jù)樣本集中出現(xiàn)的次數(shù);為郵件類別Ci的特征詞典中的各特征詞在郵件類別Ci的郵件數(shù)據(jù)樣本集中出現(xiàn)的次數(shù)之和;為郵件類別Ci的郵件數(shù)據(jù)樣本集中的樣本郵件的數(shù)量;S為各郵件類別的郵件數(shù)據(jù)樣本集中的樣本郵件的數(shù)量之和。5.如權(quán)利要求4所述的方法,其特征在于,所述郵件類別的特征詞典是根據(jù)如下方法得到的:對于每個郵件類別,對該郵件類別的郵件數(shù)據(jù)樣本集中的樣本郵件進行分詞,并統(tǒng)計出分詞后的每個詞語在該郵件類別的郵件數(shù)據(jù)樣本集中出現(xiàn)的次數(shù)作為該詞語的詞頻;去除分詞后的各詞語中的生僻詞和停用詞后,將詞頻大于設(shè)定下限閾值、小于設(shè)定上限閾值的詞語確定為該郵件類別的備選詞;將該郵件類別的備選詞中詞性信息與詞性信息表中記錄的詞性信息相匹配的備選詞,確定為該郵件類別的特征詞,該郵件類別的各特征詞組成該郵件類別的特征詞典;其中,各郵件類別的郵件數(shù)據(jù)樣本集是根據(jù)樣本郵件的特征向量之間的相似度,基于聚類算法劃分出來的。6.如權(quán)利要求4或5所述的方法,其特征在于,所述待分類郵件的特征詞具體包括:從所述待分類郵件的郵件標題中提取出的標題特征詞,以及從所述待分類郵件的郵件內(nèi)容中提取出的內(nèi)容特征詞;以及所述根據(jù)待分類郵件的特征詞,計算出所述待分類郵件屬于該郵件類別的概率,具體包括:根據(jù)所述待分類郵件的標題特征詞,計算出所述待分類郵件的郵件標題屬于該郵件類別的概率后,將該概率作為對應(yīng)該郵件類別的標題概率;并根據(jù)所述待分類郵件的內(nèi)容特征詞,計算出所述待分類郵件的郵件內(nèi)容屬于該郵件類別的概率后,將該概率作為對應(yīng)該郵件類別的內(nèi)容概率;以及所述將計算出的對應(yīng)各郵件類別的概率進行排序,并判斷所述待分類郵件的特征詞中是...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:陳玉焓,
    申請(專利權(quán))人:新浪網(wǎng)技術(shù)中國有限公司,
    類型:發(fā)明
    國別省市:北京;11

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产福利无码一区在线| 国产在线拍揄自揄拍无码| 亚洲日韩av无码| 亚洲午夜国产精品无码老牛影视| 国产午夜精品无码| 无码av高潮喷水无码专区线| 亚洲成在人线在线播放无码| AV无码小缝喷白浆在线观看 | 无码久久精品国产亚洲Av影片| 无码137片内射在线影院| 永久免费无码网站在线观看| 久久中文字幕无码专区| 伊人久久大香线蕉无码| 日韩精品无码免费专区午夜| 无码人妻一区二区三区av| 国产精品无码一区二区三级| 免费无码又爽又黄又刺激网站| 日韩欧精品无码视频无删节| 好硬~好爽~别进去~动态图, 69式真人无码视频免 | 在线看片福利无码网址| 国产在线无码视频一区二区三区| 无码丰满熟妇浪潮一区二区AV| 亚洲AV无码乱码在线观看代蜜桃 | 久久亚洲av无码精品浪潮| 日韩精品无码久久久久久| 无码任你躁久久久久久老妇| 亚洲av无码成人精品国产| 日日麻批免费40分钟无码| 亚洲国产一二三精品无码| 一道久在线无码加勒比| 国产精品成人99一区无码| 无码乱码av天堂一区二区| 午夜福利av无码一区二区| 一本色道久久HEZYO无码| YY111111少妇无码理论片| 无码 免费 国产在线观看91 | 无码粉嫩小泬无套在线观看| 国产精品无码无卡在线播放 | 亚洲av极品无码专区在线观看| 亚洲动漫精品无码av天堂| 超清无码熟妇人妻AV在线电影|