本發(fā)明專(zhuān)利技術(shù)提供了一種短信行為的大數(shù)據(jù)采集與分析方法及系統(tǒng),該系統(tǒng)包括信息采集部件、統(tǒng)計(jì)部件、判斷部件和執(zhí)行部件,所述信息采集部件采集短信數(shù)據(jù)信息,所述統(tǒng)計(jì)部件提取采集部件提供的信息,并統(tǒng)計(jì)每個(gè)短信的行為特征信息,所述判斷部件獲取統(tǒng)計(jì)部件的統(tǒng)計(jì)結(jié)果,并給出判斷結(jié)果,所述執(zhí)行部件進(jìn)行短信過(guò)濾。本發(fā)明專(zhuān)利技術(shù)基于大數(shù)據(jù)Hadoop平臺(tái),利用MapReduce計(jì)算模型將短信過(guò)濾并行化,從而大大提高了大規(guī)模短信的過(guò)濾效率。本發(fā)明專(zhuān)利技術(shù)還可以同時(shí)基于多個(gè)短信的行為特征進(jìn)行短信的過(guò)濾,提高了短信過(guò)濾的準(zhǔn)確性。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)涉及信息處理
,尤其涉及一種短信行為的大數(shù)據(jù)采集與分析方法及系統(tǒng)。
技術(shù)介紹
短信作為一種快捷、經(jīng)濟(jì)、有效的通信方式得到了廣泛的應(yīng)用,然而垃圾短信的不斷泛濫也造成了用戶(hù)的很大困擾。研制智能短信過(guò)濾的技術(shù)方案,為手機(jī)用戶(hù)建立起一個(gè)可靠、準(zhǔn)確、高效的短信管制過(guò)濾平臺(tái)具有重要的社會(huì)價(jià)值。目前短信過(guò)濾的方式一般分為兩種,從技術(shù)上分,一種是基于關(guān)鍵詞,只要短信中包括的敏感詞匯超過(guò)一定的數(shù)目就被認(rèn)定為垃圾信息;另一種是基于短信內(nèi)容的過(guò)濾采用機(jī)器學(xué)習(xí)方法把短信自動(dòng)分為正常短信和垃圾短信,目前用于短信自動(dòng)分類(lèi)的機(jī)器學(xué)習(xí)方法主要有樸素貝葉斯、SVM、KNN、人工神經(jīng)網(wǎng)絡(luò)算法等。如申請(qǐng)?zhí)枮椋?01010618534.2的中國(guó)專(zhuān)利所公開(kāi)的一種垃圾短信監(jiān)控與處理的系統(tǒng)、系統(tǒng)及方法,該垃圾短信監(jiān)控與處理的方法,設(shè)置基本關(guān)鍵詞規(guī)則、關(guān)鍵詞衍生序列及垃圾短信疑似度,該方法包括接收短信,采用所設(shè)置的基本關(guān)鍵詞規(guī)則對(duì)短信內(nèi)容進(jìn)行匹配,確定是否匹配成功,如果是,將該短信作為垃圾短信并刪除,如果否,采用所設(shè)置的關(guān)鍵詞衍生序列對(duì)該短信內(nèi)容疑似值范圍內(nèi),將該短信作為疑似垃圾短信,如果計(jì)算的垃圾短信疑似值大于等于設(shè)置的垃圾短信疑似度上范圍,將該短信作為垃圾短信,如果小雨等于設(shè)置的垃圾短信疑似度下范圍,將該短信作為非垃圾短信發(fā)送。該方法主要的是根據(jù)事先設(shè)置的關(guān)鍵詞進(jìn)行判斷短信是否為垃圾短信,雖然設(shè)置了疑似度范圍,但是實(shí)際情況中,垃圾<br>短信不僅僅通過(guò)改變關(guān)鍵詞傳播,所以該方法攔截的垃圾短信范圍較小,僅依賴(lài)關(guān)鍵詞的判斷攔截短信可靠程度低。又如申請(qǐng)?zhí)枮椋?01310018709.X的中國(guó)專(zhuān)利所公開(kāi)的垃圾短信過(guò)濾方法及系統(tǒng),方法包括:獲取短消息:確定所述短消息的至少兩種特征信息的可疑度;根據(jù)所述至少兩種特征信息的可疑度以及每種所述特征信息對(duì)應(yīng)的權(quán)值,確定所述短消息的可疑度閥值;若所述短信息的所述可疑度閥值大于設(shè)定閥值,則對(duì)所述短信進(jìn)行過(guò)濾。該方法通過(guò)將短信與所設(shè)定的特征信息進(jìn)行比對(duì),從而來(lái)對(duì)短信進(jìn)行過(guò)濾,但實(shí)際情況中垃圾短信的內(nèi)容多種多樣,所設(shè)定的特征信息有一定的局限性和滯后性,實(shí)用性較低,而且需經(jīng)過(guò)一系列的比對(duì),工作效率不高。
技術(shù)實(shí)現(xiàn)思路
為克服現(xiàn)有技術(shù)中存在的面對(duì)大量的短信業(yè)務(wù)時(shí)工作效率不高,且短信過(guò)濾可靠性程度低等問(wèn)題,本專(zhuān)利技術(shù)提供了一種短信行為的大數(shù)據(jù)采集與分析方法及系統(tǒng)。本專(zhuān)利技術(shù)所采取的技術(shù)方案是:一種短信行為的大數(shù)據(jù)采集與分析方法,其特征在于:包括以下步驟:步驟1:集合所有短信的數(shù)據(jù)信息;步驟2:統(tǒng)計(jì)所有短信的行為特征并輸出;步驟3:根據(jù)步驟2的輸出結(jié)果判斷出最優(yōu)短信過(guò)濾結(jié)果;步驟4:根據(jù)步驟3的判斷結(jié)果進(jìn)行短信過(guò)濾。在此基礎(chǔ)上,所述步驟1基于大數(shù)據(jù)平臺(tái)實(shí)現(xiàn),具體步驟如下:步驟11:將操作數(shù)據(jù)進(jìn)行實(shí)時(shí)記錄,并將操作數(shù)據(jù)存儲(chǔ)至本地存儲(chǔ)器中;步驟12:讀取本地存儲(chǔ)器中的操作數(shù)據(jù),并對(duì)操作數(shù)據(jù)進(jìn)行預(yù)處理;步驟13:將預(yù)處理數(shù)據(jù)定時(shí)定量的遠(yuǎn)程發(fā)送至遠(yuǎn)程存儲(chǔ)器中;步驟14:讀取遠(yuǎn)程存儲(chǔ)器中的預(yù)處理數(shù)據(jù),并按照短信的發(fā)送者和接收者對(duì)預(yù)處理數(shù)據(jù)進(jìn)行分類(lèi)處理,再將分類(lèi)處理獲得的分類(lèi)數(shù)據(jù)存儲(chǔ)至面向大數(shù)據(jù)的數(shù)據(jù)庫(kù);步驟15:按照分類(lèi)有序讀取數(shù)據(jù)庫(kù)中的分類(lèi)數(shù)據(jù)。在此基礎(chǔ)上,所述步驟12中的預(yù)處理包括剔除無(wú)效數(shù)據(jù)和整合重復(fù)數(shù)據(jù)。在此基礎(chǔ)上,所述步驟2中短信行為特征為對(duì)應(yīng)的短信接收者的數(shù)量。在此基礎(chǔ)上,所述步驟2:短信行為特征的提取基于Hadoop平臺(tái)和MapReduce函數(shù)完成,具體步驟如下:步驟21:從采集到的數(shù)據(jù)中將短信的發(fā)送者和接收者列表提取作為輸入;步驟22:通過(guò)Map函數(shù)并行的將短信的發(fā)送者和接收者記錄轉(zhuǎn)換成發(fā)送者和每個(gè)接收者一對(duì)一的發(fā)送關(guān)系;步驟23:通過(guò)Reduce函數(shù)計(jì)算每個(gè)發(fā)送者對(duì)應(yīng)的短信接收者的個(gè)數(shù);步驟24:輸出每個(gè)發(fā)送者對(duì)應(yīng)的短信接收者的個(gè)數(shù)。在此基礎(chǔ)上,所述步驟3中的最優(yōu)短信過(guò)濾結(jié)果判斷策略包括,其中,M<N:1)當(dāng)每個(gè)發(fā)送者對(duì)應(yīng)的短信接收者的個(gè)數(shù)≥N時(shí),將該短信定為無(wú)效短信;2)當(dāng)每個(gè)發(fā)送者對(duì)應(yīng)的短信接收者的個(gè)數(shù)≤M時(shí),將該短信定為有效短信;3)M<當(dāng)每個(gè)發(fā)送者對(duì)應(yīng)的短信接收者的個(gè)數(shù)<N時(shí),將該短信定為待定短信。在此基礎(chǔ)上,所述步驟4中的過(guò)濾策略包括:1)當(dāng)該短信為無(wú)效短信時(shí),將短信直接刪除;2)當(dāng)該短信為有效短信時(shí),將短信發(fā)用給相應(yīng)接收者;3)當(dāng)該短信為待定短信時(shí),將短信儲(chǔ)存并告之接收者,接收者回復(fù)可查看,否則直接儲(chǔ)存并定期刪除。在此基礎(chǔ)上,所述短信行為特征還包括短信回復(fù)率、發(fā)送成功率和平均發(fā)送短信的數(shù)量。本專(zhuān)利技術(shù)的另一個(gè)目的是提供一種短信行為的大數(shù)據(jù)采集與分析方法的系統(tǒng),其創(chuàng)新點(diǎn)在于:包括信息采集部件、統(tǒng)計(jì)部件、判斷部件和執(zhí)行部件,所述信息采集部件和統(tǒng)計(jì)部件相連,所述統(tǒng)計(jì)部件和判斷部件相連,所述判斷部件和執(zhí)行部件相連,所述信息采集部件采集短信數(shù)據(jù)信息,所述統(tǒng)計(jì)部件提取信息采集部件提供的信息,并統(tǒng)計(jì)每個(gè)短信的行為特征信息,所述判斷部件獲取統(tǒng)計(jì)部件的統(tǒng)計(jì)結(jié)果,并給出判斷結(jié)果,所述執(zhí)行部件進(jìn)行短信過(guò)濾。在此基礎(chǔ)上,所述執(zhí)行部件為云存儲(chǔ)管理系統(tǒng)。與現(xiàn)有技術(shù)相比,本專(zhuān)利技術(shù)的有益效果是:1、本專(zhuān)利技術(shù)的數(shù)據(jù)采集基于大數(shù)據(jù)平臺(tái),大數(shù)據(jù)是大量、高速、多變的信息,配合新型的處理方式促成了更強(qiáng)的決策能力、洞察力與最佳化處理,運(yùn)用大數(shù)據(jù)平臺(tái)可以獲得更為深刻、全面的洞察能力,也提供了前所未有的空間與潛力。2、本專(zhuān)利技術(shù)是基于Hadoop平臺(tái)和MapReduce函數(shù)進(jìn)完成的,可以快速地并行化過(guò)濾短息,這意味著本專(zhuān)利技術(shù)可以同時(shí)處理大量的短信,從而提高短信的過(guò)濾效率。Hadoop平臺(tái)能夠自動(dòng)保存數(shù)據(jù)的多副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配,具有高容錯(cuò)性,同時(shí)Hadoop平臺(tái)為分布式平臺(tái)具有高伸縮性。3、本專(zhuān)利技術(shù)中短信過(guò)濾判斷策略的端點(diǎn)值可以調(diào)整,可以根據(jù)實(shí)際情況進(jìn)行適當(dāng)調(diào)整,能夠精確控制短信過(guò)濾的數(shù)量和質(zhì)量,且判斷策略簡(jiǎn)單易懂,若出錯(cuò)容易修復(fù),適應(yīng)性強(qiáng),伸縮性好。4、本專(zhuān)利技術(shù)可以同時(shí)提取多個(gè)短信的行為特征,并根據(jù)多個(gè)行為特征的判斷結(jié)果來(lái)進(jìn)行短信過(guò)濾,加強(qiáng)了短信過(guò)濾的可靠性;并且多個(gè)行為特征是并行提取的,也加快了短信過(guò)濾的速度,適用于處理大量短信業(yè)務(wù),提高了短信過(guò)濾的質(zhì)量。5、本專(zhuān)利技術(shù)中短信過(guò)濾時(shí)可保存,并且可以根據(jù)用戶(hù)的需求進(jìn)行調(diào)用查看。查看的同時(shí)具有優(yōu)先級(jí)功能,可以根據(jù)重要、緊急和加急的不同緊急程度,進(jìn)行優(yōu)先調(diào)用查看,人性化程度高;另外還本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種短信行為的大數(shù)據(jù)采集與分析方法,其特征在于:包括以下步驟:步驟1:集合所有短信的數(shù)據(jù)信息;步驟2:統(tǒng)計(jì)所有短信的行為特征并輸出;步驟3:根據(jù)步驟2的輸出結(jié)果判斷出最優(yōu)短信過(guò)濾結(jié)果;步驟4:根據(jù)步驟3的判斷結(jié)果進(jìn)行短信過(guò)濾。
【技術(shù)特征摘要】
1.一種短信行為的大數(shù)據(jù)采集與分析方法,其特征在于:包括以下步驟:步驟1:
集合所有短信的數(shù)據(jù)信息;步驟2:統(tǒng)計(jì)所有短信的行為特征并輸出;步驟3:
根據(jù)步驟2的輸出結(jié)果判斷出最優(yōu)短信過(guò)濾結(jié)果;步驟4:根據(jù)步驟3的判斷結(jié)
果進(jìn)行短信過(guò)濾。
2.根據(jù)權(quán)利要求1所述的一種短信行為的大數(shù)據(jù)采集與分析方法,其特征在于:
所述步驟1基于大數(shù)據(jù)平臺(tái)實(shí)現(xiàn),具體步驟如下:
步驟11:將操作數(shù)據(jù)進(jìn)行實(shí)時(shí)記錄,并將操作數(shù)據(jù)存儲(chǔ)至本地存儲(chǔ)器中;
步驟12:讀取本地存儲(chǔ)器中的操作數(shù)據(jù),并對(duì)操作數(shù)據(jù)進(jìn)行預(yù)處理;
步驟13:將預(yù)處理數(shù)據(jù)定時(shí)定量的遠(yuǎn)程發(fā)送至遠(yuǎn)程存儲(chǔ)器中;
步驟14:讀取遠(yuǎn)程存儲(chǔ)器中的預(yù)處理數(shù)據(jù),并按照短信的發(fā)送者和接收者對(duì)
預(yù)處理數(shù)據(jù)進(jìn)行分類(lèi)處理,再將分類(lèi)處理獲得的分類(lèi)數(shù)據(jù)存儲(chǔ)至面向大數(shù)據(jù)的數(shù)
據(jù)庫(kù);
步驟15:按照分類(lèi)有序讀取數(shù)據(jù)庫(kù)中的分類(lèi)數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的一種短信行為的大數(shù)據(jù)采集與分析方法,其特征在于:
所述步驟12中的預(yù)處理包括剔除無(wú)效數(shù)據(jù)和整合重復(fù)數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的一種短信行為的大數(shù)據(jù)采集與分析方法,其特征在于:
所述步驟2中短信行為特征為對(duì)應(yīng)的短信接收者的數(shù)量。
5.根據(jù)權(quán)利要求4所述的一種短信行為的大數(shù)據(jù)采集與分析方法,其特征在于:
所述步驟2:短信行為特征的提取基于Hadoop平臺(tái)和MapReduce函數(shù)完成,具體
步驟如下:
步驟21:從采集到的數(shù)據(jù)中將短信的發(fā)送者和接收者列表提取作為輸入;
步驟22:通過(guò)Map函數(shù)并行的將短信的發(fā)送者和接收者記錄轉(zhuǎn)換成發(fā)送者
和每個(gè)接收者一對(duì)一的發(fā)送關(guān)系;
步驟23:通過(guò)Reduce函數(shù)計(jì)算每個(gè)發(fā)送者對(duì)應(yīng)的短信接收者的個(gè)數(shù);
步驟24:輸出每個(gè)發(fā)送者對(duì)應(yīng)的短信接收者的個(gè)數(shù)。
6.根...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:陳磊,吳長(zhǎng)福,張如兵,高宏翔,方俊湘,
申請(qǐng)(專(zhuān)利權(quán))人:深圳市深訊數(shù)據(jù)科技股份有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:廣東;44
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。