The present invention provides a sample distributed clustering method based on the platform of public opinion, and includes the following steps: first, to get the clustering data, and data partition clustering data from a number of parts; two, the use of Map MapReduce function in data sampling on each slice; three, sampling data the summary and summary of clustering for sampling data in the Reduce process MapReduce framework; four, repeat steps two and three of the total R round of data sampling, cluster sampling data of each round results denoted based clustering, and pi = {PI 1, PI 2,... Vector, r}, PI, R is greater than or equal to 2 positive integers, I based clustering for the PI I round, I = 1 ~ r, which is a positive integer; five, again using the MapReduce framework will be set based clustering the final clustering result. The sampling distributed clustering method based on public opinion platform can effectively improve the clustering efficiency of massive data and improve data diversity while reducing data size.
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種基于輿情平臺(tái)的抽樣分布式聚類方法
本專利技術(shù)屬于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域,具體地涉及一種基于輿情平臺(tái)的抽樣分布式聚類方法。
技術(shù)介紹
數(shù)據(jù)聚類問題,是通過數(shù)據(jù)樣本點(diǎn)之間的相似性來對(duì)之進(jìn)行操作,讓相似度高的數(shù)據(jù)樣本點(diǎn)在同一類簇中,而相似度較低的樣本點(diǎn)彼此遠(yuǎn)離。聚類一直以來都是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的重要方法之一,但隨著互聯(lián)網(wǎng)的發(fā)展特別是Web2.0帶來的用戶原創(chuàng)內(nèi)容的爆發(fā)式增長(zhǎng),數(shù)據(jù)量已成為傳統(tǒng)聚類方法的瓶頸,尤其是新聞推薦、機(jī)器翻譯、文獻(xiàn)檢索、情報(bào)分析、輿情監(jiān)控等應(yīng)用領(lǐng)域的文本數(shù)據(jù),具有高維稀疏的特性。如何提高聚類算法特別是高維稀疏數(shù)據(jù)的聚類方法的效率,已成為互聯(lián)網(wǎng)大數(shù)據(jù)數(shù)據(jù)挖掘亟待解決的重要問題。因此,有必要提供一種可以提高高維稀疏數(shù)據(jù)的聚類方法的效率的基于輿情平臺(tái)的抽樣分布式聚類方法。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)的目的在于提供一種可以提高高維稀疏數(shù)據(jù)的聚類方法的效率的基于輿情平臺(tái)的抽樣分布式聚類方法。本專利技術(shù)的技術(shù)方案如下:一種基于輿情平臺(tái)的抽樣分布式聚類方法包括如下步驟:一、獲取待聚類數(shù)據(jù),并對(duì)所述待聚類數(shù)據(jù)進(jìn)行分片處理,得到多個(gè)分片;二、利用MapReduce中的Map函數(shù)對(duì)每一所述分片進(jìn)行數(shù)據(jù)抽樣;三、將得到的抽樣數(shù)據(jù)匯總,并在MapReduce框架的Reduce過程中對(duì)匯總的所述抽樣數(shù)據(jù)進(jìn)行聚類;四、依次重復(fù)步驟二和步驟三合計(jì)進(jìn)行r輪數(shù)據(jù)抽樣,將每一輪的抽樣數(shù)據(jù)的聚類結(jié)果記作基聚類,并得到Π={π1,π2,…,πr}的向量,其中,r為大于等于2的正整數(shù),πi為第i輪的基聚類,1≤i≤r,且為正整數(shù);五、再次使用MapReduce框架將所述基聚類集成 ...
【技術(shù)保護(hù)點(diǎn)】
一種基于輿情平臺(tái)的抽樣分布式聚類方法,其特征在于:包括如下步驟:一、獲取待聚類數(shù)據(jù),并對(duì)所述待聚類數(shù)據(jù)進(jìn)行分片處理,得到多個(gè)分片;二、利用MapReduce中的Map函數(shù)對(duì)每一所述分片進(jìn)行數(shù)據(jù)抽樣;三、將得到的抽樣數(shù)據(jù)匯總,并在MapReduce框架的Reduce過程中對(duì)匯總的所述抽樣數(shù)據(jù)進(jìn)行聚類;四、依次重復(fù)步驟二和步驟三合計(jì)進(jìn)行r輪數(shù)據(jù)抽樣,將每一輪的抽樣數(shù)據(jù)的聚類結(jié)果記作基聚類,并得到Π={π1,π2,…,πr}的向量,其中,r為大于等于2的正整數(shù),πi為第i輪的基聚類,1≤i≤r,且為正整數(shù);五、再次使用MapReduce框架將所述基聚類集成為最終的聚類結(jié)果。
【技術(shù)特征摘要】
1.一種基于輿情平臺(tái)的抽樣分布式聚類方法,其特征在于:包括如下步驟:一、獲取待聚類數(shù)據(jù),并對(duì)所述待聚類數(shù)據(jù)進(jìn)行分片處理,得到多個(gè)分片;二、利用MapReduce中的Map函數(shù)對(duì)每一所述分片進(jìn)行數(shù)據(jù)抽樣;三、將得到的抽樣數(shù)據(jù)匯總,并在MapReduce框架的Reduce過程中對(duì)匯總的所述抽樣數(shù)據(jù)進(jìn)行聚類;四、依次重復(fù)步驟二和步驟三合計(jì)進(jìn)行r輪數(shù)據(jù)抽樣,將每一輪的抽樣數(shù)據(jù)的聚類結(jié)果記作基聚類,并得到Π={π1,π2,…,πr}的向量,其中,r為大于等于2的正整數(shù),πi為第i輪的基聚類,1≤i≤r,且為正整數(shù);五、再次使用MapReduce框架將所述基聚類集成為最終的聚類結(jié)果。2.根據(jù)權(quán)利要求1所述的基于輿情平臺(tái)的抽樣分布式聚類方法,其特征在于:在步驟一中,對(duì)所述待聚類數(shù)據(jù)進(jìn)行水平分割,并在分割過程中保證每條數(shù)據(jù)的完整性,且將分割得到的所述分片存儲(chǔ)在分布式文件系統(tǒng)中。3.根據(jù)權(quán)利要求1所述的基于輿情平臺(tái)的抽樣分布式聚類方法,其特征在于:所述步驟二中進(jìn)行數(shù)據(jù)抽樣至少滿足的要求包括:抽樣技術(shù)本身足夠簡(jiǎn)單、抽樣基于局部數(shù)據(jù)進(jìn)行和抽樣結(jié)果具有一定的隨機(jī)性。4.根據(jù)權(quán)利要求1所述的基于輿情平臺(tái)的抽樣分布式聚類方法,其特征在于:在步驟三中,將具體的數(shù)據(jù)抽樣輪次作為key,得到的抽樣數(shù)據(jù)作為value,通過shuffle函數(shù)匯聚到MapReduce的一個(gè)Reduce函數(shù)中,在所述Reduce函數(shù)中...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:汪偉亞,許愷,黃強(qiáng)松,陳輝,
申請(qǐng)(專利權(quán))人:江蘇號(hào)百信息服務(wù)有限公司,
類型:發(fā)明
國(guó)別省市:江蘇,32
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。