• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于輿情平臺(tái)的抽樣分布式聚類方法技術(shù)

    技術(shù)編號(hào):15690960 閱讀:67 留言:0更新日期:2017-06-24 03:46
    本發(fā)明專利技術(shù)提供了一種基于輿情平臺(tái)的抽樣分布式聚類方法,并包括如下步驟:一、獲取待聚類數(shù)據(jù),并對(duì)待聚類數(shù)據(jù)進(jìn)行分片處理,得到多個(gè)分片;二、利用MapReduce中的Map函數(shù)對(duì)每一分片進(jìn)行數(shù)據(jù)抽樣;三、將得到的抽樣數(shù)據(jù)匯總,并在MapReduce框架的Reduce過程中對(duì)匯總的抽樣數(shù)據(jù)進(jìn)行聚類;四、依次重復(fù)步驟二和步驟三合計(jì)進(jìn)行r輪數(shù)據(jù)抽樣,將每一輪的抽樣數(shù)據(jù)的聚類結(jié)果記作基聚類,并得到Π={π1,π2,…,πr}的向量,其中,r為大于等于2的正整數(shù),πi為第i輪的基聚類,1≤i≤r,且為正整數(shù);五、再次使用MapReduce框架將基聚類集成為最終的聚類結(jié)果。所述基于輿情平臺(tái)的抽樣分布式聚類方法能夠有效提高海量數(shù)據(jù)的聚類效率問題和在縮減數(shù)據(jù)規(guī)模的同時(shí)提高數(shù)據(jù)多樣性。

    A method of sampling distributed clustering based on public opinion platform

    The present invention provides a sample distributed clustering method based on the platform of public opinion, and includes the following steps: first, to get the clustering data, and data partition clustering data from a number of parts; two, the use of Map MapReduce function in data sampling on each slice; three, sampling data the summary and summary of clustering for sampling data in the Reduce process MapReduce framework; four, repeat steps two and three of the total R round of data sampling, cluster sampling data of each round results denoted based clustering, and pi = {PI 1, PI 2,... Vector, r}, PI, R is greater than or equal to 2 positive integers, I based clustering for the PI I round, I = 1 ~ r, which is a positive integer; five, again using the MapReduce framework will be set based clustering the final clustering result. The sampling distributed clustering method based on public opinion platform can effectively improve the clustering efficiency of massive data and improve data diversity while reducing data size.

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種基于輿情平臺(tái)的抽樣分布式聚類方法
    本專利技術(shù)屬于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域,具體地涉及一種基于輿情平臺(tái)的抽樣分布式聚類方法。
    技術(shù)介紹
    數(shù)據(jù)聚類問題,是通過數(shù)據(jù)樣本點(diǎn)之間的相似性來對(duì)之進(jìn)行操作,讓相似度高的數(shù)據(jù)樣本點(diǎn)在同一類簇中,而相似度較低的樣本點(diǎn)彼此遠(yuǎn)離。聚類一直以來都是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的重要方法之一,但隨著互聯(lián)網(wǎng)的發(fā)展特別是Web2.0帶來的用戶原創(chuàng)內(nèi)容的爆發(fā)式增長(zhǎng),數(shù)據(jù)量已成為傳統(tǒng)聚類方法的瓶頸,尤其是新聞推薦、機(jī)器翻譯、文獻(xiàn)檢索、情報(bào)分析、輿情監(jiān)控等應(yīng)用領(lǐng)域的文本數(shù)據(jù),具有高維稀疏的特性。如何提高聚類算法特別是高維稀疏數(shù)據(jù)的聚類方法的效率,已成為互聯(lián)網(wǎng)大數(shù)據(jù)數(shù)據(jù)挖掘亟待解決的重要問題。因此,有必要提供一種可以提高高維稀疏數(shù)據(jù)的聚類方法的效率的基于輿情平臺(tái)的抽樣分布式聚類方法。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)的目的在于提供一種可以提高高維稀疏數(shù)據(jù)的聚類方法的效率的基于輿情平臺(tái)的抽樣分布式聚類方法。本專利技術(shù)的技術(shù)方案如下:一種基于輿情平臺(tái)的抽樣分布式聚類方法包括如下步驟:一、獲取待聚類數(shù)據(jù),并對(duì)所述待聚類數(shù)據(jù)進(jìn)行分片處理,得到多個(gè)分片;二、利用MapReduce中的Map函數(shù)對(duì)每一所述分片進(jìn)行數(shù)據(jù)抽樣;三、將得到的抽樣數(shù)據(jù)匯總,并在MapReduce框架的Reduce過程中對(duì)匯總的所述抽樣數(shù)據(jù)進(jìn)行聚類;四、依次重復(fù)步驟二和步驟三合計(jì)進(jìn)行r輪數(shù)據(jù)抽樣,將每一輪的抽樣數(shù)據(jù)的聚類結(jié)果記作基聚類,并得到Π={π1,π2,…,πr}的向量,其中,r為大于等于2的正整數(shù),πi為第i輪的基聚類,1≤i≤r,且為正整數(shù);五、再次使用MapReduce框架將所述基聚類集成為最終的聚類結(jié)果。優(yōu)選地,在步驟一中,對(duì)所述待聚類數(shù)據(jù)進(jìn)行水平分割,并在分割過程中保證每條數(shù)據(jù)的完整性,且將分割得到的所述分片存儲(chǔ)在分布式文件系統(tǒng)中。優(yōu)選地,所述步驟二中進(jìn)行數(shù)據(jù)抽樣至少滿足的要求包括:抽樣技術(shù)本身足夠簡(jiǎn)單、抽樣基于局部數(shù)據(jù)進(jìn)行和抽樣結(jié)果具有一定的隨機(jī)性。優(yōu)選地,在步驟三中,將具體的數(shù)據(jù)抽樣輪次作為key,得到的抽樣數(shù)據(jù)作為value,通過shuffle函數(shù)匯聚到MapReduce的一個(gè)Reduce函數(shù)中,在所述Reduce函數(shù)中對(duì)抽樣數(shù)據(jù)進(jìn)行聚類。優(yōu)選地,在步驟五中包括如下步驟:隨機(jī)選擇一定數(shù)量的所述基聚類作為質(zhì)心,并用Map函數(shù)計(jì)算其他所述基聚類與所述質(zhì)心間的距離,每一所述基聚類被指派到與其距離最近的所述質(zhì)心所在的類簇中,并在Reduce函數(shù)中更新類簇的質(zhì)心;重復(fù)這一過程直到所述類簇的質(zhì)心不再改變。優(yōu)選地,設(shè)定zk表示基聚類向量Π中第k個(gè)類簇的質(zhì)心,描述為rk維向量:其中,優(yōu)選地,設(shè)定向量Π描述為一個(gè)rk維的向量xl,則xl與zk之間的余弦距離為:其中wi表示第i個(gè)基聚類的權(quán)重,當(dāng)不存在先驗(yàn)知識(shí)時(shí)取值為1/r。優(yōu)選地,質(zhì)心zk利用如下公式進(jìn)行更新:其中是關(guān)于Π的常數(shù)向量,表示第i個(gè)基聚類的第k個(gè)簇中實(shí)例的數(shù)量;對(duì)于和而言,如果給定一個(gè)d維實(shí)向量y,||y||p表示y的Lp范數(shù),即本專利技術(shù)提供的技術(shù)方案具有如下有益效果:所述基于輿情平臺(tái)的抽樣分布式聚類方法利用抽樣技術(shù)縮減數(shù)據(jù)規(guī)模,通過多輪抽樣提高基聚類結(jié)果的多樣性,然后定義余弦距離將基聚類結(jié)果集成為最終的聚類結(jié)果,因此能夠有效提高海量數(shù)據(jù)的聚類效率問題;并且,通過引入抽樣技術(shù),縮減數(shù)據(jù)規(guī)模的同時(shí)提高數(shù)據(jù)多樣性,然后利用分布式計(jì)算框架設(shè)計(jì)兩階段的聚類過程,為提高互聯(lián)網(wǎng)大數(shù)據(jù)中輿情項(xiàng)目分析的聚類質(zhì)量和效率提供了有效方法。附圖說明圖1是本專利技術(shù)實(shí)施例提供的基于輿情平臺(tái)的抽樣分布式聚類方法的流程框圖。具體實(shí)施方式為了使本專利技術(shù)的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本專利技術(shù)進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本專利技術(shù),并不用于限定本專利技術(shù)。除非上下文另有特定清楚的描述,本專利技術(shù)中的元件和組件,數(shù)量既可以單個(gè)的形式存在,也可以多個(gè)的形式存在,本專利技術(shù)并不對(duì)此進(jìn)行限定。本專利技術(shù)中的步驟雖然用標(biāo)號(hào)進(jìn)行了排列,但并不用于限定步驟的先后次序,除非明確說明了步驟的次序或者某步驟的執(zhí)行需要其他步驟作為基礎(chǔ),否則步驟的相對(duì)次序是可以調(diào)整的。可以理解,本文中所使用的術(shù)語“和/或”涉及且涵蓋相關(guān)聯(lián)的所列項(xiàng)目中的一者或一者以上的任何和所有可能的組合。請(qǐng)參閱圖1,本專利技術(shù)實(shí)施例提供的基于輿情平臺(tái)的抽樣分布式聚類方法100包括如下步驟:S1、獲取待聚類數(shù)據(jù),并對(duì)所述待聚類數(shù)據(jù)進(jìn)行分片處理,得到多個(gè)分片。在步驟S1中,對(duì)待聚類數(shù)據(jù)進(jìn)行水平分割,得到若干分片(Sharding),在分割過程中應(yīng)保證每條數(shù)據(jù)(例如新聞文本等)的完整性。而且,將分割得到的所述分片存儲(chǔ)在分布式文件系統(tǒng)如HDFS中,所述分片的大小由所選的分布式文件系統(tǒng)決定,如HDFS中每個(gè)分片大小為64M。而且,通過訪問分布式文件系統(tǒng),計(jì)算節(jié)點(diǎn)可共享分片,并且通過計(jì)算本地化,有效地降低I/O消耗。S2、利用MapReduce中的Map函數(shù)對(duì)每一所述分片進(jìn)行數(shù)據(jù)抽樣。具體地,在步驟S2中,在每一所述分片上進(jìn)行數(shù)據(jù)抽樣,出于分治和效率的考慮,抽樣技術(shù)至少應(yīng)滿足以下幾點(diǎn)要求:1、抽樣技術(shù)本身需足夠簡(jiǎn)單,否則會(huì)成為新的瓶頸2、抽樣可基于局部數(shù)據(jù)進(jìn)行而不必依賴全局視圖3、抽樣結(jié)果應(yīng)具有一定的隨機(jī)性。而且,滿足以上幾點(diǎn)的抽樣方法均可應(yīng)用于本專利技術(shù)中,對(duì)此不做具體的限定。并在,在步驟S2中,抽樣操作是通過MapReduce框架中的Map函數(shù)實(shí)現(xiàn)的,此記作第一階段Map過程。S3、將得到的抽樣數(shù)據(jù)匯總,并在MapReduce框架的Reduce過程中對(duì)匯總的所述抽樣數(shù)據(jù)進(jìn)行聚類。具體地,在步驟S3中,對(duì)每一輪的抽樣結(jié)果,將具體的數(shù)據(jù)抽樣輪次作為key,得到的抽樣數(shù)據(jù)作為value,通過shuffle函數(shù)匯聚到MapReduce的一個(gè)Reduce函數(shù)中,在所述Reduce函數(shù)中對(duì)抽樣數(shù)據(jù)進(jìn)行聚類,此記作第一階段Reduce過程。而且,具體的聚類方法包括但不限于K均值、譜聚類和層次聚類等,對(duì)此本專利技術(shù)不做限定。S4、依次重復(fù)步驟S2和步驟S3合計(jì)進(jìn)行r輪數(shù)據(jù)抽樣,將每一輪的抽樣數(shù)據(jù)的聚類結(jié)果記作基聚類,并得到Π={π1,π2,…,πr}的向量,其中,r為大于等于2的正整數(shù),πi為第i輪的基聚類,1≤i≤r,且為正整數(shù)。S5、再次使用MapReduce框架將所述基聚類集成為最終的聚類結(jié)果。在步驟S5中,對(duì)向量Π進(jìn)行聚類集成,并將每個(gè)所述基聚類視為整體,從而計(jì)算每個(gè)所述基聚類間的距離。具體地,所述步驟S5包括如下步驟:隨機(jī)選擇一定數(shù)量的所述基聚類作為質(zhì)心,并用Map函數(shù)計(jì)算其他所述基聚類與所述質(zhì)心間的距離,每一所述基聚類被指派到與其距離最近的所述質(zhì)心所在的類簇中,并在Reduce函數(shù)中更新類簇的質(zhì)心,此記作第二階段Map過程和第二階段Reduce過程;重復(fù)這一過程直到所述類簇的質(zhì)心不再改變。在本實(shí)施例中,在所述第二階段的Map過程中進(jìn)行距離的計(jì)算和基聚類的類簇指派;在所述第二階段的Reduce過程中進(jìn)行中質(zhì)心的更新。而且,在所述第二階段的Map過程中,所述基于輿情平臺(tái)的抽樣分布式聚類方法100定義余弦距離進(jìn)行計(jì)算:設(shè)定zk表示基聚類向量Π中第k個(gè)類簇的質(zhì)心,描述為rk維向量:其中,而且,設(shè)定向量Π描述為一個(gè)rk維的向量xl,則xl與zk之間的余弦距離為:其中w本文檔來自技高網(wǎng)...
    一種基于輿情平臺(tái)的抽樣分布式聚類方法

    【技術(shù)保護(hù)點(diǎn)】
    一種基于輿情平臺(tái)的抽樣分布式聚類方法,其特征在于:包括如下步驟:一、獲取待聚類數(shù)據(jù),并對(duì)所述待聚類數(shù)據(jù)進(jìn)行分片處理,得到多個(gè)分片;二、利用MapReduce中的Map函數(shù)對(duì)每一所述分片進(jìn)行數(shù)據(jù)抽樣;三、將得到的抽樣數(shù)據(jù)匯總,并在MapReduce框架的Reduce過程中對(duì)匯總的所述抽樣數(shù)據(jù)進(jìn)行聚類;四、依次重復(fù)步驟二和步驟三合計(jì)進(jìn)行r輪數(shù)據(jù)抽樣,將每一輪的抽樣數(shù)據(jù)的聚類結(jié)果記作基聚類,并得到Π={π1,π2,…,πr}的向量,其中,r為大于等于2的正整數(shù),πi為第i輪的基聚類,1≤i≤r,且為正整數(shù);五、再次使用MapReduce框架將所述基聚類集成為最終的聚類結(jié)果。

    【技術(shù)特征摘要】
    1.一種基于輿情平臺(tái)的抽樣分布式聚類方法,其特征在于:包括如下步驟:一、獲取待聚類數(shù)據(jù),并對(duì)所述待聚類數(shù)據(jù)進(jìn)行分片處理,得到多個(gè)分片;二、利用MapReduce中的Map函數(shù)對(duì)每一所述分片進(jìn)行數(shù)據(jù)抽樣;三、將得到的抽樣數(shù)據(jù)匯總,并在MapReduce框架的Reduce過程中對(duì)匯總的所述抽樣數(shù)據(jù)進(jìn)行聚類;四、依次重復(fù)步驟二和步驟三合計(jì)進(jìn)行r輪數(shù)據(jù)抽樣,將每一輪的抽樣數(shù)據(jù)的聚類結(jié)果記作基聚類,并得到Π={π1,π2,…,πr}的向量,其中,r為大于等于2的正整數(shù),πi為第i輪的基聚類,1≤i≤r,且為正整數(shù);五、再次使用MapReduce框架將所述基聚類集成為最終的聚類結(jié)果。2.根據(jù)權(quán)利要求1所述的基于輿情平臺(tái)的抽樣分布式聚類方法,其特征在于:在步驟一中,對(duì)所述待聚類數(shù)據(jù)進(jìn)行水平分割,并在分割過程中保證每條數(shù)據(jù)的完整性,且將分割得到的所述分片存儲(chǔ)在分布式文件系統(tǒng)中。3.根據(jù)權(quán)利要求1所述的基于輿情平臺(tái)的抽樣分布式聚類方法,其特征在于:所述步驟二中進(jìn)行數(shù)據(jù)抽樣至少滿足的要求包括:抽樣技術(shù)本身足夠簡(jiǎn)單、抽樣基于局部數(shù)據(jù)進(jìn)行和抽樣結(jié)果具有一定的隨機(jī)性。4.根據(jù)權(quán)利要求1所述的基于輿情平臺(tái)的抽樣分布式聚類方法,其特征在于:在步驟三中,將具體的數(shù)據(jù)抽樣輪次作為key,得到的抽樣數(shù)據(jù)作為value,通過shuffle函數(shù)匯聚到MapReduce的一個(gè)Reduce函數(shù)中,在所述Reduce函數(shù)中...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:汪偉亞許愷黃強(qiáng)松陳輝
    申請(qǐng)(專利權(quán))人:江蘇號(hào)百信息服務(wù)有限公司
    類型:發(fā)明
    國(guó)別省市:江蘇,32

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 加勒比无码一区二区三区| 国产成人综合日韩精品无码| 国产成人无码av| 亚洲AV无码一区二区二三区软件 | 激情射精爆插热吻无码视频| 精品无码久久久久久久久水蜜桃 | 国产AV无码专区亚洲AV毛网站| 人妻无码中文久久久久专区| 国产精品成人99一区无码| 国产亚洲精品无码成人| 精品久久久久久无码中文字幕漫画 | 亚洲国产精品无码久久久蜜芽| 精品亚洲AV无码一区二区| 国产又爽又黄无码无遮挡在线观看| 精品亚洲AV无码一区二区 | 精品日韩亚洲AV无码| 国产AV无码专区亚洲精品| 国产在线观看无码免费视频| 无码一区二区三区免费视频| 国产AV无码专区亚洲AV毛网站| 久久青青草原亚洲av无码| 丰满少妇人妻无码专区| 免费无码VA一区二区三区| 亚洲欧洲无码AV电影在线观看| 国产精品无码一本二本三本色| 无码人妻丰满熟妇区96| 中文字幕无码第1页| 伊人蕉久中文字幕无码专区| 无码人妻精品一区二区三区不卡 | 亚洲av无码一区二区三区人妖 | 无码熟妇人妻AV在线影院| 亚洲国产成人无码av在线播放| 国产AV无码专区亚汌A√| 国产aⅴ无码专区亚洲av麻豆| 国产在线精品无码二区二区| 无码中文字幕色专区| 免费无码又爽又刺激高潮| 精品国产AV无码一区二区三区| 免费A级毛片无码久久版| 亚洲高清无码综合性爱视频| 免费看成人AA片无码视频吃奶|