• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    Hadoop框架下高維海量數據GMM聚類方法技術

    技術編號:8656027 閱讀:400 留言:0更新日期:2013-05-01 23:43
    本發明專利技術公開了一種Hadoop框架下高維海量數據GMM聚類方法,主要針對已有聚類算法的不足,將海量數據的聚類問題架構在分布式平臺上,用于高維、海量數據的聚類。其實現步驟是:1、組建局域網;2、建立Hadoop平臺;3、上傳數據到集群;4、初始聚類;5、計算各聚類的參數和判別函數;6、判斷聚類是否完成;7、重新聚類;8、計算新聚類中每一個類的均值、權重;9、計算新聚類中每一個類的方差;10、輸出聚類結果。本發明專利技術利用Hadoop框架中MapReduce運算模型的特點,對聚類中的可并行部分用Map并行方法處理,計算均值和方差時采用兩個Map/Reduce分別計算,可以高效、精確的聚類,有較強的可擴展性和容錯性。

    【技術實現步驟摘要】

    本專利技術屬于計算機
    ,更進一步涉及數據挖掘領域中Hadoop框架下高維、海量數據的高斯混合模型(Gaussian Mixtures Model7GMM)聚類方法。本專利技術可以方便、高效的完成高維、海量數據地的聚類,克服單機模式下海量數據處理的低效,維數災難問題。
    技術介紹
    海量數據處理的過程中廣泛采用的一種計算框架MR “Dean J, GhemawatS.MapReduce :simplified data processing on large clusters[J]. Communications ofthe ACM, 2005, 51 (I) :107_113”該計算框架是由Google公司專利技術,近些年新興的并行編程模式,它將并行化、容錯、數據分布、負載均衡等放在一個庫里,將系統對數據的所有操作都歸結為兩個步驟=Map (映射)階段和Reduce (化簡)階段,使那些沒有多少并行計算經驗的開發人員也可以開發并行應用,對海量數據進行處理。Clustering with Gaussian Mixtures “Andrew ff. Moore Professor, School ofComputer Science Carnegie Mellon University”所提出的 GMM(高斯混合聚類模型)是單一高斯概率密度函數的延伸。通過多個單高斯模型的線性組合來組成一個混合高斯模型。通過EM算法對模型的參數不斷進行調整從而得到能夠描述數據的聚類模型。該方法存在的不足是在聚類過程中不能有效應對海量數據,算法效率受到時間,空間復雜度的限制。上海海事大學申請的專利技術專利“一種基于在線分裂合并EM算法的高斯混合模型聚類方法”(專利申請號:201010172604. 6,公開號CN102081753A)。該專利申請公開了一種基于在線分裂合并EM算法的高斯混合模型聚類方法,該方法基于在線分裂合并的EM算法對Ueda等人和Demsper等人的算法進行改進,因此,該聚類方法繼承了 EM算法的完備性和收斂性特征,也繼承了分裂合并算法對局部收斂性的改進,通過引入時間序列參數,提出了增量在線分裂EM訓練方法,由此實現了增量式的期望最大化訓練。該聚類方法能夠逐樣本在線更新GMM模型參數,克服了批處理數據要求的離線訓練的局限性。但是,該聚類方法仍然存在不足之處是,該聚類方法并沒有解決大規模數據處理中的維數災難問題,可擴展性及伸縮性不強。
    技術實現思路
    本專利技術的目的在于克服上述現有技術的不足,將海量數據的聚類問題架構在分布式平臺上,提出一種基于Hadoop框架的高維、海量數據聚類方法。在聚類的過程中,利用Hadoop框架中MapReduce運算模型的特點,對聚類中的可并行部分用Map并行方法處理,計算均值和方差時采用兩個Map/Reduce分別計算。為實現上述目的,本專利技術包括如下步驟(I)組建局域網將多臺計算機連接到同一局域網中,每臺計算機作為一個節點,建立能夠相互通信的集群;(2)建立 Hadoop 平臺對集群中的每個節點配置Hadoop0.20.2文件,通過文件中屬性參數dfs.namenode和dfs.datanode的設置,使集群中包含一個名字節點和多個數據節點;通過文件中屬性參數mapred.jobtracker和mapred.tasktracker的設置,使集群中包含一個調度節點和多個任務節點,建立開源的Hadoop平臺;(3)上傳數據到集群使用Hadoop分布式文件命令dfs-put將待聚類數據集上傳至Hadoop平臺的各個節點上;(4)初始聚類采用KMeans聚類方法,對集群中節點上的數據進行初始粗略聚類,得到初始的聚類;(5)計算各聚類的參數和判別函數5a)計算初始的聚類每一個類的均值;5b)統計初始聚類每一個類中數據的個數,用統計的數據個數除以待聚類數據集中數據的總數,得到初始聚類每一個類的權重;5c)計算初始的聚類每一個類的方差;5d)計算判別函數按照下式計算高斯概率密度值:本文檔來自技高網
    ...

    【技術保護點】
    Hadoop框架下高維海量數據GMM聚類方法,包括如下步驟:(1)組建局域網將多臺計算機連接到同一局域網中,每臺計算機作為一個節點,建立能夠相互通信的集群;(2)建立Hadoop平臺對集群中的每個節點配置Hadoop0.20.2文件,通過文件中屬性參數dfs.namenode和dfs.datanode的設置,使集群中包含一個名字節點和多個數據節點;通過文件中屬性參數mapred.jobtracker和mapred.tasktracker的設置,使集群中包含一個調度節點和多個任務節點,建立開源的Hadoop平臺;(3)上傳數據到集群使用Hadoop分布式文件命令dfs?put將待聚類數據集上傳至Hadoop平臺的各個節點上;(4)初始聚類采用KMeans聚類方法,對集群中節點上的數據進行初始粗略聚類,得到初始的聚類;(5)計算各聚類的參數和判別函數5a)計算初始的聚類每一個類的均值;5b)統計初始聚類每一個類中數據的個數,用統計的數據個數除以待聚類數據集中數據的總數,得到初始聚類每一個類的權重;5c)計算初始的聚類每一個類的方差;5d)計算判別函數按照下式計算高斯概率密度值:G=exp(-(x-ui)Σi-1(x-ui)/2)(2π)d|Σi|其中,G表示高斯概率密度的值,x表示待聚類數據集中的任意一個向量數據, ui表示第i個類的均值,i表示聚類中的第i個類,∑i表示第i個類的方差,exp表示以e為底的指數運算;按照下式計算判別函數的值:L=Σx∈Dlog(Σi=1KpiG(x|ui,Σi))其中,L表示判別函數值,x表示待聚類數據集中的任意一個向量數據,D表示待聚類數據集,K表示聚類中類的個數,i表示聚類中的第i個類,pi表示第i個類在聚類中的權重,G表示第i個類的高斯概率密度值,ui表示第i個類的均值,Σi表示第i個類的方差;(6)判斷聚類是否完成判斷判別函數的值是否在設定域值之內,若在閾值內,則聚類結束,執行步驟(10),若不在閾值內,表示聚類尚未結束,執行步驟(7);(7)重新聚類7a)啟動第一個Map任務,掃描待聚類數據集,每次讀入一條數據;7b)對每次讀入的數據,采用以下公式計算讀入的數據到聚類中每個類的概率值:γ(x,i)=piG(x|ui,Σi)Σh=1KPhG(x|uh,Σh)其中,γ(x,i)表示待聚類數據集中數據x到聚類中第i個類的概率值,pi表示第i個聚類在待聚類數據集中的權重,G為第i個聚類的概率密度函數值,x表示待聚類數據集中的數據,ui表示第i個聚類的均值,Σi表示第i個聚類的方差,K表示聚類的個數,h表示聚類中的第h個類,Ph表示第h個聚類在待聚類數據集中的權重,uh表示第h個類的均值,∑h表示第h個聚類的方差;7c)選取概率值中的最大值,將步驟7a)讀入數據分配到最大值對應的類;7d)判斷是否讀取完待聚類數據集,若未讀取完,則執行步驟7a),若讀取完,則表示得到了新聚類,執行步驟(8);(8)計算新聚類中每一個類的均值、權重啟動第一個Reduce任務,計算第一個Map任務傳入的聚類數據,按照步驟5a)的計算方法獲得新聚類中每一個類的均值,按照步驟5b)的計算方法獲得新聚類中每一個類的權重;(9)計算新聚類中每一個類的方差9a)啟動第二個Map任務,第二次掃描待聚類數據集,每次讀入一條數據;9b)對每次讀入的數據,采用以下公式計算Map/Reduce中間值:Dmid=(x?u)2其中,Dmid表示Map/Reduce中間值,x表示步驟9a)讀入的一條數據,u表示x所屬類的均值;9c)啟動第二個Reduce任務,對9b)的中間值先求和,再求和的根,獲得新聚類的方差;9d)判斷是否讀取完待聚類數據集,若未讀取完,則執行步驟9a),若讀取完,執行步驟(5);(10)輸出聚類結果聚類結束后,聚類中每一個類的均值、權重、方差作為聚類結果輸出。...

    【技術特征摘要】
    1.Hadoop框架下高維海量數據GMM聚類方法,包括如下步驟: (1)組建局域網 將多臺計算機連接到同一局域網中,每臺計算機作為一個節點,建立能夠相互通信的集群; (2)建立Hadoop平臺 對集群中的每個節點配置Hadoop0.20.2文件,通過文件中屬性參數dfs.namenode和dfs.datanode的設置,使集群中包含一個名字節點和多個數據節點;通過文件中屬性參數mapred.jobtracker和mapred.tasktracker的設置,使集群中包含一個調度節點和多個任務節點,建立開源的Hadoop平臺; (3)上傳數據到集群 使用Hadoop分布式文件命令dfs-put將待聚類數據集上傳至Hadoop平臺的各個節點上; (4)初始聚類 采用KMeans聚類方法,對集群中節點上的數據進行初始粗略聚類,得到初始的聚類; (5)計算各聚類的參數和判別函數 5a)計算初始的聚類每一個類的均值; 5b)統計初始聚類每一 個類中數據的個數,用統計的數據個數除以待聚類數據集中數據的總數,得到初始聚類每一個類的權重; 5c)計算初始的聚類每一個類的方差; 5d)計算判別函數 按照下式計算高斯概率密度值: n _ exp(-(x - U1-1 (χ - %) / 2) [χ, I 其中,G表示高斯概率密度的值,χ表示待聚類數據集中的任意一個向量數據,Ui表示第i個類的均值,i表示聚類中的第i個類,Σ ,表示第i個類的方差,exp表示以e為底的指數運算; 按照下式計算判別函數的值: 其中,L表示判別函數值,χ表示待聚類數據集中的任意一個向量數據,D表示待聚類數據集,K表示聚類中類的個數,i表示聚類中的第i個類,Pi表示第i個類在聚類中的權重,G表示第i個類的高斯概率密度值,Ui表示第i個類的均值,Σ i表示第i個類的方差; (6)判斷聚類是否完成 判斷判別函數的值是否在設定域值之內,若在閾值內,則聚類結束,執行步驟(10),若不在閾值內,表示聚類尚未結束,執行步驟(7); (7)重新聚類 7a)啟動第一個Map任務,掃描待聚類數據集,每次讀入一條數據; 7b...

    【專利技術屬性】
    技術研發人員:崔江濤李林司蓁彭延國史瑋陳煜崔小利王博
    申請(專利權)人:西安電子科技大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文字幕久久精品无码| 无码日韩人妻AV一区免费l | 伊人久久精品无码麻豆一区| 亚洲国产精品无码久久久秋霞2| 国产丰满乱子伦无码专区| 亚洲av中文无码乱人伦在线咪咕| 无码人妻丰满熟妇啪啪网站| 超清无码无卡中文字幕| 91久久精品无码一区二区毛片 | 永久免费AV无码网站在线观看| 亚洲国产精品无码久久青草 | HEYZO无码综合国产精品227| 人妻aⅴ无码一区二区三区| 中文午夜乱理片无码| 中文字幕日产无码| 久久精品无码精品免费专区| 精品久久久久久久无码久中文字幕 | 中文字幕精品无码一区二区 | 亚洲国产精品无码AAA片| 蕾丝av无码专区在线观看| 无码成A毛片免费| 中文字幕有码无码AV| 日韩激情无码免费毛片| 亚洲人片在线观看天堂无码 | 亚洲A∨无码无在线观看| 九九在线中文字幕无码| 精品人妻无码区二区三区| 无码AV中文字幕久久专区| 中文字幕AV中文字无码亚| 中文无码成人免费视频在线观看| 无码国产69精品久久久久孕妇| 少妇特殊按摩高潮惨叫无码| 无码熟妇人妻AV影音先锋| 国产精品成人无码免费| 免费无码精品黄AV电影| 丰满亚洲大尺度无码无码专线 | 水蜜桃av无码一区二区| 国产免费无码一区二区| 久久Av无码精品人妻系列| 少妇伦子伦精品无码STYLES| 亚洲av无码乱码国产精品fc2|