【技術實現步驟摘要】
本專利技術屬于計算機
,更進一步涉及數據挖掘領域中Hadoop框架下高維、海量數據的高斯混合模型(Gaussian Mixtures Model7GMM)聚類方法。本專利技術可以方便、高效的完成高維、海量數據地的聚類,克服單機模式下海量數據處理的低效,維數災難問題。
技術介紹
海量數據處理的過程中廣泛采用的一種計算框架MR “Dean J, GhemawatS.MapReduce :simplified data processing on large clusters[J]. Communications ofthe ACM, 2005, 51 (I) :107_113”該計算框架是由Google公司專利技術,近些年新興的并行編程模式,它將并行化、容錯、數據分布、負載均衡等放在一個庫里,將系統對數據的所有操作都歸結為兩個步驟=Map (映射)階段和Reduce (化簡)階段,使那些沒有多少并行計算經驗的開發人員也可以開發并行應用,對海量數據進行處理。Clustering with Gaussian Mixtures “Andrew ff. Moore Professor, School ofComputer Science Carnegie Mellon University”所提出的 GMM(高斯混合聚類模型)是單一高斯概率密度函數的延伸。通過多個單高斯模型的線性組合來組成一個混合高斯模型。通過EM算法對模型的參數不斷進行調整從而得到能夠描述數據的聚類模型。該方法存在的不足是在聚類過程中不能有效應對海量數據,算法效率受到時間,空間復雜度的限制。 ...
【技術保護點】
Hadoop框架下高維海量數據GMM聚類方法,包括如下步驟:(1)組建局域網將多臺計算機連接到同一局域網中,每臺計算機作為一個節點,建立能夠相互通信的集群;(2)建立Hadoop平臺對集群中的每個節點配置Hadoop0.20.2文件,通過文件中屬性參數dfs.namenode和dfs.datanode的設置,使集群中包含一個名字節點和多個數據節點;通過文件中屬性參數mapred.jobtracker和mapred.tasktracker的設置,使集群中包含一個調度節點和多個任務節點,建立開源的Hadoop平臺;(3)上傳數據到集群使用Hadoop分布式文件命令dfs?put將待聚類數據集上傳至Hadoop平臺的各個節點上;(4)初始聚類采用KMeans聚類方法,對集群中節點上的數據進行初始粗略聚類,得到初始的聚類;(5)計算各聚類的參數和判別函數5a)計算初始的聚類每一個類的均值;5b)統計初始聚類每一個類中數據的個數,用統計的數據個數除以待聚類數據集中數據的總數,得到初始聚類每一個類的權重;5c)計算初始的聚類每一個類的方差;5d)計算判別函數按照下式計算高斯概率密度值:G=exp( ...
【技術特征摘要】
1.Hadoop框架下高維海量數據GMM聚類方法,包括如下步驟: (1)組建局域網 將多臺計算機連接到同一局域網中,每臺計算機作為一個節點,建立能夠相互通信的集群; (2)建立Hadoop平臺 對集群中的每個節點配置Hadoop0.20.2文件,通過文件中屬性參數dfs.namenode和dfs.datanode的設置,使集群中包含一個名字節點和多個數據節點;通過文件中屬性參數mapred.jobtracker和mapred.tasktracker的設置,使集群中包含一個調度節點和多個任務節點,建立開源的Hadoop平臺; (3)上傳數據到集群 使用Hadoop分布式文件命令dfs-put將待聚類數據集上傳至Hadoop平臺的各個節點上; (4)初始聚類 采用KMeans聚類方法,對集群中節點上的數據進行初始粗略聚類,得到初始的聚類; (5)計算各聚類的參數和判別函數 5a)計算初始的聚類每一個類的均值; 5b)統計初始聚類每一 個類中數據的個數,用統計的數據個數除以待聚類數據集中數據的總數,得到初始聚類每一個類的權重; 5c)計算初始的聚類每一個類的方差; 5d)計算判別函數 按照下式計算高斯概率密度值: n _ exp(-(x - U1-1 (χ - %) / 2) [χ, I 其中,G表示高斯概率密度的值,χ表示待聚類數據集中的任意一個向量數據,Ui表示第i個類的均值,i表示聚類中的第i個類,Σ ,表示第i個類的方差,exp表示以e為底的指數運算; 按照下式計算判別函數的值: 其中,L表示判別函數值,χ表示待聚類數據集中的任意一個向量數據,D表示待聚類數據集,K表示聚類中類的個數,i表示聚類中的第i個類,Pi表示第i個類在聚類中的權重,G表示第i個類的高斯概率密度值,Ui表示第i個類的均值,Σ i表示第i個類的方差; (6)判斷聚類是否完成 判斷判別函數的值是否在設定域值之內,若在閾值內,則聚類結束,執行步驟(10),若不在閾值內,表示聚類尚未結束,執行步驟(7); (7)重新聚類 7a)啟動第一個Map任務,掃描待聚類數據集,每次讀入一條數據; 7b...
【專利技術屬性】
技術研發人員:崔江濤,李林,司蓁,彭延國,史瑋,陳煜,崔小利,王博,
申請(專利權)人:西安電子科技大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。