• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種支持分布式計算的關(guān)聯(lián)規(guī)則挖掘算法實現(xiàn)方法及裝置制造方法及圖紙

    技術(shù)編號:8366777 閱讀:197 留言:0更新日期:2013-02-28 05:20
    本發(fā)明專利技術(shù)公開了一種支持分布式計算的關(guān)聯(lián)規(guī)則挖掘算法實現(xiàn)方法及裝置,用HDFS的編程模型對關(guān)聯(lián)規(guī)則挖掘算法PA進(jìn)行map函數(shù)階段和reduce函數(shù)階段的兩階段分解:步驟一:配置作業(yè)調(diào)度器;步驟二:用先驗概率映射模塊讀取數(shù)據(jù)集,并通過map函數(shù)將數(shù)據(jù)集的數(shù)據(jù)行轉(zhuǎn)換為鍵值對;步驟三:用先驗概率約簡模塊讀取步驟二處理的鍵值對,并通過reduce函數(shù)隨機生成包含i項集的排序規(guī)則TopN,同時計算置信度的先驗概率分布值;步驟四:再用規(guī)則映射模塊讀取同一個數(shù)據(jù)集,并再次通過map函數(shù)將數(shù)據(jù)集的數(shù)據(jù)行轉(zhuǎn)換為鍵值對;步驟五:再用規(guī)則約簡模塊讀取步驟四處理的鍵值對和步驟三的先驗概率分布值,并通過reduce函數(shù)計算出排序規(guī)則TopN的預(yù)測精度值。主要用于PA分布式計算技術(shù)中。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及計算機
    ,尤其涉及一種支持分布式計算的關(guān)聯(lián)規(guī)則挖掘算法實現(xiàn)方法及裝置
    技術(shù)介紹
    隨著“大數(shù)據(jù)”時代的到來,企業(yè)業(yè)務(wù)數(shù)據(jù)量激增,數(shù)據(jù)分析師都在嘗試各種數(shù)據(jù)分析方法以及數(shù)據(jù)挖掘方法,旨在希望能夠從海量數(shù)據(jù)中發(fā)掘潛在的、具有業(yè)務(wù)價值的用戶行為模式。數(shù)據(jù)挖掘通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。另外,本專利技術(shù)中提到的大數(shù)據(jù)、海量數(shù)據(jù)、數(shù)據(jù)集的含義相同。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘方法中一種被廣泛采用的且具有影響力的方法,它能夠用在各種推薦系統(tǒng)中為用戶推薦感興趣的物品。目前能夠使用的各種版本的關(guān)聯(lián)規(guī)則挖掘算法都是單機形式,面對大數(shù)據(jù)量情況都顯得無能為力,很多場景下也只是采樣部分業(yè)務(wù)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則的查找。1993年,R. Agrawal等人首次提出了挖掘顧客交易數(shù)據(jù)中項目集間的關(guān)聯(lián)規(guī)則問題,其核心是基于兩階段頻繁集思想的遞推算法。第一步通過迭代,檢索出事務(wù)數(shù)據(jù)庫中的所有頻繁項集,頻繁項集即支持度不低于用戶設(shè)定的閾值的項集;第二步利用頻繁項集構(gòu)造出滿足用戶最小信任度的規(guī)則。其中,挖掘或識別出所有頻繁項集是該算法的核心,占整個計算量的大部分。頻繁項集項的集合稱為項集。項集的出現(xiàn)頻率(支持計數(shù))是項集的事務(wù)數(shù),簡稱為項集的頻率,支持率計數(shù)或者計數(shù)。如果項集的相對出現(xiàn)頻率大于等于預(yù)定義的最小支持度閾值,則是頻繁項集。2001年Tobias從貝葉斯統(tǒng)計角度提出了基于預(yù)測精度的關(guān)聯(lián)規(guī)則模型,并給出了相應(yīng)的關(guān)聯(lián)規(guī)則挖掘算法PredictiveApriori,簡稱PA算法。PA算法只需要設(shè)定輸出最好的η個規(guī)則,就可以挖掘出η個預(yù)測精度最大的規(guī)則。PA算法主要通過不斷增大規(guī)則前項支持度和觀察置信度來逐步逼近獲得最大預(yù)測精度Ε,從而返回η個最好的關(guān)聯(lián)規(guī)則。通過前項支持度和規(guī)則的置信度來量化期望預(yù)測精度Ε,同時支持度可以修正規(guī)則的置信度。這樣綜合考慮了支持度和置信度對關(guān)聯(lián)規(guī)則的預(yù)測精度的影響。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個階段第一階段必須先從數(shù)據(jù)集合中找出所有的頻繁項集,第二階段再由這些頻繁項集中產(chǎn)生關(guān)聯(lián)規(guī)則。Hadoop不僅僅是一個用于存儲的分布式文件系統(tǒng),而且還是一個分布式系統(tǒng)基礎(chǔ)框架,用戶可以在不了解分布式底模塊細(xì)節(jié)的情況下,開發(fā)分布式程序。Hadoop充分利用集群的威力進(jìn)行高速運算和存儲,實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed FileSystem),簡稱HDFS。HDFS存儲hadoop集群中所有存儲節(jié)點上的文件。HDFS有著高容錯性的特點,并且能夠設(shè)計部署在低廉的硬件上,它以流式數(shù)據(jù)訪問模式來存儲超大文件。而且Hadoop提供高傳輸率來訪問應(yīng)用程序的數(shù)據(jù)。因此,Hadoop適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。Hadoop由許多元素構(gòu)成,其最底模塊部是分布式文件系統(tǒng),該分布式文件系統(tǒng)存儲Hadoop集群中所有存儲節(jié)點上的文件。該分布式文件系統(tǒng)的上一層是編程模型MapReduce。編程模型MapReduce的優(yōu)勢在于處理大規(guī)模數(shù)據(jù),用于對大規(guī)模數(shù)據(jù)集(大于ITB)的并行運算。編程模型MapReduce的設(shè)計目標(biāo)是方便編程人員在不熟悉分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。編程模型MapReduce實現(xiàn)了 map函數(shù)和reduce函數(shù)的功能。map函數(shù)把一個函數(shù)應(yīng)用于集合中的所有成員,然后返回一個基于這個處理的結(jié)果集。而reduce函數(shù)是把從兩個或更多個map函數(shù)中通過多個線程、進(jìn)程或者獨立系統(tǒng)并行執(zhí)行處理的結(jié)果集進(jìn)行分類和歸納。map函數(shù)和reduce函數(shù)可能會并行運行,即使不是在同一個系統(tǒng)的同一時刻也可能會并行運行。在關(guān)聯(lián)規(guī)則挖掘方面,現(xiàn)有技術(shù)方案都是基于單機形式設(shè)計。基于單機形式實現(xiàn) 的關(guān)聯(lián)規(guī)則挖掘算法PA在針對小數(shù)據(jù)量的情況(比如十萬級)能夠比較好的進(jìn)行規(guī)則挖掘。但是,現(xiàn)有技術(shù)僅用于實驗室,很難應(yīng)用到企業(yè)級業(yè)務(wù),特別是互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)行業(yè),業(yè)務(wù)數(shù)據(jù)量每天動輒千萬級甚至億級,這些現(xiàn)有技術(shù)工具已經(jīng)顯得無能為力。在大數(shù)據(jù)量情況下,單機版的關(guān)聯(lián)規(guī)則挖掘算法PA需要花費大量時間計算規(guī)則的前項,甚至有時根本計算不出來。中國專利公開號CNlO 1042698,公開日是2007年09月26日,名稱為“一種關(guān)聯(lián)規(guī)則及元規(guī)則的綜合挖掘方法”的方案中公開了一種關(guān)聯(lián)規(guī)則及元規(guī)則的綜合挖掘方法,包括如下步驟,將時序數(shù)據(jù)庫按照時間片斷劃分成若干部分;依次對各個部分分別掃描,并在各個部分分別形成頻繁項集;再次分別掃描各部分,形成頻繁項集超結(jié)構(gòu);采用遞歸分解法形成完全超結(jié)構(gòu);挖掘超結(jié)構(gòu)形成關(guān)聯(lián)規(guī)則及元規(guī)則。不足之處是,這種關(guān)聯(lián)規(guī)則及元規(guī)則的綜合挖掘方法是基于單機形式設(shè)計來實現(xiàn)的關(guān)聯(lián)規(guī)則挖掘算法PA,該方法很難應(yīng)用到業(yè)務(wù)數(shù)據(jù)量每天動輒千萬級甚至億級的企業(yè)級業(yè)務(wù)。
    技術(shù)實現(xiàn)思路
    本專利技術(shù)是為了針對現(xiàn)有技術(shù)無法處理海量數(shù)據(jù)挖掘,計算效率非常慢以及規(guī)則挖掘結(jié)果不夠全面的這些不足,結(jié)合PA關(guān)聯(lián)算法和Hadoop分布式計算框架,提供一種能夠處理海量數(shù)據(jù)挖掘,計算效率非常快,能夠較為全面的快速高效的從海量業(yè)務(wù)數(shù)據(jù)中挖掘出用于業(yè)務(wù)支撐的關(guān)聯(lián)規(guī)則結(jié)果的一種支持分布式計算的關(guān)聯(lián)規(guī)則挖掘算法實現(xiàn)方法及裝置。為了實現(xiàn)上述目的,本專利技術(shù)提供一種支持分布式計算的關(guān)聯(lián)規(guī)則挖掘算法實現(xiàn)方法,該方法利用分布式文件系統(tǒng)Hadoop的編程模型MapReduce對關(guān)聯(lián)規(guī)則挖掘算法PA進(jìn)行map函數(shù)階段和reduce函數(shù)階段的兩階段分解,其分解步驟為 步驟一配置作業(yè)調(diào)度器Recomjob ; 步驟二 用先驗概率映射模塊PriorMap讀取數(shù)據(jù)集,并通過map函數(shù)將數(shù)據(jù)集的數(shù)據(jù)行轉(zhuǎn)換為鍵值對; 步驟三用先驗概率約簡模塊PriorReduce讀取步驟二處理的鍵值對,并通過reduce函數(shù)隨機生成包含i項集的排序規(guī)則ΤορΝ,同時計算置信度的先驗概率分布值; 步驟四再用規(guī)則映射模塊ParMap讀取同一個數(shù)據(jù)集,并再次通過map函數(shù)將數(shù)據(jù)集的數(shù)據(jù)行轉(zhuǎn)換為鍵值對; 步驟五再用規(guī)則約簡模塊ParReduce讀取步驟四處理的鍵值對和步驟三的先驗概率分布值,并通過reduce函數(shù)計算出排序規(guī)則TopN的預(yù)測精度值。本方案借助Hadoop分布式文件系統(tǒng)框架來對大數(shù)據(jù)進(jìn)行處理,通過編程模型MapReduce,對關(guān)聯(lián)規(guī)則挖掘算法PA進(jìn)行map函數(shù)階段和reduce函數(shù)階段的兩階段分解,大數(shù)據(jù)被分散到計算集群的多臺機器,計算過程分解成大量小的作業(yè)任務(wù),實現(xiàn)關(guān)聯(lián)規(guī)則挖掘算法PA快速高效的分布式并行計算。從而能夠處理海量數(shù)據(jù)挖掘,計算效率非常快,能夠較為全面的快速高效的從海量業(yè)務(wù)數(shù)據(jù)中挖掘出用于業(yè)務(wù)支撐的關(guān)聯(lián)規(guī)則結(jié)果。相應(yīng)地,本專利技術(shù)提供一種支持分布式計算的關(guān)聯(lián)規(guī)則挖掘算法實現(xiàn)裝置,包括 業(yè)務(wù)單元,用于根據(jù)業(yè)務(wù)需要,讀取存儲單元中的數(shù)據(jù)和算法單元中的預(yù)測精度值,并把數(shù)據(jù)和預(yù)測精度值展示在業(yè)務(wù)中; 存儲單元,用于存本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護點】
    一種支持分布式計算的關(guān)聯(lián)規(guī)則挖掘算法實現(xiàn)方法,其特征在于,用分布式文件系統(tǒng)HDFS的編程模型MapReduce對關(guān)聯(lián)規(guī)則挖掘算法PA進(jìn)行map函數(shù)階段和reduce函數(shù)階段的兩階段分解,其分解步驟為:步驟一:配置作業(yè)調(diào)度器Recomjob;步驟二:用先驗概率映射模塊PriorMap讀取數(shù)據(jù)集,并通過map函數(shù)將數(shù)據(jù)集的數(shù)據(jù)行轉(zhuǎn)換為鍵值對;步驟三:用先驗概率約簡模塊PriorReduce讀取步驟二處理的鍵值對,并通過reduce函數(shù)隨機生成包含i項集的排序規(guī)則TopN,同時計算置信度的先驗概率分布值;步驟四:再用規(guī)則映射模塊ParMap讀取同一個數(shù)據(jù)集,并再次通過map函數(shù)將數(shù)據(jù)集的數(shù)據(jù)行轉(zhuǎn)換為鍵值對;步驟五:再用規(guī)則約簡模塊ParReduce讀取步驟四處理的鍵值對和步驟三的先驗概率分布值,并通過reduce函數(shù)計算出排序規(guī)則TopN的預(yù)測精度值。

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:楊進(jìn)張金偉
    申請(專利權(quán))人:杭州斯凱網(wǎng)絡(luò)科技有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av日韩aⅴ无码色老头| MM1313亚洲精品无码久久| 无码激情做a爰片毛片AV片| 亚洲精品无码永久在线观看| 中文字幕日韩精品无码内射| 中文字幕无码视频手机免费看| 无码人妻av一区二区三区蜜臀| 亚洲VA成无码人在线观看天堂| 永久免费av无码不卡在线观看| 亚洲精品无码永久在线观看| 亚洲AV成人片无码网站| 内射人妻少妇无码一本一道| 制服在线无码专区| 国产精品免费无遮挡无码永久视频| 无码国产精品一区二区免费I6| 亚洲美免无码中文字幕在线| 亚洲色无码一区二区三区| 色国产色无码色欧美色在线| 久久精品成人无码观看56| YY111111少妇无码理论片| 亚洲va成无码人在线观看| 无码内射中文字幕岛国片| 久久久久久国产精品无码下载| 欧洲黑大粗无码免费| 亚洲AV永久无码天堂影院| 日韩精品无码一区二区三区免费 | 久久久久无码精品国产h动漫| 狠狠躁天天躁无码中文字幕图| 精品亚洲av无码一区二区柚蜜| 亚洲AV无码AV日韩AV网站| 久久久久无码精品国产不卡| 亚洲va中文字幕无码久久 | 成人av片无码免费天天看| 99久无码中文字幕一本久道| 亚洲AV无码一区二区三区性色| 亚洲AV无码乱码在线观看代蜜桃| 日韩精品无码一区二区三区不卡| 精品无码AV无码免费专区| 亚洲VA成无码人在线观看天堂 | 国产精品午夜无码体验区| 啊灬啊别停灬用力啊无码视频|