The present invention relates to a FP Growth algorithm, particularly relates to a method and device for improved FP Growth algorithm based on FPGA algorithm, belonging to the field of learning machine, the first scan in Spark cluster database, obtaining frequent itemsets; the frequent itemsets are grouped into Spark clusters; in each node with a FPGA boards; set to build FP tree for each frequent item in the FPGA board; recursive mining for each set of FP tree; merging results each group of recursive mining. The invention improves the efficiency of FP Growth algorithm, to improve the computing ability of single node Spark cluster by adding FPGA in cluster nodes, while retaining its parallel Spark cluster computing framework, effectively improve the overall performance of the FP Growth algorithm under the big data environment.
【技術實現步驟摘要】
基于FPGA的FP-Growth算法的改進方法及裝置
本專利技術涉及機器學習算法處理領域,尤其涉及基于FPGA的FP-Growth算法的改進方法及裝置。
技術介紹
基于Spark平臺的FP-Growth算法采用MapReduce分布式計算模型、立足于內存計算,實現了該算法的并行化,在一定程度上提升了該算法的挖掘效率;然而隨著大數據時代的到來,科學和工程計算領域的數據量急劇增長,計算復雜度不斷增加,給基于Spark平臺的FP-Growth算法的計算性能帶來了極大挑戰。由于單節點處理能力有限,Spark通過擴展集群節點規模來實現算法性能的提升;而這種集群擴展不僅使得系統成本和能耗快速增加,而且使得集群網絡復雜度和節點間的數據傳輸開銷急劇上升,降低了集群擴展帶來的計算性能增益。如何才能解決上述問題,增強單節點處理能力、進而減少計算集群快速擴張帶來的網絡傳輸開銷,最終實現FP-Growth算法的性能提升成為亟待解決的熱點問題。
技術實現思路
本專利技術提供的基于FPGA的FP-Growth算法的改進方法及裝置,克服了現有技術中存在的不足,顯著的提升了FP-Growth算法的計算性能。為了達到上述目的,本專利技術是通過以下技術方案實現的:本專利技術提供一種基于FPGA的FP-Growth算法的改進方法,包括以下步驟:掃描Spark集群中的數據庫,獲取頻繁項集;將頻繁項集進行分組;為Spark集群中的每個節點加配一塊FPGA板卡;在FPGA板卡上對每一組的頻繁項集建FP樹;在FPGA板卡上對每一組建的FP樹進行遞歸挖掘;將每一組遞歸挖掘的結果進行合并。進一步地,將頻繁項集 ...
【技術保護點】
一種基于FPGA的FP?Growth算法的改進方法,其特征在于,包括以下步驟:掃描Spark集群中的數據庫,獲取頻繁項集;將頻繁項集進行分組;為Spark集群中的每個節點加配一塊FPGA板卡;在FPGA板卡上對每一組的頻繁項集建FP樹;在FPGA板卡上對每一組建的FP樹進行遞歸挖掘;將每一組遞歸挖掘的結果進行合并。
【技術特征摘要】
1.一種基于FPGA的FP-Growth算法的改進方法,其特征在于,包括以下步驟:掃描Spark集群中的數據庫,獲取頻繁項集;將頻繁項集進行分組;為Spark集群中的每個節點加配一塊FPGA板卡;在FPGA板卡上對每一組的頻繁項集建FP樹;在FPGA板卡上對每一組建的FP樹進行遞歸挖掘;將每一組遞歸挖掘的結果進行合并。2.根據權利要求1所述的基于FPGA的FP-Growth算法的改進方法,其特征在于,將頻繁項集進行分組,包括:將其按頻繁1-項集順序遞減排列;根據數據庫的大小確定分組個數,按照預先設定的分組規則將其分為若干組。3.根據權利要求1所述的基于FPGA的FP-Growth算法的改進方法,其特征在于,在FPGA板卡對每一組建FP樹,包括:建立一個根節點為NULL的FP樹和一個存儲節點信息的Tab表;將頻繁項表中的每條處理好的事務中的數據項按降序依次插入到FP樹中,構建出FP樹的一條路徑;在上述的插入過程中,同時用Tab的指針指向對應項的節點,并將每個節點的計數增加1。4.根據權利要求3所述的基于FPGA的FP-Gro...
【專利技術屬性】
技術研發人員:曹芳,陳繼承,王洪偉,
申請(專利權)人:鄭州云海信息技術有限公司,
類型:發明
國別省市:河南,41
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。