一種HDFS運行時數據塊平衡方法技術

技術編號：8347867 閱讀：379 留言：0更新日期：2013-02-21 01:13

本發明專利技術公開了一種HDFS運行時數據塊平衡方法，該方法首先對節點本地任務列表進行預處理，為每一個節點劃分出完成本地任務和非完全本地任務，以提供啟動HDFS數據塊平衡判斷的依據。接著對各個節點的運行速率就行評估和任務請求預測。完成以上步驟之后對各個節點的分配過程進行設計和實現。之后選擇合適的節點間進行數據塊的移動，從而數據塊的分布就可以匹配預測的節點任務請求序列，最終達到數據塊平衡的目的。本發明專利技術提出基于運行時數據塊移動HDFS平衡策略，通過預測節點任務請求提前判斷可能出現的非本地map任務執行，并在相應的節點間移動合適的數據塊，使得節點發出實際任務請求時候能夠得到本地map任務的分配響應，從而提高Map階段的完成效率。

全部詳細技術資料下載

【技術實現步驟摘要】
一種HDFS運行時數據塊平衡方法
本專利技術屬于計算機
，涉及一種數據塊平衡方法，尤其是一種云計算環境下HDFS (Hadoop Distributed File System)在運行過程中數據塊平衡方法。
技術介紹
Hadoop是由Apache開源組織開發的一個高可靠性和高可擴展性的存儲與分布式并行計算平臺，最早是作為開源搜索引擎項目Nutch的基礎平臺而開發的，之后從Nutch項目中獨立出來，成為典型的開源云計算平臺之一。Hadoop核心實現了按塊存儲的分布式文件系統(Hadoop Distributed File System,HDFS)以及用于分布式計算的MapReduce計算模型。HDFS為Hadoop集群提供由眾多節點組成的存儲系統，在存儲大規模數據文件時，會將文件切分成多個相同大小的數據塊(最后一份數據塊例外)，分布在集群中所有節點上。為了保證可靠性，HDFS會依據配置為每一份數據塊創建多個副本，并放置在集群的不同節點上。HDFS為上層MapReduce計算引擎提供數據存儲服務。Hadoop MapReduce將應用劃分成許多小任務并行執行，每個小任務就對計算節點本地存儲的數據塊進行處理。HDFS文件系統采用分塊機制分布式存儲數據集，并通過數據塊冗余策略來提高系統可靠性，每個數據塊在系統中都有多個副本同時存在，這些副本分布在系統中多個機架內的多個節點上，防止因單個節點出現故障造成數據塊的丟失。此外，這種分布式冗余機制能保證文件的并發讀取，使得HDFS更適合“一次寫，多次讀”的數據處理模式。為實現這種數據塊冗余策略，HDFS文件系統在寫...

【技術保護點】
一種HDFS運行時數據塊平衡方法，其特征在于，包括以下步驟：1）節點本地任務列表預處理1.1提出完全本地任務和非完全本地任務：當HDFS的各個數據塊存在多個副本的時候，導致同一個任務會出現在不同節點的本地Map任務列表中，從而某個節點本地任務列表中剩余的map任務數n，意味著該節點能夠分配執行的本地任務數是n；1.2節點本地任務列表的預處理過程：當各個節點依次發出任務請求時，從節點的本地任務列表中獲取當前可執行的任務加入到節點的完全本地任務列表中，而本地任務列表中未被分配的任務則加入到非完全本地任務列表中；2）節點運行時信息統計通過設計NodeEvaluateInfo類來實現：在該類中統計節點已經處理的數據塊總數sum、節點已處理數據塊總耗時cost和作業的執行進度tip，知道以上信息后計算節點平均塊處理時間cost/sum、節點當前運行任務剩余時間（1？tip）/（cost/sum）；3）節點速率評估與任務請求序列預測3.1節點速率的評估：由步驟2），采用COSTi/NUMi來表示各個節點的數據處理速率，即節點處理單個任務的平均耗時；其中，NUMi為某一時刻節點i已完成的本地map任...

【技術特征摘要】

【專利技術屬性】
技術研發人員：曹海軍，伍衛國，董小社，樊源泉，魏偉，朱霍，
申請(專利權)人：西安交通大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

不平衡數據處理方法技術