【技術實現步驟摘要】
本專利技術涉及分布式文件系統,更具體地,涉及基于分布式文件系統的MapReduce應用的相關參數的配置方法和裝置。
技術介紹
分布式文件系統(DistributedFileSystem)是指文件系統管理的物理存儲資源不一定直接連接在本地節點上,而是通過計算機網絡與節點相連。分布式文件系統的設計基于客戶機/服務器模式。一個典型的網絡可能包括多個供多用戶訪問的服務器。MapReduce是Google公司提出的一種用于大規模并行編程的軟件架構。由于MapReduce架構可以實現大規模數據集(大于1TB)的并行運算,并通過把對數據集的大規模操作分發給網絡上的多個節點進行并行運算來實現伸縮性,因此被分布式文件系統廣泛應用。概念“Map(映射)”和“Reduce(化簡)”及其主要思想,都是從函數式編程語言借來的。當前的MapReduce中間件實現要求應用開發者指定一個Map(映射)函數,用來把一組鍵值對映射成一些新的鍵值對(key-valuepair),稱作中間鍵值對;此外還要求應用開發者指定一個Reduce(化簡)函數,用來對Map函數輸出的中間鍵值對進行進一步處理。分布式文件系統需要將劃分的文件塊存儲在多個計算節點上,并且需要將每個文件塊復制為多個副本保存在不同的計算節點上,由此,對多個計算節點的文件塊進行讀寫操作時就不可避免地產生了文件傳輸的網絡開銷以及盡量對本地節點的數據塊進行讀寫操作的本地化 ...
【技術保護點】
一種基于分布式文件系統的MapReduce應用的相關參數的配置方法,包括:接收第一MapReduce作業的處理請求;獲取歷史MapReduce作業的作業特征屬性;從所述歷史MapReduce作業的作業特征屬性中查找到與所述第一MapReduce作業相關的第二MapReduce作業的作業特征屬性;根據所述第二MapReduce作業的作業特征屬性配置所述第一MapReduce作業的相關參數。
【技術特征摘要】
1.一種基于分布式文件系統的MapReduce應用的相關參數的配置方
法,包括:
接收第一MapReduce作業的處理請求;
獲取歷史MapReduce作業的作業特征屬性;
從所述歷史MapReduce作業的作業特征屬性中查找到與所述第一
MapReduce作業相關的第二MapReduce作業的作業特征屬性;
根據所述第二MapReduce作業的作業特征屬性配置所述第一
MapReduce作業的相關參數。
2.根據權利要求1所述的方法,其中所述歷史MapReduce作業的
作業特征屬性包括歷史MapReduce作業的作業名稱和以下中的至少一
個:輸入文件的路徑、輸入文件的大小、輸出文件的路徑、輸出文件的
大小、Map任務數和Reduce任務數。
3.根據權利要求1所述的方法,如果所述第一MapReduce作業是數據
生成類型,則從所述歷史MapReduce作業的作業特征屬性中查找與所述
第一MapReduce作業相關的第二MapReduce作業進一步包括:
從所述歷史MapReduce作業的作業特征屬性中查找到與所述第一
MapReduce作業相似的第三MapReduce作業;
從歷史MapReduce作業的作業特征屬性中查找到以所述第三
MapReduce的輸出文件作為輸入文件的第二MapReduce作業。
4.根據權利要求1所述的方法,如果所述第一MapReduce作業是數
據消費類型,
則從所述歷史MapReduce作業的作業特征屬性中查找到與所述第一
MapReduce作業相關的第二MapReduce作業進一步包括:
從所述歷史MapReduce作業的作業特征屬性中查找到與所述第一
MapReduce作業相似的第二MapReduce作業。
5.根據權利要求3或4所述的方法,其中根據所述第二MapReduce
作業的作業特征屬性配置所述第一MapReduce作業的相關參數進一步包
括:
根據所述第二MapReduce作業的輸入文件的分片大小劃分所述第一
MapReduce作業的輸入文件的數據塊大小。
6.根據權利要求5所述的方法,其中根據所述第二MapReduce作業
的輸入文件的分片大小劃分所述第一MapReduce作業的輸入文件的數據
塊大小包括:將所述第一MapReduce作業的輸入文件的數據塊大小配置
為所述第二MapReduce作業的輸入數據分片大小的整數倍。
7.根據權利要求6所述的方法,其中根據所述第二MapReduce作業
的作業特征屬性配置所述第一MapReduce作業的相關參數進一步包括:
根據所述第二MapReduce作業的輸入文件的分片大小確定所述第一
MapReduce作業的Map任務數或Reduce任務數。
8.根據權利要求7所述的方法,其中根據所述第二MapReduce作業
的輸入文件的分片大小確定所述第一MapReduce作業的Map任務數或
Reduce任務數進一步包括:
獲取處理所述第一MapReduce作業的計算節點數和對應于每個計算
節點的資源槽的數目;
將所述第一MapReduce作業的Map任務數或Reduce任務數配置為所
有計算節點的資源槽的總數的整數倍。
9.根據權利要求3所述的方法,其中從所述歷史MapReduce作業的
作業特征屬性中查找到與所述第一MapReduce作業相似的第三
MapReduce作業包括:
以所述第一MapReduce作業的作業名稱作為關鍵字在所述歷史
MapReduce作業的作業特征屬性中進行查找;
響應于查找到一個與所述第一MapReduce作業具有相同作業名稱
的歷史MapReduce作業,則確定該歷史MapReduce作業為所述第三
MapReduce作業;
響應于查找到多個具有相同作業名的歷史MapReduce作業,則根據
以下的至少之一確定與第一MapReduce作業相似的第三MapReduce作
業:輸出文件的路徑、輸出文件的大小和計算節點數目。
10.根據權利要求4所述的方法,其中從所述歷史MapReduce作業的
作業特征屬性中查找到與所述第一MapReduce作業相似的第二
MapReduce作業進一步包括:以所述第一MapReduce作業的作業名稱作
為關鍵字在所述歷史MapReduce作業的作業特征屬性中進行查找;
響應于查找到一個與所述第一MapReduce作業具有相同作業名稱
的歷史MapReduce作業,則確定該歷史MapReduce作業為所述第二
MapReduce作業;
響應于查找到多個具有相同作業名的歷史MapReduce作業,則根據
以下的至少之一確定與第一MapReduce作業相似的第二MapReduce作
業:輸入文件的路徑、輸出文件的大小和計算節點數。
11.根據權利要求3所述的方法,還包括根據所述第三MapReduce作
業的Map任務數確定所述第一MapReduce作業的Map任務數。
12.根據權利要求4所述的方法,還包括根據所述第二MapReduce作
業的Map任...
【專利技術屬性】
技術研發人員:鄒嘉,史巨偉,鄭勇,王晨,劉杰,
申請(專利權)人:國際商業機器公司,
類型:發明
國別省市:美國;US
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。