【技術實現步驟摘要】
本專利技術涉及計算機技術,尤其涉及一種。
技術介紹
隨著數據密集型計算的迅速發展,國內外互聯網公司的核心業務越來越多地需要通過大規模數據處理進行支持。在需要對海量數據進行處理的應用場景下,開源實現的分布式系統基礎架構(Hadoop)得到了快速的發展。在Hadoop 分布式文件系統(Hadoop Distributed File System,HDFS)之上,進一步地實現了映射化簡(MapReduce)框架。目前Hadoop平臺的MapReduce系統,對作業的執行一般包括執行映射任務(Map Task)和化簡任務(Reduce Task)兩個階段。對于MapReduce 系統中作業的執行時間的預測,可以用來支持高效的調度策略,還可以作為對執行作業過程進行優化的依據。但是,現有技術中對MapReduce系統中作業的執行 時間進行預測時,將整個 MapReduce系統作為黑盒進行考慮,因此,目前對MapReduce系統中作業的執行時間進行預測的方法,存在準確率較低的問題。
技術實現思路
本專利技術提供一種,用于解決在對MapReduce作業的執行時間進行預測時,準確率較低的問題。本專利技術的第一個方面是提供一種,包括對輸入虛擬系統的MapReduce作業進行監測,獲取所述MapReduce作業輸入映射 Map函數的參數信息,輸出Map函數的參數信息和輸出化簡Reduce函數的參數信息、在Map 函數中的實際執行時間以及在Reduce函數中的實際執行時間;根據所述輸入Map函數的參數信息、所述輸出Map函數的參數信息以及所述在Map 函數中的實際執行時間,獲得Ma ...
【技術保護點】
一種映射化簡MapReduce作業執行時間預測方法,其特征在于,包括:對輸入虛擬系統的MapReduce作業進行監測,獲取所述MapReduce作業輸入映射Map函數的參數信息,輸出Map函數的參數信息和輸出化簡Reduce函數的參數信息、在Map函數中的實際執行時間以及在Reduce函數中的實際執行時間;根據所述輸入Map函數的參數信息、所述輸出Map函數的參數信息以及所述在Map函數中的實際執行時間,獲得Map任務執行時間預測值;根據所述輸出Map函數的參數信息、所述輸出Reduce函數的參數信息以及所述在Reduce函數中的實際執行時間,獲得Reduce任務執行時間預測值;根據所述Map任務執行時間預測值和所述Reduce任務執行時間預測值,獲得所述MapReduce作業執行時間的預測值。
【技術特征摘要】
1.一種映射化簡MapReduce作業執行時間預測方法,其特征在于,包括 對輸入虛擬系統的MapReduce作業進行監測,獲取所述MapReduce作業輸入映射Map函數的參數信息,輸出Map函數的參數信息和輸出化簡Reduce函數的參數信息、在Map函數中的實際執行時間以及在Reduce函數中的實際執行時間; 根據所述輸入Map函數的參數信息、所述輸出Map函數的參數信息以及所述在Map函數中的實際執行時間,獲得Map任務執行時間預測值; 根據所述輸出Map函數的參數信息、所述輸出Reduce函數的參數信息以及所述在Reduce函數中的實際執行時間,獲得Reduce任務執行時間預測值; 根據所述Map任務執行時間預測值和所述Reduce任務執行時間預測值,獲得所述MapReduce作業執行時間的預測值。2.根據權利要求1所述的MapReduce作業執行時間預測方法,其特征在于,所述輸入Map函數的參數信息包括輸入Map函數的數據量;所述輸出Map函數的參數信息包括輸出Map函數的數據量和輸出Map函數的記錄數;所述輸出Reduce函數的參數信息包括輸出Reduce函數的數據量。3.根據權利要求2所述的MapReduce作業執行時間預測方法,其特征在于,所述根據所述輸入Map函數的參數信息、所述輸出Map函數的參數信息以及所述在Map函數中的實際執行時間,獲得Map任務執行時間預測值具體為 利用所述輸入Map函數的數據量除以磁盤順序讀的速率,獲得讀入Map函數的時間;利用所述在Map函數中的實際執行時間除以標準作業在所述虛擬系統的Map函數中的實際執行時間,獲得Map函數的計算復雜度,所述標準作業是與所述MapReduce作業對應的; 利用所述Map函數的計算復雜度乘以所述標準作業在實際系統的Map函數中的實際執行時間,獲得執行Map函數的時間;利用所述輸出Map函數的記錄數乘以對所述輸出Map函數的記錄數進行對數運算后的數值,再乘以排序比例系數,獲得Map函數的排序時間,所述排序比例系數為預設數值;利用所述輸出Map函數的數據量除以磁盤順序寫的速率,獲得輸出Map函數的時間;根據Map函數的初始化時間、所述讀入Map函數的時間、所述執行Map函數的時間、所述Map函數的排序時間和所述輸出Map函數的時間,獲得所述Map任務執行時間預測值。4.根據權利要求2所述的MapReduce作業執行時間預測方法,其特征在于,所述根據所述輸出Map函數的參數信息、所述輸出Reduce函數的參數信息以及所述在Reduce函數中的實際執行時間,獲得Reduce任務執行時間預測值具體為 利用所述輸出Map函數的數據量乘以Map任務個數,再除以所述...
【專利技術屬性】
技術研發人員:林學練,孟子德,沃天宇,宋鴿,隨培培,
申請(專利權)人:北京航空航天大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。