• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    MapReduce作業執行時間預測方法技術

    技術編號:8532686 閱讀:794 留言:0更新日期:2013-04-04 15:36
    本發明專利技術提供一種Map?Reduce作業執行時間預測方法,包括對輸入虛擬系統的Map?Reduce作業進行監測,獲取Map?Reduce作業輸入映射Map函數的參數信息,輸出Map函數的參數信息和輸出化簡Reduce函數的參數信息、在Map函數中以及在Reduce函數中的實際執行時間;根據輸入Map函數的參數信息、輸出Map函數的參數信息以及在Map函數中的實際執行時間,獲得Map任務執行時間預測值;根據輸出Map函數的參數信息、輸出Reduce函數的參數信息以及在Reduce函數中的實際執行時間,獲得Reduce任務執行時間預測值;根據Map任務執行時間預測值和Reduce任務執行時間預測值,獲得MapReduce作業執行時間的預測值。針對執行Map任務時和執行Reduce任務時的執行時間進行預測,有效地提高了預測的準確率。

    【技術實現步驟摘要】

    本專利技術涉及計算機技術,尤其涉及一種。
    技術介紹
    隨著數據密集型計算的迅速發展,國內外互聯網公司的核心業務越來越多地需要通過大規模數據處理進行支持。在需要對海量數據進行處理的應用場景下,開源實現的分布式系統基礎架構(Hadoop)得到了快速的發展。在Hadoop 分布式文件系統(Hadoop Distributed File System,HDFS)之上,進一步地實現了映射化簡(MapReduce)框架。目前Hadoop平臺的MapReduce系統,對作業的執行一般包括執行映射任務(Map Task)和化簡任務(Reduce Task)兩個階段。對于MapReduce 系統中作業的執行時間的預測,可以用來支持高效的調度策略,還可以作為對執行作業過程進行優化的依據。但是,現有技術中對MapReduce系統中作業的執行 時間進行預測時,將整個 MapReduce系統作為黑盒進行考慮,因此,目前對MapReduce系統中作業的執行時間進行預測的方法,存在準確率較低的問題。
    技術實現思路
    本專利技術提供一種,用于解決在對MapReduce作業的執行時間進行預測時,準確率較低的問題。本專利技術的第一個方面是提供一種,包括對輸入虛擬系統的MapReduce作業進行監測,獲取所述MapReduce作業輸入映射 Map函數的參數信息,輸出Map函數的參數信息和輸出化簡Reduce函數的參數信息、在Map 函數中的實際執行時間以及在Reduce函數中的實際執行時間;根據所述輸入Map函數的參數信息、所述輸出Map函數的參數信息以及所述在Map 函數中的實際執行時間,獲得Map任務執行時間預測值;根據所述輸出Map函數的參數信息、所述輸出Reduce函數的參數信息以及所述在 Reduce函數中的實際執行時間,獲得Reduce任務執行時間預測值;根據所述Map任務執行時間預測值和所述Reduce任務執行時間預測值,獲得所述 MapReduce作業執行時間的預測值。本專利技術實施例提供的,針對MapReduce作業運行的具體過程,分別針對執行Map任務時的執行時間和執行Reduce任務時的執行時間進行預測,有效地提高了對MapReduce作業執行時間預測的準確率,由于提供了 MapReduce作業在各階段中的執行時間,有利于為用戶提供合理分配系統資源的參考,以便合理地安排各MapReduce作業執彳丁順序,有利于提聞MapReduce系統的吞吐量,提聞系統資源的使用效率。附圖說明圖1為本專利技術實施例提供的的流程圖。具體實施方式MapReduce系統通過執行Map函數和Reduce函數,處理海量數據。Map任務和 Reduce任務均可以在小型計算機上執行,從而通過多臺小型計算機組成的計算機集群組成 Hadoop平臺,搭建MapReduce系統,完成對海量數據的處理。對于海量數據的處理任務而言,Hadoop平臺的系統資源有限,一個Hadoop平臺的 系統資源通常由多個用戶的多個MapReduce作業所共享,因此需要通過對MapReduce作業 的執行時間進行有效的預測,從而為各MapReduce作業合理地分配系統資源和作業的執行 順序,以便提高整個Hadoop平臺的吞吐量以及對系統資源的使用效率。圖1為本專利技術實施例提供的的流程圖,如圖1 所示,該方法包括步驟101、對輸入虛擬系統的MapReduce作業進行監測,獲取所述MapReduce作業 輸入映射Map函數的參數信息,輸出Map函數的參數信息和輸出化簡Reduce函數的參數信 息、在Map函數中的實際執行時間以及在Reduce函數中的實際執行時間。具體的,作業分析器可以為獨立的設備或模塊,也可以為設置在實際MapReduce 系統中的模塊或單元。作業分析器中設置有虛擬系統,通過虛擬系統實現MapReduce系 統的功能,對MapReduce作業進行處理。在對MapReduce作業進行處理的過程中,監測 MapReduce作業輸入Map函數的參數信息、輸出Map函數的參數信息、輸出Reduce函數的參 數信息以及在Map函數中的實際執行時間和在Reduce函數中的實際執行時間。由于作業分析器的主要工作是對MapReduce作業的執行時間進行預測,而預測的 前提是需要在作業分析器中對MapReduce作業進行運行,因此,為了能夠提高對MapReduce 作業運行的效率,更快速地預測出MapReduce作業的執行時間,本專利技術實施例中還包括一 種可選的實現方式,在所述對輸入虛擬系統的MapReduce作業進行監測之前,根據預設的 采樣率,對所述MapReduce作業進行采樣,獲得采樣后的MapReduce作業;相應地,對所述采 樣后的MapReduce作業進行監測。具體的,由于對MapReduce作業進行采樣,是為了提高對執行時間的預測效率,因 此,若將采樣率設置的過高,則在采樣過程中以及在對采樣得到的大量數據進行處理時,均 將消耗較多的系統資源。而大部分的MapReduce作業中的數據在格式上具有較高的相似 性,一個MapReduce作業由若干行的數據組成,在本專利技術實施例中將MapReduce作業的行數 稱為記錄數,將MapReduce作業的字節數稱為數據量。基于MapReduce作業這樣的特點,即 使采用較低的采樣率,仍能夠保證反映出MapReduce作業的整體情況。其中,作業分析器監測到的所述輸入Map函數的參數信息可以包括輸入Map函數 的數據量;所述輸出Map函數的參數信息可以包括輸出Map函數的數據量和輸出Map函數 的記錄數;所述輸出Reduce函數的參數信息可以包括輸出Reduce函數的數據量。在作業分析器對輸入的MapReduce作業進行采樣的情況下,輸入Map函數的數據 量為采樣后輸入Map函數的數據量除以采樣率所得到的數值,即根據采樣后的較少的數據 樣本,推導出采樣前的數據量,用于反映MapReduce作業的整體情況;輸出Map函數的記錄數為采樣后輸出Map函數的記錄數除以采樣率所到的數值,即根據采樣后較少的記錄數, 推導出采樣前的記錄數,用于反映MapReduce作業的整體情況;輸出Map函數的數據量為 采樣后輸出Map函數的數據量與采樣后輸入Map函數的數據量的比值,再與輸入Map函數 的數據量的乘積,通過采樣后的數據經過Map函數執行前后的數據量的比值,和采樣前的 輸入Map函數的數據量,推導出MapReduce作業整體經過Map函數執行后的數據量,即輸出 Map函數的數據量。輸出Reduce函數的數據量為采樣后輸出Reduce函數的數據量與采樣后輸入 Reduce函數的數據量的比值,再與輸入Reduce函數的數據量的乘積。通過采樣后的數據 經過Reduce函數執行前后的數據量的比值,和采樣前的輸入Reduce函數的數據量,推導出 MapReduce作業整體經過Reduce函數執行后的數據量,即輸出Reduce函數的數據量。其 中,輸入Reduce函數的數據量即為輸出Map函數的數據量。作業分析器監測數據在Map函數中執行前的時間點和在Map函數中執行完成的時 間點,從而能夠計算出數據在Map函數中實際執行的時間,即在Map函數中的實際執行時 間。同理,作業本文檔來自技高網...

    【技術保護點】
    一種映射化簡MapReduce作業執行時間預測方法,其特征在于,包括:對輸入虛擬系統的MapReduce作業進行監測,獲取所述MapReduce作業輸入映射Map函數的參數信息,輸出Map函數的參數信息和輸出化簡Reduce函數的參數信息、在Map函數中的實際執行時間以及在Reduce函數中的實際執行時間;根據所述輸入Map函數的參數信息、所述輸出Map函數的參數信息以及所述在Map函數中的實際執行時間,獲得Map任務執行時間預測值;根據所述輸出Map函數的參數信息、所述輸出Reduce函數的參數信息以及所述在Reduce函數中的實際執行時間,獲得Reduce任務執行時間預測值;根據所述Map任務執行時間預測值和所述Reduce任務執行時間預測值,獲得所述MapReduce作業執行時間的預測值。

    【技術特征摘要】
    1.一種映射化簡MapReduce作業執行時間預測方法,其特征在于,包括 對輸入虛擬系統的MapReduce作業進行監測,獲取所述MapReduce作業輸入映射Map函數的參數信息,輸出Map函數的參數信息和輸出化簡Reduce函數的參數信息、在Map函數中的實際執行時間以及在Reduce函數中的實際執行時間; 根據所述輸入Map函數的參數信息、所述輸出Map函數的參數信息以及所述在Map函數中的實際執行時間,獲得Map任務執行時間預測值; 根據所述輸出Map函數的參數信息、所述輸出Reduce函數的參數信息以及所述在Reduce函數中的實際執行時間,獲得Reduce任務執行時間預測值; 根據所述Map任務執行時間預測值和所述Reduce任務執行時間預測值,獲得所述MapReduce作業執行時間的預測值。2.根據權利要求1所述的MapReduce作業執行時間預測方法,其特征在于,所述輸入Map函數的參數信息包括輸入Map函數的數據量;所述輸出Map函數的參數信息包括輸出Map函數的數據量和輸出Map函數的記錄數;所述輸出Reduce函數的參數信息包括輸出Reduce函數的數據量。3.根據權利要求2所述的MapReduce作業執行時間預測方法,其特征在于,所述根據所述輸入Map函數的參數信息、所述輸出Map函數的參數信息以及所述在Map函數中的實際執行時間,獲得Map任務執行時間預測值具體為 利用所述輸入Map函數的數據量除以磁盤順序讀的速率,獲得讀入Map函數的時間;利用所述在Map函數中的實際執行時間除以標準作業在所述虛擬系統的Map函數中的實際執行時間,獲得Map函數的計算復雜度,所述標準作業是與所述MapReduce作業對應的; 利用所述Map函數的計算復雜度乘以所述標準作業在實際系統的Map函數中的實際執行時間,獲得執行Map函數的時間;利用所述輸出Map函數的記錄數乘以對所述輸出Map函數的記錄數進行對數運算后的數值,再乘以排序比例系數,獲得Map函數的排序時間,所述排序比例系數為預設數值;利用所述輸出Map函數的數據量除以磁盤順序寫的速率,獲得輸出Map函數的時間;根據Map函數的初始化時間、所述讀入Map函數的時間、所述執行Map函數的時間、所述Map函數的排序時間和所述輸出Map函數的時間,獲得所述Map任務執行時間預測值。4.根據權利要求2所述的MapReduce作業執行時間預測方法,其特征在于,所述根據所述輸出Map函數的參數信息、所述輸出Reduce函數的參數信息以及所述在Reduce函數中的實際執行時間,獲得Reduce任務執行時間預測值具體為 利用所述輸出Map函數的數據量乘以Map任務個數,再除以所述...

    【專利技術屬性】
    技術研發人員:林學練孟子德沃天宇宋鴿隨培培
    申請(專利權)人:北京航空航天大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码射肉在线播放视频| AV无码免费永久在线观看| 亚洲AV无码专区在线厂| 免费人成无码大片在线观看 | 久久亚洲av无码精品浪潮| 亚洲av无码成人精品区| 免费A级毛片无码A∨免费| 无码国产成人午夜电影在线观看| 午夜不卡久久精品无码免费| 国产精品成人无码久久久| 精品久久久久久久无码| 久久无码AV中文出轨人妻| 精品无码成人久久久久久| 人妻少妇乱子伦无码视频专区| yy111111电影院少妇影院无码| 精品无码久久久久国产| 免费a级毛片无码a∨免费软件| 无码被窝影院午夜看片爽爽jk | 国产午夜无码片在线观看影院 | 精品国产v无码大片在线观看| 国产亚洲美日韩AV中文字幕无码成人| 久久久久av无码免费网| 国产AV无码专区亚洲Av| 国产免费黄色无码视频| 国产午夜无码片在线观看 | 亚洲成a人片在线观看无码| 精品无码成人久久久久久| 久久精品无码一区二区三区不卡 | 亚洲精品高清无码视频| 久久精品无码专区免费| 曰韩无码AV片免费播放不卡| 国产品无码一区二区三区在线| 中文字幕亚洲精品无码| 亚洲av永久无码一区二区三区| 一本久道综合在线无码人妻| 2019亚洲午夜无码天堂| 亚洲日韩中文字幕无码一区| 中文字幕av无码无卡免费| 精品国产aⅴ无码一区二区| 亚洲另类无码专区丝袜| 性色av无码免费一区二区三区|