• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    分布式系統中作業資源分配方法、裝置及設備制造方法及圖紙

    技術編號:21167142 閱讀:32 留言:0更新日期:2019-05-22 09:40
    本申請公開了一種用于分布式系統中作業資源分配方法,所述方法包括:確定分布式系統中有依賴關系的數據集合;針對任一所述數據集合,根據數據間依賴關系的大小,將所述數據進行聚類,生成數據子集,并根據作業與數據的依賴關系將作業聚類到相應的數據子集,生成作業及數據子集;確定各作業及數據子集所需計算資源及存儲資源;依據各作業及數據子集所需計算資源及存儲資源,以及分布式系統的各計算集群可用計算容量和存儲容量,為作業及數據子集分配分布式系統的計算集群。采用上述方法,解決現有技術中存在的不能減少除進行源數據遷移的兩個計算集群之外的其他計算集群訪問這個源數據的流量以及流量優化效果有限的問題。

    Job Resource Allocation Method, Device and Equipment in Distributed System

    This application discloses a method for job resource allocation in distributed systems. The method includes: determining data sets that have dependencies in distributed systems; clustering the data according to the size of dependencies among data sets for any data set, generating a subset of data, and clustering jobs into corresponding data according to the dependencies between jobs and data. Subsets, generating jobs and data subsets; determining computing resources and storage resources required by jobs and data subsets; allocating computing clusters of distributed systems for jobs and data subsets based on computing resources and storage resources required by jobs and data subsets, as well as available computing and storage capacity of computing clusters of distributed systems. By using the above method, we can solve the problem that the existing technology can not reduce the flow of the source data accessed by the computing cluster other than the two computing clusters that migrate the source data, and the effect of traffic optimization is limited.

    【技術實現步驟摘要】
    分布式系統中作業資源分配方法、裝置及設備
    本申請涉及分布式系統領域,具體涉及一種用于分布式系統中作業資源分配方法及裝置,以及一種分布式系統中作業分配方法;以及一種用于分布式系統中作業資源分配的存儲設備;以及一種電子設備。
    技術介紹
    在分布式系統中,通常運行著成千上萬的用戶作業,這些用戶作業在運行的過程中,需要讀入存儲在計算集群中的源數據進行處理,程序處理完后,也會將結果寫入到計算集群中存儲,隨著業務規模的增加,一方面,由于計算集群計算資源有限(CPU\Memory)的限制,一個計算集群不可能承載無限的用戶作業;另一方面,隨著用戶作業產生的作業增多,計算集群的存儲也會成為瓶頸。理論上,只要計算集群能夠持續的增加機器,上述問題也能得到解決。但是,由于機房機位容量、機房電量、業務冗災等一系列因素,一個分布式計算集群不可能無限的擴容,這樣就導致了會同時存在多個分布式計算集群,用戶作業有可能運行在A計算集群上,但是讀取源數據在B計算集群上,這樣造成的結果就是在不同的分布式計算集群間,會有大量的數據傳輸。由于分布式計算集群有可能分布在不同的地理位置,例如有的計算集群在杭州、有的計算集群在北京、有的計算集群在深圳……在不同地域間的帶寬費用和傳輸速度相較于分布式計算集群內部有著非常明顯的差距?,F有技術中,由于存在一些源數據,本計算集群用戶作業對它的流量依賴要小于其他計算集群用戶作業對它的數據依賴,將這樣的源數據從原來的計算集群遷移到其他對它依賴較大的計算集群,減小了兩個集群間的網絡流量消耗。如圖1所示:虛線左邊是一個計算集群,虛線右邊是另外一個計算集群。將一個滿足上述條件的源數據從左邊集群遷移到了右邊集群。其中,圖中T表示數據,J表示作業?,F有技術中的解決方法存在以下缺陷:1、由于一個源數據可能被多個計算集群上的用戶作業所依賴,而已有方案只能選擇一個計算集群進行數據遷移,故只是降低了兩個計算集群間的相對流量,不能減少這兩個計算集群之外的其他集群訪問這個源數據的流量。2、由于一個計算集群存儲是有限的,所以計算集群不可能無限制接收遷移過來的數據,當遇到存儲瓶頸時,已有方案只能退而選擇次優的計算集群、或者將一部分數據置換到其他集群。而置換操作又會帶來新的跨集群數據傳輸,從而流量優化效果有限。綜上所述,現有技術中的解決方法存在不能減少除進行源數據遷移的兩個計算集群之外的其他計算集群訪問這個源數據的流量以及流量優化效果有限的問題。
    技術實現思路
    本申請提供一種用于分布式系統中作業資源分配方法,以解決現有技術中存在的不能減少除進行源數據遷移的兩個計算集群之外的其他計算集群訪問這個源數據的流量以及流量優化效果有限的問題。所述用于分布式系統中作業資源分配方法,其特征在于,包括:確定分布式系統中有依賴關系的數據集合;針對任一所述數據集合,根據數據間依賴關系的大小,將所述數據進行聚類,生成數據子集,并根據作業與數據的依賴關系將作業聚類到相應的數據子集,生成作業及數據子集;確定各作業及數據子集所需計算資源及存儲資源;依據各作業及數據子集所需計算資源及存儲資源,以及分布式系統的各計算集群可用計算容量和存儲容量,為作業及數據子集分配分布式系統的計算集群??蛇x的,所述分布式系統中有依賴關系的數據集合包括:將分布式系統中的數據均視為節點,數據與數據之間的依賴關系視為聯通子圖的邊,將所述分布式系統分割為至少一個聯通子圖;任一聯通子圖視為分布式系統中有依賴關系的數據集合??蛇x的,所述針對任一所述數據集合,根據數據間依賴關系的大小,將所述數據進行聚類,生成數據子集,并根據作業與數據的依賴關系將作業聚類到相應的數據子集,生成作業及數據子集,包括:針對任一所述包含數據的聯通子圖,根據數據節點間依賴關系的大小,將所述各數據節點進行聚類,生成簇,并根據作業與數據的依賴關系將作業聚類到相應的簇。可選的,所述針對任一所述包含數據的聯通子圖,根據數據節點間依賴關系的大小,將所述各數據節點進行聚類,生成簇,包括:遍歷所述聯通子圖的數據節點,對于遍歷到的任一數據節點,按照設定的標準判斷該數據節點是否為簇中心;將滿足所述設定標準的數據節點作為簇中心;將不滿足所述設定標準的數據節點歸屬到與其相關性最大的簇中心所在的簇??蛇x的,所述遍歷所述聯通子圖的數據節點,對于遍歷到的任一數據節點,按照設定的標準判斷該數據節點是否為簇中心,具體為:按照數據節點密度由高到底的順序遍歷所述聯通子圖的數據節點,對于遍歷到的任一數據節點,并根據設定的標準判斷該數據節點是否為簇中心;其中,所述密度為聯通子圖中的數據節點的流入流量與流出流量的和??蛇x的,所述按照數據節點密度由高到底的順序遍歷所述聯通子圖的數據節點,對于遍歷到的任一數據節點,并根據設定的標準判斷該數據節點是否為簇中心,包括:所述按照數據節點密度由高到底的順序遍歷所述聯通子圖的數據節點;對于遍歷到的任一數據節點,判斷該數據節點的密度是否大于與其相連的數據節點的密度;若是,則所述該數據節點為簇中心;若否,則所述該數據節點為不滿足所述設定標準的數據節點??蛇x的,所述將不滿足所述設定標準的數據節點歸屬到與其相關性最大的簇中心所在的簇,包括:將不滿足所述設定標準的數據節點歸屬到與其距離最近的簇中心所在的簇;其中,所述距離,指從某個數據節點到簇中心點的鏈路中,經歷的邊權重最小值的倒數??蛇x的,所述將不滿足所述設定標準的數據節點歸屬到與其距離最近的簇中心所在的簇,包括:當存在兩個及以上與不滿足所述設定標準的數據節點距離相等的簇中心時,將所述不滿足所述設定標準的數據節點歸屬到任一簇中心??蛇x的,所述依據各作業及數據子集所需計算資源及存儲資源,以及分布式系統的各計算集群可用計算容量和存儲容量,為作業及數據子集分配分布式系統的計算集群,包括:所述依據各作業及數據子集所需計算資源及存儲資源,以及分布式系統的各計算集群可用計算容量和存儲容量,以及各作業及數據子集之間的流量依賴關系,為作業及數據子集分配分布式系統的計算集群??蛇x的,所述依據各作業及數據子集所需計算資源及存儲資源,以及分布式系統的各計算集群可用計算容量和存儲容量,以及各作業及數據子集之間的流量依賴關系,為作業及數據子集分配分布式系統的計算集群,包括:按照各作業及數據子集之間的流量依賴關系從高到低排序生成作業及數據子集的流量依賴關系序列,序列中的每個元素包括至少兩個具有流量依賴關系的作業及數據子集;依次取出所述關系序列中的每個元素的兩個作業及數據子集,執行以下操作:判斷是否存在能容納所述兩個作業及數據子集的計算集群;若是,將所述兩個作業及數據子集分配到所述計算集群中;若否,將所述兩個作業及數據子集放入未分配結構集合中;將所述未分配結構集合中的作業及數據子集隨機分配到能容納所述作業及數據子集的計算集群中。可選的,將所述未分配結構集合中的作業及數據子集隨機分配到能容納所述作業及數據子集的計算集群中的步驟之前,包括:依次取出所述未分配結構集合中的作業及數據子集,執行如下操作:判斷是否存在與當前作業及數據子集相匹配的計算集群,若是,將所述當前作業及數據子集分配到所述相匹配的計算集群中。可選的,所述根據作業與數據的依賴關系將作業聚類到相應的數據子集,包括:當與作業有依賴關系的數據聚集到不同的數據子集本文檔來自技高網
    ...

    【技術保護點】
    1.一種用于分布式系統中作業資源分配方法,其特征在于,包括:確定分布式系統中有依賴關系的數據集合;針對任一所述數據集合,根據數據間依賴關系的大小,將所述數據進行聚類,生成數據子集,并根據作業與數據的依賴關系將作業聚類到相應的數據子集,生成作業及數據子集;確定各作業及數據子集所需計算資源及存儲資源;依據各作業及數據子集所需計算資源及存儲資源,以及分布式系統的各計算集群可用計算容量和存儲容量,為作業及數據子集分配分布式系統的計算集群。

    【技術特征摘要】
    1.一種用于分布式系統中作業資源分配方法,其特征在于,包括:確定分布式系統中有依賴關系的數據集合;針對任一所述數據集合,根據數據間依賴關系的大小,將所述數據進行聚類,生成數據子集,并根據作業與數據的依賴關系將作業聚類到相應的數據子集,生成作業及數據子集;確定各作業及數據子集所需計算資源及存儲資源;依據各作業及數據子集所需計算資源及存儲資源,以及分布式系統的各計算集群可用計算容量和存儲容量,為作業及數據子集分配分布式系統的計算集群。2.根據權利要求1所述的用于分布式系統中作業資源分配方法,其特征在于,所述分布式系統中有依賴關系的數據集合包括:將分布式系統中的數據均視為節點,數據與數據之間的依賴關系視為聯通子圖的邊,將所述分布式系統分割為至少一個聯通子圖;任一聯通子圖視為分布式系統中有依賴關系的數據集合。3.根據權利要求2所述的用于分布式系統中作業資源分配方法,其特征在于,所述針對任一所述數據集合,根據數據間依賴關系的大小,將所述數據進行聚類,生成數據子集,并根據作業與數據的依賴關系將作業聚類到相應的數據子集,生成作業及數據子集,包括:針對任一所述包含數據的聯通子圖,根據數據節點間依賴關系的大小,將所述各數據節點進行聚類,生成簇,并根據作業與數據的依賴關系將作業聚類到相應的簇,每一簇視為一作業及數據子集。4.根據權利要求3所述的用于分布式系統中作業資源分配方法,其特征在于,所述針對任一所述包含數據的聯通子圖,根據數據節點間依賴關系的大小,將所述各數據節點進行聚類,生成簇,包括:遍歷所述聯通子圖的數據節點,對于遍歷到的任一數據節點,按照設定的標準判斷該數據節點是否為簇中心;將滿足所述設定標準的數據節點作為簇中心;將不滿足所述設定標準的數據節點歸屬到與其相關性最大的簇中心所在的簇。5.根據權利要求4所述的方法,其特征在于,所述遍歷所述聯通子圖的數據節點,對于遍歷到的任一數據節點,按照設定的標準判斷該數據節點是否為簇中心,具體為:按照數據節點密度由高到底的順序遍歷所述聯通子圖的數據節點,對于遍歷到的任一數據節點,并根據設定的標準判斷該數據節點是否為簇中心;其中,所述密度為聯通子圖中的數據節點的流入流量與流出流量的和。6.根據權利要求5所述的用于分布式系統中作業資源分配方法,其特征在于,所述按照數據節點密度由高到底的順序遍歷所述聯通子圖的數據節點,對于遍歷到的任一數據節點,并根據設定的標準判斷該數據節點是否為簇中心,包括:所述按照數據節點密度由高到底的順序遍歷所述聯通子圖的數據節點;對于遍歷到的任一數據節點,判斷該數據節點的密度是否大于與其相連的數據節點的密度;若是,則所述該數據節點為簇中心;若否,則所述該數據節點為不滿足所述設定標準的數據節點。7.根據權利要求4所述的用于分布式系統中作業資源分配方法,其特征在于,所述將不滿足所述設定標準的數據節點歸屬到與其相關性最大的簇中心所在的簇,包括:將不滿足所述設定標準的數據節點歸屬到與其距離最近的簇中心所在的簇;其中,所述距離,指從某個數據節點到簇中心點的鏈路中,經歷的邊權重最小值的倒數。8.根據權利要求7所述的用于分布式系統中作業資源分配方法,其特征在于,所述將不滿足所述設定標準的數據節點歸屬到與其距離最近的簇中心所在的簇,包括:當存在兩個及以上與不滿足所述設定標準的數據節點距離相等的簇中心時,將所述不滿足所述設定標準的數據節點歸屬到任一簇中心。9.根據權利要求1-8任一所述的用于分布式系統中作業資源分配方法,其特征在于,所述依據各作業及數據子集所需計算資源及存儲資源,以及分布式系統的各計算集群可用計算容量和存儲容量,為作業及數據子集分配分布式系統的計算集群,包括:所述依據各作業及數據子集所需計算資源及存儲資源,以及分布式系統的各計算集群可用計算容量和存儲容量,以及各作業及數據子集...

    【專利技術屬性】
    技術研發人員:張楊,
    申請(專利權)人:阿里巴巴集團控股有限公司,
    類型:發明
    國別省市:開曼群島,KY

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲国产成AV人天堂无码 | 亚洲&#228;v永久无码精品天堂久久 | 亚洲AV无码久久精品蜜桃| 成人无码区免费A∨直播| 中文无码不卡的岛国片| 国产嫖妓一区二区三区无码| 亚洲爆乳无码专区| 东京热人妻无码一区二区av| 亚洲av永久无码精品网址| 亚洲国产精品成人精品无码区在线| 亚洲精品无码av片| 国产精品久久久久无码av| 寂寞少妇做spa按摩无码| 国产乱人伦无无码视频试看| 中文字幕无码成人免费视频| 亚洲Av综合色区无码专区桃色| 国产高新无码在线观看| 中文字幕韩国三级理论无码| 日韩免费无码视频一区二区三区| 亚洲国产av无码精品| 熟妇人妻无码中文字幕老熟妇| 无码精品一区二区三区免费视频 | WWW久久无码天堂MV| 亚洲美免无码中文字幕在线| 无码少妇一区二区性色AV| 亚洲色中文字幕无码AV| 成人午夜亚洲精品无码网站 | 久久人妻无码一区二区| AV无码久久久久不卡网站下载| 无码少妇一区二区| 久久亚洲日韩看片无码| 日韩精品专区AV无码| 亚洲精品无码久久久久久久| 精品亚洲成A人无码成A在线观看| 日韩av无码久久精品免费| 精品无码国产污污污免费网站| 人妻无码第一区二区三区| 秋霞鲁丝片Av无码少妇| 亚洲精品无码久久久久YW| 亚洲精品无码永久在线观看男男| 亚洲av无码专区在线观看下载|