• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種與作業(yè)調(diào)度系統(tǒng)相結(jié)合的資源檢測預處理方法技術方案

    技術編號:8271323 閱讀:216 留言:0更新日期:2013-01-31 03:31
    本法明涉及一種與作業(yè)調(diào)度系統(tǒng)相結(jié)合的資源檢測預處理方法,包括下述步驟:(1)啟用作業(yè)調(diào)度器預處理功能;(2)作業(yè)調(diào)度器讀取計算節(jié)點資源配置文件;(3)對計算節(jié)點資源進行內(nèi)容檢測;(4)當發(fā)現(xiàn)計算節(jié)點資源異常內(nèi)容時,判斷是否需要啟動自處理過程;(5)判斷是否對計算節(jié)點資源異常內(nèi)容進行自處理;(6)對計算節(jié)點資源異常內(nèi)容進行自處理;(7)通過SMTP或SMGP擴展配置接口將計算節(jié)點資源異常內(nèi)容以短信或郵件的形式發(fā)送給使用者;(8)將操作過程記錄到日志文件中。針對“存儲資源的可靠性”和“準備文件可用性”這兩問題給出了自處理方案,并提供相關的自動處理和配置文件,真正做到簡單、可配置、可擴展。處理效率高,省時省力。

    【技術實現(xiàn)步驟摘要】
    本專利技術涉及一種高性能計算集群領域的預處理方法,具體涉及一種與作業(yè)調(diào)度系統(tǒng)相結(jié)合的資源檢測預處理方法
    技術介紹
    大規(guī)模集群作業(yè)調(diào)度系統(tǒng)最常見的問題之一就是資源(包括計算節(jié)點資源、存儲資源等)已經(jīng)出現(xiàn)了異常(非節(jié)點下線異常),但調(diào)度系統(tǒng)卻未能捕獲該異常,以至于作業(yè)被調(diào)度到異常節(jié)點資源上,或使用了其他異常資源,導致作業(yè)最終無法正常完成。這樣將造成資源和時間的大量浪費,且無法得到正常的作業(yè)運行結(jié)果。 Torque 5. O中提供了計算節(jié)點健康檢測的功能,并且配合調(diào)度器(如Maui)將健康狀態(tài)異常節(jié)點的狀態(tài)置為Down。Torque的節(jié)點健康檢測功能通過指定監(jiān)測腳本,獲取檢測腳本的運行輸出信息,如果輸出信息以“ERROR”開頭,則調(diào)度器將該節(jié)點的狀態(tài)設為Down。同時,可以設置節(jié)點檢測間隔。現(xiàn)有技術存在以下問題首先,Torque所提供的計算節(jié)點健康檢測功能要求使用者自行編寫相應檢測腳本或Linux下的可執(zhí)行程序,這樣就要求使用者具有一定的檢測腳本或應用檢測程序開發(fā)能力,使用難度較大;其次,Torque所提供的計算節(jié)點健康檢測功能僅在檢測異常時,利用調(diào)度器將節(jié)點狀態(tài)設置為Down,并沒有提供相應的異常自動處理功能。
    技術實現(xiàn)思路
    針對現(xiàn)有技術的不足,本專利技術提供一種與作業(yè)調(diào)度系統(tǒng)相結(jié)合的資源檢測預處理方法。本專利技術在開源的集群作業(yè)調(diào)度資源管理系統(tǒng)Torque計算節(jié)點健康檢測功能的基礎之上,針對“存儲資源的可靠性”和“準備文件可用性”這兩問題給出了自處理方案,并提供了相關的自動處理和配置文件,真正做到了簡單、可配置、可擴展。本專利技術的目的是采用下述技術方案實現(xiàn)的—種與作業(yè)調(diào)度系統(tǒng)相結(jié)合的資源檢測預處理方法,其改進之處在于,所述方法包括下述步驟(I)啟用作業(yè)調(diào)度器預處理功能;(2)所述作業(yè)調(diào)度器讀取計算節(jié)點資源配置文件;(3)對計算節(jié)點資源進行內(nèi)容檢測;(4)當發(fā)現(xiàn)計算節(jié)點資源異常內(nèi)容時,判斷是否需要啟動自處理過程;(5)判斷是否對計算節(jié)點資源異常內(nèi)容進行自處理;(6)對計算節(jié)點資源異常內(nèi)容進行自處理;(7)通過SMTP或SMGP擴展配置接口將所述計算節(jié)點資源異常內(nèi)容以短信或郵件的形式發(fā)送給使用者;(8)將操作過程記錄到日志文件中。其中,所述步驟(2)中,所述計算節(jié)點資源配置文件用health, prop配置文件表/Jn ο其中,所述health, prop配置文件的內(nèi)容包括A、是否啟用資源監(jiān)測預處理功能,默認為Yes ;B、準備文件(準備文件屬于被檢測對象之一,對其檢測方式僅為可用性檢測)可用性對象,即檢查指定文件是否存在,默認為空;C、所要檢測容量的目錄或分區(qū)是否存在,默認為空;D、自動處理過程觸發(fā)閾值,當所指定目錄或分區(qū)使用容量超出該閾值時,將啟動 自動處理過程,默認為O. 8,即當指定目錄或分區(qū)使用量超過80%時,則啟動自動處理過程;E、自動處理時,處理文件對象的最小值,默認1BM,即僅處理文件大小大于IBM的文件;F、自動處理時,處理文件對象需早于此日期前產(chǎn)生,默認值為7,即僅處理一周以前生產(chǎn)的文件;G、自動處理時,只處理屬于某個任務組的文件,默認值為空,即處理所有組的文件;H、自動處理時,只處理屬于某個人的文件,默認值為空,即處理所有人的文件。其中,所述步驟(3)中,對計算節(jié)點資源中腳本文件的內(nèi)容進行檢測;所述腳本文件用 node_check. scp 表不。其中,所述步驟(4)中,若需要啟動自處理過程,則進行步驟(5);否則返回步驟(I)。其中,所述步驟(5)中,若對計算節(jié)點資源異常內(nèi)容進行處理時則進行步驟(6);否則進行步驟(7)。其中,所述步驟(6 )中,對計算節(jié)點資源異常內(nèi)容進行自處理后將處理過程記錄到日志文件中,即進行步驟(8)。其中,所述步驟(8)中,所述操作過程包括對計算節(jié)點資源異常內(nèi)容進行處理時的處理過程和發(fā)送給使用者的發(fā)送過程;所述日志文件用health, log表示。與現(xiàn)有技術比,本專利技術達到的有益效果是本專利技術在開源的集群作業(yè)調(diào)度資源管理系統(tǒng)Torque計算節(jié)點健康檢測功能的基礎之上,針對“存儲資源的可靠性”和“準備文件可用性”這兩問題給出了自處理方案,并提供了相關的自動處理和配置文件,真正做到了簡單、可配置、可擴展。處理效率高,省時省力,處理的可靠性提高。附圖說明圖I是本專利技術提供的pbs_mom config部分為Torque所提供健康檢測功能的配置文件示意圖;圖2是本專利技術提供的與作業(yè)調(diào)度系統(tǒng)相結(jié)合的資源檢測預處理方法流程圖。具體實施例方式下面結(jié)合附圖對本專利技術的具體實施方式作進一步的詳細說明。高性能計算集群(HPCC,High Performance Computing Cluster):計算機科學的一個分支,以解決復雜的科學計算或數(shù)值計算問題為目的,是由多臺節(jié)點機(服務器)構(gòu)成的一種松散耦合的計算節(jié)點集合。本專利技術在Torque計算節(jié)點健康檢測功能的基礎之上,為使用者提供了一套簡單、可配置、可擴展的節(jié)點檢測預處理方案。在與眾多高性能計算集群使用者的溝通過程中,我們了解到,在集群資源的使用過程中,使用者所擔心的計算資源異常的情況主要集中在“存儲資源的可靠性”和“準備文件可用性”這兩問題上。本專利技術給出的節(jié)點檢測預處理方案,主要就是針對上述的兩個問題,及眾多使用者的實際需求,形成的一套配置標準與自動處理相結(jié)合的解決方案。本專利技術提供的pbs_mom config部分為Torque所提供健康檢測功能的配置文件如圖I所示,要求在該配置文件中將node_check_script項配置為本解決方案所提供的node_ check, scp腳本文件位置。如圖I資源檢測預處理配置方案所示,本專利技術中的解決方案主要由node_check. scp等一系列腳本文件、health, prop配置文件、health, log日志記錄文件所組成,同時提供SMTP、SMGP等擴展配置接口。Torque表示一種開源的集群作業(yè)調(diào)度資源管理系統(tǒng);SMTP (Simple MailTransfer Protocol)即簡單郵件傳輸協(xié)議,它是一組用于由源地址到目的地址傳送郵件的規(guī)則,由它來控制郵件的中轉(zhuǎn)方式;SMGP (Short Message Gateway Protocol)是SMGW與其它網(wǎng)元設備進行短消息傳輸?shù)慕涌趨f(xié)議。本專利技術提供的與作業(yè)調(diào)度系統(tǒng)相結(jié)合的資源檢測預處理方法流程如圖2所示,該方法包括下述步驟(I)啟用作業(yè)調(diào)度器預處理功能該作業(yè)調(diào)度器為Maui作業(yè)調(diào)度器。(2)Maui作業(yè)調(diào)度器讀取計算節(jié)點資源heakh. prop配置文件;(3)對計算節(jié)點資源node_checL scp腳本文件的內(nèi)容進行檢測根據(jù)表I health, prop部分配置詳解中的配置,進行指定內(nèi)容檢測;表I如下表I health, prop部分配置詳解本文檔來自技高網(wǎng)...

    【技術保護點】
    一種與作業(yè)調(diào)度系統(tǒng)相結(jié)合的資源檢測預處理方法,其特征在于,所述方法包括下述步驟:(1)啟用作業(yè)調(diào)度器預處理功能;(2)所述作業(yè)調(diào)度器讀取計算節(jié)點資源配置文件;(3)對計算節(jié)點資源的內(nèi)容進行檢測;(4)當發(fā)現(xiàn)計算節(jié)點資源異常內(nèi)容時,判斷是否需要啟動自處理過程;(5)判斷是否對計算節(jié)點資源異常內(nèi)容進行自處理;(6)對計算節(jié)點資源異常內(nèi)容進行自處理;(7)通過SMTP或SMGP擴展配置接口將所述計算節(jié)點資源異常內(nèi)容以短信或郵件的形式發(fā)送給使用者;(8)將操作過程記錄到日志文件中。

    【技術特征摘要】
    1.一種與作業(yè)調(diào)度系統(tǒng)相結(jié)合的資源檢測預處理方法,其特征在于,所述方法包括下述步驟 (1)啟用作業(yè)調(diào)度器預處理功能; (2)所述作業(yè)調(diào)度器讀取計算節(jié)點資源配置文件; (3)對計算節(jié)點資源的內(nèi)容進行檢測; (4)當發(fā)現(xiàn)計算節(jié)點資源異常內(nèi)容時,判斷是否需要啟動自處理過程; (5)判斷是否對計算節(jié)點資源異常內(nèi)容進行自處理; (6)對計算節(jié)點資源異常內(nèi)容進行自處理; (7)通過SMTP或SMGP擴展配置接口將所述計算節(jié)點資源異常內(nèi)容以短信或郵件的形式發(fā)送給使用者; (8)將操作過程記錄到日志文件中。2.如權利要求I所述的與作業(yè)調(diào)度系統(tǒng)相結(jié)合的資源檢測預處理方法,其特征在于,所述步驟(2)中,所述計算節(jié)點資源配置文件用health, prop配置文件表示。3.如權利要求2所述的與作業(yè)調(diào)度系統(tǒng)相結(jié)合的資源檢測預處理方法,其特征在于,所述health, prop配置文件的內(nèi)容包括 A、是否啟用資源監(jiān)測預處理功能,默認為Yes; B、準備文件可用性對象,S卩檢查指定文件是否存在,默認為空; C、所要檢測容量的目錄或分區(qū)是否存在,默認為空; D、自動處理過程觸發(fā)閾值,當所指定目錄或分區(qū)使用容量超出該閾值時,將啟動自動處理過程,默認為O. 8,即當指定目錄或分區(qū)使用量超過80%時,則啟動自動處理過程; E、自動處理時,處理文件對象的最小值,默認1BM,即僅...

    【專利技術屬性】
    技術研發(fā)人員:張磊張濤
    申請(專利權)人:曙光信息產(chǎn)業(yè)北京有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产精品亚洲专区无码唯爱网| 国产综合无码一区二区辣椒| 久久久久av无码免费网| 人妻系列无码专区无码中出| 亚洲综合无码一区二区痴汉| 亚欧无码精品无码有性视频| 国产成人无码18禁午夜福利p| 亚洲精品无码一区二区| AV无码小缝喷白浆在线观看| 99热门精品一区二区三区无码| 无码人妻一区二区三区精品视频| 熟妇人妻无码中文字幕| 国产精品va在线观看无码| 精品久久久久久久无码| 国产精品无码一区二区三级 | 69ZXX少妇内射无码| 亚洲熟妇少妇任你躁在线观看无码| 无码视频一区二区三区在线观看| 无码一区二区三区中文字幕| 69堂人成无码免费视频果冻传媒| 亚洲精品97久久中文字幕无码| 永久免费av无码网站韩国毛片| 亚洲va无码专区国产乱码| 无码国模国产在线无码精品国产自在久国产| 亚洲精品无码久久一线| 日韩精品无码人成视频手机 | 无码一区二区三区爆白浆| 久久久无码精品亚洲日韩蜜桃| 成在人线av无码免费高潮喷水| 免费一区二区无码视频在线播放 | 亚洲熟妇无码AV| 精品无码一区二区三区亚洲桃色| 免费无码H肉动漫在线观看麻豆| 无码熟妇人妻AV在线影院| 无码狠狠躁久久久久久久| 中文无码一区二区不卡αv| 亚洲成a∧人片在线观看无码| 久久久无码精品亚洲日韩蜜桃| 精品无码久久久久久久久久| 久久亚洲AV无码西西人体| 久久久久亚洲av成人无码电影|