本發(fā)明專利技術(shù)提供一種用于數(shù)據(jù)恢復及自修復的raid卡設(shè)計方法,具體步驟如下:在raid出現(xiàn)嚴重故障需要人為干預并進行數(shù)據(jù)恢復時,raid系統(tǒng)與數(shù)據(jù)恢復系統(tǒng)交互,為了達到方便數(shù)據(jù)恢復工作更好的進行,raid板卡添加功能設(shè)計如下:a、對于raid系統(tǒng)在正常運行的時候,操作系統(tǒng)不需要與磁盤交互,只是在出現(xiàn)故障的時候,操作系統(tǒng)才需要與磁盤進行交互,對于這種情況,raid卡把與系統(tǒng)cpu連接的接口設(shè)計成復用端口;b、該復用端口用如下方法實現(xiàn),使用撥接開關(guān)進行切換,當將開關(guān)撥到某一位置時,操作系統(tǒng)看不到底部的磁盤,只能看到raid,系統(tǒng)不能對接在raid卡上的磁盤進行操作,當開關(guān)撥到另一位置時,操作系統(tǒng)同時看到raid以及raid卡上的各個磁盤,并且能對磁盤通過相關(guān)軟件進行操作。
【技術(shù)實現(xiàn)步驟摘要】
一種用于數(shù)據(jù)恢復及自修復的raid卡設(shè)計方法
本專利技術(shù)涉及計算機應(yīng)用
,具體地說是一種用于數(shù)據(jù)恢復及自修復的raid卡設(shè)計方法。
技術(shù)介紹
在現(xiàn)在大型存儲設(shè)備在各行各業(yè)的使用已經(jīng)越來越廣泛了,存儲設(shè)備上使用的磁盤以單盤的形式存在的現(xiàn)象也越來越少見,絕大部分在往磁盤來寫數(shù)據(jù)之前會把多塊磁盤新建成raid,這樣既擴大了存儲塊得容量,也提高了讀寫速度(raid1除外),也有的提高了安全性(raid0除外)。Raid有硬件raid和軟件raid兩種,硬件raid是使用專門的raid卡對磁盤進行管理;軟件raid使用操作系統(tǒng)的raid模塊對磁盤進行管理,其作用相當于一個raid卡硬件。使用軟件raid成本相對較低,但是增加了系統(tǒng)cpu的負擔,會耗費大量的cpu帶寬。而使用raid卡管理磁盤,相對來講能較大的提高存儲的性能,降低系統(tǒng)負擔,這在將來的存儲系統(tǒng)設(shè)計的時候會越來越多的使用。現(xiàn)行的raid卡在設(shè)計上有缺陷,主要體現(xiàn)在使用raid卡以后,系統(tǒng)不能直接的與磁盤進行交互,這兩者之間必須通過raid卡才能通信,也即raid對系統(tǒng)而言把底部的磁盤進行了屏蔽。這會在raid數(shù)據(jù)盤出現(xiàn)問題,需要進行數(shù)據(jù)恢復的時候帶了麻煩,或者raid系統(tǒng)需要人為干預的時候也將不容易實現(xiàn)。在raid出現(xiàn)故障的時候(如raid5系統(tǒng)出現(xiàn)一塊盤掉盤),如果在開始設(shè)置了熱備盤,raid會重建。raid重建的過程中,會嚴重影響raid的IO性能。這主要是raid重建的時候,會占用大量的IO帶寬,而且易出現(xiàn)重建不成功的情況。在很多情況下,raid掉盤后,raid重建的時候,管理員會把存儲業(yè)務(wù)斷開,這固然可以使存儲在raid重建的時候更不容易出錯,但是對于大型的數(shù)據(jù)中心來說,把業(yè)務(wù)斷開可能會影響很多用戶的工作。現(xiàn)在的raid在重建的時候,一般都是把原先的故障盤完全替換,全盤重建,費時較多,而有時raid掉線并不是磁盤出現(xiàn)了無法使用的錯誤,有可能僅僅是磁盤在讀寫數(shù)據(jù)的時候出現(xiàn)了超時,以至于raid卡沒能在規(guī)定的時間內(nèi)接收到磁盤的恢復,使raid以為該磁盤出現(xiàn)了嚴重的故障,而使磁盤掉線。對于磁盤掉線,進行raid重建問題,應(yīng)該分清楚磁盤出現(xiàn)故障的嚴重程度,然后再選擇是否重建或者如何重建。
技術(shù)實現(xiàn)思路
本專利技術(shù)的技術(shù)任務(wù)是解決現(xiàn)有技術(shù)的不足,提供一種用于數(shù)據(jù)恢復及自修復的raid卡設(shè)計方法。本專利技術(shù)的技術(shù)方案是按以下方式實現(xiàn)的,具體步驟如下:(一)在raid出現(xiàn)嚴重故障需要人為干預并進行數(shù)據(jù)恢復時,raid系統(tǒng)與數(shù)據(jù)恢復系統(tǒng)交互,為了達到方便數(shù)據(jù)恢復工作更好的進行,raid板卡添加功能設(shè)計如下:a、對于raid系統(tǒng)在正常運行的時候,操作系統(tǒng)不需要與磁盤交互,只是在出現(xiàn)故障的時候,操作系統(tǒng)才需要與磁盤進行交互,對于這種情況,raid卡把與系統(tǒng)cpu連接的接口設(shè)計成復用端口;b、該復用端口用如下方法實現(xiàn),使用撥接開關(guān)進行切換,當將開關(guān)撥到某一位置時,操作系統(tǒng)看不到底部的磁盤,只能看到raid,系統(tǒng)不能對接在raid卡上的磁盤進行操作,當開關(guān)撥到另一位置時,操作系統(tǒng)同時看到raid以及raid卡上的各個磁盤,并且能對磁盤通過相關(guān)軟件進行操作;c、在數(shù)據(jù)恢復的時候,現(xiàn)有的數(shù)據(jù)恢復軟件基本在windows系統(tǒng)下運行,在數(shù)據(jù)恢復工程師實施數(shù)據(jù)恢復的時候,只需要把相關(guān)軟件安裝上去,在本機上進行數(shù)據(jù)恢復相關(guān)操作,以便盡可能地保護用戶數(shù)據(jù)的安全;d、對于使用unix,linux操作系統(tǒng)的設(shè)備,存儲上的數(shù)據(jù)盤需要與外界數(shù)據(jù)恢復工程師的計算設(shè)備相連,為了方便數(shù)據(jù)恢復,raid卡最好能提供對外的如USB的相關(guān)接口,該接口在平時不允許對設(shè)備進行連接,它的對外工作與否,應(yīng)使用撥接開關(guān)控制,當需要raid卡通過USB接口對外連接時,通過撥接開關(guān)斷開raid卡與主機一切邏輯連接;通過上述措施,raid系統(tǒng)在raid一旦崩潰需要進行數(shù)據(jù)恢復的時候就能提供很大的方便;(二)在raid系統(tǒng)出現(xiàn)掉盤時,raid系統(tǒng)維護一個有寫操作的條帶列表,raid系統(tǒng)自行快速重建,包括如下步驟;a、對于raid系統(tǒng)出現(xiàn)掉盤之后,在沒有設(shè)置熱備盤的情況下,raid會出現(xiàn)降級,這時掉線盤不會進行數(shù)據(jù)的讀寫,所有的數(shù)據(jù)的讀寫由其他盤承擔,并且開始維護一個列表,并記錄從掉盤開始的raid各條帶的寫情況;b、由于在很多情況下,磁盤掉盤并不是磁盤出現(xiàn)嚴重問題,有可能是磁盤在做IO操作的是沒有來得及響應(yīng),以至于raid系統(tǒng)誤判該盤已經(jīng)不能正常工作了;c、因此為了減少投資,raid系統(tǒng)盡快恢復正常,raid卡應(yīng)該保持對掉線盤進行喚醒操作,如果在喚醒多次后,磁盤依然沒有正確回應(yīng),這時raid卡應(yīng)該把該磁盤當成出現(xiàn)了嚴重的故障,后續(xù)管理員應(yīng)該讓該盤完全脫離raid,并把掉盤情況,喚醒情況,相關(guān)故障診斷情況,采取的措施寫入raid卡日志及系統(tǒng)日志,同時把以前維護的掉盤開始的raid各條帶的寫記錄情況清除;d、如果喚醒通過,raid卡應(yīng)該把原來掉線的磁盤與其他成員盤一起工作,承擔數(shù)據(jù)的讀寫,即新寫入的數(shù)據(jù)寫入raid當中所有的磁盤,原來掉線期間的數(shù)據(jù),根據(jù)raid卡維護的列表通過讀改寫的方式重新進行寫入所有的盤,這樣就避免需要重新添加新盤,全盤重建的情況;raid需要維護的列表就是掉盤時間段具體有哪些條帶組中的條帶內(nèi)容進行了改變,假設(shè)當raid完成了條帶組4的寫入,然后磁盤3出現(xiàn)掉盤,這時raid5會降級成raid0,繼續(xù)的把數(shù)據(jù)寫入磁盤1和磁盤2,用P表示校驗條帶,如條帶0的校驗數(shù)據(jù)用p0表示;條帶1的校驗數(shù)據(jù)用P1表示;依次類推。當磁盤3掉線后,數(shù)據(jù)寫入磁盤1,磁盤2。磁盤3又重新加入到raid當中,并且一起與其他盤一起進行了數(shù)據(jù)存儲,這樣也就是只有條帶組4到條帶組n之間的條帶組需要進行恢復,因此根據(jù)條帶數(shù)據(jù)結(jié)構(gòu),把掉盤時間段的數(shù)據(jù)重建就行了,這樣就大大節(jié)省了raid重建的時間;(三)快速raid重建過程實現(xiàn),raid系統(tǒng)是根據(jù)優(yōu)先級進行讀寫調(diào)度,以便前端系統(tǒng)與存儲交互時能繼續(xù)正常進行,具體重建步驟如下:a、raid重建是否啟動需要對現(xiàn)在raid的IO情況進行監(jiān)測,如果現(xiàn)階段raid的IO很繁忙,則暫時停止重建,也即raid重建的IO優(yōu)先級放在最低;b、當raid的IO相對比較空閑的時候,raid卡系統(tǒng)根據(jù)前面維護的條帶寫列表找出在raid掉盤期間那些條帶進行了改變,然后讀出其中的一個條帶組中原來運行良好的磁盤中的數(shù)據(jù),由于原來的raid類型是raid5,掉盤以后raid會降級,變成raid0,因此剩余的那些盤的條帶當中存儲的全部都是數(shù)據(jù),沒有校驗數(shù)據(jù);c、如果要恢復整個raid5系統(tǒng),必須確定在一個條帶組當中,哪個磁盤條帶用來存放校驗數(shù)據(jù),這需要掃描前面的條帶組,得出raid系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)到底是左同步,左異步,右同步,右異步,常規(guī)還是非常規(guī)的數(shù)據(jù)存儲結(jié)構(gòu)形式,最后確定出條帶組中哪個磁盤條帶用來存放校驗數(shù)據(jù),最后確定出該raid的數(shù)據(jù)結(jié)構(gòu)形式,如要確定需要重建部分的數(shù)據(jù)存儲結(jié)構(gòu),確定出校驗條帶如何存放,如能夠掃描前面的4個條帶組,就能得出這是常規(guī)左異步結(jié)構(gòu),當然也能根據(jù)raid開始設(shè)定的數(shù)據(jù)存儲結(jié)構(gòu),計算出各個條帶組的數(shù)據(jù)存放方式;d、確定出了數(shù)據(jù)的結(jié)構(gòu)形式后,對剛才讀取的數(shù)據(jù)計算出校驗數(shù)據(jù),完成后把各條帶數(shù)據(jù)按照本文檔來自技高網(wǎng)...

【技術(shù)保護點】
一種用于數(shù)據(jù)恢復及自修復的raid卡設(shè)計方法,其特征在于,具體步驟如下:(一)在raid出現(xiàn)嚴重故障需要人為干預并進行數(shù)據(jù)恢復時,raid系統(tǒng)與數(shù)據(jù)恢復系統(tǒng)交互,為了達到方便數(shù)據(jù)恢復工作更好的進行,raid板卡添加功能設(shè)計如下:a、對于raid系統(tǒng)在正常運行的時候,操作系統(tǒng)不需要與磁盤交互,只是在出現(xiàn)故障的時候,操作系統(tǒng)才需要與磁盤進行交互,對于這種情況,raid卡把與系統(tǒng)cpu連接的接口設(shè)計成復用端口;b、該復用端口用如下方法實現(xiàn),使用撥接開關(guān)進行切換,當將開關(guān)撥到某一位置時,操作系統(tǒng)看不到底部的磁盤,只能看到raid,系統(tǒng)不能對接在raid卡上的磁盤進行操作,當開關(guān)撥到另一位置時,操作系統(tǒng)同時看到raid以及raid卡上的各個磁盤,并且能對磁盤通過相關(guān)軟件進行操作;c、在數(shù)據(jù)恢復的時候,現(xiàn)有的數(shù)據(jù)恢復軟件基本在windows系統(tǒng)下運行,在數(shù)據(jù)恢復工程師實施數(shù)據(jù)恢復的時候,只需要把相關(guān)軟件安裝上去,在本機上進行數(shù)據(jù)恢復相關(guān)操作,以便盡可能地保護用戶數(shù)據(jù)的安全;d、對于使用unix,linux操作系統(tǒng)的設(shè)備,存儲上的數(shù)據(jù)盤需要與外界數(shù)據(jù)恢復工程師的計算設(shè)備相連,為了方便數(shù)據(jù)恢復,raid卡最好能提供對外的如USB的相關(guān)接口,該接口在平時不允許對設(shè)備進行連接,它的對外工作與否,應(yīng)使用撥接開關(guān)控制,當需要raid卡通過USB接口對外連接時,通過撥接開關(guān)斷開raid卡與主機一切邏輯連接;通過上述措施,raid系統(tǒng)在raid一旦崩潰需要進行數(shù)據(jù)恢復的時候就能提供很大的方便;(二)在raid系統(tǒng)出現(xiàn)掉盤時,raid系統(tǒng)維護一個有寫操作的條帶列表,?raid系統(tǒng)自行快速重建,包括如下步驟;a、對于raid系統(tǒng)出現(xiàn)掉盤之后,在沒有設(shè)置熱備盤的情況下,raid會出現(xiàn)降級,這時掉線盤不會進行數(shù)據(jù)的讀寫,所有的數(shù)據(jù)的讀寫由其他盤承擔,并且開始維護一個列表,并記錄從掉盤開始的raid各條帶的寫情況;?b、由于在很多情況下,磁盤掉盤并不是磁盤出現(xiàn)嚴重問題,有可能是磁盤在做IO操作的是沒有來得及響應(yīng),以至于raid系統(tǒng)誤判該盤已經(jīng)不能正常工作了;c、因此為了減少投資,raid系統(tǒng)盡快回復正常,raid卡應(yīng)該保持對掉線盤進行喚醒操作,如果在喚醒多次后,磁盤依然沒有正確回應(yīng),這時raid卡應(yīng)該把該磁盤當成出現(xiàn)了嚴重的故障,后續(xù)管理員應(yīng)該讓該盤完全脫離raid,并把掉盤情況,喚醒情況,相關(guān)故障診斷情況,采取的措施寫入raid卡日志及系統(tǒng)日志,同時把以前維護的掉盤開始的raid各條帶的寫記錄情況清除;d、如果喚醒通過,raid卡應(yīng)該把原來掉線的磁盤與其他成員盤一起工作,承擔數(shù)據(jù)的讀寫,即新寫入的數(shù)據(jù)寫入raid當中所有的磁盤,原來掉線期間的數(shù)據(jù),根據(jù)raid卡維護的列表通過讀改寫的方式重新進行寫入所有的盤,這樣就避免需要重新添加新盤,全盤重建的情況;Raid需要維護的列表就是掉盤時間段具體有哪些條帶組中的條帶內(nèi)容進行了改變,假設(shè)當raid完成了條帶組4的寫入,然后磁盤3出現(xiàn)掉盤,這時raid5會降級成raid0,繼續(xù)的把數(shù)據(jù)寫入磁盤1和磁盤2用P表示校驗條帶,如P0表示0號條帶組的校驗條帶,條帶組n及以后表示raid通過磁盤喚醒,磁盤3又重新加入到raid當中,并且一起與其他盤一起進行了數(shù)據(jù)存儲,這樣也就是只有條帶組4到條帶組n之間的條帶組需要進行恢復,因此根據(jù)條帶數(shù)據(jù)結(jié)構(gòu),把掉盤時間段的數(shù)據(jù)重建就行了,這樣就大大節(jié)省了raid重建的時間;(三)快速raid重建過程實現(xiàn),raid系統(tǒng)是根據(jù)優(yōu)先級進行讀寫調(diào)度,以便前端系統(tǒng)與存儲交互時能繼續(xù)正常進行,具體重建步驟如下:a、raid重建是否啟動需要對現(xiàn)在raid的io情況進行監(jiān)測,如果現(xiàn)階段raid的IO很繁忙,則暫時停止重建,也即raid重建的IO優(yōu)先級放在最低;b、當raid的io相對比較空閑的時候,raid卡系統(tǒng)根據(jù)前面維護的條帶寫列表找出在raid掉盤期間那些條帶進行了改變,然后讀出其中的一個條帶組中原來運行良好的磁盤中的數(shù)據(jù),由于原來的raid類型是raid5,掉盤以后raid會降級,變成raid0,因此剩余的那些盤的條帶當中存儲的全部都是數(shù)據(jù),沒有校驗數(shù)據(jù);c、如果要恢復整個raid5系統(tǒng),必須確定在一個條帶組當中,哪個磁盤條帶用來存放校驗數(shù)據(jù),這需要掃描前面的條帶組,得出raid系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)到底是左同步,左異步,右同步,右異步,常規(guī)還是非常規(guī)的數(shù)據(jù)存儲結(jié)構(gòu)形式,最后確定出條帶組中哪個磁盤條帶用來存放校驗數(shù)據(jù),最后確定出該raid的數(shù)據(jù)結(jié)構(gòu)形式,如要確定需要重建部分的數(shù)據(jù)存儲結(jié)構(gòu),確定出校驗條帶如何存放,...
【技術(shù)特征摘要】
1.一種用于數(shù)據(jù)恢復及自修復的raid卡設(shè)計方法,其特征在于,具體步驟如下:(一)在raid出現(xiàn)嚴重故障需要人為干預并進行數(shù)據(jù)恢復時,raid系統(tǒng)與數(shù)據(jù)恢復系統(tǒng)交互,為了達到方便數(shù)據(jù)恢復工作更好的進行,raid板卡添加功能設(shè)計如下:a、對于raid系統(tǒng)在正常運行的時候,操作系統(tǒng)不需要與磁盤交互,只是在出現(xiàn)故障的時候,操作系統(tǒng)才需要與磁盤進行交互,對于這種情況,raid卡把與系統(tǒng)cpu連接的接口設(shè)計成復用端口;b、該復用端口用如下方法實現(xiàn),使用撥接開關(guān)進行切換,當將開關(guān)撥到某一位置時,操作系統(tǒng)看不到底部的磁盤,只能看到raid,系統(tǒng)不能對接在raid卡上的磁盤進行操作,當開關(guān)撥到另一位置時,操作系統(tǒng)同時看到raid以及raid卡上的各個磁盤,并且能對磁盤通過相關(guān)軟件進行操作;c、在數(shù)據(jù)恢復的時候,現(xiàn)有的數(shù)據(jù)恢復軟件基本在windows系統(tǒng)下運行,在數(shù)據(jù)恢復工程師實施數(shù)據(jù)恢復的時候,只需要把相關(guān)軟件安裝上去,在本機上進行數(shù)據(jù)恢復相關(guān)操作,以便盡可能地保護用戶數(shù)據(jù)的安全;d、對于使用unix,linux操作系統(tǒng)的設(shè)備,存儲上的數(shù)據(jù)盤需要與外界數(shù)據(jù)恢復工程師的計算設(shè)備相連,為了方便數(shù)據(jù)恢復,raid卡能提供對外的如USB的相關(guān)接口,該接口在平時不允許對設(shè)備進行連接,它的對外工作與否,應(yīng)使用撥接開關(guān)控制,當需要raid卡通過USB接口對外連接時,通過撥接開關(guān)斷開raid卡與主機一切邏輯連接;通過上述措施,raid系統(tǒng)在raid一旦崩潰需要進行數(shù)據(jù)恢復的時候就能提供很大的方便;(二)在raid系統(tǒng)出現(xiàn)掉盤時,raid系統(tǒng)維護一個有寫操作的條帶列表,raid系統(tǒng)自行快速重建,包括如下步驟;a、對于raid系統(tǒng)出現(xiàn)掉盤之后,在沒有設(shè)置熱備盤的情況下,raid會出現(xiàn)降級,這時掉線盤不會進行數(shù)據(jù)的讀寫,所有的數(shù)據(jù)的讀寫由其他盤承擔,并且開始維護一個列表,并記錄從掉盤開始的raid各條帶的寫情況;b、由于在很多情況下,磁盤掉盤并不是磁盤出現(xiàn)嚴重問題,有可能是磁盤在做IO操作的是沒有來得及響應(yīng),以至于raid系統(tǒng)誤判該盤已經(jīng)不能正常工作了;c、因此為了減少投資,raid系統(tǒng)盡快恢復正常,raid卡應(yīng)該保持對掉線盤進行喚醒操作,如果在喚醒多次后,磁盤依然沒有正確回應(yīng),這時raid卡應(yīng)該把該磁盤當成出現(xiàn)了嚴重的故障,后續(xù)管理員應(yīng)該讓該盤完全脫離raid,并把掉盤情況,喚醒情況,相關(guān)故障診斷情況,采取的措施寫入raid卡日志及系統(tǒng)日志,同時把以前維護的掉盤開始的raid各條帶的寫記錄情況清除;d、如果喚醒通過,raid卡應(yīng)該...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:肖健明,
申請(專利權(quán))人:浪潮電子信息產(chǎn)業(yè)股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。