The embodiment of the invention discloses a real-time data fault tolerance processing method and system. The business in the system to deploy at least two instances, each instance of the corresponding physical resource allocation, each node in each instance with peers in other instances, real-time data processing system in the business when the node failure, according to the node corresponding to the physical resources to determine the instance node, in determining the in the example, will pull up the fault nodes to replace faulty nodes in connection, update node failure information table for fault nodes according to the link information table up, in the peer information cache data sending peer node will fail to pull up the fault node node, in order to make up the data processing node fault recovery the system can be unified management, real-time data processing, and can ensure the node failure, restore the node downtime before the state quickly. Re access system.
【技術實現步驟摘要】
一種實時數據容錯處理方法及系統
本專利技術涉及實時計算領域,尤其涉及一種實時數據容錯處理方法及系統。
技術介紹
在金融、電信、能源、醫療等領域內,很多業務系統都有“7*24小時”業務連續性要求,任何原因造成的業務中斷是不可接受的。這種行業性高容錯要求催生了雙活系統的誕生,即通過提供冗余系統元素確保在出現各種故障時系統維持業務連續性,確保在故障發生時確保數據完整性和系統功能的特性。當然,雙活系統的資源消耗一直是該解決方案的詬病所在,在采用雙活系統解決方案時,需要準備兩套獨立的資源,同時在業務運行中,兩套獨立系統分別對自己的運行單元進行部署、管理和維護。目前業界廣泛采用實時流計算平臺來構建實時在線系統的架構解決方案,其中實時流計算組件又以Storm的應用最為廣泛。Storm是一個免費開源、分布式、高容錯的實時計算系統。Storm經常用于在實時分析、在線機器學習、持續計算、分布式遠程調用和ETL等領域。Storm的部署管理非常簡單,且在同類的流式計算工具,Storm的性能也是非常出眾的,是一般搭建實時計算系統架構的首先方案。Storm的進程是無狀態的,這樣便于實現快速失敗,保障Storm的健壯性。Storm不提供保存節點緩存的狀態數據的功能支持,如此當某一節點宕機之后,Storm只需要拉起該節點服務,無需加載狀態數據,即可實現快速失敗和恢復的HA機制保護。但是,在時下各行業的業務需求中,經常出現需要保存狀態數據的業務場景,在該場景中,節點不支持恢復狀態數據的功能是不可接受的。它們迫切需求在故障宕機恢復之后,能夠保證該節點加載故障前的狀態數據,恢復成該節點宕機前的 ...
【技術保護點】
一種實時數據容錯處理方法,其特征在于,包括:當系統中的節點處理業務的實時數據發生故障時,根據所述節點對應的物理資源確定所述節點所在的實例,其中,所述業務在所述系統中部署至少兩個實例,每個實例包括具有拓撲關系的至少一個節點,每個實例分配對應的物理資源,每個實例中的所述至少一個節點與被分配的物理資源具有對應關系,每個實例中的每個節點在其它實例中具有對等節點;在所述確定的實例中,將故障拉起節點替換發生故障的節點;在聯結信息表中更新所述發生故障的節點為所述故障拉起節點,其中,所述聯結信息表包括所述至少兩個實例中的對等節點信息;根據所述對等節點信息,將所述發生故障的節點的對等節點的緩存數據發送給所述故障拉起節點,以使所述故障拉起節點根據接收到的所述緩存數據恢復所述節點的數據處理。
【技術特征摘要】
1.一種實時數據容錯處理方法,其特征在于,包括:當系統中的節點處理業務的實時數據發生故障時,根據所述節點對應的物理資源確定所述節點所在的實例,其中,所述業務在所述系統中部署至少兩個實例,每個實例包括具有拓撲關系的至少一個節點,每個實例分配對應的物理資源,每個實例中的所述至少一個節點與被分配的物理資源具有對應關系,每個實例中的每個節點在其它實例中具有對等節點;在所述確定的實例中,將故障拉起節點替換發生故障的節點;在聯結信息表中更新所述發生故障的節點為所述故障拉起節點,其中,所述聯結信息表包括所述至少兩個實例中的對等節點信息;根據所述對等節點信息,將所述發生故障的節點的對等節點的緩存數據發送給所述故障拉起節點,以使所述故障拉起節點根據接收到的所述緩存數據恢復所述節點的數據處理。2.如權利要求1所述的方法,其特征在于,還包括:控制每個實例中的所述至少一個節點分別處理所述實時數據。3.如權利要求1所述的方法,其特征在于,所述被分配的物理資源包括至少一個物理機,每個實例中的所述至少一個節點與被分配的物理資源具有對應關系,包括:每個所述物理機與所述至少一個節點對應。4.如權利要求1-3任意一項所述的方法,其特征在于,所述方法還包括:當所述系統為所述業務增加物理資源時,將增加的所述物理資源分配給所述業務的至少兩個實例。5.如權利要求4所述的方法,其特征在于,所述方法還包括:將每個實例中負載高于設定值的物理資源對應的至少一個節點的實時數據遷移至分配給所述實例的增加的所述物理資源對應的至少一個節點;或將每個所述實例增加的所述物理資源分配給所述故障拉起節點。6.如權利要求1-3任意一項所述的方法,其特征在于,所述方法還包括:當需要減少實例中的物理資源時,停止所述減少的物理資源對應的節點的實時數據處理;將故障拉起節點替換所述停止處理實時數據的節點,其中所述實例中剩下的物理資源被重新分配給所述實例中正在進行實時數據處理的至少一個節點;在所述聯結信息表中更新所述停止處理實時數據的節點為所述故障拉起節點;根據所述對等節點信息,將所述停止處理實時數據的節點的對等節點的緩存數據發送給所述故障拉起節點。7.一種實時數據容錯處理系統,其特征在于,包括:確定單元,用于當系統中的節點處理業務的實...
【專利技術屬性】
技術研發人員:單衛華,林銘,殷暉,李旭良,
申請(專利權)人:華為技術有限公司,
類型:發明
國別省市:廣東,44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。