一種海量數據處理方法、裝置及系統制造方法及圖紙

技術編號：8271471 閱讀：219 留言：0更新日期：2013-01-31 03:42

本申請公開了一種海量數據處理方法、裝置及系統，應用于數據副本集群中存儲有海量數據的數據節點，所述數據節點在預設時間間隔點獲取本數據節點中不同于與其相連的另一數據節點的數據，并將獲取的數據寫入至另一數據節點中，觸發另一數據節點更新其數據版本；所述方法包括：當前數據節點接收待更新數據，并將待更新數據寫入至本數據節點，待更新數據在數據副本集群接收到的更新請求信息中提取；并更新當前數據節點的數據版本；若當前系統時間到達預設時間間隔點，當前數據節點獲取本數據節點中不同于另一數據節點的數據，并將獲取的數據寫入至另一數據節點中，觸發另一數據節點更新其數據版本。通過本申請實施例，提高對海量數據的處理效率。

全部詳細技術資料下載

【技術實現步驟摘要】
本申請涉及軟件
，特別涉及一種海量數據處理方法、裝置及系統。
技術介紹
海量數據一般是指數據量為PB級以上的數據。海量數據的處理，一般采用分布式處理方案，即將海量數據進行分片，分發至不同的節點進行處理，為保證數據的安全，通常采用數據冗余方案，即一份數據存在于多個節點上，此時，冗余的數據稱為數據副本。目前，在對海量數據進行一次寫入處理時，需要系統對存儲有海量數據的每個數據副本執行寫入操作，即將待更新數據發送至每個數據副本，每個數據副本將待更新數據寫入到本數據副本中，從而保證海量數據的一致性。例如，當前數據有N個數據副本，在對當前數據進行寫入操作時，需要系統對該數據的N個數據副本均執行寫入操作，即執行N次寫入操作，使得系統對海量數據的處理效率較低。同時，若數據副本中有一個數據副本寫入失敗，那么其他數據副本即使寫入成功，也均會回滾至被寫入之前的狀態，此時，需要系統重新對所有的數據副本再次執行寫入操作，從而明顯使得系統對海量數據的處理性能降低，嚴重影響海量數據的處理效率。
技術實現思路
有鑒于此，本申請通過提供一種海量數據處理方法、裝置及系統，用以解決現有技術中對多個同時存儲有海量數據的數據副本進行一次寫入處理時，需系統執行多次寫入操作，從而使得海量數據的處理效率降低的技術問題，以及用以解決現有海量數據處理方案中，一次寫入失敗，所有數據副本回滾，從而明顯使得系統對海量數據的處理性能降低，嚴重影響海量數據的處理效率的技術問題。本申請提供了一種海量數據處理方法，應用于預設的分布式數據副本集群中存儲有海量數據的數據節點；其中，所述數據副本集群包括至少一個所述數據節點，所述...

【技術保護點】
一種海量數據處理方法，其特征在于，應用于預設的分布式數據副本集群中存儲有海量數據的數據節點；其中，所述數據副本集群包括至少一個所述數據節點，所述每一數據節點至少與一個不同于本數據節點的另一數據節點相連，且所述數據節點在其預設時間間隔點獲取本數據節點中不同于所述另一數據節點的數據，并將所述獲取的數據寫入至所述另一數據節點中，觸發所述另一數據節點更新其數據版本；所述方法包括：依據預設規則在所述數據副本集群中被選取的當前數據節點接收待更新數據，并將所述待更新數據寫入至本數據節點；其中，所述待更新數據在所述數據副本集群接收到的更新請求信息中提取；并更新所述當前數據節點的數據版本；若當前系統時間到達所述預設時間間隔點，所述當前數據節點獲取本數據節點中不同于所述另一數據節點的數據，并將所述獲取的數據寫入至所述另一數據節點中，觸發所述另一數據節點更新其數據版本。

【技術特征摘要】
1.一種海量數據處理方法，其特征在于，應用于預設的分布式數據副本集群中存儲有海量數據的數據節點；其中，所述數據副本集群包括至少一個所述數據節點，所述每一數據節點至少與一個不同于本數據節點的另一數據節點相連，且所述數據節點在其預設時間間隔點獲取本數據節點中不同于所述另一數據節點的數據，并將所述獲取的數據寫入至所述另一數據節點中，觸發所述另一數據節點更新其數據版本；所述方法包括依據預設規則在所述數據副本集群中被選取的當前數據節點接收待更新數據，并將所述待更新數據寫入至本數據節點；其中，所述待更新數據在所述數據副本集群接收到的更新請求信息中提取；并更新所述當前數據節點的數據版本；若當前系統時間到達所述預設時間間隔點，所述當前數據節點獲取本數據節點中不同于所述另一數據節點的數據，并將所述獲取的數據寫入至所述另一數據節點中，觸發所述另一數據節點更新其數據版本。2.根據權利要求I所述的方法，其特征在于，所述數據節點的數據版本包括被寫入數據的標識信息；所述更新所述當前數據節點的數據版本包括將所述待更新數據的標識信息添加至所述當前數據節點的數據版本中。3.根據權利要求I所述的方法，其特征在于，所述依據預設規則在所述數據副本集群中選取當前數據節點包括任意選取所述數據副本集群中的一個數據節點作為當前數據節點；或選取所述數據副本集群中數據版本最大的數據節點作為當前數據節點。4.根據權利要求2所述的方法，其特征在于，所述當前數據節點獲取本數據節點中不同于所述另一數據節點的數據，并將所述獲取的數據寫入至所述另一數據節點中，觸發所述另一數據節點更新其數據版本包括所述當前數據節點依據其數據版本生成同步請求信息，并將所述同步請求信息發送至所述另一數據節點；其中，所述同步請求信息包括所述當前數據節點的數據版本；所述另一數據節點依據其數據版本及所述當前數據節點的數據版本生成同步回復信息，并將所述同步回復信息發送至所述當前數據節點；其中，所述同步回復信息包括所述當前數據節點中不同于所述另一數據節點的數據的標識信息；所述當前數據節點提取與所述同步回復信息中的標識信息相對應的數據，并將所述提取的數據寫入至所述另一數據節點，觸發所述另一數據節點更新其數據版本。5.一種海量數據處理裝置，其特征在于，應用于預設的分布式數據副本集群中存儲有海量數據的數據節點；其中，所述數據副本集群至少包括一個所述數據節點，所述每一數據節點至少與一個不同于本數據節點的另一數據節點相連；所述裝置包括計時單元、第一寫入單元、第二寫入單元和版本更新單元，...

【專利技術屬性】
技術研發人員：李晨，馬向暉，
申請(專利權)人：杭州勒卡斯廣告策劃有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術