• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種大數據分布式存儲方法和系統技術方案

    技術編號:15105324 閱讀:107 留言:0更新日期:2017-04-08 15:52
    本發明專利技術提供了一種大數據分布式存儲方法和系統,該方法包括:將數據管理引擎運行在主節點上,對用戶查詢進行編譯、轉換和優化、生成查詢執行計劃并執行,進行元數據管理和節點監控;在分布式計算節點上運行服務器進程,執行分布式計算任務;將分布式計算的工作進程以及單節點數據庫部署在數據節點;將子查詢在數據庫中執行或者在分布式計算框架中執行。本發明專利技術增加了將查詢下推到數據庫中執行的機會,避免跨節點連接帶來的數據傳輸代價,提高了查詢性能。

    【技術實現步驟摘要】

    本專利技術涉及云存儲,特別涉及一種大數據分布式存儲方法和系統
    技術介紹
    隨著移動互聯網、物聯網等應用的飛速發展,全球數據量出現了爆炸式增長。數據量的飛速增長預示著現在已經進入了大數據時代。網絡運營商擁有龐大的用戶,同時具有對終端及用戶上網通道的掌控能力,使得在用戶行為分析方面具有很好的數據基礎,深入分析用戶流量行為特征和規律,發現用戶潛在消費需求,是提升價值和經營水平的有效手段。然而,不僅僅是數據規模越來越大,而且數據類型多和處理實時性要求都極大地增加了大數據處理的復雜度。大數據給傳統的數據分析處理技術(例如并行數據庫、數據倉庫)帶來的技術挑戰。傳統數據分析處理技術無法處理大數據的高擴展性和海量需求;傳統數據分析處理往往只針對某一種類型數據和比較單一,大數據具有數據量巨大、結構復雜、類型眾多等特點,這對大數據的存儲、處理與分析提出了新的挑戰。并行數據庫的高效性和穩定性成為數據分析在性能上的首選。但是基于成本的考慮,隨著云計算服務平臺的普及,將大規模數據分析任務從部署在并行數據庫的高端服務器轉移至更便宜的無共享體系結構的低端服務器集群上,成為當下海量數據分析真正需要解決的成本瓶頸問題。因此,針對相關技術中所存在的上述問題,目前尚未提出有效的解決方案。
    技術實現思路
    為解決上述現有技術所存在的問題,本專利技術提出了一種大數據分布式存儲方法,包括:一種大數據分布式存儲方法,用于在云存儲系統中實現大數據的存儲和查詢,所述云存儲系統包括主節點,分布式計算節點和數據節點,包括:將數據管理引擎運行在主節點上,接收用戶查詢,對查詢進行編譯、轉換和優化、生成查詢執行計劃并執行查詢,同時進行元數據管理和節點監控;在分布式計算節點上運行服務器進程,執行分布式計算任務;將分布式計算的工作進程以及單節點數據庫部署在數據節點,將數據表存儲在數據節點的數據庫中,將由用戶查詢轉換成的子查詢在數據庫中執行,或者在分布式計算框架中執行。所述數據表使用二維關系表結構,數據表的存儲采用獨立劃分存儲和組合劃分存儲,其中:在對表進行獨立劃分時,指定劃分數n、劃分所依據的劃分鍵屬性列AP以及冗余系數k。對于需要劃分的表的每一條元組,根據劃分鍵AP的值計算出該元組所屬的劃分ID,然后將該元組存儲到該劃分對應的一個或者多個節點的數據庫中;如果事實表A的劃分鍵AP上是表A的外碼,指向維表B的主碼BP即表A的劃分鍵AP也是表A與表B連接時使用的連接鍵,則將跨節點的連接操作轉化為本地的連接操作并下推到數據庫中執行,此時將兩個表的數據組合劃分;在對表進行組合劃分時,使用基于散列的劃分或者基于范圍的劃分,將數據劃分為p個獨立的劃分,每個劃分的數據存儲在k個不同節點上;若表B依賴于表A進行組合劃分,則表B的劃分數等于表A的劃分數,且:如果表B的冗余系數kB等于表A的冗余系數kA,則表B的每個劃分的存儲節點就是表A相應劃分的存儲節點;如果表B的冗余系數kB小于表A的冗余系數kA,則表B的每個劃分的存儲節點是表B相應劃分的存儲節點中取前kB個節點;如果表B的冗余系數kB大于表A的冗余系數kA,則表B的每個劃分的存儲節點除了包含表A的相應劃分的存儲節點之外再進行擴展,擴展的(kB-kA)個節點是緊接在原來的節點鏈之后的節點。優選地,在將表的元組進行獨立劃分時,利用基于散列的劃分或基于范圍的劃分,基于散列的劃分在元組劃分鍵AP上應用合適的散列函數,得到的散列值再對劃分數n取模,即得到元組的劃分ID;針對不同的數據類型,應用不同的散列函數;基于范圍的劃分預先將屬性列AP的候選值區間劃分成多個連續的范圍,每個范圍對應一個劃分,將元組屬性列AP的值所在范圍作為元組所述的劃分。優選地,所述查詢執行進一步包括:1)用戶通過客戶端提交查詢,數據管理引擎接收用戶查詢;2)對查詢語句進行詞法和語法分析,生成語法樹,然后將語法樹轉化為標準的關系代數樹,并進行語義檢查;將關系代數樹轉化為邏輯查詢計劃,并應用啟發式規則對其進行初步優化;根據代價模型選擇最優的查詢路徑,生成實際查詢計劃;將實際查詢計劃轉化為一個任務調度圖,所述任務調度圖中的每個任務都是一個子查詢,對應一個分布式計算任務,每個任務必須待其依賴的任務執行完成后才能開始執行;3)調度和監控任務的執行,根據任務之間的執行依賴關系將任務有序提交給分布式計算服務器,并報告各個任務的執行狀態,將單個任務執行后生成的中間結果或者最終結果存儲到數據庫的表中或者寫入分布式文件系統中,通過數據物化的方式在不同任務之間實現輸入輸出數據的傳遞;4)將最后生成的結果返回給用戶中。根據本專利技術的另一方面,提供了一種大數據分布式存儲系統,包括主節點,分布式計算節點和數據節點。所述主節點,用于運行數據管理引擎,該數據管理引擎配置以接收用戶查詢,對查詢進行編譯、轉換和優化、生成查詢執行計劃并執行查詢,同時進行元數據管理和節點監控;所述分布式計算節點,用于運行服務器進程,執行分布式計算任務;所述數據節點,用于部署分布式計算的工作進程以及單節點數據庫,數據表存儲在所述數據庫中,其中,由用戶查詢轉換成的子查詢在數據庫中執行,或者在分布式計算框架中執行優選地,所述數據管理引擎進一步包括:元數據管理模塊,用于存儲數據庫的元數據信息,所述元數據包括數據表的模式、表數據的劃分與存儲方法、數據節點信息;查詢編譯模塊,用于對用戶提交的查詢進行編譯,生成邏輯查詢計劃;查詢優化模塊,用于使用基于規則和基于代價的方法對邏輯查詢計劃進行優化,得到實際查詢計劃,然后將其轉換成由分布式計算任務組成的任務調度圖,提交給查詢執行模塊執行;查詢執行模塊,用于調度分布式計算任務,按照各個任務的依賴關系,同步的執行調度,并監控任務的執行狀態,其中每個任務只有在它所依賴的所有任務都執行成功后才能被啟動;節點監控與負載平衡模塊,用于定時輪詢各個數據節點的狀態,發現節點失效后更新相應元數據,當冗余值低于預定義閾值后,對數據增加新的冗余,定期檢查數據分布狀態,當發現節點負載不平衡時對數據進行重新分布。本專利技術相比現有技術,具有以下優點:提出了結合數據庫和分布式計算框架的混合數據倉庫架構。改進了大數據的分布式存儲方法,增加了將查詢下推到數據庫中執行的機會,避免跨節點連接帶來的數據傳輸代價。基于隊列的任務調度算法提高了查詢并行度;同時支持簡約查詢的輕量級響應模式;具有很好的加載性能、查詢性能和容錯能力。<本文檔來自技高網...

    【技術保護點】
    一種大數據分布式存儲方法,用于在云存儲系統中實現大數據的存儲和查詢,所述云存儲系統包括主節點,分布式計算節點和數據節點,其特征在于,包括:將數據管理引擎運行在主節點上,接收用戶查詢,對查詢進行編譯、轉換和優化、生成查詢執行計劃并執行查詢,同時進行元數據管理和節點監控;在分布式計算節點上運行服務器進程,執行分布式計算任務;將分布式計算的工作進程以及單節點數據庫部署在數據節點,將數據表存儲在數據節點的數據庫中;將由用戶查詢轉換成的子查詢在數據庫中執行,或者在分布式計算框架中執行。

    【技術特征摘要】
    1.一種大數據分布式存儲方法,用于在云存儲系統中實現大數據的存儲和查詢,
    所述云存儲系統包括主節點,分布式計算節點和數據節點,其特征在于,包括:
    將數據管理引擎運行在主節點上,接收用戶查詢,對查詢進行編譯、轉換和優
    化、生成查詢執行計劃并執行查詢,同時進行元數據管理和節點監控;在分布
    式計算節點上運行服務器進程,執行分布式計算任務;將分布式計算的工作進
    程以及單節點數據庫部署在數據節點,將數據表存儲在數據節點的數據庫中;
    將由用戶查詢轉換成的子查詢在數據庫中執行,或者在分布式計算框架中執行。
    2.根據權利要求1所述的方法,其特征在于,所述數據表使用二維關系表結構,
    數據表的存儲采用獨立劃分存儲和組合劃分存儲,其中:在對表進行獨立劃分
    時,指定劃分數n、劃分所依據的劃分鍵屬性列AP以及冗余系數k。對于需
    要劃分的表的每一條元組,根據劃分鍵AP的值計算出該元組所屬的劃分ID,
    然后將該元組存儲到該劃分對應的一個或者多個節點的數據庫中;如果事實表
    A的劃分鍵AP上是表A的外碼,指向維表B的主碼BP即表A的劃分鍵
    AP也是表A與表B連接時使用的連接鍵,則將跨節點的連接操作轉化為本
    地的連接操作并下推到數據庫中執行,此時將兩個表的...

    【專利技術屬性】
    技術研發人員:李東
    申請(專利權)人:青島金訊網絡工程有限公司
    類型:發明
    國別省市:山東;37

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 东京热加勒比无码视频| 国产日韩AV免费无码一区二区三区 | 精品人妻无码专区在中文字幕| 亚洲AV无码AV吞精久久| 一级毛片中出无码| 无码国内精品人妻少妇| 精品久久久无码中字| 人妻丰满AV无码久久不卡| 日韩视频无码日韩视频又2021 | 韩国19禁无遮挡啪啪无码网站| 亚洲熟妇无码久久精品| 少妇无码太爽了不卡在线观看| 亚洲AV综合色区无码一二三区 | 无码中文2020字幕二区| 国产AV无码专区亚洲Av| 少妇无码AV无码一区| 国产av永久精品无码| 蜜臀AV无码精品人妻色欲| 免费无码中文字幕A级毛片| 国产精品无码久久综合| 一区二区三区无码高清| 无码中文av有码中文av| 亚洲最大无码中文字幕| 亚洲中文无码卡通动漫野外 | 亚洲一本到无码av中文字幕| 亚洲av永久无码精品漫画| 黑人无码精品又粗又大又长| 国产精品无码一本二本三本色| 亚洲AV无码一区二区大桥未久| 少妇无码AV无码专区在线观看| 国产在线无码不卡影视影院| 国内精品人妻无码久久久影院导航| 无码人妻一区二区三区免费视频| 精品无码久久久久久国产 | 水蜜桃av无码一区二区| 亚洲国产AV无码专区亚洲AV | 国产激情无码一区二区app| 中文字幕无码精品三级在线电影| 国产乱人无码伦av在线a| 色窝窝无码一区二区三区| 免费A级毛片无码专区|