一種基于混合存儲方案的impala在線交互式查詢方法技術

技術編號：19858049 閱讀：30 留言：0更新日期：2018-12-22 11:49

本發明專利技術實施例提供了一種基于混合存儲方案的impala在線交互式查詢方法，包括：用hadoop命令建立hbase表，并用impala在hdfs上建表；在HIVE中建立外部表進行關聯，并在impala中查看是否有外部表；若在impala中具有外部表，則創建腳本將當日數據導入至所述hdfs；當用戶發出查詢請求時，分別對hdfs和hbase進行查詢，并將查詢結果組合顯示給用戶。本發明專利技術實施例提供的基于混合存儲方案的impala在線交互式查詢方法，充分利用hbase和hdfs的特點對增量的數據進行混合存儲，提高impala交互式查詢的速度。

全部詳細技術資料下載

【技術實現步驟摘要】
一種基于混合存儲方案的impala在線交互式查詢方法
本專利技術實施例涉及大數據處理
，尤其涉及一種基于混合存儲方案的impala在線交互式查詢方法。
技術介紹
近年來，隨著計算機存儲能力的提升和信息技術的發展，數據量成指數型增長，大數據的趨勢使得科學技術發展日新月異，大數據技術興起，商業模式也發生了顛覆性變化。大數據不僅僅代表的是海量的數據，更代表著對海量數據的存儲、處理的技術。大數據充斥著人類經濟社會的角角落落，如何從海量數據去提取有價值的信息是一個亟待解決的問題。大數據的處理和傳統的處理方式不同，它主要利用了多臺機器的強大的并行計算能力。經過這些年的發展，大數據領域出現了各種大數據處理平臺，如hadoop，spark，storm，這些框架通常針對某類大數據問題進行處理。一般將大數據處理的問題分為三大類：實時數據流處理問題、離線批量數據處理問題、大規模數據交互式查詢問題。impala是hadoop生態體系的一員，主要為了解決第三類問題：大規模數據交互式查詢，它可以對存儲在hadoop數據庫hbase和分布式文件系統hdfs上的數據用類似SQL語句進行交互式查詢。我們在實踐中碰到的問題是，數據庫每天有大量消息存進來，用戶需要對數據庫所有數據進行交互式查詢，要求響應盡量快，在用戶能容忍的時間范圍內，傳統的方法是將這些數據存儲在hbase或者hdfs上，用impala對hbase或者hdfs查詢。基于hbase的存儲方案，當數據量不斷增大達到百萬級別時，impala在hbase上的查詢時間顯著增加達到幾十秒，無法滿足需求。而基于hdfs構建的存儲方法，...

【技術保護點】
1.一種基于混合存儲方案的impala在線交互式查詢方法，其特征在于，包括：用hadoop命令建立hbase表，并用impala在hdfs上建表；在HIVE中建立外部表進行關聯，并在impala中查看是否有外部表；若在impala中具有外部表，則創建腳本將當日數據導入至所述hdfs；當用戶發出查詢請求時，分別對hdfs和hbase進行查詢，并將查詢結果組合顯示給用戶。

【技術特征摘要】
1.一種基于混合存儲方案的impala在線交互式查詢方法，其特征在于，包括：用hadoop命令建立hbase表，并用impala在hdfs上建表；在HIVE中建立外部表進行關聯，并在impala中查看是否有外部表；若在impala中具有外部表，則創建腳本將當日數據導入至所述hdfs；當用戶發出查詢請求時，分別對hdfs和hbase進行查詢，并將查詢結果組合顯示給用戶。2.根據權利要求1所述的方法，其特征在于，所述用impala在hdfs上建表包括：創建查詢條件對應的查詢字段以及將數據按照每天進行分區。3.根據權利要求2所述的方法，其特征在于，所述當用戶發出查詢請求時，分別對hdfs和hbase進行查詢，并將查詢結果組合顯示給用戶，包括：檢測查詢條件中是否包含時間條件，若包含時間條件且所有需要查詢的數據均已復制到hdfs的表，則只對hdfs進行查詢；若包含時間條件且所有需要查詢的數據均未復制到hdfs中則只對HBase進行查詢；若不包含時間條件或時...

【專利技術屬性】
技術研發人員：李開，鄒復好，訚實松，劉鵬坤，孫斌，
申請(專利權)人：武漢魅瞳科技有限公司，
類型：發明
國別省市：湖北,42

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術