• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于混合存儲方案的impala在線交互式查詢方法技術

    技術編號:19858049 閱讀:30 留言:0更新日期:2018-12-22 11:49
    本發明專利技術實施例提供了一種基于混合存儲方案的impala在線交互式查詢方法,包括:用hadoop命令建立hbase表,并用impala在hdfs上建表;在HIVE中建立外部表進行關聯,并在impala中查看是否有外部表;若在impala中具有外部表,則創建腳本將當日數據導入至所述hdfs;當用戶發出查詢請求時,分別對hdfs和hbase進行查詢,并將查詢結果組合顯示給用戶。本發明專利技術實施例提供的基于混合存儲方案的impala在線交互式查詢方法,充分利用hbase和hdfs的特點對增量的數據進行混合存儲,提高impala交互式查詢的速度。

    【技術實現步驟摘要】
    一種基于混合存儲方案的impala在線交互式查詢方法
    本專利技術實施例涉及大數據處理
    ,尤其涉及一種基于混合存儲方案的impala在線交互式查詢方法。
    技術介紹
    近年來,隨著計算機存儲能力的提升和信息技術的發展,數據量成指數型增長,大數據的趨勢使得科學技術發展日新月異,大數據技術興起,商業模式也發生了顛覆性變化。大數據不僅僅代表的是海量的數據,更代表著對海量數據的存儲、處理的技術。大數據充斥著人類經濟社會的角角落落,如何從海量數據去提取有價值的信息是一個亟待解決的問題。大數據的處理和傳統的處理方式不同,它主要利用了多臺機器的強大的并行計算能力。經過這些年的發展,大數據領域出現了各種大數據處理平臺,如hadoop,spark,storm,這些框架通常針對某類大數據問題進行處理。一般將大數據處理的問題分為三大類:實時數據流處理問題、離線批量數據處理問題、大規模數據交互式查詢問題。impala是hadoop生態體系的一員,主要為了解決第三類問題:大規模數據交互式查詢,它可以對存儲在hadoop數據庫hbase和分布式文件系統hdfs上的數據用類似SQL語句進行交互式查詢。我們在實踐中碰到的問題是,數據庫每天有大量消息存進來,用戶需要對數據庫所有數據進行交互式查詢,要求響應盡量快,在用戶能容忍的時間范圍內,傳統的方法是將這些數據存儲在hbase或者hdfs上,用impala對hbase或者hdfs查詢。基于hbase的存儲方案,當數據量不斷增大達到百萬級別時,impala在hbase上的查詢時間顯著增加達到幾十秒,無法滿足需求。而基于hdfs構建的存儲方法,查詢速度比在hbase上查詢快很多,而且可以采用基于時間的分區存儲策略,將每個消息寫入一個文件,在選定查詢時段情況下,可使得查詢規模只與該段時間有關,明顯的縮短了查詢時間。但是每條消息作為一個文件,namenode會為每個文件維護元數據存在內存中,大量的文件會消耗namenode大量的內存,給hadoop的擴展性和性能帶來嚴重問題。因此,如何綜合利用hdfs和hbase的特點來解決上述問題是目前研究的重點。
    技術實現思路
    為了解決上述問題,本專利技術實施例提供一種克服上述問題或者至少部分地解決上述問題的一種基于混合存儲方案的impala在線交互式查詢方法,包括:用hadoop命令建立hbase表,并用impala在hdfs上建表;在HIVE中建立外部表進行關聯,并在impala中查看是否有外部表;若在impala中具有外部表,則創建腳本將當日數據導入至所述hdfs;當用戶發出查詢請求時,分別對hdfs和hbase進行查詢,并將查詢結果組合顯示給用戶。其中,所述用impala在hdfs上建表包括:創建查詢條件對應的查詢字段以及將數據按照每天進行分區。其中,所述當用戶發出查詢請求時,分別對hdfs和hbase進行查詢,并將查詢結果組合顯示給用戶,包括:檢測查詢條件中是否包含時間條件,若包含時間條件且所有需要查詢的數據均已復制到hdfs的表,則只對hdfs進行查詢;若包含時間條件且所有需要查詢的數據均未復制到hdfs中則只對HBase進行查詢;若不包含時間條件或時間條件中的數據一部分存儲在hdfs中另一部分存儲在hbase中則對hbase和hdfs進行聯合查詢。其中,在所述當用戶發出查詢請求時,分別對hdfs和hbase進行查詢,并將查詢結果組合顯示給用戶之后,所述方法還包括:統計用戶發出查詢請求對應的數據數量,并分別從單hdfs、單hbase以及hdfs聯合hbasee中取出符合條件的數據條數。其中,在所述統計用戶發出查詢請求對應的數據數量,并分別從單hdfs、單hbase以及hdfs聯合hbasee中取出符合條件的數據條數后,所述方法還包括:在impala中設置查詢的步長和起始地址,以提供翻頁和跳頁操作。其中,所述方法還包括:若在impala中不具有外部表,則使用INVALIDATEMETADATA刷新元數據。其中,所述方法還包括:對所述腳本進行定時腳本任務。本專利技術實施例提供的基于混合存儲方案的impala在線交互式查詢方法,充分利用hbase和hdfs的特點對增量的數據進行混合存儲,提高impala交互式查詢的速度。附圖說明為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1是本專利技術實施例提供的一種基于混合存儲方案的impala在線交互式查詢方法流程示意圖;圖2為本專利技術實施例中提出的混合存儲方案的實施步驟流程示意圖;圖3為本專利技術實施例中提出的混合查詢的流程示意圖。具體實施方式為使本專利技術實施例的目的、技術方案和優點更加清楚,下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚地描述,顯然,所描述的實施例是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。目前,基于hbase的存儲方案,當數據量不斷增大達到百萬級別時,impala在hbase上的查詢時間顯著增加達到幾十秒,無法滿足需求。而基于hdfs構建的存儲方法,查詢速度比在hbase上查詢快很多,而且可以采用基于時間的分區存儲策略,將每個消息寫入一個文件,在選定查詢時段情況下,可使得查詢規模只與該段時間有關,明顯的縮短了查詢時間。但是每條消息作為一個文件,namenode會為每個文件維護元數據存在內存中,大量的文件會消耗namenode大量的內存,給hadoop的擴展性和性能帶來嚴重問題。針對上述現有技術中存在的問題,圖1是本專利技術實施例提供的一種基于混合存儲方案的impala在線交互式查詢方法流程示意圖,圖2為本專利技術實施例中提出的混合存儲方案的實施步驟流程示意圖,圖3為本專利技術實施例中提出的混合查詢的流程示意圖,參照圖1、圖2和圖3所示,本專利技術實施例提供的基于混合存儲方案的impala在線交互式查詢方法包括:用hadoop命令建立hbase表,并用impala在hdfs上建表;在HIVE中建立外部表進行關聯,并在impala中查看是否有外部表;若在impala中具有外部表,則創建腳本將當日數據導入至所述hdfs;當用戶發出查詢請求時,分別對hdfs和hbase進行查詢,并將查詢結果組合顯示給用戶。需要說明的是,本專利技術實施例的整體方案思路是使用一種hbase和hdfs混合存儲的方案提高了impala在線交互式查詢的響應速度數據。存儲部分采用HDFS和HBase聯合存儲,Hbase只負責臨時存儲當天數據,設置腳本第二天將前一天數據自動導入到hdfs成為一個大文件。當我們查詢所有數據時,需要對hbase和hdfs分別進行查詢,然后將查詢結果合并在一起。首先按照預先設計的表格式在hbase中建立表,將所有的列都設計在同一個列族下,對hbase設置一個TTL為90000即為25小時,TTL表示超過25小時的數據會被刪掉,因為數據已經被導入到hdfs,這時刪掉hbase的數據完全可行,多留的一本文檔來自技高網
    ...

    【技術保護點】
    1.一種基于混合存儲方案的impala在線交互式查詢方法,其特征在于,包括:用hadoop命令建立hbase表,并用impala在hdfs上建表;在HIVE中建立外部表進行關聯,并在impala中查看是否有外部表;若在impala中具有外部表,則創建腳本將當日數據導入至所述hdfs;當用戶發出查詢請求時,分別對hdfs和hbase進行查詢,并將查詢結果組合顯示給用戶。

    【技術特征摘要】
    1.一種基于混合存儲方案的impala在線交互式查詢方法,其特征在于,包括:用hadoop命令建立hbase表,并用impala在hdfs上建表;在HIVE中建立外部表進行關聯,并在impala中查看是否有外部表;若在impala中具有外部表,則創建腳本將當日數據導入至所述hdfs;當用戶發出查詢請求時,分別對hdfs和hbase進行查詢,并將查詢結果組合顯示給用戶。2.根據權利要求1所述的方法,其特征在于,所述用impala在hdfs上建表包括:創建查詢條件對應的查詢字段以及將數據按照每天進行分區。3.根據權利要求2所述的方法,其特征在于,所述當用戶發出查詢請求時,分別對hdfs和hbase進行查詢,并將查詢結果組合顯示給用戶,包括:檢測查詢條件中是否包含時間條件,若包含時間條件且所有需要查詢的數據均已復制到hdfs的表,則只對hdfs進行查詢;若包含時間條件且所有需要查詢的數據均未復制到hdfs中則只對HBase進行查詢;若不包含時間條件或時...

    【專利技術屬性】
    技術研發人員:李開鄒復好訚實松劉鵬坤孫斌
    申請(專利權)人:武漢魅瞳科技有限公司
    類型:發明
    國別省市:湖北,42

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲中文字幕无码亚洲成A人片| 99热门精品一区二区三区无码 | 亚洲毛片无码专区亚洲乱| 亚洲人成无码久久电影网站| 潮喷无码正在播放| 国产成人无码免费网站| 夜夜添无码试看一区二区三区| 无码人妻久久一区二区三区蜜桃 | 亚洲av无码国产综合专区| 无码A级毛片日韩精品| 亚洲AV无码之日韩精品| 亚洲GV天堂GV无码男同| 午夜无码性爽快影院6080| 一道久在线无码加勒比| 最新中文字幕AV无码不卡| 中文一国产一无码一日韩| 亚洲AV无码一区东京热久久| 无码av人妻一区二区三区四区| 成人免费a级毛片无码网站入口 | 无码一区二区三区爆白浆| 亚洲 无码 在线 专区| AAA级久久久精品无码片| 亚洲av无码乱码在线观看野外| 亚洲AV无码国产精品色午友在线 | 日韩中文无码有码免费视频| 久久国产精品无码HDAV| 国产成人无码AV一区二区在线观看| 亚洲中文无码mv| 亚洲AV综合色区无码二区爱AV| 中文字幕人妻无码一夲道 | 精品人妻中文无码AV在线| 最新中文字幕av无码专区| 免费无码VA一区二区三区| 亚欧免费无码aⅴ在线观看| 国产白丝无码免费视频| 日韩乱码人妻无码系列中文字幕 | 无码任你躁久久久久久久| 永久免费av无码网站大全| 无码中文2020字幕二区| 伊人蕉久中文字幕无码专区| 无码人妻丰满熟妇啪啪|