本發明專利技術公開了一種用于聯機分析處理的數據處理方法和裝置。該用于聯機分析處理的數據處理方法包括:獲取對聯機分析處理中的數據進行分區得到的多個分區;分別計算多個分區的去重計數指標的用戶數;以及將計算得到的多個分區的去重計數指標的用戶數相加,得到聯機分析處理中的去重計數的用戶數。通過本發明專利技術,解決了現有技術中在進行聯機分析處理時內存開銷比較大的問題,達到了減少聯機分析處理時內存開銷的效果。
【技術實現步驟摘要】
用于聯機分析處理的數據處理方法和裝置
本專利技術涉及數據處理領域,具體而言,涉及一種用于聯機分析處理的數據處理方法和裝置。
技術介紹
去重指標指“訪問者”這樣的用戶數指標,是不可累加的指標,在計算時,需要對所有需要的數據都加載到內存,再進行去重,最后得到用戶數指標。不可累加指標是指標數據不能疊加,假設聯機分析處理里按時間進行分區,例如每個月份分一個區,若9月份的分區中記錄的用戶數為100,10月份的分區中記錄的用戶數為200,那么近兩月(9月和10月)的訪問用戶數在去重之后有可能是200至300之間的任意一個值,對于這種去重指標為不可累加指標,其值不能由各分區得出的值直接相加獲得,需要將所有值加載到內存之后,再進行去重才能獲得。去重指標是不可累加的指標,按照傳統的分區方式,在各個分區內計算的用戶數等去重指標,不能直接累加,需要所有分區一起參與計算,因此內存開銷較大。針對現有技術中在進行聯機分析處理時內存開銷比較大的問題,目前尚未提出有效的解決方案。
技術實現思路
本專利技術的主要目的在于提供一種用于聯機分析處理的數據處理方法和裝置,以解決相關技術中在進行聯機分析處理時內存開銷比較大問題。為了實現上述目的,根據本專利技術的一個方面,提供了一種用于聯機分析處理的數據處理方法。該數據處理方法包括:獲取對聯機分析處理中的數據進行分區得到的多個分區;分別計算多個分區的去重計數指標的用戶數;以及將計算得到的多個分區的去重計數指標的用戶數相加,得到聯機分析處理中的去重計數的用戶數。進一步地,在獲取對聯機分析處理中的數據進行分區得到的多個分區之前,數據處理方法包括:對聯機分析處理中的數據進行分區處理,得到對應于多個時間段的多個第一分區;將每個第一分區劃分為多個子分區;以及將多個子分區作為對聯機分析處理中的數據進行分區得到的多個分區。進一步地,多個子分區中的每個子分區包括同一哈希組的用戶數據,在獲取對聯機分析處理中的數據進行分區得到的多個分區之后,數據處理方法包括:判斷是否有新增加用戶;如果判斷出有新增加的用戶,則獲取預先設置的哈希組;以及將新增加用戶的用戶數據分配到預先設置的哈希組中。進一步地,將計算得到的多個分區的去重計數指標的用戶數相加,得到聯機分析處理中的去重計數的用戶數包括:查找去重計數指標的相關列;由去重計數指標的相關列創建用戶哈希映射列,其中,去重計數指標的相關列和用戶哈希映射列為一一對應關系;以及通過采用用戶哈希映射列替換去重計數指標的相關列進行去重計數計算。進一步地,通過采用用戶哈希映射列替換去重計數指標的相關列進行去重計數計算包括:獲取聯機分析處理中的去重計數指標;以及通過直接更改聯機分析處理中的去重計數指標進行去重計數計算。為了實現上述目的,根據本專利技術的另一方面,提供了一種用于聯機分析處理的數據處理裝置。該數據處理裝置包括:第一獲取單元,用于獲取對聯機分析處理中的數據進行分區得到的多個分區;計算單元,用于分別計算多個分區的去重計數指標的用戶數;以及求和單元,用于將計算得到的多個分區的去重計數指標的用戶數相加,得到聯機分析處理中的去重計數的用戶數。進一步地,數據處理裝置包括:分區單元,用于在獲取對聯機分析處理中的數據進行分區得到的多個分區之前,對聯機分析處理中的數據進行分區處理,得到對應于多個時間段的多個第一分區;劃分單元,用于將每個第一分區劃分為多個子分區;以及處理單元,用于將多個子分區作為對聯機分析處理中的數據進行分區得到的多個分區。進一步地,多個子分區中的每個子分區包括同一哈希組的用戶數據,數據處理裝置包括:判斷單元,用于在獲取對聯機分析處理中的數據進行分區得到的多個分區之后,判斷是否有新增加用戶;第二獲取單元,用于在判斷出有新增加的用戶時,獲取預先設置的哈希組;以及分配單元,用于將新增加用戶的用戶數據分配到預先設置的哈希組中。進一步地,求和單元包括:查找模塊,用于查找去重計數指標的相關列;映射模塊,用于由去重計數指標的相關列創建用戶哈希映射列,其中,去重計數指標的相關列和用戶哈希映射列為一一對應關系;以及去重模塊,用于通過采用用戶哈希映射列替換去重計數指標的相關列進行去重計數計算。進一步地,去重模塊包括:獲取子模塊,用于獲取聯機分析處理中的去重計數指標;以及去重子模塊,用于通過直接更改聯機分析處理中的去重計數指標進行去重計數計算。通過本專利技術,采用獲取對聯機分析處理中的數據進行分區得到的多個分區;分別計算所述多個分區的去重計數指標的用戶數;以及將計算得到的所述多個分區的去重計數指標的用戶數相加,得到所述聯機分析處理中的去重計數的用戶數,解決了現有技術中進行聯機分析處理時內存開銷比較大的問題,進而達到了減少聯機分析處理時內存開銷的效果。【附圖說明】構成本申請的一部分的附圖用來提供對本專利技術的進一步理解,本專利技術的示意性實施例及其說明用于解釋本專利技術,并不構成對本專利技術的不當限定。在附圖中:圖1是根據本專利技術一實施例的數據處理方法的流程圖;圖2是根據本專利技術又一實施例的數據處理方法的流程圖;圖3是根據本專利技術實施例的計算聯機分析處理中的去重計數的用戶數的流程圖;圖4是根據本專利技術一實施例的數據處理裝置的示意圖;圖5是根據本專利技術又一實施例的數據處理裝置的示意圖;以及圖6是根據本專利技術實施例的又一實施例的數據處理裝置的示意圖。【具體實施方式】需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本專利技術。本專利技術實施例提供了一種用于聯機分析處理的數據處理方法。圖1是根據本專利技術一實施例的數據處理方法的流程圖。如圖所示,該數據處理方法包括如下步驟:步驟S101,獲取對聯機分析處理中的數據進行分區得到的多個分區。需要進行聯機分析處理的數據通常按照一定的規則存儲在某個分區中,例如,按時間存儲在不同的時間分區中,例如按照每個月份進行分區,對于一年的數據就可以分為12個區,假設當前月份是11月份,則最近兩個月份為9月份和10月份。聯機分析處理中的數據可以存儲近兩個月的數據或者更長時間的數據。為了方便對聯機分析處理中的數據進行計算處理,對按照例如月份進行分區之后得到的分區再按照一定規則進行分區處理。例如,按照用戶是數量或者CPU的數量對10月份分區內的數據再進行分區處理,得到多個分區。經過再次分區得到的多個分區中的數據可以由不可累加的指標變成可累加的指標。需要說明的是,這里所說的分區規則不用于限制本專利技術的技術方案,應當理解為本專利技術技術方案的優選實施方式。步驟S102,分別計算多個分區的去重計數指標的用戶數。 用戶數是指訪問者的數目,由于一個訪問者可能多次訪問某個網址,那么每次訪問都會計數一次,每個月份同一個訪問者多次訪問同一個網址,則每個月份該訪問者會被多次計數。為了準確計算訪問一個網址的實際用戶數,則需要對記錄的用戶數進行去重計笪ο由于通過分區將可以進行累加的一類指標數據存放至一個分區上,每個分區上的數據按照用戶唯一標識作為分區條件,則每個分區中存放的用戶相同,不同分區中的用戶不相同,對多個分區中的用戶數分別進行去重計數指標的計算,得到每個分區的去重計數指標的用戶數。步驟S103,將計算得到的多個分區的去重計數指標的用戶數相加,得到聯機分析處理中的去重計數的用戶數。本文檔來自技高網...

【技術保護點】
一種用于聯機分析處理的數據處理方法,其特征在于,包括:獲取對聯機分析處理中的數據進行分區得到的多個分區;分別計算所述多個分區的去重計數指標的用戶數;以及將計算得到的所述多個分區的去重計數指標的用戶數相加,得到所述聯機分析處理中的去重計數的用戶數。
【技術特征摘要】
1.一種用于聯機分析處理的數據處理方法,其特征在于,包括: 獲取對聯機分析處理中的數據進行分區得到的多個分區; 分別計算所述多個分區的去重計數指標的用戶數;以及 將計算得到的所述多個分區的去重計數指標的用戶數相加,得到所述聯機分析處理中的去重計數的用戶數。2.根據權利要求1所述的數據處理方法,其特征在于,在獲取對聯機分析處理中的數據進行分區得到的多個分區之前,所述數據處理方法還包括: 對所述聯機分析處理中的數據進行分區處理,得到對應于多個時間段的多個第一分區; 將每個所述第一分區均劃分為多個子分區;以及 將所述多個子分區作為對所述聯機分析處理中的數據進行分區得到的多個分區。3.根據權利要求2所述的數據處理方法,其特征在于,所述多個子分區中的每個子分區包括同一哈希組的用戶數據,在獲取對聯機分析處理中的數據進行分區得到的多個分區之后,所述數據處理方法還包括: 判斷是否有新增加用戶; 如果判斷出有新增加的用戶,則獲取預先設置的哈希組;以及 將所述新增加用戶的用戶數據分配到所述預先設置的哈希組中。4.根據權利要求1所述的數據處理方法,其特征在于,將計算得到的所述多個分區的去重計數指標的用戶數相加,得到所述聯機分析處理中的去重計數的用戶數包括: 查找所述去重計數指標的相關列; 由所述去重計數指標的相關列創建用戶哈希映射列,其中,所述去重計數指標的相關列和所述用戶哈希映射列為一一對應關系;以及 通過采用所述用戶哈希映射列替換所述去重計數指標的相關列進行去重計數計算。5.根據權利要求4所述的數據處理方法,其特征在于,通過采用所述用戶哈希映射列替換所述去重計數指標的相關列進行去重計數計算包括: 獲取所述聯機分析處理中的去重計數指標;以及 通過直接更改所述聯機分析處理中的去重計數指標進行所述去重計數計算。6.一種用于聯機分析處理的數據...
【專利技術屬性】
技術研發人員:洪超,
申請(專利權)人:北京國雙科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。