本發明專利技術提供一種數據關聯存儲方法、電子設備及存儲介質,該方法包括:基于Spark框架提取各數據庫中與終端設備的聯系人相關的數據表,將各數據表連接形成聯系人數據集;通過圖計算關聯技術對所述聯系人數據集進行關聯分析,將各終端設備與聯系人的關聯關系存儲至Redis集群中。通過該方案解決現有數據存儲方式導致共有聯系人處理分析效率低的問題,可以方便終端設備與共有聯系人的關聯分析,提高分析處理效率。
A data association storage method, electronic equipment and storage medium
【技術實現步驟摘要】
一種數據關聯存儲方法、電子設備及存儲介質
本專利技術涉及大數據領域,尤其涉及一種數據關聯存儲方法、電子設備及存儲介質。
技術介紹
可移動設備中,一般會存儲有聯系人信息,在設備訪問某一網站或app時,用戶同意聯系人的聯系人獲取請求后,后臺服務器會收集用戶終端的設備信息及聯系人信息,對用戶進行分析畫像,方便進行內容推薦、數據備份等。隨著接入設備增多,服務器端數據處理量增大,若簡單地將設備信息及聯系人信息存儲在數據庫不同數據表中,設備間共同聯系人的整合以及數據分析變得越來越困難。當前,針對設備共有聯系人的數據分析,常需要遍歷查詢數據庫中不同數據表,然后進行整合統計,而數據庫中數據量較大,導致處理效率較低,同時會影響其他業務的進行。
技術實現思路
有鑒于此,本專利技術實施例提供了一種數據關聯存儲方法、電子設備及存儲介質,以解決現有數據存儲方式導致數據處理效率低的問題。在本專利技術實施例的第一方面,提供了一種數據關聯存儲方法,包括:基于Spark框架提取各數據庫中與終端設備的聯系人相關的數據表,將各數據表連接形成聯系人數據集;通過圖計算關聯技術對所述聯系人數據集進行關聯分析,將各終端設備與聯系人的關聯關系存儲至Redis集群中。在本專利技術實施例的第二方面,提供了一種電子設備,包括:提取模塊,用于基于Spark框架提取各數據庫中與終端設備的聯系人相關的數據表,將各數據表連接形成聯系人數據集;存儲模塊,用于通過圖計算關聯技術對所述聯系人數據集進行關聯分析,將各終端設備與聯系人的關聯關系存儲至Redis集群中。在本專利技術實施例的第三方面,提供了一種電子設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器運行的計算機程序,所述處理器執行所述計算機程序時實現如本專利技術實施例第一方面所述方法的步驟。在本專利技術實施例的第四方面,提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現本專利技術實施例第一方面提供的所述方法的步驟。本專利技術實施例中,利用大數據并行計算框架Spark提取數據庫中與設備聯系人相關的數據表,連接各數據表后,通過圖計算關聯技術,對數據表進行關聯分析,將各設備與聯系人的關聯信息存儲至Redis集群中。從而解決了傳統設備與聯系人整合分析效率低的問題,基于設備與聯系人的關聯存儲,可以方便數據查詢提取,有效提高了數據處理效率。在海量移動設備之間的數據存在共性的整合場景下,有效獲取移動設備之間的共同聯系人信息,并提出了基于圖計算的關聯算法,通過該算法輔助進行數據關聯、提取,從而達到高性能、高可靠、分布式結構處理的目的,同時也增強了服務器系統的擴展性。附圖說明為了更清楚地說明本專利技術實施例中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單介紹,顯而易見地,下面描述的附圖僅僅是本專利技術的一些實施例,對本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲取其他附圖。圖1為本專利技術的一個實施例提供的數據關聯存儲方法的流程示意圖;圖2為本專利技術的一個實施例提供的數據關聯存儲的電子設備的結構示意圖。具體實施方式為使得本專利技術的專利技術目的、特征、優點能夠更加的明顯和易懂,下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,下面所描述的實施例僅僅是本專利技術一部分實施例,而非全部的實施例?;诒緦@夹g中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其它實施例,都屬于本專利技術保護的范圍。本專利技術的說明書或權利要求書及上述附圖中的術語“包括”以及其他相近意思表述,意指覆蓋不排他的包含,如包含一系列步驟或單元的過程、方法或系統、設備沒有限定于已列出的步驟或單元。請參閱圖1,本專利技術實施例提供的一種數據關聯存儲方法的流程示意圖,包括:S101、基于Spark框架提取數據庫中與終端設備的聯系人相關的數據表,將各數據表連接形成聯系人數據集;所述Spark框架是一種為大規模數據處理提供的計算引擎。基于Spark框架獲取各數據庫中與終端設備聯系相關的數據表,由于數據庫中數據量較大,且存在數量實時加入數據庫,傳統的遍歷查詢數據庫效率較低。在數據中存儲有與用戶終端設備相關的數據項,如設備型號、接入IP、等,還包括與設備的聯系人相關的數據項,如聯系人號碼、姓名、郵箱等?;诼撓等诵畔⒖梢詫Ω鹘K端設備進行關聯,即當兩臺終端設備存在共同聯系人,則可以將兩臺設備關聯。所述聯系人數據集中至少包含有終端設備ID信息和聯系人信息,將不同數據表通過join操作可將各數據表連接起來,形成終端設備ID信息與聯系人信息關聯的聯系人數據集。S102、通過圖計算關聯技術對所述聯系人數據集進行關聯分析,將各終端設備與聯系人的關聯關系存儲至Redis集群中。所述圖計算關聯技術是基于頂點和邊描述數據對象之間關聯關系的數據模型,基于圖計算可以建立終端設備與共同聯系人的關系模型。圖計算可以面對大批量的圖數據進行處理,按預定規則建立數據的關聯并輸出。示例性的,整合的聯系人數據集T(包含設備ID及聯系人信息組成)后,可以由三部分組成,并以(key,value)表示:第一部分生成設備ID集X,由移動設備ID哈希值、移動設備ID組成;第二部分生成頂點集Y,由聯系人號碼哈希值、聯系人信息組成;第三部分生成移動設備ID與聯系人號碼的邊集Z,由移動設備ID哈希值、聯系人號碼哈希值組成。將頂點集Y和邊集Z結合GraphX構建圖,處理得到鄰邊信息集和入度為2及以上的號碼集,再與設備ID集X進行關聯分析后得到結果集,結果集由有關聯設備ID及聯系人信息組成,其原理是遍歷入度號碼集匹配鄰邊信息集和設備ID集,經排序、整合處理得到。再對關聯分析后的結果集中的key值(即關聯設備ID)進行拆分、分組處理得到設備之間的交集(由設備ID,關聯設備ID集合組成),關聯設備的共同聯系人是由關聯分析后得到的結果集經分組得到,最后上述關聯關系數據存儲到Redis中。所述關聯關系即終端設備與聯系人的關聯關系,基于終端設備具有的共同聯系人,關聯各終端設備及對應的共同聯系人??蛇x的,所述關聯關系可包括:終端設備ID以及與終端設備ID存在共同聯系人關聯的其他終端設備ID集。可選的,所述關聯關系可包括:關聯設備ID集以及關聯設備間的共同聯系人信息集。對終端設備與聯系人的關聯關系進行過濾整合,并可以按照鍵值對應關系存儲至Redis集群中,基于終端設備信息或聯系人信息可以查詢到具有共同聯系人的終端設備及對應的共同聯系人。可選的,根據終端設備ID檢索獲取與所述終端設備ID有共同聯系人的關聯數據集,并生成所述終端設備ID對應的關聯分析圖,所述關聯數據集中包括關聯終端設備信息和共同聯系人信息。示例性的,假設設備ID為A(String),與A有共同聯系人關聯的終端設備集S(List[String])以及與其對應本文檔來自技高網...
【技術保護點】
1.一種數據關聯存儲方法,其特征在于,包括:/n基于Spark框架提取各數據庫中與終端設備的聯系人相關的數據表,將各數據表連接形成聯系人數據集;/n通過圖計算關聯技術對所述聯系人數據集進行關聯分析,將各終端設備與聯系人的關聯關系存儲至Redis集群中。/n
【技術特征摘要】
1.一種數據關聯存儲方法,其特征在于,包括:
基于Spark框架提取各數據庫中與終端設備的聯系人相關的數據表,將各數據表連接形成聯系人數據集;
通過圖計算關聯技術對所述聯系人數據集進行關聯分析,將各終端設備與聯系人的關聯關系存儲至Redis集群中。
2.根據權利要求1所述的方法,其特征在于,所述各終端設備與聯系人的關聯關系包括:
終端設備ID以及與終端設備ID存在共同聯系人關聯的其他終端設備ID集。
3.根據權利要求1所述的方法,其特征在于,所述各終端設備與聯系人的關聯關系包括:
關聯設備ID集以及關聯設備間的共同聯系人信息集。
4.根據權利要求1所述的方法,其特征在于,所述通過圖計算關聯技術對所述聯系人數據集進行關聯分析,將各終端設備與聯系人的關聯關系存儲至Redis集群中還包括:
根據終端設備ID檢索獲取與所述終端設備ID有共同聯系人的關聯數據集,并生成所述終端設備ID對應的關聯分析圖,所述關聯數據集中包括關聯終端設備信息和共同聯系人信息。
5.一種電子設備,其特征在于,包括:
提取模塊,用于基于Spark框架提取各數據庫中與終端設備的聯系人相關的數據表,將各數據表連接形成聯系人數據集;
存儲...
【專利技術屬性】
技術研發人員:閆輝,
申請(專利權)人:武漢奧浦信息技術有限公司,
類型:發明
國別省市:湖北;42
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。