一種數據處理方法及裝置制造方法及圖紙

技術編號：8533034 閱讀：100 留言：0更新日期：2013-04-04 16:10

本發明專利技術公開了一種數據處理方法和裝置，所述裝置包括：分組模塊，配置為對輸入的數據進行分組，其中，所述數據的組數根據處理該數據的結點數確定；處理模塊，配置為依次為每個結點分配一組待處理的數據，并利用各結點對各自對應的數據進行并行的連續id化處理，其中，所述連續id化處理是指將數據中的關鍵字替換為0-N的整數；存儲模塊，配置為存儲經連續id化處理后的數據；其中，所述處理模塊還配置為：對于任意一個結點，計算本結點起始id編號；根據本結點起始id編號對本結點數據進行id化。采用本發明專利技術能夠實現數據并行id化處理，節省存儲時間。

全部詳細技術資料下載

【技術實現步驟摘要】
一種數據處理方法及裝置
本專利技術涉及網絡應用領域，具體涉及一種數據處理方法以及數據處理裝置。
技術介紹
在大規模并行計算中，輸入的數據通常是一系列的關鍵字‐值(key‐value)對。經過一系列的計算后，輸出每個key對應的新的value。為了方便尋址，并且節省存儲空間，可以對輸入數據進行連續的id化，即將每個key‐value對中的key替換為0‐N的整數。在輸入數據較多時，為每個數據(例如每個key‐value對中的key)id化就會占用大量的時間，進而會降低數據的存儲速度。
技術實現思路
鑒于上述問題，提出了本專利技術以便提供一種克服上述問題或者至少部分地解決上述問題的數據處理裝置和相應的數據處理方法。依據本專利技術的一個方面，提供了一種數據處理方法，包括：對輸入的數據進行分組，其中，所述數據的組數根據處理該數據的結點數確定；依次為每個結點分配一組待處理的數據，并利用各結點對各自對應的數據進行并行的連續id化處理，其中，所述連續id化處理是指將數據中的關鍵字替換為0‐N的整數；存儲經連續id化處理后的數據；所述利用各結點對各自對應的組數據進行并行的連續id化處理包括：對于任意一個節點，計算本結點起始id編號；根據本節點起始id編號對本結點數據進行id化。可選地，采用如下公式對本結點數據進行id化：其中，rank為當前結點的編號，且rank>0，Ni為結點i的數目。可選地，rank＝0時，StartID＝0。可選地，所述利用各結點對各自對應的組數據進行并行的連續id化處理，包括：對于任意一個結點，在本結點內部設置多個工作線程，并將本結點處理的數據依...
一種數據處理方法及裝置

【技術保護點】
一種數據處理方法，包括：對輸入的數據進行分組，其中，所述數據的組數根據處理該數據的結點數確定；依次為每個結點分配一組待處理的數據，并利用各結點對各自對應的數據進行并行的連續id化處理，其中，所述連續id化處理是指將數據中的關鍵字替換為0?N的整數；存儲經連續id化處理后的數據；其中，所述利用各結點對各自對應的組數據進行并行的連續id化處理，包括：對于任意一個結點，計算本結點起始id編號；根據本結點起始id編號對本結點數據進行id化。

【技術特征摘要】
1.一種數據處理方法，包括：對輸入的數據進行分組，所述輸入的數據為key-value對，其中，所述數據的組數根據處理該數據的結點數確定；依次為每個結點分配一組待處理的數據，并利用各結點對各自對應的數據進行并行的連續id化處理，其中，所述連續id化處理是指將數據中的關鍵字替換為0-N的整數，替換后的所有數據的關鍵字是連續的；存儲經連續id化處理后的數據；其中，所述利用各結點對各自對應的組數據進行并行的連續id化處理，包括：對于任意一個結點，計算本結點數據的起始id編號；根據本結點數據的起始id編號對本結點數據進行id化。2.根據權利要求1所述的方法，其特征在于，采用如下公式對本結點數據進行id化：其中，所述StartID為本結點數據的起始id編號，rank為當前結點的編號，且0<rank<節點總數，Ni為結點i對應的數據的數目。3.根據權利要求2所述的方法，其特征在于，rank＝0時，StartID＝0。4.根據權利要求1至3任一項所述的方法，其特征在于，所述利用各結點對各自對應的組數據進行并行的連續id化處理，包括：對于任意一個結點，在本結點內部設置多個工作線程，并將本結點處理的數據依次分配到每個工作線程上；利用每個工作線程對各自對應的數據進行連續id化處理。5.根據權利要求4所述的方法，其特征在于，所述利用每個工作線程對各自對應的數據進行連續id化處理，包括：對于任意一個工作線程，判斷當前處理的數據是否是自身所處理的最后一條數據；若是，則結束并退出處理流程；若否，則為當前數據賦予id，并觸發下一條數據的處理。6.根據權利要求5所述的方法，其特征在于，所述觸發下一條數據的處理，包括：利用原子遞增atomic_inc，對下一條數據進行連續id化處理。7.根據權利要求1至3任一項所述的方法，其特征在于，所述方法采用MPI模型對數...

【專利技術屬性】
技術研發人員：齊路，何銳邦，唐會軍，
申請(專利權)人：北京奇虎科技有限公司，奇智軟件北京有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術