• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>浙江大學專利>正文

    基于數據相似的平衡聚類壓縮方法技術

    技術編號:2912112 閱讀:225 留言:0更新日期:2012-04-11 18:40
    本發明專利技術公開了一種基于數據相似的聚類壓縮方法。本發明專利技術通過分析文件數據,從文件提取特征指紋構造特征向量,用于計算數據相似度,并利用帶約束條件的圖分割方法聚類輸入文件集成多個均勻大小的類別,然后采用BMCOM等壓縮方法對每個類別單獨進行壓縮,以去除類內部的冗余數據。本發明專利技術利用基于數據采樣聚類方式,把具有較高可壓縮性的關鍵數據作為樣本數據,首先對樣本數據進行聚類,然后通過穩定婚姻方法歸類剩余數據,在不降低壓縮效果的情況下可提高聚類效率。本發明專利技術可以作為一種壓縮和歸檔方法應用到分布式存儲系統中,能夠克服已有方法的數據依賴和負載不均問題。

    【技術實現步驟摘要】

    本專利技術涉及數據壓縮、分布式存儲歸檔與數據挖掘領域,特別是涉及一種 。
    技術介紹
    隨著信息總量的爆炸式增長,海量分布式存儲系統已經成為當前各種互聯 網應用的核心設施,分布式存儲系統的性能直接決定著整個信息系統性能。在 分布式存儲系統中,除了小部分熱點數據之外,很大一部分數據根本很少被訪 問,但卻占用了大量的存儲空間和系統資源,因此壓縮和歸檔此類數據可以在 不降低用戶體驗的前提下,減少系統資源占用,節省成本。通用的壓縮方法只針對單個文件進行壓縮,不能利用文件之間的數據冗余 性,壓縮比非常有限。另外,學術界提出各種方法雖然能夠利用文件之間的數 據冗余,但是計算量過大,執行效率不足,而且這些方法很少考慮壓縮后數據 的存儲問題,沒有針對海量分布式存儲系統進行優化,容易造成數據之間的依 賴性和系統負載不均。
    技術實現思路
    本專利技術的目的在于提供一種基于數據相似的平衡聚類壓縮方法,根據文件 數據相似性對文件集進行聚類,得到較為均勻的聚類結果,即每類幾乎包含相同數據量,然后利用DELTA壓縮或者BMCOM等壓縮方法壓逐類縮聚類結果。 本專利技術的目的是通過以下技術方案來實現的 一種基于數據相似的平衡聚類壓縮方法,包括以下步驟-(l)文件特征向量提取,從文件數據中提取特征向量用于計算文件相似度。 第一步,選擇一個窗口長度w和&個整數域上的獨立置換函數^;, /22,…,&},每個置換函數相互獨立;第二步,從前往后逐字節掃描輸入文件/,利用高效的Rabin指紋函數,計算當前滑動窗口內數據的指紋,記該指紋為》,利用上述A個獨立置換函數作用于指紋》,得到A:個置換指紋&OK), ^砂),…,^砂),記文件/的特征向量F(^為(F;必,^仿,…,&09},特征向量的第/維F必等于第!'個置換函數所產生的置換指紋的最小值,即F^^MIN(F,切,第三步,掃描完整個文件之后,可計算出文件的特征向量F()9,文件數據相似度 ,"根據文件;c和_y的特征向量定義為li^」nF關/^WuF關;(2)聚類樣本選取,即從輸入數據集D中選取部分數據作為樣本數據集,即樣本數據集為&第一步,計算關鍵數據集,關鍵數據集XD的定義是存在高相似副本的文件集合,即^XH羋eD/s(3;;eD7f3c,力3)}, f是0到1之間的一個較大實數,關鍵數據集中的數據通常具有比較高的可壓縮性,能對最終壓縮比產生比較大的影響;準確計算關鍵數據集XD的計算量較大,其時間復雜度為0(|Z)|2),因此利用超級指紋快速檢測高相似數據;超級指紋是根據多個文件指紋計算的哈希值,如果兩個數據具有相同的超級指紋,那么它們擁有很多相同的文件指紋,因此它們的相似度比較高;關鍵數據集的詳細估算方法如下(g) 選擇一個正整數/和w,和一個隨機哈希函數/7;(h) 循環執行步驟c)和e)共/次;(i) 隨機選擇w個小于A:的正整數",/2,…,zw};(j)對于每個文件/,利用哈希函數/Z和特征向量i^)的第^ /2,…,/w維計算超級指紋彌,即彌=(/)□...□&(/》;(k) 以沙為關鍵字記錄(沙,/)到超級指紋哈希表wr,即(1)掃描哈希表SKT,對于哈希表中的每個超級指紋^9,計算集合5F775^/中數據的兩兩相似度,如果x, ;;eD,那么x和;;都屬于關鍵數據集,因此更新關鍵數據集XD為iOXj{jc,力;第二步,計算超級數據,超級數據是多個關鍵數據合并而成的虛擬數據,任意超級數據s是關鍵數據集的子集,即s^D,超級數據中包含的數據相似度比較高,因此合并這些數據,把它們當作整體來處理,可以提高聚類質量,此外,合并成超級數據可以減少聚類方法的輸入數據,提高聚類性能;超級數據及樣本數據集S的構建方法如下h)按照相似度r(3c,力排序關鍵數據集XD中的高相似文件對f^ ^,得到優先級隊列0;i)循環執行步驟c)-g),直到隊列g為空;j)從優先級隊列g中取出相似度最高的一對文件(^ W;k)產生一個超級數據V, V包含X禾卩少兩個文件,根據X和少的特征向量計算v的特征向量F(v, F 的第i維F,勿等于MIN(F,(3c入i^K));1)對于隊列中的包含x的文件對(3c, ^或者包含y的文件對(>,力,計算相m)如果v和任意z的相似度r ,z卩都小于"那么v不可能再與其它數據合并,加v到樣本數據集S,即5=5^{^};n)否則,對于—/^a的數據二從隊列g中刪除數據對(3c, ^和0, z」,并根據相似度r(V, ^加 ,^到隊列Q;(3) 樣本數據聚類,利用平衡聚類方法聚類樣本數據集A第一步,根據樣本數據集S構建相似圖G,相似圖形如GTF, £人并滿足如下條件(i)F是頂點集,任意veF對應到唯一的一個數據^VjeS;每個頂點v有一個權重『F 人且fn《v戶^v)./ew; (ii)£是邊集,任意(3c, 都有一個權重^,且『五(3c, 3/>-K《x),喊y》;第二步,調用高效的圖分割方法kmetis分割相似圖G,并為設置kmetis設定兩個約束條件約束l(損失最小化)圖分割方法需要刪除相似圖中的一些邊,方法必須最小化刪除邊的權重和,約束1要求分割出來的每個子圖中的數據之間具有高相似度,而跨子圖數據之間只有低相似度;約束2(負載均衡)分割方法還必須滿足平衡約束條件,即平衡每個子圖的頂點權重和;(4) 剩余數據聚類,按照相似度歸類剩余數據》=D-5*,在滿足負載均衡約束的前提下,把剩余數據歸入到最相似的類;記7^>=2^^.&"是類別c中包含的文件總大小,剩余聚類方法必須滿足如下兩個條件之一i)數據"被分配到最相似的類c; ii)如果還有其它類c'和d更相似,那么7Tc'」》c/w他m'ze且c'中的任何數據cT滿足sz'w(c',W )》Ww(c',力,其中c/wWera/ze是類平均大小,w'm(c',力代表數據d和類c'的相似度,類相似度w'附(^,《定義如下w'm(C,力=£eZ ^T(/), Z =尸(力n ((J F(x))剩余聚類方法基于穩定婚姻模塾設計,其主要過程如下a)對于每個類G,根據類相似度sfm(G, c/)排序剩余Z得到n,初始化類G的剩余容量^和rx索引/'-;b) 執行步驟c),直到所有數據都已經歸類;c) 在每次循環中,在總數據量不超過剩余容量^的前提下,每個類C,向FL中盡可能多的數據求婚,設"是被G.求婚的任意數據,如果數據J還沒有求婚者,那么暫時許配"給G.,如果數據J己有求婚者C/而且s/m(G,力々/m(C〃力那么取消對G的婚約,許配J給C,;(5)結果壓縮,對每個類別進行單獨壓縮,默認采用BMCOM壓縮方法,同時亦可采用各種成熟的DELTA壓縮方法;BMCOM方法是Bentley和Mcilroy在1999年提出來的,它能夠壓縮間隔距離很長的冗余數據,而且壓縮和解壓縮性能非常好,分別能夠達到lOOMB/s和1000MB/s,其本思想是利用Shingle技術檢測并壓縮較長的冗余數據,Shingle是數據中一段固定長度的子串,假設Shingle的長度為丄,BMCOM能夠壓縮所有長度>2£的字符串,并部分壓縮長度在丄 2i:之間的冗余數據;方法利用Shi本文檔來自技高網...

    【技術保護點】
    一種基于數據相似的平衡聚類壓縮方法,其特征在于,包括以下步驟: (1)文件特征向量提取,從文件數據中提取特征向量用于計算文件相似度。 (2)聚類樣本選取,即從輸入數據集D中選取部分數據作為樣本數據集,即樣本數據集為S。 ( 3)樣本數據聚類,利用平衡聚類方法聚類樣本數據集S。 (4)剩余數據聚類,按照相似度歸類剩余數據X=D-S,在滿足負載均衡約束的前提下,把剩余數據歸入到最相似的類。 (5)結果壓縮,對每個類別進行單獨壓縮,默認采用BMCOM壓縮 方法,同時亦可采用各種成熟的DELTA壓縮方法。

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:陳剛陳珂胡天磊壽黎但余利華
    申請(專利權)人:浙江大學
    類型:發明
    國別省市:86[中國|杭州]

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码专区日韩| 爽到高潮无码视频在线观看| 成人麻豆日韩在无码视频| 精品国产aⅴ无码一区二区| 无码AV岛国片在线播放| 曰韩人妻无码一区二区三区综合部| 高清无码v视频日本www| 亚洲精品无码av天堂| 无码一区二区三区免费| 无码日韩AV一区二区三区| 久久久无码人妻精品无码| 日韩精品无码视频一区二区蜜桃| 日韩乱码人妻无码中文字幕| 毛片无码一区二区三区a片视频| 少妇人妻无码专区视频| 日产无码1区2区在线观看| 少妇无码AV无码专区在线观看| 中文无码熟妇人妻AV在线| 中文字幕无码日韩欧毛| 中文字幕有码无码AV| 精品无码人妻久久久久久| 免费无遮挡无码视频在线观看| 精品无码国产污污污免费网站| 一本大道无码人妻精品专区| 亚洲AV成人无码网站| 亚洲日韩精品无码专区| 免费A级毛片无码视频| 国产V亚洲V天堂无码久久久| 中文字幕无码精品三级在线电影| 无码国产精品一区二区免费I6| 久久久久久国产精品无码超碰 | 伊人天堂av无码av日韩av | 中文字幕丰满伦子无码| 无码无套少妇毛多69XXX| 亚洲成a人片在线观看天堂无码| 秋霞鲁丝片Av无码少妇| 久久久久亚洲Av片无码v| 亚洲AV无码AV男人的天堂| 亚洲精品无码不卡在线播HE | 亚洲免费日韩无码系列| 国产精品无码免费播放|