• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種數據重刪方法技術

    技術編號:11103695 閱讀:110 留言:0更新日期:2015-03-04 15:55
    本發明專利技術公開了一種數據重刪方法,把數據對比規模局限在每個存儲裝置內部,減少了數據比對規模,同時讓每個存儲裝置并發對比,提高了對比效率,減少了對主機資源的依賴。由各個存儲裝置根據業務壓力或主機要求觸發相應的數據對比操作,并能在正常的業務流程中使用,不局限于特殊的備份等業務場景。

    【技術實現步驟摘要】

    本專利技術涉及。
    技術介紹
    現有技術都是通過在下發數據過程中,首先從文件系統或數據庫等存儲系統提取數據的hash指紋放入到主機內存或專用系統進行數據比對,通過比對結果來對重復的數據進行刪除并標記索引,對于非重復數據則添加到hash指紋庫中,然后再把處理后的數據下發到數據存儲裝置,從而達到有效清除重復數據的目的。 上述方法數據重刪的效率低,為保證正常業務執行,在正常的業務處理流程中,上述技術是無法使用的,除非使用專用的數據重刪處理器分擔主機CPU壓力,而且現有技術對主機內存有很高的要求,因此現有技術主要應用到備份等非正常業務流程中。
    技術實現思路
    本專利技術所要解決的技術問題是,針對上述現有技術的不足,提供。 為解決上述技術問題,本專利技術所采用的技術方案是:,包括以下步驟:1)隨機從主機內存獲取一段數據,計算所獲取的數據的簽名,遍歷所有簽名,依次計算兩個簽名的海明距離,將海明距離在3以內的簽名作為高相似度數據,并統計每個高相似度數據的相似度計數,將相似度計數最高的前N個簽名對應的數據保存到初始樣本數據庫中,其中 100〈N〈5000 ;2 )再一次從主機內存獲取一段數據,按照步驟1)方法抽取該段數據中前N個簽名對應的數據,即待入庫數據,將待入庫數據與上述初始樣本數據庫中的數據進行對比,刪除待入庫數據中與所述初始樣本數據庫中數據相同的數據,比較余下的待入庫數據的相似度計數與所述初始樣本數據庫中數據的相似度計數,刪除相似度計數小于初始樣本數據庫中相似度計數的余下的待入庫數據中的數據,得到準入庫數據,按照相似度計數從大到小的順序將準入庫數據保存到所述初始樣本數據庫中;3)重復上述步驟2),直到初始樣本數據庫中的樣本數據個數=盤片容量/(1G?1M),即得到樣本數據庫,將所述樣本數據庫發送給存儲裝置;4)所述存儲裝置接收到主機請求后,將存儲裝置內的數據與上述樣本數據庫中的樣本數據進行對比,若存儲裝置的數據與所述樣本數據庫中的樣本數據有重復,則標記主機邏輯地址映射到存儲裝置的物理地址的地址映射表,修改所述地址映射表地址為第一個重復數據塊的地址,并把映射結果返回給主機。 與現有技術相比,本專利技術所具有的有益效果為:本專利技術把數據對比規模局限在每個存儲裝置內部,減小了數據比對規模,同時讓每個存儲裝置并發對比,提高了對比效率,減少了對主機資源的依賴。由各個存儲裝置根據業務壓力或主機要求觸發相應的數據對比操作,并能在正常的業務流程中使用,不局限于特殊的備份等業務場景。 【附圖說明】 圖1為本專利技術一實施例方法原理圖。 【具體實施方式】 如下以存儲裝置為存儲陣列,主機為服務器為例說明該技術方案具體實施過程:1)服務器在下發業務數據過程中,首先在服務器上按照本專利技術的步驟1、步驟2、步驟3建立樣本數據庫;2)服務器與存儲陣列通過標準協議(如SCSI/SATA/SAS/FC)的自定義廠商命令或其他數據命令把樣本數據庫中數據下發給各個陣列。 3)每個存儲陣列收到服務器的對比數據請求后,把接收到的數據與陣列存儲的數據進行對比等處理。即按照本專利技術的步驟4進行處理。 經過上述3步的具體實施后,每個存儲陣列的重復數據會同時進行處理并刪除,而且并不影響服務器與陣列之間的正常業務數據處理。該方案同樣適用于存儲裝置為硬盤,主機為陣列或其他發起業務的設備。 如圖1所示,本專利技術方法如下:首先主機下發數據到系統內存,利用SimHash算法計算內存數據樣本特征值并入庫保存,數據樣本特征值計算方法具體實現如下:數據樣本特征值計算方法:通過隨機從內存獲取一段數據,然后利用SimHash算法對緩存中所有數據計算簽名,遍歷所有簽名,依次計算兩個簽名的海明距離(即兩個簽名二進制異或后I的個數),將海明距離在3以內的簽名作為高相似度數據(該海明距離誤判率比較低,海明距離越小,數據相似度越高),并統計每個高相似度數據的相似度計數,將相似度計數最高的前N個簽名對應的數據保存到初始樣本數據庫中,考慮數據庫容量及數據對比效率,其中100〈N〈5000,N隨盤片容量遞增而遞增;對于每個簽名,初始樣本重復率計數為O并依據樣本重復率和相似度計數建立索引,從而作為樣本數據庫,當新樣本入庫前應當先與庫中已有簽名計算海明距離后按相似度計數排名后再入庫。 SimHash算法描述如下:該算法參考文獻: Moses S.Charikar 《Similarity estimat1n techniques from roundingalgorithms)).arist g1nis, p1ter indyk, rajeev motwani 《Similarity Search in HighDimens1ns via Hashing》輸入為一個N維向量V,比如文本的特征向量,每個特征具有一定權重。輸出是一個C位的二進制簽名S。 I)初始化一個C維向量Q為0,C位的二進制簽名S為O。 2)對向量V中的每一個特征,使用傳統的Hash算法計算出一個C位的散列值H。對 l〈=i〈=C,如果H的第i位為I,則Q的第i個元素加上該特征的權重; 否則,Q的第i個元素減去該特征的權重。 3)如果Q的第i個元素大于0,則S的第i位為1 ;否則為0 ;4)返回簽名S。 然后在主機業務壓力不大的情況下,從樣本數據庫中提取重復率最高的前N個數據樣本(樣本數據個數=盤片容量/ (lG^lM)),并通過自定義命令下發給存儲裝置。。 接著存儲裝置接收到主機請求后,啟動內部數據對比,對于重復數據需要修改地址映射值模塊,把該表項置為第一個重復的映射表中地址值,從而釋放對應的物理空間,并把映射及對比結果返回給主機,主機接收并保存存儲裝置的對比及映射結果。本文檔來自技高網...

    【技術保護點】
    一種數據重刪方法,其特征在于,包括以下步驟:1)隨機從主機內存獲取一段數據,計算所獲取的數據的簽名,遍歷所有簽名,依次計算兩個簽名的海明距離,將海明距離在3以內的簽名作為高相似度數據,并統計每個高相似度數據的相似度計數,將相似度計數最高的前N個簽名對應的數據保存到初始樣本數據庫中,其中100<N<5000;2)再一次從主機內存獲取一段數據,按照步驟1)方法抽取該段數據中前N個簽名對應的數據,即待入庫數據,將待入庫數據與上述初始樣本數據庫中的數據進行對比,刪除待入庫數據中與所述初始樣本數據庫中數據相同的數據,比較余下的待入庫數據的相似度計數與所述初始樣本數據庫中數據的相似度計數,刪除相似度計數小于初始樣本數據庫中相似度計數的余下的待入庫數據中的數據,得到準入庫數據,按照相似度計數從大到小的順序將準入庫數據保存到所述初始樣本數據庫中;3)重復上述步驟2),直到初始樣本數據庫中的樣本數據個數=盤片容量/(1G~1M),即得到樣本數據庫,將所述樣本數據庫發送給存儲裝置;4)所述存儲裝置接收到主機請求后,將存儲裝置內的數據與上述樣本數據庫中的樣本數據進行對比,若存儲裝置的數據與所述樣本數據庫中的樣本數據有重復,則標記主機邏輯地址映射到存儲裝置的物理地址的地址映射表,修改所述地址映射表地址為第一個重復數據塊的地址,并把映射結果返回給主機。...

    【技術特征摘要】
    1.一種數據重刪方法,其特征在于,包括以下步驟: I)隨機從主機內存獲取一段數據,計算所獲取的數據的簽名,遍歷所有簽名,依次計算兩個簽名的海明距離,將海明距離在3以內的簽名作為高相似度數據,并統計每個高相似度數據的相似度計數,將相似度計數最高的前N個簽名對應的數據保存到初始樣本數據庫中,其中 100〈N〈5000 ; 2)再一次從主機內存獲取一段數據,按照步驟I)方法抽取該段數據中前N個簽名對應的數據,即待入庫數據,將待入庫數據與上述初始樣本數據庫中的數據進行對比,刪除待入庫數據中與所述初始樣本數據庫中數據相同的數據,比較余下的待入庫數據的相似度計數與所述初始樣本數據庫中...

    【專利技術屬性】
    技術研發人員:呂輝姜黎馬翼
    申請(專利權)人:湖南國科微電子有限公司
    類型:發明
    國別省市:湖南;43

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产亚洲精品无码专区| 亚洲av无码成人影院一区| 亚洲精品无码AV人在线播放 | 无码国产成人午夜电影在线观看| 影音先锋无码a∨男人资源站| 亚洲乱码无码永久不卡在线| 无码精品不卡一区二区三区| 久久久久无码专区亚洲av| 亚洲最大中文字幕无码网站| 亚洲午夜国产精品无码老牛影视| 毛片无码一区二区三区a片视频| 日韩精品无码免费专区午夜 | 无码视频一区二区三区| 无码中文字幕av免费放dvd| 无码日韩精品一区二区人妻| 中文无码亚洲精品字幕| 亚洲av日韩av高潮潮喷无码| 久久中文字幕无码专区| 精品久久久久久久无码久中文字幕 | 国产日韩AV免费无码一区二区| 无码人妻丰满熟妇区五十路| 日韩av无码久久精品免费| 国产成人无码一区二区三区| 中文无码日韩欧免费视频| 无码精品蜜桃一区二区三区WW| 无码一区二区三区AV免费| 亚洲精品无码中文久久字幕| 永久免费av无码不卡在线观看 | 亚洲欧洲AV无码专区| 亚洲AV无码久久久久网站蜜桃| 无码国产精品一区二区免费3p | 无码一区二区三区AV免费| 麻豆AV无码精品一区二区| 无码人妻精品一区二区蜜桃网站| 久久久久无码精品国产| 日韩精品人妻系列无码专区免费| 毛片免费全部播放无码| 无码人妻丝袜在线视频| 亚洲爆乳精品无码一区二区| 无码少妇丰满熟妇一区二区 | 成年无码av片在线|