【技術實現步驟摘要】
本專利技術涉及。
技術介紹
現有技術都是通過在下發數據過程中,首先從文件系統或數據庫等存儲系統提取數據的hash指紋放入到主機內存或專用系統進行數據比對,通過比對結果來對重復的數據進行刪除并標記索引,對于非重復數據則添加到hash指紋庫中,然后再把處理后的數據下發到數據存儲裝置,從而達到有效清除重復數據的目的。 上述方法數據重刪的效率低,為保證正常業務執行,在正常的業務處理流程中,上述技術是無法使用的,除非使用專用的數據重刪處理器分擔主機CPU壓力,而且現有技術對主機內存有很高的要求,因此現有技術主要應用到備份等非正常業務流程中。
技術實現思路
本專利技術所要解決的技術問題是,針對上述現有技術的不足,提供。 為解決上述技術問題,本專利技術所采用的技術方案是:,包括以下步驟:1)隨機從主機內存獲取一段數據,計算所獲取的數據的簽名,遍歷所有簽名,依次計算兩個簽名的海明距離,將海明距離在3以內的簽名作為高相似度數據,并統計每個高相似度數據的相似度計數,將相似度計數最高的前N個簽名對應的數據保存到初始樣本數據庫中,其中 100〈N〈5000 ;2 )再一次從主機內存獲取一段數據,按照步驟1)方法抽取該段數據中前N個簽名對應的數據,即待入庫數據,將待入庫數據與上述初始樣本數據庫中的數據進行對比,刪除待入庫數據中與所述初始樣本數據庫中數據相同的數據,比較余下的待入庫數據的相似度計數與所述初始樣本數據庫中數據的相似度計數,刪除相似度計數小于初始樣本數據庫中相似度計數的余下的待入庫數據中的數據,得到準入庫數據,按照相似度計數從大到小的 ...
【技術保護點】
一種數據重刪方法,其特征在于,包括以下步驟:1)隨機從主機內存獲取一段數據,計算所獲取的數據的簽名,遍歷所有簽名,依次計算兩個簽名的海明距離,將海明距離在3以內的簽名作為高相似度數據,并統計每個高相似度數據的相似度計數,將相似度計數最高的前N個簽名對應的數據保存到初始樣本數據庫中,其中100<N<5000;2)再一次從主機內存獲取一段數據,按照步驟1)方法抽取該段數據中前N個簽名對應的數據,即待入庫數據,將待入庫數據與上述初始樣本數據庫中的數據進行對比,刪除待入庫數據中與所述初始樣本數據庫中數據相同的數據,比較余下的待入庫數據的相似度計數與所述初始樣本數據庫中數據的相似度計數,刪除相似度計數小于初始樣本數據庫中相似度計數的余下的待入庫數據中的數據,得到準入庫數據,按照相似度計數從大到小的順序將準入庫數據保存到所述初始樣本數據庫中;3)重復上述步驟2),直到初始樣本數據庫中的樣本數據個數=盤片容量/(1G~1M),即得到樣本數據庫,將所述樣本數據庫發送給存儲裝置;4)所述存儲裝置接收到主機請求后,將存儲裝置內的數據與上述樣本數據庫中的樣本數據進行對比,若存儲裝置的數據與所述樣 ...
【技術特征摘要】
1.一種數據重刪方法,其特征在于,包括以下步驟: I)隨機從主機內存獲取一段數據,計算所獲取的數據的簽名,遍歷所有簽名,依次計算兩個簽名的海明距離,將海明距離在3以內的簽名作為高相似度數據,并統計每個高相似度數據的相似度計數,將相似度計數最高的前N個簽名對應的數據保存到初始樣本數據庫中,其中 100〈N〈5000 ; 2)再一次從主機內存獲取一段數據,按照步驟I)方法抽取該段數據中前N個簽名對應的數據,即待入庫數據,將待入庫數據與上述初始樣本數據庫中的數據進行對比,刪除待入庫數據中與所述初始樣本數據庫中數據相同的數據,比較余下的待入庫數據的相似度計數與所述初始樣本數據庫中...
【專利技術屬性】
技術研發人員:呂輝,姜黎,馬翼,
申請(專利權)人:湖南國科微電子有限公司,
類型:發明
國別省市:湖南;43
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。