【技術實現步驟摘要】
本專利技術涉及計算機領域,特別涉及一種刪除重復數據的方法、裝置和系統。
技術介紹
在現有技術中,提高海量信息存儲率的重要方法是刪除系統中存在的重復數據。系統中存在的重復數據是指存儲在系統中的完全相同的兩份或兩份以上數據。在刪除系統中存在的重復數據前,首先獲取上傳數據的數據信息,根據數據信息判斷系統中是否已經存在上傳數據,當已經存在上傳數據時,刪除上傳數據。 上傳數據的數據信息是對上傳數據進行哈希計算所得的值。哈希計算是計算機領域中的一種散列算法,用于把任意長度的二進制值映射為固定長度的較小二進制值。在獲得上傳數據的數據信息后,將數據信息與系統中保存的數據信息進行對比,若數據信息一致,則表示系統中存在與上傳數據相同的數據,需要刪除上傳數據。若數據信息不一致,則表示系統中不存在與上傳數據相同的數據,直接把上傳數據存儲在系統中。所述系統中保存的數據信息是指對存儲在數據系統中的數據進行哈希計算所得的值。在實現本專利技術過程中,專利技術人發現現有技術中至少存在如下問題I、由于需要刪除重復數據,因此系統中不能存儲兩份以上的相同數據,對于重要的數據不能進行備份操作,降低了數據可靠性;2、當出現異常情況,如停電等,系統中產生垃圾數據,降低存儲率;所述垃圾數據是系統進行刪除重復數據的過程中,系統已檢測出上傳數據為重復數據,需要進行刪除,但由于停電等意外情況的發生,導致未更新上傳數據元數據和刪除上傳數據,使系統中存在一份不需要的數據;3、用戶上傳數據時,若在線進行刪除重復數據的操作,影響用戶體驗。若上傳后進行刪除數據的操作,需要對全系統進行掃描,增加系統開銷。
技術實現思路
本專利技術 ...
【技術保護點】
一種刪除重復數據的方法,其特征在于,包括:獲取用戶的輸入數據,以及用戶輸入的副本數;對所述輸入數據進行哈希計算,得到哈希值;建立所述輸入數據對應的數據信息,所述數據信息包括所述哈希值,所述副本數;判斷是否存在與所述數據信息相同的已存儲數據信息;所述已存儲數據信息對應唯一的已存儲數據;當存在與所述數據信息相同的已存儲數據信息時,刪除所述輸入數據。
【技術特征摘要】
1.一種刪除重復數據的方法,其特征在于,包括 獲取用戶的輸入數據,以及用戶輸入的副本數; 對所述輸入數據進行哈希計算,得到哈希值; 建立所述輸入數據對應的數據信息,所述數據信息包括所述哈希值,所述副本數;判斷是否存在與所述數據信息相同的已存儲數據信息;所述已存儲數據信息對應唯一的已存儲數據; 當存在與所述數據信息相同的已存儲數據信息時,刪除所述輸入數據。2.根據權利要求I所述的方法,其特征在于,還包括 當存在與所述數據信息相同的已存儲數據信息時,獲取所述已存儲數據信息對應的狀態信息項;所述已存儲數據信息對應的狀態信息項記錄有所述已存儲數據的存儲地址;根據所述已存儲數據的存儲地址,獲取對應的刪除列表;所述刪除列表記錄有被執行過刪除動作的所述已存儲數據的文件名; 將所述用戶輸入的數據的文件名加入所述刪除列表。3.根據權利要求I所述的方法,其特征在于,系統按照預設的周期遍歷系統中已存在的元數據,包括 獲取系統中已存在的元數據;所述系統中已存在的元數據記錄有所述系統中已存在的元數據對應數據的存儲地址、所述系統中已存在的元數據對應數據的副本數、所述系統中已存在的元數據對應數據的文件名; 對所述系統中已存在的元數據對應數據的存儲地址中的數據進行哈希計算,得到第二哈希值; 構造第二數據信息,所述第二數據信息包括所述第二哈希值,所述系統中已存在的元數據對應數據的副本數; 判斷是否存在與所述第二數據信息相同的在系統中已存在的第三數據信息; 若存在,獲取所述第三數據信息對應的第三狀態信息項;所述第三狀態信息項記錄有所述第三數據信息對應的數據的存儲地址; 根據所述第三數據信息對應的數據的存儲地址,獲取對應的第三刪除列表;所述第三刪除列表記錄有被執行過刪除動作的第三數據信息對應的數據的文件名; 判斷是否在所述第三刪除列表存在所述系統中已存在的元數據對應數據的文件名;若否,將所述系統中已存在的元數據對應數據的存儲地址更新為所述第三數據信息對應的數據的存儲地址; 刪除所述系統中已存在的元數據對應數據的存儲地址中的數據。4.根據權利要求I所述的方法,其特征在于,在刪除所述輸入數據前,還包括 將所述輸入數據對應的元數據記錄的所述輸入數據的存儲地址變更為所述已存儲數據對應的元數據記錄的所述已存儲數據的存儲地址;所述元數據記錄有與元數據對應的數據的存儲地址、數據的副本數、數據的文件名。5.根據權利要求4所述的方法,其特征在于,所述將所述輸入數據對應的元數據記錄的所述輸入數據的存儲地址變更為所述已存儲數據對應的元數據記錄的所述已存儲數據的存儲地址,包括 在將所述用戶輸入的數據的文件名加入所述刪除列表后,經過預設定的時間段后,將所述輸入數據對應的元數據記錄的所述輸入數據的存儲地址變更為所述已存儲數據對應的元數據記錄的所述已存儲數據的存儲地址。6.一種刪除數據重復數據的裝置,其特征在于,包括 輸入數據獲取單元,用于獲取用戶的輸入數據,以及用戶輸入的副本數; 第一哈希單元,用于對所述輸入數據進行哈希計算,得到哈希值; 數據信息建立單元,用于建立所述輸入數據對應的數據信息,所述數據信息包括所述哈希值,所述副本數;...
【專利技術屬性】
技術研發人員:鄭錫濤,張輝,戰宏亮,韓明,
申請(專利權)人:華為技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。