• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種刪除重復數據的方法、裝置和系統制造方法及圖紙

    技術編號:8271487 閱讀:194 留言:0更新日期:2013-01-31 03:43
    本發明專利技術的實施例公開一種刪除重復數據的方法、裝置和系統,涉及計算機領域,解決現有技術中數據可靠性低,垃圾數據多,系統開銷大的問題。一種刪除重復數據的方法,包括:通過用戶輸入數據和需要存儲的副本數得到哈希值,進而得到與輸入數據對應的數據信息和對應的刪除列表,將用戶輸入數據的文件名加入所述刪除列表。然后將輸入數據對應的元數據記錄的輸入數據的存儲地址變更為已存儲數據對應的元數據記錄的已存儲數據的存儲地址,最后刪除所述輸入數據。本發明專利技術主要應用于計算機系統中。

    【技術實現步驟摘要】
    本專利技術涉及計算機領域,特別涉及一種刪除重復數據的方法、裝置和系統
    技術介紹
    在現有技術中,提高海量信息存儲率的重要方法是刪除系統中存在的重復數據。系統中存在的重復數據是指存儲在系統中的完全相同的兩份或兩份以上數據。在刪除系統中存在的重復數據前,首先獲取上傳數據的數據信息,根據數據信息判斷系統中是否已經存在上傳數據,當已經存在上傳數據時,刪除上傳數據。 上傳數據的數據信息是對上傳數據進行哈希計算所得的值。哈希計算是計算機領域中的一種散列算法,用于把任意長度的二進制值映射為固定長度的較小二進制值。在獲得上傳數據的數據信息后,將數據信息與系統中保存的數據信息進行對比,若數據信息一致,則表示系統中存在與上傳數據相同的數據,需要刪除上傳數據。若數據信息不一致,則表示系統中不存在與上傳數據相同的數據,直接把上傳數據存儲在系統中。所述系統中保存的數據信息是指對存儲在數據系統中的數據進行哈希計算所得的值。在實現本專利技術過程中,專利技術人發現現有技術中至少存在如下問題I、由于需要刪除重復數據,因此系統中不能存儲兩份以上的相同數據,對于重要的數據不能進行備份操作,降低了數據可靠性;2、當出現異常情況,如停電等,系統中產生垃圾數據,降低存儲率;所述垃圾數據是系統進行刪除重復數據的過程中,系統已檢測出上傳數據為重復數據,需要進行刪除,但由于停電等意外情況的發生,導致未更新上傳數據元數據和刪除上傳數據,使系統中存在一份不需要的數據;3、用戶上傳數據時,若在線進行刪除重復數據的操作,影響用戶體驗。若上傳后進行刪除數據的操作,需要對全系統進行掃描,增加系統開銷。
    技術實現思路
    本專利技術的實施例提供一種刪除重復數據的方法、裝置和系統,解決系統中對于重要的數據不能進行備份操作,垃圾數據不能刪除的技術問題。為達到上述目的,本專利技術的實施例采用如下技術方案第一方面,提供一種刪除重復數據的方法,包括獲取用戶的輸入數據,以及用戶輸入的副本數。對所述輸入數據進行哈希計算,得到哈希值。建立所述輸入數據對應的數據信息,所述數據信息包括所述哈希值,所述副本數。在第一方面的第一種可能的實現方式中,判斷是否存在與所述數據信息相同的已存儲數據信息;所述已存儲數據信息對應唯一的已存儲數據。當存在與所述數據信息相同的已存儲數據信息時,刪除所述輸入數據。第二方面,提供一種刪除重復數據的裝置,包括輸入數據獲取單元,用于獲取用戶的輸入數據,以及用戶輸入的副本數。第一哈希單元,用于對所述輸入數據進行哈希計算,得到哈希值。數據信息建立單元,用于建立所述輸入數據對應的數據信息,所述數據信息包括所述哈希值,所述副本數。在第二方面的第一種可能的實現方式中,第一判斷單元,用于判斷是否存在與所述數據信息相同的已存儲數據信息;所述已存儲數據信息對應唯一的已存儲數據。輸入數據刪除單元,用于當存在與所述數據信息相同的已存儲數據信息時,刪除所述輸入數據。 第三方面,提供一種計算機系統,包括總線,與所述總線相連的處理器以及與所述總線相連的存儲器;其中所述處理器包括上述提及的裝置。本專利技術實施例提供一種刪除重復數據的方法、裝置和系統,首先獲取用戶的輸入數據,以及用戶輸入的副本數。對所述輸入數據進行哈希計算,得到哈希值。建立所述輸入數據對應的數據信息,判斷是否存在與所述數據信息相同的已存儲數據信息。當存在與所述數據信息相同的已存儲數據信息時,刪除所述輸入數據。通過上述刪除重復數據的方法,記錄備份數,刪除垃圾數據,對系統中重要的數據進行備份,提高系統存儲空間存儲率,優化用戶體驗,加快運行效率。附圖說明為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。圖I為本專利技術實施例I中刪除重復數據的流程框圖;圖2為本專利技術實施例2中刪除重復數據的流程框圖;圖3為本專利技術實施例2中已存儲數據對應刪除列表的框圖;圖4為本專利技術實施例2中另一種刪除重復數據的流程框圖;圖5為本專利技術實施例2中第三種刪除重復數據的流程框圖;圖6為本專利技術實施例3中一種刪除重復數據裝置的框圖;圖7為本專利技術實施例3中另一種刪除重復數據裝置的框圖;圖8為本專利技術實施例3中第三種刪除重復數據裝置的框圖;圖9為本專利技術實施例3中元數據更新單元的框圖;圖10為本專利技術實施例3中計算機系統的框圖。具體實施例方式下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。實施例I :本專利技術的一個實施例提供了一種刪除重復數據的方法,如圖I所示,該方法包括如下步驟101、獲取用戶的輸入數據,以及用戶輸入的副本數。用戶將輸入數據以及與該輸入數據的副本數一同輸入計算機中。102、對所述輸入數據進行哈希計算,得到哈希值。本專利技術實施例中提及的哈希計算是計算機領域中的一種散列算法,用于把任意長度的二進制值映射為固定長度的較小二進制值。103、建立所述輸入數據對應的數據信息,所述數據信息包括所述哈希值,所述副本數。 104、判斷是否存在與所述數據信息相同的已存儲數據信息。所述已存儲數據信息對應唯一的已存儲數據。在計算機中,已經存儲了大量的數據,每一份已存儲數據對相應的建立了唯一的已存儲數據信息,每份已存儲數據信息中包括對應的已存儲數據的哈希值和副本數。105、當存在與所述數據信息相同的已存儲數據信息時,刪除所述輸入數據。當存在與所述數據信息相同的已存儲數據信息時,表示在步驟101中獲取的用戶的輸入數據已經存在,不需要再進行存儲,此時對該輸入數據進行刪除。本專利技術的一個實施例提供一種刪除重復數據的方法,通過用戶輸入數據和需要存儲的副本數得到哈希值,進而得到與輸入數據對應的數據信息。當存在與所述數據信息相同的已存儲數據信息時,刪除所述輸入數據。通過上述方法,克服對重要數據不能備份的問題,提高數據的可靠性。實施例2 本專利技術的一個實施例提供一種刪除重復數據的方法,如圖2所示,包括201、獲取用戶的輸入數據,以及用戶輸入的副本數。202、對所述輸入數據進行哈希計算,得到哈希值。所述哈希計算是計算機領域中的一種散列算法,用于把任意長度的二進制值映射為固定長度的較小二進制值。203、建立所述輸入數據對應的數據信息,所述數據信息包括所述哈希值,所述副本數。204、判斷是否存在與所述數據信息相同的已存儲數據信息。所述已存儲數據信息對應唯一的已存儲數據。在計算機中,已經存儲了大量的數據,每一份已存儲數據相應的建立了唯一的已存儲數據信息,每份已存儲數據信息中包括對應的已存儲數據的哈希值和副本數。步驟204判斷是否存在與所述數據信息相同的已存儲數據信息,即判斷是否存在與用戶的輸入數據的數據信息所包括的哈希值和副本數分別相同的已存儲數據信息。如果兩個數據信息中的哈希值和副本數分別相同,可以判定這兩個數據信息所對應的兩個數據是相同的數據。205、當存在與所述數據信息相同的已存儲數據信息時,獲取所述已存儲數據信息對應的本文檔來自技高網...

    【技術保護點】
    一種刪除重復數據的方法,其特征在于,包括:獲取用戶的輸入數據,以及用戶輸入的副本數;對所述輸入數據進行哈希計算,得到哈希值;建立所述輸入數據對應的數據信息,所述數據信息包括所述哈希值,所述副本數;判斷是否存在與所述數據信息相同的已存儲數據信息;所述已存儲數據信息對應唯一的已存儲數據;當存在與所述數據信息相同的已存儲數據信息時,刪除所述輸入數據。

    【技術特征摘要】
    1.一種刪除重復數據的方法,其特征在于,包括 獲取用戶的輸入數據,以及用戶輸入的副本數; 對所述輸入數據進行哈希計算,得到哈希值; 建立所述輸入數據對應的數據信息,所述數據信息包括所述哈希值,所述副本數;判斷是否存在與所述數據信息相同的已存儲數據信息;所述已存儲數據信息對應唯一的已存儲數據; 當存在與所述數據信息相同的已存儲數據信息時,刪除所述輸入數據。2.根據權利要求I所述的方法,其特征在于,還包括 當存在與所述數據信息相同的已存儲數據信息時,獲取所述已存儲數據信息對應的狀態信息項;所述已存儲數據信息對應的狀態信息項記錄有所述已存儲數據的存儲地址;根據所述已存儲數據的存儲地址,獲取對應的刪除列表;所述刪除列表記錄有被執行過刪除動作的所述已存儲數據的文件名; 將所述用戶輸入的數據的文件名加入所述刪除列表。3.根據權利要求I所述的方法,其特征在于,系統按照預設的周期遍歷系統中已存在的元數據,包括 獲取系統中已存在的元數據;所述系統中已存在的元數據記錄有所述系統中已存在的元數據對應數據的存儲地址、所述系統中已存在的元數據對應數據的副本數、所述系統中已存在的元數據對應數據的文件名; 對所述系統中已存在的元數據對應數據的存儲地址中的數據進行哈希計算,得到第二哈希值; 構造第二數據信息,所述第二數據信息包括所述第二哈希值,所述系統中已存在的元數據對應數據的副本數; 判斷是否存在與所述第二數據信息相同的在系統中已存在的第三數據信息; 若存在,獲取所述第三數據信息對應的第三狀態信息項;所述第三狀態信息項記錄有所述第三數據信息對應的數據的存儲地址; 根據所述第三數據信息對應的數據的存儲地址,獲取對應的第三刪除列表;所述第三刪除列表記錄有被執行過刪除動作的第三數據信息對應的數據的文件名; 判斷是否在所述第三刪除列表存在所述系統中已存在的元數據對應數據的文件名;若否,將所述系統中已存在的元數據對應數據的存儲地址更新為所述第三數據信息對應的數據的存儲地址; 刪除所述系統中已存在的元數據對應數據的存儲地址中的數據。4.根據權利要求I所述的方法,其特征在于,在刪除所述輸入數據前,還包括 將所述輸入數據對應的元數據記錄的所述輸入數據的存儲地址變更為所述已存儲數據對應的元數據記錄的所述已存儲數據的存儲地址;所述元數據記錄有與元數據對應的數據的存儲地址、數據的副本數、數據的文件名。5.根據權利要求4所述的方法,其特征在于,所述將所述輸入數據對應的元數據記錄的所述輸入數據的存儲地址變更為所述已存儲數據對應的元數據記錄的所述已存儲數據的存儲地址,包括 在將所述用戶輸入的數據的文件名加入所述刪除列表后,經過預設定的時間段后,將所述輸入數據對應的元數據記錄的所述輸入數據的存儲地址變更為所述已存儲數據對應的元數據記錄的所述已存儲數據的存儲地址。6.一種刪除數據重復數據的裝置,其特征在于,包括 輸入數據獲取單元,用于獲取用戶的輸入數據,以及用戶輸入的副本數; 第一哈希單元,用于對所述輸入數據進行哈希計算,得到哈希值; 數據信息建立單元,用于建立所述輸入數據對應的數據信息,所述數據信息包括所述哈希值,所述副本數;...

    【專利技術屬性】
    技術研發人員:鄭錫濤張輝戰宏亮韓明
    申請(專利權)人:華為技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 成人无码Av片在线观看| 久久人妻av无码中文专区| 亚洲无码高清在线观看| 人妻夜夜添夜夜无码AV| 丰满少妇人妻无码专区| 国产午夜无码片在线观看影院| AV无码小缝喷白浆在线观看| 亚洲中文字幕久久无码| MM1313亚洲精品无码久久| 亚洲AV无码国产在丝袜线观看| 特级毛片内射www无码| 久久久久亚洲精品无码系列 | 亚洲AV无码专区日韩| 无码国内精品人妻少妇| 伊人久久无码中文字幕| 亚洲AV无码精品国产成人| 亚洲精品无码不卡在线播HE| 69成人免费视频无码专区| 亚洲精品无码久久久久久久| 亚洲av无码成h人动漫无遮挡 | 亚洲精品一级无码鲁丝片| av无码免费一区二区三区| 中文成人无码精品久久久不卡| 精品久久久无码中文字幕天天| 中文字幕无码精品亚洲资源网| 无码毛片内射白浆视频| 无码人妻精品一区二区三区东京热| 精品久久久久久无码中文字幕| 无码国模国产在线无码精品国产自在久国产 | 乱人伦人妻中文字幕无码| 精品少妇无码AV无码专区| 久久午夜夜伦鲁鲁片免费无码| 一本无码中文字幕在线观| 国产成人无码一区二区在线观看| 免费无码一区二区| 亚洲精品无码av天堂| 超清无码一区二区三区| 中文字幕丰满伦子无码| 国产AV一区二区三区无码野战| 永久无码精品三区在线4| 日韩aⅴ人妻无码一区二区|