一種系統包括處理器和存儲指令的存儲器,當執行指令時使系統從數據存儲中檢索參考數據塊,基于標準將參考數據塊聚合為第一集,基于包括該參考數據塊的第一集的一部分來生成參考數據集,并且在該數據存儲中存儲該參考數據集。
【技術實現步驟摘要】
用于在存儲器管理中去重的參考塊至參考集的聚合相關申請交叉引用本申請關聯于美國專利申請第_號,提交于__,題為“pipelinedreferencesetconstructionanduseinmemorymanagement(管線參考集構造和在存儲器管理中的使用)”;美國專利申請第_號,提交于__,題為“integrationofreferencesetswithsegmentflashmanagement(參考集與段閃存管理的集成)”;以及美國專利申請第_號,提交于__,題為“garbagecollectionforreferencesetsinflashstoragesystems(用于閃速存儲系統中的參考集的垃圾收集)”,其每一個通過引用整體并入本文。
本公開涉及管理存儲設備中數據塊集。特別地,本公開描述了用于存儲應用和數據去重的基于相似性的內容匹配。更特別地,本公開涉及將參考數據塊聚合為參考數據集,用于閃存管理的去重。
技術介紹
基于相似性的內容匹配可應用于文檔,用于標識文檔集之間的相似性,與精確匹配相反。內容匹配的概念先前使用于搜索引擎實現和建立基于動態隨機存取存儲器(DRAM)的高速緩存,諸如基于散列查找的去重,其僅標識精確匹配,與標識近似匹配的基于相似性的去重相反。然而,在存儲設備中利用基于相似性的去重需要解決與參考數據集管理和構造相關的問題。已有方法通過比較輸入數據集的每個對應數據塊與存儲器中存儲的數據塊執行數據塊聚合。此外,已有方法執行輸入數據集的每個數據塊的精確內容匹配。精確內容匹配包括比較關聯于輸入數據集的每個數據塊的內容與存儲于存儲器的數據塊的內容。具有精確匹配的數據塊被編碼,而不具有精確匹配的數據塊不被編碼并且被獨立地存儲在存儲器中。這些已有方法包括多個缺陷,諸如性能方面、需要過多的處理時間、需要使用大量的不必要的存儲器、一個或多個可包括相同內容的最小變型的數據塊之間的冗余數據等。因此,本公開通過有效地將參考塊聚合為參考數據集來解決關聯于存儲設備中數據聚合的問題。
技術實現思路
本公開涉及用于硬件有效數據管理的系統和方法。根據本公開的主題的一個創新方面,系統具有一個或多個處理器和存儲器,所述存儲器存儲指令,當執行時使系統:從數據存儲中檢索參考數據塊;基于標準將參考數據塊聚合為第一集;基于包括該參考數據塊的第一集的一部分來生成參考數據集;并且在該數據存儲中存儲該參考數據集??傮w上,本公開描述的主題的另一創新方面可實現于一種方法,其包括:從數據存儲中檢索參考數據塊;基于標準將該參考數據塊聚合為第一集;基于包括該參考數據塊的第一集的一部分來生成參考數據集;并且在該數據存儲中存儲該參考數據集。一個或多個方面的其他實現包括對應系統、裝置和計算機程序,配置以執行編碼于計算機存儲設備的該方法的動作。這些和其他實現的每一個可選地包括如下特征的一個或多個。例如,該操作進一步包括:接收包括新數據塊集的數據流;對新數據塊集執行分析;基于該分析通過關聯新數據塊集與該參考數據集來編碼新數據塊集;更新記錄表,其將新數據塊集的每個編碼數據塊關聯于該參考數據集的對應參考數據塊;確定不同于該參考數據集的新集的數據塊;將不同于該參考數據集的新集的數據塊聚合為第二集;基于包括不同于該參考數據集的新數據塊集的數據塊的第二集而生成第二參考數據集;分配使用計數變量至第二參考數據集;以及在該數據存儲中存儲第二參考數據集。例如,該特征可包括:包括標識新數據塊集和該參考數據集之間是否存在相似性的分析;包括關聯于包括于該參考數據集的多個參考數據塊的預定義閾值的標準;以及包括關聯于要存儲于該數據存儲的多個參考數據集的閾值的標準。這些實現在多方面特別地有利。例如,本文描述的技術可用于將參考數據塊聚合為參考數據集,用于存儲器管理中的去重。應當理解,本公開使用的語言在原理上被選擇用于可讀和指導性目的,而非限制本文公開主題的范圍。附圖說明本公開以示例的形式說明,并且在附圖中以限制的形式,其中相同參考數字用于指代相似元素。圖1是說明根據本文描述的技術用于管理存儲設備中的參考數據集的參考數據塊的示例系統的高級框圖。圖2是說明根據本文描述的技術的示例存儲控制器單元的框圖。圖3A是說明根據本文描述的技術用于管理存儲設備中的參考數據塊的示例系統的框圖。圖3B是說明根據本文描述的技術的示例數據精簡(datareduction)單元的框圖。圖4是根據本文描述的技術用于生成參考數據集的示例方法的流程圖。圖5是根據本文描述的技術用于聚合數據塊為參考數據集的示例方法的流程圖。圖6A-圖6C是根據本文描述的技術用于基于變化數據流適應性將參考塊聚合為參考數據集的示例方法的流程圖。圖7是根據本文描述的技術用于在管線體系結構中編碼數據塊的示例方法的流程圖。圖8A和圖8B是根據本文描述的技術用于在管線體系結構中生成參考數據集的示例方法的流程圖。圖9是根據本文描述的技術用于在閃速存儲管理中跟蹤參考數據集的示例方法的流程圖。圖10是根據本文描述的技術用于更新關聯于參考數據集的計數變量的示例方法的流程圖。圖11是根據本文描述的技術用于分配編碼數據段至非暫存數據存儲中的新位置的示例方法的流程圖。圖12是根據本文描述的技術用于編碼關聯于閃存管理和垃圾收集集成的數據段的示例方法的流程圖。圖13是根據本文描述的技術用于引退關聯于閃存管理的參考數據集的示例方法的流程圖。圖14A為說明用于壓縮參考數據塊的現有技術示例的框圖。圖14B為說明用于去重參考數據塊的現有技術示例的框圖。圖15為說明根據本文描述的技術的增量編碼的示例圖形表示。圖16為說明根據本文描述的技術的近似編碼的示例圖形表示。圖17為說明根據本文描述的技術的參考數據塊的增量和自壓縮的示例圖形表示。圖18A和圖18B為說明根據本文描述的技術利用閃存管理的垃圾收集的參考塊集的跟蹤和引退的示例性圖形表示。具體實施方式用于提供有效數據管理體系結構的系統和方法在下文描述。特別地,在本公開,用于管理存儲設備(特別是閃存存儲設備)中的參考數據塊集的系統和方法在下文描述。盡管本公開的系統、方法描述于使用閃存存儲的特定系統體系結構的環境,應當理解,系統和方法可應用于其他體系結構和硬件組織。概覽本公開描述了基于相似性的內容匹配,用于存儲應用和數據去重。特別地,通過解決參考數據集管理和構造的問題來提供用于有效數據管理的改進方法,本公開克服了當前方法在數據管理中的缺陷。更特別地,本公開對提供于本公開的解決方案提供了附加的改進,其使實體在其備份存儲中維持數據,同時減少成本、存儲空間和功率。本公開不同于現有的實現,其至少解決如下問題:在存儲應用中計算基于相似性的匹配;以唯一方式對輸入數據塊應用壓縮和去重;解決改變參考數據集的問題,其取決于利用新一代參考數據集存儲改變數據流;以及集成參考數據集的管理與存儲設備(諸如但不限于閃速存儲設備)中的用于空間和運行時效率的垃圾收集。此外,基于相似性的去重算法通過推斷關聯于參考數據塊的內容的抽象表示來操作。因此,參考數據塊可用作模板,用于去重其他(即,未來)輸入數據塊,導致被存儲的總數據量的降低。當去重數據塊從存儲被召回時,精簡的(例如,去重)表示從存儲被檢索并與參考數據塊提供的信息合并以重新生成原始數據本文檔來自技高網...

【技術保護點】
一種方法,包括:從數據存儲中檢索參考數據塊;基于標準將參考數據塊聚合為第一集;基于包括參考數據塊的第一集的一部分生成參考數據集;以及在該數據存儲中存儲該參考數據集。
【技術特征摘要】
2015.11.04 US 14/932,8421.一種方法,包括:從數據存儲中檢索參考數據塊;基于標準將參考數據塊聚合為第一集;基于包括參考數據塊的第一集的一部分生成參考數據集;以及在該數據存儲中存儲該參考數據集。2.根據權利要求1的方法,進一步包括:接收包括新數據塊集的數據流;對新數據塊集執行分析;基于該分析通過關聯新數據塊集與該參考數據集來編碼新數據塊集;以及更新記錄表,該記錄表將新數據塊集的每個編碼數據塊關聯于該參考數據集的對應參考數據塊。3.根據權利要求2的方法,其中該分析包括標識新數據塊集和該參考數據集之間是否存在相似性。4.根據權利要求2的方法,進一步包括:確定不同于該參考數據集的新集的數據塊;將不同于該參考數據集的新集的數據塊聚合為第二集;以及基于包括不同于該參考數據集的新數據塊集的數據塊的第二集而生成第二參考數據集。5.根據權利要求4的方法,進一步包括:分配使用計數變量至第二參考數據集;以及在該數據存儲中存儲第二參考數據集。6.根據權利要求1的方法,其中該標準包括關聯于包含在該參考數據集中的多個參考數據塊的預定義閾值。7.根據權利要求1的方法,其中該標準包括關聯于要存儲于該數據存儲的多個參考數據集的閾值。8.一種系統,包括:處理器;以及存儲器,其存儲指令,當執行時使系統:從數據存儲中檢索參考數據塊;基于標準將參考數據塊聚合為第一集;基于包括該參考數據塊的第一集的一部分來生成參考數據集;以及在該數據存儲中存儲該參考數據集。9.根據權利要求8的系統,進一步包括:接收包括新數據塊集的數據流;對新數據塊集執行分析;基于該分析通過關聯新數據塊集與該參考數據集來編碼新數據塊集;以及更新記錄表,該記錄表將新數據塊集的每個編碼數據塊關聯于該參考數據集的對應參考數據塊。10.根據權利要求9的系統,其中該分析包括標識新數據塊集和該參考數據集之間是否存在相似性。11.根據權利要求9的系統,...
【專利技術屬性】
技術研發人員:A·辛蓋,S·曼錢達,A·納拉辛哈,V·卡拉姆切蒂,
申請(專利權)人:HGST荷蘭公司,
類型:發明
國別省市:荷蘭,NL
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。