当前位置:文档之家› 重复数据删除技术背景知识介绍

重复数据删除技术背景知识介绍

白皮书

重复数据删除技术背景知识介绍:

技术白皮书

声明

本白皮书可能包含受版权保护的专有信息。所含信息如有更改,恕不另行通知。本白皮书不代表Quantum 方面做出任何承诺。尽管可确定信息来源非常可靠,但对于本白皮书中可能包含的不准确信息,Quantum 不承担任何责任。Quantum 不保证本白皮书中的信息始终是最新的,而且保留在不另行通知的情况下,更改或不再发布本白皮书和/或产品的权利。未经 Quantum 明确书面许可,除购买者之外的其他任何人都不得出于个人使用的目的,以影印、录制或信息存储和检索系统等电子或机械方式,或以任何形式复制或传播本文档的任何部分。

目录

重复数据删除—来自共用存储池的多个数据集 (3)

固定长度数据块与可变长度数据段对比 (4)

重复数据删除存储池数据变化的影响 (5)

共享共用的重复删除数据块池 (7)

重复数据删除架构 (7)

“线内”方法与“后期处理”方法比较 (8)

将重复数据删除技术用于数据复制 (8)

复制方法背景知识 (9)

应用于复制的重复数据删除技术 (9)

应用于复制的加密技术 (11)

Quantum DXi 系列基于磁盘的备份解决方案相关信息 (11)

特征和优势简介 (12)

表 A-1 至表 A-6 (12)

表 A-7 至表 A-10 (13)

Quantum 公司在本白皮书中使用的术语“重复数据删除”是指特定的数据简化方法,该方法基于这样一种原理构建而成:为特定数据集中长度可变的冗余数据块(数据段)系统替换引用指针。重复数据删除的目的是增大磁盘阵列中可存储的信息量,并增加可通过网络传输的有效数据量。如果基于长度可变的数据段进行重复数据删除,则可以提供比单实例存储技术更大的粒度,因而能够识别并且无需存储所有相同文件的重复实例。事实上,针对可变长度数据块的重复数据删除技术可以与基于文件的数据简化系统结合使用,以提高效率。此外,它还与用于压缩写入磁带或磁盘的数据的现有压缩系统兼容,并且能够在解决方案级别实现与压缩功能的整合。针对长度可变数据块的重复数据删除技术的关键要点最先在公司 1999 年向 Rocksoft, Ltd(现在成为了 Quantum 公司的一部分)发布的专利中进行了说明。

注意:在数据简化领域,术语标准化仍在不断进行。术语“重复数据删除”也相应地可用于未使用可变长度数据段的数据简化方法。适用于小型企业办公/家庭办公环境的Quantum GoVault? 磁盘备份系统采用了不同的重复数据删除技术,该技术可标识不同版本备份文件的位级变化。有些厂商还可能使用此术语指代主要基于文件的方法或可能使用固定长度数据段的方法。

在介绍重复数据删除技术之前,多了解一些有关如何在基于磁盘的传统存储系统中表示文件和数据集的存储知识对读者是有帮助的。单一文件或单一数据集中的数据几乎不会被存储到单一磁盘系统上的连续或相邻数据块中,如果采用 RAID 存储,数据通常会被写入跨多个磁盘系统分布的多个数据块。在操作系统的文件系统中,文件或数据集可通过一组元数据(包括指向构成该数据集的数据块在磁盘中物理驻留位置的引用指针)来表示。在 Windows 系统中,“文件分配表”将映射这些链接;而在 UNIX/Linux 系统中,索引节点将保留映射信息。差异性快照和重复数据删除等基于数据块的数据存储实用程序均采用了这样的技术:通过不同元数据集中的多个指针同时引用单一数据段或数据块。重复数据删除技术还充分利用了通过多个指针引用共用数据块的理念。

重复数据删除—来自共用存储池的多个数据集

总体而言,重复数据删除技术的具体使用方式是:将数据集(在备份环境下,通常是备份数据流)划分为数据块并将这些数据块写入磁盘目标区域。为了识别传输数据流中的数据块,重复数据删除引擎会为每个数据段创建一个数字签名(类似指纹),并为给定存储库的签名创建一个索引。该索引可从所存储数据段中重建,并提供了引用列表,以确定数据块是否已处于存储库中。在复制操作过程中,该索引可用来确定哪些数据段要被存储,哪些数据段要被复制。当重复数据删除软件发现某一数据块以前已被处理过,则会插入指向该数据集元数据中原始数据块的指针,而不是再次存储该数据块。如果同一数据块出现多次,将生成多个指向它的指针。使用可变长度重复数据删除技术可以存储多组离散元数据映像,而每组映像都代表一个不同的数据集,但所有映像都会引用共用存储池中包含的数据块。

图 1. 重复数据删除方法

首次创建重复数据删除存储池 (A) 时,会有一组带有指向存储数据块的指针的元数据。随着新数据集的添加 (B),将为每个数据集添加单独的元数据映像 (MD2),以及新的数据块。此时,MD1 将继续指向原始数据块;而 MD2 会同时指向某些原始数据块以及新数据块。在每个备份事件中,系统都会存储该数据集的完整元数据映像,但只有新的数据段才会被添加到数据块池。

图 1. 重复数据删除方法

当存在重复的数据段时,重复数据删除技术的利用率最高,因此,它是目前存储备份数据时使用最频繁的技术。借助此方法不仅可以让备份数据集在磁盘上保留更长的时间,而且可用来从多个备份事件中的任意事件恢复文件或整个数据集。由于重复数据技术的操作对象通常是备份流程所创建的数据流,因此,该技术能够用来识别传输数据集中不同位置重复出现的数据块。由于大小固定的数据块不能很好地满足这些要求,因此,Quantum 重复数据删除方法是基于可变长度数据段系统构建的。

固定长度数据块与可变长度数据段对比

尽管使用固定长度数据块可以在传输数据中查找重复的数据块,但此方法成效非常有限。原因在于,备份环境下数据简化的“最佳机会”是查找绝大部分(但非全部)由相同数据段构成的两个传输数据集中的重复数据块。如果我们将备份数据流分为长度固定的多个数据块,那么只要数据集某一部分的大小发生变化,下次传输数据集时所有“下游”数据块都将随之发生变化。因此,差异很小的两个数据集很可能拥有几乎完全不同的数据块(参见图 3)。

Quantum 重复数据删除技术不是将数据流分割为长度固定的多个数据块,而是通过采用可在不同位置和条件下找到相同数据块边界的方法将数据流划分成长度可变的数据段。由于这种数据块创建方法可以使边界在数据流内“浮动”,因此,数据集某一部分的变化对数据集其他位置内的边界的影响很小甚至没有。通过这种方法,可以在单一文件、不同的文件、由不同应用程序创建的文件以及不同时间创建的文件内的不同位置找到重复的数据段。

图 2. 将数据序列划分为固定长度或可变长度数据块

将数据序列划分为固定长度数据块:

上一行显示了原始数据块划分—下一行显示了对数据块 A 进行变化(插入)后的数据块。尽管上下两行中形成的信息序列相同,但所有数据块的内容都发生了变化,而且未检测到任何重复数据。如果我们存储了两个序列,就会拥有 8 个完全不同的数据块。

将数据序列划分为可变长度数据段:

查看数据序列时,重复数据删除技术会利用可变长度数据块或数据段。在这种情况下,数据块 A 会在添加新的数据时发生变化(现在为 E),但其他数据块没有受到任何影响。数据块 B、C 和 D 都可以确认为与第一行中的相应数据块完全相同。如果我们存储了两个序列,将拥有 5 个完全不同的数据块。

重复数据删除存储池数据变化的影响

在首次通过重复数据删除系统对数据集进行处理时,数据集内重复数据段的数量会因数据性质(包括文件类型和用来创建文件使用的应用程序)的不同而存在很大的差异。对存储效率的影响可能微不足道,也可能高达 50% 甚至更高。但是,将多个相似数据集(例如,来自特定磁盘组的一系列备份映像)写入共用重复数据删除池时,这种优势往往非常显著,因为每个新的写入操作只是依据引入的新数据段的数量来使整个数据池增大。在代表传统业务运营的数据集中,两个备份事件之间一般只有 1% 或 2% 的数据段级差异(尽管,高变化率同样比较常见)。

在任何给定备份事件中引入的新数据段的数量取决于数据类型、两次备份事件之间的数据变化率以及从一个备份作业到下一个备份作业的数据增长量。在多个备份事件中存储的数据段的总数同样在很大程度上取决于用户制定的保留策略,如备份作业的数量和数据在磁盘中保留的时间。在传统磁盘存储系统中存储所有备份数据集所需空间大小与重复数据删除系统所使用的容量之间的差异率被称为重复数据删除比率。

图 3 显示的公式可用来推算重复数据删除比率,而图 4 显示了四个不同备份数据集(拥有不同的总压缩率和不同的变化率)的重复数据删除比率。图 5 还显示了达到 20:1 的重复数据删除比率所需的备份事件数,该比率被业界广泛用作基于可变长度数据段的数据简化系统的平均工作值。在各种情况下,简单起见,我们假设每一备份事件都会对所有主要数据进行完全备份。

在每日完全备份模式或每周完全/每日递增备份模式下,重复数据删除存储池的大小应相同,因为在这两种模式下,每次备份只添加新的数据段。但由于在每日完全备份模式下,非重复数据删除磁盘存储系统所需的空间要大得多,也就是说,即使存储的数据量基本保持相同,但使用完全备份方法获得的存储优势更大,因此,重复数据删除比率将有所不同。

图 3. 重复数据删除比率计算公式

通过示例可以清楚知道,重复数据删除在用于备份数据集(备份事件之间的变化率很低或一般)时能够发挥最大功效,即使对于变化率很高的数据集,优势仍然显著。

图 4. 重复删除数据比率变动的影响

? !>

1 = 5:1

? = 0%

? 20:1 = 4 2 = 2:1

? = 1%

? 20:1 = 11

3 = 2:1 ? = 5%

? 20:1 = 19 4 = 2:1

? = 10%

? 20:1 = 1825

为了帮助最终用户选择适用的重复数据删除设备,Quantum 开发了一种根据要保护的数据量、备份方法、数据类型、总压缩率、数据增长率和变化率以及数据保留时间长短对备份数据集增长进行模拟计算的估算工具 (Sizing Calculator)。该估算工具可帮助用户了解重复数据删除技术在哪些方面拥有最大优势,传统磁盘或磁带备份系统在哪些方面可能更适用。

注意:请与您的 Quantum 代表联系以参与重复数据删除估算工具实践。

共享共用的重复删除数据块池

如果允许多个源和多个文件系统将数据写入共用重复数据删除存储池,重复数据删除系统将发挥最大作用。Quantum DXi 系列设备就是一个很好的例证。每款 DXi 系列设备都可以通过多个文件系统(包括 NAS 组(CIFS 或 NFS )和虚拟磁带库(使用 iSCSI 或光纤通道连接)的任意组合)使用共用重复数据删除存储池(又称为“数据块池”)。由于所有的文件系统都会使用共用存储池,因此,写入设备的所有数据集中的冗余数据段都会被删除。实际上,这意味着 DXi 系列设备将识别并删除来自不同来源和通过不同接口的重复数据块,例如,通过 NAS 在打印和文件服务器上备份的相同数据段和通过 VTL 在邮件服务器上备份的相同数据段。

图 5. 共享重复数据删除存储池

写入 DXi 设备的所有数据集将共享共用的重复数据删除存储池,而不管数据收录期间使用了什么样的文件系统、接口或应用程序。一台 DXi 系列设备可以同时支持多个文件系统和接口。

重复数据删除架构

重复数据删除操作不可避免地会涉及一些管理费用,而且通常会涉及多个解决方案级的处理,包括压缩。也就是说,选择执行重复数据删除的位置和方式会影响备份流程的速度。重复数据删除处理可应用于数据流中的数据(“线内”处理)或磁盘中的数据(后期处理)。此外,还

可应用于备份操作的目标端或源(例如,最初处理备份数据的应用服务器)端。

EYj! ?

与压缩或加密流程相似,进行重复数据删除时,多数情况下,都能够从为特定流程而优化的特定用途系统获得最佳性能。另外,使用基于通用操作平台运行的软件代理也是一种进行重复数据删除的有效方法,但该方法有以下一些不足之处:所有操作都基于软件进行;所有受保护的服务器都必须运行代理;执行处理的应用服务器并非专门用于特定的重复数据删除任务;而且,其他操作会共享服务器资源。因此,目前软件代理方法的功能通常仅限于非常小的数据集(其中系统性能并非优先考虑的问题),以及服务器较少的环境(因为持续服务器管理的费用相对较高)。

重复数据删除方法不仅整体性能最佳,而且最易实施,通常是在备份数据传输的目标端对专门的硬件系统进行处理的方法之一。此外,它还可以使整体备份保持最高效率,因为备份流程本身是独立于重复数据删除操作的,并且可以与任何备份软件包一起高效运行。

“线内”方法与“后期处理”方法比较

采用“后期处理”方法的重复数据删除系统通过将所有备份数据首先存储于磁盘中的目标位置,然后通过后台处理删除重复数据的方式,使简化操作不必在初始数据流中进行。采用此方法能够获得最佳初始性能,但由于它需要足够的磁盘空间才能将完整的备份集写入未进行重复数据删除处理的磁盘组,而且涉及了一个两阶段数据流程,因此,后期处理最适合拥有更大总磁盘空间和更大规模处理资源的大型系统。而且,即使在后期处理系统中,创建一个高速重复数据删除引擎依然对整个系统功能至关重要。因为大多数实际操作都对重复数据删除处理有时间限制,即,它必须在有新一轮备份数据需接收和处理之前完成。因此,可用重复数据删除池的大小与重复数据删除比率以及磁盘系统数据写入速度密切相关。

“线内”重复数据删除可在系统收录备份数据时对备份数据流进行处理。“线内”方法虽然最大限度降低了磁盘需求,但它涉及数据写入操作中重复数据删除的管理费用,因此,“线内”系统需要精心设计,以保持较高的数据流。例如,Quantum DXi3500 和 DXi5500 设备经过专门优化后,可以进行高速线内重复数据删除。这些产品采用了数据缓冲、高速文件系统技术及“线内”硬件压缩等 Quantum 技术,可将速度提到 800 GB/小时(220 MB/秒),该速度相当于上一代典型线内重复数据删除设备速度的两倍。

将重复数据删除技术用于数据复制

迄今为止,我们主要介绍了重复数据删除技术在存储方面的优势,该技术的优势远不止于此,它还可以显著降低通过网络复制数据所需的带宽,从而为远程复制提供类似优势。因此,可为磁盘备份提供切实可行的基于 WAN 的灾难恢复 (DR) 保护,并降低对移动介质的需求。

每个 IT 机构所需的最基本的灾难恢复 (DR) 保护确保了备份数据的安全,使其免遭现场丢失或损坏。设备和应用程序都可以更换,但数字资产通常是不可替代的。不管特定存储或备份系统的弹性或冗余有多强,或者拥有多少层冗余,当所有数据副本都位于单一位置和单一硬件系统时,它们非常容易受到针对特定位置的损坏,包括自然灾害、火灾、盗窃以及恶意或意外的设备损坏等。

重复数据删除技术为 IT 部门提供了一种全新的 DR 选择,使通过 WAN 进行站点间复制成为另一种切实可行的方法,不仅使 DR 更易实施,而且可以降低运营费用,减少移动介质的使用。

复制方法背景知识

有以下两种得到广泛认可的复制模式:同步复制和异步复制。同步复制通常又称为映射,可通过在每个 I/O 周期在两个存储系统之间传输数据块,来始终保持两个主活动数据集处于同一状态。同步复制通常可为复制数据提供非常快的故障转移(如果主数据集受到损坏)功能,并且往往会涉及两个独立的存储系统,而且这两个系统通常位于不同位置。因为只有在本地和远程写入完成后,同步复制系统才会向主机发送 I/O 完成状态信号,因此,同步复制系统统常需要高速链接,这会降低性能,而且复杂难管。因此,该技术通常适用于必须始终保持可用性的事务导向型应用中所使用的重要数据。

异步复制同样可应用于主数据映射。在这种操作模式下,第二个数据集将动态地作为主数据集的副本加以保留,但第二个数据集可以滞后主数据集一定时间。只允许延迟一个或两个 I/O 周期(以确保映射始终为最新内容),但也可能更长。尽管映射的映像滞后主数据太多,但异步映射占用带宽较少,而且往往可以最大限度降低对主数据进行操作的负面影响,因此,主系统可能需要定期暂停写入,以便及时进行映射。

另外,异步复制还可用于备份映像等非动态、时间点映像,以提供现场数据丢失和灾难恢复保护。

该技术比映像技术更加易于实施,不仅可以防止出现其他故障,减少移动介质的使用,而且对主应用程序影响更小。备份数据是一种可用于 DR 的很好的复制方法,它不仅是主数据的时间点副本,而且可以通过备份流程与主应用程序隔离开来。阻碍备份数据复制广泛部署一大因素在于:通常情况下,备份数据量较大时,通过广域网复制变得非常困难。

应用于复制的重复数据删除技术

重复数据删除技术可减少通过网络创建和维护重复数据集所导致的带宽耗费和相应成本,因而,使备份数据复制更加切实可行。支持重复数据删除技术的复制与支持重复数据删除技术的数据存储基本相似。一旦为一个备份数据存储创建了两个映像,要想保持映像或目标内容与源内容相同,就必须定期复制和迁移备份事件所添加的新数据段、元数据映像或命名空间。

接下来,将介绍 Quantum 在其 DXi 系列磁盘备份和远程复制解决方案中采用的异步复制方法。其他厂商和不同数据简化系统所使用的处理方法可能存在重大差异。DXi 系列设备可以通过复制,在借助 WAN 连接进行数据传输的不同设备上创建并维护备份数据集的备份映像。使用 DXi 系列设备,可以对整个源设备或在源设备中创建的单个 NAS 共享或虚拟磁带库进行复制。复制流程始于将源设备某一共享或某一部分中的所有数据段复制到另一目标设备对等的相应共享或部分。尽管这种初始数据传输可通过网络进行,但由于数据量过大,对源设备和目标设备进行临时共置以使数据集实现同步,或者使用磁带传输初始数据集,都是切实可行的。

在源设备和目标设备实现同步后,对于写入源设备的每个新备份事件,复制流程只发送新的数据段。如果新的备份事件变化率达到 1%,创建映像的最大带宽需求将是复制写入源设备的整个备份数据集所需带宽的百分之一。由于 Quantum 使用两阶段、预传输流程作为其复制软件的一部分,因此,带宽需求可能进一步降低。

在本系统中,将数据发送到目标设备之前,DXi 系列复制软件会将可用于复制的数据块的列表发送至目标设备(该列表通常仅几 MB 大小,比实际数据要小得多)。目标设备可通过已存储的数据段索引来核对该数据段列表,并返回包含本地不可用而需要从源 DXi 系列设备发送的要素的列表。随后,源设备将通过网络发送新数据段的副本。一旦备份作业开始被写入源设备,数据段便会在后台被发送,当新的备份映像元数据被传送时,复制即告完成。此时,备份映像可用于在目标设备上进行恢复。

? lǖ

? ? ?

?? ? ?

??

?

? ?

? !3ǖ

!XBO!

图 6. 复制—在传输前验证数据段

使用 DXi 系列复制软件可以让多个源设备指向同一个目标设备,而且复制通常都是采用分区到分区的(例如,每个源设备都由将数据复制到源设备上类似映像的特定设备分区构成,分区可能是 NAS 共享库分区,也可能是虚拟磁带库分区)方式。可删除所发送备份映像中所有重复数据段的共用重复数据删除池支持目标设备上的所有复制映像。也就是说,重复数据删除将在不同的源位置间发生,因此,如果相同数据块在源位置 A 和 B 均有备份,当位置 A 和 B 都向同一目标设备复制数据时,将只在共用位置 C 处存储一次。

检查目标位置已有哪些数据段存在的预传输流程是 DXi 系列复制流程的重要功能之一。这意味着,如果昨天已从源位置 A 备份过数据段,而今天要在源位置 B 再备份这些数据段,则这些数据段不会在目标位置再存储一次,而且将不会通过网络发送。只有元数据需要发送和存储。该预传输重复数据段删除功能会显著降低以分布方式使用类似文件设置进行工作的用户环境中进行复制所需的带宽。

应用于复制的加密技术

由于很多组织都使用公共数据交换来提供分布位置之间的 WAN 服务,而且各位置之间的数据传输可采用多条从源位置到目标位置的路径,因此,重复数据删除设备需要提供加密功能以确保数据传输的安全性。如果使用了 DXi 系列设备,所有复制的数据(包括元数据和实际数据块)都将使用 SHA-AES 128 位加密技术在源设备处进行加密,并在目标设备处解密。

图 7. 复制时对数据进行加密

在 DXi 系列设备中,复制的数据会在传输之前使用 128 位高级加密标准 (SHA-AES) 进行加密,并在目标位置进行解密。密钥将由设备自动管理。

Quantum DXi 系列基于磁盘的备份解决方案相关信息

DXi 系列磁盘备份系统能够在整个企业中扩大重复数据删除技术的优势,并将其与磁带、复制和加密技术集成到一款全面的适用于多种环境的备份解决方案中。Quantum 获专利的重复数据删除技术使磁盘需求降低了 90% 甚至更多,并且使基于 WAN 的复制成为一种切实可行的 DR 工具。借助该技术能够快速而可靠地进行备份和还原;减少对介质的使用;对电源和冷却要求更低;整体数据保护和保留成本也相应降低。DXi 系列中等设备以易于使用著称,并且拥有灵活的 NAS 或 VTL 接口。面向大型企业的型号可提供高达 240 TB 的容量、8 TB/小时的性能、主动-主动 HA 架构、直接磁带创建以及“线内”和“后期”处理重复数据删除功能。所有 DXi 系列系统都可以通过复制链接起来。Quantum 备份和保留解决方案可通过由备份、恢复和存档领域领军厂商的提供的通用管理、服务和支有机地联系在一起。

?

?

特征和优势简介

* 受保护数据的容量和数量(假设采用标准业务数据组合以及扩展磁盘数据保留)。20:1 容量比(假设采用每周完全/每日递增备份模式)。50:1 容量比(假设采用每日完全备份模式)。实际结果因数据类型、变化率和备份方法而有所不同。小型 DXi 设备可以在现场通过机架扩展为特定大型设备:DXi3500 1.2TB 设备可以扩展为 2.8TB 设备;DXi3500 1.8TB 设备可扩展为 4.2TB 设备;DXi5500 3.6TB 设备可扩展为 7.2TB 设备;DXi5500 5.4TB 设备可扩展为 10.8TB 设备。重复数据

删除技术是以“线内”方式使用的。

DXi3500、DXi5500 和 DXi7500 型号都支持远程复制。复制是异步的一对一或多对一的配置;同一设备内的分区既可作为复制源,也可作为复制目标;拥有作为复制目标

的分区的设备同样可以支持本地备份

相关主题
文本预览
相关文档 最新文档