重复数据删除技术简介
- 格式:docx
- 大小:54.34 KB
- 文档页数:4
数据处理中的数据去重方法数据去重是指在数据处理过程中,从一个数据集中删除重复的数据行或数据记录。
在实际数据处理操作中,数据可能存在重复记录的情况,这可能是由于多种原因引起的,比如数据采集的问题、数据输入错误、数据合并等。
数据去重是数据处理的一个常见任务,可以提高数据的质量和准确性,提高后续数据分析和应用的效果。
下面是一些常见的数据去重方法:1.基于字段的去重:根据一些或几个字段的唯一性来进行去重。
比如,对于一个包含学生信息的数据集,可以根据学生的学号字段来进行去重,保留每个学号对应的唯一一条记录。
2.整行去重:将整行数据作为一个唯一标识,去除重复的行。
这种方法适用于数据集中每一行的数据都是完全一样的情况。
3.字段组合去重:将多个字段的组合作为唯一标识,去除重复的组合。
比如,对于一个包含商品信息的数据集,可以根据商品的名称、价格和品牌组合来进行去重,保留每个组合的唯一一条记录。
4.抽样去重:通过抽样的方式来判断数据的重复性。
对于大规模的数据集,可以通过抽取一定比例的数据样本,然后对样本进行去重,再根据样本的去重结果对原始数据集进行去重。
5.哈希算法去重:使用哈希算法将数据转换成唯一的哈希值,然后根据哈希值来判断数据的重复性。
比较常用的哈希算法有MD5、SHA-1等。
通过将数据进行哈希转换后,可以快速地判断数据是否重复,从而进行去重操作。
6.基于相似度的去重:对于一些非精确匹配的场景,可以使用相似度算法来进行去重。
比如,对于一个包含文本信息的数据集,可以使用文本相似度算法来计算文本之间的相似度,然后根据相似度来判断文本的重复性。
7.基于规则的去重:根据一定的规则来进行数据去重。
比如,对于一个包含日期信息的数据集,可以根据日期的范围来进行去重操作,保留每个日期范围内的唯一一条记录。
8.基于机器学习的去重:利用机器学习的方法来进行数据去重。
可以通过训练一个二元分类模型,将数据分为重复和非重复两类,然后根据模型的预测结果来进行去重操作。
重复数据删除(De-duplication)技术研究文章地直址:/liuaigui/article/details/58290831、Dedupe概述De-duplication,即重复数据删除,它是一种目前主流且非常热门的存储技术,可对存储容量进行有效优化。
它通过删除数据集中重复的数据,只保留其中一份,从而消除冗余数据。
如下图所示。
这种技术可以很大程度上减少对物理存储空间的需求,从而满足日益增长的数据存储需求。
Dedupe技术可以带许多实际的利益,主要包括以下诸多方面:(1) 满足ROI(投资回报率,Return On Investment)/TCO(总持有成本,Total Cost of Ownership)需求;(2) 可以有效控制数据的急剧增长;(3) 增加有效存储空间,提高存储效率;(4) 节省存储总成本和管理成本;(5) 节省数据传输的网络带宽;(6) 节省空间、电力供应、冷却等运维成本。
Dedupe技术目前大量应用于数据备份与归档系统,因为对数据进行多次备份后,存在大量重复数据,非常适合这种技术。
事实上,dedupe技术可以用于很多场合,包括在线数据、近线数据、离线数据存储系统,可以在文件系统、卷管理器、NAS、SAN中实施。
Dedupe也可以用于数据容灾、数据传输与同步,作为一种数据压缩技术可用于数据打包。
Dedupe技术可以帮助众多应用降低数据存储量,节省网络带宽,提高存储效率、减小备份窗口,节省成本。
Dedupe的衡量维度主要有两个,即重复数据删除率(deduplocation ratios)和性能。
Dedupe性能取决于具体实现技术,而重复数据删除率则由数据自身的特征和应用模式所决定,影响因素如下表[2]所示。
目前各存储厂商公布的重复数据删除率从20:1到500:1不等。
2、Dedupe实现要点研发或应用Dedupe技术时应该考虑各种因素,因为这些因素会直接影响其性能和效果。
数据库中的数据去重与数据清理技术研究数据在日常生活和工作中扮演着重要的角色,它们可以帮助我们做出明智的决策。
然而,大量数据的积累往往会导致数据重复和杂乱无章的问题。
为了解决这些问题,数据库中的数据去重与数据清理技术就变得尤为重要。
本文将研究数据库中的数据去重与数据清理技术,并介绍其作用和实施方法。
首先,我们需要了解什么是数据去重。
数据去重是一种在数据库中删除重复数据的过程。
在数据库中,重复数据可能是由于多次插入、拷贝或其他原因造成的。
这些重复数据占用了存储空间、影响查询效率,并可能导致数据分析和决策产生错误。
因此,数据去重是清理和优化数据库的必要步骤之一。
数据去重可以通过多种方法实施。
其中之一是基于值的去重。
这种方法通过比较数据集中的属性值,将重复的数据删除。
例如,在一个存储有客户信息的数据库中,我们可以通过比较客户的姓名、电话号码等属性值来删除重复数据。
另一种方法是基于主键的去重。
这种方法利用数据库中的主键来识别和删除重复数据。
如果一个表中定义了主键,数据库会自动对主键进行去重操作。
除了这两种方法,还有基于相似度的去重方法,通过比较数据的相似度来删除重复数据。
这种方法适用于处理数据中的近似重复或模糊重复的情况。
在数据去重之后,数据清理变得尤为重要。
数据清理是指对数据库中的数据进行纠正、标准化和规范化的过程。
数据清理可以通过多种技术实施。
其中之一是使用数据清洗工具。
数据清洗工具可以自动识别和纠正数据中的错误和不一致之处。
例如,数据清洗工具可以自动更正姓名或地址中的拼写错误。
另一种技术是使用数据建模和验证技术。
数据建模和验证技术可以帮助我们定义和验证数据的规范性和完整性。
例如,我们可以使用数据建模和验证技术来确保电话号码的格式是正确的,或者确保邮箱地址是有效的。
除了数据去重和数据清理技术,还有一些额外的技术可以帮助我们更好地管理和优化数据库中的数据。
其中之一是数据备份和恢复技术。
数据备份和恢复技术可以在数据丢失或损坏的情况下恢复数据的完整性和一致性。
数据处理中的数据去重方法数据去重是数据处理的一个重要步骤,它用于剔除重复的数据,保证数据的准确性和完整性。
在现如今数据爆炸的时代,如何高效地去重成为了一个亟待解决的问题。
本文将介绍几种常见的数据去重方法,帮助读者更好地进行数据处理。
一、基于哈希算法的去重方法哈希算法是一种非常高效的数据去重方法。
它通过将数据映射成唯一的哈希值,利用哈希值来进行去重操作。
具体步骤如下:1. 首先,将待处理的数据集拆分成小块,每个小块包含若干条数据。
2. 对每个小块中的数据使用哈希函数进行计算,得到其对应的哈希值。
3. 将哈希值存储在一个哈希表中,如果表中已经存在该哈希值,则表明该数据已经存在,可以将其剔除。
哈希算法的优点是对大规模数据处理效率高,但是由于哈希冲突的存在,可能会出现误判的情况。
二、基于排序算法的去重方法排序算法是另一种常见的数据去重方法。
它通过对数据进行排序,将相邻的相同数据进行合并,达到去重的目的。
具体步骤如下:1. 将待处理的数据集进行排序,可以使用快速排序或归并排序等算法。
2. 遍历排序后的数据集,将相邻的相同数据合并成一条,其余数据保留。
排序算法需要占用较多的计算资源和时间,对于大规模数据处理可能会存在一定的困难。
三、基于集合操作的去重方法集合操作是数据处理中一种常用的去重方法。
它利用集合的性质,将重复出现的数据剔除,保留唯一的数据。
具体步骤如下:1. 将待处理的数据集转化为集合。
2. 遍历集合,将其中的重复数据剔除。
3. 将去重后的集合转化为列表或其他形式的数据存储。
基于集合操作的去重方法简单、高效,适用于中小规模的数据处理。
四、基于高级算法的去重方法除了上述常见的去重方法外,还有一些基于高级算法的去重方法值得一提。
例如布隆过滤器算法、最小哈希算法等。
这些算法使用了更复杂的数据结构和计算模型,可以处理规模更大的数据集。
布隆过滤器算法通过使用多个哈希函数和位数组来判断数据是否存在,适用于海量数据的去重操作。
删除数据库中重复数据的几个方法在一个数据库中进行删除重复数据的任务可能会有很多不同的方法。
这些方法可以通过使用编程语言、SQL查询语句或使用工具来实现。
下面是删除数据库中重复数据的一些常见方法:1.使用编程语言:-遍历数据并使用哈希表存储唯一数据,当遇到重复数据时删除它们。
-使用排序算法对数据进行排序,然后遍历排序后的数据,删除重复数据。
2.使用SQL查询语句:-使用DISTINCT关键字来选择唯一的数据,然后将选择的数据插入到一个新的表中,并将原表重命名。
-使用GROUPBY子句对数据进行分组,并选择每个组中的第一个数据,然后将选择的数据插入到一个新的表中。
3.使用数据库工具:- 使用ETL工具(如Talend、Informatica等)进行数据清洗和去重。
- 使用数据库管理工具(如phpMyAdmin、SQL Server Management Studio等)进行数据查询和删除。
除了上述方法之外,还可以使用其他一些高级技术和技巧来删除重复数据:4.使用聚焦技术:-使用规范化技术来设计数据库,这样可以消除数据中的冗余。
-使用索引来加快数据去重的速度。
5.使用存储过程:-创建一个存储过程,其中包含删除重复数据的逻辑。
-调用存储过程来执行删除操作。
6.使用临时表:-创建一个临时表,将去重后的数据插入到临时表中。
-删除原表中的数据,并将临时表重命名为原表的名称。
7.使用外部工具:- 使用数据清洗工具(如OpenRefine、DataWrangler等)来识别和删除重复数据。
- 使用数据质量工具(如Trifacta Wrangler、DataCleaner等)进行数据去重和清洗。
无论使用哪种方法,都需要谨慎操作,确保数据备份,以便在删除操作出现错误时可以恢复数据。
另外,还应该根据数据库的大小和复杂性来选择最适合的方法,以确保删除数据的效率和准确性。
wps删除重复项规则摘要:1.WPS删除重复项功能简介2.操作步骤详解3.应用场景及实用技巧正文:随着数字化时代的到来,我们在日常工作中会接触到大量的电子文档,其中可能包含重复的内容。
为了提高工作效率,我们需要学会如何快速找到并删除这些重复项。
本文将为您介绍WPS中删除重复项的功能,以及如何灵活运用这一功能提升办公效率。
一、WPS删除重复项功能简介WPS是一款功能强大的办公软件,其内置了删除重复项功能,可以帮助用户轻松找到并清除文档中的重复内容。
这一功能适用于Word、Excel、PowerPoint等常用文档格式,满足各种办公需求。
二、操作步骤详解1.打开WPS,找到需要删除重复项的文档。
2.点击菜单栏中的“数据”或“审阅”选项,根据文档类型选择相应的删除重复项功能。
3.在弹出的对话框中,选择需要删除重复内容的范围,如全文、当前选区或特定列。
4.确认选择后,点击“确定”按钮,WPS会自动查找并删除重复项。
5.如果在查找过程中发现有误删除的内容,可以点击“恢复”按钮进行还原。
三、应用场景及实用技巧1.整理文献资料:在撰写论文或报告时,我们需要查阅大量的文献资料。
通过删除重复项功能,可以快速找到重复引用的文献,并将其合并为一篇文献。
2.汇总数据:在Excel表格中,我们可以使用删除重复项功能,将多个工作表中的相同数据汇总到一张表中,方便进行数据分析。
3.清理Word文档:在日常办公中,我们会收到来自不同人员的Word文档,其中可能包含重复段落。
通过删除重复项功能,可以快速清理文档,提高阅读体验。
4.批量删除图片:在PowerPoint演示文稿中,有时会插入多张相似的图片。
利用删除重复项功能,可以批量删除重复图片,使演示文稿更加简洁。
总之,掌握WPS删除重复项功能,有助于提高我们的办公效率。
五大数据清洗技术介绍数据清洗是在数据处理和分析过程中不可避免的环节,可以帮助我们在数据分析中获得正确的结果。
本文将介绍五大数据清洗技术,包括缺失值处理、异常值检测、重复值删除、数据类型转换和文本数据处理。
一、缺失值处理缺失值是指数据集中存在缺少数值或信息的记录。
在数据分析中,缺失值往往会使分析结果产生偏差。
因此,我们需要通过填充或删除缺失值来保证分析结果的准确性。
常见的填充方法包括用平均值或中位数填充、用上一个或下一个有效值填充、使用插值等方法。
二、异常值检测异常值是指在数据集中存在明显不合理或异常的数值。
这些值可能是采样误差、人为造假或其他原因引起的。
处理异常值可以帮助我们获得更准确的结果。
常见的异常值处理方法包括基于规则的方法、基于统计分析的方法和基于机器学习的方法。
三、重复值删除在数据集中,可能存在多个相同的记录,这些记录会影响数据分析的结果。
因此,我们需要进行重复值删除。
重复值删除通常是基于关键列的重复值删除,也可以是基于所有列的删除。
删除重复值的方法有手动删除、计算哈希值、使用Pandas库中的drop_duplicates()函数等。
四、数据类型转换在数据处理中,我们通常需要将数据进行类型转换。
例如,将字符串类型转换为数字类型,将时间类型转换为日期类型等。
这可以通过使用Python中的astype()函数、Pandas库中的to_numeric()函数等方法来实现。
五、文本数据处理对于文本数据,我们通常需要进行一些处理,如去除停用词、进行分词、提取关键词等,以便进行文本分析。
这些方法可以通过使用Python中的自然语言处理库(例如NLTK)或第三方工具箱(例如jieba)来实现。
以上五种数据清洗技术是常见的数据清洗方法。
在实际应用中,我们需要根据数据类型和具体情况选择合适的方法进行数据清洗,以确保数据分析结果的准确性和可靠性。
文件级和块级重复数据删除技术的优缺点 2008年 12月 12日 11:23 作者:TechTarget 中国重复数据删除技术大大提升了基于磁盘的数据保护策略、基于 WAN 的远程分公司备份整合策略、以及灾难恢复策略的价值主张。
这种技术能识别重复数据,消除冗余,减少需转移和存储的数据的总体容量。
一些重复数据删除技术在文件级别上运行,另一些则更加深入地检查子文件或数据块。
尽管结果存在差异, 但判断文件或块是否唯一都能带来好处。
两者的差异在于减少的数据容量不同,判断重复数据所需的时间不同。
文件级重复数据删除技术文件级重复数据删除技术通常也称为单实例存储(SIS ,根据索引检查需要备份或归档的文件的属性,并与已存储的文件进行比较。
如果没有相同文件,就将其存储, 并更新索引;否则,仅存入指针,指向已存在的文件。
因此,同一文件只保存了一个实例,随后的副本都以“存根”替代,而“存根”指向原始文件。
块级重复数据删除技术块级重复数据删除技术在子文件的级别上运行。
正如其名所示, 文件通常被分割成几部分——条带或块,并将这些部分与之前存储的信息予以比较,检查是否存在冗余。
最常见的检查重复数据的方法是:为数据块指定标识符, 例如, 利用散列算法产生唯一的 ID 或“足迹”,标识数据块。
然后,将产生的 ID 与集中索引对比。
如果 ID 已经存在, 就说明以前曾处理并存储该数据块。
因此,只需存入指针,指向之前存储的数据。
如果 ID 不存在,就说明数据块独一无二。
此时,将 ID 添加到索引中,将数据块存储到磁盘中。
每个供应商检查的数据块大小各不相同。
一些供应商固定数据块的大小, 一些则使用不同大小的块 (有一些甚至允许终端用户改变固定块的大小,这会令人更加困惑。
固定块的大小可能为 8 KB或 64 KB,区别在于块越小,被判定为冗余的几率越大。
这也就意味着消除的冗余更多, 存储的数据更少。
固定块只存在一个问题:如果文件发生变化,而重复数据删除产品依然利用上次检查到的固定块, 那就可能无法监测冗余部分, 因为文件中的数据块已被改变或移除,而利用的固定块仍是变化之前的,剩下的比较就没有意义了。
关于“重复数据删除”技术,你还需要知道这些展开全文重复数据删除(De-duplication),简称“去重”,是主流的存储技术之一,通过对比校验技术删除存储设备上重复的数据,只保留其中一份,从而消除冗余数据,优化存储设备的物理空间,从而满足日益增长的数据存储需求。
经过近些年的发展,重复数据删除技术已经很成熟,本文整理了部分知识,有助于大家进一步了解重复数据删除。
一、重复数据删除技术的价值虽然存储介质的价格已经非常廉价,但若能在有限的存储介质上实现更高的存储效率,何乐而不为呢?此外,重复数据删除技术最大的一个收益点是能降低备份大数据量时对各资源的消耗和依赖。
巨量数据的备份不论对生产系统还是备份系统都是一个不小的冲击,况且随着系统的发展,备份系统越来越大,备份的数据越来越多,备份的计划与安排越来越受制于备份数据量的规模。
重复数据删除技术提供了一个物美价廉的解决方案,更提高了整个系统的效率。
也许在很多不太关注重复数据删除技术的工程师心中,重复数据还是那个效率低、成本高的空壳子,但实际上重复数据删除技术早已发展到了一个新的高度。
借个人实施经历中一个真实的案例,看看现如今的重复数据删除技术的性能:一台Windows虚拟机存储着490 GB(有效数据)非结构化文件(文件主要为word/Excel/PPT/PDF 等),日变化量大约15 GB/DAY,虚拟机的配置为2 * 2.8 GHz CPU,8 GB内存,千兆网卡。
部署了一套源端、在线、基于CPU-内存的重复数据删除备份(重复数据删除设备并非物理机而是虚拟机),所有配置均采用默认配置、不作定制优化。
首次备份耗时35 min,消重效率87%,消重时CPU消耗上涨5%,内存占用小于200MB,网络负载约3 MB/S左右。
第二次备份耗时19min,消重效率98%,CPU、内存消耗与首次备份差不多,但网络负载明显下降,偶尔占用1~2MB/S。
(@Li Fei 某保险公司系统架构师)二、主流的几种重复数据删除技术重复数据删除已经不是一个新的话题了,如今各个厂商的存储或备份产品都有这项功能。
重复数据删除技术简介这篇文章基于现有的SNIA材料,描述了重复数据删除流程可以进行的几个不同的地方;探讨了压缩与单实例文件以及重复数据删除之间的不同点;研究了次文件层重复数据删除执行的几个不同方式。
它同时还解释了哪种类型的数据适合重复数据删除,以及哪些不适合。
介绍重复数据删除已经成为存储行业非常热门的话题和一大类商业产品。
这是因为重复数据删除可以大幅减少购置和运行成本,同时提高存储效率。
随着数据量的爆炸性增长,接近一半的数据中心管理员都将数据增长评为三大挑战之一。
根据最近的Gartner调查结果,重复数据删除可以减轻存储预算的压力并帮助存储管理员应对数据的增长。
虽然重复数据删除主要被视为一种容量优化技术,不过该技术也可以带来性能上的好处--随着所需存储的数据的减少,系统所需迁移的数据也减少。
重复数据删除技术可以应用在数据生命周期上的不同点上:从来源端重复数据删除,到传输中重复数据删除,一直到存储目标端重复数据删除。
这些技术还可以应用在所有的存储层上:备份、归档和主存储。
重复数据删除的解释无论使用哪种方式,重复数据删除就是一个在不同层次的粒度性上识别重复数据并将重复数据替代为指向共享复件的指针的过程,这样可以节约存储空间和迁移数据所需的带宽。
重复数据删除流程包括跟踪并识别那些被删除的重复数据,以及识别和存储那些新的和独一无二的数据。
数据的终端用户完全不会感到这些数据可能已经被执行重复数据删除流程并已经在其数据生命周期中被重建许多次。
对数据进行重复数据删除操作有几种不同的方式。
单实例存储(SIS)是在文件或块层次上进行重复数据删除。
重复副本会被一个带着指针的实例所取代,而指针则指向原始文件或对象。
次文件层重复数据删除的操作粒度则比文件或对象更小。
这种技术有两种常见的方式:固定块重复数据删除--数据被分解成固定长度的部分或块;可变长度重复数据删除--数据根据一个滑行的窗口进行重复数据删除。
数据压缩是对数据进行编码以减小它的大小;它还可以用于那些已经被重复数据删除的数据以进一步减少存储消耗。
重复数据删除和数据压缩虽不同但互补--例如,数据可能重复数据删除的效率很高但是压缩的效率很低。
此外,重复数据删除数据可以在线执行;也就是说,在数据被写入目标端的时候进行重复数据删除操作;当然,重复数据删除也可以以后处理的方式执行,也就是在数据已经被写入并存储在磁盘上的时候执行。
这是一个简化的重复数据删除例子,我们有两个由块组成的对象或文件。
下图显示了这些对象或文件的情况。
对象或文件可以是可变的或基于窗口的部分、固定块或文件集合--可以应用同样的原则。
在这个例子中,每个对象所包含的块由字母来区分。
次文件层重复数据删除(SNIA)第一个对象由ABCZDYEF块所组成,第二个对象由ABDGHJECF块所组成。
因此,相同的块就是ABCDEF.原始数据应该有8加9个块,也就是总共17个块。
被重复数据删除后的数据只需要每个对象中各自独一无二的两个块(Z 和Y)和三个块(G、H和J),再加上6个共同的块,以及一些指针头和其他数据来帮助重建,也就是总共11个块。
如果我们加入第三个文件,比如说对第一个文件的修改,编辑成XBCZDYEF,那么只需要处理新的块(X)。
12个块和一些指针就足以存储这三个不同的对象所需的所有信息。
压缩技术可以进一步减少被重复数据删除的数据所占用的空间。
根据数据类型的不同,有可能进一步压缩到原来数据的50%.例子中原来的17个块可能被减少到6个块。
重复数据删除使用案例有许多类型的数据可以从这种容量缩减技术中受益,包括备份--备份数据的每个数据流都和最后的备份非常相似,只有很少比例的数据在每个备份之间有变动。
对备份数据进行重复数据删除操作的效率可以达到20比1,而且通常还更高。
在虚拟机镜像中,每个镜像都很大程度上和其他镜像非常相似,因此也适用于重复数据删除,在实践中可以节约90%或更多的空间。
重复数据删除可以用于备份、主存储、WAN(广域网)优化、归档和灾难恢复。
实际上,任何一个数据存储和传输的地方都可以使用重复数据删除技术。
需要考虑的要点重复数据删除技术看起来是很好的技术--不过,就像所有技术那样,要利用好这个技术需要理解它所适用的环境和不适用的环境,同时还要了解各个不同厂商所提供产品的不同特点。
不是所有的数据类型都可以很好地进行重复数据删除。
一些数据类型是有问题的,比如视频流或地球物理数据。
这些类型的数据很多没有或很少重复性数据,而且可能已经被压缩过了。
另一方面,无论数据类型是什么,备份的重复数据删除效率总是很高,因为其中的大量数据通常不会变动。
不过一般而言大部分数据类型和数据来源都有可以进行重复数据删除的潜力--例如,主目录和VM(虚拟机)镜像。
被执行重复数据删除流程后的数据有可能访问起来比较慢,因为相较那些没有被重复数据删除的文件而言,重建数据可能需要使用存储系统更多的处理资源,通常是更多的CPU资源。
另一方面,被重复数据删除后的数据也有可能可以访问得更快,因为需要从慢磁盘中迁移的数据更少了。
闪存存储设备存储控制器上的高速缓存或网络本身的高速缓存可以大幅减少磁盘子系统整体的I/O负荷。
不过,各人的情况有所不同,而且对重复数据删除好处的评估需要理解你所提供的服务和你所管理的数据。
大部分数据类型可以从重复数据删除中获益,因为重复数据删除的开销比较小而节约比较大,不过需要快速访问的高性能应用程序通常不适合重复数据删除。
重复数据删除可以缓解管理数据增长的压力,减少网络带宽需求,从而改善容量和性能效率。
重复数据删除可以带来显着的成本节约--从更低的管理成本(因为只需要管理更少的存储)到更少的容量、电源和冷却需求。
通过减少单位存储字节碳排放,重复数据删除可以使数据中心更加绿色。
在回答“重复数据删除是否能给我的数据中心带来好处?”这个问题的时候,通常的回答是:“是的,可以”.目前重复数据删除技术的成功应该可以鼓励每位存储管理员尝试一下。
重复数据删除目前正在成为数据备份和恢复方面最为重要的一项技术,以相对合理的价格提供了简易地成本节省方式。
长期以来,重复数据删除设备被谈及很多,而最近重复数据软件更让人影响深刻,其提供十分有用的性能,价格较相应的设备也更为经济。
而目前几乎所有的备份软件都已经将重复数据删除功能作为一种特性集成在产品内部(HP的Data Protector是极少数例外),这或许是一个关键因素,使得重复数据删除技术十分易于部署。
重复数据删除软件较相应应用而言的优势Lauren Whitehouse是ESG的分析师,他列举了许多重复数据删除软件所带来的优势:重复数据删除软件提供单一的管理界面,重复数据删除策略可以集成在整个备份策略内部,而无需在另外一个单独的界面中额外设置。
备份软件中的重复数据删除技术允许所进行的重复数据删除更接近原数据(在生产系统或备份服务器上)。
重复数据删除流程因此可以分布在整个环境中,而非集中在一点(像重复数据删除设备那样)。
在重复数据软件中更容易实现全局重复数据删除Lauren Whitehouse说,备份软件具备内容识别性,其了解哪些是实际数据。
而相应设备仅作用于备份数据流的接收终端,做不到备份软件这样——除非是设备厂商颠倒设计格式。
并且Lauren Whitehouse 还补充道,“内容识别性使得重复数据删除软件可以了解到实体模型在数据流中的位置,因此可以实现更高的重复数据删除率”。
备份软件会记录进行重复数据删除后的数据上的所有操作。
这意味着恢复操作是流线型的。
而通过复制技术进行的备份操作是设备所无法跟踪记录的……除非用户使用Symantec的NetBackup或者Symantec Backup Exec配合OpenStorage技术(而且该设备需要支持OST)。
而重复数据删除的可扩展性通常也会更容易一些(除非设备使用的是无缝扩展技术,像Exagrid System,NEC和Sepaton公司的一些产品,其提供网格体系架构的方式)。
此外,许可证也是不同的,软件的重复数据删除显得更为经济,有些甚至是免费的。
可选择的磁盘供应商也更为灵活,软件可以使用现有磁盘而且用户可以选择任何供应商的存储系统。
重复数据删除应用的优势Whitehouse说,从另一方面,重复数据删除应用也有其独特的优势。
举例来说,在一个设备中数据的重复数据删除操作有独立的系统完成,其针对重复数据删除流程进行特别优化。
对于一些工作负载的种类,重复数据删除操作在这种方式下的性能可以有所提升。
同样的,集成化也“相对容易一些”,设备只要你设置策略配置,而基于软件的重复数据删除技术则要求配置媒介服务器以提供相应的处理性能。
当然,设备也消除了生产服务器的负载,可以用于任何备份系统环境的重复数据删除“如果某环境中有超过一个备份解决方案,而又希望采用单一的重复数据删除策略,这是一种可选方式,”她提道。
Gartner分析师David Russell也有相类似的结论,不过他发现客户更倾向于重复数据删除软件。
举例而言,Gartner最近的一次会议中调查了计划部署重复数据删除技术的意向,42%表示其愿意使用软件方式——Gartner所记录的最高百分比,也是一年前“低20个百分点以来”的一个突破性增长,他说道。
“考虑软件方式的想法是这样的,他们可以采购一台高性能的服务器安装软件,这样的成本会低于一台相应设备,”Russell说。
此外,其指出“如果是一台设备的话,你很难再未来很好地扩展,你不得不担心你所需要的特定设备型号,以及供应商势头提供目标设备的网关。
”同时Russell认可在这一趋势中,基于软件的重复数据删除技术有一些问题。
举例而言,过分地依赖于其部署方式。
“我发现很多企业不知道如何进行规划和部署整个基础架构,如果你在空间和磁盘类型上规划的磁盘容量过小,就会降低基于软件的重复数据删除技术的性能,”Russell说道,“当有人看见软件实际上的运行不合理,比如在已经非常繁忙的Exchange服务器上运行重复数据删除,他们就会责备软件有问题。
”他说。
“换句话说,基于软件的方式确实有优势,但它也可能让人自找麻烦,”他说。
有一种解决方案,他说,可以为一些诸如大型数据库之类的对重复数据删除有较高要求的环境部署相应设备,而对较轻量级的以及可管理的重复数据删除工作中使用软件。
“在数据库之类的大型项目上运行重复数据删除会拖垮整台服务器,反之使用相应设备则是这种环境下的最优选择”他说。
案例分析:咨询公司应用CommVault SimpanaPaul Slager是美国LWG咨询公司信息系统部门的总监。
该公司在美国有16家分公司,在全球有另外4家分公司,其最近选择了软件的重复数据删除方式。
这家公司致力于技术型容灾咨询,处理诸如数据恢复等灾后问题,其多半代表了用户,运行着诸多虚拟服务器并通过相对较慢的WAN网络连接实现备份。