NetApp 重复数据删除技术
- 格式:ppt
- 大小:3.40 MB
- 文档页数:35
英文描述中文描述1.Data ONTAP®Netapp开发的具有多项独家知识产权,结合WAFL文件系统设计安全可靠的微内核操作系统。
通过多任务实时微内核和专利的WAFL文件系统的设计,对网络数据访问提供优化的存储服务,具有高稳定性,高效率,多重通讯协议的特性。
2.FlexVol®NetApp FlexVol 技术提供了真正的存储虚拟化解决方案,不仅可以降低管理费用和资本支出、减少中断故障并降低风险,而且还可提供出色的灵活性以帮助企业快速适应不断变化的需求。
3.FlexShare™借助 FlexShare 技术,管理员能够轻松整合不同的应用、确定特定数据集的优先级,并根据业务的变化情况动态调整优先级。
借助 FlexShare,单个 NetApp 系统将能托管多个工作负载,并为每个负载分配相应的优先级4.Snapshot™提供在线备份功能,支持对之前版本的数据进行近乎即时的访问,而无需完整、单独的副本。
5.Deduplication FAS 重复数据删除技术可以在 FAS 卷中搜索并删除重复数据。
通过与 NetApp Data ONTAP® 软件紧密集成,FAS 重复数据删除功能可在后台运行,而且几乎不会对读写性能造成任何影响。
6.FilerView®是用于执行从安装到完成配置的管理任务的主界面。
利用 FilerView,管理员不必再学习特殊的语言或命令行界面来配置和维护 NetApp 存储设备。
只需一个 Web 浏览器,管理员就可以进入易用的图形用户界面,并且可以通过浏览各个屏幕来执行任务。
界面上将始终显示一个浏览树,以便于在各个任务间切换。
7.SecureAdmin™安全模式需要 SecureAdmin 软件,该软件在 Filer 上实施安全套接字层 (Secure Socket Layer, SSL 3.0)服务,用于进行用户验证和保密通过 HTTP 处理的命令8.AutoSupport™9.FlexCache®FlexCache技术能够自动地复制、存储和服务基于NFS协议请求的数据。
重复数据删除技术详解(一)在之前的文章“备份系统中的常见功能特性”中简单介绍了下重复数据删除的概念,本文就重复数据删除(也叫数据去重)技术进行深入讲解。
概述重复数据删除(后文简称“重删”)是灾备系统中非常重要的一项能力,它通过删除数据集中的重复数据达到缩减数据量的效果,以此满足日益增长的数据存储需求。
重复数据删除技术在灾备系统中应用十分广泛,当然这项技术本身也不仅仅用于灾备系统,同样应用于存储系统、数据传输和同步、论文查重等场景。
其带来的主要优势包括:•降低数据存储量,节省空间。
•降低网络数据传输量,节省带宽。
•提升存储效率。
•减小备份窗口。
重删基本原理重删的基本原理是通过某种算法计算出数据集中的某部分数据的hash值,以此hash值作为此部分数据的唯一标识(因此也称作指纹)。
当某两部分数据的hash值(指纹)相同时,我们就认为这两部分数据是一致的。
注意:需要尽量确保hash值的唯一性,避免hash值碰撞(即2个不同数据的hash值一致)。
一些厂商为了避免此种情况,可能会采用2种hash算法来确保数据的唯一性。
某些场景下,为了提升效率,还会同时使用强hash和弱hash。
弱hash的计算速度快,但碰撞率高,用于快速找到不同的数据块;强hash的计算速度慢,但碰撞率低(约等于0)。
当2个数据块的弱hash值相同时,会再进行一次强hash值的校验,以此确定数据块内容是否一致。
因为需要对数据进行指纹计算和存储,所以使用重删技术都会需要用到指纹库。
除了指纹库之外,其实还需要记录原数据与实际存储数据之间的映射关系,此种关系一般称为索引信息,有的也叫做元数据信息,元数据信息本文中就不做过多介绍了。
那么如何衡量重复数据删除技术的好坏呢?主要通过两个指标:重复数据删除率和性能。
其中,重复数据删除率(后面简称“重删率”)很大一部分情况下依赖于数据自身的特征。
一般来讲,有固定格式、变化频率低的数据重删率高。
此外,数据量越大,重删率越高;数据切片越小,重删率越高。
重复数据删除+VMwareDR=提高成本效益随着存储技术的快速普及,越来越多的企业用户开始意识到:从物理服务器转变为整合的虚拟化基础设施将具有不可否认的IT优势。
但是,快速迁移到VMwa re使灾难恢复(DR)的传统方法已经过时了,而且会增加DR实施的复杂性,因此人们又开始寻求新的方式。
用于VMware Virtual Infrastructure 3(v13)的DR要求你的所有VM(虚拟机)都需要定期复制到远程站点,从而消耗了大量的存储和网络带宽。
而我们则尝试通过在VMware主存储系统上使用NetApp重复数据删除,来最大限度地减少你的主存储环境中的数据量。
数据量的减少会使得你的下游基础设施的优势不断加强,从而减少复制所需的带宽以及DR站点上所需的存储。
使用重复数据删除所节约的成本可以使DR在成本可能会受到控制的情况下变得切实可行。
例如,有个企业曾报告在重复删除其VMwa re Virtual DesktopInfrastructure(VDI)环境之后,为其桌面提供DR所需的存储和带宽变得很少了,并且为其VDI环境和V13环境添加DR切实可行。
在本文中,我将探讨通过VMwareDR实施重复数据删除所需要采取的措施。
我还将讨论利用你的DR环境中的复制数据用于DR测试及其它目的的情况。
在主VMWare环境中实施重复数据删除由于VMware环境中的每个虚拟机都要求为其操作系统采用专用的存储,因此会出现大量的重复数据。
你可能有很多VM 安装了同一个操作系统和应用程序。
如果100个VM运行同一个操作系统,且每个虚拟机需要10GB至20GB的存储空间,即1TB至2TB的存储空间专用于同一数据的几乎相同的拷贝。
应用重复数据删除可以有效消除此冗余。
概括地说,如果将x个虚拟机指定给一个存储卷,在重复数据删除后,你所需的操作系统存储空间量将是非重复数据删除环境下所需存储空间量的1/x。
很显然,所获得的实际结果将取决于卷中有多少个VM和这些VM相似程度。
配置 NetApp重复数据删除时最常见的四个错误作为现场工程师,我需要与各行各业的客户打交道。
当我向客户谈到我所看到的生产环境 VMware 负载的重复数据删除率通常保持在 60% 到 70%时,他们经常表示怀疑。
我会得到这样的回答:“但是我们的 VM 负载不是这样的”,然后是“眼见为实”。
我偶尔也会碰到一些我喜欢的回答:“你们的竞争对手不是这样告诉我的,我要亲眼看到才相信。
”事实往往是:当客户进行了概念验证或直接购买了我们的产品并开始实施时,他们在自己的 VMware 环境中看到的真真切切就是他们所希望看到的空间节省。
最近,我的一个客户将 600 多台 VM 从使用着 11.9TB 磁盘的现有阵列迁移到了一个新的 NetApp 阵列上。
这些 VM 上有不同的应用程序、操作系统类型和配置,通过重复数据删除,其容量降低为 3.2TB,实现了高达 73% 的节省。
不过,偶尔客户会打电话跟我说:“嘿,我只有 5%的重复数据删除率!怎么办?”这些较低的重复数据删除率几乎总是因为以下某个重复数据删除配置错误造成的。
配置错误 #1 —— 没有立即启动重复数据删除(或者忘记 - s 或扫描选项)Dedupe 博士最近在博客上指出,NetApp 建议对所有的 VMware 负载进行重复数据删除。
你可能已经注意到,如果你将我们的虚拟存储控制台 (VSC) 插件用于 vCenter,那么使用该插件创建 VMware 数据存储时会导致启动重复数据删除。
我们建议立即启用重复数据删除功能,这里面有很多原因,但以下是最主要的原因:在 NetApp 卷上启用重复数据删除 (ASIS) 后,控制器将跟踪写入该卷的新数据块。
然后,在定期删除重复数据的期间,控制器会查看这些新的数据块并消除所有重复数据。
但是,如果在启用重复数据删除之前你的卷里已经有一些 VM 呢?除非你明确地指示 NetApp 去扫描现有的数据,否则 NetApp 根本不会检查那些 VM 或是对其执行重复数据删除!这最终导致了很低的重复数据删除率。
关于“重复数据删除”技术,你还需要知道这些展开全文重复数据删除(De-duplication),简称“去重”,是主流的存储技术之一,通过对比校验技术删除存储设备上重复的数据,只保留其中一份,从而消除冗余数据,优化存储设备的物理空间,从而满足日益增长的数据存储需求。
经过近些年的发展,重复数据删除技术已经很成熟,本文整理了部分知识,有助于大家进一步了解重复数据删除。
一、重复数据删除技术的价值虽然存储介质的价格已经非常廉价,但若能在有限的存储介质上实现更高的存储效率,何乐而不为呢?此外,重复数据删除技术最大的一个收益点是能降低备份大数据量时对各资源的消耗和依赖。
巨量数据的备份不论对生产系统还是备份系统都是一个不小的冲击,况且随着系统的发展,备份系统越来越大,备份的数据越来越多,备份的计划与安排越来越受制于备份数据量的规模。
重复数据删除技术提供了一个物美价廉的解决方案,更提高了整个系统的效率。
也许在很多不太关注重复数据删除技术的工程师心中,重复数据还是那个效率低、成本高的空壳子,但实际上重复数据删除技术早已发展到了一个新的高度。
借个人实施经历中一个真实的案例,看看现如今的重复数据删除技术的性能:一台Windows虚拟机存储着490 GB(有效数据)非结构化文件(文件主要为word/Excel/PPT/PDF 等),日变化量大约15 GB/DAY,虚拟机的配置为2 * 2.8 GHz CPU,8 GB内存,千兆网卡。
部署了一套源端、在线、基于CPU-内存的重复数据删除备份(重复数据删除设备并非物理机而是虚拟机),所有配置均采用默认配置、不作定制优化。
首次备份耗时35 min,消重效率87%,消重时CPU消耗上涨5%,内存占用小于200MB,网络负载约3 MB/S左右。
第二次备份耗时19min,消重效率98%,CPU、内存消耗与首次备份差不多,但网络负载明显下降,偶尔占用1~2MB/S。
(@Li Fei 某保险公司系统架构师)二、主流的几种重复数据删除技术重复数据删除已经不是一个新的话题了,如今各个厂商的存储或备份产品都有这项功能。
NetApp存储⽇常维护⼿册⽬录NETAPP GLOBAL SERVICES FAS 系列存储⽇常维护⼿册Prepared for: Prepared by: NetApp, SZ2013 NetApp. All rights reserved. Specifications are subject to change without notice. NetApp, the NetApp logo, Go further faster, FlexVol, FlexClone, RAID-DP, SnapVault, and SnapMirror are trademarks or registered trademarks ofNetApp, Inc.495 East Java DriveSunnyvale, CA 94089 USA Telephone: +1 (408) 822-6000 Fax: +1 (408) 822-4501Support telephone: +1 (888) 4-NETAPP1⽬标NetApp 解决⽅案能够助客户有效地简化运作,同时最⼤限度地降低风险,为那些不断经历变化的企业提供更⾼的性能和可扩展性。
借助于产品、技术和合作伙伴的良好组合,NetApp 解决⽅案有助于解决最为迫切的IT 和业务问题,同时最⼤限度地提⾼投资回报率。
本指南是为初次使⽤NetApp存储系统的⼈员编写的基本管理知识,⽬标是指导维护⼈员如何进⾏每天的健康检查。
2硬件设备说明NetApp FAS3200系列前端:存储系统后部电源指⽰灯:橙⾊灯和绿⾊灯Icon Port type LEDtypeStatusindicator DescriptionNVMEM Battery Blinkinggreen NVMEM is in battery-backed standby mode.Off(power on) The system is running normally, and NVMEM is armed if Data ONTAP is running. Off(power off) The system is shut down, NVMEM is not armed, and the battery is not enabled. Controller module fault ACT Amber Controller is starting up, DataONTAP is initializing, thecontroller is in Maintenancemode, or a controller modulefault is detected.Off Controller module is functioningproperly.机架/电源/磁盘3 设备管理3.1System Manager 图形管理接⼝System Manager是NetApp提供的图形管理接⼝,可以⽅便地实现对NetApp的存储设备的管理。
售前常见百问V1.0August 26, 2012©2012 NetAppAll rights reserved本文档包含NetApp公司的商业及技术机密。
未经NetApp公司许可,不得向第三方泄漏或使用,仅限Netapp认证渠道内部使用。
没有标准答案,若有异议,可与华东技术团队或渠道部沟通。
目录1市场 (2)1.1EMC现在无论是SAN还是NAS,其市场份额都是第一,NetApp呢? (2)1.2NETAPP存储产品的未来发展方向:是ONTAP C-Mod?还是7-Mod?今天客户对NETAPP所做的投资,明天能得到保护吗? (3)2架构 (5)2.1NetApp的统一架构有什么特别之处?其他厂商也都在宣传? (5)2.2有厂商说NetApp的FCSAN架构是伪SAN,这是怎么一回事? (5)2.3有厂商说NetApp只是以NAS见长,可我们这次的招标主要是FCSAN? (6)2.4我的环境中好像都是数据库应用,NAS好像没有什么用? (6)2.5分级存储好像很热门,NetApp也有吗? (6)2.6为什么NetApp的VST要强于分级存储? (6)2.7我已经有带库和VTL进行离线备份,磁盘上的保护毕竟是在线保护,我还是不放心.. 72.8NetApp的SnapManager很不错,但我的应用是自己开发的,不在SnapManager的支持范围内,怎么办? (7)3特点 (8)3.1RAID4有什么特别之处?你们为什么不支持RAID5? (8)3.2NetApp的RAID DP有什么特别之处?其他产品好像也有? (8)3.3SPEC性能指标代表什么?其他厂商的指标好像也很高? (8)3.4NetApp的NVRAM起什么作用? (8)3.5NetApp的双机cluster有什么特别之处?cluster架构现在好像是标准配置? (9)3.6NetApp的WAFL全称是什么?有什么特别的设计? (9)3.7NetApp存储的磁盘利用率好像不高? (10)3.8NetApp的Snapshot有什么特别之处?其他产品好像也有? (10)4虚拟化解决方案 (12)4.1我们只对虚拟化感兴趣而不是存储,你们可带来哪些附加值? (12)4.2在我当前设备上有剩余的容量,因此你们的新平台将花费我更多的资金。
一、NetApp简要概述1.1 商务层面特色NetApp是全球领先的存储与数据管理厂商,由Dave Hitz和James Lau创立于1992年。
经过十几年的发展,今天的NetApp已经是一家拥有7000名员工,年营业额达到34亿美金的跨国公司。
在2011年6月IDC统计的全球外部存储市场份额,NetApp目前排名全球第二名,自2003年以来唯一保持强势增长势头的存储厂商。
根据GARTNER 2010年11月统计数字显示,全球中高端及高端FAS细分市场魔力象限数据,NetApp在领导者象限中位居领先位置,在主要的两个评测指标中,技术创新性和公司执行力考核上均位于最优位置,明显领先于象限中的IBM(N系列产品系全线OEM自NetApp)和EMC公司。
而NAS市场竞争中NetApp优势更加明显。
另外,在数据保护软件方面,NetApp已经和全球第一基本持平。
NetApp是最早提出统一存储理念和存储效率的厂家。
根据NetApp公司客户信息数据库显示,全球大型汽车制造行业中绝大多数均在采用NetApp设备,可为长安新能源汽车提供良好的示范案例。
其中,包括BMW(NetApp为150多个应用和22000个终端用户提供存储服务)、MAZAD (NetApp为数据库应用和终端用户提供存储服务与备份,以及实现各分支机构的集中存储与容灾)、FORD(NetApp为Oracle数据库、CAD等应用提供高可用存储,并且实现远程业务容灾)。
NetApp 2000年进入中国后,在上海汽车集团研究院、东风汽车研发中心、长安福特汽车等大型机构中均有大量FC SAN、iSCSI SAN及NAS应用案例,其中使用容量均已超过PB级别。
在长期的服务合作中,据调查,NetApp在上述同行业用户均积累了优良的服务信誉,并维持了较为完善的售后服务体系。
NetApp能够提供专业服务选项,覆盖云存储架构设计实施、存储整合、容灾、备份、虚拟化主机支持、存储虚拟化实践、异构存储环境存储/备份/容灾整合等多个方面,能够与长安新能源汽车在专业服务、咨询服务方面展开广泛的合作,提供有效的支持。
NatAPP产品优势一.是全球三大独立储存供应商之一(EMC,HDS日立)。
全球NAS占有率最高;二.全线产品基于统一的硬件存储架构,统一的应用接口,统一的管理界面,完全互操作性。
统一的硬件架构:全线产品硬件模块化设计,从低端到高端产品可以无缝升级,可以任意更换,保护投资。
统一的应用接口:分硬件接口(全线产品同时支持各类接口类型,FC接口,IPSAN接口,NAS接口),分应用协议接口(全线产品同时支持多种应用协议,FCP光纤交换协议,ISISC协议,NAS协议(基于NFS协议应用,UNIX平台接口,基于CIFS协议windows平台接口)。
统一的管理界面:全线硬件产品可以运行所有的NATAPP软件,所有的自主软件可以管理全线硬件产品。
完全互操作性:学习一种,掌握全部。
三.唯一拥有存储网格化产品技术;四.Data ONTAP®是基于UNIX开发的55万行代码专用存储操作系统,以别于EMC7500万行基于windos开发的操作系统,并且我们的操作系统是安装在CF卡中,每个机头都带。
这样专业的存储操作系统,速度更快,更安全。
且EMC-CX系列操作系统必需用5块光纤盘来承载。
五.Netapp设备都是自带双控制器,工作模式全双工,控制器完全溶于,包括背板、缓存、电源等;六.独有的Raid DP技术,支持双盘冗余,单盘的在线扩盘;七.SNAP SHOT 快照软件,实现秒级快照,秒级恢复;八.NetApp FlexV ol®实现全局空间共享,建立一个磁盘池,共享存储空间池,实现全局磁盘虚拟空间共享,还可分配IO优先级性设定。
九.全球唯一重复数据删除技术可应用主存储上。
主存主要是存储在线数据,辅存是存储近线数据,(数据分在线数据,近线数据,离线数据)十.SNAP Mirror可以实现灵活多变的数据复制模式(同步/准同步—同步和异步的不同时段的切换,即FC链路及IP链路的切换同/异步及模式智能切换)。