海量存储系统设计
- 格式:doc
- 大小:567.00 KB
- 文档页数:22
海量数据的高效存储与处理方法总结随着科技的快速发展和互联网的普及,我们生活中产生的数据量呈现出爆炸性增长的趋势。
这些海量数据对于企业、科研机构以及个人来说,都是一种宝贵的财富。
然而,如何高效地存储和处理这些海量数据成为了亟待解决的难题。
本文将总结一些海量数据的高效存储与处理方法,希望能为读者提供有价值的参考和指导。
一、高效存储方法1. 分布式文件系统(DFS)分布式文件系统是针对海量数据存储问题提出的一种解决方案。
它将海量数据切分成多个小文件,并存储在不同的物理设备上。
通过这种方式,可以充分利用多台机器的存储能力,提高整体的存储效率。
分布式文件系统具有高可用性、高可靠性和高性能的特点,常用的分布式文件系统包括Hadoop Distributed File System (HDFS)和Google File System(GFS)等。
2. NoSQL数据库NoSQL数据库是非关系型数据库的一种,相对传统的关系型数据库具有更好的可扩展性和高性能。
它们适用于存储和处理海量数据,能够实现数据的快速读写和高并发访问。
常见的NoSQL数据库包括MongoDB、Cassandra和Redis等,它们采用键值对、文档存储或列族存储等方式,提供了灵活的数据模型和丰富的查询功能。
3. 数据压缩技术海量数据的存储离不开对数据进行压缩的技术支持。
数据压缩可以减少存储空间的占用,提高存储效率。
目前,常用的数据压缩算法包括Lempel-Ziv-Welch(LZW)算法、Gzip和Snappy等。
这些算法具有压缩率高、压缩速度快的优点,可以实现对海量数据的高效存储。
二、高效处理方法1. 并行计算并行计算是一种常用的处理海量数据的方法。
它通过将任务分解成多个子任务,并分配给不同的处理器或计算节点进行并行计算,从而加快数据处理的速度。
常见的并行计算框架包括MapReduce、Spark和MPI等。
它们能够将数据分布式地处理在各个计算节点上,充分利用计算资源,提高数据处理的效率。
海量并发下高可用库存中心的设计与实现在海量并发下实现高可用的库存中心的设计至关重要,这可以确保系统能够稳定地处理大量的库存操作请求,并保证数据的准确性和一致性。
下面是一个可能的设计与实现方案:一、基础架构设计:1.库存中心采用分布式架构,包括多个库存节点,每个节点负责一部分库存数据的管理和处理。
2.使用主从复制的方式保证库存数据的可靠性和高可用性,每个节点都可以接收读操作请求,而写操作只能由主节点处理。
3.引入负载均衡的机制,将请求均匀地分发到各个库存节点,提高系统的吞吐量和并发处理能力。
二、一致性设计:1.引入分布式事务处理机制,确保库存操作的一致性。
通过如分布式锁、分布式事务协调器等技术来实现。
2.库存中心记录每次操作的流水日志,并定期对所有库存节点的数据进行校验和同步,以保证数据的准确性和一致性。
三、高可用性设计:1.使用可插拔式组件,将库存中心与外部系统解耦,以避免单点故障的问题。
2.设置监控系统和告警机制,及时发现和修复系统的故障,提高系统的可用性。
3.使用集群和冗余机制,确保系统在节点故障时仍能正常运行,同时要有自动重启和故障转移的机制。
四、性能优化设计:1.使用内存缓存技术,将热点数据保存在内存中,提高读写操作的性能。
2.利用异步处理和批处理机制,将一些耗时的操作异步化,并以批量方式执行,提高系统的吞吐量和并发能力。
3.优化数据库设计和索引,减少库存查询和更新的耗时,提高数据库的读写性能。
五、故障恢复设计:1.定期备份库存数据,以便在系统故障时能够及时恢复。
2.设计有效的灾难恢复机制,确保在灾难性事件发生时,能够快速将系统恢复到正常运行状态。
六、安全性设计:1.引入身份认证和权限控制机制,保护库存中心免受未经授权的访问和操作。
2.使用加密技术,保护库存数据在传输和存储过程中的安全性。
3.建立日志系统,记录所有的操作记录,以便进行安全审计和追踪。
总结:以上是一个可能的海量并发下高可用库存中心设计与实现的方案。
海量图片的存储方案介绍在当今数字化时代,海量图片数据的存储成为了一个非常重要的问题。
无论是个人用户还是企业机构,在处理海量图片数据时都需要一个高效且可靠的存储方案。
本文将介绍几种常见的海量图片的存储方案,并对其进行比较和评估。
单机存储方案单机存储是最简单的存储方案之一。
它基于一台单独的计算机,通过硬盘进行数据存储。
单机存储方案的优点是成本低,易于维护和操作。
然而,由于硬盘容量有限,单机存储方案无法满足海量图片数据的存储需求。
分布式存储方案为了解决单机存储方案的容量限制问题,分布式存储方案应运而生。
它将图片数据分散存储在多台计算机上,通过网络进行协同工作。
分布式存储方案的优点是可以通过增加机器数量来扩展存储容量,能够处理大规模的海量图片数据。
然而,分布式存储方案也存在着一些挑战,例如数据冗余、数据一致性和网络通信性能等问题。
基于Hadoop的存储方案Hadoop是一个开源的分布式存储和计算框架,被广泛用于处理大规模数据。
在海量图片存储方案中,Hadoop可以作为底层存储系统。
Hadoop分布式文件系统(HDFS)提供了高容量、高可靠性和高性能的存储。
可以使用Hadoop的MapReduce功能进行数据处理和分析。
基于Ceph的存储方案Ceph是一个可扩展的分布式存储系统,可用于构建高性能和高可靠性的存储解决方案。
Ceph采用对象存储模型,将图片数据存储为对象,并在多个节点之间进行复制和分布。
Ceph具有自动数据修复、故障转移和均衡负载等功能,可以有效地处理海量图片数据。
云存储方案随着云计算技术的发展,云存储方案越来越受欢迎。
云存储将图片数据存储在云服务提供商的服务器上,用户可以通过网络访问和管理数据。
云存储的优点包括可扩展性、弹性和高可用性。
用户可以根据自己的需求灵活地调整存储容量,并获得高可靠性的数据存储和备份。
基于Amazon S3的存储方案Amazon Simple Storage Service(S3)是一种高度可扩展的云对象存储服务,适用于存储和检索海量图片数据。
海量图片存储方案随着互联网技术的不断发展,图片作为一种重要的信息载体,已经成为人们生活和工作中不可或缺的一部分。
然而,如何高效地存储和管理海量的图片数据成为了一个迫切的问题。
本文将介绍一种可行的海量图片存储方案,以满足大规模图片数据的存储需求。
一、需求分析在提出具体的存储方案之前,我们首先需要对海量图片的存储需求进行分析。
海量图片的存储需求通常具有以下几个特点:1. 存储容量大:海量图片数据通常以TB或PB为单位进行计量,存储容量要求较高。
2. 访问频率低:大部分图片数据在上传之后,其访问频率会显著降低,但是需要保证数据的长期存储和可访问性。
3. 数据安全性:图片数据可能涉及用户隐私、商业机密等重要信息,因此在存储过程中需要确保数据的安全性和隐私保护。
4. 存储效率高:存储海量图片数据时,需要考虑数据的快速存储和高效检索,以满足用户对图片数据的快速访问需求。
二、存储方案基于以上需求分析,我们可以采用以下存储方案来应对海量图片的存储挑战:1. 分布式存储系统:采用分布式存储系统可以提高存储容量和数据并发性能。
通过搭建分布式存储系统,可以将海量图片数据分散存储在多个节点上,形成一个统一的存储集群。
这样既可以提高数据的可靠性和可用性,又可以根据实际需求扩展存储容量。
2. 冷热数据分离:对于访问频率低的图片数据,可以将其归类为冷数据,并采用低成本的存储介质进行存储,如磁带库或冷存储设备。
而对于访问频率高的图片数据,则可以归类为热数据,并采用高性能的存储介质进行存储,如分布式文件系统或高速硬盘阵列。
3. 数据压缩与去重:针对海量图片数据的存储容量问题,可以采用数据压缩和去重技术来减少存储空间的占用。
通过对图片数据进行压缩和去重,可以有效降低存储成本,并提升存储系统的性能。
4. 数据备份与容灾:为了保证海量图片数据的安全性和可靠性,需要进行数据备份和容灾策略的规划。
通过建立数据备份和容灾机制,可以避免数据丢失和不可恢复的风险,确保数据的完整性和可持续性。
大规模数据存储与管理系统设计第一章:引言大规模数据存储与管理系统设计是指针对海量数据存储、处理、分析和管理而设计的一系列系统及技术解决方案。
在当今信息时代,每天都会产生大量的数据,如何高效地存储和管理这些数据已经成为了现代企业和组织中的一个重要问题。
大规模数据存储与管理系统设计涉及到多个方面的知识领域,如数据库管理、分布式系统、机器学习、网络安全等。
本文将就大规模数据存储与管理系统设计进行详细阐述。
第二章:大规模数据存储系统设计大规模数据存储系统是通过高效的硬件、软件和网络架构来完成大量数据存储的一种系统。
其中,硬件包括服务器、存储器等,软件包括操作系统、数据库管理系统等。
(一) 硬件设计在大规模数据存储系统设计中,硬件设计起着至关重要的作用。
数据量的大小以及对数据的访问要求是决定硬件设计的主要因素。
对于数据量较大的系统,需要采用分布式存储和计算模式,通过分布式集群技术将数据分散存储在多个节点上,并通过智能路由算法、数据备份机制等技术实现数据的高可靠性。
对于数据访问要求较高的系统,需要使用高性能的存储器和服务器来提高系统的响应速度和并发访问能力。
(二) 软件设计软件设计是实现大规模数据存储系统的另一个重要方面。
数据库管理系统是实现大规模数据存储的核心技术之一,通过合理的设计和优化,可以提高系统的性能和可靠性。
对于海量数据存储系统,需要使用分布式数据库,减轻单点故障的风险,并实现数据备份、恢复以及性能优化等功能。
在软件设计过程中,还需要考虑数据安全方面的问题,包括数据的加密、权限控制和访问日志记录等功能。
第三章:大规模数据管理系统设计大规模数据管理系统设计是指如何有效地管理和利用大规模数据,包括数据的提取、清洗、存储、处理与分析等环节。
(一) 数据清洗数据清洗是大规模数据处理的第一步,通过清洗和去重等操作,提高数据的准确性和可用性。
数据清洗可以通过自动化的方式实现,也可以结合人工审核来提高数据清洗的准确性。
大数据存储技术与系统设计随着信息社会的发展,我们面临的数据量也日益增加。
如何存储和处理这些海量数据已经成为一个全球性的技术难题。
大数据存储技术和系统设计应运而生。
本文将从数据存储技术和系统设计两个角度探讨大数据的存储和处理。
一、数据存储技术大数据存储技术由传统的关系型数据库演进而来。
关系型数据库主要针对结构化数据,它们采用类似于表格的形式来记录数据。
但是,当数据量达到一定规模时,关系型数据库的存储和查询效率会急剧下降,因为它们不能很好地处理非结构化数据和半结构化数据。
为了更好地处理大数据,出现了一系列新的数据存储技术。
其中NoSQL数据库、Hadoop分布式文件系统和对象存储系统是最为集中的。
1. NoSQL数据库NoSQL数据库是一种非关系型的数据存储系统。
与关系型数据库不同的是,它们可以存储非结构化和半结构化数据。
NoSQL数据库通常采用分布式架构,可以实现高可用性、高扩展性和高并发性。
常见的NoSQL数据库有MongoDB,Cassandra和Redis等。
2. Hadoop分布式文件系统Hadoop是一个开源的分布式计算框架,其中最核心的组件就是分布式文件系统(HDFS),它能够支持PB级别的大规模数据存储。
HDFS采用多台服务器实现数据的分散存储,对于海量数据的处理非常合适。
与其他分布式文件系统相比,HDFS的优势在于其利用大量的、廉价的硬件在高可靠性和高容错性之间保持平衡。
3. 对象存储系统对象存储系统是一种新型的数据存储技术。
与传统的文件系统和块存储系统相比,对象存储系统采用对象的形式来存储数据。
这些对象可以是任何类型的数据,比如音频、视频、文档等。
对象存储系统具有高可扩展性、高可用性和高性能等特点。
S3和Swift是常用的对象存储系统。
二、系统设计大数据的存储和处理需要一个高效的系统来支持。
一个好的系统设计可以提高系统的处理效率和可靠性。
1. 分布式架构分布式架构是处理大数据的必要条件之一。
京东评价系统海量数据存储设计京东的商品评论目前已达到数十亿条,每天提供的服务调用也有数十亿次,而这些数据每年还在成倍增长,而数据存储是其中最重要的部分之一,接下来就介绍下京东评论系统的数据存储是如何设计的。
整体数据存储包括基础数据存储、文本存储、数据索引、数据缓存几个部分。
基础数据存储基础数据存储使用mysql,因用户评论为文本信息,通常包含文字、字符等,占用的存储空间比较大,为此mysql作为基础数据库只存储非文本的评论基础信息,包括评论状态、用户、时间等基础数据,以及图片、标签、点赞等附加数据。
而不同的数据又可选择不同的库表拆分方案,参考如下:评论基础数据按用户ID进行拆库并拆表;图片及标签处于同一数据库下,根据商品编号分别进行拆表;其它的扩展信息数据,因数据量不大、访问量不高,处理于同一库下且不做分表即可。
因人而异、因系统而异,根据不同的数据场景选择不同存储方案,有效利用资源的同时还能解决数据存储问题,为高性能、高可用服务打下坚实基础。
文本存储文本存储使用了mongodb、hbase,选择nosql而非mysql,一是减轻了mysql存储压力,释放msyql,庞大的存储也有了可靠的保障;二是nosql的高性能读写大大提升了系统的吞吐量并降低了延迟。
存储的升级过程尝试了cassandra、mongodb等分布式的nosql存储,cassandra适用于写多读少的情况,而 mongodb也是基于分布式文件存储的数据库,介于关系型数据库与非关系型数据库之间,同时也是内存级数据库,mongo写性能不及cassandra,但读写分离情况下读性能相当不错,因此从应用场景上我们选择了mongodb。
mongodb确实不错,也支持了系统稳定运行了好几年。
但从今后的数据增长、业务扩增、应用扩展等多方面考虑,hbase才是最好的选择,它的存储能力、可靠性、可扩展性都是毋庸置疑的。
选择了hbase,只需要根据评论ID构建Rowkey,然后将评论文本信息进行存储,查询时只需要根据ID便能快速读取评论的文本内容,当然也可将评论的其它字段信息进行冗余存储,这样根据评论ID读取评论信息后不用再从mysql进行读取,减少数据操作,提升查询性能。
系统存储产品设计方案模板一、引言在当今数字化时代,信息量不断增长,对于各类组织而言,如何高效地存储、管理和利用海量数据成为了一项重要的任务。
为此,本文提出了一个系统存储产品设计方案,通过以下几个方面的考虑,实现对大规模数据的高性能存储和快速访问,以满足用户的需求。
二、需求分析1. 存储容量需求:根据用户的数据增长趋势和预期,进行容量规划,确保存储系统能够满足用户未来一段时间内的存储需求。
2. 存储性能需求:根据用户对数据的存取速度的要求,设计出具备高性能的存储系统,以便在处理大量数据时能够快速且稳定地进行读写操作。
3. 数据安全需求:确保存储系统具备可靠的数据冗余和备份机制,以应对硬件故障和各类灾难事件对数据的影响,保障数据的完整性和安全性。
4. 管理和维护需求:提供友好的用户界面和管理工具,以便用户可以方便地监控和管理存储系统,及时发现和解决潜在的问题,保证系统的稳定性和可靠性。
三、系统设计1. 存储架构设计a. 根据存储容量需求和性能要求,选择合适的存储介质,如磁盘阵列、固态硬盘等,建立起一个高性能的存储基础环境。
b. 设计分层存储架构,合理划分热数据和冷数据,以提高存储效率和成本效益。
2. 数据保护设计a. 实现数据冗余机制,利用RAID技术提供硬件级别的数据冗余,以应对磁盘故障导致的数据丢失。
b. 设计备份和恢复策略,建立定期备份机制,确保数据在意外情况下能够快速恢复。
3. 性能优化设计a. 基于用户使用模式和访问频率,实施数据缓存策略,加速数据的读写操作,改善系统响应时间。
b. 资源动态管理,实施负载均衡策略,确保各个存储节点之间的负载均衡,提高整体存储系统的性能。
4. 管理和维护设计a. 提供集中化的存储管理平台,用户可以通过该平台实现对存储系统的集中监控和管理,包括容量管理、性能监控等。
b. 设计自动化运维工具,减轻管理员的工作负担,实现故障预测和自动化维护。
四、实施计划1. 硬件设备采购:根据系统设计方案,进行硬件设备采购,确保可以满足系统性能和容量的要求。
海量小文件存储方案1. 引言在当今的数字时代,数据量的爆炸增长对存储方案提出了巨大的挑战。
尤其是对于海量的小文件存储需求,传统的存储解决方案往往无法高效地应对。
本文将介绍一种针对海量小文件存储的解决方案,旨在提高存储效率、降低成本,并保障数据安全。
2. 海量小文件存储的挑战海量小文件存储面临的主要挑战包括:2.1 存储效率低下:传统的存储系统在处理海量小文件时,由于文件系统的限制,会导致存储效率低下。
小文件过多会使得存储系统的元数据管理变得复杂,影响到整个系统的性能。
2.2 索引和定位困难:海量小文件存储需要高效的索引和定位机制,以便快速找到特定的文件。
然而,传统的文件系统在处理大规模的索引时容易出现性能瓶颈。
2.3 数据安全隐患:海量小文件存储需要保障数据的安全性和完整性。
然而,传统的存储方案可能无法提供足够的数据加密和访问控制机制。
3. 海量小文件存储方案的设计原则针对海量小文件存储的挑战,一个高效的存储方案应满足以下设计原则:3.1 水平扩展性:存储系统应具备良好的水平扩展性,以便根据需要增减存储容量和处理能力。
3.2 快速索引和定位:存储系统应具备高效的索引和定位机制,以便快速找到特定的小文件。
3.3 数据安全性:存储系统应提供足够的数据加密和访问控制机制,以免数据泄露和未授权访问。
3.4 成本效益:存储系统应具备高性价比,提供适合海量小文件存储需求的经济解决方案。
4. 海量小文件存储方案的实施方法基于以上设计原则,可以采用以下实施方法来实现海量小文件存储方案:4.1 对象存储技术:对象存储技术是一种新兴的存储技术,具备高度的扩展性和灵活性。
它通过将文件和元数据存储在一个容器中,实现海量小文件的高效存储。
4.2 分布式存储架构:采用分布式存储架构可以提高存储系统的性能和可靠性。
通过将存储任务分散到多个节点或服务器上进行处理,可以有效降低存储系统的负载,并提供高可用性和容错能力。
4.3 数据加密和访问控制:采用数据加密和访问控制技术可以确保海量小文件的安全性。
第十二章海量存储系统设计以传统的方式存储和管理日益增长的数据,意味着你需要不断地增加磁盘,投入更多的人力与物力,导致成本上升。
以优秀的分级存储软件和自动磁带库系统,即可以轻松实现海量数据存储。
12.1 海量数据存储系统架构方案考虑到海量存储系统是IT 构架的核心模块,这里存储网络架构采用双Fabric 网络结构,这种结构一方面带来了高可用性,另一方面提供了更多的数据通信带宽。
下面是海量存储系统的双Fabric 网络结构图:图12-1 双光纤通道结构其中网络核心采用director 级别的核心光纤通道交换机1 台(端口数>=128),通过在其内部划分虚拟SAN 分别构成两个独立的fabric;为保证高可靠性和提高系统的运行速度,存储工程师在各服务器群的每台主机上都通过两个HBA 连接到不同的Fabric 网络中,而且存储设备(磁盘阵列和磁带库)也是同时接入两个fabric,这样构成了一个无单点故障的网络系统。
双Fabric 存储网络设计要点和优势:∙主机和存储设备的冗余连接,整体提高系统的可靠性∙主机和存储设备的双路连接,工作在Active-Active 模式,整体提高系统的性能∙双网络结构设计,提高网络的可靠性,避免由于意外系统故障造成网络中断∙双网络结构设计,核心-边缘体系架构,方便未来网络的扩充∙交换机具有很强的向下兼容性,即可兼容1G 的交换机,又可兼容1G 的存储设备,如磁带库等设备都可直接连接到交换机中,提高设备的利用率∙可做LAN-Free 备份,减少备份对网络带宽的占用,整体提高数据备份和恢复的速度∙有利于系统的在线维护和扩展,而不影响系统的正常运行∙采用硬件实现的网络安全性管理,保证数据的安全性与外部存储网络的互联方案外部存储网络的接入是为了更好的提供基于数据复制(异步或同步)的容灾服务。
本着为客户各部门不同容灾需求服务的原则,这里存储工程师设计了采用三种形式的存储网络外部互联方案,即:FCIP 接入方案DWDM 接入方案SDH 接入方案在100Km 以内的连接上这三种接入方案的特点如下:表12-1 外部网络存储通道比较无论是内网还是外网及互联网存储网络,这里在外部接入采用同样的技术和拓扑结构,只是由于内网的数据量较少,采用端口数少的SAN 路由器,SAN 路由器的数量也应当适当减少。
具体拓扑结构如下图所示:图12-2 SAN 及扩展IP 网络连接注:为了清晰明了的原则,这里将服务器和局域网的连接省略。
如图12-2,FCIP 接入方案将SAN 路由器接入核心交换机,从链路冗余的角度出发,SAN 路由器分别接到不同fabric 中,同时SAN 路由器会接到局域网的千兆交换机上;这样就可以通过SAN 路由器的FCIP 功能将FC 协议转换为IP 协议,通过IP 网络与远端的某部门计算中心的SAN 路由器互联,在通过该路由器的协议转换将FC 协议传输到该部门的SAN 网络中,从而将容灾中心和该部门的存储网络互联,使得两个存储网络中的设备可以实现基于FC 的高速数据通信。
如图,DWDM 接入方案将SAN 路由器接入核心交换机,从链路冗余的角度出发,SAN 路由器分别接到不同fabric 中,同时SAN 路由器会接到DWDM 设备上;这样就可以通过DWDM 设备的波分复用功能将多条FC 通信,通过裸光纤传输到远端的某部门计算中心的DWDM 设备,通过它的解复用功能,再通过SAN 路由器将容灾中心和该部门的存储网络互联起来,使得两个存储网络中的设备可以实现基于FC 的高速数据通信。
如图,SDH 接入方案与DWDM 方案类似,将SAN 路由器接入核心交换机,从链路冗余的角度出发,SAN 路由器分别接到不同fabric 中,同时SAN 路由器会接到SDH 设备上;这样就可以利用FC over SDH 技术,通过SDH 网络将数据传输到远端的某部门计算中心的SDH 设备,进而再通过SAN 路由器将容灾中心和该部门的存储网络互联起来,使得两个存储网络中的设备可以实现基于FC 的高速数据通信。
这里之所以采用SAN 路由器,主要是在不同的fabric 间提供路由服务功能。
路由服务功能正是可以将不同的Fabric 网络逻辑地连接在一起,在不同的Fabric 网络上共享存储资源,这一功能可以充分利用分离Fabric 的种种好处,提供误隔离和方便管理的能力。
路由服务可以隔离SCN 和RSCN 等功能。
如在一个Fabric 中产生的RSCN,可以通过路由服务隔离,不会传到另外一个网络中,可以避免由于RSCN 造成的Fabric Reconfiguration;另外,也可以隔离由于设备原因,造成主机之间的相互影响,提高系统的运行效率。
对于远程连接网络,这一点尤其重要。
方案中将不同应用的数据备份到容灾中心的磁带库之中,而又不影响两个系统的相对独立,所以采用SAN 路由器将不同的Fabric 网络互连。
连接到SAN 路由器的Fabric 被称为边缘Fabric,由于SAN 路由器可以有效隔离不同Fabric 网络之间的相互干扰,这就允许用户建立更大规模的SAN 网络,确保系统具有更为强大的扩展能力。
通过路由服务,每个边缘Fabric 都保留自己独立的Fabric 服务:名称服务器、分区数据库、路由表、域ID 空间,等等。
这就是说,假如一个Fabric 有一个域ID 1 交换机,另一个Fabric 也有一个域ID 1 交换机,但没有该多协议路由器,这些Fabric 就不会合并,除非这些冲突得到解决。
在生产环境中,解决这些冲突是一个非常耗时和危险的过程。
有了多协议路由器,这些冲突就成了无关的问题。
在SAN 路由器平台上,其他Fabric 通过路由功能与路由器相连接。
这可以防止WAN链路上的故障转化为影响整个容灾中心SAN 或某部门计算中心SAN 的事故。
这个优点很重要,因为一般的远距离连接链路(裸光纤/DWDM/SDH/IP)的都有一定的不稳定性。
一条不稳定的远程连接链路可能会干扰数据中心的SAN 应用,但是路由器可以将这些干扰与数据中心的Fabric 隔离开。
12.1.1 磁盘阵列存储设施海量存储的核心对象是数据,因此数据的存储设备是海量存储系统的核心设备。
如前所述,采用SAN 网络,可以将海量存储系统存储的数据实现集中存储,实现集中存储的存储设备形成存储池。
本处描述海量存储系统基于磁盘的存储实现。
根据对该海量存储系统的需的分析,以及根据“按需扩展”的原则,这里初步设定海量存储系统的存储池容量50T。
该容量可以基本满足未来一段时间内的需要,随着容灾业务的发展,更多的容量可以通过扩展更多的存储磁盘阵列来实现。
根据海量存储系统服务用户数量众多,数据访问IO 频繁的特点,选择的磁盘阵列应该具有如下特点:1.应该选择性能较好的光纤磁盘阵列,保证良好的读写性能和可靠性。
2.磁盘容量应该尽可能的大。
考虑到主流磁盘阵列的容量、经济型、以及磁盘阵列的集中管理的便利性,尽可能采用大容量配置的磁盘阵列机柜。
目前建议采用磁盘阵列的最大容量大约为30T 的产品。
3.磁盘阵列应该附带有强大的磁盘管理软件,实现磁盘阵列的分区、访问控制、容量扩展等功能。
4.存储设备支持广泛的服务器平台。
光纤磁盘阵列应该支持目前所有流行的主流UNIX 和NT/2000、Linux 操作系统和服务器,并且应该允许尽可能夺得服务器同时连接到光纤磁盘阵列上。
5.海量的扩展能力。
可以仅仅通过增加磁盘,就达实现容量的扩展。
应该支持不同容量的磁盘混合共存在同一盘阵内,为用户今后容量的扩展打下基础。
在实际应用时,应该留出富裕的盘柜位置,以便在同一盘柜中较方便地实现扩展6.具备强大的数据复制功能。
光纤磁盘阵列应该支持快速磁盘拷贝、远程容灾等先进功能,为将来功能的进一步扩展打下基础。
7.磁盘阵列支持支持多种RAID 处理,和保留Hot Spare 硬盘的功能。
关于磁盘存储池的设计实现,以下是一些考虑:1.为了实现海量存储系统内网应用容灾的安全性,海量存储系统内网的数据存储设备将和其他数据存储设备分开。
根据内网数据的大小,可以选择容量小一些的磁盘阵列,或者减少磁盘阵列柜的数量,但存储设施的架构基本相同。
2.为了便于管理,建议先期采用同一厂家和型号的产品。
3.建议先不考虑对存储池做虚拟存储管理。
因为虚拟存储会影响数据存储的性能,其优势在于管理众多异构的存储盘柜。
可以在将来容量快速增长之后,考虑虚拟存储管理技术的应用。
4.为了便于充分使用,每个磁盘阵列需要分成不同的卷。
为了实现不同数据的安全,可以将不同的卷加入到不同的SAN 网络的“分区”中,实现数据卷的逻辑隔离。
5.考虑到中心需要管理的数据卷较多,可能需要对用户卷信息进行管理,如果磁盘阵列附带软件没有设这一功能,可以通过磁盘阵列管理软件提供的API 进行开发。
以上磁盘存储池的设计,没有考虑为特殊用户提供的磁盘阵列数据镜像(该方案在后面的章节描述)服务存储能力。
该阵列中的数据,主要是通过远程备份、数据文件复制、数据库复制等服务软件,为用户保存的数据。
有些部门已经具备某些某种型号的磁盘阵列,如果实现磁盘阵列级的数据复制和容灾,往往需要海量存储系统提供同构的磁盘阵列。
在这种情况下,本海量存储系统可能需要根据具体方案提供相对应的磁盘阵列。
对这种海量存储系统需求,事先采购大量的磁盘阵列是不经济的,也是没有必要的。
因此,对这种需求,应该在海量存储系统的场地和网络设施基础上,设计专门的方案,来实施实现。
在本方案设计中,仅仅作为一种扩展考虑,不作为当前实施实现的一部分,也不纳入预算。
根据对用户数据量的分析估算,建议海量存储系统一期购置的存储设施为:1.内网磁盘阵列。
容量为10T,包括机柜,机头,磁盘以及相应高级功能和管理软件。
2.外网磁盘阵列。
容量为30T,包括机柜,机头,磁盘以及相应高级功能和管理软件。
3.存储管理服务器,中端的PC 服务器即可。
图12 -3 海量存储系统扩展12.1.2 磁带存储设施数据备份是海量存储系统的核心业务,因此数据备份最终存储设备是海量存储系统的核心设备之一。
如前所述,采用SAN 网络,可以将海量存储系统存储的数据实现集中存储,实现集中存储的存储设备形成综合存储池。
本处描述海量存储系统基于磁带的存储实现。
根据对海量存储系统需求的分析,以及根据“按需扩展”的原则,海量存储系统的磁带库存储容量按照100 个单位,每个单位600GB 备份量,备份周期为1 周,2 周轮换磁带,至少需要200GB 磁带600 盘,考虑到冗余和其他因素,初步设计海量存储系统的磁带库存储容量为1000 盘。
该容量可以基本满足未来一段时间内备份的需要,随着容灾业务的发展,更多的容量可以通过增加扩展柜和磁带槽位,或采用更多的磁带库来实现。