分布式存储解决方案
- 格式:docx
- 大小:226.93 KB
- 文档页数:16
基于分布式架构的内容存储解决方案随着互联网的迅猛发展,人们对内容的需求也越来越高。
大量的文档、图片、视频等内容需要进行存储和传播,传统的中心化存储方案已经不能满足这种需求。
因此,分布式架构的内容存储解决方案应运而生。
分布式架构的内容存储解决方案是指将内容存储在不同的节点上,通过网络连接这些节点来实现内容的存储和传播。
分布式架构的内容存储解决方案具有如下的特点:1.高可靠性和可扩展性:分布式架构的内容存储解决方案可以将内容存储在多个节点上,即使一些节点发生故障,也可以通过其他节点来恢复数据。
同时,随着存储需求的增加,可以方便地添加新节点来扩展存储容量。
2.高性能:分布式架构的内容存储解决方案可以通过并行计算和负载均衡的方式来提高数据的读写性能,减少单个节点的负载压力。
3.数据一致性:分布式架构的内容存储解决方案可以通过一致性算法来保证多个节点之间的数据一致性,从而避免数据的冲突和丢失。
根据不同的需求,可以采用不同的分布式架构的内容存储解决方案。
下面介绍几种常见的方案:1.分布式文件系统:分布式文件系统是一种将文件划分成多个块,并将这些块存储在不同的节点上的文件系统。
每个节点存储一部分数据,并且通过数据冗余的方式来保证数据的可靠性。
分布式文件系统可以支持大规模的存储和高并发的读写操作。
2.对象存储系统:对象存储系统是一种将文件和元数据(比如文件名、文件大小、创建时间等)组成对象,并将这些对象存储在不同的节点上的存储系统。
对象存储系统可以通过对象的全局唯一标识符来进行数据的寻址和访问,并且通过元数据来进行数据的管理。
3.分布式数据库系统:分布式数据库系统是一种将数据库划分成多个分片,并将这些分片存储在不同的节点上的数据库系统。
每个节点存储一部分数据,并且通过分片和复制的方式来保证数据的可靠性和高可用性。
分布式数据库系统可以支持大规模的数据存储和高并发的读写操作。
除了以上的几种常见的方案,还有很多其他的分布式架构的内容存储解决方案,比如分布式缓存系统、分布式日志系统等。
分布式存储解决方案目录一、内容概览 (2)1. 背景介绍 (3)2. 目标与意义 (3)二、分布式存储技术概述 (5)1. 分布式存储定义 (6)2. 分布式存储技术分类 (7)3. 分布式存储原理及特点 (8)三、分布式存储解决方案架构 (9)1. 整体架构设计 (10)1.1 硬件层 (12)1.2 软件层 (13)1.3 网络层 (14)2. 关键组件介绍 (15)2.1 数据节点 (16)2.2 控制节点 (18)2.3 存储节点 (19)2.4 其他辅助组件 (20)四、分布式存储解决方案核心技术 (22)1. 数据分片技术 (23)1.1 数据分片原理 (25)1.2 数据分片策略 (26)1.3 数据分片实例分析 (28)2. 数据复制与容错技术 (29)2.1 数据复制原理及策略 (31)2.2 容错机制与实现方法 (32)2.3 错误恢复过程 (34)3. 数据一致性技术 (35)3.1 数据一致性概念及重要性 (36)3.2 数据一致性协议与算法 (37)3.3 数据一致性维护与保障措施 (38)4. 负载均衡与性能优化技术 (39)4.1 负载均衡原理及策略 (41)4.2 性能优化方法与手段 (43)4.3 实例分析与展示 (43)五、分布式存储解决方案应用场景及案例分析 (44)1. 场景应用分类 (46)2. 具体案例分析报告展示 (47)一、内容概览分布式存储解决方案是一种旨在解决大规模数据存储和管理挑战的技术架构,它通过将数据分散存储在多个独立的节点上,提高数据的可用性、扩展性和容错能力。
本文档将全面介绍分布式存储系统的核心原理、架构设计、应用场景以及优势与挑战。
我们将从分布式存储的基本概念出发,阐述其相较于集中式存储的优势,如数据分布的均匀性、高可用性和可扩展性。
深入探讨分布式存储系统的关键组件,包括元数据管理、数据分布策略、负载均衡和容错机制等,并分析这些组件如何协同工作以保障数据的可靠存储和高效访问。
分布式存储解决方案在当前云计算和大数据时代,分布式存储解决方案成为了处理海量数据和实现高可用性的关键技术。
分布式存储解决方案主要通过将数据分散存储在多个节点上,实现数据的冗余和并行处理,从而提升数据的可靠性和性能。
下面将介绍几种主流的分布式存储解决方案。
1. GFS(Google 文件系统):GFS 是 Google 提出的一种分布式文件系统,用于处理大量的分布式文件存储。
GFS 将文件分割成多个固定大小的块,并将这些块存储在多个服务器上。
GFS 通过数据冗余和数据块备份实现高可用性,并通过多个服务器并行处理数据块实现高性能。
GFS 还提供了一些高级功能,如高效的文件读取和写入、快速的数据定位和容错机制等。
2. HDFS(Hadoop 分布式文件系统):HDFS 是 Apache Hadoop 中的一个组件,也是 Google GFS 的开源实现。
HDFS 具有类似 GFS 的架构,将大文件分割成多个块并存储在多个服务器上。
HDFS 通过数据冗余和数据块备份实现高可用性,同时通过提供错误检测和自动修复机制来确保数据的一致性和完整性。
HDFS 还提供了高可扩展性和高性能的特性,适用于大规模数据存储和分析。
3. Ceph:Ceph 是一个开源的分布式存储系统,提供了对象存储、块存储和文件存储的功能。
Ceph 的架构基于一个称为 RADOS(Reliable Autonomic Distributed Object Store)的分布式存储集群,它将数据分布存储在多个服务器上,并通过数据冗余和数据块备份来提供高可用性。
Ceph 还采用了动态数据平衡和数据恢复的策略来确保存储集群的高性能和数据一致性。
4. GlusterFS:GlusterFS 是一个开源的分布式文件系统,用于将多个服务器上的存储设备组合成一个统一的分布式存储空间。
GlusterFS 将数据分散存储在多个服务器上,并通过数据冗余和数据备份来提供高可用性。
分布式存储系统是现代大数据应用和云计算技术的基石,然而在实际应用中,常常会遇到各种性能问题。
本文将探讨分布式存储系统的常见性能问题,并提供解决方法。
一、数据一致性问题在分布式环境下,由于网络延迟、节点故障等原因,数据的一致性难以保证。
这会导致不同节点上的数据有所偏差,进而影响应用的可靠性和准确性。
为解决数据一致性问题,可以采用以下方法:1. 强一致性机制:通过引入分布式协议和一致性算法,确保数据在各个节点之间的一致性。
例如,使用Paxos或Raft算法进行数据一致性协调。
2. 弱一致性机制:在一些场景下,强一致性的代价较高。
此时可以采用弱一致性机制,如读写分离、事务异步提交等,权衡一致性和性能。
二、数据分片不均衡问题分布式存储系统通常将数据分为多个分片存储在不同节点上,但是由于数据访问模式的不均衡或节点性能的差异,会导致数据分片不均衡的情况。
为解决数据分片不均衡问题,可以采用以下方法:1. 均衡数据访问:通过负载均衡算法,将请求均匀地分配到各个节点上,避免部分节点压力过大。
常见的负载均衡算法有随机算法、轮询算法和权重算法等。
2. 动态数据迁移:当数据分片不均衡时,可以根据实时负载情况,将部分数据从负载过重的节点迁移到负载较轻的节点上,实现动态负载均衡。
三、存储容量不足问题随着数据规模的不断增长,存储容量可能会成为分布式存储系统的瓶颈。
为解决存储容量不足的问题,可以采用以下方法:1. 压缩与去重:对存储的数据进行压缩与去重操作,节省存储空间。
常见的压缩算法有gzip、Snappy等。
2. 数据分片与分区:将数据切分成多个较小的分片,并根据业务需求进行合理的分区,可以降低每个节点的存储压力。
四、数据冗余与备份问题分布式存储系统通常会采用数据冗余和备份机制来提高数据的可靠性和容错能力。
但是,过多的冗余数据和备份操作会导致存储系统的性能下降。
为解决数据冗余与备份问题,可以采用以下方法:1. 去除无效冗余:通过分析数据的冗余率和冗余类型,去除无效的冗余数据,提高存储效率。
分布式存储系统及解决方案介绍分布式存储系统是指将数据分散存储在多个节点或服务器上,以实现高可靠性、高性能和可扩展性的存储解决方案。
分布式存储系统广泛应用于云计算、大数据分析和存储等领域。
本文将介绍几种常见的分布式存储系统及其解决方案。
1. Hadoop分布式文件系统(HDFS):Hadoop分布式文件系统是Apache Hadoop生态系统的一部分,用于存储大规模数据集。
该系统基于块存储模型,将文件划分为块,并将这些块分布式存储在多个节点上。
HDFS使用主从架构,其中NameNode负责管理文件系统的命名空间和协调数据块的存储位置,而DataNode负责实际的数据存储。
HDFS提供了高吞吐量和容错性,但对于小型文件存储效率较低。
2. Ceph分布式文件系统:Ceph是一个开源的分布式存储系统,能够提供可伸缩的冗余存储。
其架构包括一个Ceph存储集群,其中包含多个Ceph Monitor节点、Ceph Metadata Server节点和Ceph OSD(对象存储守护进程)节点。
Ceph仅需依赖于普通的网络和标准硬件即可构建高性能和高可靠性的存储系统。
Ceph分布式文件系统支持POSIX接口和对象存储接口,适用于各种应用场景。
3. GlusterFS分布式文件系统:GlusterFS是一个开源的分布式文件系统,能够提供高可用性和可扩展性的存储解决方案。
它使用类似于HDFS的块存储模型,将文件划分为固定大小的存储单元,并将这些存储单元分布式存储在多个节点上。
GlusterFS采用主从架构,其中GlusterFS Server节点负责存储数据和文件系统元数据,而GlusterFS Client节点提供文件系统访问接口。
GlusterFS具有良好的可伸缩性和容错性,并可以支持海量数据存储。
4. Amazon S3分布式存储系统:Amazon S3(Simple Storage Service)是亚马逊云服务提供的分布式对象存储系统。
分布式存储解决方案下面将系统地介绍几种常见的分布式存储解决方案。
1. 分布式文件系统(Distributed File System, DFS):分布式文件系统将文件分割为多个块,并将这些块存储在不同的节点上,实现文件的高可靠性、高可扩展性和高性能。
其中比较著名的有Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)和谷歌分布式文件系统(Google File System, GFS)。
HDFS将文件分割为固定大小的数据块,并将这些数据块复制到多个节点上。
通过对数据块的复制,实现了数据的冗余和高可靠性。
同时,HDFS还采用了主从架构和数据局部性原理,使得数据的读写操作能够高效地在节点之间实现负载均衡和数据局部性。
GFS采用了类似的设计思想,将文件分割为大量的数据块,并将这些数据块按照一定的规则分布到多个节点上。
通过为每个文件存储多个副本和采用主从架构,实现了数据的冗余和高可靠性。
同时,GFS还使用了日志结构文件系统和数据局部性原理,使得数据的读写操作能够高效地在节点之间实现负载均衡和数据局部性。
2. 分布式对象存储(Distributed Object Storage, DOS):分布式对象存储将数据存储为对象,并将这些对象通过哈希算法分布到多个节点上,实现对象的高可靠性、高可扩展性和高性能。
其中比较著名的有亚马逊云存储服务(Amazon S3)和谷歌云存储服务(Google Cloud Storage)。
这些分布式对象存储系统采用了分布式哈希表的设计思想,将对象根据其哈希值分布到多个节点上。
通过为每个对象存储多个副本和采用主从架构,实现了对象的冗余和高可靠性。
同时,这些系统还使用了一致性哈希算法和数据局部性原理,使得对象的读写操作能够高效地在节点之间实现负载均衡和数据局部性。
3. 分布式块存储(Distributed Block Storage, DBS):分布式块存储将数据划分为固定大小的块,并将这些块存储在多个节点的硬件设备上,实现块的高可靠性、高可扩展性和高性能。
分布式存储解决方案分布式存储是一种通过将数据分散存储在多个节点上来提高存储效率和可靠性的存储方案。
分布式存储系统通常由多个存储节点组成,这些节点通过网络连接,共同工作来提供高容量、高性能的存储服务。
本文将介绍一些常见的分布式存储解决方案。
1.分布式文件系统(DFS):分布式文件系统是一种提供分布式存储和访问文件的解决方案。
它将文件划分成多个块,并将这些块分散存储在多个节点上,提高了文件的读取和写入效率。
同时,分布式文件系统还提供了容错能力,当一些节点发生故障时,系统可以自动从其他节点中恢复数据。
2.对象存储:对象存储是一种将数据存储为对象的方式,每个对象包含数据和唯一标识符。
对象存储系统将对象分散存储在多个节点上,通过标识符来索引和访问数据。
对象存储系统具有高度可扩展性和可靠性,可以实现海量数据的存储和高并发访问。
3.分布式块存储:分布式块存储是一种将数据划分成固定大小的块,并将这些块存储在多个节点上的解决方案。
每个块都有一个唯一的标识符,可以通过标识符来索引和访问数据。
分布式块存储系统具有高并发读写能力和容错能力,能够提供高性能和高可靠性的存储服务。
4.分布式存储网络(DSN):分布式存储网络是一种以网络为基础的分布式存储解决方案。
它将多个存储节点通过网络连接起来,以实现数据的分布式存储和访问。
分布式存储网络可以提供高可用性、高可靠性和高性能的存储服务,适用于各种大规模数据存储场景。
除上述解决方案外,还有一些辅助技术和策略可以提升分布式存储系统的性能和可靠性,如数据冗余备份、数据压缩和加密、数据迁移和平衡等。
总之,分布式存储解决方案可以为大规模数据存储提供高性能、高可靠性和高可用性的服务。
各个方案有各自的特点和适用场景,根据实际需求选择合适的方案可以提高存储效率和降低存储成本。
分布式存储系统及解决方案介绍目录一、概述 (2)二、XX分布式存储系统主要特性 (3)2.1 海量存储,在线横向扩展 (3)2.2 数据可靠性与性能的平衡 (3)2.3 不间断的业务服务 (3)2.4 直观、人性化的管理 (4)三、XX分布式存储系统架构图 (4)四、XX分布式存储系统应用场景 (5)一、概述分布式存储系统,是将数据分散存储在多台独立的设备上。
该方案采用领先的全分布式架构,无单点故障,具有高弹性和高可靠性,性能和容量可横向扩展,分层分级存储数据,并可自定义存储系统的性能、容量、数据保护能力。
打破现有存储技术瓶颈,专有分布式存储解决方案,无单点故障、集群越大性能越好、支持平滑扩展。
XX分布式存储系统,能对上层应用多副本同时提供块存储、对象存储、文件存储等多种数据存储服务,为云计算、大数据业务等提供大容量、高可靠、经济的存储解决方案。
存储平台支持容量、性能等自由扩展,满足客户多样化的存储需求。
二、XX分布式存储系统主要特性2.1 海量存储,在线横向扩展●支持块存储接口可为主流的Windows和Linux操作系统提供磁盘卷,磁盘空间可调整。
●支持对象存储接口可通过APP、Web、API等方式访问存储资源池,也可通过Web随时随地接入访问;基于通用标准API接口,可定制企业专属网盘应用、为开发者提供通用访问接口。
●支持通用存储介质支持SAS/SATA/PCI-E接口及协议,支持固态硬盘和机械硬盘的组合模式。
2.2 数据可靠性与性能的平衡●支持数据多副本、数据纠删码等数据冗余配置●支持数据快照、快照回滚、用户数据隔离等数据保障措施●支持SSD存储池与HDD池组合模式,加速读写性能●支持软硬件故障系统自动修复,系统服务数据可靠性可达99.999%●支持集群跨机房灾备2.3 不间断的业务服务●控制管理通道与用户数据平面分离●支持物理卷镜像、存储资源快照等数据保障功能●用户可构建跨存储池、跨地区海量统一存储空间资源池●扩容、设备硬件故障及节点系统故障处理,均不会导致存储集群服务中断2.4 直观、人性化的管理●管理系统提供直观的集群中设备、磁盘、资源、状态可视化清单管理员设设置全局数据备份机制(多副本和EC码)●提供实时动态和历史记录告警、错误数据,以及多点提示●统一的部署、管维平台●可定制客户端APP,优化用户体验三、XX分布式存储系统架构图高效、极简的数据存储及管理解决方案,满足超大并发、超高性能、超大容量等各类业务场景。
分布式存储解决方案分布式存储解决方案在当今大数据时代,数据量不断增长,对于传统的存储系统来说,面对海量数据的存储和处理是一个巨大挑战。
为了解决这个问题,分布式存储解决方案应运而生。
什么是分布式存储解决方案分布式存储解决方案是一种将数据分散存储在多个节点上的存储架构。
它将海量数据划分为多个较小的数据块,并将这些数据块分散存储在不同的存储节点上,从而实现对数据的并行存储和读取。
每个存储节点都具备存储和计算能力,可以独立进行数据的存储和处理,并通过网络进行数据的传输和交互。
分布式存储解决方案的主要特点高可靠性分布式存储解决方案通过数据的冗余存储实现高可靠性。
当一个节点发生故障时,其他节点可以继续提供服务,不影响系统的正常运行。
通过复制数据到多个节点,即使某个节点发生故障,数据仍然可用。
高可扩展性分布式存储解决方案可以根据需求动态增加存储节点,实现系统的高可扩展性。
随着数据量的增长,可以通过增加存储节点的方式来增加存储容量和计算能力,满足不断增长的业务需求。
高性能分布式存储解决方案通过数据的并行存储和读取实现高性能。
数据可以同时从多个节点进行读取,提高了数据的读取速度。
同时,可以将计算任务分发到不同的节点上进行并行处理,提高了系统的计算性能。
易管理性分布式存储解决方案提供了统一的管理界面,方便管理员对存储节点进行管理和配置。
同时,它还提供了监控和告警功能,可以实时监控存储节点的运行状态,及时发现和解决问题。
常见的分布式存储解决方案Hadoop HDFSHadoop HDFS(Hadoop Distributed File System)是Apache Hadoop生态系统中的一个分布式文件系统。
它是基于Google的GFS(Google File System)论文而设计的。
HDFS具有高可靠性和高可扩展性的特点,适用于海量数据的存储和处理。
HDFS将数据划分为多个数据块,并将每个数据块进行冗余存储。
它将数据块分散存储在多个存储节点上,实现数据的并行存储和读取。
分布式存储技术架构方案1.需求分析1.1.应用数据流逻辑架构如下图表示,整个系统应用数据流结构。
根据数据流和应用情况,得出下面要求:1)用于存放流数据的存储分为在线、近线和长期归档三部分,容量需求分别不低于150TB、600TB和4PB;2)另有用于管理和索引的数据库、以及服务器虚拟化数据,各占5TB的空间,共10TB空间;3)在线数据保留7天(可根据要求进行灵活修改),7天后自动迁移到近线存储(采用廉价磁盘);迁移后,对应用访问的路径不变。
更长时间的数据(如100天),将按照策略归档到离线光盘库设备;4)流数据的性能需求o在线存储能够支撑3路200MB/s写入流、12路100MB/s写入流和15路100MB/s读取流,即近2GB/s持续写和1.5GB/s持续读的并发读写需求。
o在线到近线的迁移速度,应达到200MB/s。
o近线存储读取速度,可以达到单路80MB/s,支持大于15路读,总共1.2GB/s读。
5)自动解决在线存储上的碎片问题,保证性能;1.2.需求分析1.2.1.管理数据库和虚拟化数据融合部署流数据为典型的顺序I/O,OLTP类型管理数据库根据程序类型,存在随机和顺序I/O多种情况,服务器虚拟化在存储介质中表现为封装好的文件,具备空间局部性特征。
国际主流数据中心建设模式倾向扁平化、大二层组网,融合架构兼具可控性和高扩展性,因此建议合并部署。
1)流数据部署在高性能分布式存储– 提供极高的I/O吞吐性能,并按照在线、近线和离线三部级存储进行署。
下面的文字将主要对这部分需求进行讨论和分析。
2)管理数据库部署在通用磁盘阵列存储上,提供高效的OLTP性能、集成于应用的管理和数据保护功能。
这部分存储容量需求为5TB,主流的企业级存储都可满足要求。
3)服务器虚拟化部署在高性能分布式存储上,充分利用分布式存储性能优势和数据多副本优势,提供高可靠的集群文件系统功能。
由于虚拟化服务器主要使用计算资源,而分布式存储I/O需求较大,有效利用技术优势,利用Hypervisor底层充分整合分布式存储,构建智能的软件定义的数据中心。
1.2.2.在线和近线存储性能分析在线存储可用容量需求为150TB。
性能方面,用于生产的性能需求为:并发达到1.8GB/s的持续写入和1.5GB的持续读取。
1、近线存储性能指标:这就要求,近线存储能够满足以下的并发I/O要求:1.8GB/s的写入,同时还有1.2GB/s的读取,以及向磁带库(三级存储)的归档。
由于读、写是同时进行,因此在进行存储选项和规划时,考虑一定产品指标因素,建议最大写性能2倍处理,即3.6 GB/s写为选型指标。
2、在线存储性能指标:同理,对于在线存储的并发I/O要求:1.8GB/s的持续写入和1.5GB的持续读取,可选取3.6GB/s最大写入性能为标准。
但需要注意的是在部分部件损坏后,该存储必须能够满足生产性能要求。
因此,在线存储必须考虑较多的性能余量,因此可将选型标准定为最大写入性能5GB/s或者更高。
1.2.3.在线和近线存储容量需求分析在线和近线存储的容量规划,是根据数据保存策略估算,规划中真正使用空间是总容量的80%左右,确保存储容量、稳定性和数据应用的安全。
1、在线存储容量分析在线存储保存7天数据容量= 21.4TB * 7 = 150TB。
从数据保留在在线存储的策略评估,进行最大化估算,3路200MB/s写入流、12路100MB/s写入流,总共需持续最大化写入1.8GB/s,但是平均写入数据较低,21.4TB/60(1分钟60秒)* 60(1小时60分钟)* 24(1天24小时)=247MB/s(每秒写入数据)分布式存储提供了多副本机制保证数据高可靠,考虑到性能和安全性,设置两份副本,150TB在线数据量共需要300TB存储空间。
2、近线存储容量需求分析近线存储数据容量为600TB。
近线存储容量,是根据数据迁移策略和数据归档策略的定义情况来平衡并评估出需要的容量,即每天从在线存储中迁移150TB(最大化)容量到近线存储,在线数据7天自动迁移近线存储,因此写满一次近线数据周期为一个月。
2.分布式存储系统架构设计2.1.分布式存储物理架构拓扑方案以融合架构为基础,充分结合分布式数据特征,利用物理硬件资源的不同使用消耗,整合存储、计算、网络资源,实现软件定义IT。
2.2.分布式存储架构设计说明2.3.1.纵向分区设计计算密集区,主要提供分布式存储架构中的计算用途。
计算功能:部署20台存储服务器。
确保计算优先,即运行流数据业务的虚拟机,在线存储能够支撑3路200MB/s写入流、12路100MB/s写入流和15路100MB/s读取流,即近2GB/s持续写和1.5GB/s持续读的并发读写需求。
每服务器系统盘本地部署,建议SATA硬盘RAID1;存储功能:提供分布式存储数据环境,考虑横向连池,与其他两区存储硬盘配置相同,建议500GB SSD高速存储。
数据管理区,主要提供分布式存储架构中的数据库管理和虚拟机管理。
数据库管理建议以虚拟机形式部署,近线存储介质中划分5TB 空间,以裸设备形式映射给Hypervisor,满足OLTP I/O要求。
虚拟机集群管理通过vCenter建立状态,实现HA功能,完成计算资源的高可用。
并且可根据实际软件资源响应情况,灵活调整计算资源,在业务连续运行状态下实现动态迁移。
迁移归档区,提供在线数据到近线数据迁移,近线数据到归档存储迁移。
在线到近线的迁移速度,应达到200MB/s,近线存储读取速度,可以达到单路80MB/s,支持大于15路读,总共1.2GB/s读。
在线到近线的迁移利用Hypervisor存储迁移功能,在虚机开机状态下迁移数据业务。
归档迁移利用第三方备份软件或光盘塔实现。
2.3.1.横向互联设计管理千兆网,实现虚拟机管理,数据库管理,虚拟机迁移和集群通信四大功能。
千兆以太网建议专网专用。
Hypervisor主机采用SSD,以SSD硬盘为介质的存储池承担在线存储,提供的巨大的吞吐量和高速的读写性能,满足项目中对在线存储读写性能的需求。
生产万兆网,运行虚拟机业务系统,联通服务器区向在线存储区读写职能。
提供1.8GB写,1.5GB读。
在线万兆网,两台万兆网络交换机(外网)通过堆叠技术(可横向扩展),实现两台万兆交换机双活应用,即两台万兆交换机同时工作,充分发挥网络性能和应用带宽性能。
每个存储节点通过至少捆绑两个万兆端口,并连接存储外部网络万兆交换机,实现单个存储节点供应用直接读取带宽至少为物理20GBps。
近线FC网,提供SSD在线数据向SATA盘阵200MB/s写入,和服务器区从近线存储1.2GB/s读。
建议多路径FC交换机。
以大量的SATA硬盘为介质的存储池承担近线存储,提供满足业务需求的容量,同时也提供巨大的吞吐量,满足项目中对近线存储读写性能需求。
离线千兆网,以带库方式或光盘塔方式完成长期数据归档要求,共4PB。
2.3.分布式存储架构特征2.3.1.扩展性和高性能分布式集群存储利用双重特性(多副本)来提供几TB至数PB的高扩展存储解决方案。
Scale-Out架构允许通过简单地增加资源来提高存储容量和性能,磁盘、计算和I/O资源都可以独立增加,支持10GbE高速网络互联。
弹性哈希(Elastic Hash)解除了分布式存储对元数据服务器的需求,消除了单点故障和性能瓶颈,真正实现了并行化数据访问。
2.3.2.负载自动均衡技术分布式存储采用无中心服务器架构模式来管理整个分布式存储文件系统,所有元数据和数据均保存在各个节点上,文件则划分为多个块存储在不同的存储节点上。
管理节点维护了一个统一的命名空间,同时掌握整个系统内存储节点的使用情况,当客户端向元数据发送数据读写的请求时,根据存储节点的磁盘使用情况、网络负担等情况,选择负担最轻的存储节点对外提供服务,自动均衡负载负担。
另外,当有一个存储节点因为机器故障或者其他原因造成离线时,节点会将此机器自动屏蔽掉,不再将此存储节点提供给客户端使用,同时存储在此存储节点上的数据也会自动的备份到其他可用的存储节点上,自动屏蔽存储节点故障对系统的影响。
2.3.3.高可用性分布式存储可以对文件进行自动复制,如镜像或多次复制,从而确保数据总是可以访问,甚至是在硬件故障的情况下也能正常访问。
自我修复功能能够把数据恢复到正确的状态,而且修复是以增量的方式在后台执行,几乎不会产生性能负载。
2.3.4.全局统一命名空间全局统一命名空间将磁盘和内存资源聚集成一个单一的虚拟存储池,对上层用户和应用屏蔽了底层的物理硬件。
存储资源可以根据需要在虚拟存储池中进行弹性扩展,比如扩容或收缩。
当存储虚拟机映像时,存储的虚拟映像文件没有数量限制,成千虚拟机均通过单一挂载点进行数据共享。
虚拟机I/O可在命名空间内的所有服务器上自动进行负载均衡,消除了SAN环境中经常发生的访问热点和性能瓶颈问题。
2.3.5.弹性哈希算法分布式集群存储采用弹性哈希算法在存储池中定位数据,而不是采用集中式或分布式元数据服务器索引。
在其他的Scale-Out存储系统中,元数据服务器通常会导致I/O性能瓶颈和单点故障问题。
所有在Scale-Out存储配置中的存储系统都可以智能地定位任意数据分片,不需要查看索引或者向其他服务器查询。
这种设计机制完全并行化了数据访问,实现了真正的线性性能扩展。
2.3.6.弹性卷管理数据储存在逻辑卷中,逻辑卷可以从虚拟化的物理存储池进行独立逻辑划分而得到。
存储服务器可以在线进行增加和移除,不会导致应用中断。
逻辑卷可以在所有配置服务器中增长和缩减,可以在不同服务器迁移进行容量均衡,或者增加和移除系统,这些操作都可在线进行。
文件系统配置更改也可以实时在线进行并应用,从而可以适应工作负载条件变化或在线性能调优。
2.3.7.基于标准协议存储服务支持NFS, CIFS, HTTP协议,完全与POSIX标准兼容。
现有应用程序不需要作任何修改或使用专用开放的API,就可以对分布式存储中的数据进行访问。
2.4.存储内部数据透明迁移设计存储以虚拟化存储概念整合成一个大的存储,分在线存储池(SSD硬盘介质)和近线存储池(SATA磁盘介质),设置在线存储数据保留周期策略,例如7天,数据分多路经过集群应用服务器处理后,持续写入到在线存储池保存,通过存储系统内部检测和判断,发现超过7天的数据,存储内部通过数据分层保存机制,自动迁移数据至近线存储池保存。
而近线存储池的数据也需设置数据保留周期策略,通过第三方归档软件,把近线存储池中超过生命周期的数据,自动迁移至永久保存介质,进行长期保存。
虚拟化存储池具备下面使用和数据透明迁移:1、当在线存储池的容量有可用容量时,所有从应用服务器至虚拟化存储池的写入的数据直接保存至在线存储池中。