海量数据的分布式并行集群存储技术研究与应用
- 格式:pdf
- 大小:1.54 MB
- 文档页数:3
分布式存储技术及其应用一、引言分布式存储技术在当今互联网时代得到了广泛的应用,最初应用于大型网站、互联网公司及数据中心等领域。
它是一种新型的存储技术,相比于传统的集中式存储技术有着很大的优势。
本文将分别从分布式存储技术的概念,技术特点,分类以及应用领域等方面进行深入浅出的介绍。
二、分布式存储技术的概念分布式存储技术是将数据分散存储在多个节点上的一种技术。
与传统的集中式存储技术相比,它的优势在于可以实现数据的高可用性、高可靠性以及横向扩展等功能。
当其中某个节点崩溃后,系统仍然可以继续运行,这种弹性不仅可以提高数据存储的可靠性,还能够大大提高系统的性能与可扩展性。
三、分布式存储技术的技术特点1. 高可用性:分布式存储技术可以实现数据的镜像备份,即将数据同时存储在多个节点上,一旦其中某一个节点发生故障,系统也可以从其他节点上恢复数据存储。
2. 高可靠性:分布式存储技术可以利用多个节点进行数据的存储和备份,从而实现数据的冗余存储,一旦其中某一个节点出现故障,系统可以从其他节点上恢复数据,从而保证数据的完整性和安全性。
3. 弹性扩展:随着数据量的不断增加,分布式存储技术可以根据实际情况增加节点数,实现数据的“横向扩展”,从而提高系统的可扩展性。
4. 高数据处理能力:分布式存储技术可以将数据分散存储在多个节点上,每个节点都具有数据处理的能力,可以通过负载均衡技术,将数据均匀分配到各个节点上并行处理,从而提高系统的处理能力。
四、分布式存储技术的分类1. 文件系统:Infiniband、Interconnect、GPFS等,具有高效率、可扩展性强等优点。
2. 分布式对象存储:Ceph、Swift、HDFS等,多用于云存储和大规模数据中心。
3. 分布式块存储:Gluster、DRBD等,常见于虚拟化环境中。
五、分布式存储技术的应用领域1. 互联网公司:分布式存储技术可以为互联网公司提供海量的数据存储,快速响应和高可靠性的服务支持;2. 科研领域:分布式存储技术可以为科研领域提供高效的分布式计算服务,支持海量数据分析和处理;3. 视频监控领域:分布式存储技术可以为视频监控领域提供高可靠性的数据存储和备份支持,以及快速的数据检索和回放服务。
210 •电子技术与软件工程 Electronic Technology & Software Engineering数据库技术・ Data Base Technique【关键词】空间数据 分布式存储 并行处理1 海量空间数据的分布式存储管理MongoDB 非关系数据库在海量数据的存储上具有以下优势:支持地理索引、支持海量数据分片、可在各种平台上对海量数据进行存储。
鉴于此,下面以该数据库为基础,对海量空间数据的分布式存储管理进行论述。
1.1 MongoDB的特点与集群大体上可将MongoDB 数据的特点归纳为以下几个方面:使用简单、便于部署、模式自由、支持Copy 及故障恢复,可对数据进行高效存储。
MongoDB 集群的具体工作原理如下:当用户想在MongoDB 中导入相关数据时,MongoDB 集群能够对单个分片上的数据是否超过预设值进行判断,若是超出存储限值,便会自行启动分片机制,对集合进行分块,然后分别派送至不同的分片上。
在这一过程中,集群各分片上的MetaDate 信息存储全都存储在Con fi g Server 服务器上。
对于用户而言,其并不清楚MongoDB 导入的数据被分配至哪个节点上,这是因为在集群中主要是借助mongos 路由进行的,但利用Sharding 管理命令便可看到数据的存放位置。
1.2 矢量与栅格数据的存储1.2.1 矢量数据存储矢量数据常被用于表示空间数据的存储结构。
相关研究结果表明,通过对地理实体坐标进行记录的方式能够精确地表示点、线、面等实体的空间位置,在这一前提下,可对矢量数据的点、线、面进行如下描述:点由一对X 、Y 坐标表示;线由一串排列有序的X 、Y 坐标对表示;面由一串或是几串排列有序且首尾坐标相同的X 、Y 坐标对及面积标识表示。
矢量数据中的数据具体包括以下内容:与空间位置相对应的属性信息、可实现快速查询的索引信息以及空间实体的拓扑信息,按照MongoDB海量空间数据的分布式存储管理及并行处理技术分析文/田昶的存储方式,对矢量数据的存储如图1所示。
《基于Hadoop的海量数据处理模型研究和应用》篇一一、引言随着信息技术的迅猛发展,大数据时代已经来临。
海量数据的处理和利用成为了各行业的重要任务。
Hadoop作为一个开源的分布式计算平台,为海量数据处理提供了强大的支持。
本文将重点研究和探讨基于Hadoop的海量数据处理模型,以及其在实际应用中的效果和价值。
二、Hadoop概述Hadoop是一个由Apache基金会所开发的分布式系统基础架构,它允许用普通的硬件集群来分发和处理大规模数据。
Hadoop 的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。
HDFS提供了高可靠性的数据存储服务,而MapReduce则提供了高效的计算框架。
三、基于Hadoop的海量数据处理模型研究(一)数据存储模型Hadoop的海量数据处理模型基于HDFS进行数据存储。
HDFS采用分布式存储的方式,将文件分割成多个块,并将这些块存储在集群的各个节点上,从而实现数据的冗余存储和容错性。
同时,HDFS具有良好的可扩展性,可以适应不同规模的数据存储需求。
(二)数据处理模型Hadoop的数据处理模型基于MapReduce框架。
MapReduce 将大规模的计算任务分解为多个小的计算任务,并通过分布式的方式并行处理这些任务。
Map阶段负责数据的预处理和映射操作,Reduce阶段则负责数据的归约和汇总操作。
这种处理模型可以充分利用集群的计算能力,实现高效的海量数据处理。
四、Hadoop应用实践(一)日志数据分析在互联网行业中,日志数据量巨大且增长迅速。
通过Hadoop 的海量数据处理模型,可以实现对日志数据的快速存储和高效处理。
例如,通过对用户行为日志的分析,可以了解用户的兴趣偏好、消费习惯等信息,为企业的营销策略提供支持。
(二)图像处理图像处理是一个计算密集型的任务,需要大量的计算资源和存储空间。
通过Hadoop的分布式计算能力,可以实现对海量图像的快速处理和分析。
大数据处理中的并行计算与分布式存储研究随着数字化时代的到来,大数据已经渗透到各行各业,并成为企业决策和发展的关键因素。
然而,处理海量数据所带来的挑战也日益明显。
在传统计算机系统中,单个计算节点无法有效处理大规模数据,因此需要更高效、更可靠的技术来处理和存储大数据。
并行计算和分布式存储正是应运而生的解决方案。
并行计算是指同时使用多个计算节点来共同解决一个问题的计算模型。
在大数据处理中,通过将数据划分为较小的任务,并在多个计算节点上同时进行计算,可以显著提高计算效率。
而分布式存储则是将大规模数据存储在多个节点上,通过数据复制和分布式文件系统等技术,保证数据的可靠性和高可用性。
在大数据处理中,使用并行计算和分布式存储可以极大地提高数据的处理速度和存储能力。
首先,通过将任务分割为更小的分片,可以在短时间内完成复杂的计算。
其次,并行计算能够充分利用多个节点的处理能力,提高计算效率。
同时,分布式存储可以分散数据的存储负载,实现更高的数据处理吞吐量。
通过并行计算和分布式存储的结合,大数据处理可以更加高效和可靠。
在实践中,有许多并行计算和分布式存储的技术和工具可供选择。
其中最受欢迎的并行计算框架之一是Apache Hadoop。
Hadoop是一个开源的分布式计算框架,采用MapReduce模型来处理大规模数据。
它具有可扩展性和容错性,并且能够在大量的廉价硬件上运行。
另一个常用的工具是Apache Spark。
Spark是一个快速、通用的大数据处理引擎,支持并行计算和复杂数据处理。
相对于Hadoop,Spark的速度更快,并且提供更丰富的功能。
在分布式存储方面,Hadoop的Hadoop Distributed File System (HDFS)是一种常用的分布式文件系统。
它将大数据分割成较小的块,并分布存储在多个节点上。
每个数据块都会复制到多个节点,以实现高可用性和容错性。
除了HDFS,还有其他分布式存储系统可供选择,如Ceph和GlusterFS等。
大规模数据处理中的并行计算与分布式存储研究随着互联网的迅猛发展和各种智能设备的普及,数据的产生速度和规模呈现出爆炸式增长的趋势。
大规模数据处理成为当今信息社会不可或缺的重要环节。
对于迅速处理大规模数据的需求,研究人员正在致力于提升数据处理技术,其中并行计算与分布式存储成为当前研究的热点。
并行计算是指将一个大型任务分解成多个子任务,并在多台计算机上同时进行计算的技术。
并行计算的优势在于可以利用多个计算资源进行任务计算,从而缩短计算时间,提高处理效率。
研究人员通过并行计算技术可以将大规模的数据分成多块,分发到不同的计算节点上进行处理,最后将结果进行合并,从而实现高效的数据处理。
并行计算主要存在两种形式,一种是共享内存并行计算,另一种是分布式计算。
共享内存并行计算是指多个计算节点共享同一块内存,通过共享内存来实现通信与同步。
需要注意的是,共享内存并行计算需要处理各个计算节点之间的数据访问冲突,因此需要采取一定的同步机制来避免数据的不一致性。
分布式计算则是将任务分发到不同的计算节点上进行计算,并通过网络进行通信和同步。
由于分布式计算中各个计算节点之间的通信代价较大,所以在设计算法时需要考虑到通信开销的问题,从而提高计算效率。
分布式存储是指将数据存储在多台计算机上的技术,通过分布式存储可以实现大量数据的高效存储和访问。
传统的集中式存储方式在面对大规模数据处理时存在吞吐量不足和单点故障等问题。
分布式存储通过将数据进行分片和复制,将其存储在多个计算节点上,形成一个分布式的存储系统。
具体来说,分布式存储可以采用多种方式,如分布式文件系统、分布式键值存储、分布式数据库等。
这些不同类型的分布式存储系统根据应用场景的不同,提供了不同程度的可扩展性和容错能力。
在大规模数据处理中,分布式存储和并行计算是相互依存的。
分布式存储提供了高可靠性和高可扩展性的存储方案,使得大规模数据能够被有效地存储和管理。
而并行计算则结合了分布式存储的数据处理能力,利用多个计算节点并行计算,提高数据处理的效率和速度。
并行计算和分布式计算的优劣比较集群技术在计算机领域中发挥着重要的作用,而其中的两种技术并行计算和分布式计算也都是非常重要的。
它们有着各自的优劣,本文将对两者进行比较分析。
一、并行计算和分布式计算的定义首先,我们需要明确并行计算和分布式计算的定义。
并行计算是一种利用多台计算机进行高速计算的方法,它可以将任务分解成多个子任务,由多台计算机同时进行计算,最终将计算结果合并起来。
而分布式计算则是将一个大问题分解成多个小问题,由多个计算机同时计算,其计算结果最终再次合并成整体的计算结果。
二、并行计算和分布式计算的优点并行计算的优点在于它的计算效率非常高,可以利用多台计算机同时进行计算,解决大型科学计算或数据处理问题的能力强。
而分布式计算也有着同样的优点,其相比于单机计算,可以实现更高的效率,同时还可以实现任务的负载均衡,避免单台计算机的瓶颈。
三、并行计算和分布式计算的缺点与优点相对应的,两者的缺点也并不少。
首先,对于并行计算而言,它需要使用特殊的硬件,而且硬件的成本比较高,这在一定程度上限制了其在实际应用中的使用。
其次,对于任务的分解和结果的合并,需要进行相应的编程,编程难度较大且需要具备专业的技能。
分布式计算的缺点主要在于通信成本高、数据同步、数据一致性等问题,这都对其性能产生了影响。
同时,分布式计算需要一个管理节点来管理整个集群,这也是需要考虑的问题。
四、并行计算和分布式计算的适用场景那么,对于并行计算和分布式计算,它们的适用场景是什么呢?对于并行计算而言,它适用于需要高速运算的任务,比如图像压缩、大规模矩阵计算、天气预报等。
而对于分布式计算而言,它适用于数据集比较大并且需要分布式存储的任务,比如海量数据的搜索、人工智能应用等。
五、结论综上所述,计算机集群技术在计算机行业中极为重要。
并行计算和分布式计算是其中两个非常重要的技术,两者各有优缺点。
在选择集群技术时,应该根据任务的特性、硬件条件、人力技术水平等方面的需求进行权衡,选择适合自己的集群技术。
分布式存储技术的研究与探讨随着计算机技术不断发展,越来越多的数据被产生和存储在各种不同的设备中,这些设备的存储容量和可靠性都难以满足用户不断增长的需求。
为了解决这个问题,人们开始关注分布式存储技术。
本文将对分布式存储技术的研究和探索进行深入的探讨。
一、分布式存储技术的简介分布式存储技术是指将数据分布到多个存储设备中,以实现更高的吞吐量、更好的可扩展性和更高的效率。
它广泛应用于云计算、大数据和网络存储等领域。
分布式存储系统通常由多个节点组成,每个节点都有自己的存储空间和处理能力。
这些节点可以维护一个存储网络,并通过网络通信来对数据进行读写和管理。
由于数据分布在多个节点中,分布式存储系统具有更高的容错性和可靠性,即使某个节点发生故障,整个系统仍然可以继续工作。
二、分布式存储技术的核心问题分布式存储技术的发展面临着许多核心问题,其中最重要的问题是数据一致性。
由于数据存储在多个节点中,当一个节点更新数据时,需要确保其他节点也能够及时看到最新的数据。
在这个过程中,可能会出现数据冲突或者数据丢失的问题。
为了解决这个问题,分布式存储系统需要采取一些措施来提高数据一致性,比如使用分布式锁或者使用主从复制机制。
此外,分布式存储系统还需要解决数据安全和隐私保护的问题。
数据泄露和恶意攻击是常见的威胁,因此需要采取一些安全措施来保护数据的安全和隐私,比如使用加密技术和访问控制机制。
三、分布式存储技术的应用分布式存储技术广泛应用于云计算、大数据和网络存储等领域。
在云计算领域,分布式存储系统可以为云平台提供强大的数据存储和处理能力。
云存储服务商可以使用分布式存储技术将用户数据分布到多个数据中心中,提高数据可靠性和可用性,同时也能够提高数据访问速度。
在大数据领域,分布式存储技术可以帮助实现海量数据的存储和分析。
例如,MapReduce和Hadoop是基于分布式存储技术的大数据处理框架,它们可以将数据分布到多个节点上进行并行处理,大大提高了处理效率。
大数据存储与处理技术研究及应用实现在当前信息时代,数据产生和积累的速度越来越快,大数据存储与处理成为了一个巨大的挑战和机遇。
为了有效地管理和利用这些海量且复杂的数据,研究人员开发了各种大数据存储与处理技术,并将其应用于不同领域。
一、大数据存储技术的研究随着数据容量和速度的不断增长,传统的存储技术已经无法满足大数据时代的需求。
研究者们致力于开发新的大数据存储技术,以提供更高的性能和容量。
下面将介绍几种常见的大数据存储技术:1. 分布式文件系统:分布式文件系统是一种将大文件分割成小块并存储在多个物理节点上的技术。
这种技术能够提高文件的读写速度和可靠性,并能够方便地进行数据备份和恢复。
2. NoSQL数据库:NoSQL数据库是一种非关系型数据库,它适用于存储大量结构化和半结构化数据。
与传统关系型数据库相比,NoSQL数据库具有更高的可扩展性和性能,能够支持更复杂的查询和分析。
3. 冷热数据分离:冷热数据分离是一种根据数据的使用频率将数据分为热数据(经常被访问)和冷数据(很少被访问),并将热数据存储在更快的存储介质上的技术。
这种技术可以降低数据的存储成本,并提高对热数据的访问性能。
二、大数据处理技术的研究大数据处理是对海量数据进行分析和提取有价值信息的过程。
为了应对大数据处理的挑战,研究者们提出了许多高效的大数据处理技术。
以下是几种常见的大数据处理技术:1. 分布式计算框架:分布式计算框架将大数据划分为多个小数据,然后将这些小数据分布式地存储在不同的节点上进行处理。
这种技术能够充分利用集群的计算资源,提高数据处理的效率和并行度。
2. 流式处理:流式处理是一种将数据流实时处理的技术。
它以事件驱动的方式对数据进行连续性处理,实现了低延迟和高吞吐量的数据处理。
流式处理广泛应用于实时推荐、金融交易分析等领域。
3. 机器学习和深度学习:机器学习和深度学习是一种通过算法和模型自动分析和识别数据的技术。
这种技术可以帮助提取大数据中的关键信息和模式,并用于预测、推荐等应用。
大数据环境下的并行存储技术研究近年来,随着大数据时代的到来,其对于存储技术的需求也不断增加。
然而,传统的存储技术已经无法满足海量数据的存储和管理需求。
因此,人们开始尝试使用并行存储技术来解决这个问题。
并行存储技术是指将数据分散存储在多个物理存储设备中,通过并行读写的方式实现快速的存取速度。
这种技术的应用可以极大地提高数据存储的效率和性能。
在大数据环境下,为了能够应对海量数据的存储和管理需求,新一代的并行存储技术需要解决以下几个问题:一、高扩展性当数据规模不断增大时,必须能够方便地扩展存储系统的容量和性能。
因此,新一代的并行存储技术需要具备高扩展性。
为解决这个问题,人们将物理存储设备组成集群,使其能够同时访问存储设备中的所有数据,从而提高存储系统的扩展性。
二、高可靠性当存储的数据成为商业关键数据时,存储系统必须具备高可靠性,能够及时恢复故障或系统崩溃时的数据。
因此,新一代的并行存储技术需要具备高可靠性和容错能力。
为了解决并行存储系统中发生故障的问题,人们通过RAID (独立磁盘冗余阵列)技术实现数据备份和恢复功能。
RAID技术将数据复制到多个磁盘中,并自动更换损坏的磁盘,从而提高存储系统的可靠性和稳定性。
三、高性能在大数据环境下,存储系统需要具备高性能和快速的数据传输速度,以满足对海量数据的快速访问和处理。
为了提高数据传输速度,新一代的并行存储技术采用分布式文件系统(DFS)的方式,将数据分散在多个存储设备中,从而实现数据的并行存取和处理。
四、高可扩展性在大数据环境下,存储系统必须具备高可扩展性,能够方便快速的扩展系统的存储容量和性能,以满足数据增长的需求。
为了实现高可扩展性,新一代的并行存储技术采用多级存储结构,将存储设备分成多个级别,利用不同的存储技术来实现不同级别的存储。
总之,大数据时代对存储技术提出了更高的要求。
为了满足这些要求,新一代的并行存储技术应该具备高扩展性、高可靠性、高性能和高可扩展性等特点。
信息系统工程 │ 2019.2.20126INFORMATION TECHNOLOGY 信息化建设摘要:大数据带来的海量存储压力在不同场景下催生了不同的分布式存储技术,而现代存储技术正在向分布式、大规模集群化的方向发展。
论文介绍了传统的DAS、NAS和SAN存储架构,并指出各种架构的技术优势与不足。
论文提出了一种新的分布式并行集群存储架构,详细论述了新的分布式存储架构的技术优势;该项技术已用于实际生产中,并取得了令人满意的效果。
关键词:海量数据;分布式存储;存储架构;并行;集群一、 前言高性能存储是海量数据快速运算处理系统的保障。
在高速运算时,系统要保障在短时间内对海量数据进行快速读写,否则将形成致命的“读写瓶颈”问题;其次,海量数据在高速交换过程中,系统要保障海量数据的快速读写,否则同样会形成致命的“读写瓶颈”问题;再者,在大规模集群运算中,跨节点的读写与通讯也是常见的存储“瓶颈”问题之一[1-2]。
分布式集群存储系统所具有的高性能技术指标:大容量,达到PB(1000TB)级要求;数据读写速度快,满足大规模多用户同时访问,达到10GB/秒级或更高的读写速度;稳定性高,满足7×24小时(一周7天,每天24小时)的系统无故障需求;安全可靠性高,后台故障盘恢复速度快,达到20分钟/盘或更快;在线扩容,容量的扩展不影响数据使用;系统操作及管理简单化。
二、传统存储系统架构分析为了达到存储系统的高性能、高指标的要求,存储系统经过了几代产品的更替,其代表产品主要有DAS 架构、NAS 架构、SAN 架构等[3-5]。
(一) DAS 存储架构。
DAS(Direct Attached Storage)即直接附加存储,其存储方式与普通的PC 存储架构一样,外部存储设备都是直接挂接在服务器内部总线上,数据存储设备是整个服务器结构的一部分。
DAS 的存储方式主要适用于小型网络、地理位置分散的网络及特殊应用服务器等环境。
在一些特殊应用服务器上,如微软的集群服务器或某些数据库使用的原始分区,均要求存储设备直接连接到应用服务器上。
DAS 是一种低效率的结构,不方便数据保护。
直连存储无法共享,也就谈不上分配与使用需求之间的平衡。
DAS 结构下的数据保护流程相对复杂,如果做网络备份,那么每台服务器都必须单独进行备份,而且所有的数据流都要通过网络传输;如果不做网络备份,那么就要为每台服务器都配一套备份软件和磁带设备,备份的复杂度增加。
(二)NAS 存储架构。
NAS(Network Attached Storage)即网络附加存储,它全面改进了低效的DAS 存储方式。
采用独立于服务器,单独为网络数据存储而开发的一种文件服务器来连接存储设备,自身形成一个网络。
这样数据存储就不再海量数据的分布式并行集群存储技术研究与应用 张 俊 马迅飞 张进铎 李华松 向光阳◆ 是服务器的附属,而是独立网络节点,可由所有的网络用户共享(图1)。
NAS 采用一个专门用于存储的简化操作系统,通过NFS(Network File System)或CIFS(Common Internet File System)命令集访问数据,以文件为传输协议,通过TCP/IP 实现网络化存储,实现文件的跨平台共享。
NAS 的可扩展性好、价格便宜、用户易管理,如目前在集群计算中应用较多的NFS 文件系统。
但NAS 的协议开销高、带宽低、延迟大,不利于在高性能集群中应用。
图1 NAS 网络附加存储方式(三) SAN 存储架构。
SAN(Storage Area Network)即存储区域网络。
SAN 通过专用交换网络(一般是光纤交换网),将多个存储设备与多台主机连接在一起,任意一台主机通过该网络可访问其中任意一台存储设备。
SAN 具有高带宽、低延迟的优势。
但SAN 价格高、可扩展性差,不能实现跨平台的数据共享,不能满足越来越庞大的高性能集群系统的需求。
SAN 由三个部分组成:存储设备,包括磁带、磁盘等;光纤通道网络连接部件,包括主机总线适配卡、驱动程序、光缆、集线器、交换机、光纤通道和SCSI 间的桥接器;应用和管理软件,包括备份软件、存储资源管理软件和存储设备管理软件。
三、分布式并行集群存储 通过分布式操作系统实现集群存储,从硬件到软件都实现了并行化。
其存储架构(硬件)和文件系统(软件)都与传统的DAS、NAS 和SAN 存储架构不同。
整体结构犹如一列“动车组”,存储容量越大、其性能越强。
(一) 分布式并行文件系统。
其中分布式的含义为:文件、数据被切块分散存储到不同存储节点的每一块硬盘上。
信息系统工程 │ 2019.2.20127INFORMATION TECHNOLOGY 信息化建设并行的含义为:文件、数据的读写过程及运算是由多个节点并行完成的。
在写数据时,将数据切成多个小块,然后并行传输到多个存储机群节点的磁盘上;在读取数据时,从多块磁盘上同时读取数据不同部分,然后合成为一个数据,这样做的优势是显而易见的。
首先,突破了单块磁盘的物理读写速度,整个系统的读写速度是多块磁盘的聚合读写速度。
其次,系统使用的磁盘越多、存储性能越强,且容量越大性能越强(图2)。
图2 分布式集群存储系统示意图(二)分布式存储架构。
分布式存储的架构由三个部分组成:客户端(Client)、对象存储服务器(OST)及元数据服务器(MDS)。
三个组成部分除了各自的独特功能外,相互之间共享诸如锁、请求处理、消息传递等模块(图3)。
客户端(Client)通过标准的POSIX 接口向用户提供对文件系统的访问。
同OST 进行文件数据的交互,包括文件数据的读写、对象属性的改变等;同MDS 进行元数据的交互,包括目录管理、命名空间管理等。
对象智能存储服务器(OST)具有一定的智能,有自己的CPU、内存、网络和磁盘系统。
OST 提供数据存储、智能分布、数据管理等三个主要功能。
元数据服务器(MDS)负责向客户端提供文件系统的元数据,管理命名空间,维护目录结构、用户权限,维护数据一致性。
通过MDS 的文件和目录访问管理,客户端对文件和目录的创建、删除、修改等访问控制。
通过MDS 客户端得到数据所在的OST 位置,并与其建立连接,此后的读写操作就在客户端同OST 之间进行。
在多个客户端的情况下,由于有多个OST 存在,上述的工作模式就把对文件系统的访问转换为并行操作,提高系统性能。
可配置两个MDS 服务器,其中一个作为备份,两个服务器采用共享方式存放元数据;当某个MDS 出现故障后,备份服务器接管服务,保证系统的正常运行。
图3 并行集群存储技术的基本架构四、 分布式存储的技术优势(一)保障系统高度稳定。
分离数据和元数据技术,减少元数据操作(文件名的各类操作)与数据读写操作之间的互相干扰,大幅度提高系统的稳定性。
元数据与数据分离后,大量的、频繁的文件目录操作、树组织属性维护、文件操作、日志记录、授权访问等,都是在元数据服务上进行,而这些操作又都是小文件操作,其运行时间短、简单,可大幅度减少对数据服务器的操作与运行,在客观上维护了系统的稳定性。
(二)保障数据高度安全。
数据安全是存储的核心问题。
磁盘的损坏是客观的、必然发生的,但是,如何在不影响整个系统数据使用的条件下,尽快安全恢复故障盘的数据,是整个系统数据安全的核心[6-7]。
数据冗余与恢复不是对存储的数据进行备份及重新加载,而是把数据和相对应的奇偶校验信息存储到不同的各个磁盘上,当一个磁盘数据发生损坏后,可以利用剩下的数据和相应的奇偶校验信息去恢复被损坏的数据(图4)。
实现少量的冗余(如20%),而对整个数据(100%)进行备份。
数据的冗余与恢复过程为:将数据A 分为两部分,一半存储在A1上,一半存储在A2上;计算A1和A2每个位的“异或”结果,并存储在A3上;如果三块盘A1、A2、A3的任何一块盘损坏了,可以通过剩余的两块盘将其损坏的盘恢复出来,实现了50%的磁盘冗余,对100%的数据恢复,但需要运算成本。
系统内置自动故障探测机制,可动态探测故障。
一旦硬件发生故障,可快速启动自动数据恢复流程;在恢复过程中无须人员参与,系统完全自动进行;恢复时将数据生成在其它未发生故障的存储空间上。
与传统的RAID 相比,恢复无须加入新硬盘,因此,对硬盘的检查工作要求降低;恢复工作在后台完成,极大降低对应用服务器的影响;数据恢复速度快,恢复一块盘所花费的时间仅为20分钟。
图4 存储过程中的数据冗余与恢复技术(三)在线扩展与智能平衡。
存储的需求区别于常规耗材的需求,以前用过的磁盘存有数据不能随意更换,还要满足如下要求:与后续增加的存储一起继续使用;在存储扩容时,不能停机,即“在线扩展”;平衡使用各个磁盘,避免“热岛”效应。
解决方案为:完全在线扩展,按需增加存储容量和访问带宽,有效降低初期投入成本;智能平衡,支持存储容量在线扩展,动态添加硬盘、动态添加存储服务器,存储即插即用,扩展效率约 100TB/h,不影响应用的数据访问,帮助用户节信息系统工程 │ 2019.2.20128INFORMATION TECHNOLOGY 信息化建设图3系统流程图三、结语针对共享单车乱停乱放、私藏私占、故意损坏等现象,设计无桩定点停车系统[8-9]。
本文运用单片机、射频读卡器及SIM900A构建停车点定位模块,当装有射频标签的共享单车靠近停车点时,定位模块能自动准确识别车辆是否进入划定的停车区间并将车辆标签和位置信息发给管理系统;用户锁车还车时通过用户APP 将单车标签信息也发给管理系统;若APP 发送的标签在管理系统中查 则不能还车,并重开锁。
实验结果表明,此设计的系统运行稳定,能有效识别共享单车是否停在划定的停车区间内,从而从技术上解决了规范了共享单车的停放。
该技术只是为共享单车的停放提供技术上的解决手段,同时因为采用的无桩模式,能够有效地节约减少用地,节约土地资源,为节约型社会的打造奠定良好的基础。
但是需要注意的是,我们不仅仅是需要依靠技术的手段来改善乱停乱放共享单车的情况,还需要积极地开展宣传教育,提高人民群众的道德素质水平,以此为基础再结合技术手段,相信可以为我们提供一个整洁的城市。
H参考文献[1] 来清民. 射频识别(RFID)与单片机接口应用实例[J].2016,9. [2] 韩晶. 基于RFID 标签的定位原理和技术[J].2011,6.[3] 孟庆斌,韩杰,等. 基于RSSI 测距修正的有源RFID 室内定位系统[J].南开大学学报(自然科学版), vol46(2),2013:37-42.[4] 金卫民,神显豪. 基于RSSI 的室外无线传感网络自定位算法[J].计算机工程,vol34(13),2008,89-9[5]杨子越.基于RFID的共享单车质量管理系统[J].智富时代,2018(07):33. [6] 毛方强, 方勇. 基于RFID 的共享单车精准定位停放系统[J]. 物联网技术,2018,8(03):93-94.[7] 彭秀萍, 黎忠文. 共享单车背后的物联网技术解析[J]. 信息与电脑( 理论版),2017(18):151-153.[8] 高铭阳. 单片机的原理及接口技术[J]. 电子技术与软件工程,2017(04):257.[9] 杨启帆, 赵腊才. 基于AVR 单片机的SPI 接口设计与实现[J]. 电脑知识与技术,2016,12(27):238-240.(基金项目:大学生创新创业训练;项目号:201710066013)(作者单位:天津职业技术师范大学汽车与交通学院) (上接第125页)省投资规模;完全在线更换设备,可实现在线智能老系统升级,通过数据恢复以及负载均衡功能,可实现在线更换存储系统中所有老旧设备,实现“不腾空就能搬家”的存储功能。