海量空间数据的分布式存储管理及并行处理技术分析_田昶
- 格式:pdf
- 大小:217.63 KB
- 文档页数:1
分布式海量空间数据存储结构研究
刘小春
【期刊名称】《地矿测绘》
【年(卷),期】2014(030)001
【摘要】目前在分布式海量存储中越来越多的使用键/值存储模型,为此比较了Google Earth键/值存储模型和对象关系数据库存储模型.对象关系数据库以其使用简单,容易共享等特性,在许多实际应用中还有其独特的优势,由于键/值存储模型在可伸缩性等方面的优势,在分布式海量数据存储中应用越来越广泛.
【总页数】4页(P16-18,22)
【作者】刘小春
【作者单位】信息工程大学,河南郑州450052
【正文语种】中文
【中图分类】TP333;P208
【相关文献】
1.海量地质资料数据存储组织结构研究 [J], 孔昭煜;齐钒宇;贾丽琼
2.一种适合电力行业海量异构数据存储的全分布式文件 [J], 汪同;叶有名
3.基于分布式系统的海量数据存储技术 [J], 秦东霞;周航
4.索尼举办新一代海量光盘数据存储系统及4K肩扛摄录一体机交接仪式哈尔滨广播电视台成为索尼新一代海量光盘数据存储系统在中国的首家用户 [J],
5.分布式VR-GIS海量三维空间数据存储调度模型研究 [J], 江媛媛;周圣川;韩勇;马纯永
因版权原因,仅展示原文概要,查看原文内容请购买。
210 •电子技术与软件工程 Electronic Technology & Software Engineering数据库技术・ Data Base Technique【关键词】空间数据 分布式存储 并行处理1 海量空间数据的分布式存储管理MongoDB 非关系数据库在海量数据的存储上具有以下优势:支持地理索引、支持海量数据分片、可在各种平台上对海量数据进行存储。
鉴于此,下面以该数据库为基础,对海量空间数据的分布式存储管理进行论述。
1.1 MongoDB的特点与集群大体上可将MongoDB 数据的特点归纳为以下几个方面:使用简单、便于部署、模式自由、支持Copy 及故障恢复,可对数据进行高效存储。
MongoDB 集群的具体工作原理如下:当用户想在MongoDB 中导入相关数据时,MongoDB 集群能够对单个分片上的数据是否超过预设值进行判断,若是超出存储限值,便会自行启动分片机制,对集合进行分块,然后分别派送至不同的分片上。
在这一过程中,集群各分片上的MetaDate 信息存储全都存储在Con fi g Server 服务器上。
对于用户而言,其并不清楚MongoDB 导入的数据被分配至哪个节点上,这是因为在集群中主要是借助mongos 路由进行的,但利用Sharding 管理命令便可看到数据的存放位置。
1.2 矢量与栅格数据的存储1.2.1 矢量数据存储矢量数据常被用于表示空间数据的存储结构。
相关研究结果表明,通过对地理实体坐标进行记录的方式能够精确地表示点、线、面等实体的空间位置,在这一前提下,可对矢量数据的点、线、面进行如下描述:点由一对X 、Y 坐标表示;线由一串排列有序的X 、Y 坐标对表示;面由一串或是几串排列有序且首尾坐标相同的X 、Y 坐标对及面积标识表示。
矢量数据中的数据具体包括以下内容:与空间位置相对应的属性信息、可实现快速查询的索引信息以及空间实体的拓扑信息,按照MongoDB海量空间数据的分布式存储管理及并行处理技术分析文/田昶的存储方式,对矢量数据的存储如图1所示。
专利名称:一种非结构化数据的海量存储方法及存储系统专利类型:发明专利
发明人:陈书平,于长琦,王绪繁,陶俭,陈竞翔,姜志山,王灿,王玉宝
申请号:CN201911257354.3
申请日:20191210
公开号:CN111190992A
公开日:
20200522
专利内容由知识产权出版社提供
摘要:本发明实施例公开了一种非结构化数据的海量存储方法及存储系统,包括如下步骤:将云存储空间划分为若干个用于存储不同文件类型的分布式存储模块;利用空间模拟法将分布式存储模块划分为若干个子存储集群,设定数据流在子存储集群和网格存储位置中的存储方式;在相邻两个子存储集群之间设置虚拟通道,架设前端数据源头与子存储集群之间匹配对应的传输通信链路;将若干个相邻子存储集群组成一个存储实现单元,利用同一个存储实现单元的虚拟通道实现快速存储;采用增设存储单元之间的虚拟通道将多个待存储单元作为入库缓冲池,提升了数据库的数据有效存储率,同时监控每个子存储集群顺次完全利用。
申请人:华能集团技术创新中心有限公司,华能信息技术有限公司
地址:100031 北京市西城区复兴门内大街6号华能大厦
国籍:CN
代理机构:北京和信华成知识产权代理事务所(普通合伙)
代理人:席卷
更多信息请下载全文后查看。
专利名称:一种基于分布式文件系统的海量地学数据并行处理方法
专利类型:发明专利
发明人:黎建辉,沈庚,周园春,王学志,韦远科,张洋
申请号:CN201310076895.2
申请日:20130311
公开号:CN103198097A
公开日:
20130710
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于分布式文件系统的海量地学数据并行处理方法。
本方法为:1)采用分布式文件系统作为地学数据的存储系统,部署在计算集群上;分布式文件系统拥有统一的名称空间;2)计算集群的作业调度系统将接收的计算作业保存到一等待队列中;3)调度系统从等待队列中选择一个计算作业进入运行队列;4)调度系统根据计算作业信息在分布式文件系统的元数据中查找该计算作业运行需要的数据文件所在的计算节点;5)作业调度系统挑选一持有该计算作业运行需要的数据最多的计算节点;该计算节点远程获取该计算作业需要但该计算节点未持有的数据文件,然后在该计算节点执行该计算作业,并返回执行结果。
本方法最大程度的做到了计算本地化。
申请人:中国科学院计算机网络信息中心
地址:100190 北京市海淀区中关村南四街4号
国籍:CN
代理机构:北京君尚知识产权代理事务所(普通合伙)
代理人:余长江
更多信息请下载全文后查看。
超级计算机并行处理技术研究及应用概念演示随着科技的不断发展,超级计算机的性能也不断提高。
超级计算机已经成为了科学研究和工业生产等领域的重要工具,其应用范围已经覆盖了许多领域。
超级计算机的并行处理技术是指将一个复杂的计算问题分成多个简单的部分,然后利用多个处理器同时进行处理的一种计算方式。
与串行计算相比,超级计算机的并行处理技术能够大幅提高计算速度,因此在处理需要大量计算的任务时,超级计算机是一种非常有效的工具。
超级计算机的并行处理技术分为共享内存并行和分布式内存并行两种方式。
共享内存并行是指在多个处理器之间共享同一片内存,这些处理器能够并行访问同一份数据。
分布式内存并行则是将问题分解成多个子问题,每个处理器负责处理其中的一个子问题,它们之间通过网络进行通信。
在超级计算机的应用中,这两种并行处理技术都有着不同的用途。
例如,在金融领域,高频交易需要高效的数据处理和决策,因此共享内存并行技术是非常适合的。
而在天气预报的模拟研究中,分布式内存并行技术就更为重要了。
除了并行处理技术外,超级计算机还有着其他的技术,例如高速缓存、向量计算等。
高速缓存是指在超级计算机的处理器和内存之间加入一块快速缓存,在处理器需要读写内存时,优先访问缓存,从而提高计算速度。
向量计算技术则是利用一些专门的硬件来实现矩阵和向量的计算,因为这是超级计算机中很常见的一种计算方式。
值得注意的是,超级计算机在应用过程中需要注意一些问题。
首先,在并行计算时需要避免数据竞争,避免多个处理器同时访问同一份数据。
其次,在分布式内存并行计算时,需要考虑如何划分问题和如何进行通信。
最后,在超级计算机中需要考虑如何优化算法和数据结构,使得计算速度更快。
总体而言,超级计算机的并行处理技术是科学研究和工业生产等领域中的重要工具,能够大幅提升计算速度和效率。
对于超级计算机的应用来说,需要注意一些问题,使得计算结果更加准确和可靠。
I G I T C W产业 观察Industry Observation172DIGITCW2023.101 分布式数据库概述分布式数据库的特点主要包括以下几点。
(1)透明性:分布式数据库的透明性包括分片透明、复制透明、位置透明和逻辑透明等,其中分片透明是透明性的最高层次,逻辑透明层次最低。
具体来说,透明性是指用户在使用过程中,不必关心数据在数据库管理系统内部是如何分片的,不必知道数据都分别存放在哪个节点以及各个网络节点是怎样完成数据复制的,用户只需在使用时完成自己的相关操作即可。
(2)高可靠性:分布式数据库会对数据采取多次备份存储形成多副本来提高数据的可靠性。
当某个节点出现故障时,其他节点可快速替代故障节点继续工作,避免出现数据丢失现象。
(3)易扩展性:当数据库现有容量和性能告急时,分布式数据库可采取添加新节点和服务器的方法来实现扩展,相比于集中式数据库的难扩展性可以更好地满足用户不断增长的需求。
如图1所示。
2 分布式数据库的发展历程21世纪以前,关系型商业数据库可以满足大部分用户应用场景,但随着互联网应用的到来,数据呈现大容量、多样性、流动性等特点,采取集中式架构的传分布式数据库发展综述苏彦志,陈 广,蒋越维(中国移动通信集团河北有限公司,河北 石家庄 050000)摘要:分布式数据库作为信息时代重要的数据管理工具,为处理分布式事务、海量数据存储、高并发任务发挥着重要的作用。
文章介绍了分布式数据库发展历程、国内外发展现状、发展面临的问题以及未来发展前景和展望。
关键词:分布式数据库;发展现状;发展前景doi:10.3969/J.ISSN.1672-7274.2023.10.056中图分类号:TP 311.13 文献标志码:A 文章编码:1672-7274(2023)10-0172-03Overview of the Development of Distributed DatabaseSU Yanzhi, CHEN Guang, JIANG Yuewei(China Mobile Group Hebei Co., Ltd., Shijiazhuang 050000, China)Abstract: As an important data management tool in the information age, distributed data plays an important role in processing Distributed transaction, massive data storage, and high concurrency tasks. This article introduces the development history of distributed databases, the current development status at home and abroad, the problems faced in development, and the future development prospects and prospects.Key words: distributed database; development status; development prospects作者简介:苏彦志(1982-),男,汉族,河北石家庄人,本科,研究方向为大型IT 基础设施发展与演进。
大数据环境下的并行存储技术研究近年来,随着大数据时代的到来,其对于存储技术的需求也不断增加。
然而,传统的存储技术已经无法满足海量数据的存储和管理需求。
因此,人们开始尝试使用并行存储技术来解决这个问题。
并行存储技术是指将数据分散存储在多个物理存储设备中,通过并行读写的方式实现快速的存取速度。
这种技术的应用可以极大地提高数据存储的效率和性能。
在大数据环境下,为了能够应对海量数据的存储和管理需求,新一代的并行存储技术需要解决以下几个问题:一、高扩展性当数据规模不断增大时,必须能够方便地扩展存储系统的容量和性能。
因此,新一代的并行存储技术需要具备高扩展性。
为解决这个问题,人们将物理存储设备组成集群,使其能够同时访问存储设备中的所有数据,从而提高存储系统的扩展性。
二、高可靠性当存储的数据成为商业关键数据时,存储系统必须具备高可靠性,能够及时恢复故障或系统崩溃时的数据。
因此,新一代的并行存储技术需要具备高可靠性和容错能力。
为了解决并行存储系统中发生故障的问题,人们通过RAID (独立磁盘冗余阵列)技术实现数据备份和恢复功能。
RAID技术将数据复制到多个磁盘中,并自动更换损坏的磁盘,从而提高存储系统的可靠性和稳定性。
三、高性能在大数据环境下,存储系统需要具备高性能和快速的数据传输速度,以满足对海量数据的快速访问和处理。
为了提高数据传输速度,新一代的并行存储技术采用分布式文件系统(DFS)的方式,将数据分散在多个存储设备中,从而实现数据的并行存取和处理。
四、高可扩展性在大数据环境下,存储系统必须具备高可扩展性,能够方便快速的扩展系统的存储容量和性能,以满足数据增长的需求。
为了实现高可扩展性,新一代的并行存储技术采用多级存储结构,将存储设备分成多个级别,利用不同的存储技术来实现不同级别的存储。
总之,大数据时代对存储技术提出了更高的要求。
为了满足这些要求,新一代的并行存储技术应该具备高扩展性、高可靠性、高性能和高可扩展性等特点。
超级计算技术中的数据处理与存储方法超级计算技术在当前信息时代的发展中扮演着重要角色,它具有处理大规模数据和复杂计算任务的强大能力。
而在超级计算技术中,数据处理与存储方法是关键的环节,它们直接影响到计算效率和数据可靠性。
本文将介绍一些在超级计算技术中常用的数据处理与存储方法,包括分布式文件系统、并行数据处理和存储器级层次结构等。
首先,分布式文件系统是一种在超级计算机集群中广泛使用的数据存储方法。
它将文件划分为多个分块,并将这些分块存储在不同的计算节点上。
采用分布式文件系统可以极大地增加存储容量和提高访问速度。
同时,通过使用冗余数据备份和故障恢复机制,分布式文件系统可以提供高度可靠的数据存储。
其次,超级计算技术中的并行数据处理方法也是非常重要的。
并行数据处理通过将数据划分为多个子任务,并在不同的计算节点上同时进行处理,以实现更高效的计算。
例如,MapReduce就是一种在超级计算技术中常用的并行数据处理框架。
它将大规模的数据集划分为多个小块,然后在分布式计算节点上进行并行处理,最后将结果进行合并。
采用并行数据处理方法可以充分利用计算资源,提高计算效率。
此外,超级计算技术中的存储器级层次结构也是一种常用的数据存储方法。
存储器级层次结构根据数据访问频率和延迟要求,将存储器划分为多个层次,并在不同层次之间进行数据迁移。
通常,高速缓存作为存储器级层次结构的最顶层,用于存储频繁访问的数据;而较低层次的存储介质如内存和磁盘则用于存储稀疏访问的数据。
采用存储器级层次结构可以在保证访问速度的同时,节省成本和能耗。
除了上述介绍的方法,超级计算技术还涉及到许多其他的数据处理与存储方法。
例如,数据压缩技术可以减小存储空间的占用,降低数据传输的开销;数据流水线技术可以实现数据的并行处理,提高计算速度;数据备份和恢复技术可以保障数据的可靠性和可用性。
总之,超级计算技术中的数据处理与存储方法是实现高性能计算和大规模数据处理的关键。
海量点云数据分布式并行处理技术综述
宇超群;门葆红;王鑫
【期刊名称】《信息工程大学学报》
【年(卷),期】2018(019)005
【摘要】随着三维激光扫描技术的迅猛发展,测量过程中产生的点云数据量大幅增长,海量点云数据的高效处理遇到困难.针对海量点云数据的处理效率有待提高的问题,从大数据处理技术的角度,对近年点云处理领域出现的新技术进行探讨.首先分析点云数据的大数据特征;其次在分布式存储、并行计算技术层面,分析海量点云数据的研究现状,总结研究中达到的效果以及遇到的技术瓶颈;最后结合大数据技术以及点云数据处理的特点,对大数据背景下海量点云数据的处理提出展望,为海量点云数据的高效处理提供参考.
【总页数】5页(P611-615)
【作者】宇超群;门葆红;王鑫
【作者单位】信息工程大学,河南郑州450001;信息工程大学,河南郑州450001;信息工程大学,河南郑州450001
【正文语种】中文
【中图分类】P237
【相关文献】
1.面向矢量瓦片的海量空间数据并行处理技术 [J], 李瀚;胡明晓;龚志红;樊竝君
2.海量空间数据的分布式存储管理及并行处理技术分析 [J], 田昶;
3.海量空间数据的分布式存储管理及并行处理技术分析 [J], 罗金满
4.基于NoSQL的机载LiDAR海量点云数据分布式存储 [J], 宇超群;邓勇;王天鹏
5.一种基于分布式并行模型的海量机载LiDAR点云数据快速滤波方法 [J], 宇超群;邓勇;张静
因版权原因,仅展示原文概要,查看原文内容请购买。
《大数据处理技术基础与应用》读书笔记目录一、大数据处理技术概述 (2)1.1 大数据定义与特点 (3)1.2 大数据处理技术重要性 (4)二、大数据处理架构 (5)2.1 分布式计算框架 (6)2.2 数据存储与管理 (8)2.3 数据处理与分析流程 (10)三、大数据处理关键技术 (10)3.1 数据存储技术 (12)3.2 数据处理技术 (13)3.3 数据分析技术 (15)3.3.1 统计学方法 (16)3.3.2 机器学习算法 (17)四、大数据应用场景 (18)4.1 互联网行业 (19)4.2 金融行业 (20)4.3 医疗行业 (22)五、大数据处理技术的发展趋势 (23)5.1 技术创新 (25)5.2 行业应用拓展 (26)六、大数据处理技术的挑战与未来 (27)6.1 技术挑战 (28)6.2 人才培养与挑战 (29)七、总结与展望 (30)7.1 本书内容总结 (32)7.2 对未来大数据处理技术的展望 (33)一、大数据处理技术概述随着信息技术的飞速发展,大数据已经渗透到各行各业,成为现代社会不可或缺的重要资源。
大数据处理技术作为应对海量数据挑战的核心技术,其重要性日益凸显。
在阅读《大数据处理技术基础与应用》我对大数据处理技术有了更深入的了解。
大数据处理技术概述部分,主要介绍了大数据的基本概念、特征以及处理技术的演进和发展趋势。
大数据概念:大数据是指在传统数据处理软件难以处理的庞大、复杂的数据集。
这些数据集规模巨大,处理和分析难度大,但对数据的挖掘和利用具有极高的价值。
大数据特征:大数据的四大特征为数据量大、类型多样、处理速度快和价值密度低。
随着物联网、社交媒体、云计算和移动设备的普及,大数据的类型和规模不断扩展,处理速度要求也越来越高。
大数据处理技术演进:大数据处理技术的演进经历了批处理、流处理、图处理等多个阶段。
随着技术的发展,大数据处理正在向实时、在线、智能的方向发展。
高性能计算中的大数据时空处理技术的优化方法随着大数据时代的到来,高性能计算(High Performance Computing,HPC)已成为处理大规模数据和高度复杂计算的关键技术。
然而,对于大数据时空处理来说,效率的提高始终是一个挑战。
因此,优化这些方法对于提高大数据时空处理的效率至关重要。
本文将介绍高性能计算中的大数据时空处理技术以及一些优化方法。
首先,我们需要了解大数据时空处理的基本概念。
大数据时空处理是指对大规模的空间和时间数据进行分析、处理和挖掘的技术。
在高性能计算中,大数据时空处理涉及到对海量数据进行存储、计算和分析。
这些数据具有复杂的时空特征,包括不同的时间段、空间位置和各种属性。
为了优化大数据时空处理的效率,可以采用以下方法:1. 数据预处理:在进行大规模数据分析之前,对数据进行预处理是非常重要的。
预处理包括数据清洗、去噪、归一化等步骤,可以减少数据的冗余和噪声,提高数据的质量。
此外,可以针对不同的分析任务设计合适的数据预处理方法,例如,对于时间序列数据,可以使用平滑算法来平滑数据。
2. 数据分区和分布式存储:对大规模数据进行划分和分散存储是优化大数据时空处理的重要手段。
数据分区可以根据数据的特点和处理任务的需求,将数据划分到不同的存储节点上,实现对数据的并行处理。
此外,采用分布式存储可以提高数据的访问速度和可扩展性。
3. 并行计算和算法优化:在大数据时空处理中,采用并行计算可以大幅提高计算效率。
并行计算包括数据并行和任务并行两种方式。
数据并行是指将数据划分成多个子任务并行处理,而任务并行是指将任务拆分为多个互不依赖的子任务分别进行处理。
此外,为了进一步提高计算效率,可以结合算法优化方法,例如,采用高效的迭代算法、并行算法等。
4. 数据压缩和索引技术:对于大数据时空处理中的海量数据,采用数据压缩和索引技术可以减少数据的存储空间和提高数据的访问速度。
数据压缩可以通过减少数据的冗余和编码来实现,例如,使用压缩算法对数据进行压缩。
移动天文台观测数据的分布式存储与共享技术移动天文台是一种集天文观测、数据采集和数据处理于一身的专业设备,它能够让天文学家在地球的各个角落进行天文观测。
然而,这类设备产生的观测数据量庞大,如何进行高效的存储和共享是一个重要的挑战。
本文将探讨移动天文台观测数据的分布式存储与共享技术。
首先,我们需要了解什么是分布式存储与共享技术。
简单来说,分布式存储是指将数据分散存储在多个节点上,而不是集中存储在单一设备上的技术。
这样一来,不仅可以提高数据的可靠性和安全性,还可以提高数据的存取速度。
共享技术则是指多个用户可以同时访问和操作同一份数据的技术。
通过分布式存储与共享技术,移动天文台观测数据可以在多个地点之间实现高效的共享与传输。
在移动天文台观测数据的分布式存储与共享中,首先需要解决的问题是数据的传输和同步。
由于数据量庞大,普通的网络传输速度无法满足需求。
因此,可以采用并行传输技术,将观测数据分割成多个小块,并通过多个节点进行同时传输,从而大大提高传输速度。
此外,还可以利用现有的高速网络或者激光通信等技术,进一步提升数据的传输效率。
其次,数据的存储也是一个重要的问题。
由于观测数据量大,单一设备无法满足存储需求。
因此,可以采用分布式存储技术,将观测数据分散存储在多个节点上。
为了提高数据的可靠性,可以采用冗余存储技术,即将相同的数据存储在多个节点上,以防止节点故障导致数据丢失。
同时,还可以采用数据压缩技术,减小存储空间的占用量。
除了传输和存储,数据的共享也是一个关键问题。
移动天文台的观测数据可供多个天文学家进行科学研究。
因此,必须确保数据可以方便地共享和访问。
一个常用的方法是建立一个数据中心,将所有观测数据集中存储在该中心,并提供统一的访问接口。
同时,还可以采用权限控制机制,确保只有具备相应权限的用户才能访问和操作数据。
此外,为了提高数据的分析效率,可以引入分布式计算技术,将数据和计算任务分散到多个节点上进行并行计算。
面向高效能力计算的分布式存储系统研究近几年来,随着互联网的发展和大数据的兴起,高效能力计算已逐渐成为了当今世界科技发展的关键。
人们需要快速的获取和分析大规模数据,以便做出更准确的决策。
然而,这一需求也给分布式存储系统带来了更高的要求。
在这篇文章中,我们将探讨面向高效能力计算的分布式存储系统的研究现状及未来方向。
一、现有技术在当前的分布式存储系统中,Distributed File System (DFS)和Hadoop Distributed File System (HDFS)是两种出色的解决方案。
这两种技术都能够处理大规模的数据,并且支持高吞吐量、高并发等特点。
DFS的优点在于它的数据处理速度非常快,且容错性非常强,可以处理海量的文件,常见的DFS有GlusterFS和Ceph。
而HDFS的优点在于它的查询性能相对较好,可以定位到非常细致的文件,并且可以支持数据的随机读写,这是DFS无法做到的。
二、研究方向针对目前存在的问题,我们也应该进一步研究优化分布式存储系统。
目前的研究方向主要有以下几个方面:1. 数据管理数据管理是分布式存储系统中最关键的一环。
大规模数据的存储和管理如何更好地实现,仍然是一个重要的问题。
近年来,出现了一些新的数据存储方式,如键值(key-value)存储、列存储和文档存储等。
这些新的数据管理方式在特定条件下比传统的数据存储方式更加高效。
2. 存储对等网络存储对等网络是实现分布式存储的核心技术之一。
通过实现高效的存储对等网络,可以更好地实现访问数据的高效性和容错性。
近年来,存储对等网络技术也得到了深入研究,如Chord、Pastry、Kademlia等。
3. 数据安全与隐私保护数据安全和隐私保护问题一直是分布式存储系统的难点。
为了保证数据的安全性和隐私性,需要进行加密保护。
近年来,出现了一种新的运算模式--同态加密,可以在保证数据安全和隐私性的基础上,实现数据的加密和计算。
基于网络的分布式海量存储
吕琦;陈启美
【期刊名称】《中兴通讯技术》
【年(卷),期】2002(000)0z1
【摘要】面对宽带数据的急剧增长,海量存储将成为限制发展的"瓶颈".文章提出基于网络的分布式海量存储及运算方案.该方案通过网络各服务器间的协同工作,利用特征码避免相同资源的冗余存储,加入纠错码以进行差错重建,利用进程迁移平衡负载,采用超流水线执行技术加速程序运行速度,最终实现网络信息资源及存储资源的共享.
【总页数】4页(P50-53)
【作者】吕琦;陈启美
【作者单位】南京大学计算机科学与技术系;南京大学通信技术研究所
【正文语种】中文
【中图分类】TN915.01
【相关文献】
1.基于网络的分布式海量存储 [J], 吕琦;陈启美
2.基于Web的海量存储柔性分布式文件服务器设计 [J], 周志华;何萍;尹建伟;陈刚
3.一种基于网络磁盘阵列的高性能海量存储系统 [J], 李洁琼;冯丹
4.基于海量存储网络系统的管理软件的设计与实现 [J], 王恒;舒继武;温冬婵;郑纬民
5.基于海量存储云调度机制的云网络数据存储算法 [J], 钱伟强
因版权原因,仅展示原文概要,查看原文内容请购买。
海量数据存储关键技术浅析
蒋然
【期刊名称】《电脑知识与技术》
【年(卷),期】2010(006)020
【摘要】海量数据的大量出现,使存储技术正发生革命性的变化.针对海量数据存储环境,对网络附加存储(NAS)及存储区域网络fSAN)进行了分析,研究了面向对象存储技术.并且对海量数据存储的数据库策略进行了阐述,包括Oracle数据库的表分区技术的策略、特性及应用:Oracle数据库并行处理结构及特性.
【总页数】3页(P5403-5405)
【作者】蒋然
【作者单位】扬州环境资源职业技术学院,江苏,扬州,225127
【正文语种】中文
【中图分类】TP311
【相关文献】
1.刍议海量数据存储系统的高可靠性关键技术研究与应用 [J], 刘磊
2.涡轮基组合循环发动机的发展现状及关键技术浅析 [J], 王欣欣;张苏佳
3.城市轨道交通信号系统互联互通工程应用关键技术浅析 [J], 赵青
4.设施西瓜和水蕹菜水旱轮作关键技术浅析 [J], 桂畅畅;韩玉燕;刘权;刘紫媛;程立宝
5.大麻二酚提取工艺及其工业化关键技术浅析 [J], 陈旻;黄亮
因版权原因,仅展示原文概要,查看原文内容请购买。
210 •电子技术与软件工程 Electronic Technology & Software Engineering
数据库技术
・ Data Base Technique
【关键词】空间数据 分布式存储 并行处理
1 海量空间数据的分布式存储管理
MongoDB 非关系数据库在海量数据的存储上具有以下优势:支持地理索引、支持海量数据分片、可在各种平台上对海量数据进行存储。
鉴于此,下面以该数据库为基础,对海量空间数据的分布式存储管理进行论述。
1.1 MongoDB的特点与集群
大体上可将MongoDB 数据的特点归纳为以下几个方面:使用简单、便于部署、模式自由、支持Copy 及故障恢复,可对数据进行高效存储。
MongoDB 集群的具体工作原理如下:当用户想在MongoDB 中导入相关数据时,MongoDB 集群能够对单个分片上的数据是否超过预设值进行判断,若是超出存储限值,便会自行启动分片机制,对集合进行分块,然后分别派送至不同的分片上。
在这一过程中,集群各分片上的MetaDate 信息存储全都存储在Con fi g Server 服务器上。
对于用户而言,其并不清楚MongoDB 导入的数据被分配至哪个节点上,这是因为在集群中主要是借助mongos 路由进行的,但利用Sharding 管理命令便可看到数据的存放位置。
1.2 矢量与栅格数据的存储
1.2.1 矢量数据存储
矢量数据常被用于表示空间数据的存储结构。
相关研究结果表明,通过对地理实体坐标进行记录的方式能够精确地表示点、线、面等实体的空间位置,在这一前提下,可对矢量数据的点、线、面进行如下描述:点由一对X 、Y 坐标表示;线由一串排列有序的X 、Y 坐标对表示;面由一串或是几串排列有序且首尾坐标相同的X 、Y 坐标对及面积标识表示。
矢量数据中的数据具体包括以下内容:与空间位置相对应的属性信息、可实现快速查询的索引信息以及空间实体的拓扑信息,按照MongoDB
海量空间数据的分布式存储管理及并行处理技术分析
文/田昶
的存储方式,对矢量数据的存储如图1所示。
图1:MongoDB 中矢量数据的存储模式1.2.2 栅格数据存储
栅格数据归属于阵列数据的范畴,其一般都是按照网格单元的行与列进行排列的。
在此类数据当中,地表被分割成为排列规则且相互邻接的矩形方块,各个地块与单元相对应,其数据结构的点、线、面可分别进行如下表示:点实体由单个栅格像元表示;线实体由同向上连接成串的相邻栅格像元表示;面实体由某个区域内聚集在一起的相邻像元集合表示。
就栅格数据而言,其精度的高低主要与栅格单元的大小有关,单元越细数据的精度就越高,由于栅格单元当中记录的均为属性数据,而位置数据可通过属性数据对应的行列号表示转化为相应的坐标,故此可先对栅格数据进行分块,每个块都包括一组像素点,为了获得最佳的性能,可将单个块中所有像素点全部存储到同一行当中,即以块为存储单位存储至MongoDB 的行中。
2 海量空间数据并行处理过程的实现
2.1 Hadoop及MapReduce并行编程模型
Hadoop 既是一个软件框架,也是一个分
布式的计算平台,其可对大量的数据进行分布式处理。
在Hadoop 上,用户能够对轻松地对海量数据进行开发和处理。
由于Hadoop 应用了MapReduce 及分布式的文件系统,从而使其具备了较高的容错性,可自行对失败节点进行处理。
大体上可将Hadoop 的优点归纳为以下几个方面:可靠性高、扩展性强、高效、高容错、低成本等等。
在大规模的数据处理中,MapReduce 是应用较为广泛的一种解决方案。
通常情况下,可在普通的PC 机上构建MapReduce 集群,在对数据进行处理前,需要先分割数据,并将数据集分布至各个节点当中;处理数据的过程中,各节点能够就近对本地存储的数据处理(Map )进行读取,并将处理完毕的数据重新整理排序,再对排序结果进行合并分发至Reduce 进行处理。
2.2 海量空间数据并行处理的设计与实现
2.2.1 框架体系
可基于HM 的框架体系实现海量空间数据的并行处理和存储,该框架主要是由以下几个部分构成:MongoDB 分布式集群、Hadoop 集群、Mongos 路由以及Master 主服务器。
其中Mongos 路由主要负责路由及协调操作;Hadoop 集群负责系统任务分发和过程协调。
系统节点通过对MapReduce 应用程序的调用,能够实现空间数据的Map 及Reduce 过程,并
将最终的查询结果呈现给用户,或是将空间数据并行写入到MongoDB 数据库的shard 分片上。
2.2.2 并行空间连接查询的实现
(1)在Map 阶段,按照已有的数据划分方法,可将R 和S 数据集当中的各个元素全部映射到单个或是多个分区上,这样一来便可使每个元素均产生出一个或是多个(k ,v )键值对。
其中K 代表分区号;V 主要包括空间属性、ID 以及MBR 等信息。
设每个分区与一个Reduce 任务相对应,在该任务中,将过滤与提炼单个分区,总的分区数可用P 表示,由此可确定出k 的取值范围,即k=[0,P-1]。
(2)在Reduce 阶段主要包括过滤和提炼两个阶段。
当过滤阶段与分区相连接时,会产生一个ID 对的集合<T R ,T S >,每一对T R 与T S 的MBR 均存在重叠的部分;在提炼阶段,可将R 和S 从磁盘中读出,进而验证其空间属性是否满足空间连接谓词的要求。
3 结论
总而言之,随着空间数据量的不断增长,
其存储和处理压力也随之增大,传统的数据库对海量空间数据的管理已经面临瓶颈。
鉴于此,本文提出一种分布式存储和并行处理方法,期望能够对海量空间数据处理效率的提升有所帮助。
参考文献
[1]孙广中.并行计算的一体化研究现状与发
展趋势[J].科学通报,2012(09).[2]刘瑜.基于关系数据库的栅格数据存
储和访问技术研究[J].高技术通讯,2013(05).
[3]黄杏园.大型GIS 海量数据分布式组织与
管理[J].南京大学学报,2014(03).
作者单位
安徽新华传媒股份有限公司 安徽省合肥市 230001
●基金项目:国家科技支撑计划课题2013BAH51F00 ●2014安徽省战略性新兴产业项目。