当前位置:文档之家› 云计算环境下的空间矢量数据存储与管理

云计算环境下的空间矢量数据存储与管理

目录

摘要.............................................................................................................................................. I Abstract ............................................................................................................................................ I 目录.............................................................................................................................................. I 图目录.............................................................................................................................................. I 表目录.............................................................................................................................................. I 第一章绪论.. (1)

1.1 研究背景 (1)

1.1.1 海量空间数据存储 (1)

1.1.2空间大数据处理 (2)

1.1.3持久在线服务 (2)

1.1.4本文研究意义 (2)

1.2国内外研究现状 (3)

1.2.1云计算发展现状 (3)

1.2.2空间信息云存储研究现状 (4)

1.2.3当前研究中的不足 (6)

1.3 论文研究内容 (7)

1.4 论文组织 (7)

1.5 本章小结 (9)

第二章矢量数据存储及云计算理论与技术基础 (10)

2.1矢量数据存储概述 (10)

2.1.1矢量数据概述 (10)

2.1.2传统矢量数据组织管理 (10)

2.1.3 分布式矢量数据管理 (12)

2.2云计算概述 (13)

2.2.1云计算的概念 (13)

2.2.2云计算的技术体系结构 (13)

2.2.3几种典型的云计算平台 (14)

2.3 开源云平台Hadoop (15)

2.3.1 Hadoop概述 (15)

2.3.2 HDFS文件系统 (16)

2.3.3 HBase数据库 (17)

2.3.4 MapReduce并行计算模式 (18)

2.4 本章小结 (19)

第I页

第三章基于Hadoop的矢量数据分布式存储 (20)

3.1基于四叉树剖分的多级格网索引 (20)

3.1.1 空间索引概述 (20)

3.1.2 金字塔四叉树剖分多级格网 (20)

3.1.3多级格网空间索引 (21)

3.1.4矢量数据比例尺与格网层次的对应关系 (23)

3.2 基于Hilbert填充曲线的矢量数据划分 (24)

3.2.1 Hilbert填充曲线 (24)

3.2.2 矢量数据划分方法 (25)

3.2.3 矢量要素的标识设计 (26)

3.3 基于HBase的矢量数据存储 (27)

3.3.1 HBase存储规则 (27)

3.3.2 基于HBase的矢量数据组织模式 (28)

3.3.3 基于HBase的矢量数据存储规则设计 (29)

3.4 本章小结 (32)

第四章基于Hadoop的矢量数据并行管理 (33)

4.1 MapReduce并行计算模型 (33)

4.1.1 MapReduce框架 (33)

4.1.2 MapReduce计算模式 (34)

4.1.3 空间数据并行处理可行性分析 (35)

4.2 矢量数据的并行入库 (36)

4.2.1 流程分析 (36)

4.2.2 适应MapReduce运算的数据预处理 (37)

4.2.3 基于MapReduce的矢量数据并行入库 (38)

4.3 矢量数据并行查询 (40)

4.3.1 空间查询概述 (40)

4.3.2 基于MapReduce的矢量数据并行查询 (40)

4.3.3 并行空间选择查询 (41)

4.3.4 并行空间KNN查询 (42)

4.4 矢量数据更新策略 (43)

4.4.1 数据更新概述 (43)

4.4.2 矢量数据局部更新方法 (44)

4.4.3 整体数据更新方法 (45)

4.5 本章小结 (46)

第五章原型系统设计实现与实验验证 (47)

第II页

5.1 原型系统体系结构设计 (47)

5.2 测试环境 (47)

5.2.1 实验环境 (47)

5.2.2 平台搭建 (48)

5.2.3 实验数据 (49)

5.3 关键技术实验验证 (50)

5.3.1 并行入库 (50)

5.3.2 矢量要素唯一标识聚类效果 (51)

5.3.3 并行范围查询效率 (52)

5.3.4 数据支持能力验证 (53)

5.4 本章小结 (55)

第六章总结与展望 (56)

6.1 主要工作 (56)

6.2 下一步研究工作 (57)

致谢 (58)

参考文献 (59)

作者简历 (64)

第III页

图目录

图1.1 论文结构图 (8)

图2.1 矢量数据模型的构成 (10)

图2.2 文件管理方式图 (11)

图2.3 文件/数据库混合管理方式 (11)

图2.4 全关系型数据库管理方式 (12)

图2.5 对象—关系数据库管理方式 (12)

图2.6 云计算技术体系结构 (13)

图2.7 Hadoop框架主要组件构成 (16)

图2.8 HDFS原理结构图 (17)

图2.9 HBase的数据存储模式 (18)

图2.10 HBase内核结构 (18)

图2.11 MapReduce数据处理过程 (19)

图3.1 四叉树层次剖分方式 (21)

图3.2 格网编码与划分方案示意图 (21)

图3.3 数据排列示意图 (22)

图3.4 空间查询区域数据排列示意图 (22)

图3.5 Hilbert曲线 (24)

图3.6 Morton码与行列号关系 (25)

图3.7 矢量要素标识编码方式 (26)

图3.8 矢量数据组织结构逻辑图 (28)

图3.9 矢量数据表之间的关系示意图 (31)

图4.1 MapReduce流程图 (34)

图4.2 矢量数据入库一般流程 (36)

图4.3 基于MapReduce的矢量数据处理部分流程 (37)

图4.4 基于MapReduce的并行写入流程 (37)

图4.5 矢量数据文件格式示意图 (38)

图4.6 多级格网区域划分的MapReduce过程 (38)

图4.7 Hilbert曲线填充数据划分MapReduce过程 (39)

图4.8 基于MapReduce的矢量数据并行查询一般流程图 (41)

图4.9 并行空间选择查询流程图 (42)

图4.10 KNN轮询查询算法实例 (42)

图4.11 基于MapReduce的并行KNN查询流程 (43)

图4.12 新增矢量数据流程 (44)

第I页

图4.13 矢量数据局部修改流程 (45)

图4.14 整体更新流程 (45)

图4.15 矢量数据文件格式示意图 (45)

图5.1 矢量数据云存储原型系统体系结构 (47)

图5.2 Hadoop集群启动窗口 (49)

图5.3 Zookeeper启动窗口 (49)

图5.4 Hadoop运行状态界面 (49)

图5.5 矢量数据并行入库时间对比图 (50)

图5.6 范围1矢量数据查询对比图 (52)

图5.7 范围2矢量数据查询对比图 (53)

图5.8 WMS服务整体架构 (53)

图5.9 WMS服务流程图 (54)

图5.10 WMS分层显示效果示例图 (54)

图5.11 WMS多图层叠加显示效果示例图 (55)

第II页

表目录

表3.1 比例尺、多级格网层级和空间分辨率对应表 (24)

表3.2 HBase逻辑数据模型 (27)

表3.3 HBase物理模型 (28)

表3.4 矢量数据表结构 (29)

表3.5 属性数据字典表结构 (30)

表3.6 空间索引表结构 (30)

表3.7 空间数据元数据表结构 (31)

表4.1 第一阶段Map和Reduce函数输入/输出值结构 (39)

表4.2 第二阶段Map和Reduce函数输入/输出值结构 (39)

表5.1 原型系统虚拟机环境配置 (48)

表5.2 软件环境 (48)

表5.3 试验所用的矢量数据 (50)

表5.4 矢量数据并行入库时间 (50)

表5.5 范围1两种方案的矢量数据检索时间 (51)

表5.6 范围2两种方案的矢量数据检索时间 (51)

表5.7 方案一的矢量数据检索时间 (52)

第I页

第一章绪论

第一章绪论

1.1 研究背景

空间信息基础设施,是国家基础设施中的重要内容,它是为获取和存储空间信息,对空间信息进行组织、管理与处理分析,集成融合不同空间信息系统及实现互操作与共享的计算机基础设施体系[1]。由于80%左右的信息都包含有空间相关的属性,因此空间信息基础设施的发展对一个国家信息化程度的提高有着积极的促进作用[2]。

纵观空间信息基础设施发展的几十年历史,随着社会需求的不断深化和科学技术的不断发展,特别是计算机技术的发展,空间基础设从最早基于PC机采用文件系统存储的模式逐步发展到了当前基于B/S架构采用关系数据库存储的模式[3]。随着大数据时代的到来,传统的空间信息基础设施体系架构在海量数据的存储、管理及处理应用方面已经逐渐暴露出不足,应对空间信息大数据时代的到来需要探索一种能够承载海量空间数据信息存储与处理业务的新架构[4]。与此同时,云计算技术的兴起,给新一代空间信息基础设施体系架构的发展带来了希望。其分布式存储及并行计算的特征非常适合应对海量数据存储以及大规模数据处理等问题,这就为空间信息基础设施的变革提供了解决方案[5]。

新一代空间信息基础设施架构在大数据时代下主要面临着海量空间数据存储、空间大数据处理、持久在线地理信息服务支撑等三大挑战,下面从这三个方面阐述论文的研究背景。

1.1.1 海量空间数据存储

空间信息技术包括空间数据的获取、处理以及应用三部分内容,而空间数据的存储管理则是基础和核心。早在数据库系统还没有发展起来的时候,人们使用文件系统来对空间数据进行存储和管理。后来,随着数据库技术的发展,空间数据库也逐渐发展起来,先后通过文件-关系数据库和全关系数据库两种方式实现了对空间数据的存储与管理。

然而,随着对地观测技术的发展,空间数据获取手段呈现多样化,空间数据的数据量逐步从GB级、TB级增加到PB级,甚至是ZB级。这就对如何能用较低的成本来应对海量空间数据的快速增长以支撑海量数据的高效存储和并发访问提出了挑战[6]。

上述问题是传统关系型数据库在大数据并发环境下难以解决的,采用非关系型数据库的分布式存储模式则表现出了优势。NoSQL是基于非关系型的数据存储广义定义,该类型的数据库存储放弃了数据之间的复杂关系以更好地在分布式环境下实现低延迟及快速处理海量数据的能力。它可以在价格相对低廉的PC机群上运行,扩展灵活方便,具有高可靠性,支持半结构化和非结构化数据存储,这就为实现海量空间数据的存储与管理提供了可能。因此在新一代空间信息基础设施中,可以结合NoSQL型数据库的优势,寻找一种适用于海量空间数据的分布式存储方案。

第1页

相关主题
文本预览
相关文档 最新文档