MPP数据库对比总结

格式：docx
大小：82.96 KB
文档页数：13

下载文档原格式

大数据及海量数据处理架构Hadoop vs MPP

收稿日期：2020-06-15作者简介：巫东来（1985-），女，硕士，国电南瑞科技股份有限公司技术发展中心测试工程师，研究方向为计算机软件与理论；汤仕磊（1985-），男，硕士，南京上古网络科技有限公司高级工程师，研究方向为电力物联网和综合能源。

0引言随着云计算、大数据产业的不断发展，传统使用单机数据库进行数据存储的模式已经不能满足业界日益增长需求，海量数据处理成为一个关键问题。

目前主流的海量数据处理架构分为两种：①基于传统数据库及数据仓库所衍生出的MPP （Massively Parallel Processing ）架构［1］；②基于Hadoop 并行计算框架的分布式架构［2］。

传统关系型数据库随着数据量增长性能急剧下降，业界提出一种横向扩展（scale out ）方式，通过增加节点使用更多廉价的机器构建更强的集群系统。

在这种背景下，分布式数据库和数据仓库越来越受到重视，其中基于MPP 架构的数据库是主流解决方案，越来越多的厂商选择使用它改造和升级原有软件系统［3］。

Hadoop 是一种分布式数据处理框架，使用普通X86计算机组成分布式系统处理海量数大数据及海量数据处理架构：Hadoop vs MPP巫东来1，汤仕磊2（1.国电南瑞科技股份有限公司技术发展中心，江苏南京211100；2.南京上古网络科技有限公司，江苏南京210012）摘要：开发海量数据处理系统时存在技术框架选择不确定问题。

从理论及应用角度对两种主流的海量数据处理架构MPP 和Hadoop 进行对比，分析各自技术特点，阐述其与传统数据处理的优势。

分析结果表明，Ha⁃doop 在存储数据规模上可轻松支持PB 级别，而MPP 架构大多只支持TB 级别；Hadoop 对海量半结构化、非结构化数据存储和处理有一定优势，但在处理速度和易用性上不及MPP ；在结构化数据处理、响应性能和衍生工具等方面MPP 则占优，适用于查询业务场景较多项目。

基于列存储的大规模并行数据库应用技术

列存储最核心的技术就是基于垂直分区的存储设计和访
问模式列存储数据库完全划分为多个独立的列的集合进行存
［收稿日期Leabharlann ］２０１６—０３—１８隐患也得不到处理．从而加速安全事故的发生
信息消息的快速传递．如果检测到大坝将要发生或已经发生溃
（４）安全监控设施落后。我国很多水库都在改革开放之前决，能够在第一时间进行消息传播与扩散．避免大范围人员伤
建成，因此并不配备相应的安全检测仪器。很多时候．如果水库亡的发生。
之中的相关数据发生异常。工作人员并不能够及时察觉并采取
（３）管理缺失现象治理。物联网技术与云技术相互结合能
相应措施。
够达到远程监控、远程教学的效果，这对于大坝的安全管理有
（５）水库实时监管。工作人员难免会发生错误，这是人之常
不可分。相较于传统的大坝安全控制技术而言．信息技术有着情。为了避免此类情况的发生。不应该去让工作人员加倍努力
更加明显的优势。物联网通过对网络信息的整理与归纳达到对的进行安全巡视工作．而应该采取相应措施将人力巡视替换为
事故发生之前的种种现象凭借人类的感官并不能发现．这也导息传递给维护部门。同时。物联网技术需要各种设施的支持，如
致大坝安全事故频发
果水库选择采用物联网与云技术．必将会推动相关设备的更新
２物联网与云技术对大坝安全控制的重要意义
换代。
当前是信息化时代．信息技术与人们的日常生活早已经密

MPP数据库及应用案例精品PPT课件

列存储数据库 GBase 8a
列存储＋MPP数据库 GBase 8a MPP Cluster
8311单机版
•列存储 •压缩 •智能索引 •并行 •标准SQL语法 •标准接口：
MPP架构数据库： ➢OldSQL ➢NewSQL ➢NoSQL
万兆网络
存储+计算节点
Interconnect
..
2
基亍MPP架构的幵行数据库（RDBMS）典型案例
幵行数据库系统的发展
1992 - Paralle Database Systems: The future of High Performance Database systems. By David Dewitt and Jim Gray
设计MPP架构的新型数据库，需要考虑幵解决三大问题，即木桶效应问题、Domino效应问题以及数据倾斜问题。
木桶敁应问题 • 起因：资源分配丌均、架构设计问题、算法问题、数据倾斜、硬件
问题 • 后果：系统稳定性、性能、可用性大大降低
Domino敁应问题
• 起因：系统的耦合度太高、敀障丌能快速孤立、没有内部防护机制 • 后果：系统崩溃
数据倾斜问题
• 起因：数据按切片分布，选择hash key 问题（KV store比较明显）、业务数据特征造成
• 后果：性能低下、引起木桶敁应和Domino敁应
9
Shared Disk和Shared Nothing架构对比
数据库集群架构
Shared Disk
Shared Nothing
有Master
MPP数据库技术, 支撑行业大数据应用
目录
一、MPP 数据库技术二、GBase 8a MPP Cluster 特性三、GBase 8a MPP Cluster 电信、金融行业案例四、大数据处理－MPP不Hadoop的混搭架构趋势

Mysql和Postgresql（PGSQL）对比

Mysql和Postgresql（PGSQL）对⽐PostgreSQL与MySQL⽐较使⽤太⼴泛了，以⾄于我不得不将⼀些应⽤从mysql 迁移到postgresql, 很多开源软件都是以Mysql 作为标准，并且以Mysql 作为抽象基础的，但是具体使⽤过程中，发现Mysql 有很多问题，所以都迁移到postgresql上了，转⼀个Mysql 和Postgresql 对⽐的⽂章：PostgreSQL由于是类似Oracle的多进程框架，所以能⽀持⾼并发的应⽤场景，这点与Oracle数据库很像，所以把Oracle DBA转到PostgreSQL数据库上是⽐较容易的，毕竟PostgreSQL数据库与Oracle数据库很相似。

同时，PostgreSQL数据库的源代码要⽐MySQL数据库的源代码更容易读懂，如果团队的C语⾔能⼒⽐较强的知，就能在PostgreSQL数据库上做开发，⽐⽅说实现类似greenplum的系统，这样也能与现在的分布式趋势接轨。

为了说明PostgreSQL的功能，我下⾯简要对⽐⼀下PostgreSQL数据库与MySQL数据库之间的差异：我们先借助Jametong翻译的"从Oracle迁移到Mysql之前必须知道的50件事"，看⼀看如何把Oracle转到MySQL中的困难：50 things to know before migrating Oracle to MySQLby Baron Schwartz,Translated by Jametong1. 对⼦查询的优化表现不佳.2. 对复杂查询的处理较弱3. 查询优化器不够成熟4. 性能优化⼯具与度量信息不⾜5. 审计功能相对较弱6. 安全功能不成熟,甚⾄可以说很粗糙.没有⽤户组与⾓⾊的概念,没有回收权限的功能(仅仅可以授予权限).当⼀个⽤户从不同的主机/⽹络以同样地⽤户名/密码登录之后,可能被当作完全不同的⽤户来处理.没有类似于Oracle的内置的加密功能.7. ⾝份验证功能是完全内置的.不⽀持LDAP,Active Directory以及其它类似的外部⾝份验证功能.8. Mysql Cluster可能与你的想象有较⼤差异.9. 存储过程与触发器的功能有限.10. 垂直扩展性较弱.11. 不⽀持MPP(⼤规模并⾏处理).12. ⽀持SMP(对称多处理器),但是如果每个处理器超过4或8个核(core)时,Mysql的扩展性表现较差.13. 对于时间、⽇期、间隔等时间类型没有秒以下级别的存储类型.14. 可⽤来编写存储过程、触发器、计划事件以及存储函数的语⾔功能较弱.15. 没有基于回滚(roll-back)的恢复功能,只有前滚(roll-forward)的恢复功能.16. 不⽀持快照功能.17. 不⽀持数据库链(database link).有⼀种叫做Federated的存储引擎可以作为⼀个中转将查询语句传递到远程服务器的⼀个表上,不过,它功能很粗糙并且漏洞很多.18. 数据完整性检查⾮常薄弱,即使是基本的完整性约束，也往往不能执⾏。

starroks和mysql语法

starroks和mysql语法StarRocks（之前被称为Apache Doris）是一个MPP（大规模并行处理）架构的快速、高并发、高性能的开源分析型数据库。

而MySQL 是一个流行的关系型数据库管理系统。

虽然StarRocks和MySQL都是数据库管理系统，但它们的语法和特性有很大的不同。

以下是StarRocks和MySQL的一些关键差异：1. 架构:StarRocks: 是MPP架构，设计用于分布式计算，特别是在大数据环境下。

它使用分布式文件系统（如HDFS）来存储数据，并使用多线程和并行处理来加速查询。

MySQL: 是传统的关系型数据库管理系统，单节点或主从复制架构。

2. 查询语法:StarRocks: 通常使用类似于SQL的查询语言，但有一些特定的优化和扩展。

例如，它支持一些专为大数据设计的特性，如近似查询和窗口函数。

MySQL: 遵循标准的SQL语法，包括SELECT、INSERT、UPDATE、DELETE等语句。

3. 性能特性:StarRocks: 针对快速查询和高并发性进行了优化。

它旨在提供低延迟的实时分析能力。

MySQL: 在标准应用中提供良好的性能，但在大数据或实时分析方面可能不如StarRocks。

4. 扩展性和容错性:StarRocks: 设计用于分布式环境，因此具有良好的扩展性和容错性。

数据可以分布到多个节点上，如果某个节点失败，其他节点可以继续提供服务。

MySQL: 在某些配置中提供主从复制功能，但通常不具备StarRocks那样的分布式能力。

5. 用途:StarRocks: 主要用于大数据环境下的实时分析，如报表、数据挖掘等。

MySQL: 广泛用于Web应用程序、电子商务网站、中小型应用程序等。

6. 成本:StarRocks: 作为开源项目，其成本相对较低，但可能需要额外的资源进行配置和优化。

MySQL: 既有免费的社区版本，也有企业版本，提供额外的特性和支持。

企业轻量化大数据架构研究

企业轻量化大数据架构研究李军(四川中电启明星信息技术有限公司四川成都 610041)摘要：对于很多中小型的大数据项目，应用MySQL等关系型数据库无法实现大数据的存储与计算，应用传统Hadoop大数据生态又太重，比较耗费人力、财力、服务器等资源。

该文研究企业轻量化大数据架构的一种落地方案，并分析其应用场景。

该文研究的轻量化大数据架主要针对企业应用中绝大多数结构化和半结构化大数据分析，数据量规模在1 TB到10 PB之间。

轻量化架构采用MPP数据库（Doris）作为底层存储和计算引擎，Kafka作为数据接入缓冲通道，开发一体化轻量管理组件实现大数据开发中常用的任务调度、表管理、SQL开发、数据接入等功能。

关键词：轻量化大数据架构 MPP数据库数据任务调度数据接入中图分类号：TP392文献标识码：A 文章编号：1672-3791(2023)15-0062-04 Research on the Big Data Architecture of the Lightweight ofEnterprisesLI Jun(Aostar Information Technologies Co., Ltd., Chengdu, Sichuan Province, 610041 China)Abstract:For many small-and medium-sized big data projects, the application of relational databases such as MySQL cannot realize the storage and computing of big data, and the application of traditional Hadoop big data ecology is too heavy and consumes more resources such as manpower, financial resources and servers. This paper studies a landing scheme of the big data architecture of the lightweight of enterprises and analyzes its application scenarios. The big data architecture of lightweight studied in this paper is mainly for the analysis of most structured and semi-structured big data in enterprise applications, and the data size is 1 TB~10PB. The architecture of light‐weight uses the MPP database (Doris) as the underlying storage and computing engine, and uses Kafka as the buffer channel for data access, and develops integrated lightweight management components to achieve the commonly-used functions such as task scheduling, table management, SQL development and data access in big data develop‐ment.Key Words: Big data architecture of lightweight; MPP database; Data task scheduling; Data access1 常用大数据架构与传统数据分析一样，大数据信息时代首先要考虑的就是数据存储问题[1]，其次是数据的计算问题。

MPP数据库对比总结

1 概述随着海量数据问题的出现，海量管理能力，多类型，变化快，高可用性，低成本，高端可扩展性等需求给企业数据战略带来了巨大的挑战。

企业数据仓库、数据中心的技术选型变得尤其重要！所以在选型之前，有必要对目前市场上各种大数据量的解决方案进行分析。

2 主流分布式并行处理数据库产品介绍2.1 Greenplum 2.1.1 基础架构Greenplum 是基于Hadoop 的一款分布式数据库产品，在处理海量数据方面相比传统数据库有着较大的优势。

Greenplum 整体架构如下图：数据库由Master Severs 和Segment Severs 通过Interconnect 互联组成。

Master 主机负责：建立与客户端的连接和管理；SQL 的解析并形成执行计划；执行计划向Segment 的分发收集Segment 的执行结果；Master 不存储业务数据，只存储数据字典。

Segment 主机负责：业务数据的存储和存取；用户查询SQL 的执行。

2.1.2 主要特性Greenplum 整体有如下技术特点： Shared-nothing 架构Network Interconnect...Master Severs 查询解析、优化、分发Segment Severs 查询处理、数据存储 External Sources 数据加载海量数据库采用最易于扩展的Shared-nothing架构，每个节点都有自己的操作系统、数据库、硬件资源，节点之间通过网络来通信。

◆基于gNet Software Interconnect数据库的内部通信通过基于超级计算的“软件Switch”内部连接层，基于通用的gNet (GigE，10GigE) NICs/switches在节点间传递消息和数据，采用高扩展协议，支持扩展到1000个以上节点。

◆并行加载技术利用并行数据流引擎，数据加载完全并行，加载数据可达到4。

5T/小时（理想配置）。

并且可以直接通过SQL语句对外部表进行操作◆支持行、列压缩存储技术海量数据库支持ZLIB和QUICKLZ方式的压缩，压缩比可到10：1。

内存MPP数据库介绍

特点： 1、数据流实时导出。 2、数据流输出格式多样性。 3、数据流内存溢出保护。 4、自定义数据流导出接收器，方便用户扩展 5、批量写HDFS，写入速度快
数据库复制
在线扩展

增加存储容量
提高事务处理能力缓解服务器压力新增节点在后台移动数据，不影响线上应用可控制数据移动速度

SQL LIKE
子查询视图

JSON值
SQL支持仍在不断增加

不支持的功能可通过Java存储过程实现

针对在线事务处理优化

非分析型事务引擎
企业版功能

持续化数据库集成数据库复制在线扩展管理与监控
持续化
可调节fsync*频率
可调节快照频率
1、所有磁盘数据均配有CRC32校验码
作为开发者，只需指定每个分区表的分区键，RapidsDB会自动根据键值将数据分区。
RapidsDB扩展模型

分区表被自动切分到不同分区每个分区绑定一个CPU核心复制表在每台服务器有一个副本
分区内部结构

每个分区存储不同数据，有独立的执行引擎单线程执行该分区所有事务事务执行不中断

事务执行
事务会被自动传到数据所在分区执行
事务执行（续）

单分区事务

集群
节点1
分区1 分区2 分区3
所需数据在一个分区

完全独立于其他分区执行

多分区事务

所有分区需同时执行该事务
节点2
分区4 分区5 分区6
节点3
分区7 分区8 分区9
容错机制：k-safety

PostgreSQL和GreenPlum数据库的区别

PostgreSQL和GreenPlum数据库的区别PostgreSQLPostgreSQL是以加州⼤学伯克利分校计算机系开发的 POSTGRES，现在已经更名为POSTGRES，版本 4.2为基础的对象（ORDBMS）。

PostgreSQL⽀持⼤部分 SQL标准并且提供了许多其他现代特性：复杂查询、、、视图、完整性、。

同样，PostgreSQL 可以⽤许多⽅法扩展，⽐如，通过增加新的数据类型、函数、操作符、、索引⽅法、过程语⾔。

并且，因为许可证的灵活，任何⼈都可以以任何⽬的免费使⽤、修改、和分发 PostgreSQL，不管是私⽤、商⽤、还是学术研究使⽤。

Greenplum当前使⽤的 OLTP程序中，⽤户访问⼀个中⼼，如果采⽤SMP，它的效率要⽐采⽤MPP结构要快得多。

⽽MPP系统在决策⽀持和数据挖掘⽅⾯显⽰了优势，可以这样说，如果操作相互之间没有什么关系，处理单元之间需要进⾏的通信⽐较少，那采⽤MPP系统就要好，相反就不合适了。

软件优势数据存储当今是个数据不断膨胀的时代，采取MPP架构的才能对海量数据进⾏管理。

Greenplum⽀持50PB(1PB=1000TB)级海量数据的存储和处理，Greenplum将来⾃不同源系统的、不同部门、不同平台的到中集中存放，并且存放详尽历史的数据轨迹，业务⽤户不⽤再⾯对⼀个⼜⼀个信息孤岛，也不再困惑于不同版本数据导致的偏差，同时对于IT⼈员也降低管理维护⼯作的复杂度。

⾼并发随着商业智能在企业内的快速发展，BI ⽤户对信息分析平台的访问频率和查询复杂度也快速提升，因此要求相应的对⾼并发查询进⾏⽀持。

Greenplum利⽤强⼤能⼒提供并发⽀持。

Greenplum提供资源管理功能(workload managemnt)来管理资源，利⽤资源队列管理可实现按⽤户组的进⾏资源分配，如Session同时激活数、最⼤资源值等。

通过资源管理功能，可以按⽤户级别进⾏资源分配和管理⽤户SQL查询优先级别，同时也能防⽌低质量SQL(如没有条件的多表join等)对的消耗。

常用数据库对比

常用数据库对比(共7页) --本页仅作为文档封面，使用时请直接删除即可----内页可以根据需求调整合适字体及大小--常用数据库对比目前，常用于OLAP分析的数据库软件有Oracle、DB2、Teradata、Greenplum、Netezza、Exdata几种。

1、Oracle提起数据库，第一个想到的公司，一般都会是Oracle(甲骨文)。

该公司成立于1977年，最初是一家专门开发数据库的公司。

Oracle在数据库领域一直处于领先地位。

1984年，首先将关系数据库转到了桌面计算机上。

然后，Oracle5率先推出了分布式数据库、客户/服务器结构等崭新的概念。

Oracle 6首创行锁定模式以及对称多处理计算机的支持……最新的Oracle 8主要增加了对象技术，成为关系—对象数据库系统。

目前，Oracle产品覆盖了大、中、小型机等几十种机型，Oracle数据库成为世界上使用最广泛的关系数据系统之一。

2、DB2DB2是IBM公司的产品，起源于System R和System R*。

他支持从PC到UNIX，从中小型机到大型机；从IBM到非IBM（HP及SUN UNIX系统等）各种操作平台。

他既可以在主机上以主/从方式独立运行，也可以在客户/服务器环境中运行。

其中服务平台可以是OS/400，AIX，OS/2，HP-UNIX，SUN-Solaris等操作系统，客户机平台可以是OS/2或Windows, Dos, AIX, HP-UX, SUN Solaris等操作系统。

3、GreenplumGreenplum的架构采用了MPP(大规模并行处理)，公司专注于OLAP系统数据引擎开发，有世界级的研发团队进行高性能计算和数据库系统的前沿开发工作，宗旨是向客户提供高性能的超级数据引擎，并将强大的并行计算能力融入到大规模数据仓库分析领域中。

公司具有发展趋势超前的视野和洞察力，为全球很多最大规模的数据仓库提供推动力;公司最先将SQL和Map Reduce的功能整合到统一的数据处理框架中。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1 概述随着海量数据问题的出现，海量管理能力，多类型，变化快，高可用性，低成本，高端可扩展性等需求给企业数据战略带来了巨大的挑战。

企业数据仓库、数据中心的技术选型变得尤其重要！所以在选型之前，有必要对目前市场上各种大数据量的解决方案进行分析。

2 主流分布式并行处理数据库产品介绍2.1 Greenplum2.1.1 基础架构Greenplum 是基于Hadoop 的一款分布式数据库产品，在处理海量数据方面相比传统数据库有着较大的优势。

Greenplum 整体架构如下图：Network Interconnect....... ...MasterSeversSegment Severs查询处理、数据存储 ExternalSources数据加载 SQL ... SQL数据库由Master Severs和Segment Severs通过Interconnect互联组成。

Master主机负责：建立与客户端的连接和管理；SQL的解析并形成执行计划；执行计划向Segment的分发收集Segment的执行结果；Master不存储业务数据，只存储数据字典。

Segment主机负责：业务数据的存储和存取；用户查询SQL的执行。

2.1.2主要特性Greenplum整体有如下技术特点：Shared-nothing架构海量数据库采用最易于扩展的Shared-nothing架构，每个节点都有自己的操作系统、数据库、硬件资源，节点之间通过网络来通信。

基于gNet Software Interconnect数据库的内部通信通过基于超级计算的“软件Switch”内部连接层，基于通用的gNet (GigE， 10GigE) NICs/switches在节点间传递消息和数据，采用高扩展协议，支持扩展到1000个以上节点。

并行加载技术利用并行数据流引擎，数据加载完全并行，加载数据可达到4。

5T/小时（理想配置）。

并且可以直接通过SQL语句对外部表进行操作支持行、列压缩存储技术海量数据库支持ZLIB和QUICKLZ方式的压缩，压缩比可到10：1。

压缩数据不一定会带来性能的下降，压缩表通过利用空闲的CPU资源，而减少I/O资源占用。

海量数据库除支持主流的行存储模式外，还支持列存储模式。

如果常用的查询只取表中少量字段，则列模式效率更高，如查询需要取表中的大量字段，行模式效率更高。

海量数据库的多种压缩存储技术在提高数据存储能力的同时，也可根据不同应用需求提高查询的效率2.1.3主要局限列存储模式的使用有限制，不支持delete/update操作。

用户不可灵活控制事务的提交，用户提交的处理将被自动视作整体事务，整体提交，整体回滚。

数据库需要额外的空间清理维护（vacuum），给数据库维护带来额外的工作量。

用户不能灵活分配或控制服务器资源。

对磁盘IO有比较高的要求。

备份机制还不完善，没有增量备份。

2.2Vertica2.2.1基础架构与以往常见的行式关系型数据库不同，Vertica 是一种基于列存储（Column-Oriented）的数据库体系结构，这种存储机构更适合在数据仓库存储和商业智能方面发挥特长。

常见的RDBMS 都是面向行（Row-Oriented Database）存储的，在对某一列汇总计算的时候几乎不可避免的要进行额外的I/O 寻址扫描，而面向列存储的数据库能够连续进行I/O 操作，减少了I/O 开销，从而达到数量级上的性能提升。

同时，Vertica 支持海量并行存储（MPP）架构，实现了完全无共享，因此扩展容易，可以利用廉价的硬件来获取高的性能，具有很高的性价比。

如下图，展示的是单节点上的Vertica 的基本体系结构。

Vertica 体系结构作为关系型数据库，Vertica 的查询SQL 也是在前端被解析和优化的。

但与传统的关系型数据库有所不同，Vertica内部是混合存储的，包括两种不同的存储结构：写优化器（WOS）和读优化器（ROS）。

(1) 写优化器WOS（Write-Optimized Store）是位于主存储器上的一个数据结构，用于有效的支持数据插入和更新操作；数据的存放是无序的，非压缩的。

(2) 读优化器ROS（Read-Optimized Store）是磁盘物理存储，存放的是排序和压缩后的数据库大块数据，因此这里的查询相比于WOS 性能更好。

(3) Tuple Mover 进程是Vertica 内部的一个进程，定期的以大数据块的形式把数据从WOS 移到ROS，由于是对整个WOS 操作，TupleMover 一次能非常有效的排序很多记录，最后批量把它们写入磁盘。

在Vertica 内部，不论是WOS 还是ROS 都是按列存储的。

2.2.2主要特性Vertica 的关键特性：1 列存储（Column-orientation）由于大多数的查询都是要从磁盘读取数据，因此可以说disk I/O 在很大程度上决定了一个查询的最终响应时间。

2 压缩机制（Aggressive Compression）在数据存储方面，Vertica 利用内部的特定算法对数据进行压缩处理。

这样的机制会大大减少disk I/O 的时间（D），同时由于Vertica 对扫描和聚合等操作也在内部进行了优化，可以直接处理压缩后的数据，这样CPU 的工作负载（C）也减少了。

如上例中的AVG 聚合函数，Vertica 是不需要将压缩数据先做类似解压这种处理的，因此查询性能得到优化。

3 读优化存储（Read-Optimized Storage）Vertica 的数据库存储容器ROS Container 专门为读操作进行了优化设计，且其中的数据是经过了排序和压缩处理的，即每个磁盘页上不会有空白空间，而传统的数据库一般会在每页上预留空间以便日后的insert 操作来使用。

4 多种排序方式的冗余存储为了高可用性和备份恢复的需要，Vertica 会按照不同的排序方式对数据做冗余存储，这不但避免了大量的日志操作，也为查询带来了便利。

Vertica 的查询优化器会自动选择最优的排序方式来完成特定的查询。

5 并行无共享设计Vertica 支持完全无共享海量并行存储（MPP）架构，随着硬件Server 的增加，多个CPU 并行处理，性能也可以得到线性的扩展，这样用户使用廉价的硬件就可以获得较高的性能改善。

6 其他管理特征除了有优越的性能以外，Vertica 在数据库管理方面也进行了非常人性化的设计。

Vertica Database Designer 是一个界面化的日常管理工具，并且能为用户作出详尽的DB 层物理设计方案，大大减少了日后的性能调优方面的开销。

Vertica 通过K-Safety 值的设置，完成了数据库的备份恢复机制，并保证了高可用性。

对于数据库中的每个表每个列，Vertica 都会在至少K+1 个节点上存储，如果有K 个节点宕机，依然能够保证Vertica DB 是完整可用的；当损坏的节点恢复时，Vertica 自动完成节点间的热交换，把其他节点上的正确数据恢复过来。

通过这种机制也保证了Vertcia 库的节点数目可以自由伸缩而不会影响到数据库的操作。

Vertica 通过两种技术来实现在线的持续数据装载而不会影响到数据库的访问。

Vertica 通常运行在快照隔离（Snapshot Isolation）模式下，该模式下查询读取的是最近的一致的数据库快照，这个快照是不能被并发的update 或delete 操作更改的，因此查询操作也不需要占用锁，这种方式保证了数据装载（insert）和其他查询能互不干扰。

另外，Vertica 可以把数据直接装载到WOS 结构中，WOS 中的数据是不排序或索引的，所以装载速度会很快，然后再由Tuple Mover 进程在后台把数据移入ROS 中，由于TupleMover 的操作是大块读取（bulk-load）的，所以性能也很好。

2.2.3主要局限不支持SQL存储过程及函数，用户需通过UDFs（User Defined Function，基于C++）来自定义函数或过程。

软件授权按原始未经压缩的裸数据量计算。

列存储的一些劣势，复杂查询等性能不理想。

对内存有比较高的要求。

在国内还没有成功案例。

2.3Sybase IQ2.3.1基础架构SYBASE IQ是Sybase公司推出的特别为数据仓库设计的关系型数据库。

SYBASE IQ的架构与大多数关系型数据库不同，它特别的设计用以支持大量并发用户的即席查询。

其设计与执行进程优先考虑查询性能，其次是完成批量数据更新的速度。

而传统关系型数据库引擎的设计既考虑在线的事务进程又考虑数据仓库（而事实上，往往更多的关注事务进程）。

Sybase在2010年推出的Sybase IQ 就采用了全共享架构的 PlexQ 技术，该技术重新定义了企业范围的业务信息，全共享架构可轻松支持涉及海量数据集、海量并发用户数和独特工作流程的多种复杂分析样式，大大增加了其效益。

与其他 MPP 解决方案不同，Sybase IQ 的 PlexQ 网格技术能够动态管理可轻松扩展并且专用于不同组和流程的一系列计算与存储资源中的分析工作量，从而使其能够以更低的成本更轻松地支持日益增长的数据量以及快速增长的用户社区。

Sybase IQ 采用业内领先的MPP列式数据库和最先进的数据库内分析技术，并革命性地加入MapReduce与Hadoop集成，以应对大数据时代的分析挑战，开启洞察关键业务的能力。

Sybase IQ 正在打破数据分析的壁垒，彻底改变“大数据分析”领域。

基于成熟的PlexQ 技术构建的Sybase IQ 采用下图所示的三层构架：基本层：数据库管理系统 (DBMS)，这是一个全共享 MPP 分析 DBMS 引擎，是Sybase IQ 最大的独特优势。

第二层：分析应用程序服务层，其提供 C++ 和 Java 数据库内 API，并可实现与外部数据源的集成和联邦；包括四种与Hadoop 的集成方法。

顶层：Sybase IQ 生态系统，由四个强大且不同的合作伙伴和认证 ISV 应用程序组成。

基于这种 PlexQ 技术，Sybase IQ 将大数据转变成可指挥每个人都行动的情报信息，从而在整个企业的用户和业务流程范围内轻松具备大数据的分析能力。

2.3.2主要特性Sybase IQ（）的关键特性：1. 更强的数据管理大量增强的功能改善了Sybase IQ 的数据管理、部署和可维护性。

更快速的批量加载: 批量加载数据通过ODBC 和 JDBC 接口插入到Sybase 中，从而实现具有更高可扩展性的应用程序，同时可极大提高加载性能。

更出色的文本压缩: 更出色地对 VARCHAR、VARBINARY、CHAR 和 BINARY 压缩可实现以更高效率、更低成本部署高性能文本分析应用程序，同时极大提高压缩速率。

MPP数据库对比总结

合集下载

大数据及海量数据处理架构Hadoop vs MPP

基于列存储的大规模并行数据库应用技术

MPP数据库及应用案例精品PPT课件

Mysql和Postgresql（PGSQL）对比

starroks和mysql语法

企业轻量化大数据架构研究

MPP数据库对比总结

内存MPP数据库介绍

PostgreSQL和GreenPlum数据库的区别

常用数据库对比

文档推荐

最新文档