MPP数据库对比总结
- 格式:docx
- 大小:82.96 KB
- 文档页数:13
收稿日期:2020-06-15作者简介:巫东来(1985-),女,硕士,国电南瑞科技股份有限公司技术发展中心测试工程师,研究方向为计算机软件与理论;汤仕磊(1985-),男,硕士,南京上古网络科技有限公司高级工程师,研究方向为电力物联网和综合能源。
0引言随着云计算、大数据产业的不断发展,传统使用单机数据库进行数据存储的模式已经不能满足业界日益增长需求,海量数据处理成为一个关键问题。
目前主流的海量数据处理架构分为两种:①基于传统数据库及数据仓库所衍生出的MPP (Massively Parallel Processing )架构[1];②基于Hadoop 并行计算框架的分布式架构[2]。
传统关系型数据库随着数据量增长性能急剧下降,业界提出一种横向扩展(scale out )方式,通过增加节点使用更多廉价的机器构建更强的集群系统。
在这种背景下,分布式数据库和数据仓库越来越受到重视,其中基于MPP 架构的数据库是主流解决方案,越来越多的厂商选择使用它改造和升级原有软件系统[3]。
Hadoop 是一种分布式数据处理框架,使用普通X86计算机组成分布式系统处理海量数大数据及海量数据处理架构:Hadoop vs MPP巫东来1,汤仕磊2(1.国电南瑞科技股份有限公司技术发展中心,江苏南京211100;2.南京上古网络科技有限公司,江苏南京210012)摘要:开发海量数据处理系统时存在技术框架选择不确定问题。
从理论及应用角度对两种主流的海量数据处理架构MPP 和Hadoop 进行对比,分析各自技术特点,阐述其与传统数据处理的优势。
分析结果表明,Ha⁃doop 在存储数据规模上可轻松支持PB 级别,而MPP 架构大多只支持TB 级别;Hadoop 对海量半结构化、非结构化数据存储和处理有一定优势,但在处理速度和易用性上不及MPP ;在结构化数据处理、响应性能和衍生工具等方面MPP 则占优,适用于查询业务场景较多项目。
Mysql和Postgresql(PGSQL)对⽐PostgreSQL与MySQL⽐较使⽤太⼴泛了,以⾄于我不得不将⼀些应⽤从mysql 迁移到postgresql, 很多开源软件都是以Mysql 作为标准,并且以Mysql 作为抽象基础的,但是具体使⽤过程中,发现Mysql 有很多问题,所以都迁移到postgresql上了,转⼀个Mysql 和Postgresql 对⽐的⽂章:PostgreSQL由于是类似Oracle的多进程框架,所以能⽀持⾼并发的应⽤场景,这点与Oracle数据库很像,所以把Oracle DBA转到PostgreSQL数据库上是⽐较容易的,毕竟PostgreSQL数据库与Oracle数据库很相似。
同时,PostgreSQL数据库的源代码要⽐MySQL数据库的源代码更容易读懂,如果团队的C语⾔能⼒⽐较强的知,就能在PostgreSQL数据库上做开发,⽐⽅说实现类似greenplum的系统,这样也能与现在的分布式趋势接轨。
为了说明PostgreSQL的功能,我下⾯简要对⽐⼀下PostgreSQL数据库与MySQL数据库之间的差异:我们先借助Jametong翻译的"从Oracle迁移到Mysql之前必须知道的50件事",看⼀看如何把Oracle转到MySQL中的困难:50 things to know before migrating Oracle to MySQLby Baron Schwartz,Translated by Jametong1. 对⼦查询的优化表现不佳.2. 对复杂查询的处理较弱3. 查询优化器不够成熟4. 性能优化⼯具与度量信息不⾜5. 审计功能相对较弱6. 安全功能不成熟,甚⾄可以说很粗糙.没有⽤户组与⾓⾊的概念,没有回收权限的功能(仅仅可以授予权限).当⼀个⽤户从不同的主机/⽹络以同样地⽤户名/密码登录之后,可能被当作完全不同的⽤户来处理.没有类似于Oracle的内置的加密功能.7. ⾝份验证功能是完全内置的.不⽀持LDAP,Active Directory以及其它类似的外部⾝份验证功能.8. Mysql Cluster可能与你的想象有较⼤差异.9. 存储过程与触发器的功能有限.10. 垂直扩展性较弱.11. 不⽀持MPP(⼤规模并⾏处理).12. ⽀持SMP(对称多处理器),但是如果每个处理器超过4或8个核(core)时,Mysql的扩展性表现较差.13. 对于时间、⽇期、间隔等时间类型没有秒以下级别的存储类型.14. 可⽤来编写存储过程、触发器、计划事件以及存储函数的语⾔功能较弱.15. 没有基于回滚(roll-back)的恢复功能,只有前滚(roll-forward)的恢复功能.16. 不⽀持快照功能.17. 不⽀持数据库链(database link).有⼀种叫做Federated的存储引擎可以作为⼀个中转将查询语句传递到远程服务器的⼀个表上,不过,它功能很粗糙并且漏洞很多.18. 数据完整性检查⾮常薄弱,即使是基本的完整性约束,也往往不能执⾏。
starroks和mysql语法StarRocks(之前被称为Apache Doris)是一个MPP(大规模并行处理)架构的快速、高并发、高性能的开源分析型数据库。
而MySQL 是一个流行的关系型数据库管理系统。
虽然StarRocks和MySQL都是数据库管理系统,但它们的语法和特性有很大的不同。
以下是StarRocks和MySQL的一些关键差异:1. 架构:StarRocks: 是MPP架构,设计用于分布式计算,特别是在大数据环境下。
它使用分布式文件系统(如HDFS)来存储数据,并使用多线程和并行处理来加速查询。
MySQL: 是传统的关系型数据库管理系统,单节点或主从复制架构。
2. 查询语法:StarRocks: 通常使用类似于SQL的查询语言,但有一些特定的优化和扩展。
例如,它支持一些专为大数据设计的特性,如近似查询和窗口函数。
MySQL: 遵循标准的SQL语法,包括SELECT、INSERT、UPDATE、DELETE等语句。
3. 性能特性:StarRocks: 针对快速查询和高并发性进行了优化。
它旨在提供低延迟的实时分析能力。
MySQL: 在标准应用中提供良好的性能,但在大数据或实时分析方面可能不如StarRocks。
4. 扩展性和容错性:StarRocks: 设计用于分布式环境,因此具有良好的扩展性和容错性。
数据可以分布到多个节点上,如果某个节点失败,其他节点可以继续提供服务。
MySQL: 在某些配置中提供主从复制功能,但通常不具备StarRocks那样的分布式能力。
5. 用途:StarRocks: 主要用于大数据环境下的实时分析,如报表、数据挖掘等。
MySQL: 广泛用于Web应用程序、电子商务网站、中小型应用程序等。
6. 成本:StarRocks: 作为开源项目,其成本相对较低,但可能需要额外的资源进行配置和优化。
MySQL: 既有免费的社区版本,也有企业版本,提供额外的特性和支持。
企业轻量化大数据架构研究李军(四川中电启明星信息技术有限公司 四川成都 610041)摘要:对于很多中小型的大数据项目,应用MySQL等关系型数据库无法实现大数据的存储与计算,应用传统Hadoop大数据生态又太重,比较耗费人力、财力、服务器等资源。
该文研究企业轻量化大数据架构的一种落地方案,并分析其应用场景。
该文研究的轻量化大数据架主要针对企业应用中绝大多数结构化和半结构化大数据分析,数据量规模在1 TB到10 PB之间。
轻量化架构采用MPP数据库(Doris)作为底层存储和计算引擎,Kafka作为数据接入缓冲通道,开发一体化轻量管理组件实现大数据开发中常用的任务调度、表管理、SQL开发、数据接入等功能。
关键词:轻量化大数据架构 MPP数据库 数据任务调度 数据接入中图分类号:TP392文献标识码:A 文章编号:1672-3791(2023)15-0062-04 Research on the Big Data Architecture of the Lightweight ofEnterprisesLI Jun(Aostar Information Technologies Co., Ltd., Chengdu, Sichuan Province, 610041 China)Abstract:For many small-and medium-sized big data projects, the application of relational databases such as MySQL cannot realize the storage and computing of big data, and the application of traditional Hadoop big data ecology is too heavy and consumes more resources such as manpower, financial resources and servers. This paper studies a landing scheme of the big data architecture of the lightweight of enterprises and analyzes its application scenarios. The big data architecture of lightweight studied in this paper is mainly for the analysis of most structured and semi-structured big data in enterprise applications, and the data size is 1 TB~10PB. The architecture of light‐weight uses the MPP database (Doris) as the underlying storage and computing engine, and uses Kafka as the buffer channel for data access, and develops integrated lightweight management components to achieve the commonly-used functions such as task scheduling, table management, SQL development and data access in big data develop‐ment.Key Words: Big data architecture of lightweight; MPP database; Data task scheduling; Data access1 常用大数据架构与传统数据分析一样,大数据信息时代首先要考虑的就是数据存储问题[1],其次是数据的计算问题。
1 概述随着海量数据问题的出现,海量管理能力,多类型,变化快,高可用性,低成本,高端可扩展性等需求给企业数据战略带来了巨大的挑战。
企业数据仓库、数据中心的技术选型变得尤其重要!所以在选型之前,有必要对目前市场上各种大数据量的解决方案进行分析。
2 主流分布式并行处理数据库产品介绍2.1 Greenplum 2.1.1 基础架构Greenplum 是基于Hadoop 的一款分布式数据库产品,在处理海量数据方面相比传统数据库有着较大的优势。
Greenplum 整体架构如下图:数据库由Master Severs 和Segment Severs 通过Interconnect 互联组成。
Master 主机负责:建立与客户端的连接和管理;SQL 的解析并形成执行计划;执行计划向Segment 的分发收集Segment 的执行结果;Master 不存储业务数据,只存储数据字典。
Segment 主机负责:业务数据的存储和存取;用户查询SQL 的执行。
2.1.2 主要特性Greenplum 整体有如下技术特点: Shared-nothing 架构Network Interconnect...Master Severs 查询解析、优化、分发Segment Severs 查询处理、数据存储 External Sources 数据加载海量数据库采用最易于扩展的Shared-nothing架构,每个节点都有自己的操作系统、数据库、硬件资源,节点之间通过网络来通信。
◆基于gNet Software Interconnect数据库的内部通信通过基于超级计算的“软件Switch”内部连接层,基于通用的gNet (GigE,10GigE) NICs/switches在节点间传递消息和数据,采用高扩展协议,支持扩展到1000个以上节点。
◆并行加载技术利用并行数据流引擎,数据加载完全并行,加载数据可达到4。
5T/小时(理想配置)。
并且可以直接通过SQL语句对外部表进行操作◆支持行、列压缩存储技术海量数据库支持ZLIB和QUICKLZ方式的压缩,压缩比可到10:1。
PostgreSQL和GreenPlum数据库的区别PostgreSQLPostgreSQL是以加州⼤学伯克利分校计算机系开发的 POSTGRES,现在已经更名为POSTGRES,版本 4.2为基础的对象(ORDBMS)。
PostgreSQL⽀持⼤部分 SQL标准并且提供了许多其他现代特性:复杂查询、、、视图、完整性、。
同样,PostgreSQL 可以⽤许多⽅法扩展,⽐如,通过增加新的数据类型、函数、操作符、、索引⽅法、过程语⾔。
并且,因为许可证的灵活,任何⼈都可以以任何⽬的免费使⽤、修改、和分发 PostgreSQL,不管是私⽤、商⽤、还是学术研究使⽤。
Greenplum当前使⽤的 OLTP程序中,⽤户访问⼀个中⼼,如果采⽤SMP,它的效率要⽐采⽤MPP结构要快得多。
⽽MPP系统在决策⽀持和数据挖掘⽅⾯显⽰了优势,可以这样说,如果操作相互之间没有什么关系,处理单元之间需要进⾏的通信⽐较少,那采⽤MPP系统就要好,相反就不合适了。
软件优势数据存储当今是个数据不断膨胀的时代,采取MPP架构的才能对海量数据进⾏管理。
Greenplum⽀持50PB(1PB=1000TB)级海量数据的存储和处理,Greenplum将来⾃不同源系统的、不同部门、不同平台的到中集中存放,并且存放详尽历史的数据轨迹,业务⽤户不⽤再⾯对⼀个⼜⼀个信息孤岛,也不再困惑于不同版本数据导致的偏差,同时对于IT⼈员也降低管理维护⼯作的复杂度。
⾼并发随着商业智能在企业内的快速发展,BI ⽤户对信息分析平台的访问频率和查询复杂度也快速提升,因此要求相应的对⾼并发查询进⾏⽀持。
Greenplum利⽤强⼤能⼒提供并发⽀持。
Greenplum提供资源管理功能(workload managemnt)来管理资源,利⽤资源队列管理可实现按⽤户组的进⾏资源分配,如Session同时激活数、最⼤资源值等。
通过资源管理功能,可以按⽤户级别进⾏资源分配和管理⽤户SQL查询优先级别,同时也能防⽌低质量SQL(如没有条件的多表join等)对的消耗。
常用数据库对比(共7页) --本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--常用数据库对比目前,常用于OLAP分析的数据库软件有Oracle、DB2、Teradata、Greenplum、Netezza、Exdata几种。
1、Oracle提起数据库,第一个想到的公司,一般都会是Oracle(甲骨文)。
该公司成立于1977年,最初是一家专门开发数据库的公司。
Oracle在数据库领域一直处于领先地位。
1984年,首先将关系数据库转到了桌面计算机上。
然后,Oracle5率先推出了分布式数据库、客户/服务器结构等崭新的概念。
Oracle 6首创行锁定模式以及对称多处理计算机的支持……最新的Oracle 8主要增加了对象技术,成为关系—对象数据库系统。
目前,Oracle产品覆盖了大、中、小型机等几十种机型,Oracle数据库成为世界上使用最广泛的关系数据系统之一。
2、DB2DB2是IBM公司的产品,起源于System R和System R*。
他支持从PC到UNIX,从中小型机到大型机;从IBM到非IBM(HP及SUN UNIX系统等)各种操作平台。
他既可以在主机上以主/从方式独立运行,也可以在客户/服务器环境中运行。
其中服务平台可以是OS/400,AIX,OS/2,HP-UNIX,SUN-Solaris等操作系统,客户机平台可以是OS/2或Windows, Dos, AIX, HP-UX, SUN Solaris等操作系统。
3、GreenplumGreenplum的架构采用了MPP(大规模并行处理),公司专注于OLAP系统数据引擎开发,有世界级的研发团队进行高性能计算和数据库系统的前沿开发工作,宗旨是向客户提供高性能的超级数据引擎,并将强大的并行计算能力融入到大规模数据仓库分析领域中。
公司具有发展趋势超前的视野和洞察力,为全球很多最大规模的数据仓库提供推动力;公司最先将SQL和Map Reduce的功能整合到统一的数据处理框架中。
1 概述随着海量数据问题的出现,海量管理能力,多类型,变化快,高可用性,低成本,高端可扩展性等需求给企业数据战略带来了巨大的挑战。
企业数据仓库、数据中心的技术选型变得尤其重要!所以在选型之前,有必要对目前市场上各种大数据量的解决方案进行分析。
2 主流分布式并行处理数据库产品介绍2.1 Greenplum2.1.1 基础架构Greenplum 是基于Hadoop 的一款分布式数据库产品,在处理海量数据方面相比传统数据库有着较大的优势。
Greenplum 整体架构如下图:Network Interconnect....... ...MasterSeversSegment Severs查询处理、数据存储 ExternalSources数据加载 SQL ... SQL数据库由Master Severs和Segment Severs通过Interconnect互联组成。
Master主机负责:建立与客户端的连接和管理;SQL的解析并形成执行计划;执行计划向Segment的分发收集Segment的执行结果;Master不存储业务数据,只存储数据字典。
Segment主机负责:业务数据的存储和存取;用户查询SQL的执行。
2.1.2主要特性Greenplum整体有如下技术特点:Shared-nothing架构海量数据库采用最易于扩展的Shared-nothing架构,每个节点都有自己的操作系统、数据库、硬件资源,节点之间通过网络来通信。
基于gNet Software Interconnect数据库的内部通信通过基于超级计算的“软件Switch”内部连接层,基于通用的gNet (GigE, 10GigE) NICs/switches在节点间传递消息和数据,采用高扩展协议,支持扩展到1000个以上节点。
并行加载技术利用并行数据流引擎,数据加载完全并行,加载数据可达到4。
5T/小时(理想配置)。
并且可以直接通过SQL语句对外部表进行操作支持行、列压缩存储技术海量数据库支持ZLIB和QUICKLZ方式的压缩,压缩比可到10:1。
压缩数据不一定会带来性能的下降,压缩表通过利用空闲的CPU资源,而减少I/O资源占用。
海量数据库除支持主流的行存储模式外,还支持列存储模式。
如果常用的查询只取表中少量字段,则列模式效率更高,如查询需要取表中的大量字段,行模式效率更高。
海量数据库的多种压缩存储技术在提高数据存储能力的同时,也可根据不同应用需求提高查询的效率2.1.3主要局限列存储模式的使用有限制,不支持delete/update操作。
用户不可灵活控制事务的提交,用户提交的处理将被自动视作整体事务,整体提交,整体回滚。
数据库需要额外的空间清理维护(vacuum),给数据库维护带来额外的工作量。
用户不能灵活分配或控制服务器资源。
对磁盘IO有比较高的要求。
备份机制还不完善,没有增量备份。
2.2Vertica2.2.1基础架构与以往常见的行式关系型数据库不同,Vertica 是一种基于列存储(Column-Oriented)的数据库体系结构,这种存储机构更适合在数据仓库存储和商业智能方面发挥特长。
常见的RDBMS 都是面向行(Row-Oriented Database)存储的,在对某一列汇总计算的时候几乎不可避免的要进行额外的I/O 寻址扫描,而面向列存储的数据库能够连续进行I/O 操作,减少了I/O 开销,从而达到数量级上的性能提升。
同时,Vertica 支持海量并行存储(MPP)架构,实现了完全无共享,因此扩展容易,可以利用廉价的硬件来获取高的性能,具有很高的性价比。
如下图,展示的是单节点上的Vertica 的基本体系结构。
Vertica 体系结构作为关系型数据库,Vertica 的查询SQL 也是在前端被解析和优化的。
但与传统的关系型数据库有所不同,Vertica内部是混合存储的,包括两种不同的存储结构:写优化器(WOS)和读优化器(ROS)。
(1) 写优化器WOS(Write-Optimized Store)是位于主存储器上的一个数据结构,用于有效的支持数据插入和更新操作;数据的存放是无序的,非压缩的。
(2) 读优化器ROS(Read-Optimized Store)是磁盘物理存储,存放的是排序和压缩后的数据库大块数据,因此这里的查询相比于WOS 性能更好。
(3) Tuple Mover 进程是Vertica 内部的一个进程,定期的以大数据块的形式把数据从WOS 移到ROS,由于是对整个WOS 操作,TupleMover 一次能非常有效的排序很多记录,最后批量把它们写入磁盘。
在Vertica 内部,不论是WOS 还是ROS 都是按列存储的。
2.2.2主要特性Vertica 的关键特性:1 列存储(Column-orientation)由于大多数的查询都是要从磁盘读取数据,因此可以说disk I/O 在很大程度上决定了一个查询的最终响应时间。
2 压缩机制(Aggressive Compression)在数据存储方面,Vertica 利用内部的特定算法对数据进行压缩处理。
这样的机制会大大减少disk I/O 的时间(D),同时由于Vertica 对扫描和聚合等操作也在内部进行了优化,可以直接处理压缩后的数据,这样CPU 的工作负载(C)也减少了。
如上例中的AVG 聚合函数,Vertica 是不需要将压缩数据先做类似解压这种处理的,因此查询性能得到优化。
3 读优化存储(Read-Optimized Storage)Vertica 的数据库存储容器ROS Container 专门为读操作进行了优化设计,且其中的数据是经过了排序和压缩处理的,即每个磁盘页上不会有空白空间,而传统的数据库一般会在每页上预留空间以便日后的insert 操作来使用。
4 多种排序方式的冗余存储为了高可用性和备份恢复的需要,Vertica 会按照不同的排序方式对数据做冗余存储,这不但避免了大量的日志操作,也为查询带来了便利。
Vertica 的查询优化器会自动选择最优的排序方式来完成特定的查询。
5 并行无共享设计Vertica 支持完全无共享海量并行存储(MPP)架构,随着硬件Server 的增加,多个CPU 并行处理,性能也可以得到线性的扩展,这样用户使用廉价的硬件就可以获得较高的性能改善。
6 其他管理特征除了有优越的性能以外,Vertica 在数据库管理方面也进行了非常人性化的设计。
Vertica Database Designer 是一个界面化的日常管理工具,并且能为用户作出详尽的DB 层物理设计方案,大大减少了日后的性能调优方面的开销。
Vertica 通过K-Safety 值的设置,完成了数据库的备份恢复机制,并保证了高可用性。
对于数据库中的每个表每个列,Vertica 都会在至少K+1 个节点上存储,如果有K 个节点宕机,依然能够保证Vertica DB 是完整可用的;当损坏的节点恢复时,Vertica 自动完成节点间的热交换,把其他节点上的正确数据恢复过来。
通过这种机制也保证了Vertcia 库的节点数目可以自由伸缩而不会影响到数据库的操作。
Vertica 通过两种技术来实现在线的持续数据装载而不会影响到数据库的访问。
Vertica 通常运行在快照隔离(Snapshot Isolation)模式下,该模式下查询读取的是最近的一致的数据库快照,这个快照是不能被并发的update 或delete 操作更改的,因此查询操作也不需要占用锁,这种方式保证了数据装载(insert)和其他查询能互不干扰。
另外,Vertica 可以把数据直接装载到WOS 结构中,WOS 中的数据是不排序或索引的,所以装载速度会很快,然后再由Tuple Mover 进程在后台把数据移入ROS 中,由于TupleMover 的操作是大块读取(bulk-load)的,所以性能也很好。
2.2.3主要局限不支持SQL存储过程及函数,用户需通过UDFs(User Defined Function,基于C++)来自定义函数或过程。
软件授权按原始未经压缩的裸数据量计算。
列存储的一些劣势,复杂查询等性能不理想。
对内存有比较高的要求。
在国内还没有成功案例。
2.3Sybase IQ2.3.1基础架构SYBASE IQ是Sybase公司推出的特别为数据仓库设计的关系型数据库。
SYBASE IQ的架构与大多数关系型数据库不同,它特别的设计用以支持大量并发用户的即席查询。
其设计与执行进程优先考虑查询性能,其次是完成批量数据更新的速度。
而传统关系型数据库引擎的设计既考虑在线的事务进程又考虑数据仓库(而事实上,往往更多的关注事务进程)。
Sybase在2010年推出的Sybase IQ 就采用了全共享架构的 PlexQ 技术,该技术重新定义了企业范围的业务信息,全共享架构可轻松支持涉及海量数据集、海量并发用户数和独特工作流程的多种复杂分析样式,大大增加了其效益。
与其他 MPP 解决方案不同,Sybase IQ 的 PlexQ 网格技术能够动态管理可轻松扩展并且专用于不同组和流程的一系列计算与存储资源中的分析工作量,从而使其能够以更低的成本更轻松地支持日益增长的数据量以及快速增长的用户社区。
Sybase IQ 采用业内领先的MPP列式数据库和最先进的数据库内分析技术,并革命性地加入MapReduce与Hadoop集成,以应对大数据时代的分析挑战,开启洞察关键业务的能力。
Sybase IQ 正在打破数据分析的壁垒,彻底改变“大数据分析”领域。
基于成熟的PlexQ 技术构建的Sybase IQ 采用下图所示的三层构架:基本层:数据库管理系统 (DBMS),这是一个全共享 MPP 分析 DBMS 引擎,是Sybase IQ 最大的独特优势。
第二层:分析应用程序服务层,其提供 C++ 和 Java 数据库内 API,并可实现与外部数据源的集成和联邦;包括四种与Hadoop 的集成方法。
顶层:Sybase IQ 生态系统,由四个强大且不同的合作伙伴和认证 ISV 应用程序组成。
基于这种 PlexQ 技术,Sybase IQ 将大数据转变成可指挥每个人都行动的情报信息,从而在整个企业的用户和业务流程范围内轻松具备大数据的分析能力。
2.3.2主要特性Sybase IQ()的关键特性:1. 更强的数据管理大量增强的功能改善了Sybase IQ 的数据管理、部署和可维护性。
更快速的批量加载: 批量加载数据通过ODBC 和 JDBC 接口插入到Sybase 中,从而实现具有更高可扩展性的应用程序,同时可极大提高加载性能。
更出色的文本压缩: 更出色地对 VARCHAR、VARBINARY、CHAR 和 BINARY 压缩可实现以更高效率、更低成本部署高性能文本分析应用程序,同时极大提高压缩速率。