当前位置：文档之家› 基于Kudu的结构化数据存储方案设计分析

基于Kudu的结构化数据存储方案设计分析

龙源期刊网 https://www.doczj.com/doc/612562650.html,

基于Kudu的结构化数据存储方案设计分析作者：李松涛

来源：《数字技术与应用》2019年第10期

摘要：本文主要围绕以Kudu为基础结构化的数据存储整体方案设计开展深入地研究探讨，希望能够为今后方案设计及完善相关实践工作的有效进展提供建议参考。

关键词：Kudu;结构化;数据存储;方案设计

中图分类号：TP311.13 文献标识码：A 文章编号：1007-9416（2019）10-0183-01

0 引言

因受到传统数据库的存储架构方面设计所限制，传统模式下结构化的数据在扩展性、时效性方面均相对较差，优化难度相对较高。对此，深入研究以Kudu为基础结构化的数据存储整体方案设计，对提升结构化的数据在扩展性、时效性各方面性能有着极大的现实意义及价值。

1 总体框架设计

结构化的数据存储方面分析引擎组成部分包括：接入数据、分布式Kudu存储引擎、转储数据引擎、Hadoop Cluster、Hplsql、交互数据处理Impala引擎、分布式Spark计算引擎。如下，为各个功能系统模块组件的功能详细介绍[1]：

（1）接入数据。接入数据系统模块，它主要是提供着标准化REST网关，经REST网关的隔离，将写入Kudu数据要求必须连通着集群内部全部Tablet Server网络安全性及连通性方面问题妥善解决;同时，还将Kudu接口处错误调用所致集群方面稳定性相关问题，可实现跨语言式调用操作。接入数据该系统模块内，设计支持Kettle、Flume接入，Flume Agent当中的sink即可实现，经avro协议、文件、命令等输出各种方式接入数据，促使Kettle 输出转换的操作接口可集成STE所输出的插件，Kettle内科直接拖拽应用STE所输出的组件，自关系的数据库与文件等各种Kettle 支持输入的方式，数据可被输出至Kudu内。（2）转储数据引擎。转储数据引擎，其主要是为把Kudu内部历史数据及时转储至Hadoop内，采用parquet的格式实现存储操作。如此操作的好处即为：多数实时化查询均已最近数据为基础，历史数据全部归档至Hadoop内，则Kudu内实际数据量存储必然减少，它的实时化存储及分析方面的能力能够得到很好利用;同时，数据全部归档成为parquet的格式，则Impala实际分析的速度将会得到提升。因Impala 自身支持着parquet该格式查询数据，故仅需把Kudu内部数据存储于Hadoop

内部，数据经表UNION后，全量的数据分析即可实现。（3）分布式Kudu存储引擎。存储数据引擎，经设计数据表，主要包含着列压缩、分区、主键等设计，数据存储的空间占用得以缩小，系统的IO性能能够得以提升，且数据实际的检索效率也将得到提升。（4）Hadoop