大数据分析关键技术38

  • 格式:ppt
  • 大小:2.44 MB
  • 文档页数:38

下载文档原格式

  / 38
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

即席查询
实时性:高
即席查询
即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成 相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是用 户自定义查询条件。
Meta Data
Batch Processing
Ad-Hoc Query
Data
HDFS DN
HBase
Impala Node
Impalad
Query Planner Query Coordinator Query Exec Engine
Data
HDFS DN
HBase
Impala Node
Local Direct Reads
PPT文档演模板
Thrift
大数据分析关键技术38
PPT文档演模板
Hive架构
SQL
JDBC
WUI
Thrift Server
Meta Store
Driver (Compiler, Optimizer, Executor)
Hive (Over Hadoop 0.20.X)
Job Tracker
Name Node
• ThriftServer:JDBC通过ThriftServer 连接到Hive。ThriftServer连接 MetaStore来读取hive的元数据信息。
Input Adapter
NoSQL
Engine Cluster
Cluster Management
Rule Repository
PPT文档演模板
大数据分析关键技术38
• 概述 • 即席查询 • 批量处理 • 流式计算
PPT文档演模板
大数据分析关键技术38
Impala架构
SQL
JDBC
Common HiveQL & Interface
Βιβλιοθήκη Baidu
Column Database
PPT文档演模板
大数据分析关键技术38
流式计算
实时性:高
流式计算
流数据的实时计算注重对流数据的快速高效处理、计算和分析。其特点是计算过程数据不落地,所有 数据在内存中完成。其计算模型是根据规则生成容器,当数据流经过容器时,实时产生分析结果。
Output Adapter
• MetaStore:在关系型数据库中存放表 /分区/列元数据,可以低延迟的快速的 访问到需要的元数据信息。
• Driver/QueryCompiler/ExecutionEn gine:客户端提交的HiveSQL首先进入 Driver,然后Driver会为此次HiveSQL 的执行创建一个Session,Driver维护 整个session的生命周期。Driver首先 将HiveSQL传送给QueryCompiler, 然后由QueryCompiler来对用户提交 的HiveSQL进行编译/检查/优化并最终 生成MapReduce任务。
Batch Processing
Ad-Hoc Query
Meta Data
SQL Syntax
Parallel Compute Framework
SQL Syntax+ Compute Framework
Resource Management
Storage
Distribute File System
Hive MetaStore
HDFS NN
MetaData
State Store
Impalad
Query Planner Query Coordinator Query Exec Engine
Data
HDFS DN
HBase
Impala Node
Impalad
Query Planner Query Coordinator Query Exec Engine
SQL Syntax
Parallel Compute Framework
SQL Syntax+ Compute Framework
Resource Management
Storage
Distribute File System
Column Database
PPT文档演模板
大数据分析关键技术38
批量处理
实时性:低
批量处理 MapReduce是一种编程模型,用于大规模数据集的并行批量计算。概念Map和Reduce当前的主流
实现是指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保 证所有映射的键值对中的每一个共享相同的键组。
形成这种模型的原因是:数据的分布式存储、计算资源的分布式、并行计算减少计算时长。
Impala借鉴了MPP并行数据库的思想,可以做更多的查询优化,从而省掉不必要的 shuffle、sort等开销。
• ExecutionEngine会与Hadoop进行交 互,将 MapReduce任务交给Hadoop 来执行,并从Hadoop取得最终的执行 结果,并返回给用户。
Data
HDFS DN
Task Tracker
Hadoop
解析HiveSQL之后生成所MapReduce 任务,在运行中访问元数据信息时,将直接 读取生成的物理计划时产生的plan.xml,此 文 件 会 被 放 入 Hadoop 的 分 布 式 缓 存 中 , , MapReduce任务可以从分布式缓存中获得相 应的元数据。
大数据分析关键技术38
PPT文档演模板
2020/11/15
大数据分析关键技术38
• 概述 • 即席查询 • 批量处理 • 流式计算
PPT文档演模板
大数据分析关键技术38
大数据计算分析模式分类
数据承载
响应时间
适用场景
即席查询 Ad-Hoc Query
批量处理 Batch Processing
Map/Reduce
流式计算 Stream Computing
磁盘
磁盘
内存 (事件窗口 非全量数据)
秒级 (准实时)
分钟级至小时级 (准实时)
秒级 (实时)
自然人交互式 经营分析
事前/事后 大批量数据处理
实时事件分析 实时风险干预
针对不同的业务领域,需要采用不同的数据计算分析方式,快速发现数据价值。
PPT文档演模板
大数据分析关键技术38
大数据分析关键技术38
Impala相对于Hive的优势
中间结 果
作业调 度
作业分 发
数据访 问
代码实 现
Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销。
省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(默认每个心跳间 隔是3秒钟),Impala直接通过相应的服务进程来进行作业调度,速度快了很多。

相关主题