Spark入门实战系列

格式：doc
大小：2.64 MB
文档页数：39

下载文档原格式

Spark大数据分析与实战：RDD编程初级实践Spark大数据分析与实战：RDD编程初级实践

Spark⼤数据分析与实战：RDD编程初级实践Spark⼤数据分析与实战：RDD编程初级实践Spark⼤数据分析与实战：RDD编程初级实践⼀、安装Hadoop和Spark具体的安装过程在我以前的博客⾥⾯有，⼤家可以通过以下链接进⼊操作：** 提⽰：如果IDEA未构建Spark项⽬，可以转接到以下的博客： **⼆、启动Hadoop与Spark查看3个节点的进程master slave1 slave2Spark shell命令界⾯与端⼝页⾯三、spark-shell交互式编程请到教程官⽹的“下载专区”的“数据集”中下载chapter5-data1.txt，该数据集包含了某⼤学计算机系的成绩，数据格式如下所⽰： Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBase,90 Jim,Algorithm,60 Jim,DataStructure,80 …… 请根据给定的实验数据，在spark-shell中通过编程来计算以下内容：** 如果找不到数据可以从这下载：数据集链接：提取码：z49l **（1）该系总共有多少学⽣；shell命令：val lines = sc.textFile("file:///opt/software/Data01.txt")lines.map(row=>row.split(",")(0)).distinct().count运⾏截图：（2）该系共开设来多少门课程；shell命令：lines.map(row=>row.split(",")(1)).distinct().count运⾏截图：（3）Tom同学的总成绩平均分是多少；shell命令：lines.filter(row=>row.split(",")(0)=="Tom").map(row=>(row.split(",")(0),row.split(",")(2).toInt)) .mapValues(x=>(x,1)).reduceByKey((x,y) => (x._1+y._1,x._2 + y._2)).mapValues(x => (x._1 / x._2)).collect()运⾏截图：（4）求每名同学的选修的课程门数；shell命令：lines.map(row=>(row.split(",")(0),1)).reduceByKey((x,y)=>x+y).collect运⾏截图：（5）该系DataBase课程共有多少⼈选修；shell命令：lines.filter(row=>row.split(",")(1)=="DataBase").count运⾏截图：（6）各门课程的平均分是多少；shell命令：lines.map(row=>(row.split(",")(1),row.split(",")(2).toInt)).mapValues(x=>(x,1)).reduceByKey((x,y) => (x._1+y._1,x._2 + y._2)).mapValues(x => (x._1 / x._2)).collect()运⾏截图：（7）使⽤累加器计算共有多少⼈选了DataBase这门课。

Spark系列：Python版Spark编程指南

Spark系列：Python版Spark编程指南⽬录⼀、介绍⼆、连接Spark三、创建RDD四、RDD常⽤的转换 Transformation五、RDD 常⽤的执⾏动作 Action⼆、连接SparkSpark1.3.0只⽀持Python2.6或更⾼的版本（但不⽀持Python3）。

它使⽤了标准的CPython解释器，所以诸如NumPy⼀类的C库也是可以使⽤的。

通过Spark⽬录下的bin/spark-submit脚本你可以在Python中运⾏Spark应⽤。

这个脚本会载⼊Spark的Java/Scala库然后让你将应⽤提交到集群中。

你可以执⾏bin/pyspark来打开Python的交互命令⾏。

如果你希望访问HDFS上的数据，你需要为你使⽤的HDFS版本建⽴⼀个PySpark连接。

常见的HDFS版本标签都已经列在了这个第三⽅发⾏版页⾯。

最后，你需要将⼀些Spark的类import到你的程序中。

加⼊如下这⾏：from pyspark import SparkContext, SparkConf在⼀个Spark程序中要做的第⼀件事就是创建⼀个SparkContext对象来告诉Spark如何连接⼀个集群。

为了创建SparkContext，你⾸先需要创建⼀个SparkConf对象，这个对象会包含你的应⽤的⼀些相关信息。

conf = SparkConf().setAppName(appName).setMaster(master)sc = SparkContext(conf=conf)appName参数是在集群UI上显⽰的你的应⽤的名称。

master是⼀个Spark、Mesos或YARN集群的URL,如果你在本地运⾏那么这个参数应该是特殊的”local”字符串。

在实际使⽤中，当你在集群中运⾏你的程序，你⼀般不会把master参数写死在代码中，⽽是通过⽤spark-submit运⾏程序来获得这个参数。

但是，在本地测试以及单元测试时，你仍需要⾃⾏传⼊”local”来运⾏Spark程序。

Spark大数据处理框架入门与实践

Spark大数据处理框架入门与实践概述Spark是现今最流行的大数据处理框架之一，它可以处理多种类型的数据，包括结构化数据、半结构化数据、非结构化数据、日志数据等。

本文将介绍Spark的基本概念与使用方法，并通过实际案例帮助读者快速掌握Spark大数据处理框架。

Spark的基本概念Spark是一种基于内存的分布式计算框架，可以将数据分布在多个节点上进行计算，从而提高计算效率。

Spark的核心理念是弹性分布式数据集（Resilient Distributed Dataset，简称RDD），它是一种分布式的元素集合，通过分布式群集实现高效计算。

RDD 分为两种类型：Spark的高级API中，基于RDD构建的应用程序称为Spark Core。

Spark的优势Speed：Spark使用内存计算，因此速度要比Hadoop快。

Ease of Use：Spark的API非常友好，许多用户花费很短的时间在上手Spark上。

Unified Engine：Spark的统一计算引擎可以处理多个任务，包括批量处理、流处理等。

Real-time stream processing：Spark有流计算框架Spark Streaming，可以进行流处理。

安装Spark安装Java环境下载Spark启动SparkSpark的实践在下面的实践中，我们将从实际的案例开始使用Spark构建项目。

案例描述我们将使用Spark来分析一份数据，该数据是储格拉斯选举数据，包括每个区域的投票情况和每个候选人得票情况。

步骤1：数据探索我们先下载数据并使用Spark来分析。

下载数据分析数据在Spark中，数据可以从多种来源读取，例如HDFS、S3、HTTP等。

对于我们的数据，我们可以使用以下代码从文件中读取。

在将数据读取到Spark中之后，我们可以使用一些API来处理数据。

下面是一些示例代码，用于清理数据并返回有关储格拉斯选举的一些统计信息。

步骤2：数据处理在数据探索之后，我们需要进一步处理数据。

spark入门及实践

2010’NJUPT
纲要
1
Spark综述核心技术
5
2
Spark安装部署
Spark应用实例 Scala简介
3
Spark架构
6
4
BDAS简介
7
2010’NJUPT
三、Spark体系架构
1
架构组成
Master Worker
2010’NJUPT
三、Spark体系架构
2
架构图
2010’NJUPT
2010’NJUPT
一、Spark综述
3
Spark与Hadoop
3、执行策略 MapReduce在数据shuffle之前总是花费大量时间来排序。Spark支持基于Hash的分布式聚合，在需要的时候再进行实际排序。
4、任务调度的开销 MapReduce上的不同作业在同一个节点运行时，会各自启动一个JVM。而Spark同一节点的所有任务都可以在一个JVM上运行。
1
Spark是什么
Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。 Spark于2009年诞生于加州大学伯克利分校AMPLab。并且于2010年 Matai zaharia 开源。2013年6月Spark进入 Apache孵化器。目前，已经成为 /matei/ Apache软件基金会旗下的顶级开源项目。
2010’NJUPT
纲要
1
Spark综述核心技术
5
2
Spark安装部署
Spark应用实例 Scala简介
3

第10课：实战java开发spark程序

</dependency> <dependency>
<groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka_2.10</artifactId> <version>1.6.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-graphx_2.10</artifactId> <version>1.6.0</version> </dependency> </dependencies>
<name>SparkApps</name> <url></url>
<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>3.8.1</version> <scope>test</scope> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.6.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.10</artifactId> <version>1.6.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.10</artifactId> <version>1.6.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.10</artifactId> <version>1.6.0</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.0</version>

sparkcore入门到实战之（1）spark基础入门

sparkcore⼊门到实战之（1）spark基础⼊门第1章Spark 概述1.1 什么是Spark Sp a r k的产⽣背景 Sp a r k是⼀种快速、通⽤、可扩展的⼤数据分析引擎，2009年诞⽣于加州⼤学伯克利分校A M P La b，2010年开源，2013年6⽉成为A p a c h e孵化项⽬，2014年2⽉成为A p a c h e顶级项⽬。

项⽬是⽤Sc a l a进⾏编写。

⽬前，Sp a r k⽣态系统已经发展成为⼀个包含多个⼦项⽬的集合，其中包含Sp a r k SQ L、Sp a r k St r e a m in g、G r a p h X、M Lib、Sp a r k R等⼦项⽬，Sp a r k是基于内存计算的⼤数据并⾏计算框架。

除了扩展了⼴泛使⽤的M a p R e d u c e计算模型，⽽且⾼效地⽀持更多计算模式，包括交互式查询和流处理。

Sp a r k适⽤于各种各样原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理。

通过在⼀个统⼀的框架下⽀持这些不同的计算，Sp a r k使我们可以简单⽽低耗地把各种处理流程整合在⼀起。

⽽这样的组合，在实际的数据分析过程中是很有意义的。

不仅如此，Sp a r k的这种特性还⼤⼤减轻了原先需要对各种平台分别管理的负担。

⼤⼀统的软件栈，各个组件关系密切并且可以相互调⽤，这种设计有⼏个好处： 1、软件栈中所有的程序库和⾼级组件都可以从下层的改进中获益。

2、运⾏整个软件栈的代价变⼩了。

不需要运⾏5到10套独⽴的软件系统了，⼀个机构只需要运⾏⼀套软件系统即可。

系统的部署、维护、测试、⽀持等⼤⼤缩减。

3、能够构建出⽆缝整合不同处理模型的应⽤。

Sp a r k的内置项⽬如下： S p a r k C o r e：实现了Sp a r k的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。

Sp a r k C o r e中还包含了对弹性分布式数据集(r e s il ie n t d is t r ib u t e d d a t a s e t，简称R D D)的A P I定义。

Spark大数据分析实战课件

算法
协同过滤推荐算法
基于关联规则的推荐
基于效用的推荐
基于知识的推荐
组合推荐
基于用户的推荐基于项目的推荐基于模型的推荐
09
社交网络分析
社团挖掘
聚类分析 K均值算法(K-Means)找到社交网络中的团体
好友关系推荐
1. 可能认识的人 2. 可能感兴趣的人
链路分析
10
大规模新闻主题分析
热点新闻分析系统
Spark Elastic Search 构建全文检索引擎
07
热点新闻分析系统
系统架构
新闻抓取模块
01
Scrapy抓取Kafka传输Mongo存储
实时新闻分析模块
02
Spark Streaming实时处理
离线新闻分析模块
03
Spark定时从MongoDB中批量处理,离线热点分析
轻量级快速处理
Scala简化了代码
利用了第三方组件
基于内存计算,减少了磁盘IO
易于使用,支持多语言
支持Scala,Java,Python
自带80多个算子
Spark简介
Spark生态系统BDAS
数据分析栈
组件
组件
Spark
组件
Spark SQL
Spark Streaming
流式计算吞吐量超过Strom
运行Worker的Task执行器
Spark组件
SparkConext
应用的上下文, 控制应用的声明周期
Spark组件
RDD
Spark组件
Spark的基本计算单元, 一组RDD形成执行的有向无环图
DAG schedule
Spark组件

Spark入门实战系列

但是，随着Spark的发展，对于野心勃勃的Spark团队来说，Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark的One Stack Rule Them All的既定方针，制约了Spark各个组件的相互集成，所以提出了SparkSQL项目。

SparkSQL 抛弃原有Shark的代码，汲取了Shark的一些优点，如内存列存储（In-Memory Columnar Storage）、Hive兼容性等，重新开发了SparkSQL代码；由于摆脱了对Hive的依赖性，SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便，真可谓“退一步，海阔天空”。

●数据兼容方面不但兼容Hive，还可以从RDD、parquet文件、JSON文件中获取数据，未来版本甚至支持获取RDBMS数据以及cassandra等NOSQL数据；●性能优化方面除了采取In-Memory Columnar Storage、byte-code generation等优化技术外、将会引进Cost Model对查询进行动态评估、获取最佳物理计划等等；●组件扩展方面无论是SQL的语法解析器、分析器还是优化器都可以重新定义，进行扩展。

2014年6月1日Shark项目和SparkSQL项目的主持人Reynold Xin宣布：停止对Shark的开发，团队将所有资源放SparkSQL项目上，至此，Shark的发展画上了句话，但也因此发展出两个直线：SparkSQL和Hive on Spark。

其中SparkSQL作为Spark生态的一员继续发展，而不再受限于Hive，只是兼容Hive；而Hive on Spark是一个Hive的发展计划，该计划将Spark作为Hive的底层引擎之一，也就是说，Hive将不再受限于一个引擎，可以采用Map-Reduce、Tez、Spark等引擎。

1.3SparkSQL的性能Shark的出现，使得SQL-on-Hadoop的性能比Hive有了10-100倍的提高：那么，摆脱了Hive的限制，SparkSQL的性能又有怎么样的表现呢？虽然没有Shark相对于Hive那样瞩目地性能提升，但也表现得非常优异：为什么SparkSQL的性能会得到怎么大的提升呢？主要SparkSQL在下面几点做了优化：A：内存列存储（In-Memory Columnar Storage）SparkSQL的表数据在内存中存储不是采用原生态的JVM对象存储方式，而是采用内存列存储，如下图所示。

sparkSQL实战详解

sparkSQL实战详解摘要再多说⼀点，对于初学者，本⼈坚持的观点是不要⼀上来就看源码，这样的效果不是很⼤，还浪费时间，对这个东西还没有⼤致掌握，还不知道它是⼲什么的，上来就看源码，门槛太⾼，⽽且看源码对个⼈的提升也不是很⾼。

我们做软件开发的，我们开发的顺序也是，⾸先是需求，对需求有了详细的认识，需要解决什么问题，然后才是软件的设计，代码的编写。

同样，学习框架也是，我们只有对这个框架的需求，它需要解决什么问题，它需要⼲什么⼯作，都⾮常了解了，然后再看源码，这样效果才能得到很⼤的提升。

对于阅读源代码这⼀块，是本⼈的⼀点看法，说的对与错，欢迎吐槽......！1、sparkSQL层级当我们想⽤sparkSQL来解决我们的需求时，其实说简单也简单，就经历了三步：读⼊数据 -> 对数据进⾏处理 -> 写⼊最后结果，那么这三个步骤⽤的主要类其实就三个：读⼊数据和写⼊最后结果⽤到两个类HiveContext和SQLContext，对数据进⾏处理⽤到的是DataFrame 类，此类是你把数据从外部读⼊到内存后，数据在内存中进⾏存储的基本数据结构，在对数据进⾏处理时还会⽤到⼀些中间类，⽤到时在进⾏讲解。

如下图所⽰：2、HiveContext和SQLContext把HiveContext和SQLContext放在⼀起讲解是因为他们是差不多的，因为HiveContext继承⾃SQLContext，为什么会有两个这样的类，其实与hive和sql有关系的，虽然hive拥有HQL语⾔，但是它是⼀个类sql语⾔，和sql语⾔还是有差别的，有些sql语法，HQL是不⽀持的。

所以他们还是有差别的。

选择不同的类，最后执⾏的查询引擎的驱动是不⼀样的。

但是对于底层是怎么区别的这⾥不做详细的介绍，你就知道⼀点，使⽤不同的读数据的类，底层会进⾏标记，⾃动识别是使⽤哪个类进⾏数据操作，然后采⽤不同的执⾏计划执⾏操作，这点在上⼀篇sparkSQL整体框架中进⾏了介绍，这⾥不做介绍。

第2章 Spark基础-Spark大数据分析与实战-黑马程序员-清华大学出版社

4 搭建和配置
理解Spark作业提交的
工作原理
3
✎ 目录
初识Spark
☞点击查看本节相关知识点
搭建Spark开发环境
☞点击查看本节相关知识点
Spark运行架构与原理
☞点击查看本节相关知识点
✎ 目录
体验第一个Spark程序
☞点击查看本节相关知识点
启动Spark-Shell
☞点击查看本节相关知识点
IDEA开发WordCount程序
☞点击查看本节相关知识点
✎ 章节概要
Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室，它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算速度快，而且内置了丰富的API，使得我们能够更加容易编写程序。
本章将从Spark的发展说起，针对Spark集群部署、Spark运行架构及其原理进行详细讲解。
易用性
速度快
通用性
兼容性
✎ 2.1 初识Spark
Spark应用场景

• 数据工程师可以利用Spark进行数据分析与建模，由于Spark具有良好
的易用性，数据工程师只需要具备一定的SQL语言基础、统计学、机
器学习等方面的经验，以及使用Python、Matlab或者R语言的基础编
程能力，就可以使用Spark进行上述工作。
01 编程方式
Hadoop的MapReduce计算数据时，要转化为Map和Reduce两个
过程，从而难以描述复杂的数据处理过程；而Spark的计算模型不
局限于Map和Reduce操作，还提供了多种数据集的操作类型，编
程模型比MapReduce更加灵活。
0
02
数据存储
Hadoop的MapReduce进行计算时，每次产生的中间结果都存储在本地磁盘中；而Spark在计算时产生的中间结果存储在内存中。

spark入门及实践

2010’NJUPT
2010’NJUPT
纲要
1 Spark综述 2 核心技术 3 Spark架构 4 BDAS简介
5 Spark安装部署 6 Spark应用实例 7 Scala简介
2010’NJUPT
三、Spark体系架构
1 架构组成 Master Worker
2010’NJUPT
三、Spark体系架构
2 架构图
2010’NJUPT
二、Spark关键技术
宽依赖和窄依赖的样例。每一个方框表示一个 RDD，其内的阴影矩形表示 RDD 的分区。
2010’NJUPT

二、Spark关键技术
4 RDD算子
RDD操作算子，RDD中的操作算子可以分为两类： Transformation（变换）算子与 Action（行动）算子。
Transformation
Transformation操作是延迟计算的，也就是说从一个 RDD转换生成另一个RDD的转换操作不是立即执行的，而是需要等到Action操作是才真正出发运算。
Action
Action算子会触发Spark提交作业，并将数据输出到 Spark系统。
2010’NJUPT
二、Spark关键技术
6 spark的容错机制
2010’NJUPT
二、Spark关键技术
检查点支持：虽然 lineage 可用于错误后 RDD 的恢复，但对于很长的 lineage 的 RDD 来说，这样的恢复耗时较长。由此，可以考虑将某些 RDD 进行检查点操作 (Checkpoint)保存到稳定存储上。 Spark 当前提供了为 RDD 设置检查点操作的 API , 让用户自行决定需要为哪些数据设置检查点操作。由于 RDD 的只读特性使得比常用的共享内存更容易做 checkpoint.由于不需要关心一致性的问题，RDD 的写出可在后台进行，而不需要程序暂停或进行分布式快照

Spark MLlib基础入门

Spark MLlib机器学习第一版讲师黄美灵
DATAGURU专业数据分析社区
Spark RDD 转换操作
3）flatMap
flatMap类似于map，但是每一个输入元素，会被映射为0到多个输出元素（因此，func函数的返回值是一个Seq，而不是单一元素）， RDD之间的元素是一对多关系； val rdd4 = rdd3. flatMap (x => x to 20) res5: Array[Int] = Array(12, 13, 14, 15, 16, 17, 18, 19, 20, 14, 15, 16, 17, 18, 19, 20, 16, 17, 18, 19, 20, 18, 19, 20)
Spark MLlib机器学习第1周
Spark MLlib机器学习第一版讲师黄美灵
DATAGURU专业数据分析社区
讲师介绍
黄美灵，网名：sunbow，Spark爱好者，现从事移动互联网的计算广告和数据变现工作。《Spark MLlib机器学习：算法、源码及实战详解》作者 CSDN博客专家 /sunbow0
Spark MLlib机器学习第一版讲师黄美灵
DATAGURU专业数据分析社区
Spark RDD 转换操作
6）sample
sample(withReplacement,fraction,seed)是根据给定的随机种子seed，随机抽样出数量为frac的数据。withReplacement：是否放回抽样；fraction：比例，0.1表示10% ； val a = sc.parallelize(1 to 10000, 3) a.sample(false, 0.1, 0).count res24: Long = 960

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、SparkSQL的发展历程1.1Hive and SharkSparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。

但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行效率，为了提高SQL-on-Hadoop的效率，大量的SQL-on-Hadoop工具开始产生，其中表现较为突出的是：●MapR的Drill●Cloudera的Impala●Shark其中Shark是伯克利实验室Spark生态环境的组件之一，它修改了下图所示的右下角的内存管理、物理计划、执行三个模块，并使之能运行在Spark引擎上，从而使得SQL查询的速度得到10-100倍的提升。

1.2Shark和SparkSQL但是，随着Spark的发展，对于野心勃勃的Spark团队来说，Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark的One Stack Rule Them All 的既定方针，制约了Spark各个组件的相互集成，所以提出了SparkSQL项目。

SparkSQL抛弃原有Shark的代码，汲取了Shark的一些优点，如内存列存储（In-Memory Columnar Storage）、Hive兼容性等，重新开发了SparkSQL代码；由于摆脱了对Hive的依赖性，SparkSQL 无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便，真可谓“退一步，海阔天空”。

2014年6月1日Shark项目和SparkSQL项目的主持人Reynold Xin宣布：停止对Shark 的开发，团队将所有资源放SparkSQL项目上，至此，Shark的发展画上了句话，但也因此发展出两个直线：SparkSQL和Hive on Spark。

该存储方式无论在空间占用量和读取吞吐率上都占有很大优势。

对于原生态的JVM对象存储方式，每个对象通常要增加12-16字节的额外开销，对于一个270MB的TPC-H lineitem table数据，使用这种方式读入内存，要使用970MB左右的内存空间（通常是2～5倍于原生数据空间）；另外，使用这种方式，每个数据记录产生一个JVM对象，如果是大小为200B的数据记录，32G的堆栈将产生1.6亿个对象，这么多的对象，对于GC来说，可能要消耗几分钟的时间来处理（JVM的垃圾收集时间与堆栈中的对象数量呈线性相关）。

显然这种内存存储方式对于基于内存计算的Spark来说，很昂贵也负担不起。

对于内存列存储来说，将所有原生数据类型的列采用原生数组来存储，将Hive支持的复杂数据类型（如array、map等）先序化后并接成一个字节数组来存储。

这样，每个列创建一个JVM 对象，从而导致可以快速的GC和紧凑的数据存储；额外的，还可以使用低廉CPU开销的高效压缩方法（如字典编码、行长度编码等压缩方法）降低内存开销；更有趣的是，对于分析查询中频繁使用的聚合特定列，性能会得到很大的提高，原因就是这些列的数据放在一起，更容易读入内存进行计算。

B：字节码生成技术（bytecode generation，即CG）在数据库查询中有一个昂贵的操作是查询语句中的表达式，主要是由于JVM的内存模型引起的。

比如如下一个查询：SELECT a + b FROM table在这个查询里，如果采用通用的SQL语法途径去处理，会先生成一个表达式树（有两个节点的Add树，参考后面章节），在物理处理这个表达式树的时候，将会如图所示的7个步骤：1.调用虚函数Add.eval()，需要确认Add两边的数据类型2.调用虚函数a.eval()，需要确认a的数据类型3.确定a的数据类型是Int，装箱4.调用虚函数b.eval()，需要确认b的数据类型5.确定b的数据类型是Int，装箱6.调用Int类型的Add7.返回装箱后的计算结果其中多次涉及到虚函数的调用，虚函数的调用会打断CPU的正常流水线处理，减缓执行。

Spark1.1.0在catalyst模块的expressions增加了codegen模块，如果使用动态字节码生成技术（配置spark.sql.codegen参数），SparkSQL在执行物理计划的时候，对匹配的表达式采用特定的代码，动态编译，然后运行。

如上例子，匹配到Add方法：然后，通过调用，最终调用：最终实现效果类似如下伪代码：val a: Int = inputRow.getInt(0)val b: Int = inputRow.getInt(1)val result: Int = a + bresultRow.setInt(0, result)对于Spark1.1.0，对SQL表达式都作了CG优化，具体可以参看codegen模块。

CG优化的实现主要还是依靠scala2.10的运行时放射机制（runtime reflection）。

对于SQL查询的CG优化，可以简单地用下图来表示：C：Scala代码优化另外，SparkSQL在使用Scala编写代码的时候，尽量避免低效的、容易GC的代码；尽管增加了编写代码的难度，但对于用户来说，还是使用统一的接口，没受到使用上的困难。

下图是一个Scala代码优化的示意图：2、SparkSQL运行架构类似于关系型数据库，SparkSQL也是语句也是由Projection（a1，a2，a3）、Data Source （tableA）、Filter（condition）组成，分别对应sql查询过程中的Result、Data Source、Operation，也就是说SQL语句按Result-->Data Source-->Operation的次序来描述的。

当执行SparkSQL语句的顺序为：1.对读入的SQL语句进行解析（Parse），分辨出SQL语句中哪些词是关键词（如SELECT、FROM、WHERE），哪些是表达式、哪些是Projection、哪些是Data Source等，从而判断SQL 语句是否规范；2.将SQL语句和数据库的数据字典（列、表、视图等等）进行绑定（Bind），如果相关的Projection、Data Source等都是存在的话，就表示这个SQL语句是可以执行的；3.一般的数据库会提供几个执行计划，这些计划一般都有运行统计数据，数据库会在这些计划中选择一个最优计划（Optimize）；4.计划执行（Execute），按Operation-->Data Source-->Result的次序来进行的，在执行过程有时候甚至不需要读取物理表就可以返回结果，比如重新运行刚运行过的SQL语句，可能直接从数据库的缓冲池中获取返回结果。

2.1Tree和RuleSparkSQL对SQL语句的处理和关系型数据库对SQL语句的处理采用了类似的方法，首先会将SQL语句进行解析（Parse），然后形成一个Tree，在后续的如绑定、优化等处理过程都是对Tree的操作，而操作的方法是采用Rule，通过模式匹配，对不同类型的节点采用不同的操作。

在整个sql语句的处理过程中，Tree和Rule相互配合，完成了解析、绑定（在SparkSQL 中称为Analysis）、优化、物理计划等过程，最终生成可以执行的物理计划。

2.1.1 Tree●Tree的相关代码定义在sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/trees●Logical Plans、Expressions、Physical Operators都可以使用Tree表示●Tree的具体操作是通过TreeNode来实现的➢SparkSQL定义了catalyst.trees的日志，通过这个日志可以形象的表示出树的结构➢TreeNode可以使用scala的集合操作方法（如foreach, map, flatMap, collect等）进行操作➢有了TreeNode，通过Tree中各个TreeNode之间的关系，可以对Tree进行遍历操作，如使用transformDown、transformUp将Rule应用到给定的树段，然后用结果替代旧的树段；也可以使用transformChildrenDown、transformChildrenUp对一个给定的节点进行操作，通过迭代将Rule应用到该节点以及子节点。

●TreeNode可以细分成三种类型的Node：➢UnaryNode 一元节点，即只有一个子节点。

如Limit、Filter操作➢BinaryNode 二元节点，即有左右子节点的二叉节点。

如Jion、Union操作➢LeafNode 叶子节点，没有子节点的节点。

主要用户命令类操作，如SetCommand2.1.2 Rule●Rule的相关代码定义在sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/rules●Rule在SparkSQL的Analyzer、Optimizer、SparkPlan等各个组件中都有应用到●Rule是一个抽象类，具体的Rule实现是通过RuleExecutor完成●Rule通过定义batch和batchs，可以简便的、模块化地对Tree进行transform操作●Rule通过定义Once和FixedPoint，可以对Tree进行一次操作或多次操作（如对某些Tree进行多次迭代操作的时候，达到FixedPoint次数迭代或达到前后两次的树结构没变化才停止操作，具体参看RuleExecutor.apply）2.2sqlContext和hiveContext的运行过程SparkSQL有两个分支，sqlContext和hiveContext，sqlContext现在只支持SQL语法解析器（SQL-92语法）；hiveContext现在支持SQL语法解析器和hivesql语法解析器，默认为hiveSQL语法解析器，用户可以通过配置切换成SQL语法解析器，来运行hiveSQL不支持的语法，2.2.1 sqlContext的运行过程sqlContext总的一个过程如下图所示：1.SQL语句经过SqlParse解析成UnresolvedLogicalPlan；2.使用analyzer结合数据数据字典（catalog）进行绑定，生成resolvedLogicalPlan；3.使用optimizer对resolvedLogicalPlan进行优化，生成optimizedLogicalPlan；4.使用SparkPlan将LogicalPlan转换成PhysicalPlan；5.使用prepareForExecution()将PhysicalPlan转换成可执行物理计划；6.使用execute()执行可执行物理计划；7.生成SchemaRDD。

美国SPARK课程初探

页数:4
最新整理spark课程培训心得范文.docx

页数:2
大数据 Spark编程基础第6章-Spark Streaming

页数:15
大数据Spark案例及实践

页数:26
用Apache Spark进行大数据处理——第一部分：入门介绍

页数:11
大数据技术Spark基础实验指导书

页数:142
大数据处理平台Spark基础实践研究

页数:2
spark入门教程及经验总结

页数:5
Spark入门实战系列

页数:39
华师大SPARK学习有感

页数:25

Spark入门实战系列

合集下载

Spark大数据分析与实战：RDD编程初级实践Spark大数据分析与实战：RDD编程初级实践

Spark系列：Python版Spark编程指南

Spark大数据处理框架入门与实践

spark入门及实践

第10课：实战java开发spark程序

sparkcore入门到实战之（1）spark基础入门

Spark大数据分析实战课件

Spark入门实战系列

sparkSQL实战详解

第2章 Spark基础-Spark大数据分析与实战-黑马程序员-清华大学出版社

spark入门及实践

Spark MLlib基础入门

文档推荐

最新文档