Spark分布式并行计算框架

格式：ppt
大小：1.57 MB
文档页数：42

下载文档原格式

/ 42

面向大数据处理的并行计算模型及性能优化

面向大数据处理的并行计算模型及性能优化随着信息时代的发展，大数据已经成为了人民生产生活中的重要组成部分。

而对大数据进行高效处理和分析已经成为了一个紧迫的问题。

并行计算作为一种解决方案，广泛应用于大数据处理和分析的领域。

本文将讨论面向大数据处理的并行计算模型及其性能优化方法。

一、并行计算模型1. 传统的并行计算模型传统的并行计算模型主要有共享内存模型、分布式内存模型和混合模型。

- 共享内存模型：共享内存模型中，多个处理器通过共享内存交换数据，每个处理器可以同时访问和修改共享内存中的变量。

这种模型的优点是简单易懂，但缺点是并行度有限，不适用于大规模数据处理。

- 分布式内存模型：分布式内存模型中，多个处理器通过消息传递的方式交换数据。

每个处理器有自己的本地内存，并且需要通过消息传递来实现数据的共享或同步。

这种模型的优点是适用于大规模数据处理，但缺点是编程复杂度高。

- 混合模型：混合模型是共享内存模型和分布式内存模型的结合。

多个共享内存模型的计算节点组成一个分布式内存模型的集群。

这种模型既考虑了共享内存模型的便利性，又兼顾了分布式内存模型的灵活性。

2. 新兴的并行计算模型新兴的并行计算模型主要有MapReduce、Spark和MPI。

- MapReduce模型：MapReduce模型是Google提出的一种分布式计算模型。

它将大数据分解为不同的部分，在各个计算节点上并行地执行计算，并将结果进行合并。

MapReduce模型适用于大规模数据的批处理，但不适用于实时计算。

- Spark模型：Spark是一种基于内存的分布式计算框架，具有较高的计算速度。

Spark模型中，数据以弹性分布式数据集（RDD）的形式存储，可以在内存中进行迭代计算。

Spark模型适用于大规模数据的实时计算和迭代计算。

- MPI模型：MPI（Message Passing Interface）模型是一种用于并行计算的标准接口。

它允许不同计算节点进行消息传递，实现数据共享和同步。

Spark是什么Spark和Hadoop的区别

Spark是什么Spark和Hadoop的区别Spark 是加州大学伯克利分校 AMP（Algorithms，Machines，People）实验室开发的通用内存并行计算框架。

Spark 在 2013 年 6 月进入 Apache 成为孵化项目，8 个月后成为 Apache 顶级项目。

Spark 以其先进的设计理念，迅速成为社区的热门项目，围绕着 Spark 推出了 SparkSQL、SparkStreaming、MLlib 和 GraphX 等组件，逐渐形成大数据处理一站式解决平台。

Spark 与 HadoopHadoop 已经成了大数据技术的事实标准，Hadoop MapReduce 也非常适合于对大规模数据集合进行批处理操作，但是其本身还存在一些缺陷。

特别是 MapReduce 存在的延迟过高，无法胜任实时、快速计算需求的问题，使得需要进行多路计算和迭代算法的用例的作业过程并非十分高效。

根据 Hadoop MapReduce 的工作流程，可以分析出 Hadoop MapRedcue 的一些缺点。

1）Hadoop MapRedue 的表达能力有限。

所有计算都需要转换成 Map 和 Reduce 两个操作，不能适用于所有场景，对于复杂的数据处理过程难以描述。

2）磁盘 I/O 开销大。

Hadoop MapReduce 要求每个步骤间的数据序列化到磁盘，所以 I/O 成本很高，导致交互分析和迭代算法开销很大，而几乎所有的最优化和机器学习都是迭代的。

所以，Hadoop MapReduce 不适合于交互分析和机器学习。

3）计算延迟高。

如果想要完成比较复杂的工作，就必须将一系列的 MapReduce 作业串联起来然后顺序执行这些作业。

每一个作业都是高时延的，而且只有在前一个作业完成之后下一个作业才能开始启动。

因此，Hadoop MapReduce 不能胜任比较复杂的、多阶段的计算服务。

Spark 是借鉴了 Hadoop MapReduce 技术发展而来的，继承了其分布式并行计算的优点并改进了 MapReduce 明显的缺陷。

分布式计算与并行计算的应用

添加标题
特点：物联网具有全面感知、可靠传输和智能处理的特点，可以实现数据的实时采集、传输和处理，为分布式计算提供大量的数
据资源。
添加标题
与分布式计算的关系：分布式计算可以利用物联网的数据资源，实现大规模的数据处理和分析，提高计算效率和精度，进一步推动物联网的应用和
发展。
添加标题
大数据处理与分析
分布式计算在大数据处理与分析中发挥着重要作用，能够提高数据处理速度和效率。
分布式计算能够将大规模数据分散到多个节点进行处理，降低计算成本和提高可扩展性。
分布式计算能够支持多种数据处理和分析工具，如Hadoop、 Spark等，满足不同业务需求。
分布式计算在大数据处理与分析中具有广泛应用，如金融、医疗、电商等领域。
人工智能与机器学习的融合：分布式计算与并行计算将进一步与人工智能和机器学习技术融合，推动人工智能应用的普及和发展。
数据安全和隐私保护：随着分布式计算与并行计算的应用范围不断扩大，数据安全和隐私保护将成为未来发展的重要研究方向。
跨学科领域的合作：分布式计算与并行计算将与多个学科领域进行交叉融合，如生物学、物理学、金融学等，推动跨学科领域的研究和应用。
边缘计算：分布式计算与并行计算在边缘计算中的应用，提高数据处理效率和降低网络延迟。
人工智能与分布式计算的融合发展
人工智能技术将进一步与分布式计算结合，提高计算效率和数据处理能力。未来展望中，人工智能与分布式计算的融合将为各行业带来更多创新应用。研究方向包括如何优化分布式计算系统以适应人工智能算法的需求。融合发展的关键技术包括分布式机器学习、深度学习框架与分布式系统的集成等。
物理模拟：在材料科学、航空航天等领域，通过并行计算模拟物理实验，可以降低实验成本和风险。

Spark大数据技术架构及应用场景解析

Spark大数据技术架构及应用场景解析大数据技术已经成为各行各业的热门话题，并且在企业中发挥重要的作用。

Spark大数据技术作为当前最流行的一种技术框架，被广泛应用于大数据处理和分析的领域。

本文将对Spark大数据技术的架构和一些常见应用场景进行解析。

首先，我们来了解一下Spark的技术架构。

Spark是一个基于内存的大数据处理平台，它的核心概念是弹性分布式数据集（Resilient Distributed Datasets，简称RDD）。

RDD是一个可并行操作的元素集合，可以分布式地存储在内存中，并且具有容错机制。

这使得Spark能够在大规模数据处理和分析时提供快速的计算速度。

Spark的架构由几个主要组件组成，包括驱动器程序、集群管理器、集群节点和执行器。

驱动器程序负责解析用户的应用程序，并且将它们分解成任务，然后将任务分配给集群中的节点。

集群管理器负责监控和管理集群中的资源，以确保任务能够在集群节点上按计划执行。

集群节点是运行Spark任务的物理或虚拟计算机，它们负责执行任务并返回结果。

执行器是运行在集群节点上的进程，它们负责接收和执行任务。

Spark还提供了许多扩展库和工具，用于增强其功能和性能。

一些常见的扩展库包括Spark SQL、Spark Streaming、MLlib和GraphX。

Spark SQL是用于处理结构化数据的模块，它提供了用于查询和分析数据的高级API。

Spark Streaming是用于处理实时数据的模块，它可以实时接收和处理流式数据。

MLlib是Spark的机器学习库，提供了一系列常用的机器学习算法和工具。

GraphX是Spark的图计算库，用于处理大规模图数据和图计算任务。

接下来，我们将探讨一些Spark的应用场景。

由于Spark具有快速的计算速度和丰富的扩展库，它被广泛应用于大数据处理和分析领域。

首先，Spark在数据仓库中的应用越来越受欢迎。

传统的数据仓库通常使用关系型数据库进行存储和查询，但在处理大规模数据时，关系型数据库的性能会受到限制。

Spark详解

Spark详解⼀、spark简介Apache Spark是⼀个围绕速度、易⽤性和复杂分析构建的⼤数据处理框架。

Spark是⽤Scala程序设计语⾔编写⽽成，运⾏于Java虚拟机（JVM）环境之上。

⽬前⽀持如下程序设计语⾔编写Spark应⽤：Scala、Java、Python、Clojure、R。

1.1 重要概念RDD：（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表⼀个不可变、可分区、⾥⾯的元素可并⾏计算的集合。

算⼦：spark中⽤来操作RDD的函数，主要分为transformation和action两类算⼦。

transformation的特点就是lazy特性，只有当transformation之后，接着执⾏了⼀个action操作，那么所有的transformation才会执⾏driver：运⾏spark程序，初始化SparkContext，划分RDD并初始DAGScheduler、TaskScheduler、SparkUI，发送task到executorexecutor：运⾏tasktask：运⾏在executor上，每个core⼀个taskjob：通过action拆分，每个action算⼦会启动⼀个jobstage：通过宽窄依赖判断，如果存在宽依赖，会产⽣shuffle过程，划分两个stage1.2 spark架构Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。

其他Spark的库都是构建在RDD和Spark Core之上的Spark SQL：提供通过Apache Hive的SQL变体Hive查询语⾔（HiveQL）与Spark进⾏交互的API。

每个数据库表被当做⼀个RDD，Spark SQL查询被转换为Spark操作。

Spark Streaming：对实时数据流进⾏处理和控制。

基于Spark的大数据分布式计算框架研究

基于Spark的大数据分布式计算框架研究在当今信息时代，随着网络科技和技术的发展，数据的规模逐渐呈指数级增长。

所以，如何快速高效地处理这些海量数据成为了一个亟待解决的问题。

而大数据分布式计算框架就是解决这一问题的最佳方案之一。

其中，Spark就是大数据分布式计算中备受关注的一个框架，本篇文章就将对Spark进行研究探讨。

一、Spark框架概述Spark是一个大数据分布式计算框架，它支持速度快、易于使用的API，并具有适用于内存和磁盘上的计算模式。

Spark的核心思想是将数据集合分为若干小块（分区），将这些数据分别分布到不同的计算节点上进行处理，最后将结果合并得到最终的结果。

其内部实现采用了内存计算和读取磁盘的策略，使得Spark具有了较高的运算速度。

另外，Spark的API接口非常丰富，同时也兼容Java、Scala、Python等各种编程语言，更为方便应用于不同的业务场景。

二、Spark的核心组件Spark主要包含了以下四个核心组件：1. Spark CoreSpark Core是Spark的核心组件，它提供RDD（Resilient Distributed Datasets，具有弹性的分布式数据集）的API接口，实现了快速分布式计算和物化计算功能。

Spark Core的RDD可以缓存到内存中，因此读取速度远高于Hadoop中的MapReduce。

2. Spark SQLSpark SQL是一种基于SQL的查询引擎，针对结构化数据进行SQL查询和化简，并支持使用SQL语句连接多个数据源。

除了基于SQL的查询外，Spark SQL还提供了许多有用的操作，如withColumnRenamed、groupBy和agg等函数。

3. Spark StreamingSpark Streaming是一种分布式计算模型，支持实时处理数据流。

它采用微小批处理（Micro-batch Processing）技术，将数据分为小批次处理，从而保证了高吞吐量和可扩展性。

数据库的并行查询与并行计算的优化方法及实际效果分析

数据库的并行查询与并行计算的优化方法及实际效果分析引言：在当今信息化时代，数据库的应用越来越广泛，数据量也越来越庞大，这就需要对数据库的查询和计算进行并行处理，提高查询和计算效率。

本文将对数据库的并行查询与并行计算进行优化方法和实际效果的分析。

一、数据库的并行查询优化方法并行查询是指在多个并行执行单元的协调下，在短时间内并发执行多个查询操作，提高查询效率。

下面是数据库的并行查询优化方法：1. 查询优化器：查询优化器可以根据查询的复杂度和查询相关的信息来生成执行计划。

在并行查询中，查询优化器需要考虑并行度、数据分布、数据库结构等多个因素，以生成适合并行执行的最优执行计划。

2. 查询重写：查询重写是指将原始查询转化为等效的执行计划。

在并行查询中，可以通过查询重写来引入并行操作。

比如将大表连接操作改为分布式连接操作，将大表扫描操作改为并行扫描操作等。

3. 数据划分：在并行查询中，合理的数据划分可以提高查询的并行度，进而提高查询效率。

可以根据数据的特征和查询需求等因素，将数据划分为更小的单位，使得每个并行执行单元可以处理更少的数据量。

4. 并行度设置：在并行查询中，合理地设置并行度可以充分利用计算资源，提高查询效率。

并行度设置太低会导致计算资源浪费，设置过高会增加通信开销。

需要根据系统的资源情况和查询负载等因素，设置合适的并行度。

5. 系统资源调优：在并行查询中，系统资源的调优对查询效率有着重要影响。

可以通过增加并行查询的内存缓存，优化数据加载和通信机制，提高查询效率。

二、数据库的并行计算优化方法并行计算是指在多个并行执行单元的协调下，同时执行多个计算任务，提高计算效率。

下面是数据库的并行计算优化方法：1. 并行计算框架：选择合适的并行计算框架可以实现并行计算任务的分布式执行。

常用的并行计算框架有MapReduce、Spark等，它们支持并行计算的分布式执行和数据并行。

2. 数据分区：数据分区是将数据分割为更小的单位，使得每个并行执行单元可以处理更少的数据量。

spark的特点和应用原理

Spark的特点和应用原理特点•高速处理：Spark是一个快速、通用的集群计算系统，具备高速处理大规模数据的能力。

它通过将计算任务分解成多个小任务，并将其分布在集群中的多个节点上并行执行，从而实现了高速处理和大规模数据处理的能力。

•内存计算：Spark将数据加载到内存中进行计算，因此具备了快速的数据访问和处理能力。

相对于传统的磁盘计算，Spark内存计算的速度更快，可以在较短的时间内完成复杂的计算任务。

•多语言支持：Spark支持多种编程语言，包括Java、Scala、Python 和R等。

这使得开发人员可以使用自己熟悉的编程语言来开发和执行Spark 应用程序，提高了开发人员的工作效率。

•弹性扩展：Spark具备弹性扩展的能力，可以根据任务的需求动态地增加或减少计算资源。

这种弹性扩展的特性使得Spark能够适应不同规模的数据处理需求，并保持高性能。

•容错性：Spark具备容错性，即使在节点失败的情况下，仍能够完成任务的执行。

Spark通过将数据备份到多个节点并使用数据恢复机制来实现容错性，确保计算任务的可靠性。

应用原理Spark的应用原理主要包括以下几个方面：1.分布式计算模型：Spark使用分布式计算模型来进行计算。

它将计算任务拆分成多个小任务，并将其分发到集群中的多个节点上进行并行计算。

这种分布式计算模型可以提高计算效率和性能，并降低计算时间。

2.弹性数据集（RDD）：Spark使用弹性数据集（Resilient Distributed Dataset，简称RDD）作为其核心数据结构。

RDD是一个可分区、可并行计算和可容错的数据集合，它可以在内存中进行高速计算。

RDD可以由外部数据集创建，并可以被转化和持久化以支持复杂的计算任务。

3.转换和动作操作：Spark提供了一系列的转换操作和动作操作来处理RDD。

转换操作用于将一个RDD转换为另一个RDD，而动作操作则从RDD 中获取计算结果。

转换操作和动作操作可以按照需要进行组合，构建出复杂的数据处理流程。

Spark介绍范文

Spark介绍范文Apache Spark是一种开源的大数据处理框架，最初由加州大学伯克利分校AMPLab团队开发，并于2024年发布。

它提供了高效的数据处理能力，可以在分布式环境中快速处理大规模的数据集。

Spark支持各种数据处理任务，包括批处理、流处理、机器学习和图计算等。

Spark的核心是一个分布式计算引擎，可以将任务划分为多个小任务，并在集群中的多个计算节点上并行执行。

这种并行计算的方式使得Spark具有非常高的性能和可伸缩性。

与传统的批处理框架相比，Spark的主要创新点之一是引入了弹性分布式数据集（Resilient Distributed Datasets，简称RDD）的概念。

RDD是一种抽象的数据结构，可以将数据集分为多个分区，并在内存中进行处理，从而实现极高的性能。

与其他的大数据处理框架相比，Spark具有以下几个特点：1. 高速计算：Spark利用内存计算以及基于RDD的分布式计算模型，可以比传统的批处理框架快上几倍甚至十几倍。

同时，Spark还提供了一系列优化技术，如广播变量、共享变量和累加器等，可以进一步提高计算性能。

2. 多种数据处理方式：Spark不仅支持批处理任务，还支持实时流处理任务。

其流处理模块称为Spark Streaming，可以以非常低的延迟处理实时数据，并将其与批处理任务无缝集成。

此外，Spark还提供了一系列用于机器学习和图计算的库，使得用户可以在同一个框架中完成不同类型的数据处理任务。

3. 易用性：Spark提供了丰富的开发API和高层次的抽象，使得用户可以以简单的方式编写并行计算任务。

Spark支持多种编程语言，如Java、Scala和Python，并提供了交互式的Shell环境，方便用户进行开发和调试。

4. 兼容性：Spark可以与其他大数据处理框架无缝集成，如Hadoop、Hive和HBase等。

用户可以利用Spark的计算引擎替代原有的MapReduce计算引擎，从而提升任务的执行效率。

将Spark的技术框架讲明白了

Spark是加州大学伯克利分校的AMP实验室开源的类似MapReduce的通用并行计算框架，拥有MapReduce所具备的分布式计算的优点。

但不同于MapReduce 的是，Spark更多地采用内存计算，减少了磁盘读写，比MapReduce性能更高。

同时，它提供了更加丰富的函数库，能更好地适用于数据挖掘与机器学习等分析算法。

Spark在Hadoop生态圈中主要是替代MapReduce进行分布式计算，如下图所示。

同时，组件SparkSQL可以替换Hive对数据仓库的处理，组件Spark Streaming可以替换Storm对流式计算的处理，组件Spark ML可以替换Mahout数据挖掘算法库。

Spark在Hadoop生态圈中的位置01Spark的运行原理如今，我们已经不再需要去学习烦琐的MapReduce设计开发了，而是直接上手学习Spark的开发。

这一方面是因为Spark的运行效率比MapReduce高，另一方面是因为Spark有丰富的函数库，开发效率也比MapReduce高。

首先，从运行效率来看，Spark的运行速度是Hadoop的数百倍。

为什么会有如此大的差异呢？关键在于它们的运行原理，Hadoop总要读取磁盘，而Spark更多地是在进行内存计算，如下图所示。

Hadoop的运行总是在读写磁盘前面谈到，MapReduce的主要运算过程，实际上就是循环往复地执行Map与Reduce的过程。

但是，在执行每一个Map或Reduce过程时，都要先读取磁盘中的数据，然后执行运算，最后将执行的结果数据写入磁盘。

因此，MapReduce的执行过程，实际上就是读数据、执行Map、写数据、再读数据、执行Reduce、再写数据的往复过程。

这样的设计虽然可以在海量数据中减少对内存的占用，但频繁地读写磁盘将耗费大量时间，影响运行效率。

相反，Spark的执行过程只有第一次需要从磁盘中读数据，然后就可以执行一系列操作。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2020/11/30
11
Spark特点
Spark是开放的 1. Spark提供了Java，Scala， Python， R，SQL的API和丰富的内置库。
2. 同时，Spark和其它的大数据工具整合的很好。尤其，Spark能够运行在Hadoop 集群上面，能够访问Hadoop数据。
2020/11/30
20
Spark高可用
Spark 采用了Master/Slaves架构的集群模式，因此，存在着Master单点故障。
基于文件系统的单点恢复
此模式下虽然可以恢复，但需要人工参与。因此，适合对高可用要求不高的场景，如果离线分析。
当Master挂掉后，手工启动Master仍然能继续执行原来的任务。当然，也可以继续提交任务
2. 存储创建，从文件存储(文本文件，hdfs)，数据库(hbase,mongodb)，消息队列 (kafka)等获得数据并转换成RDD
2020/11/30
23
Spark核心概念：RDD
RDD转换操作(transfermation operation) 把一种RDD变成另一种新的RDD。如： map(func)：返回一个新的分布式数据集，由每个原元素经过func函数转换后组成 filter(func)：返回一个新的数据集，由经过func函数后返回值为true的原元素组成 flatMap(func)：类似于map，但是每一个输入元素，会被映射为0到多个输出元素（因此，func函数的返回值是一个Seq，而不是单一元素）
关于Spark的研究论文在学术会议上发表，并且在它被创建的2009年不久之后，对于一些特定的工作，Spark比Mapreduce快10-20倍。
2010年3月份Spark开源。
2011年，AMP实验室开始在Spark上面开发高级组件，像Shark(Hive on Spark)， Spark Streaming。
目前Spark在全球已有广M、Intel、雅虎等。
2020/11/30
4
Spark发展历程
Spark诞生于2009年，那时候它是，加州大学伯克利分校RAD实验室的一个研究项目，后来到了AMP实验室。
Spark最初是基于Hadoop Mapreduce的，后来发现Mapreduce在迭代式计算和交互式上是低效的。因此Spark进行了改进，引入了内存存储和高容错机制。
3 SparkContext初始化过程中Spark会分别创建DAGScheduler作业调度和 TaskScheduler任务调度两级调度模块
4 DAGScheduler是基于任务模块的高层调度模块，为每个Spark作业(job)计算具有依赖关系的多个调度模块(通常根据shuffle来划分)，然后为每个阶段构建出一组具体的任务(Task)，即任务集TaskSet交给TaskScheduler来具体执行
Spark生态系统
2020/11/30
14
Spark生态系统
Spark生态圈也称为BDAS（伯克利数据分析栈），是伯克利APMLab实验室打造的，力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成来展现大数据应用的一个平台。伯克利AMPLab运用大数据、云计算、通信等各种资源以及各种灵活的技术方案，对海量不透明的数据进行甄别并转化为有用的信息，以供人们更好的理解世界。该生态圈已经涉及到机器学习、数据挖掘、数据库、信息检索、自然语言处理和语音识别等多个领域。
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode= Dspark.deploy.recoveryDirectory=/opt/spark/recovery“
基于ZooKeeper的HA
Spark Standalone使用多个Master节点，通过ZooKeeper推举一个为Active（激活）状态，其它的均为Standby（备用）状态。
统包括：批处理，迭代式计算，交互查询和流处理等。
2. 并且，由之前需要维护不同的集群，到现在只需要维护一个Spark集群。
3. Spark生态圈即BDAS（伯克利数据分析栈）包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件，这些组件分别处理Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即席查询、MLlib或MLbase 的机器学习和GraphX的图处理，它们都是由AMP实验室提供，能够无缝的集成并提供一站式解决平台。
2020/11/30
9
Spark特点
Spark是易用的
Spark不仅支持Scala编写应用程序，而且支持Java和Python, Python, R等语言进行编写。
2020/11/30
10
Spark特点
Spark是通用的 1. Spark的设计，容纳了之前很多独立的，分布式系统所拥有的功能。独立的分布式系
5 TaskScheduler则负责具体启动任务、监控和汇报任务运行情况
6 DAGScheduler和TaskScheduler都是不同阶段的调度者，具体执行任务的是 Exector
7 Master接收Client提交的作业，管理Worker，并命令Worker启动Driver和 Executor
8 Worker负责管理本节点的资源，定期向Master汇报心跳，接收Master的命令，比 2020/11/30 如启动Driver和Executor
2020/11/30
24
Spark核心概念：RDD
RDD控制操作(control operation) 在spark中持久化操作是一种重要的功能，可以将RDD存储在不同层次的存储介质中，以便后续的操作能够重复使用。如：
2013年转移到了Apache下，现在已经是顶级项目了。
2014年5月份Spark1.0发布。
目前：发布最新版Spark1.6.1
2020/11/30
Spark在7年内迅速发展，较于其他大数据平台或框架，Spark代码库最为活跃
5
Spark发展历程
2020/11/30
6
Spark能干什么
当Active Master节点挂掉后，ZooKeeper会从所有的Standby Mater中推举会一个
新的Activer Master。新的Active Master恢复到旧有的Active Master的状态，然后
恢复调度。从Activer Master失去作用，到新Active Master恢复调度可能需要1－2分
2020/11/30
15
Spark生态系统
Spark生态系统学习、维护成本很低。要实现一个相对完整的端到端的解决方案，以前需要部署多个专有系统，现在只需要一个Spark
Spark Core
对应 Hadoop MR
SparkSQL
对应 Hive
SparkStreaming 对应 StromSpark分布式并行计来自框架2内容简介
Spark是什么 Spark的发展历程 Spark能干什么 Spark的适用场景 Spark的特点 Spark生态系统 Spark运行模式 Spark高可用 Spark核心概念：RDD Spark集群搭建 Spark与Hadoop整合 Spark应用部署模式
2020/11/30
3
Spark是什么
Spark是一个基于内存计算的开源的分布式集群并行计算系统
Spark非常小巧玲珑，由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala，运行在JVM上，项目的core部分的代码只有63个Scala文件，非常短小精悍。
是继Hadoop之后的新一代大数据分布式处理框架
存，用于调试 3. Standalone Cluster集群模式，Spark://hostname:port，需要部署spark到相关
节点，url为master地址和端口 4. YARN Cluster 模式，运行在资源管理器yarn集群中 5. Mesos Cluster模式，运行在资源管理器Mesos集群中
钟。
2020/11/30
21
Spark核心概念：RDD
什么是RDD
1. Spark的核心概念是RDD (resilient distributed dataset)，是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。
2. 一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编程操作集合的方式，进行各种并行操作
1.大规模数据处理。例如用户行为数据，电子商务平台用户的操作行为记录，放进 Spark系统，然后对数据进行多维度的分析，发现潜在客户，个性化推荐商品
2.流数据处理。
3.图计算。社交网络
4.机器学习。协同过滤
2020/11/30
7
Spark的适用场景
Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小
SparkGraphX 对应 Giraph
SparkMLLib
对应 Mahout
2020/11/30
16
Spark运行模式
Spark目前主要有4种运行模式 1. Local[N]模式，适用N个线程，用于调试。 2. Local cluster 伪分布式模式，可以配置worker数量，每个worker管理的cpu和内
3. 分布式的，可以分布在多台机器上，进行计算
4. 弹性的，计算过程中内存不够时它会和磁盘进行数据交换