大数据技术原理与应用-厦门大学数据库试验室

格式：ppt
大小：3.66 MB
文档页数：43

下载文档原格式

大数据技术原理与应用-厦门大学数据库试验室

《大数据处理技术Spark》厦门大学计算机科学系林子雨 ziyulin@
3.1.1 Spark简介
Spark具有如下几个主要特点： •运行速度快：使用DAG执行引擎以支持循环数据流与内存计算 •容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过 Spark Shell进行交互式编程 •通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件 •运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、 HBase、Hive等多种数据源
《大数据处理技术Spark》厦门大学计算机科学系林子雨 ziyulin@
3.1 Spark概述
3.1.1 Spark简介 3.1.2 Scala简介 3.1.3 Spark与Hadoop的比较
《大数据处理技术Spark》
厦门大学计算机科学系
林子雨
ziyulin@
存储在内存中读取内存存储在内存中
读询 1
存储在内存中
结果 1
查询 2
结果 2
输入
...
图16-2 Hadoop与Spark的执行流程对比
林子雨 ziyulin@
(b) Spark执行流程
《大数据处理技术Spark》
厦门大学计算机科学系
3.1.3 Spark与Hadoop的对比
《大数据处理技术厦门大学计算机科学系 Spark》
厦门大学计算机科学系
林子雨
2017ziyulin@ 年版
提纲
• • • • 3.1 Spark概述 3.2 Spark生态系统 3.3 Spark运行架构 3.4 Spark的部署和应用方式

厦门大学林子雨编著《大数据技术原理与应用》教材配套实验

厦门大学林子雨编著《大数据技术原理与应用》教材配套实验实验一：熟悉常用的Linux操作和Hadoop操作一、实验目的Hadoop运行在Linux系统上，因此，需要学习实践一些常用的Linux命令。

.本实验旨在熟悉常用的Linux操作和Hadoop操作，为顺利开展后续其他实验奠定基础。

.二、实验平台●操作系统：Linux（建议Ubuntu16. 04）；●Hadoop版本：2. 7. 1。

.三、实验步骤（一）熟悉常用的Linux操作●cd命令：切换目录（1）切换到目录“/usr/local”（2）切换到当前目录的上一级目录（3）切换到当前登录Linux系统的用户的自己的主文件夹●ls命令：查看文件与目录（4）查看目录“/usr”下的所有文件和目录●mkdir命令：新建目录（5）进入“/tmp”目录，创建一个名为“a”的目录，并查看“/tmp”目录下已经存在哪些目录（6）进入“/tmp”目录，创建目录“a1/a2/a3/a4”●rmdir命令：删除空的目录（7）将上面创建的目录a（在“/tmp”目录下面）删除（8）删除上面创建的目录“a1/a2/a3/a4”（在“/tmp”目录下面），然后查看“/tmp”目录下面存在哪些目录●cp命令：复制文件或目录（9）将当前用户的主文件夹下的文件. bashrc复制到目录“/usr”下，并重命名为bashrc1（10）在目录“/tmp”下新建目录test，再把这个目录复制到“/usr”目录下●mv命令：移动文件与目录，或更名（11）将“/usr”目录下的文件bashrc1移动到“/usr/test”目录下（12）将“/usr”目录下的test目录重命名为test2●rm命令：移除文件或目录（13）将“/usr/test2”目录下的bashrc1文件删除（14）将“/usr”目录下的test2目录删除●cat命令：查看文件内容（15）查看当前用户主文件夹下的. bashrc文件内容●tac命令：反向查看文件内容（16）反向查看当前用户主文件夹下的. bashrc文件的内容●more命令：一页一页翻动查看（17）翻页查看当前用户主文件夹下的. bashrc文件的内容●head命令：取出前面几行（18）查看当前用户主文件夹下. bashrc文件内容前20行（19）查看当前用户主文件夹下. bashrc文件内容，后面50行不显示，只显示前面几行●tail命令：取出后面几行（20）查看当前用户主文件夹下. bashrc文件内容最后20行（21）查看当前用户主文件夹下. bashrc文件内容，并且只列出50行以后的数据●touch命令：修改文件时间或创建新文件（22）在“/tmp”目录下创建一个空文件hello，并查看文件时间（23）修改hello文件，将文件时间整为5天前●chown命令：修改文件所有者权限（24）将hello文件所有者改为root帐号，并查看属性●find命令：文件查找（25）找出主文件夹下文件名为. bashrc的文件●tar命令：压缩命令（26）在根目录“/”下新建文件夹test，然后在根目录“/”下打包成test. tar. gz（27）把上面的test. tar. gz压缩包，解压缩到“/tmp”目录●grep命令：查找字符串（28）从“～/. bashrc”文件中查找字符串'examples'●配置环境变量（29）请在“～/. bashrc”中设置，配置Java环境变量（30）查看JAVA_HOME变量的值（二）熟悉常用的Hadoop操作（31）使用hadoop用户登录Linux系统，启动Hadoop（Hadoop的安装目录为“/usr/local/hadoop”），为hadoop用户在HDFS中创建用户目录“/user/hadoop”（32）接着在HDFS的目录“/user/hadoop”下，创建test文件夹，并查看文件列表（33）将Linux系统本地的“～/. bashrc”文件上传到HDFS的test文件夹中，并查看test （34）将HDFS文件夹test复制到Linux系统本地文件系统的“/usr/local/hadoop”目录下四、实验报告实验二：熟悉常用的HDFS操作一、实验目的●理解HDFS在Hadoop体系结构中的角色；●熟练使用HDFS操作常用的Shell命令；●熟悉HDFS操作常用的Java API。

Chapter8-厦门大学-林子雨-大数据技术原理与应用-第八章-流计算

《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
8.1.3 流计算概念
• 流计算：实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息
数据采集
实时分析处理
结果反馈
《大数据技术原理与应用》
流计算示意图
厦门大学计算机科学系
林子雨
ziyulin@
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
8.1.1 静态数据和流数据
• 近年来，在Web应用、网络监控、传感监测等领域，兴起了一种新的数据密集型应用——流数据，即数据以大量、快速、时变的流形式持续到达
• 流数据具有如下特征： – 数据快速持续到达，潜在大小也许是无穷无尽的 – 数据来源众多，格式复杂 – 数据量大，但是不十分关注存储，一旦经过处理，要么被丢弃，要么被归档存储 – 注重数据的整体价值，不过分关注个别数据 – 数据顺序颠倒，或者不完整，系统无法控制将要处理据，包括用户的搜索内容、用户的浏览记录等数据。采用流计算进行实时数据分析，可以了解每个时刻的流量变化情况，甚至可以分析用户的实时浏览轨迹，从而进行实时个性化内容推荐
• 但是，并不是每个应用场景都需要用到流计算的。流计算适合于需要处理持续到达的流数据、对数据处理有较高实时性要求的场景
传统的数据处理流程示意图
• 传统的数据处理流程隐含了两个前提：
– 存储的数据是旧的。存储的静态数据是过去某一时刻的快照，这些数据在查询时可能已不具备时效性了
– 需要用户主动发出查询来获取结果
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@

Chapter5-大数据技术原理与应用-第五章-NoSQL数据库-pdf

《大数据技术原理厦与门应大用学》计算机科学系厦门大学计算机科学系
林子雨 2015年ziy版ulin@
提纲
• 5.1 NoSQL简介 • 5.2 NoSQL兴起的原因 • 5.3 NoSQL与关系数据库的比较 • 5.4 NoSQL的四大类型 • 5.5 NoSQL的三大基石 • 5.6 从NoSQL到NewSQL数据库 • 本章小结
键/值对
典型应用
内容缓存，比如会话、配置文件、参数、购物车等
优点
扩展性好，灵活性好，大量写操作时性能高
缺点使用者
无法iak）、BestBuy（Riak）、 Twitter（Redis和Memcached）、StackOverFlow（Redis）、 Instagram （Redis）、Youtube（Memcached）、Wikipedia （Memcache育计算机规划教材《大数据技术原理与应用 ——概念、存储、处理、分析与应用》（2015年6月第1版）厦门大学林子雨编著，人民邮电出版社 ISBN:978-7-115-39287-9
欢迎访问《大数据技术原理与应用》教材官方网站： /post/bigdata
Dataset
Document_id-1
Document-1
Document_id-2
Document-2
Document_id-3
Document-3
Document_id-4
Document-4
文档数据库
KeyValue Node1
Key-Value2 Key-Value1
KeyValue Node3
数据完整性
容易实现
很难实现
任何一个RDBMS都可以很容易实现数据完整性，比如通过主键或者非空约束来实现实体完整性，通过主键、外键来实现参照完整性，通过约束或者触发器来实现用户自定义完整性但是，在NoSQL数据库却无法实现

Chapter14厦门大学林子雨-大数据技术原理与应用-第十四章基于Hadoop的数据仓库Hive(

《大数据技术原理与应用》
温馨提示：编辑幻灯片母版，可以修改每页PPT的厦大校徽和底部文字
第八讲基于Hadoop的数据仓库Hive
（PPT版本号：2016年4月6日版本）
E-mail: 主页：
《大数据技术原理与应用》
厦2门01大6 学计算机科学系
林子雨
课堂内容与教材对应关系说明
《大数据技术原理与应用》
全方位、一站式服务
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
提纲
• 14.1 概述 • 14.2 Hive系统架构 • 14.3 Hive工作原理 • 14.4 Hive HA基本原理 • 14.5 Impala • 14.6 Hive编程实践
本PPT是如下教材的配套讲义： 21世纪高等教育计算机规划教材《大数据技术原理与应用 ——概念、存储、处理、分析与应用》（2015年8月第1版）厦门大学林子雨编著，人民邮电出版社 ISBN:978-7-115-39287-9
第9讲-Hadoop架构再探讨
新增第15章，不在当前第1版教材中，将放入第2版教材
第10讲-流计算
第8章-流计算
第11讲-Spark
新增第16章，不在当前第1版教材中，将放入第2版教材
第12讲-图计算
第9章-图计算
第13讲-数据可视化
第10章-数据可视化
第14讲-大数据在互联网领域的应用第11章-大数据在互联网领域的应用
厦门大学林子雨编著《大数据技术原理与应用》 2015年8月1日人民邮电出版社出版发行第1版教材共包含13章内容
第一章大数据概述第二章大数据处理架构Hadoop 第三章分布式文件系统HDFS 第四章分布式数据库HBase 第五章 NoSQL数据库第六章云数据库第七章 MapReduce 第八章流计算第九章图计算第十章数据可视化第十一章大数据在互联网领域的应用第十二章大数据在生物医学领域的应用（自学）第十三章大数据的其他应用（自学）

大数据技术原理与应用课程实验报告一

大数据技术原理与应用课程实验报告一
最近几年，大数据技术在各行各业的使用和应用越来越广泛，引起了人们的广泛关注。

数据的处理、挖掘和分析对企业的经营和发展起到越来越重要的作用。

大数据技术和数据分析技术基于众多观点构成了一个强大的工具，可以让我们在复杂的情况下收集和控制信息，并找出结果及其实质影响。

大数据技术公认为能有效改善商业操作和决策，促进企业可持续发展。

本报告对大数据技术的原理进行了研究，并将大数据技术应用到实际的实验中，以更加全面的角度来理解大数据技术的核心概念及其实现技术。

首先，本实验以信息科学、统计分析、机器学习和语言处理等方面为基础，介绍了大数据的基本概念，包括数据科学家和数据挖掘分析师的基本知识，以及大数据处理、存储和分析技术的发展情况。

其次，本实验介绍大数据技术的应用，并实际使用相关技术，如Keras和TensorFlow等深度学习技术，来解决实际问题。

为了实现
大数据技术的有效应用，需要熟悉大数据的基本概念，对大数据处理、存储和分析技术有基本的了解。

最后，本实验对本次实验做出总结：本次实验为我们提供了一个有效的方法来理解大数据技术，以及如何有效地将其应用于实际场景，本次实验也令我们熟悉了Keras和TensorFlow等大数据处理技术，
为让大数据技术更好地融入现代社会奠定了坚实的基础。

总而言之，本报告从实验的角度，详细介绍了大数据技术的原理、
技术及其实际应用，为我们更深入地理解大数据技术以及如何有效地将大数据技术应用到实际环境中奠定了基础。

此外，本次实验也可以作为数据分析师和大数据分析师的入门参考，以便更好地掌握大数据技术的基本概念和实现方法。

Chapter3-厦门大学-林子雨-大数据技术原理与应用-第三章-分布式文件系统HDFS

根目录目录文件块 „ 块
名称节点(NameNode) FsImage EditLog
目录
目录
记录了所有针对文件的创建、删除、重命名等操作
图3-3 名称节点的数据结构
《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@
3.3.2名称节点和数据节点
数据节点（DataNode）是分布式文件系统HDFS的工作节点，
负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的
列表。每个数据节点中的数据会被保存在各自节点的本地Linux文件
系统中
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
3.4 HDFS体系结构
《大数据技术原理与应用》厦门大学计算机科学系
厦门大学计算机科学系
林子雨
2015年版 ziyulin@
提纲
• • 3.1 分布式文件系统 3.2 HDFS简介
•
• •
3.3 HDFS相关概念
3.4 HDFS体系结构 3.5 HDFS存储原理
•
•
3.6 HDFS大数据读写过程
3.7 HDFS编程实践
客户端 (Client) 名称节点 (NameNode)
数据块号、数据块位置写数据读数据
数据节点 (DataNode)
„„
数据节点（DataNode）
本地Linux文件系统
„„
数据节点（DataNode）
„„
数据节点（DataNode）
本地Linux文件系统
本地Linux文件系统
本地Linux文件系统

厦门大学林子雨编著

厦门大学林子雨编著《大数据技术原理与应用》教材配套机房上机实验指南实验3第四章熟悉常用的HBase操作（版本号：2016年5月14日版本）主讲教师：林子雨厦门大学数据库实验室二零一六年五月目录目录1实验目的 (1)2实验平台 (1)3实验内容和要求 (1)4实验报告 (2)附录1:任课教师介绍 (3)附录2：课程教材介绍 (3)附录3：中国高校大数据课程公共服务平台介绍 (4)厦门大学林子雨编著《大数据技术原理与应用》教材配套机房上机实验指南实验3第四章熟悉常用的HBase操作主讲教师：林子雨E-mail: ziyulin@ 个人主页：/linziyu1实验目的1. 理解HBase在Hadoop体系结构中的角色；2. 熟练使用HBase操作常用的Shell命令；3. 熟悉HBase操作常用的Java API。

2实验平台操作系统：LinuxHadoop版本：2.6.0或以上版本HBase版本：1.1.2或以上版本JDK版本：1.6或以上版本Java IDE：Eclipse3实验内容和要求1.编程实现以下指定功能，并用Hadoop提供的HBase Shell命令完成相同任务：（1）列出HBase所有的表的相关信息，例如表名；（2）在终端打印出指定的表的所有记录数据；（3）向已经创建好的表添加和删除指定的列族或列；（4）清空指定的表的所有记录数据；（5）统计表的行数。

2.现有以下关系型数据库中的表和数据，要求将其转换为适合于HBase存储的表并插入数据：学生表（Student）同时，请编程完成以下指定功能：（1）createTable(String tableName, String[] fields)创建表，参数tableName为表的名称，字符串数组fields为存储记录各个域名称的数组。

要求当HBase已经存在名为tableName的表的时候，先删除原有的表，然后再创建新的表。

（2）addRecord(String tableName, String row, String[] fields, String[] values)向表tableName、行row（用S_Name表示）和字符串数组files指定的单元格中添加对应的数据values。

大数据技术原理与应用教学大纲

大数据技术原理与应用教学大纲课程概述入门级大数据课程，适合初学者，完备的课程在线服务体系，可以帮助初学者实现“零基础”学习大数据课程。

课程采用厦门大学林子雨老师编著的国内高校第一本系统性介绍大数据知识专业教材《大数据技术原理与应用》。

课程紧紧围绕“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”的指导思想，对大数据知识体系进行系统梳理，做到“有序组织、去粗取精、由浅入深、渐次展开”。

课程由国内高校知名大数据教师厦门大学林子雨副教授主讲。

授课目标课程的定位是入门级课程，本课程的目标是为学生搭建起通向“大数据知识空间”的桥梁和纽带。

本课程将系统梳理总结大数据相关技术，介绍大数据技术的基本原理和大数据主要应用，帮助学生形成对大数据知识体系及其应用领域的轮廓性认识，为学生在大数据领域“深耕细作”奠定基础、指明方向。

课程大纲第1讲大数据概述1.1 大数据时代1.2 大数据概念和影响1.3 大数据的应用1.4 大数据的关键技术1.5 大数据与云计算、物联网本讲配套讲义PPT-第1讲-大数据概述第1讲大数据概述章节单元测验第2讲大数据处理架构Hadoop本讲实验答疑-第2讲-大数据处理架构Hadoop2.1 概述2.2 Hadoop项目结构2.3 Hadoop的安装与使用2.4 Hadoop集群的部署和使用本讲配套讲义PPT-第2讲-大数据处理架构Hadoop 大数据处理架构Hadoop单元测验第3讲分布式文件系统HDFS3.1 分布式文件系统HDFS简介3.2 HDFS相关概念3.3 HDFS体系结构3.4 HDFS存储原理3.5 HDFS数据读写过程3.6 HDFS编程实践本讲配套讲义PPT-第3讲-分布式文件系统HDFS 分布式文件系统HDFS单元测验第4讲分布式数据库HBase4.1 HBase简介4.2 HBase数据模型4.3 HBase的实现原理4.4 HBase运行机制4.5 HBase应用方案4.6 HBase安装配置和常用Shell命令4.7 HBase常用Java API及应用实例本讲配套讲义PPT-第4讲-分布式数据库HBase 分布式数据库HBase单元测验第5讲NoSQL数据库5.1 NoSQL概述5.2 NoSQL与关系数据库的比较5.3 NoSQL的四大类型5.4 NoSQL的三大基石5.5 从NoSQL到NewSQL数据库5.6 文档数据库MongoDB本讲配套讲义PPT-第5讲-NoSQL数据库NoSQL数据库单元测验第6讲云数据库6.1 云数据库概述6.2 云数据库产品6.3 云数据库系统架构6.4 Amazon AWS和云数据库6.5 微软云数据库SQL Azure6.6 云数据库实践本讲配套讲义PPT-第6讲-云数据库云数据库单元测验第7讲MapReduce7.1 MapReduce概述7.2 MapReduce的体系结构7.3 MapReduce工作流程7.4 Shuffle过程原理7.5 MapReduce应用程序执行过程7.6 实例分析：WordCount7.7 MapReduce的具体应用7.8 MapReduce编程实践本讲配套讲义PPT-第7讲-MapReduce MapReduce单元测验第8讲Hadoop再探讨8.1 Hadoop的优化与发展8.2 HDFS2.0的新特性8.3 新一代资源管理调度框架YARN8.4 Hadoop生态系统中具有代表性的功能组件本讲配套讲义PPT-第9讲-Hadoop再探讨Hadoop再探讨单元测验第9讲数据仓库Hive9.1 数据仓库概念9.2 Hive简介9.3 SQL转换成MapReduce作业的原理9.4 Impala9.5 Hive编程实践本讲配套讲义PPT-第9讲-数据仓库Hive数据仓库Hive单元测验第10讲Spark10.1 Spark概述10.2 Spark生态系统10.3 Spark运行架构10.4 Spark SQL10.5 Spark的部署和应用方式10.6 Spark编程实践本讲配套讲义PPT-第10讲-SparkSpark单元测验第11讲流计算11.1 流计算概述11.2 流计算处理流程11.3 流计算的应用11.4 开源流计算框架Storm11.5 Spark Streaming、Samza以及三种流计算框架的比较11.6 Storm编程实践本讲配套讲义PPT-第11讲-流计算流计算单元测验第12讲Flink12.1Flink简介12.2为什么选择Flink12.3Flink应用场景12.4Flink技术栈、体系架构和编程模型12.5 Flink的安装与编程实践本讲配套讲义PPT-第12讲-FlinkFlink单元测验第13讲图计算13.1 图计算简介13.2 Pregel简介13.3 Pregel图计算模型13.4 Pregel的C++ API13.5 Pregel的体系结构13.6 Pregel的应用实例——单源最短路径13.7 Hama的安装和使用本讲配套讲义PPT-第13讲-图计算图计算单元测验第14讲大数据在不同领域的应用14.1 大数据应用概览14.2 推荐系统14.3 大数据在智能医疗和智能物流领域运用本讲配套讲义PPT-第14讲-大数据在不同领域的应用大数据在不同领域的应用单元测验预备知识面向对象编程（比如Java）、数据库、操作系统参考资料林子雨.大数据技术原理与应用（第3版），人民邮电出版社，2020年9月（教材官网）。

国家精品课程大数据技术原理与应用

国家精品课程大数据技术原理与应用一、引言国家精品课程是指由教育部认定的、在教学内容、教学过程、教学质量、教学评价和教学环境等方面达到国内领先水平的教学活动。

大数据技术作为当今社会发展的重要驱动力之一，已经在各个领域得到了广泛的应用。

国家精品课程大数据技术原理与应用的探讨，既有利于推动教育信息化的发展，也可以为学生提供更加丰富和有深度的学习内容。

本文将从大数据技术的基本原理和在不同领域的应用两个方面探讨国家精品课程大数据技术的重要性和意义。

二、国家精品课程大数据技术的基本原理1. 数据采集与存储在大数据技术中，数据的采集和存储是至关重要的一环。

传感器技术、网络爬虫以及各类数据库系统的应用，使得海量的数据得以被采集并存储起来。

国家精品课程大数据技术需要深入探讨数据采集的各种方式以及数据存储的原理，为学生提供系统性的知识储备。

2. 数据处理与分析数据的处理和分析是大数据技术中最核心的部分之一。

通过数据挖掘、机器学习和人工智能等技术手段，可以从海量的数据中找到有价值的信息。

国家精品课程大数据技术应该深入剖析各种数据处理和分析方法，以及它们在不同领域中的应用。

3. 数据应用与展示最终的数据价值体现在对其进行应用与展示。

国家精品课程大数据技术应该引导学生学习如何将数据应用到实际问题中，并学习数据可视化技术，以便更好地向他人展示自己的研究成果。

三、国家精品课程大数据技术在不同领域的应用1. 金融领域在金融领域，大数据技术被广泛应用于风险管理、投资决策以及金融交易的实时监控和分析。

国家精品课程大数据技术应该帮助学生了解金融领域中大数据技术的实际应用，培养他们对金融数据的敏感度和分析能力。

2. 医疗健康领域大数据技术在医疗健康领域的应用包括疾病预测、医疗资源分配以及个性化治疗方案的制定。

国家精品课程大数据技术应该引导学生学习医疗健康领域的大数据技术应用，培养他们对医疗健康数据的理解和应用能力。

3. 城市管理领域城市管理领域的智慧城市建设中，大数据技术发挥着越来越重要的作用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

迭代1
读取内存
存储在内存中
迭代2
...
输入
存储在内存中
输入
查询1
结果1
查询2
结果2
...
图16-2 Hadoop与Spark的执行流程对比
(b) Spark执行流程
3.1.3 Spark与Hadoop的对比
•使用Hadoop进行迭代计算非常耗资源 •Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据
Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce 的迭代执行机制
3.1.3 Spark与Hadoop的对比
HDFS
HDFS
HDFS
HDFS
读取
写入
读取
写入
1
结果1
查询2
结果2
输入
...
(a) Hadoop MapReduce执行流程
读取
存储在内存中
Scala的特性： •Scala具备强大的并发性，支持函数式编程，可以更好地支持分布式系统 •Scala语法简洁，能提供优雅的API Scala兼容Java，运行速度快，且能融合到Hadoop生态圈中
Scala是Spark的主要编程语言，但Spark还支持Java、Python、R 作为编程语言 Scala的优势是提供了REPL（Read-Eval-Print Loop，交互式解释器），提高程序开发效率
图16-3 Hadoop与Spark执行逻辑回归的时间对比
3.1.3 Spark与Hadoop的对比
MapReduce 数据存储结构：磁盘HDFS文件系统的split
编程范式：Map + Reduce 计算中间结果落到磁盘，IO及序列化、反序列化代价大 Task以进程的方式维护，需要数秒时间才能启动任务
•2013年Spark加入Apache孵化器项目后发展迅猛，如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一（Hadoop、Spark、Storm）
•Spark在2014年打破了Hadoop保持的基准排序纪录 •Spark/206个节点/23分钟/100TB数据 •Hadoop/2000个节点/72分钟/100TB数据 •Spark用十分之一的计算资源，获得了比Hadoop快3倍的速度
免费在线教程：
3.1 Spark概述
3.1.1 Spark简介 3.1.2 Scala简介 3.1.3 Spark与Hadoop的比较
3.1.1 Spark简介
•Spark最初由美国加州伯克利大学（UCBerkeley）的AMP 实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序
•复杂的批量数据处理：通常时间跨度在数十分钟到数小时之间 •基于历史数据的交互式查询：通常时间跨度在数十秒到数分钟之间 •基于实时数据流的数据处理：通常时间跨度在数百毫秒到数秒之间当同时存在以上三种场景时，就需要同时部署三种不同的软件
•比如: MapReduce / Impala / Storm
这样做难免会带来一些问题： •不同场景之间输入输出数据无法做到无缝共享，通常需要进行数据格式的转换 •不同的软件需要不同的开发和维护团队，带来了较高的使用成本 •比较难以对同一个集群中的各个系统进行统一的资源协调和分配
3.1.1 Spark简介
Spark具有如下几个主要特点：
•运行速度快：使用DAG执行引擎以支持循环数据流与内存计算 •容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过 Spark Shell进行交互式编程 •通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件 •运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、 HBase、Hive等多种数据源
相比于Hadoop MapReduce，Spark主要具有如下优点：
• Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce 更灵活 • Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高
Spark
使用内存构建弹性分布式数据集 RDD 对数据进行运算和cache
DAG: Transformation + Action
计算中间结果在内存中维护存取速度比磁盘高几个数量级
Task以线程的方式维护对于小数据集读取能够达到亚秒级的延迟
3.2 Spark生态系统
在实际应用中，大数据处理主要包括以下三个类型：
3.1.3 Spark与Hadoop的对比
Hadoop存在如下一些缺点：
• 表达能力有限 • 磁盘IO开销大 • 延迟高
•任务之间的衔接涉及IO开销 •在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务
3.1.3 Spark与Hadoop的对比
Spark在借鉴Hadoop MapReduce优点的同时，很好地解决了 MapReduce所面临的问题
3.2 Spark生态系统
3.1.1 Spark简介
Spark如今已吸rk来构建大数据分析应用，并应用到实际的生产环境中
图16-1 谷歌趋势：Spark与Hadoop对比
3.1.2 Scala简介
Scala是一门现代的多范式编程语言，运行于Java平台（JVM， Java 虚拟机），并兼容现有的Java程序
厦门大学研究生课程
《大数据处理技术Spark》
温馨提示：编辑幻灯片母版，可以修改每页PPT的厦大校徽和底部文字
第3章 Spark的设计与运行原理
（PPT版本号：2017年春季学期）
林子雨
厦门大学计算机科学系
扫一扫访问班级主页
E-mail: 主页：
厦门大学计算机科学系
2017年版
提纲
• 3.1 Spark概述 • 3.2 Spark生态系统 • 3.3 Spark运行架构 • 3.4 Spark的部署和应用方式

大数据技术原理与应用-完整版PPT课件

页数:769
大数据技术原理与应用-林子雨版-课后习题答案复习进程

页数:51
林子雨大数据技术原理及应用第四章课后作业答案

页数:4
Chapter9-大数据技术原理与应用-第九章-图计算-pdf

页数:44
(完整版)大数据技术原理与应用林子雨版课后习题答案

页数:56
大数据技术原理与应用林子雨版课后习题答案(精编文档).doc

页数:79
大数据技术原理及应用

页数:12
大数据技术原理与应用-大数据概述

页数:43
大数据技术原理与应用演示课件.ppt

页数:51
Chapter林子雨大数据技术原理与应用大数据概述版本

页数:43

大数据技术原理与应用-厦门大学数据库试验室

合集下载