hadoop启动模式、基本配置、启动方式
- 格式:docx
- 大小:30.83 KB
- 文档页数:6
《Hadoop大数据技术》课程教学大纲一、课程基本情况课程代码:1041139083课程名称(中/英文):Hadoop大数据技术/Hadoop Big Data Technology课程类别:专业必修课学分:3.5总学时:56理论学时:32实验/实践学时:24适用专业:数据科学与大数据技术适用对象:本科先修课程:JA V A程序设计、Linux基础教学环境:课堂、多媒体、实验机房二、课程简介《Hadoop大数据技术》课程是数据科学与大数据技术专业的专业必修课程。
《Hadoop大数据技术》主要学习当前广泛使用的大数据Hadoop平台及其主要组件的作用及使用。
通过学习Hadoop 平台框架,学会手动搭建Hadoop环境,掌握Hadoop平台上存储及计算的原理、结构、工作流程,掌握基础的MapReduce编程,掌握Hadoop生态圈常用组件的作用、结构、配置和工作流程,并具备大数据的动手及问题分析能力,使用掌握的知识应用到实际的项目实践中。
课程由理论及实践两部分组成,课程理论部分的内容以介绍Hadoop平台主要组件的作用、结构、工作流程为主,对Hadoop 平台组件的作用及其工作原理有比较深入的了解;课程同时为各组件设计有若干实验,使学生在学习理论知识的同时,提高实践动手能力,做到在Hadoop的大数据平台上进行大数据项目开发。
三、课程教学目标2.课程教学目标及其与毕业要求指标点、主要教学内容的对应关系四、教学内容(一)初识Hadoop大数据技术1.主要内容:掌握大数据的基本概念、大数据简史、大数据的类型和特征、大数据对于企业带来的挑战。
了解对于大数据问题,传统方法、Google的解决方案、Hadoop框架下的解决方案,重点了解Google的三篇论文。
掌握Hadoop核心构成、Hadoop生态系统的主要组件、Hadoop发行版本的差异及如何选择;了解Hadoop典型应用场景;了解本课程内容涉及到的Java语言基础;了解本课程实验涉及到的Linux基础。
Hadoop集群的三种⽅式1,Local(Standalone) Mode 单机模式$ mkdir input$ cp etc/hadoop/*.xml input$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'$ cat output/*解析$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'input 夹下⾯的⽂件:capacity-scheduler.xml core-site.xml hadoop-policy.xml hdfs-site.xml httpfs-site.xml yarn-site.xml bin/hadoop hadoop 命令jar 这个命令在jar包⾥⾯share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar 具体位置grep grep 函数input grep 函数的⽬标⽂件夹output grep 函数结果的输出⽂件夹'dfs[a-z.]+' grep 函数的匹配正则条件直译:将input⽂件下⾯的⽂件中包含 'dfs[a-z.]+' 的字符串给输出到output ⽂件夹中输出结果:part-r-00000 _SUCCESScat part-r-00000:1 dfsadmin在hadoop-policy.xml 存在此字符串2,Pseudo-Distributed Operation 伪分布式在 etc/hadoop/core.site.xml 添加以下属性<configuration><property><name>fs.defaultFS</name><value>hdfs://:8020</value> 是主机名,已经和ip相互映射</property>还需要覆盖默认的设定,mkdir -p data/tmp<property><name>hadoop.tmp.dir</name><value>/opt/modules/hadoop-2.5.0/data/tmp</value> 是主机名,已经和ip相互映射</property>垃圾箱设置删除⽂件保留时间(分钟)<property><name>fs.trash.interval</name><value>10080</value></property></configuration>etc/hadoop/hdfs-site.xml: 伪分布式1个备份<configuration><property><name>dfs.replication</name><value>1</value></property>配置从节点<property><name>node.secondary.http-address</name><value>主机名:50090</value></property></configuration>格式化元数据,进⼊到安装⽬录下bin/hdfs namenode -format启动namenode,所有的命令都在sbin下,通过ls sbin/ 可以查看sbin/hadoop-daemon.sh start namenode hadoop 的守护线程启动(主数据)sbin/hadoop-daemon.sh start datanode 启动datanode(从数据)nameNode都有个web⽹页,端⼝50070创建hdfs ⽂件夹,创建在⽤户名下⾯bin/hdfs dfs -mkdir -p /user/chris查看⽂件夹bin/hdfs dfs -ls -R / 回调查询本地新建⽂件夹mkdir wcinput mkdir wcoutput vi wc.input创建wc.input⽂件,并写⼊内容hdfs⽂件系统新建⽂件夹bin/hdfs dfs -mkdir -p /user/chris/mapreduce/wordcount/input本地⽂件上传hdfs⽂件系统bin/hdfs dfs -put wcinput/wc.input /user/chris/mapreduce/wordcount/input/在hdfs⽂件系统上使⽤mapreduce$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /user/chris/mapreduce/wordcount/input /user/chris/mapreduce/wordcount/output红⾊代表:读取路径蓝⾊代表:输出路径所以mapreduce的结果已经写到了hdfs的输出⽂件⾥⾯去了Yarn on a Single Node/opt/modules/hadoop-2.5.0/etc/hadoop/yarn-site.xml 在hadoop的安装路径下<configuration><property><name>yarn.resourcemanager.hostname</name><value></value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>yarn 的配置已经完成在同⼀⽬录下slave⽂件上添加主机名或者主机ip,默认是localhostyarn-env.sh 和 mapred-env.sh把JAVA_HOME 更改下,防⽌出错export JAVA_HOME=/home/chris/software/jdk1.8.0_201将mapred-site.xml.template 重命名为mapred-site.xml,同时添加以下配置<configuration><property><name></name><value>yarn</name></property></configuration>先将/user/chris/mapreduce/wordcount/output/删除再次执⾏$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jarwordcount /user/chris/mapreduce/wordcount/input /user/chris/mapreduce/wordcount/output伪分布式执⾏完毕,mapreduce 执⾏在了yarn 上3,完全分布式基于伪分布式,配置好⼀台机器后,分发⾄其它机器step1: 配置ip 和 hostname 映射vi /etc/hosts192.168.178.110 hella-hadoop192.168.178.111 hella-hadoop02192.168.178.112 hella-hadoop03同时在window以下路径也得设置C:\Windows\System32\drivers\etc\hosts192.168.178.110 hella-hadoop192.168.178.111 hella-hadoop02192.168.178.112 hella-hadoop03具体可参考linux ip hostname 映射step2:部署(假设三台机器)不同机器配置不同的节点部署:hella-hadoop hella-hadoop02 hella-hadoop03HDFS:NameNodeDataNode DataNode DataNodeSecondaryNameNodeYARN:ResourceManagerNodeManager NodeManager NodeManager MapReduce:JobHistoryServer配置:* hdfshadoop-env.shcore.site.xmlhdfs-site.xmlslaves*yarnyarn-env.shyarn-site.xmlslaves*mapreducemapred-env.shmapred-site.xmlstep3:修改配置⽂件core.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://:8020</value></property><property><name>hadoop.tmp.dir</name><value>/opt/app/hadoop-2.5.0/data/tmp</value></property><property><name>fs.trash.interval</name><value>10080</value></property></configuration>hdfs-site.xml<configuration><property><name>node.secondary.http-address</name><value>:50090</value></property></configuration>slavesyarn-site.xml<configuration><property><name>yarn.resourcemanager.hostname</name><value></value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!--NodeManager Resouce --><property><name>yarn.nodemanager.resource.memory-mb</name><value>4096</value></property><property><name>yarn.nodemanager.resource.cpu-vcores</name><value>4</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log-aggregation-retain-seconds</name><value>640800</value></property></configuration>mapred-site.xml<configuration><property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>:19888</value></property></configurationstep4:集群的配置路径在各个机器上要⼀样,⽤户名⼀样step5: 分发hadoop 安装包⾄各个机器节点scp -p 源节点⽬标节点使⽤scp 命令需要配置ssh ⽆密钥登陆,博⽂如下:step6:启动并且test mapreduce可能会有问题No route to Host 的Error,查看hostname 以及 ip 配置,或者是防⽕墙有没有关闭防⽕墙关闭,打开,状态查询,请参考以下博⽂:4,完全分布式+ HAHA全称:HDFS High Availability Using the Quorum Journal Manager 即 HDFS⾼可⽤性通过配置分布式⽇志管理HDFS集群中存在单点故障(SPOF),对于只有⼀个NameNode 的集群,若是NameNode 出现故障,则整个集群⽆法使⽤,知道NameNode 重新启动。
Hadoop测试题一.填空题,1分(41空),2分(42空)共125分1.(每空1分) datanode 负责HDFS数据存储。
2.(每空1分)HDFS中的block默认保存 3 份。
3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。
4.(每空1分)hadoop运行的模式有:单机模式、伪分布模式、完全分布式。
5.(每空1分)Hadoop集群搭建中常用的4个配置文件为:core-site.xml 、hdfs-site.xml、mapred-site.xml 、yarn-site.xml 。
6.(每空2分)HDFS将要存储的大文件进行分割,分割后存放在既定的存储块中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求。
7.(每空2分)一个HDFS集群包括两大部分,即namenode 与datanode 。
一般来说,一个集群中会有一个namenode 和多个datanode 共同工作。
8.(每空2分) namenode 是集群的主服务器,主要是用于对HDFS中所有的文件及内容数据进行维护,并不断读取记录集群中datanode 主机情况与工作状态,并通过读取与写入镜像日志文件的方式进行存储。
9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色,是集群的工作节点。
文件被分成若干个相同大小的数据块,分别存储在若干个datanode 上,datanode 会定期向集群内namenode 发送自己的运行状态与存储内容,并根据namnode 发送的指令进行工作。
10.(每空2分) namenode 负责接受客户端发送过来的信息,然后将文件存储位置信息发送给client ,由client 直接与datanode 进行联系,从而进行部分文件的运算与操作。
11.(每空1分) block 是HDFS的基本存储单元,默认大小是128M 。
大数据开发基础(试卷编号1412)说明:答案和解析在试卷最后1.[单选题]下列选项中,哪一个可以对Hadoop集群进行格式化()A)hadoop namenode -formatB)hadoop namenode -lsC)hdfs datanode -lsD)hdfs datanode -format2.[单选题]以下对信息描述不正确的是( )。
A)信息与能源、材料属于同一层次的概念B)信息是客观的存在C)信息是人类社会赖以生存和发展的三大资源之一D)信息是对数据进行计量形成的记录3.[单选题]在 IBMPASS 中,聚类算法分为分层聚类、Kohonennetwork、K 均值聚类和( ) 四种。
A)系统聚类B)两步聚类C)模型聚类D)其他聚类4.[单选题]大数据的4V特性不包括A)Volume(大量)B)Velocity(高速)C)Visual(可视)D)Variety(多样)5.[单选题]输入图片大小为100×100×3,依次经过一层卷积(kernel size 5×5,padding same,stride 2),pooling(kernel size 3×3,padding same,stride 2),又一层卷积(kernel size 3×3,padding valid,stride 1)之后,输出特征图大小为:( )A)25×25B)50×50C)48×48D)23×236.[单选题]IBM在3V的基础上又归纳总结了第4个V是指C)巨量D)极速7.[单选题]在Zookeeper中,路径由( )字符串构成。
A)UnicodeB)UTF-8C)GBKD)ASCII8.[单选题]关于 Spark 的说法中,( )是错误的。
A)采用内存计算模式B)可利用多种语言编程C)主要用于批处理D)可进行map()操作9.[单选题]Spark诞生于哪所学院A)加州大学芝加哥分校B)哈佛大学加州分校C)加州大学伯克利分校D)斯坦福大学圣地亚哥分校10.[单选题]在概率图模型中,(__)模型是结构最简单的动态贝叶斯网,主要用于时序数据建模。
大数据第二章课后题答案黎狸1. 试述Hadoop 和谷歌的MapReduce 、GFS 等技术之间的关系。
Hadoop 是Apache 软件基金会旗下的一-个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。
①Hadoop 的核心是分布式文件系统( Hadoop Ditributed FileSystem,HDFS ) 和MapReduce 。
②HDFS是对谷歌文件系统( Google File System, GFS ) 的开源实现,是面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储,其冗余数据存储的方式很好地保证了数据的安全性。
③MapReduce 是针对谷歌MapReduce 的开源实现,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,采用MapReduce 来整合分布式文件系统上的数据,可保证分析和处理数据的高效性。
2. 试述Hadoop 具有哪些特性。
Hadoop 是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。
①高可靠性。
采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务。
②高效性。
作为并行分布式计算平台,Hadoop 采用分布式存储和分布式处理两大核心技术,能够高效地处理PB 级数据。
③高可扩展性。
Hadoop 的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点。
④高容错性。
采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。
⑤成本低。
Hadoop 采用廉价的计算机集群,成本比较低,普通用户也很容易用自己的PC 搭建Hadoop 运行环境。
⑥运行在Linux 平台上。
Hadoop 是基于Java 语言开发的,可以较好地运行在Linux 平台上。
简述启动和关闭hadoop集群的方式以及使用的相关指令。
Hadoop是一个开源的分布式数据处理框架,通常用于存储和处理大规模的数据集。
启动和关闭Hadoop集群是使用Hadoop框架的关键步骤。
本文将一步一步回答如何启动和关闭Hadoop集群,以及使用的相关指令。
一、Hadoop集群启动方式Hadoop集群可以通过两种方式进行启动:单节点启动和多节点启动。
1. 单节点启动单节点启动适用于在本地主机运行Hadoop的开发和测试环境。
在单节点启动方式下,所有Hadoop的组件都运行在一台主机上。
以下是单节点启动Hadoop集群的步骤:1. 安装Java开发环境在启动Hadoop之前,首先需要在机器上安装Java开发环境。
Hadoop依赖于Java来运行。
可以从Oracle官方网站下载并安装Java Development Kit(JDK)。
2. 配置Hadoop环境下载Hadoop的最新版本,并解压到本地目录。
接下来,需要配置Hadoop的环境变量。
打开Hadoop的安装目录,在conf目录下找到hadoop-env.sh文件。
通过编辑这个文件,设置正确的JAVA_HOME 路径。
3. 配置Hadoop集群在启动单节点Hadoop集群之前,需要配置Hadoop集群的相关参数。
打开conf目录下的core-site.xml和hdfs-site.xml文件,分别进行配置。
主要包括配置Hadoop文件系统的URL,配置Hadoop的本地文件夹路径,以及配置Hadoop的端口号等。
4. 格式化Hadoop文件系统在单节点模式下,需要手动初始化Hadoop文件系统。
在Hadoop 的安装目录下,使用命令`bin/hdfs namenode -format` 来格式化文件系统。
5. 启动Hadoop集群在Hadoop的安装目录下,使用命令`sbin/start-all.sh`来启动Hadoop集群。
这个命令会启动Hadoop的所有组件,包括NameNode,DataNode,SecondaryNameNode,以及JobTracker 等。
Hadoop集群的搭建方法与步骤随着大数据时代的到来,Hadoop作为一种分布式计算框架,被广泛应用于数据处理和分析领域。
搭建一个高效稳定的Hadoop集群对于数据科学家和工程师来说至关重要。
本文将介绍Hadoop集群的搭建方法与步骤。
一、硬件准备在搭建Hadoop集群之前,首先要准备好适合的硬件设备。
Hadoop集群通常需要至少三台服务器,一台用于NameNode,两台用于DataNode。
每台服务器的配置应该具备足够的内存和存储空间,以及稳定的网络连接。
二、操作系统安装在选择操作系统时,通常推荐使用Linux发行版,如Ubuntu、CentOS等。
这些操作系统具有良好的稳定性和兼容性,并且有大量的Hadoop安装和配置文档可供参考。
安装操作系统后,确保所有服务器上的软件包都是最新的。
三、Java环境配置Hadoop是基于Java开发的,因此在搭建Hadoop集群之前,需要在所有服务器上配置Java环境。
下载最新版本的Java Development Kit(JDK),并按照官方文档的指引进行安装和配置。
确保JAVA_HOME环境变量已正确设置,并且可以在所有服务器上运行Java命令。
四、Hadoop安装与配置1. 下载Hadoop从Hadoop官方网站上下载最新的稳定版本,并将其解压到一个合适的目录下,例如/opt/hadoop。
2. 编辑配置文件进入Hadoop的安装目录,编辑conf目录下的hadoop-env.sh文件,设置JAVA_HOME环境变量为Java的安装路径。
然后,编辑core-site.xml文件,配置Hadoop的核心参数,如文件系统的默认URI和临时目录。
接下来,编辑hdfs-site.xml文件,配置Hadoop分布式文件系统(HDFS)的相关参数,如副本数量和数据块大小。
最后,编辑mapred-site.xml文件,配置MapReduce框架的相关参数,如任务调度器和本地任务运行模式。
第2章课后习题答案一、单选题1.下列选项中,哪个配置文件可以配置 HDFS 地址、端口号以及临时文件目录( ) 。
A. core-site. xmlB. hdfs-site. xmlC. mapred-site. xmlD. yarn-site. xml参考答案:A2.Hadoop 集群启动成功后,用于监控 HDFS 集群的端口是(A. 50010B. 50075C. 8485D. 50070参考答案:D3.下列选项中,可以进行重启引导系统的是( ) 。
A. OKB. CancelC. RebootD. Apply参考答案:C4.下列选项中,关于 SSH 服务说法正确的是( ) 。
A. SSH 服务是一种传输协议B. SSH 服务是一种通信协议C. SSH 服务是一种数据包协议D. SSH 服务是一种网络安全协议参考答案:D5.下列选项中,一键启动 HDFS 集群的命令是( ) 。
A. start-namenode. shB. start-datanode. shC. start-dfs. shD. start-slave. sh参考答案:C6.在 Hadoop 的解压目录下,可以查看 Hadoop 的目录结构的命令是() 。
A. jpsB. llC. tarD. find参考答案:B7.下列选项中,存放 Hadoop 配置文件的目录是( )A. includeB. binC. libexeD. etc参考答案:D8. 在配置 Linux 网络参数时,固定 IP 地址是将路由协议配置为( ) 。
A. staticB. dynamicC. immutableD. variable参考答案:A9.下列选项中,可以对 Hadoop 集群进行格式化的是(A. hadoop namenode -formatB. hadoop namenode -lsC. hdfs datanode -lsD. hdfs datanode -format参考答案:A10.下列选项中,查看 Linux 系统的 IP 配置的命令是( ) 。
⼤数据--Hadoop集群环境搭建⾸先我们来认识⼀下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式⽂件系统。
它其实是将⼀个⼤⽂件分成若⼲块保存在不同服务器的多个节点中。
通过联⽹让⽤户感觉像是在本地⼀样查看⽂件,为了降低⽂件丢失造成的错误,它会为每个⼩⽂件复制多个副本(默认为三个),以此来实现多机器上的多⽤户分享⽂件和存储空间。
Hadoop主要包含三个模块:HDFS模块:HDFS负责⼤数据的存储,通过将⼤⽂件分块后进⾏分布式存储⽅式,突破了服务器硬盘⼤⼩的限制,解决了单台机器⽆法存储⼤⽂件的问题,HDFS是个相对独⽴的模块,可以为YARN提供服务,也可以为HBase等其他模块提供服务。
YARN模块:YARN是⼀个通⽤的资源协同和任务调度框架,是为了解决Hadoop中MapReduce⾥NameNode负载太⼤和其他问题⽽创建的⼀个框架。
YARN是个通⽤框架,不⽌可以运⾏MapReduce,还可以运⾏Spark、Storm等其他计算框架。
MapReduce模块:MapReduce是⼀个计算框架,它给出了⼀种数据处理的⽅式,即通过Map阶段、Reduce阶段来分布式地流式处理数据。
它只适⽤于⼤数据的离线处理,对实时性要求很⾼的应⽤不适⽤。
多相关信息可以参考博客:。
本节将会介绍Hadoop集群的配置,⽬标主机我们可以选择虚拟机中的多台主机或者多台阿⾥云服务器。
注意:以下所有操作都是在root⽤户下执⾏的,因此基本不会出现权限错误问题。
⼀、Vmware安装VMware虚拟机有三种⽹络模式,分别是Bridged(桥接模式)、NAT(⽹络地址转换模式)、Host-only(主机模式):桥接:选择桥接模式的话虚拟机和宿主机在⽹络上就是平级的关系,相当于连接在同⼀交换机上;NAT:NAT模式就是虚拟机要联⽹得先通过宿主机才能和外⾯进⾏通信;仅主机:虚拟机与宿主机直接连起来。
Hadoop命令大全本节比较全面的向大家介绍一下Hadoop命令,欢迎大家一起来学习,希望通过本节的介绍大家能够掌握一些常见Hadoop命令的使用方法。
下面是Hadoop命令的详细介绍。
Hadoop命令大全1、列出所有HadoopShell支持的命令$bin/hadoopfs-help2、显示关于某个命令的详细信息$bin/hadoopfs-helpcommand-name3、用户可使用以下命令在指定路径下查看历史日志汇总$bin/hadoopjob-historyoutput-dir这条命令会显示作业的细节信息,失败和终止的任务细节。
4、关于作业的更多细节,比如成功的任务,以及对每个任务的所做的尝试次数等可以用下面的命令查看$bin/hadoopjob-historyalloutput-dir5、格式化一个新的分布式文件系统:$bin/hadoopnamenode-format6、在分配的NameNode上,运行下面的Hadoop命令启动HDFS:$bin/start-dfs.shbin/start-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容,在所有列出的slave上启动DataNode守护进程。
7、在分配的JobTracker上,运行下面的命令启动Map/Reduce:$bin/start-mapred.shbin/start-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/sla ves文件的内容,在所有列出的slave上启动TaskTracker守护进程。
8、在分配的NameNode上,执行下面的Hadoop命令停止HDFS:$bin/stop-dfs.shbin/stop-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容,在所有列出的slave上停止DataNode守护进程。
第1章Hadoop介绍教案课程名称:Hadoop大数据开发基础课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论28学时,实验36学时)总学分:4.0学分本章学时:2学时一、材料清单(1)《Hadoop大数据开发基础(第2版)》教材。
(2)配套PPT。
(3)引导性提问。
(4)探究性问题。
(5)拓展性问题。
二、教学目标与基本要求1.教学目标从理论方面介绍了Hadoop的概念,Hadoop的历史、特点,了解了Hadoop的主要思想,再通过介绍Hadoop的HDFS、MapReduce和YARN这3大主要的核心组件,深入了解Hadoop 的整体架构,最后简要介绍了Hadoop的生态系统和应用场景。
2.基本要求(1)了解Hadoop分布式框架及其发展历史、特点。
(2)了解Hadoop核心组件。
(3)了解Hadoop的生态系统组件。
(4)了解Hadoop的应用场景。
三、问题1.引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。
(1)你听到过“大数据”这个概念吗?(2)你听到过“Hadoop”这个软件吗?(3)你知道Hadoop最主要的用处吗?(4)你觉得Hadoop更常用于哪方面?2.探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。
或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。
(1)Hadoop是一个什么样的软件?(2)Hadoop的核心组件有哪些?(3)Hadoop HDFS的架构中包括了哪些主要的组件?(4)能否通过WordCount程序简单描述一下Hadoop MapReduce?(5)Hadoop生态圈中有哪些软件?(6)Hadoop有哪些宕机处理方式?(7)Hadoop的主要特点有哪些?3.拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。
大数据技术原理与应用知到章节测试答案智慧树2023年最新青岛滨海学院第一章测试1.大数据的起源是()。
参考答案:互联网2.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。
这体现了大数据分析理念中的:()。
参考答案:相关分析而非因果分析3.当前社会中,最为突出的大数据环境是()。
参考答案:互联网4.大数据时代,数据使用的关键是()。
参考答案:数据再利用5.智慧城市的智慧之源是()。
参考答案:大数据6.万物皆可连,任何事物之间逻辑上都有可能存在联系,这是()思维的表现。
参考答案:相关7.对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。
因此,大数据收集的信息量要尽量精确。
()参考答案:错8.“大数据”并不等同于“大规模数据”。
()参考答案:对9.大数据的价值是数据本身。
( )参考答案:错10.非结构化数据即行数据,存储在数据库里。
( )参考答案:错第二章测试1.下列关于Hadoop说法正确的是()。
参考答案:Hadoop是一个能够对大量数据进行分布式处理的软件框架2.Hadoop生态系统中开源的数据分析集群计算框架是()。
参考答案:Pig3.在初次启动Hadoop集群时,必须对主节点HDFS进行格式化处理,具体指令为()。
参考答案:hdfs namenode -format4.查看hadoop进程在主节点master的Terminal终端执行()命令。
Jps5.Hadoop的安装模式不包括()。
参考答案:安全模式6.对称加密算法中需要有两个不同的密钥:公钥和私钥。
()参考答案:错7.RSA是目前最有影响力的公钥加密算法,它能够抵抗到目前为止已知的所有密码攻击,已被ISO推荐为公钥数据加密标准。
()参考答案:对8.Hadoop 集群正常启动后,默认开放18088端口,用于监控YARN集群。
()参考答案:对9.Hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。
Hadoop,ZooKeeper,HBase,hive(HQL) 安装步骤Hadoop安装:首先我们统一一下定义,在这里所提到的Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。
Hadoop在windows下还未经过很好的测试,所以推荐大家在linux(cent os 6.X)下安装使用。
准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。
可以使用yum install rsync来安装rsync。
一般来说ssh是默认安装到系统中的。
Jdk1.6的安装方法下载linux版本的java,#mkdir /usr/java#cd /usr/java#chmod a+x jdk-6u27-linux-i586.bin#./jdk-6u27-linux-i586.bin安装完成后,设臵环境变量:在etc/profile中设臵#export JAVA_HOME=/usr/java/jdk1.6.0_27#exportCLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOM E/lib/tools.jar#export PATH=$PATH:$JAVA_HOME/bin设臵完成后,使用reboot或者source /etc/profile确保以上准备工作完了之后我们就开始安装Hadoop软件,假设我们用三台机器做Hadoop集群,分别是:192.168.0.141、192.168.0.142和192.168.0.143(下文简称141,142和143),且都使用root用户。
这里有一点需要强调的就是,务必要确保每台机器的主机名和IP地址之间能正确解析。
Host配臵一个很简单的测试办法就是ping一下主机名,比如在ww-1上ping ww-2,如果能ping通就OK!若不能正确解析,可以修改/etc/hosts文件,如果该台机器作Namenode用,则需要在hosts文件中加上集群中所有机器的IP地址及其对应的主机名;如果该台机器作Datanode用,则只需要在hosts文件中加上本机IP地址和Namenode机器的IP地址。
hadoop体系架构1.1 Hadoop概念:hadoop是⼀个由Apache基⾦会所开发的分布式系统基础架构。
是根据google发表的GFS(Google File System)论⽂产⽣过来的。
优点: 1. 它是⼀个能够对⼤量数据进⾏分布式处理的软件框架。
以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。
2. ⾼可靠性,因为它假设计算元素和存储会失败,因此它维护多个⼯作数据副本,确保能够针对失败的节点重新分布处理。
3. ⾼效性,因为它以并⾏的⽅式⼯作,通过并⾏处理加快处理速度。
4. 可伸缩的,能够处理 PB 级数据。
此外,Hadoop 依赖于社区服务,因此它的成本⽐较低,任何⼈都可以使⽤。
Hadoop是⼀个能够让⽤户轻松架构和使⽤的分布式计算平台。
⽤户可以轻松地在Hadoop上开发和运⾏处理海量数据的应⽤程序。
它主要有以下⼏个优点: 1.⾼可靠性。
Hadoop按位存储和处理数据的能⼒值得⼈们信赖。
2.⾼扩展性。
Hadoop是在可⽤的计算机集簇间分配数据并完成计算任务的,这些集簇可以⽅便地扩展到数以千计的节点中。
3.⾼效性。
Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度⾮常快。
4.⾼容错性。
Hadoop能够⾃动保存数据的多个副本,并且能够⾃动将失败的任务重新分配。
5.低成本。
与⼀体机、商⽤数据仓库以及QlikView、Yonghong Z-Suite等数据集市相⽐,hadoop是开源的,项⽬的软件成本因此会⼤⼤降低。
Hadoop组成:主要由两部分组成,⼀个是HDFS,⼀个是MapReduce。
1)什么是HDFS(分布式⽂件系统)?HDFS 即 Hadoop Distributed File System。
⾸先他是⼀个开源系统,同时他是⼀个能够⾯向⼤规模数据使⽤的,可进⾏扩展的⽂件存储与传递系统。
是⼀种允许⽂件通过⽹络在多台主机上分享的⽂件系统,可让多机器上的多⽤户分享⽂件和存储空间。
大数据平台构建与开发考核1、下面哪个程序负责HDFS数据存储。
[单选题]A、NameNodeB、JobtrackerC、Datanode(正确答案)D、secondaryNameNode2、下列哪个程序通常与NameNode在一个节点启动? [单选题]A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、Jobtracker(正确答案)3、 HDFS默认Block Size [单选题]A、32MBB、64MBC、128MB(正确答案)D、256MB4、下列哪项通常是集群的最主要的性能瓶颈 [单选题]A、CPUB、网络C、磁盘(正确答案)D、内存5、关于SecondaryNameNode哪项是正确的? [单选题]A、它是NameNode的热备B、它对内存没有要求C、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间(正确答案)D、SecondaryNameNode应与NameNode部署到一个节点6、一个gzip文件大小75MB,客户端设置Block大小为64MB,请问其占用几个Block? [单选题]A、1B、2(正确答案)C、3D、47、 HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。
当运行mapreduce任务读取该文件时input split大小为? [单选题]A、64MBB、75MBC、一个map读取64MB,另外一个map读取11MB(正确答案)D、11MB8、 Yarn监控的默认端口是() [单选题]A、50070端口B、8088端口(正确答案)C、19888端口D、8080端口9、下面那个组件不是Hadoop的核心组件() [单选题]A、HDFSB、 MapReduceC、Hbase(正确答案)D、Yarn10、以下哪一项不属于Hadoop可以运行的模式______。
[单选题]A、单机(本地)模式B、伪分布式模式C、互联模式(正确答案)D、分布式模式11、Hadoop的作者是下面哪一位______。
Local (Standalone) ModeMapReduce程序运行在本地,启动jvm启动本地模式:1、配置hadoop-env.sh配置文件中的java_home路径2、在hadoop安装目录下:mkdir input3、在input目录下创建任意文件4、统计input文件夹下所有文件中的单词的数量:bin/hadoop jarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount input outputPseudo-Distributed Mode1、配置etc/hadoop/core-site.xml:##配置namenode所在主机<configuration><property><name>fs.defaultFS</name><value>hdfs://bxp:8020</value></property></configuration>##配置文件临时目录<configuration><property><name>hadoop.tmp.dir</name><value>/usr/lib/hadoop-2.5.0-cdh5.3.6/data/tmp</value></property></configuration>2、配置etc/hadoop/hdfs-site.xml:##配置文件备份数量<configuration><property><name>dfs.replication</name><value>1</value></property></configuration>3、格式化文件系统bin/hdfsnamenode -format4、启动namenodesbin/hadoop-daemon.sh start namenode4、启动datanodesbin/hadoop-daemon.sh start datanode5、浏览器访问:http://bxp:50070,查看hdfs6、命令行创建hdfs文件目录:bin/hdfsdfs -mkdir -p/user/bxp/mapreduce/wordcount/input7、命令行查看hdfs文件系统目录结构:bin/hdfsdfs -ls -R /8、上传文件到hdfs文件系统:bin/hdfsdfs -put input/test/user/bxp/mapreduce/wordcount/input(下载的命令为get,查看为cat)9、运行bin/hadoop jarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount /user/bxp/mapreduce/wordcount/input/user/bxp/mapreduce/wordcount/output10、查看运行结果:bin/hdfsdfs -cat /user/bxp/mapreduce/wordcount/output/part-r-00000 此时运行的结果和本地启动时运行的结果相同,不同的是输入的数据源一个是在本地,一个是在hdfs文件系统中。
当在etc/hadoop/core-site.xml中配置文件系统时,回去寻找文件系统,当没有进行配置,默认会去寻找本地文件系统(file:///):YARN on Single Node1、在etc/hadoop/yarn-env.sh中配置JAVA_HOME2、配置etc/hadoop/yarn-site.xml:<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>localhost</value></property></configuration>3、在etc/hadoop/slaves文件中配datanode和nodemamager所在主机的主机名或ip(默认datanode和nodemanager在同一台主机上)localhost4、启动yarnsbin/yarn-daemon.sh start resourcemanagersbin/yarn-daemon.sh start nodemanager5、浏览器查看yarn的监控界面:80886、接下来进行将mapreduce程序运行在yarn上的配置.7、配置etc/hadoop/mapred-env.sh中的JAVA_HOME8、重命名mapred-site.xml.template为mapred-site.xml并配置etc/hadoop/mapred-site.xml##将mapreduce运行在yarn上,默认值是local<configuration><property><name></name><value>yarn</value></property></configuration>9、运行bin/hadoop jarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount /user/bxp/mapreduce/wordcount/input/user/bxp/mapreduce/wordcount/output10、查看运行结果:bin/hdfsdfs -cat /user/bxp/mapreduce/wordcount/output/part-r-00000 此时的运行结果不变,不同的是之前的mapreduce程序运行在本地,此时的mapreduce程序运行在yarn上Fully-Distributed Mode启动mapreduce历史服务器sbin/mr-jobhistory-daemon.sh start historyserver配置yarn日志的聚集聚集:应用运行完成以后,将日志信息上传到HDFS文件系统中在etc/hdoop/yarn-site.xml中增加属性###配置日志聚集<property><name>yarn.log-aggregation-enable</name><value>true</value></property>###配置日志在文件系统中存放的秒数(604800为7天)<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>配置完成后需要将resourcemanager和mapreduce历史任务进行重启才会生效sbin/yarn-daemon.sh stop resourcemanagersbin/yarn-daemon.sh stop nodemanagersbin/mr-jobhistory-daemon.sh stop historyserversbin/yarn-daemon.sh start resourcemanagersbin/yarn-daemon.sh start nodemanagersbin/mr-jobhistory-daemon.sh start historyserverHadoop配置文件∙默认配置文件,在share/hadoop四个模块相对应的jar包中core-default.xmlhdfs-default.xmlyarn-default.xmlmapred-default.xml∙自定义配置文件,在etc/hadoopcore-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml\每次启动程序的时候,系统会首先加载jar包,读取jar包中的默认配置,之后才会读取用户自定义配置,用户自定义配置会覆盖默认配置。
一般在配置的时候,会在官方文档和默认配置文件中查找配置信息,默认配置中会有对配置属性的描述。
配置HDFS垃圾回收时间(分钟)在core-site.xml配置文件中进行增加属性<property><name>fs.trash.interval</name><value>7*24*60</value></property>hadoop启动的三种方式∙各个服务组建逐个启动o hdfshadoop-daemon.shstart|stopnamenode|datanode|secondarynamenodeo yarnyarn-daemon.sh start|stopresourcemanager|nodemanager o mapreducemr-jobhistory-daemon.sh start|stophistoryserver∙各个模块分开启动o hdfsstart-dfs.shstop-dfs.sho yarnstart-yarn.shstop-yarn.sho mapreducemr-historyserver-daemon.sh start|stophistoryserver分模块启动,他的启动方式是:启动命令在主结点上运行,然后通过ssh协议去链接自己和相关将要启动的从结点,从而逐个启动。
使用ssh协议时每次都需要输入密码。
所以需要配置ssh无密钥登陆。
配置无密钥登陆:(客户端生成公钥和私钥,将公钥给将要链接的机器)1、客户端生成密钥。