当前位置:文档之家› 大数据平台kerberos安装部署文档

大数据平台kerberos安装部署文档

大数据平台kerberos安装部署文档
大数据平台kerberos安装部署文档

大数据平台-kerberos安装部署文档

————————————————————————————————作者: ————————————————————————————————日期:

?

1.环境准备

1.1.操作系统

本次安装部署要求在操作系统为CentOS release 6.5(Final)的版本下进行部署,所以在安装部署kerberos之前请先确保操作系统为以上版本,并且集群

中各机器已做时钟同步。

本次安装部署以csdm-hadoop-04作为主kdc服务器,以csdm-hadoop-05作为从kdc服务器,以csdm-hadoop-03作为客户端。一般不建议在服务器上再

安装其他应用程序,比如hadoop。但为了节省资源本次安装在这三台机器均已安

装hadoop相关软件。

1.2.创建操作用户

创建操作系统hdfs、yarn、mapred用户,并使其归属于hadoop用户组: adduserhdfs -gHadoop

adduseryarn -g Hadoop

adduser mapred-gHadoop

1.3.配置hosts文件

为各台机器修改/etc/hosts文件,将真实ip与主机名对应配置,服务端与

客户端均需配置,形如:(不能存在127.0.0.1的配置,否则hadoop进行k

erberos验证时将会出错)

1.4.关闭防火墙

执行以下命令关闭防火墙:

service iptables stop

出现以下界面表示关闭成功

1.5.注册服务与端口的对应

在/etc/service文件最后增加以下信息,以便后续使用:

?krb5_prop754/tcp # Kerberos slave propagation

2.安装配置Kerberos

2.1.安装rpm包

?以root用户登录并创建目录存放安装包:

mkdir /var/kerberos

?上传安装包文件到创建的目录,包括krb5-libs-1.10.3-10.el6_4.6.x86_6

4.rpm、krb5-server-1.10.3-10.el6_4.6.x86_64.rpm(客户端可不安装)、krb5-w

orkstation-1.10.3-10.el6_4.6.x86_64.rpm

?执行安装命令:

rpm -ivh krb5-libs-1.10.3-10.el6_4.6.x86_64.rpm

rpm -ivh krb5-server-1.10.3-10.el6_4.6.x86_64.rpm【客

户端可不安装】?rpm -ivh krb5-workstation-1.10.3-10.el6_

4.6.x86_64.rpm

?查看上述包是否已安装成功:

rpm –qa krb5*

若出现以下情况则代表安装成功。

??

2.2.配置主KDC服务器

2.2.1.设置全局环境变量

需要以root身份登录系统在/etc/profile末尾增加配置文件的全局环境变量:

exportKRB5_CONFIG=/etc/krb5.conf

export KRB5_KDC_PRO

保存后并执行source /etc/profile 使之生效。

2.2.2.配置krb5.conf

执行vi编辑/etc/krb5.conf,内容如下:

[libdefaults]

default_realm =ERICSSON.COM

dns_lookup_realm=false

dns_lookup_kdc =false

ticket_lifetime = 24h

renew_lifetime =7d

forwardable=true

[realms]

ERICSSON.COM = {

kdc = csdm-hadoop-04

kdc =csdm-hadoop-05

admin_server =csdm-hadoop-04

}

[domain_realm]

.ericsson.com=ERICShttps://www.doczj.com/doc/5c10444051.html,

ericsson.com=ERICSShttps://www.doczj.com/doc/5c10444051.html,

2.2.

3.配置kdc.conf

执行vi编辑/var/kerberos/krb5kdc/kdc.conf,内容如下:

[kdcdefaults]

Kdc_ports=750,88

[realms]

ERICSShttps://www.doczj.com/doc/5c10444051.html, ={

kadmind_port = 749

max_life=10h 0m0s

max_renewable_life=7d 0h0m 0s

database_name= /var/kerberos/krb5kdc/principal

admin_keytab=/var/kerberos /krb5kdc/kadm5.keytab

acl_ /krb5kdc/kadm5.acl

key_stash_ /krb5kdc/.k5.ERICSSOhttps://www.doczj.com/doc/5c10444051.html,

}

[logging]

default =

kdc=

admin_server=

集群机器如果开启selinux,请在机器上执行restorecon -R-v /etc/krb5.conf

2.2.4.生成数据库

在主KDC服务器上执行以下命令创建数据库,在执行的过程中会提示输入密码和确认密码,两次输入相同的密码即可:

kdb5_utilcreate -r ericsson.com–s

等待片刻后在提示输入密码界面输入密码后会出现以下界面:

2.2.5.创建管理用户

运行管理入口命令:

kadmin.local

在提示符下执行以下命令

addprinckadmin/

addprinc kadmin/

会提示输入密码,输入两次一样的密码后会提示成功创建。

?将主体添加至密钥文件中

ktadd -k /var/kerberos/krb5kdc/kadm5.keytabkadmin/admin

ktadd -k/var/kerberos/krb5kdc/kadm5.keytabkadmin/changepw2.2.6.启动krb5kdc 和kadmind服务

执行以下命令启动krb5kdc和kadmind服务:

krb5kdc start

kadmind

出现以下界面表示启动成功

2.3.配置从KDC服务器

2.3.1.为从kdc服务器创建创建授权票证

每一个kdc服务器都需要一个host票证,用于在迁移数据库数据市在各kdc服务器之间进行交互验证。注意,创建host票据需要在主kdc服务器上

执行而不是在从kdc服务器。在csdm-hadoop-04上执行以下命令创建票证:

kadmin

addprinc –randkey host/csdm-hadoop-

addprinc –randkey host/csdm-hadoop-

ktaddhost/csdm-hadoop-

2.3.2.设置从kdc服务器的配置文件

将主kdc服务器中的配置文件(kdc.conf、krb5.conf、.k5.ERICSSON.C OM、kadm5.acl)复制到从kdc服务器上相应的目录中;在从kdc服务

器的/var/Kerberos/krb5kdc的目录下创建kpropd.acl文件并增加以

下信息:

host/csdm-hadoop-

host/csdm-hadoop-

2.4.复制数据库数据到KDC从服务器

?在主服务器上创建数据库的dump文件

kdb5_util dump /var/kerberos/krb5kdc/slave_datatrans?在从服务器上执行数据迁移

kprop-f/var/Kerberos/krb5kdc/slave_datatrans csdm-hadoop

-05

定时将主KDC服务器上的数据库数据,更新到从KDC服务器上

由于KDC不提供数据库数据的同步服务功能,因此需要使用脚本或者手工将主KDC服务器上的数据同步到从KDC服务器上,可以参考以下脚本,并配置到定时器中

#!/bin/sh

?kdclist="kerberos2.examplhttps://www.doczj.com/doc/5c10444051.html, kerberos3.examplhttps://www.doczj.com/doc/5c10444051.html,"

?kdb5_util dump /var/kerberos/krb5kdc/slave_datatrans

for kdcin $kdclistdo

??kprop -f/var/kerberos/krb5kdc/slave_datatrans$kdc

2.5.启动从服务器的krb5kdc程序

在从服务器上启动命令执行启动:

?krb5kdc

2.6.配置自启动

在/etc/inittab中增加以下信息可使进程随系统自启动:

/etc/init.d/krb5kdc start

Kadmind

2.7.客户端配置

下面以csdm-hadoop-03这台机器作为客户端说明相关配置

1、在csdm-hadoop-03上安装客户端软件

rpm-ivhkrb5-libs-1.10.3-10.el6_4.6.x86_64.rpm?rpm-ivh

krb5-workstation-1.10.3-10.el6_4.6.x86_64.rpm

2、在主KDC服务器csdm-hadoop-04上,把/etc/krb5.conf复制到csdm-ha doop-03本地对应目录

3、在客户端csdm-hadoop-03上启动命令执行启动:

krb5kdc

此时即可在客户端csdm-hadoop-03上连接KDC服务器

4、生成可访问csdm-hadoop-03机器应用程序的验证

在主KDC服务器csdm-hadoop-04,生成csdm-hadoop-03的principals和keytab,为客户端csdm-hadoop-03添加principals(可以为host或者所要进行验证的机器用户)

addprinc –randkey host/csdm-hadoop-

为客户端csdm-hadoop-03生成keytab

Ktadd–k/var/kerberos/krb5kdc/keytab/host.keytab host/

csdm-hadoop-

把csdm-hadoop-04上生成的keytab复制到csdm-hadoop-03机器上

3.测试服务器

3.1.服务器端测试客户端连接?运行kinit admin/admin,显示提示输入

密码则代表配置成

功:

3.2.远程客户机连接测试

在客户机运行kinit admin/admin 连接服务端,显示提示输入密码则代表配置成功:

4.Hadoop集成kerberos配置

4.1 kerberos配置

Hadoop官方网站建议的操作系统用户及权限如下,下面我们按照这三个用户的权限进行配置,要求使用下面三种用户分别具有各自启动相应进程的权限。

User:GroupDaemons

hdfs:hadoop NameNode, Secondary NameNode, JournalNode, DataNodeyarn:hadoop ResourceManager, NodeManager

mapred:hadoop MapReduce,JobHistory Server

4.1.1为所有机器的用户生成principal

从主KDC服务器csdm-hadoop-04上,把/etc/krb5.conf复制到csdm-hadoop-03本地对应目录,

在主KDC服务器上为hadoop集群中每台机器的用户创建principal,下面以csdm-hadoop-03这台机器为例,运行管理入口命令:

kadmin.local

在提示符下执行以下命令:

addprinc -randkey hdfs/csdm-hadoop-

addprinc-randkey host/csdm-hadoop-

addprinc -randkey yarn/csdm-hadoop-

addprinc -randkey host/csdm-hadoop-

addprinc -randkeymapred/csdm-hadoop-

addprinc -randkey host/csdm-hadoop-

注:

◆集群中的每台机器所用到的用户都需执行上面的命令生成principal

◆每个用户必须执行addprinc-randkey host/XX@XX的命令,这个命令生成的是基

于Kerberos 的应用程序(例如klist和kprop)和服务(例如ftp和telnet)使用的主体。此主体称为host主体或服务主体。

4.1.2生成keytab文件

完成5.1.1后在主KDC服务器上为所有principal生成keytab文件,运行管理入口命令:kadmin.local

在提示符下执行以下命令:

xst -norandkey -k /var/kerberos/krb5kdc/keytab/hdfs.keytab

hdfs/csdm-hadoop-host/csdm-hadoop-

xst -norandkey -k /var/kerberos/krb5kdc/keytab/mapred.keytabmapred/csdm-hadoop-03@ ERhttps://www.doczj.com/doc/5c10444051.html, host/csdm-hadoop-xst -norandkey -k /var/kerberos/krb5kdc/keytab/yarn.keytabyarn/csdm-hadoop-host/csdm-hadoop-

生成授权文件后,使用以下命令检查生成的keytab是否可用:

kinit -k -t

/var/kerberos/krb5kdc/keytab/hdfs.keytabhdfs/csdm-hadoop-

kinit -k -t

/var/kerberos/krb5kdc/keytab/mapred.keytab mapred/csdm-hadoo p-

kinit -k -t

/var/kerberos/krb5kdc/keytab/yarn.keytab yarn/csdm-hadoop-检查没问题后,把生成的keytab文件分发到整个集群中的所有机器。

4.2修改HADOOP配置文件

4.2.1Jsvc安装配置

Datanode的安全机制需要以root用户身份用jsvc来启动,因此首先需要检查是否安装是jsvc如果没有,按以下步骤进行安装:

1、下载commons-daemon-1.0.15-src.tar.gz包并上传至自定义的目录(本操作目

录为/home/hadoop)

2、解压缩后

以root用户登录进入目录/home/Hadoop 执行:

tar –xvf commons-daemon-1.0.15-bin.tar.gz

解压完成后进入

/home/Hadoop /commons-daemon-1.0.15-src/src/native/unix

执行命令:configure

执行命令:make

编译完成后,会在/home/hadoop/commons-daemon-1.0.15-src/src/nativ e/unix目录下生成jsvc可执行文件,如下图

在该目录下执行如果出现下图所示,则jsvc安装成功

这里,我们把该执行文件复制到$HADOOP_HOME/bin以便后续的配置

执行命令:cp /home/hadoop/commons-daemon-1.0.15-src/src/native/unix/jsvc

/home/hadoop/hadoop/bin

4.2.2 hadoop-env.sh配置

找到以下两项配置,并修改

export HADOOP_SECURE_DN_USER=hdfs(配置为要执行datanode的用户,这里为hdfs)

export JSVC_HOME=/home/hadoop/hadoop/bin(配置为jsvc所在的目录)

4.2.3 core-site.xml

在集群中所有节点的core-site.xml文件中添加下面的配置

<name>hadoop.security.authorization</name>

true</value>

</property>

<property>

hadoop.security.authentication</name>

<value>kerberos

</property>

hadoop.rpc.protection

<value>authentication

<property>

hadoop.security.auth_to_local

DEFAULT</value>

4.2.4hdfs-site.xml

在集群中所有节点的hdfs-site.xml文件中添加下面的配置,下面配置以节点csdm-hado op-04为例:

<!--GeneralHDFS security config-->

<property>

dfs.block.access.token.enable

<value>true</value>

</property>

dfs.namenode.kerberos.principal</name>

<value>hdfs/

<property>

host/

<property>

<name>dfs.secondary.https.address

</property>

<property>

dfs.secondary.https.port</name>

50495

</property>

<property>

dfs.secondary.namenode.keytab.>

/var/kerberos/krb5kdc/keytab/hdfs.keytab</value> <!-- path tothe HDFSkeytab-->

</property>

<name>dfs.secondary.namenode.kerberos.principal

hdfs/</value>

</property>

<property>

dfs.secondary.namenode.kerberos.https.principal host/

</property>

<!--DataNode securityconfig-->

dfs.datanode.data.dir.perm</name>

<value>700</value>

</property>

dfs.datanode.address

<value>0.0.0.0:1004

</property>

<value>0.0.0.0:1006

dfs.datanode.keytab.>

<value>/var/kerberos/krb5kdc/keytab/hdfs.keytab</value>

</property>

dfs.datanode.kerberos.principal

hdfs/</value>

<property>

<name>dfs.datanode.kerberos.https.principal</name>

<value>host/</value>

</property>

<value>hdfs/

</property>

/var/kerberos/krb5kdc/keytab/hdfs.keytab</value>

The Kerberoskeytabthe credentials for the

HTTP Kerberos principal used by Hadoop-Auth inthe HTTPendpoint.

配置中有几点要注意的

◆. dfs.datanode.address表示data transceiver RPC server所绑定

的hostname或IP地址,如果开启security,端口号必须小于1024(privileged port),否则的话启动datanode时候会报“Cannot start secure clust er without privileged resources”错误

◆. principal中的instance部分可以使用'_HOST'标记,系统会自动替换它为全称域

◆. 如果开启了security, hadoop会对hdfs block data做permission che

ck,方式用户的代码不是调用hdfs api而是直接本地读block data,这样就绕过了kerberos和文件权限验证,管理员可以通过设置dfs.datanode.data.dir.perm来修改datanode文件权限,这里我们设置为700

配置完成后,修改hdfs.keytab所有者为hdfs

chown-R hdfs:hadoop /var/kerberos/krb5kdc/keytab/hdfs.keytab

chmod 700 /var/kerberos/krb5kdc/keytab/hdfs.keytab

同时保证以下表格中各个目录的对于hdfs用户的权限

PathUser:Group Permissions

hdfs:hadoop drwx------

local

dfs.namenode.na

me.dir

local

hdfs:hadoopdrwx------

dfs.datanode.data.dir

local $HADOOP_LOG_DIR hdfs:hadoop drwxrwxr-x

Hdfs / hdfs:hadoopdrwxr-xr-x

Hdfs /tmphdfs:hadoopdrwxrwxrwxt

Hdfs /user hdfs:hadoop drwxr-xr-x

1、测试namenod e进程启动是否正常

切换到hdfs用户,首先执行klist命令,查看当前是否获取了ticket,经测试,如果已经获取了ticket那么启动namenode进程的时候会报以下错误

使用kdestroy销毁获取的ticket

切换到hdfs用户,启动namenode进程(已经执行过HDFS格式化的操作)

执行命令:hadoop namenode

如果配置正常,应该会看到以下的日志信息输出

验证namenode是否启动正常

◆可打开网页

错误!未定义书签。验证

◆hadoopfs -ls /

注:如果在你的凭据缓存中没有有效的kerberos ticket,执行hadoop fs –ls /将会失败。

可以使用klist来查看是否有有有效的ticket。

如果为空,使用kinit来获取ticket.命令如下

kinit -k -t /var/kerberos/krb5kdc/keytab/hdfs.keytab h

dfs/csdm-hadoop-

2、测试datanode启动是否正常

切换到root用户,

执行命令:hadoop-daemon.sh start datanode

如果启动正常,能在日志文件看到以下日志内容

在日志目录,启动datanode进程会有以下几个日志文件,其中jsvc.err记录了jsvc的错误信息

启动datanode进程,只能使用root用户,如果使用其他用户启动,只会报以下错误

4.2.5mapred-site.xml

在mapred-site.xml中添加

mapreduce.tasktracker.kerberos.principal

</property>

mapreduce.tasktracker.kerberos.https.principal

<value>host/

<name>mapreduce.tasktracker.keytab.>

<value>/var/kerberos/krb5kdc/keytab/mapred.keytab</value> <!-- pathto the MapReduce keytab-->

</property>

<!-- jobhistory server security-->

10020</value><!—如果不设置,则默认使用10020端口

-->

<property>

<name>mapreduce.jobhistory.keytab</name>

/var/kerberos/krb5kdc/keytab/mapred.keytab

<name>mapreduce.jobhistory.principal

<value>mapred/</value>

</property>

将mapred.keytab文件赋权给mapred用户,执行以下命令:

chown -R mapred:hadoop/var/kerberos/krb5kdc/

keytab/mapred.keyt

ab

chmod 700 /var/kerberos/krb5kdc/keytab/mapred.keytab

确保以下表格中各个路径的执行权限

Path User:GroupPermission

hdfs

mapreduce.jobhistory.intermediate

-done-dir

mapred:hadoop drwxrwxrwxt

hdfs

mapreduce.jobhistory.done-dir

mapred:hadoopdrwxr-x---

测试historyserver 进程

执行命令:mr-jobhistory-daemon.sh start historyserver

配置正常,则会看到以下日志内容

4.2.6 yarn-site.xml

在yarn-site.xml追加以下内容:

<property>

<name>yarn.resourcemanager.keytab

/var/kerberos/krb5kdc/keytab/yarn.keytab

</property>

<name>yarn.resourcemanager.principal

yarn/</value>

<property>

yarn.nodemanager.keytab

</property>

<property>

<name>yarn.nodemanager.principal</name>

<property>

<name>yarn.nodemanager.container-executor.c lass</name>

org.apache.hadoop.yarn.server.nodemanager.LinuxContai nerExecutor

hadoop</value>

yarn.nodemanager.linux-container-executor.path

/home/hadoop/hadoop/bin/container-executor

<!—以上为NodeManager配置-->

YARN提供了两种Container启动实现,DefaultContainerExecutor以及Li nuxContainerExecutor,在上面的yarn-site.xml里配置了yarn.nodemanager.container-executor.class的启动方式为LinuxContainerExecuto

r,那么就需要编译安装LinuxContainerExecutor,按如下操作执行:在hadoop的home目录(这里是/home/Hadoop/hadoop)的/etc/hadoop/目录下创建container-executor.cfg文件,内容如下:

设置该文件权限:

$chown root:hadoop container-executor.cfg

$ chmod400 container-executor.cfg

注意:

?container-executor.cfg文件读写权限需设置为400,所有者为root:hadoop。

并且该文件所在的父目录所有者必须为root用户,并对该文件所在的各个父目

录赋以下权限,例如:chmod 750/home/hadoop/

?yarn.nodemanager.linux-container-executor.group要同时配置在yarn-site.xml和container-executor.cfg,且其值需要为运行

NodeManager 的用户所在的组,这里为hadoop。

?banned.users不能为空,默认值为hfds,yarn,mapred,bin

?https://www.doczj.com/doc/5c10444051.html,er.id默认值为1000,在centos系统中,需要设置为小于500的值?确保yarn.nodemanager.local-dirs和yarn.nodemanager.log-dirs对应的目录权限为755。

设置$HADOOP_HOME/bin/container-executor 读写权限为6050如下:

$ chownroot:hadoop $HADOOP_HOME/bin/container-ex ecutor

$ chmod 6050$HADOOP_HOME/bin/container-executor

测试是否配置正确:

大数据平台项目方案说明

大数据平台建设方案 (项目需求与技术方案) 一、项目背景 “十三五”期间,随着我国现代信息技术的蓬勃发展,信息化建设模式发生根本性转变,一场以云计算、大数据、物联网、移动应用等技术为核心的“新 IT”浪潮风起云涌,信息化应用进入一个“新常态”。***(某政府部门)为积极应对“互联网+”和大数据时代的机遇和挑战,适应全省经济社会发展与改革要求,大数据平台应运而生。 大数据平台整合省社会经济发展资源,打造集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台,以信息化提升数据化管理与服务能力,及时准确掌握社会经济发展情况,做到“用数据说话、用数据管理、用数据决策、用数据创新”,牢牢把握社会经济发展主动权和话语权。 二、建设目标 大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的主要目标是强化经济运行监测分析,实现企业信用社会化监督,建立规范化共建共享投资项目管理体系,推进政务数据共享和业务协同,为决策提供及时、准确、可靠的信息依据,提高政务工作的前瞻性和针对性,加大宏观调控力度,促进经济持续健康发

展。 1、制定统一信息资源管理规范,拓宽数据获取渠道,整合业务信息系统数据、企业单位数据和互联网抓取数据,构建汇聚式一体化数据库,为平台打下坚实稳固的数据基础。 2、梳理各相关系统数据资源的关联性,编制数据资源目录,建立信息资源交换管理标准体系,在业务可行性的基础上,实现数据信息共享,推进信息公开,建立跨部门跨领域经济形势分析制度。 3、在大数据分析监测基础上,为政府把握经济发展趋势、预见经济发展潜在问题、辅助经济决策提供基础支撑。 三、建设原则 大数据平台以信息资源整合为重点,以大数据应用为核心,坚持“统筹规划、分步实施,整合资源、协同共享,突出重点、注重实效,深化应用、创新驱动”的原则,全面提升信息化建设水平,促进全省经济持续健康发展。

大数据平台-kerberos安装部署文档

1.环境准备 1.1.操作系统 本次安装部署要求在操作系统为CentOS release 6.5 (Final)的版本下进行部署,所以在安装部署kerberos之前请先确保操作系统为以上版本,并且集群中各机器已 做时钟同步。 本次安装部署以csdm-hadoop-04作为主kdc服务器,以csdm-hadoop-05作为从kdc服务器,以csdm-hadoop-03作为客户端。一般不建议在服务器上再安装其 他应用程序,比如hadoop。但为了节省资源本次安装在这三台机器均已安装hadoop 相关软件。 1.2.创建操作用户 创建操作系统hdfs、yarn、mapred用户,并使其归属于hadoop用户组: adduserhdfs-g Hadoop adduser yarn -g Hadoop addusermapred-g Hadoop 1.3.配置hosts文件 为各台机器修改/etc/hosts文件,将真实ip与主机名对应配置,服务端与客户 端均需配置,形如:(不能存在127.0.0.1的配置,否则hadoop进行kerberos验 证时将会出错) 1.4.关闭防火墙 执行以下命令关闭防火墙: serviceiptables stop 出现以下界面表示关闭成功 1.5.注册服务与端口的对应 在/etc/service文件最后增加以下信息,以便后续使用: krb5_prop 754/tcp # Kerberos slave propagation 2.安装配置Kerberos 2.1.安装rpm包 以root用户登录并创建目录存放安装包: mkdir /var/kerberos

ClouderaManager大数据平台部署指南

部署指南 Cloudera Manager CDH 官方共给出了3中安装方式。第一种方法必须要求所有机器都能连网,由于各种网络超时错误,基本没法用。第二种方法使用CM的在线yum源,在线下载很多包,同样是超时严重。第三种方法是全离线方式,实际情况是也只能用这个。 1、Cloudera Manager的部署条件 ?CDH不支持在容器中部署。 ?支持Oracle JDK7,目前可使用的最新版本为1.7u80,C5.3.x及以上版本也支持使用oracle JDK8,同一个CDH集群中的所有节点使用的JDK版本必须一致。 ?使用Python2.4及以上,不支持Python3 ?仅支持IPv4,且IPv6必须要disabled ?基于tar压缩包的离线安装方式,会在6.0.0中停止支持该方式。 ?支持selinux,但如果不熟悉使用方法,建议关闭。 ?管理端口为7180,此外还有很多基础应用使用的端口,可以运行iptables,需要确认有恰当的授权控制,例如至少要对同网段的访问放开全部端口。 2、Cloudera Manager部署的几个阶段和可选择的方式

注:因为Cloudera Manager的官方yum源位于国外,受网速影响而无法正常使用。所以上述部署方式中,一般是使用PATH C,或者在预先下载好相关RPM包的条件下参照PATH B方式。 3、主机节点信息和基础配置 (1)主机信息 本次部署使用以下主机,前两个作为NameNode使用。后四个主机,分别额外挂载一块1TB的磁盘到本地的/dfs/dn目录下。 注1:用于大数据平台的数据磁盘不要配置RAID,直接祼盘即可。如果有RAID 控制器,则直接对每块盘设置一个单独的RAID0,仍然当作单盘使用。 注2:在有第二块数据盘的情况下,继续挂载到/dfs/dn2,更多的数据盘则按命名规则和挂盘规则扩展即可。 注3:对于生产环境而言,NameNode所在的节点一般不要同时做数据节点使用。而且NameNode所在主机的磁盘需要配置适当的RAID保护级别,以提高可靠性。

大数据平台kerberos安装部署文档

大数据平台-kerberos安装部署文档

————————————————————————————————作者: ————————————————————————————————日期: ?

1.环境准备 1.1.操作系统 本次安装部署要求在操作系统为CentOS release 6.5(Final)的版本下进行部署,所以在安装部署kerberos之前请先确保操作系统为以上版本,并且集群 中各机器已做时钟同步。 本次安装部署以csdm-hadoop-04作为主kdc服务器,以csdm-hadoop-05作为从kdc服务器,以csdm-hadoop-03作为客户端。一般不建议在服务器上再 安装其他应用程序,比如hadoop。但为了节省资源本次安装在这三台机器均已安 装hadoop相关软件。 1.2.创建操作用户 创建操作系统hdfs、yarn、mapred用户,并使其归属于hadoop用户组: adduserhdfs -gHadoop adduseryarn -g Hadoop adduser mapred-gHadoop 1.3.配置hosts文件 为各台机器修改/etc/hosts文件,将真实ip与主机名对应配置,服务端与 客户端均需配置,形如:(不能存在127.0.0.1的配置,否则hadoop进行k erberos验证时将会出错) 1.4.关闭防火墙 执行以下命令关闭防火墙: service iptables stop 出现以下界面表示关闭成功 1.5.注册服务与端口的对应 在/etc/service文件最后增加以下信息,以便后续使用: ?krb5_prop754/tcp # Kerberos slave propagation 2.安装配置Kerberos 2.1.安装rpm包 ?以root用户登录并创建目录存放安装包: mkdir /var/kerberos

大数据平台安装配置使用手册20160708

大数据平台安装配置使用手册 一、操作系统安装 1、操作系统版本:CentOS 6.5 2、安装注意事项: 1)核查系统配置(CPU、核心数、内存、硬盘大小、系统raid情况),如果系统不是raid0,需重做为 raid0; 2)安装操作系统时需规划好系统的角色和hostname,系统角色划分基本原则是流式计算机器内存和核 心数尽量大,且每台机器之间内存和核心数尽量 保持一致;HBase机器的namenode内存需大一点, datanode机器用来存放数据硬盘空间尽量大; hostname命名基本原则:如2台流式计算机器, 总队命名为xxzd-stream01,xxzd-stream02,支队 命名为xxzhd-stream01,xxzhd-stream02;其他命 名类似,stream需改为dn,如 xxzd-dn01,xxzhd-dn02。 3)系统分区,目前一般为:/(根分区)、/swap(swap 分区,一般为内存的1.5倍)、/mnt/diskn(存放 数据分区,大小尽量不要超过1T,n为自然数)。 注:IBM机器需再划分一个/boot/efi(efi分区), 否则系统无法启动。

二、大数据平台安装 1、安装管理界面的节点上,需在/etc/hosts中把本机的 hostname配置上。 2、参照【TranswarpDataHub安装和使用手册v41.pdf】文 档安装。 3、支队只需安装hyperbase和inceptor,总队都安装。 三、集成指挥平台配置使用 1、大数据平台安装完成后,在集成指挥平台的【系统管理】 →【系统配置】→【系统参数管理】里找到图片中所示 的参数,修改为安装的管理节点ip。 2、在集成指挥平台的【系统管理】→【系统配置】→【内 存参数刷新】里刷新内存。 3、在集成指挥平台的【系统管理】→【流计算配置管理】 →【流计算服务器配置】里点击【同步】按钮,同步安 装的机器的hostname,用途等信息。如果安装了HBase,需进行下面图片里描述的操作,否则查询时会报错。 4、在集成指挥平台的【系统管理】→【流计算配置管理】 →【流计算参数配置】里上传流计算jar包。 5、在集成指挥平台的【系统管理】→【系统运行监测】→

部署Hadoop大数据平台部署Hadoop平台

课题:项目3 部署Hadoop大数据平台第2部分部署Hadoop平台课次:第7次教学目标及要求: (1)任务1 JDK的安装配置(熟练掌握) (2)任务2部署Hadoop(熟练掌握) (3)任务3 理解启动Hadoop(熟练掌握) 教学重点: (1)任务1 JDK的安装配置 (2)任务2 部署Hadoop (3)任务3 启动Hadoop 教学难点: (1)任务2 部署Hadoop (2)任务3 启动Hadoop 思政主题: 旁批栏: 教学步骤及内容: 1.课程引入 2.本次课学习内容、重难点及学习要求介绍 (1)任务1 JDK的安装配置 (2)任务2 部署Hadoop (3)任务3 启动Hadoop 3.本次课的教学内容 (1)任务1 JDK的安装配置(熟练掌握) Hadoop的不同版本与JDK的版本存在兼容性问题,所有必须选择对应 版本的JDK进行安装,表中列出了Hadoop和JDK兼容表。我们通过测试 使用Hadoop3.0.0 和JDK1.8。 安装JDK我们使用JDK包安装的方式。首先我们新建JDK的安装目录 /opt/bigddata。操作步骤为://定位opt目录【操作新建目录/opt/bigdata】

[root@master /]# cd /opt/ //在opt目录下新建bigdata文件夹 [root@master /]# mkdir bigdata //查看opt目录下文件夹是否存在 [root@master /]# ls bigdata [root@master /]# Jdk解压安装,步骤为:【操作解压步骤】 [root@master opt]# cd / [root@master /]# cd /opt/ [root@master opt]# ls bigdata jdk-8u161-linux-x64.tar.gz //解压jdk压缩包 [root@master opt]# tar -zxvf jdk-8u161-linux-x64.tar.gz [root@master opt]# ls bigdata jdk1.8.0_161 jdk-8u161-linux-x64.tar.gz //把Jdk目录移动至bigdata目录 [root@master opt]# mv jdk1.8.0_161/ bigdata [root@master opt]# cd bigdata/ //查看是否移动成功 [root@master bigdata]# ls jdk1.8.0_161 [root@master bigdata]# JDK配置环境变量,此步骤为添加JA V A_HOME变量,并配置JDK。具体步骤为:【操作JDK的配置】 //进入环境变量配置文件 [root@master /]# vi /etc/profile //添加如下信息 export JA V A_HOME="/opt/bigdata/jdk1.8.0_161" export PATH=$JA V A_HOME/bin:$PATH //激活环境变量配置文件 [root@master /]# source /etc/profile //验证JDK是否配置完成 [root@master /]# java -version java version "1.8.0_161" Java(TM) SE Runtime Environment (build 1.8.0_161-b12) Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)

大数据平台概要设计说明书

大数据平台概要设计说 明书 Company Document number:WTUT-WT88Y-W8BBGB-BWYTT-19998

计算平台 概要设计说明书 作者:日期: 2013-01-28 批准:日期: 审核:日期: (版权所有,翻版必究)

文件修改记录

目录

1. 引言 1.1 编写目的 大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。麦肯锡公司的报告指出数据是一种生产资料,大数据是下一个创新、竞争、生产力提高的前沿。世界经济论坛的报告认定大数据为新财富,价值堪比石油。因此,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。 互联网特别是移动互联网的发展,加快了信息化向社会经济各方面、大众日常生活的渗透。有资料显示,1998年全球网民平均每月使用流量是1MB(兆字节),2000年是10MB,2003年是100MB,2008年是1GB(1GB等于 1024MB),2014年将是10GB。全网流量累计达到1EB(即10亿GB或 1000PB)的时间在2001年是一年,在2004年是一个月,在2007年是一周,而2013年仅需一天,即一天产生的信息量可刻满亿张DVD光盘。我国网民数居世界之首,每天产生的数据量也位于世界前列。淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB(1TB等于1000GB),存储量40PB(1PB等于1000TB)。百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据。一个8Mbps(兆比特每秒)的摄像头一小时能产生数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB。医院也是数据产生集中的地方。现在,一个病人的CT影像数据量达几十GB,而全国每年门诊人数以数十亿计,并且他们的信息需要长时间保存。总之,大数据存在于各行各业,一个大数据时代正在到来。 信息爆炸不自今日起,但近年来人们更加感受到大数据的来势迅猛。一方面,网民数量不断增加,另一方面,以物联网和家电为代表的联网设备数量增长更快。2007年全球有5亿个设备联网,人均个;2013年全球将有500亿个设备联网,人均70个。随着宽带化的发展,人均网络接入带宽和流量也迅速提

生产企业大数据平台建设项目建议书v

生产企业大数据平台建设项目建议书v 文档编制序号:[KK8UY-LL9IO69-TTO6M3-MTOL89-FTT688]

大数据平台建设项目建议书 目录 第一章、项目背景 企业对信息化工作历来较为重视,也是省内较早开始实施信息化的大型企业。目前已经建成财务系统、生产调度系统、农务系统、供应链系统等: 调度系统,2015年公司共投资了175万元,按集团分步建设、逐步投入的规划,完成了系统基本硬件与亚控平台软件的结合,构建了一个以明阳糖厂生产调度指挥中心为核心,生产信息能够上至集团,下至车间的生产调度网络系统。 农务系统,2005年开始实施,经过多次升级,现涵盖了计划、报蔗、派车、质检、过磅、结算、短信管理、移动应用等一系列模块,覆盖公司4家直属糖厂和大桥制糖公司,实现了农务统一的信息化管理。 供应链系统,利用用友NC供应链系统,以公司存货管理为核心的采、供、销、存供应链管理平台,实现物资、仓储、供应、销售、物流一体化业务协同处理平台,建立了公司对各直属厂工作的监督平台,总部可以实时对下属各公司的工作进行监督,实时对各公司的具体业务执行情况进行查看,及时的对下属公司进行指导和监督。

尽管在两化融合及企业信息化方面已取得了相当的成效,但在实际应用过程中仍然存在一些较为显着的问题。 (一)总部与下属糖厂未实现完全的集约管理 a)企业在原先六家糖厂的基础上,又收购了三博公司五家糖厂。三博 五厂由上海迁回南宁,在宜州设立管理下属五厂的二级管理总 部。 b)从系统部署上分析,企业总部与原先六厂为一套架构,而三博总部 与下属五厂为一套架构,各自独立,暂未整合为一体。 c)为了保证各糖厂生产的稳定,企业总部与下属六厂之间仅在NC供 应链、OA、财务、人力等系统方面实现了集约管理,农务管理系 统、生产调度系统以及化验系统均由各厂自建,因此出现各厂建 设系统的厂家不同,使用的系统版本不同等现象。三博总部与下 属五厂的关系亦如此。 (二)总部及各厂之间的数据共享有限 a)由于大多数生产相关的系统均为各厂自建,因此不管是企业总部, 或者是三博总部在获取各糖厂生产相关数据上均较为困难。 b)企业总部通过制定报表模板、开发报表同步功能的方式,定期的获 取下属六家糖厂的生产相关报表,但这些报表的数据容量有限、 数据呈现较为固定,无法为总部经营决策提供实时、灵活的数据 依据。

Gaia大数据平台安装部署手册

Gaia大数据平台安装部署手册

目录 1目的 (1) 术语 (1) 2软件硬件环境说明 (1) 2.1软件版本 (1) 2.2逻辑部署架构 (2) 2.3硬件环境及规划 (2) 3操作系统配置 (3) 3.1修改服务器名及HOSTS文件 (3) 3.2安装JA V A (4) 3.3新增用户 (4) 3.4SUDO无密码验证配置 (5) 3.5关闭防火墙和SEL INUX (5) 3.6搭建时间服务器及时间同步 (5) 3.6.1安装ntp (5) 3.6.2配置ntp (6) 3.7设置SSH无密码登录 (7) 3.7.1安装openssh (7) 3.7.2配置openssh (7) 3.8设置最大并发数 (8) 3.9安装并设置YUM源 (9) 3.10数据库M YSQL搭建(非必选) (9) 4CLOUDERA 聚群搭建 (10) 4.1RPM与PARCEL包镜像站点搭建 (10) 4.1.1镜像站点搭建 (10) 4.2CM管理数据库M YSQL搭建 (12)

4.2.1搭建Mysql数据库 (12) 4.2.2创建Database (12) 4.3CM部署CDH集群组件安装 (13) 4.3.1CM(cloudera manager console) 安装 (13) 4.3.2Cloudera-manager-server 配置数据库 (13) 4.3.3启动及停止CM (14) 4.3.4Hadoop集群配置 (14) 4.3.5修改jdk java.security配置 (28) 4.3.6拷贝hbase-site.xml文件 (28) 4.3.7hbase mapreduce静态环境配置 (28) 5GAIA管理控制台搭建 (29) 5.1核心服务数据库M YSQL搭建 (29) 5.2数据导入 (29) 5.3上传GAIA平台程序 (29) 5.4运行参数配置 (29) 5.5管理控制台启动及停止 (29) 6GAIA核心服务搭建 (30) 6.1Z OOKEEPER集群搭建 (30) 6.1.1Zookeeper配置 (30) 6.1.2启动Zookeeper服务 (30) 6.2核心服务参数配置 (30) 6.3核心服务启动及停止 (31) 7XREPORT应用搭建 (31) 7.1数据导入 (31) 7.2程序发布 (31) 8QA.常见问题 (31) 8.1HIVE METASTORE 需要MYSQL数据库连接JAR包 (31)

大数据平台部署文档

大数据平台搭建 一.Linux环境准备 1)格式化磁盘 mkfs.ext4 /dev/dm-0 mkdir /data mount /dev/dm-0 /data 系统重启需要手动挂载 把mount /dev/dm-0 /data 的命令放到/etc/rc.d/rc.local 重启自动挂载。df -h 查看挂载点 2)网卡绑定(当服务器有多块网卡需要网卡绑定) ?配置绑定网卡 [root@hadoop001 network-scripts]# vi /etc/sysconfig/network-scripts/ifcfg-bond0 DEVICE=bond0 TYPE=Ethernet ONBOOT=yes BOOTPROTO=static

IPADDR=19.106.64.7 NETMASK=255.255.255.0 GATEWAY=19.106.64.254 NDS1=19.104.4.3 DNS2=19.104.8.3 USERCTL=no ?各网卡设置 [root@hadoop001 network-scripts]# vi /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 TYPE=Ethernet BOOTPROTO=none ONBOOT=yes MASTER=bond0 SLAVE=yes ?配置文件添加vi /etc/modprobe.d/dist.conf 末尾追加 alias bond0 bonding options bond0 miimon=100 mode=0#每100ms检测一次链路mode=0网卡冗余机制

集团大数据平台系统配置方案

集团大数据平台系统配置方案 1.1硬件系统配置建议 1.1.1基础Hadoop平台集群配置规划 根据此次大数据平台的建设要求,大数据平台需要满足全量3PB数据的存储要求,根据数据的特点,大概30%为结构化数据,70%为非结构化数据,并以此进行估算。其中:1)结构化数据的数据量为: 3PB*30%=0.9PB=922TB(结构化数据全部进入数据仓库) 对于结构化数据存储容量要求为: 922TB*(3+1+0.5)/3*1.3=1798TB 注:对结构化数据,采用3倍副本冗余存储,1倍中间结果余留,0.5倍索引存储空间,3倍数据压缩,0.3倍空间余留。 2)非结构化数据的数据量为: 3PB*70%=2.1PB=2151TB 对于非结构化数据存储要求为: 2151TB*3=6453TB 非结构化数据采用3倍副本冗余存储。

3)全量数据存储容量要求为: 1798TB(结构化数据)+6453TB(非结构化数据)=8251TB DataNode单节点存储容量推荐配置为:4TB*12=48TB 基础Hadoop平台DataNode节点数为:8251TB/48TB=172节点 因此,DataNode服务器推荐配置为: 表10-1 推荐配置 服务器推荐配置及说明 节点数量172个节点 CPU 两路8核处理器E5-2650 v3或以上 内存128GB ECCDDR4 硬盘2个600G的SAS硬盘,15000RPM,RAID1,作为系统盘 12个4TB的SATA硬盘,7200RPM,不做RAID1 网络双电口万兆(10Gbps)以太网卡另外:对于此次搭建的大规模Hadoop集群,需要单独规划Zookeeper 9个节点,NameNode 2个节点,Resource Manager 2个节点,HMaster 5个节点,总共9+2+2+5=18个节点

相关主题
文本预览
相关文档 最新文档