当前位置：文档之家› 大数据平台kerberos安装部署文档

大数据平台kerberos安装部署文档

大数据平台－ｋerｂｅrｏs安装部署文档

————————————————————————————————作者: ————————————————————————————————日期:

1.环境准备

1.1.操作系统

本次安装部署要求在操作系统为ＣeｎtOS release 6.5（Fiｎal）的版本下进行部署，所以在安装部署ｋerｂeroｓ之前请先确保操作系统为以上版本,并且集群

中各机器已做时钟同步。

本次安装部署以csdm-hadｏoｐ-０4作为主kｄc服务器,以ｃsdm-hadoop-0５作为从kdc服务器，以csｄm-hadoｏp-０3作为客户端。一般不建议在服务器上再

安装其他应用程序，比如hａdoop。但为了节省资源本次安装在这三台机器均已安

装hadoop相关软件。

1.2.创建操作用户

创建操作系统hdfs、yarn、mａpred用户，并使其归属于ｈadoｏp用户组: adduｓeｒｈdfs -gＨａdoop

adｄｕseｒyarn －g Hａdoｏp

adduｓer mａpｒeｄ-ｇＨaｄoop

1.3.配置hosts文件

为各台机器修改/etｃ/ｈoｓts文件，将真实iｐ与主机名对应配置，服务端与

客户端均需配置，形如：(不能存在12７.0．０.1的配置，否则ｈadｏop进行ｋ

ｅrbｅros验证时将会出错)

1.4.关闭防火墙

执行以下命令关闭防火墙：

sｅrｖice ipｔaｂlｅs stop

出现以下界面表示关闭成功

1.5.注册服务与端口的对应

在/etc/seｒviｃe文件最后增加以下信息,以便后续使用：

?kｒb5_ｐｒoｐ75４/tｃp # Kerbeｒoｓ slave prｏｐagaｔion

2.安装配置Kerｂeros

2.1.安装rｐm包

?以rｏot用户登录并创建目录存放安装包：

mkｄir /ｖar/keｒberos

?上传安装包文件到创建的目录，包括kｒb５－ｌibs-1.10．３-10.ｅl６_4．6．ｘ86_６

4.rpｍ、krb５－servｅｒ-1.10.3－10.el6＿4．6.x86＿6４.rpｍ(客户端可不安装)、ｋrb5-w

ｏｒkstatｉｏn-1.1０．3-１0．el６_4.６.ｘ８6_64.ｒpm

?执行安装命令:

ｒpm -ivh krb5-libs-1.１0.3－10.el６＿4.６．x8６_64.rｐm

rpm -ivh krｂ5－sｅｒｖer－1.10．３-10.el６_4.6.ｘ86_6４.rpm【客

户端可不安装】?rpm -ivh krb5-ｗorkｓtatiｏｎ-１.10.３－10.ｅl6＿

4．6.x8６_64.rpｍ

?查看上述包是否已安装成功：

rpm –qa krb５*

若出现以下情况则代表安装成功。

2.2.配置主KＤC服务器

2.2.1.设置全局环境变量

需要以root身份登录系统在/etｃ/profile末尾增加配置文件的全局环境变量:

eｘpｏrｔKRＢ５_CＯＮＦIG=／etc／krb５.ｃonf

ｅxpoｒt KＲB5_KDＣ＿PRO

保存后并执行source /ｅｔc／profile 使之生效。

2.2.2.配置kｒｂ5.conｆ

执行vi编辑／etc/krb5．coｎf，内容如下:

［libdefaultｓ]

defａuｌt_reａｌm =EＲＩCSSＯN.CＯM

dns_lookup_realｍ＝faｌｓe

dｎs_loｏkｕｐ_ｋｄc ＝false

ｔｉckｅt_liｆetｉme = ２4h

rｅnｅｗ＿liｆetiｍe ＝7d

foｒwardable=true

［reａlms]

ERICSSON．COM = {

kｄc = ｃsdm-hadoop-０4

kdc =csdm－hadooｐ-0５

admin_server =cｓdm-haｄoop-０4

}

［ｄoｍain_rｅalm]

．erｉcsson.cｏm＝ERＩCＳhttps://www.doczj.com/doc/5c10444051.html,

erｉcｓｓｏn．coｍ=ERIＣSＳhttps://www.doczj.com/doc/5c10444051.html,

2.2.

3.配置kｄc．ｃoｎf

执行vi编辑/var/kｅrberｏs/krb5kｄc／kdc．ｃoｎｆ,内容如下:

[kdcdefaults]

Kdｃ_ｐoｒts=75０,88

［ｒealms］

EＲICＳＳhttps://www.doczj.com/doc/5c10444051.html, ＝{

ｋaｄｍiｎd_poｒt = 749

mａｘ_life=10h 0ｍ0s

max_reｎewable_life=７d 0h0m ０s

databａse＿nａmｅ= /vａr／kerberｏｓ/krb5kdc/prｉncipal

adｍｉn_keｙtab=/var/kerｂeros /krb5kdc／kadm5．ｋeytab

ａcl_ /ｋrb5ｋdｃ/ｋaｄm５.ａcｌ

key＿sｔasｈ_ /kｒb5kｄc／.k5.EＲICSSＯhttps://www.doczj.com/doc/5c10444051.html,

}

［ｌｏggiｎｇ]

deｆauｌt =

kdｃ=

adｍin_ｓeｒveｒ＝

集群机器如果开启seｌｉｎux,请在机器上执行resｔｏreｃon -Ｒ-v /ｅtc/ｋrｂ５.conf

2.2.4.生成数据库

在主KDC服务器上执行以下命令创建数据库,在执行的过程中会提示输入密码和确认密码,两次输入相同的密码即可:

kdｂ5_utiｌcreate -r ｅrｉcsson.cｏｍ–s

等待片刻后在提示输入密码界面输入密码后会出现以下界面：

2.2.5.创建管理用户

运行管理入口命令:

kadmiｎ.ｌocaｌ

在提示符下执行以下命令

addprinｃkaｄmiｎ／

addprｉｎc kａｄmin/

会提示输入密码，输入两次一样的密码后会提示成功创建。

?将主体添加至密钥文件中

ktadd -k /vａr/ｋerｂeroｓ/krb5kdc／ｋadｍ5．ｋeyｔaｂkadmｉn/admin

kｔadd -k/var/ｋｅrbｅｒos/krb5kdc/kadm5.keytａｂkadmin/changepｗ2.2.6.启动krｂ５kdc 和kａｄmind服务

执行以下命令启动ｋrｂ5ｋdc和ｋadmiｎｄ服务：

krb5ｋｄc sｔart

kadmｉnd

出现以下界面表示启动成功

2.3.配置从KDC服务器

2.3.1.为从ｋdc服务器创建创建授权票证

每一个kｄｃ服务器都需要一个host票证，用于在迁移数据库数据市在各ｋdc服务器之间进行交互验证。注意，创建hoｓt票据需要在主ｋdc服务器上

执行而不是在从kdc服务器。在csｄｍ-hadｏｏp-04上执行以下命令创建票证:

kadmiｎ

addpriｎc –ｒandｋey hｏst/cｓdm-hａdoop-

ａddｐrinc –randkey hosｔ／cｓdm－hadｏop-

kｔａdｄhost/ｃsdm-hadoop－

2.3.2.设置从kdc服务器的配置文件

将主kdｃ服务器中的配置文件（kdc.conf、krb5.conf、.k5.ERＩCSSOＮ.C ＯM、ｋadm5.ａｃｌ)复制到从kｄc服务器上相应的目录中;在从ｋdc服务

器的/ｖar／Ｋerｂｅｒｏs／krb5kdc的目录下创建kpｒoｐd.acl文件并增加以

下信息:

hosｔ/ｃsdm-hadoop-

hosｔ/ｃsdｍ-haｄoop-

2.4.复制数据库数据到KDC从服务器

?在主服务器上创建数据库的dｕmp文件

kdｂ5_utｉl dump /vａr／ｋｅrbｅrｏs／krｂ5kdｃ/slａve_daｔaｔrａｎｓ?在从服务器上执行数据迁移

kprｏｐ－f/ｖaｒ/Ｋerｂeros/ｋrb5kdc/ｓlave_datatrans csdm－hａdｏop

－05

定时将主KDC服务器上的数据库数据,更新到从ＫDＣ服务器上

由于KDC不提供数据库数据的同步服务功能，因此需要使用脚本或者手工将主KDC服务器上的数据同步到从KDＣ服务器上,可以参考以下脚本，并配置到定时器中

#!／bｉn／sh

?ｋｄｃlisｔ＝＂kｅrbeｒoｓ2.exａｍｐｌhttps://www.doczj.com/doc/5c10444051.html, kerbｅros3.exampｌhttps://www.doczj.com/doc/5c10444051.html,"

?kｄb5＿util ｄuｍp /ｖａr/ｋerberos／krb５kdc/ｓlave_datａtｒans

for kdｃin $ｋdclisｔｄｏ

??kｐrｏp -ｆ／vａr/kerberｏs／krｂ5kｄc/slaｖｅ_daｔatranｓ＄ｋｄc

2.5.启动从服务器的krb5ｋdc程序

在从服务器上启动命令执行启动：

?krb５kdc

2.6.配置自启动

在/etc/ｉnitｔab中增加以下信息可使进程随系统自启动：

/eｔｃ/init.d／ｋｒb5ｋdc staｒt

Ｋadmind

2.7.客户端配置

下面以csｄm-hadｏｏｐ-0３这台机器作为客户端说明相关配置

1、在cｓｄm-hadoop-03上安装客户端软件

ｒpｍ－ivｈkｒb５-libｓ-１.10．3-10.ｅl6_4.6.ｘ86＿64.rpｍ?rpｍ-ivh

krb5-workstaｔion-1.10.3-１０.eｌ6_4.6.x8６＿６4.ｒpm

２、在主KDＣ服务器ｃsdm－hadoop-04上,把／etc/krb5.ｃｏｎf复制到csdm-ha ｄoop-0３本地对应目录

3、在客户端cｓdｍ-hａdｏop－03上启动命令执行启动:

krb5kdc

此时即可在客户端cｓｄｍ-hadoｏｐ-03上连接KDC服务器

4、生成可访问csｄm－ｈadｏｏｐ-03机器应用程序的验证

在主KDＣ服务器cｓdm-hadoｏp-04，生成ｃsdm－ｈadoop-03的ｐｒincipalｓ和keytab，为客户端ｃsdm-hａｄｏｏp－03添加principaｌｓ（可以为ｈost或者所要进行验证的机器用户)

ａddprinc –rａndｋey hoｓt／csｄｍ－hadoop-

为客户端cｓdｍ-hａdｏop-03生成ｋｅyｔaｂ

Ktａdd–ｋ/ｖar/kｅrbeｒｏs／krｂ5kdc／keytａb/hｏｓt.keｙtab host/

ｃsdm－hadｏop-

把cｓdm-hａdoop－０4上生成的kｅyｔab复制到csｄm-hadｏｏp-0３机器上

3.测试服务器

3.1.服务器端测试客户端连接?运行kinit aｄmin/aｄmin，显示提示输入

密码则代表配置成

功:

3.2.远程客户机连接测试

在客户机运行kｉnｉt aｄmin／ａdmin 连接服务端,显示提示输入密码则代表配置成功:

4.Hａdooｐ集成kerbｅros配置

４.1 ｋeｒberos配置

Hadｏｏp官方网站建议的操作系统用户及权限如下,下面我们按照这三个用户的权限进行配置，要求使用下面三种用户分别具有各自启动相应进程的权限。

User:GｒouｐＤaｅmoｎs

hdfs:ｈadoop NamｅNode, Ｓecondary NamｅNｏdｅ, JournalNode, DatａNodｅyarn:ｈaｄoop ResoｕｒcｅＭanager, NodｅMａnaｇer

ｍapreｄ:hadoop MapReduce，JobHisｔory Seｒvｅｒ

4.1.１为所有机器的用户生成principａl

从主KDＣ服务器cｓdm-hadoop－04上,把/etc/ｋｒb5.conf复制到cｓdｍ-hadooｐ-03本地对应目录，

在主KDC服务器上为hａdｏｏp集群中每台机器的用户创建pｒincipａl,下面以csdｍ－haｄoop-０3这台机器为例，运行管理入口命令：

ｋadmin．lｏcal

在提示符下执行以下命令:

addｐriｎc －randkey hdfｓ／csdm－ｈadｏｏp－

aｄdprｉnc-ｒandkey hosｔ/csdm－hadoop-

adｄｐrinc －raｎdkey ｙａrn/csｄｍ－hadｏop-

ａddpｒinc -raｎｄｋey ｈoｓｔ/csｄm-haｄｏop-

addprｉｎc -ranｄkeｙｍapred/ｃｓdm-ｈadooｐ-

aｄｄpriｎc -randkey host/csｄm－haｄooｐ-

注：

◆集群中的每台机器所用到的用户都需执行上面的命令生成princｉpａl

◆每个用户必须执行aｄdpriｎｃ-randkey hｏst/XＸ@XＸ的命令，这个命令生成的是基

于Kerbｅros 的应用程序(例如klist和kpｒoｐ)和服务（例如ｆtｐ和ｔelnet）使用的主体。此主体称为host主体或服务主体。

4.1．２生成ｋｅyｔａb文件

完成５.1.1后在主KDC服务器上为所有princｉpal生成keytab文件,运行管理入口命令：ｋadmin．loｃal

在提示符下执行以下命令:

xst －noｒanｄkey -k /var／ｋerｂeroｓ/ｋrb5ｋdc／ｋｅytab/hｄｆｓ.ｋeyｔab

hdfs/csdm-haｄooｐ－ｈoｓt/ｃsｄm-ｈaｄoｏp－

xｓt -nｏranｄkey -k /var/kerberｏs/kｒb5kdc/keytab/ｍapｒed.keytａｂmaprｅd/csdm-ｈadｏoｐ-03@ EＲhttps://www.doczj.com/doc/5c10444051.html, hｏst/ｃｓdm-hａdooｐ-ｘst －noranｄkeｙ -k /ｖar/ｋerberｏs/ｋrｂ5ｋdc/keyｔaｂ/yarn.keytaｂyarn/csdｍ-hadｏop－hｏst/csｄｍ－hadooｐ－

生成授权文件后，使用以下命令检查生成的kｅytab是否可用：

ｋinit -ｋ -t

/ｖar/kerbｅrｏｓ/ｋrb5kｄｃ/ｋeytab/hdｆｓ.keytaｂhdfs／cｓｄｍ-haｄｏｏｐ－

ｋinit －k -ｔ

／var/keｒbｅroｓ/krb5kdc/keytaｂ/mａｐred．keytab maprｅd/ｃsdm-hadoo ｐ－

ｋiniｔ -k -t

/var/kerｂeｒos/krb5kdｃ/keyｔaｂ/yarn.kｅｙtab yａｒｎ/cｓdm-ｈａdoop－检查没问题后,把生成的keytab文件分发到整个集群中的所有机器。

4.2修改HADＯOP配置文件

４．2.1Jsvc安装配置

Dａtanoｄe的安全机制需要以rooｔ用户身份用jsvc来启动,因此首先需要检查是否安装是jsvc如果没有，按以下步骤进行安装:

1、下载ｃommons-ｄaemon-１.0.1５-ｓｒc.tar.gｚ包并上传至自定义的目录(本操作目

录为/home／haｄoｏp）

2、解压缩后

以roｏt用户登录进入目录/hoｍｅ/Ｈadｏop 执行:

ｔａr –xvf cｏmmons－ｄaｅmｏn-１.０.15-bin．tar.gｚ

解压完成后进入

/home/Haｄoop /coｍｍonｓ－dａemoｎ-１．0.1５-srｃ／ｓrｃ/native/unix

执行命令:confiｇure

执行命令:make

编译完成后，会在/home／hadooｐ/comｍｏns-dａeｍoｎ－1．0.15－src／src/nativ ｅ／uniｘ目录下生成jsｖc可执行文件，如下图

在该目录下执行如果出现下图所示,则jｓvc安装成功

这里，我们把该执行文件复制到$HAＤOOＰ_HOMＥ／bｉn以便后续的配置

执行命令：cp /ｈome/hadooｐ/cｏｍmonｓ-ｄaｅmon-1.0.15-ｓrc/src/naｔive/unｉx/ｊｓvc

／hoｍe／hadｏop/haｄooｐ/bｉn

4.２.2 ｈaｄoｏp-env.sh配置

找到以下两项配置,并修改

ｅｘｐort HADＯOP_SECUＲＥ_DN_USＥR=hdfs（配置为要执行daｔanoｄe的用户，这里为hdfs)

eｘpｏrt JＳVC_ＨOME=/home／hａｄoop/haｄooｐ/bin(配置为jsvc所在的目录)

4.2.3 core-site.xｍl

在集群中所有节点的core-ｓite．xmｌ文件中添加下面的配置

<ｎａｍｅ>hａdoｏp.secｕriｔy．ａuｔhoｒiｚation＜/name>

true＜／value>

<／ｐroperｔy>

＜pｒｏperty>

hａdoop．ｓｅcurity.autｈｅntiｃaｔion＜/ｎame>

＜value＞kerberos

<／pｒoperty>

hadoop.rpc.proｔection

<ｖalue>authenｔicaｔion

＜pｒoperty>

ｈａdoｏp.sｅcuriｔy.auth＿to_local

DEＦＡUＬT<／ｖalｕe>

4．2.４hdfs-site.xml

在集群中所有节点的hdfs-ｓｉte.xｍｌ文件中添加下面的配置，下面配置以节点csｄm-hado ｏp-04为例：

<！－－ＧenｅrａｌHDFS secｕriｔy confｉｇ-->

＜prｏperｔｙ>

dfs.bｌoｃk.aｃcesｓ.ｔokeｎ．enabｌe

＜value＞true＜／value>

<／prｏｐeｒty>

ｄfs.ｎamenoｄe.kｅrｂeroｓ.princｉpal<／namｅ>

<ｖalｕｅ>hdfs/

<ｐｒopeｒty>

hosｔ/

＜propｅrty＞

＜naｍe>ｄfs.seｃｏｎdarｙ.https.address

<／properｔｙ>

＜ｐrｏperty>

dfs．secondaｒｙ.https.poｒt＜/nａme>

50４９5

<／ｐropｅrtｙ>

<ｐrｏpｅrtｙ>

dfs.seｃonｄarｙ.namenｏde.keｙｔab.>

/ｖar/kerｂeｒoｓ/ｋrb５kdｃ/ｋeytab/hdfs.ｋeｙｔａb<／value> <！－- path ｔoｔhe HDFSｋeytaｂ-－>

＜／prｏperty>

＜naｍｅ>dfs.sｅcoｎdary.ｎａmeｎｏde.ｋerｂerｏs.principal

hdfs／＜/value>

<／pｒｏpertｙ>

<ｐroｐｅｒty＞

dｆｓ.ｓeconｄarｙ.ｎaｍｅnodｅ.kerberos.ｈｔtｐs．princｉpal host/

＜／proｐｅrty>

＜！--DａｔaNoｄe ｓecuritｙcｏnfig-->

dfs.ｄatanodｅ.dａｔa.dir．ｐerm<／name>

＜ｖａlｕｅ>70０＜/valuｅ＞

＜/pｒoperty>

dｆｓ.dａtanodｅ.adｄress

<ｖaluｅ>0.0.０．0:１004

<／proｐerty＞

＜ｖaｌｕe>0．0.0．0:１００6

dfｓ.datａnｏdｅ.keytａb.>

<ｖalue>/vａr/kerberos/krb5ｋdc／keｙｔaｂ/hｄｆs.ｋeｙｔab＜/vaｌｕｅ>

＜/propeｒty>

dfs．dａｔanode．kerberｏs.prｉncｉpal

hdfs/＜/value>

<ｐrｏperｔy>

<ｎａme＞dfs．ｄatａnoｄe.kerbeｒos.httｐs.ｐｒiｎcipal＜/naｍe>

<ｖaｌue＞host/＜/vａlｕe＞

<／pｒｏperty>

＜ｖalue>ｈｄfs/

＜/ｐｒoperｔｙ>

／var/ｋｅｒberoｓ/ｋrb5kdc/ｋeｙtab/hdfs．keyｔaｂ<／ｖalue>

The Kerberoｓkeytaｂthe crｅdenｔｉals for tｈe

ＨTTP Keｒberos prinｃｉpal used by Haｄooｐ－Auth iｎｔhe HTTPｅndｐoiｎt.

配置中有几点要注意的

◆. dfs.dａｔanodｅ.ａｄdｒesｓ表示data tｒａnｓceｉvｅr ＲPC sｅrｖeｒ所绑定

的hostname或ＩP地址，如果开启secｕｒity，端口号必须小于１0２4(ｐrｉvileged pｏｒｔ),否则的话启动daｔaｎｏｄe时候会报“Caｎnot sｔarｔ secuｒe cluｓt ｅr withouｔ privｉｌｅged resourｃeｓ”错误

◆. principａl中的ｉnｓtance部分可以使用'_HＯST'标记,系统会自动替换它为全称域

名

◆. 如果开启了securｉty, haｄooｐ会对hdfs ｂlock dａta做pｅｒｍissｉon ｃｈe

ｃk,方式用户的代码不是调用hdfs ａpi而是直接本地读ｂｌｏck datａ，这样就绕过了kｅrbｅros和文件权限验证,管理员可以通过设置dfｓ.datａnode.datａ．dｉr．peｒｍ来修改daｔanｏde文件权限,这里我们设置为７0０

配置完成后，修改hdfs.keytaｂ所有者为hdfs

cｈown-R ｈdｆs:ｈadoop /ｖａr/ｋerbeｒｏｓ/krb5ｋｄｃ/ｋeｙtab/hdfs.kｅytab

ｃhｍｏd 700 /var/keｒbeｒoｓ/krｂ５kdc/ｋeｙｔab/hdfs．ｋeｙtaｂ

同时保证以下表格中各个目录的对于hdfs用户的权限

PａｔｈＵsｅr：Gｒｏup Permｉｓsｉons

hdfs:hadｏop drwx-----－

local

dfｓ.namenｏｄｅ．ｎａ

me．diｒ

ｌoｃａｌ

ｈdｆｓ：hadooｐｄｒwx－-----

ｄｆs.datanodｅ.data.dir

lｏcal $HADOＯP_LOG_DＩR ｈdfs：hadoｏp dｒwxrwxr-x

Hｄｆs / hｄfs:haｄoｏｐｄrwxｒ-xr－ｘ

Hdfs /tmｐｈdfｓ:hadｏｏｐｄrwｘrwxrwｘt

Hdｆs /ｕser hdfs:ｈadoｏp dｒwxr－ｘr-x

1、测试namenod e进程启动是否正常

切换到hdfs用户，首先执行klist命令，查看当前是否获取了tiｃｋet，经测试,如果已经获取了ticket那么启动naｍｅnodｅ进程的时候会报以下错误

使用kｄｅsｔroｙ销毁获取的ticｋeｔ

切换到hdfｓ用户,启动ｎameｎode进程(已经执行过HDFＳ格式化的操作)

执行命令：hａdｏop nameｎode

如果配置正常,应该会看到以下的日志信息输出

验证nａｍenｏde是否启动正常

◆可打开网页

错误!未定义书签。验证

◆hadooｐｆs -lｓ /

注：如果在你的凭据缓存中没有有效的ｋerberoｓ ticket,执行ｈadooｐ fs –ｌs ／将会失败。

可以使用klｉｓｔ来查看是否有有有效的tｉcｋet。

如果为空，使用kinｉt来获取tickｅｔ.命令如下

kinｉt -k -t /ｖａr／kerbｅros/krｂ5kｄｃ/ｋｅytａb/hｄfs．kｅｙtａb ｈ

dfs/csdm-hadoop-

2、测试dataｎｏdｅ启动是否正常

切换到rｏｏt用户,

执行命令:hadoop-daemon．sh start ｄaｔanode

如果启动正常，能在日志文件看到以下日志内容

在日志目录，启动dataｎｏde进程会有以下几个日志文件，其中jsｖc.err记录了jｓｖc的错误信息

启动dａtanode进程，只能使用ｒoｏt用户,如果使用其他用户启动,只会报以下错误

４．2.５ｍapred-sｉte．ｘml

在ｍapred－site.ｘml中添加

mapｒeduce．ｔａsktrａcker.kerｂerｏs.pｒｉncipal

＜/prｏpｅrty＞

ｍapｒedｕce.tａｓkｔracｋer．kerbｅros.ｈｔtps.ｐrincipal

＜vａｌue>hｏst／

＜ｎamｅ＞ｍａpredｕcｅ．tasktrackeｒ.kｅytaｂ.>

＜value＞/var/kerbｅros/kｒb5kｄc/keytab/mａprｅd.keytａb＜/ｖalue> ＜!-- pａtｈto tｈe MaｐＲｅduce kｅytaｂ-->

＜／property>

＜!-- joｂｈistｏry server ｓｅcuritｙ--＞

10０２０＜/valｕe><！—如果不设置，则默认使用10020端口

－－＞

<ｐrｏｐｅrty>

＜name>ｍaprｅdｕｃe.jｏbｈｉstory.keｙtaｂ<／nａme>

／vａr／kｅrbｅros/krb５kｄc/kｅytａb／mapred．keytａb

<ｎａme＞maprｅｄucｅ.ｊobhiｓtory.pｒincipal

<ｖalue>mａｐrｅd／＜／valuｅ>

<／propｅｒｔy>

将ｍaｐred.ｋｅｙtab文件赋权给mapred用户，执行以下命令:

ｃhown -R mapred：ｈａdooｐ/vaｒ/ｋｅrbｅｒos/krｂ5kｄc／

keytab/mapreｄ．keyｔ

ａｂ

chmod 7０0 /vａr／kerbeｒos/ｋrb5kdc／keｙｔab/mapｒed.keytaｂ

确保以下表格中各个路径的执行权限

Path Ｕseｒ:GroｕｐPermｉsｓiｏｎ

ｓ

ｈdｆs

mapreduce.jobｈistory.inｔｅrmｅdiａｔe

－doｎｅ-ｄir

ｍapred:hadoｏp drwxrwxrwxt

hdｆs

ｍａpreｄuce.joｂhiｓtory.dｏnｅ-dｉr

mapｒｅd:hadooｐdrｗxr-ｘ---

测试histoｒyservｅr 进程

执行命令:ｍr-jobhisｔorｙ-daeｍoｎ.sh start hｉｓtoｒｙservｅｒ

配置正常，则会看到以下日志内容

4.２.6 ｙarn－site.xml

在yarn-sｉtｅ.ｘｍl追加以下内容:

<ｐroperｔｙ>

＜name>ｙarn.resoｕｒcemaｎager.ｋeｙｔaｂ

/ｖar/ｋeｒberos／krｂ５kdｃ/keyｔab/ｙaｒn.keｙtab

＜/ｐropｅrｔy>

<ｎame>yarｎ.resourceｍanaｇer.principal

yａrn/<／valｕe>

<ｐrｏperty>

yarn．nodemａnａger．kｅytab

<／ｐｒoｐerty>

<ｐｒoperty>

＜name>ｙaｒｎ．ｎodeｍaｎager.pｒincipal＜／name＞

<ｐrｏperty>

<ｎame＞ｙａｒn．nodeｍanageｒ.cｏｎtaiｎer-eｘecｕｔｏr．c ｌaｓｓ＜/naｍe>

org.apachｅ.hａdoop．ｙaｒn.serｖeｒ.nodｅｍanagｅr．LｉnｕxContai ｎerＥxecutｏｒ

hadoop<／value>

ｙarn.ｎodemanaｇer.linuｘ-coｎｔainer-eｘeｃuｔor.path

/ｈomｅ／ｈadoop／ｈadoop/ｂin/ｃontａineｒ-eｘecutor

＜!—以上为NoｄeＭaｎager配置-->

ＹAＲＮ提供了两种Contaｉnｅｒ启动实现,DeｆaultCoｎtainerExｅｃutor以及Li ｎuｘConｔainerExecutｏr,在上面的yａrｎ-site.ｘml里配置了yarｎ.nodemａnager.conｔａiner－eｘecutor．clａsｓ的启动方式为LｉnuｘCｏｎｔaineｒExｅcｕto

ｒ,那么就需要编译安装LｉnuxＣontaｉnerExｅcutor，按如下操作执行:在ｈaｄoop的ｈome目录(这里是/home/Hadｏoｐ/hａｄoｏｐ）的/etc/hａdoｏp／目录下创建ｃontainer－execｕｔor.cfｇ文件,内容如下:

设置该文件权限：

$ｃｈoｗn root：hadｏop contａinｅｒ-execｕｔｏr．ｃｆg

$ chmｏｄ400 containeｒ－exeｃutｏr．ｃｆg

注意：

?conｔainer-eｘecutｏｒ.cｆｇ文件读写权限需设置为400，所有者为root:hadoop。

并且该文件所在的父目录所有者必须为ｒoｏt用户,并对该文件所在的各个父目

录赋以下权限,例如：cｈｍod 750/home/ｈａｄoop/

?yａｒn.nｏdｅｍanager.linｕｘ-cｏntainｅｒ－exeｃuｔoｒ.grｏuｐ要同时配置在yarn-ｓitｅ.ｘml和contａiner－executor．ｃｆg,且其值需要为运行

NodｅＭanａger 的用户所在的组，这里为hadoop。

?bannｅd．users不能为空，默认值为hfds，ｙarｎ,maｐred,bｉn

?https://www.doczj.com/doc/5c10444051.html,ｅｒ.iｄ默认值为1000，在centoｓ系统中，需要设置为小于500的值?确保yaｒn.nｏdemanager.locaｌ-dｉrs和yarn.nodemanaｇer．log-dirs对应的目录权限为７５5。

设置$HADOOP_HOME/bin/container-ｅxｅcutor 读写权限为6０5０如下：

$ ｃhｏｗnｒoot：haｄoｏp ＄ＨADOOP_ＨOME/biｎ/contaiｎｅｒ-ex ｅcuｔor

$ chmod 60５0$HADOOＰ_HOME／bｉn／cｏntainer-eｘecｕtor

测试是否配置正确:

大数据平台项目方案说明

大数据平台建设方案（项目需求与技术方案）一、项目背景 “十三五”期间，随着我国现代信息技术的蓬勃发展，信息化建设模式发生根本性转变,一场以云计算、大数据、物联网、移动应用等技术为核心的“新 IT”浪潮风起云涌，信息化应用进入一个“新常态”。***（某政府部门）为积极应对“互联网+”和大数据时代的机遇和挑战，适应全省经济社会发展与改革要求，大数据平台应运而生。大数据平台整合省社会经济发展资源，打造集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台，以信息化提升数据化管理与服务能力，及时准确掌握社会经济发展情况，做到“用数据说话、用数据管理、用数据决策、用数据创新”，牢牢把握社会经济发展主动权和话语权。二、建设目标大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的主要目标是强化经济运行监测分析，实现企业信用社会化监督，建立规范化共建共享投资项目管理体系，推进政务数据共享和业务协同，为决策提供及时、准确、可靠的信息依据，提高政务工作的前瞻性和针对性，加大宏观调控力度，促进经济持续健康发

展。 1、制定统一信息资源管理规范，拓宽数据获取渠道，整合业务信息系统数据、企业单位数据和互联网抓取数据，构建汇聚式一体化数据库，为平台打下坚实稳固的数据基础。 2、梳理各相关系统数据资源的关联性，编制数据资源目录，建立信息资源交换管理标准体系，在业务可行性的基础上，实现数据信息共享，推进信息公开，建立跨部门跨领域经济形势分析制度。 3、在大数据分析监测基础上，为政府把握经济发展趋势、预见经济发展潜在问题、辅助经济决策提供基础支撑。三、建设原则大数据平台以信息资源整合为重点，以大数据应用为核心，坚持“统筹规划、分步实施，整合资源、协同共享，突出重点、注重实效，深化应用、创新驱动”的原则，全面提升信息化建设水平，促进全省经济持续健康发展。

大数据平台-kerberos安装部署文档

1.环境准备 1.1.操作系统本次安装部署要求在操作系统为CentOS release 6.5 (Final)的版本下进行部署，所以在安装部署kerberos之前请先确保操作系统为以上版本，并且集群中各机器已做时钟同步。本次安装部署以csdm-hadoop-04作为主kdc服务器，以csdm-hadoop-05作为从kdc服务器，以csdm-hadoop-03作为客户端。一般不建议在服务器上再安装其他应用程序，比如hadoop。但为了节省资源本次安装在这三台机器均已安装hadoop 相关软件。 1.2.创建操作用户创建操作系统hdfs、yarn、mapred用户，并使其归属于hadoop用户组: adduserhdfs-g Hadoop adduser yarn -g Hadoop addusermapred-g Hadoop 1.3.配置hosts文件为各台机器修改/etc/hosts文件，将真实ip与主机名对应配置，服务端与客户端均需配置，形如：（不能存在127.0.0.1的配置，否则hadoop进行kerberos验证时将会出错） 1.4.关闭防火墙执行以下命令关闭防火墙： serviceiptables stop 出现以下界面表示关闭成功 1.5.注册服务与端口的对应在/etc/service文件最后增加以下信息，以便后续使用： krb5_prop 754/tcp # Kerberos slave propagation 2.安装配置Kerberos 2.1.安装rpm包以root用户登录并创建目录存放安装包： mkdir /var/kerberos

ClouderaManager大数据平台部署指南

部署指南 Cloudera Manager CDH 官方共给出了3中安装方式。第一种方法必须要求所有机器都能连网，由于各种网络超时错误，基本没法用。第二种方法使用CM的在线yum源，在线下载很多包，同样是超时严重。第三种方法是全离线方式，实际情况是也只能用这个。 1、Cloudera Manager的部署条件 ?CDH不支持在容器中部署。 ?支持Oracle JDK7，目前可使用的最新版本为1.7u80，C5.3.x及以上版本也支持使用oracle JDK8，同一个CDH集群中的所有节点使用的JDK版本必须一致。 ?使用Python2.4及以上，不支持Python3 ?仅支持IPv4，且IPv6必须要disabled ?基于tar压缩包的离线安装方式，会在6.0.0中停止支持该方式。 ?支持selinux，但如果不熟悉使用方法，建议关闭。 ?管理端口为7180，此外还有很多基础应用使用的端口，可以运行iptables，需要确认有恰当的授权控制，例如至少要对同网段的访问放开全部端口。 2、Cloudera Manager部署的几个阶段和可选择的方式

注：因为Cloudera Manager的官方yum源位于国外，受网速影响而无法正常使用。所以上述部署方式中，一般是使用PATH C，或者在预先下载好相关RPM包的条件下参照PATH B方式。 3、主机节点信息和基础配置（1）主机信息本次部署使用以下主机，前两个作为NameNode使用。后四个主机，分别额外挂载一块1TB的磁盘到本地的/dfs/dn目录下。注1：用于大数据平台的数据磁盘不要配置RAID，直接祼盘即可。如果有RAID 控制器，则直接对每块盘设置一个单独的RAID0，仍然当作单盘使用。注2：在有第二块数据盘的情况下，继续挂载到/dfs/dn2，更多的数据盘则按命名规则和挂盘规则扩展即可。注3：对于生产环境而言，NameNode所在的节点一般不要同时做数据节点使用。而且NameNode所在主机的磁盘需要配置适当的RAID保护级别，以提高可靠性。

大数据平台kerberos安装部署文档

大数据平台－ｋerｂｅrｏs安装部署文档

————————————————————————————————作者: ————————————————————————————————日期: ?

1.环境准备 1.1.操作系统本次安装部署要求在操作系统为ＣeｎtOS release 6.5（Fiｎal）的版本下进行部署，所以在安装部署ｋerｂeroｓ之前请先确保操作系统为以上版本,并且集群中各机器已做时钟同步。本次安装部署以csdm-hadｏoｐ-０4作为主kｄc服务器,以ｃsdm-hadoop-0５作为从kdc服务器，以csｄm-hadoｏp-０3作为客户端。一般不建议在服务器上再安装其他应用程序，比如hａdoop。但为了节省资源本次安装在这三台机器均已安装hadoop相关软件。 1.2.创建操作用户创建操作系统hdfs、yarn、mａpred用户，并使其归属于ｈadoｏp用户组: adduｓeｒｈdfs -gＨａdoop adｄｕseｒyarn －g Hａdoｏp adduｓer mａpｒeｄ-ｇＨaｄoop 1.3.配置hosts文件为各台机器修改/etｃ/ｈoｓts文件，将真实iｐ与主机名对应配置，服务端与客户端均需配置，形如：(不能存在12７.0．０.1的配置，否则ｈadｏop进行ｋｅrbｅros验证时将会出错) 1.4.关闭防火墙执行以下命令关闭防火墙： sｅrｖice ipｔaｂlｅs stop 出现以下界面表示关闭成功 1.5.注册服务与端口的对应在/etc/seｒviｃe文件最后增加以下信息,以便后续使用： ?kｒb5_ｐｒoｐ75４/tｃp # Kerbeｒoｓ slave prｏｐagaｔion 2.安装配置Kerｂeros 2.1.安装rｐm包 ?以rｏot用户登录并创建目录存放安装包： mkｄir /ｖar/keｒberos

大数据平台安装配置使用手册20160708

大数据平台安装配置使用手册一、操作系统安装 1、操作系统版本：CentOS 6.5 2、安装注意事项： 1）核查系统配置（CPU、核心数、内存、硬盘大小、系统raid情况），如果系统不是raid0，需重做为 raid0； 2）安装操作系统时需规划好系统的角色和hostname，系统角色划分基本原则是流式计算机器内存和核心数尽量大，且每台机器之间内存和核心数尽量保持一致；HBase机器的namenode内存需大一点， datanode机器用来存放数据硬盘空间尽量大； hostname命名基本原则：如2台流式计算机器，总队命名为xxzd-stream01,xxzd-stream02,支队命名为xxzhd-stream01,xxzhd-stream02;其他命名类似，stream需改为dn，如 xxzd-dn01,xxzhd-dn02。 3）系统分区，目前一般为:/（根分区）、/swap（swap 分区，一般为内存的1.5倍）、/mnt/diskn（存放数据分区，大小尽量不要超过1T，n为自然数）。注：IBM机器需再划分一个/boot/efi（efi分区），否则系统无法启动。

二、大数据平台安装 1、安装管理界面的节点上，需在/etc/hosts中把本机的 hostname配置上。 2、参照【TranswarpDataHub安装和使用手册v41.pdf】文档安装。 3、支队只需安装hyperbase和inceptor，总队都安装。三、集成指挥平台配置使用 1、大数据平台安装完成后，在集成指挥平台的【系统管理】 →【系统配置】→【系统参数管理】里找到图片中所示的参数，修改为安装的管理节点ip。 2、在集成指挥平台的【系统管理】→【系统配置】→【内存参数刷新】里刷新内存。 3、在集成指挥平台的【系统管理】→【流计算配置管理】 →【流计算服务器配置】里点击【同步】按钮，同步安装的机器的hostname，用途等信息。如果安装了HBase，需进行下面图片里描述的操作，否则查询时会报错。 4、在集成指挥平台的【系统管理】→【流计算配置管理】 →【流计算参数配置】里上传流计算jar包。 5、在集成指挥平台的【系统管理】→【系统运行监测】→

部署Hadoop大数据平台部署Hadoop平台

课题：项目3 部署Hadoop大数据平台第2部分部署Hadoop平台课次：第7次教学目标及要求：（1）任务1 JDK的安装配置（熟练掌握）（2）任务2部署Hadoop（熟练掌握）（3）任务3 理解启动Hadoop（熟练掌握）教学重点：（1）任务1 JDK的安装配置（2）任务2 部署Hadoop （3）任务3 启动Hadoop 教学难点：（1）任务2 部署Hadoop （2）任务3 启动Hadoop 思政主题：旁批栏：教学步骤及内容： 1.课程引入 2.本次课学习内容、重难点及学习要求介绍（1）任务1 JDK的安装配置（2）任务2 部署Hadoop （3）任务3 启动Hadoop 3.本次课的教学内容（1）任务1 JDK的安装配置（熟练掌握） Hadoop的不同版本与JDK的版本存在兼容性问题，所有必须选择对应版本的JDK进行安装，表中列出了Hadoop和JDK兼容表。我们通过测试使用Hadoop3.0.0 和JDK1.8。安装JDK我们使用JDK包安装的方式。首先我们新建JDK的安装目录 /opt/bigddata。操作步骤为：//定位opt目录【操作新建目录/opt/bigdata】

[root@master /]# cd /opt/ //在opt目录下新建bigdata文件夹 [root@master /]# mkdir bigdata //查看opt目录下文件夹是否存在 [root@master /]# ls bigdata [root@master /]# Jdk解压安装，步骤为：【操作解压步骤】 [root@master opt]# cd / [root@master /]# cd /opt/ [root@master opt]# ls bigdata jdk-8u161-linux-x64.tar.gz //解压jdk压缩包 [root@master opt]# tar -zxvf jdk-8u161-linux-x64.tar.gz [root@master opt]# ls bigdata jdk1.8.0_161 jdk-8u161-linux-x64.tar.gz //把Jdk目录移动至bigdata目录 [root@master opt]# mv jdk1.8.0_161/ bigdata [root@master opt]# cd bigdata/ //查看是否移动成功 [root@master bigdata]# ls jdk1.8.0_161 [root@master bigdata]# JDK配置环境变量，此步骤为添加JA V A_HOME变量，并配置JDK。具体步骤为：【操作JDK的配置】 //进入环境变量配置文件 [root@master /]# vi /etc/profile //添加如下信息 export JA V A_HOME="/opt/bigdata/jdk1.8.0_161" export PATH=$JA V A_HOME/bin:$PATH //激活环境变量配置文件 [root@master /]# source /etc/profile //验证JDK是否配置完成 [root@master /]# java -version java version "1.8.0_161" Java(TM) SE Runtime Environment (build 1.8.0_161-b12) Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)

大数据平台概要设计说明书

大数据平台概要设计说明书 Company Document number：WTUT-WT88Y-W8BBGB-BWYTT-19998

文件修改记录

1. 引言 1.1 编写目的大数据泛指巨量的数据集，因可从中挖掘出有价值的信息而受到重视。《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。麦肯锡公司的报告指出数据是一种生产资料，大数据是下一个创新、竞争、生产力提高的前沿。世界经济论坛的报告认定大数据为新财富，价值堪比石油。因此，发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。互联网特别是移动互联网的发展，加快了信息化向社会经济各方面、大众日常生活的渗透。有资料显示，1998年全球网民平均每月使用流量是1MB（兆字节），2000年是10MB，2003年是100MB，2008年是1GB（1GB等于 1024MB），2014年将是10GB。全网流量累计达到1EB（即10亿GB或 1000PB）的时间在2001年是一年，在2004年是一个月，在2007年是一周，而2013年仅需一天，即一天产生的信息量可刻满亿张DVD光盘。我国网民数居世界之首，每天产生的数据量也位于世界前列。淘宝网站每天有超过数千万笔交易，单日数据产生量超过50TB（1TB等于1000GB），存储量40PB(1PB等于1000TB)。百度公司目前数据总量接近1000PB，存储网页数量接近1万亿页，每天大约要处理60亿次搜索请求，几十PB数据。一个8Mbps（兆比特每秒）的摄像头一小时能产生数据，一个城市若安装几十万个交通和安防摄像头，每月产生的数据量将达几十PB。医院也是数据产生集中的地方。现在，一个病人的CT影像数据量达几十GB，而全国每年门诊人数以数十亿计，并且他们的信息需要长时间保存。总之，大数据存在于各行各业，一个大数据时代正在到来。信息爆炸不自今日起，但近年来人们更加感受到大数据的来势迅猛。一方面，网民数量不断增加，另一方面，以物联网和家电为代表的联网设备数量增长更快。2007年全球有5亿个设备联网，人均个；2013年全球将有500亿个设备联网，人均70个。随着宽带化的发展，人均网络接入带宽和流量也迅速提

生产企业大数据平台建设项目建议书v

生产企业大数据平台建设项目建议书v 文档编制序号：[KK8UY-LL9IO69-TTO6M3-MTOL89-FTT688]

大数据平台建设项目建议书目录第一章、项目背景企业对信息化工作历来较为重视，也是省内较早开始实施信息化的大型企业。目前已经建成财务系统、生产调度系统、农务系统、供应链系统等: 调度系统，2015年公司共投资了175万元，按集团分步建设、逐步投入的规划，完成了系统基本硬件与亚控平台软件的结合，构建了一个以明阳糖厂生产调度指挥中心为核心，生产信息能够上至集团，下至车间的生产调度网络系统。农务系统，2005年开始实施，经过多次升级，现涵盖了计划、报蔗、派车、质检、过磅、结算、短信管理、移动应用等一系列模块，覆盖公司4家直属糖厂和大桥制糖公司，实现了农务统一的信息化管理。供应链系统，利用用友NC供应链系统，以公司存货管理为核心的采、供、销、存供应链管理平台，实现物资、仓储、供应、销售、物流一体化业务协同处理平台，建立了公司对各直属厂工作的监督平台，总部可以实时对下属各公司的工作进行监督，实时对各公司的具体业务执行情况进行查看，及时的对下属公司进行指导和监督。

尽管在两化融合及企业信息化方面已取得了相当的成效，但在实际应用过程中仍然存在一些较为显着的问题。（一）总部与下属糖厂未实现完全的集约管理 a)企业在原先六家糖厂的基础上，又收购了三博公司五家糖厂。三博五厂由上海迁回南宁，在宜州设立管理下属五厂的二级管理总部。 b)从系统部署上分析，企业总部与原先六厂为一套架构，而三博总部与下属五厂为一套架构，各自独立，暂未整合为一体。 c)为了保证各糖厂生产的稳定，企业总部与下属六厂之间仅在NC供应链、OA、财务、人力等系统方面实现了集约管理，农务管理系统、生产调度系统以及化验系统均由各厂自建，因此出现各厂建设系统的厂家不同，使用的系统版本不同等现象。三博总部与下属五厂的关系亦如此。（二）总部及各厂之间的数据共享有限 a)由于大多数生产相关的系统均为各厂自建，因此不管是企业总部，或者是三博总部在获取各糖厂生产相关数据上均较为困难。 b)企业总部通过制定报表模板、开发报表同步功能的方式，定期的获取下属六家糖厂的生产相关报表，但这些报表的数据容量有限、数据呈现较为固定，无法为总部经营决策提供实时、灵活的数据依据。

Gaia大数据平台安装部署手册

目录 1目的 (1) 术语 (1) 2软件硬件环境说明 (1) 2.1软件版本 (1) 2.2逻辑部署架构 (2) 2.3硬件环境及规划 (2) 3操作系统配置 (3) 3.1修改服务器名及HOSTS文件 (3) 3.2安装JA V A (4) 3.3新增用户 (4) 3.4SUDO无密码验证配置 (5) 3.5关闭防火墙和SEL INUX (5) 3.6搭建时间服务器及时间同步 (5) 3.6.1安装ntp (5) 3.6.2配置ntp (6) 3.7设置SSH无密码登录 (7) 3.7.1安装openssh (7) 3.7.2配置openssh (7) 3.8设置最大并发数 (8) 3.9安装并设置YUM源 (9) 3.10数据库M YSQL搭建(非必选) (9) 4CLOUDERA 聚群搭建 (10) 4.1RPM与PARCEL包镜像站点搭建 (10) 4.1.1镜像站点搭建 (10) 4.2CM管理数据库M YSQL搭建 (12)

4.2.1搭建Mysql数据库 (12) 4.2.2创建Database (12) 4.3CM部署CDH集群组件安装 (13) 4.3.1CM(cloudera manager console) 安装 (13) 4.3.2Cloudera-manager-server 配置数据库 (13) 4.3.3启动及停止CM (14) 4.3.4Hadoop集群配置 (14) 4.3.5修改jdk java.security配置 (28) 4.3.6拷贝hbase-site.xml文件 (28) 4.3.7hbase mapreduce静态环境配置 (28) 5GAIA管理控制台搭建 (29) 5.1核心服务数据库M YSQL搭建 (29) 5.2数据导入 (29) 5.3上传GAIA平台程序 (29) 5.4运行参数配置 (29) 5.5管理控制台启动及停止 (29) 6GAIA核心服务搭建 (30) 6.1Z OOKEEPER集群搭建 (30) 6.1.1Zookeeper配置 (30) 6.1.2启动Zookeeper服务 (30) 6.2核心服务参数配置 (30) 6.3核心服务启动及停止 (31) 7XREPORT应用搭建 (31) 7.1数据导入 (31) 7.2程序发布 (31) 8QA.常见问题 (31) 8.1HIVE METASTORE 需要MYSQL数据库连接JAR包 (31)

大数据平台部署文档

大数据平台搭建一．Linux环境准备 1)格式化磁盘 mkfs.ext4 /dev/dm-0 mkdir /data mount /dev/dm-0 /data 系统重启需要手动挂载把mount /dev/dm-0 /data 的命令放到/etc/rc.d/rc.local 重启自动挂载。df -h 查看挂载点 2)网卡绑定(当服务器有多块网卡需要网卡绑定) ?配置绑定网卡 [root@hadoop001 network-scripts]# vi /etc/sysconfig/network-scripts/ifcfg-bond0 DEVICE=bond0 TYPE=Ethernet ONBOOT=yes BOOTPROTO=static

IPADDR=19.106.64.7 NETMASK=255.255.255.0 GATEWAY=19.106.64.254 NDS1=19.104.4.3 DNS2=19.104.8.3 USERCTL=no ?各网卡设置 [root@hadoop001 network-scripts]# vi /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 TYPE=Ethernet BOOTPROTO=none ONBOOT=yes MASTER=bond0 SLAVE=yes ?配置文件添加vi /etc/modprobe.d/dist.conf 末尾追加 alias bond0 bonding options bond0 miimon=100 mode=0#每100ms检测一次链路mode=0网卡冗余机制

集团大数据平台系统配置方案

集团大数据平台系统配置方案 1.1硬件系统配置建议 1.1.1基础Hadoop平台集群配置规划根据此次大数据平台的建设要求，大数据平台需要满足全量3PB数据的存储要求，根据数据的特点，大概30%为结构化数据，70%为非结构化数据，并以此进行估算。其中：1）结构化数据的数据量为： 3PB*30%=0.9PB=922TB（结构化数据全部进入数据仓库）对于结构化数据存储容量要求为： 922TB*(3+1+0.5)/3*1.3=1798TB 注：对结构化数据，采用3倍副本冗余存储，1倍中间结果余留，0.5倍索引存储空间，3倍数据压缩，0.3倍空间余留。 2）非结构化数据的数据量为： 3PB*70%=2.1PB=2151TB 对于非结构化数据存储要求为： 2151TB*3=6453TB 非结构化数据采用3倍副本冗余存储。

3）全量数据存储容量要求为： 1798TB（结构化数据）+6453TB（非结构化数据）=8251TB DataNode单节点存储容量推荐配置为：4TB*12=48TB 基础Hadoop平台DataNode节点数为：8251TB/48TB=172节点因此，DataNode服务器推荐配置为：表10-1 推荐配置服务器推荐配置及说明节点数量172个节点 CPU 两路8核处理器E5-2650 v3或以上内存128GB ECCDDR4 硬盘2个600G的SAS硬盘，15000RPM，RAID1，作为系统盘 12个4TB的SATA硬盘，7200RPM，不做RAID1 网络双电口万兆（10Gbps）以太网卡另外：对于此次搭建的大规模Hadoop集群，需要单独规划Zookeeper 9个节点，NameNode 2个节点，Resource Manager 2个节点，HMaster 5个节点，总共9+2+2+5=18个节点