当前位置:文档之家› 大数据开发环境搭建及实战

大数据开发环境搭建及实战

大数据开发环境搭建及实战
大数据开发环境搭建及实战

高效的大数据开发环境搭建及实战

演示

内容大纲:

一、开发环境准备

1.IDE开发工具选择及安装

2.Java SDK版本选择及安装

3.Spark开发语言版本选择及安装

4.下载Spark的安装程序

5.安装Maven

6.安装sbt

7.IDE的插件选择、安装及配置

二、从零开始创建第一个Spark程序- HelloSpark

1.创建Scala工程

2.添加Spark依赖的jar包

3.修改工程pom文件,并更新依赖包

4.编写Spark程序代码

5.在IDE中编译并本地测试HelloSpark程序

6.编译jar包,并部署到Spark集群运行

三、从github获取工程,并快速搭建Spark开发环境

1.从github中clone工程

2.修改代码,编译测试及打包

3.部署到Spark集群

四、使用IDE及Github实现版本控制

1.建立github账号

2.下载github并安装

3.intellij idea配置github

4.intellij idea检出github项目

5.修改代码,编译及测试代码

6.上传项目到GitHub

T ABLE OF C ONTENTS

高效的大数据开发环境搭建及实战 (1)

内容大纲: (1)

一、开发环境准备 (1)

IDE开发工具选择及安装 (1)

选择、下载并安装JDK (1)

Spark开发语言Scala 的选择及安装 (1)

下载Spark的安装程序 (1)

安装Maven (1)

安装SBT (1)

IDE的插件选择、安装及配置 (1)

二、从零开始创建第一个S PARK程序-H ELLO S PARK (1)

创建Scala工程 (1)

添加Maven框架支持 (1)

pom文件修改 (1)

更新依赖 (1)

添加Spark依赖的jar包 (1)

创建Spark程序源代码目录 (1)

编写Spark程序代码 (1)

在IDE中编译并本地测试HelloSpark程序 (1)

编译jar包,并部署到Spark集群运行 (1)

三、从G IT H UB获取工程,并快速搭建S PARK开发环境 (1)

从GitHub中clone工程 (1)

四、使用IDE及G ITHUB实现版本控制 (1)

建立github账号 (1)

安装GitHub (1)

IntelliJ IDE配置Git (1)

IntelliJ 检出GitHub项目 (1)

修改代码,编译及测试代码 (1)

上传项目到GitHub (1)

提交代码修改到GitHub (1)

一、开发环境准备

IDE开发工具选择及安装

主流的IDE开发环境有Scala-IDE(Eclipse)及IntelliJ IDEA两种,开发者可以根据自己的喜好选择。本演示所有的实验是基于IntelliJ IDEA完成。

两种工具下载地址分别如下:

?Scala-IDE (目前最新版4.4.1,Eclipse Luna 4.4.2)

https://www.doczj.com/doc/db17542869.html,/download/sdk.html下载适合自己系统的版本

?IntelliJ IDE (目前最新版2016.1)

https://https://www.doczj.com/doc/db17542869.html,/idea/download/有社区版和收费版两种。对于本演示来说,社区版足够

选择、下载并安装JDK

JDK可以选择1.7和1.8。由于Oracle官方已经停止了1.7版本的更新,建议使用JDK1.8版本。

JDK1.7 下载地址:

https://www.doczj.com/doc/db17542869.html,/technetwork/java/javase/downloads/jdk7-downloads-1880260.html JDK1.8下载地址:

https://www.doczj.com/doc/db17542869.html,/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

下载适合开发环境系统的版本。如本例中使用的是Mac OS X系统,所以下载Mac OS版本。

接下来安装JDK

配置Java运行环境变量

验证jdk安装成功

S PARK开发语言S CALA 的选择及安装

下载地址https://www.doczj.com/doc/db17542869.html,/download/(目前最新版本是2.11.8)

本演示中使用的是2.10.6版本(原因是Spark1.6版本使用的是scala2.10版本进行编译的,如果使用scala2.11版本,开发者需要自己基于scala2.11版本编译spark1.6的版本)。

验证scala-2.10.6安装包下载成功

拷贝安装包到制定的目录,并解压缩

验证解压完成后,并修改环境变量,添加scala到path

添加SCALA_HOME,并添加Path

启动scala,确认能够正常启动scala命令行环境

下载S PARK的安装程序

Apache Spark的下载地址:

https://www.doczj.com/doc/db17542869.html,/downloads.html

下载安装程序,并解压缩

安装M AVEN

最新版本下载地址:

https://www.doczj.com/doc/db17542869.html,/maven/maven-3/3.3.9/

无需安装,解压即可。

安装SBT

最新版本下载地址:

https://https://www.doczj.com/doc/db17542869.html,/sbt/native-packages/sbt/0.13.9/

无需安装,解压即可。

1.修改环境变量,配置MAVEN_HOME / SBT_HOME, 并加入path

source ~/.bash_profile

IDE的插件选择、安装及配置

启动IntelliJ IDE,点击“Configure”进入配置界面

在Search框中输入scala,在右边出现的插件中选择Scala的插件进行安装/更新。安装完成后,IDE要求重启。

重启IDE后,选择“创建新工程”,选择Scala类型,并出现如下图的工程类型,则环境安装成功。

二、从零开始创建第一个S PARK程序-H ELLO S PARK 创建S CALA工程

“新建工程”

选择“Scala”类型

在工程名称中填入工程名称,如“HelloSpark”,并选择合适的工程路径,以及Java SDK及Scala SDK 版本。这里,我选择了JDK最新版 1.8.0_92,SDK 2.10.6。然后点击完成。

然后进入IDE开发界面。

添加M AVEN框架支持

右键选择工程名“HelloSpark”,然后“添加框架支持”

选择添加“Maven”支持

POM文件修改

添加后,工程会自动增加一个pom.xml文件,如下:

1.修改工程pom文件,并更新依赖包

接下来,我们需要对pom文件进行修改,比如,增加repository,定义依赖等。

1)Haven Plugin

maven-compiler-plugin

3.3

1.7

1.7

因为本次演示的实验主要是在CDH发行版上进行,所以选择1.6.0-cdh5.7.0的依赖。

2)Dependencies

org.apache.spark

spark-core_2.10

1.6.0-cdh5.7.0

provided

org.apache.spark

spark-mllib_2.10

1.6.0-cdh5.7.0

provided

org.apache.spark

spark-sql_2.10

1.6.0-cdh5.7.0

org.apache.spark

spark-hive_2.10

1.6.0-cdh5.7.0

org.apache.spark

spark-streaming_2.10

1.6.0-cdh5.7.0

provided

org.apache.spark

spark-streaming-kafka_2.10

1.6.0-cdh5.7.0

org.apache.kafka

kafka_2.10

0.8.2.1

provided

org.scala-lang

scala-library

2.10.6

3)Repositories

https://www.doczj.com/doc/db17542869.html,

Scala-tools Maven2 Repository https://www.doczj.com/doc/db17542869.html,/repo-releases

maven-hadoop

Hadoop Releases https://https://www.doczj.com/doc/db17542869.html,/content/repositories/releases/

cloudera-repos

Cloudera Repos https://https://www.doczj.com/doc/db17542869.html,/artifactory/cloudera-repos/

Maven

https://www.doczj.com/doc/db17542869.html,/maven2

clojars

https://www.doczj.com/doc/db17542869.html,/repo/

https://www.doczj.com/doc/db17542869.html,

Scala-tools Maven2 Repository https://www.doczj.com/doc/db17542869.html,/repo-releases

4)其它属性

UTF-8

UTF-8

修改完成后,右键选择pom.xml文件,并选择“验证”,IDE将帮你完成xml文件的语法验证工作。

更新依赖

验证通过后,我们就可以选择更新依赖。所有pom文件中被标注为红色的部分都是即将需要更新的内容。

有两种方法更新依赖。

1)在IDE右上角,有提示信息,可以直接选择”Import Changes”

2)或者,右键选择pom文件,→Maven→Reimport

IDE右下角会有进度,提示当前依赖更新的状态。通常,根据需要更新的内容多少,以及网络的速度,时间或长或短。

完成后,所有pom文件中被标注为红色的内容将变成正常颜色,而External Libraries 中也会增加很多jar包

Cloudera大数据平台环境搭建(CDH5.13.1)傻瓜式说明书

Cloudera大数据平台环境搭建(CDH5.13.1版)

目录

基础环境 软件环境 本文将介绍Centos7.4离线安装CDH和ClouderaManager过程,软件版本如下: 配置规划 本次安装共5台服务器,服务器配置及用途如下: 所需要的软件资源 1)JDK环境: JDK版本:51 jdk-8u151-linux-x64.rpm 下载地址: 2)CM包: CM版本:5.13.1 下载地址: 3)CDH包 CDH版本:5.13.1, ; .sha1; manifest.json 下载地址: 4)JDBC连接jar包: jar包版本:5.1.43, mysql-connector-java-5.1.43.jar 下载地址: 修改机器名(所有节点) 这种方式,在Centos7中可以永久性改变主机名称。

内容都改为: 设置防火墙(所有节点) 注:为了简便,可以先关闭防所有节点火墙,安装完成后,再按照下面步骤设置。 防火墙常用命令: 便,安装完毕后可以根据需要设置防火墙策略,保证集群安全。 配置免密码登录SSH 将子节点设置为从主节点ssh无密码登陆(主节点访问从节点需要无密码互通,否则后面会出现问题) 一路回车,生成无密码的密钥对。 把公钥拷贝至node169服务器上?: 登录到node169服务器上: 然后在node169服务器上,把公钥的内容追加到authorized_keys文件末尾(这个文件也在隐藏文件夹.ssh下,如果没有可以新建):

在node168节点出现下面表示成功登录node169节点: 以同样的方式将公钥拷贝至其他节点服务器上。 关闭SELINUX(所有节点) 关闭linuxSELINUX安全内核 (在Centos7中遇到SELINUX无法关闭的问题,重新启动机器恢复正常) 修改Linux内核参数(所有节点) 为避免安装过程中出现的异常问题,首先调整Linux内核参数。 1)设置swappiness,控制换出运行时内存的相对权重,Cloudera建议将swappiness设置为 10: 自CentOS6版本开始引入了TransparentHugePages(THP),从CentOS7版本开始,该特性默认就会启用。尽管THP的本意是为提升内存的性能,不过某些数据库厂商还是建议直接关闭THP,否则可能会导致性能出现下降。 表示已禁用:

集成开发环境的配置及使用说明

集成开发环境的配置及使用说明 本文讲解如何编写MSBuild脚本文件执行编译系统、运行FxCop检查代码、运行NUnit以及NCover进行单元测试、运行SandCastle生成帮助文档四项功能,并如何在集成开发环境中使用。 一、集成开发环境的配置 1.1 工具软件准备 1.1.1 MSBuild 只要安装过VS2005或VS2008后,就可以是路径C:\WINDOWS\https://www.doczj.com/doc/db17542869.html,\Framework中看到MSBuild的三人版本,本例中使用V3.5。另外还得从下面的网站下载一个https://www.doczj.com/doc/db17542869.html,munity.Tasks.msi文件,里面有MSBuild的已经编写好的各种任务。下载地址如下: https://www.doczj.com/doc/db17542869.html,/ 1.1.2 NCover NCover现有网上使用的主要有两个版本NCover3.1和NCover1.5.8,但由于后者是免费版本,所以本例中使用NCover1.5.8版本,下载地址如下:https://www.doczj.com/doc/db17542869.html,/download/community 1.1.3 其它软件 其它软件如下所示: NUnit 2.5.1 FxCop 1.36 HTML Help Compiler Sandcastle Help File Builder v 1.8.0.2 以上包括1.1.1和1.1.2的软件均可在Redmine项目管理的集成开发环境的配置的文件管理中下载,此处就不一一给链接了。下载后均按默认安装即可。但因为要在命令行中使用MSBuild和FxCopcmd命令,所在在环境变量Path中加入: C:\WINDOWS\https://www.doczj.com/doc/db17542869.html,\Framework\v3.5; C:\Program Files\Microsoft FxCop 1.36; 另外再增加两个新变量: DXROOT C:\Program Files\Sandcastle和 HHCEXE C:\Program Files\HTML Help Workshop

生态环境大数据平台项目建设方案

生态环境大数据平台项目建设方案 生态环境大数据平台项目 建设方案

目录 1概述 (1) 1.1项目简介 (1) 1.1.1项目背景 (1) 1.1.2建设目标 (2) 1.1.3建设范围 (3) 1.2手册目的 (3) 2运行环境和配置要求 (3) 3系统通用操作 (5) 3.1系统登录 (5) 3.2系统退出 (6) 4水环境质量 (7) 4.1数据采集 (7) 4.1.1水常规监测 (8) 4.2数据审核 (18) 4.2.1河流断面数据审核 (19) 4.2.2湖库垂线数据审核 (22) 4.2.3地下水数据审核 (23)

4.2.4饮用水地表水数据审核 (23) 4.2.5饮用水地下水数据审核 (24) 4.2.6饮用水地表水全分析审核 (24) 4.2.7饮用水地下水全分析审核 (25) 4.2.8水自动站监测数据审核 (25) 4.2.9县级饮用水地表水数据审核 (25) 4.2.10县级饮用水地下水数据审核 (25) 4.3数据查询 (25) 4.3.1地表水查询 (26) 4.3.2地下水查询 (29) 4.3.3饮用水查询 (31) 4.4报表分析 (36) 4.4.1水质评价报告 (37) 4.4.2地下水水质查询统计 (48) 4.4.3地表水水质查询统计 (54) 4.5基础信息 (59) 4.5.1基础信息 (59) 4.5.2代码信息 (68)

4.6GIS专题图 (72) 5空气环境质量 (72) 5.1数据采集 (72) 5.1.1大气监测 (73) 5.2数据审核 (80) 5.2.1气 (80) 5.2.2降水 (83) 5.2.3降尘 (84) 5.2.4硫酸盐化速率 (84) 5.3数据查询 (85) 5.3.1常规监测数据 (85) 5.4报表分析 (89) 5.4.1空气质量分析综合 (89) 5.5基础信息 (99) 5.5.1测点信息 (100) 5.5.2代码信息 (106) 5.6GIS专题图 (111) 6声环境质量 (111)

python集成开发环境配置(pycharm)

python 集成开发环境配置(pycharm) 本文是python 快速进阶系列文章的第一篇,给大家介绍的是python 集成开发环境pycharm 的配置,有需要的小伙伴可以参考下 python 的开发工具有很多种,各有特点,本人一直使用的是pycharm ,所以本篇内容仅限pycharm 。 1,设置python 文件头模板 当我们使用pycharm 新建文档时,pycharm 会将模板内容自动插入文件头部位置 设置python 文件头模板的操作方法: (1)打开pycharm (2)依次打开“File—>Settings—>Appearance & behavior—>Editor—>File and code template—>Python script ,右侧粘贴以下信息 : 点击“OK”完成配置。 2,添加qrc 文件模板 qrc 文件是Qt 的资源文件,存储有图标资源,为xml 格式,python 程序使用这些图标资源时,需要使用pyrcc 命令将qrc 文件转化为rescource.py 资源。 添加qrc 文件模板的操作方法: (1)打开pycharm (2)依次打开“File—>Settings—>Appearance & behavior—>Editor—>File and code template—>Python script ,点#!/usr/bin/env python (默认python 路径,根据实际情况填写) # -\*- coding: utf-8 -\*- # @Time : ${DATE} ${TIME} # @Author : XXXXX (输入实际信息) # @File : ${NAME}.py`

Cloudera大数据平台环境搭建傻瓜式说明书

Cloudera大数据平台环境搭建 (版)

目 录 Cloudera 大数据平台环境搭建错误! 未定义书签。 版)错误! 未定义书 签。 1. 基础环 境. 错误! 未定义书签。 软件环境错误!未定义书签。 2. 3. 配置规划...... 所需要的软件资源 错误!未定义书签。 错误!未定义书签。 修改机器名(所有节点) 设置防火墙(所有节点) 配置免密码登录 SSH.. 关闭SELINUX(所有节点)…… 修改 Linux 内核参数(所有节 点) 其他安装与配置(所有节点) . 配置NTP服务................. 安装 oracle (所有节点) Mysql 安装(主节点) 安装CM 传包,解包 创建数据库 创建用户 制作本地YUM源 拷贝 修改 启动 访问 安装CDH 错误!未定义书签。 错误!未定义书签。 错误!未定义书签。 错误!未定义书签。 错误!未定义书签。 错误!未定义书签。 错误!未定义书签。 错误!未定义书签。 错误!未定义书签。 错误! 未定义书 签。 错误!未定义书签。 错误!未定义书签。 错误!未定义书签。 错误!未定义书签。 jar 包................. cloudera-scm-agent 配置 CM Server 和 Agent ..... 错误!未定义书签。 错误!未定义书签。 错误!未定义书签。 CM. 错误!未定义书签。 错误! 未定义书 签。 登录后界面错误!未定义书签。 选择CM版本错误!未定义书签。 指定主机错误!未定义书签。 选择CDH版本错误!未定义书签。 出现“主机运行状态不良”错误 检查主机正确性................... 错误!未定义书签。 错误!未定义书签。 选择安装的服务错误!未定义书签。 角色分配 . 数据库设置 错误!未定义书签。 错误!未定义书签。 测试连接报错:错误!未定义书签。 群集设置错误!未定义书签。

搭建 单片机集成开发环境

搭建51单片机集成开发环境 求真电子科技工作室 一、USB驱动安装(CH341SER) 1、打开CH341SER文件夹,根据自已电脑是64位还是32位,选择不同的文件夹。 2、以我的电脑为例,我的电脑是32位的,选择X64文件夹,双击打开。 3、选择SETUP双击打开。 4、点击安装按钮,系统开始安装,安装好后,关闭对话框即可。 5、检测是否成功。 WIN7中,在“计算机”图标上右击鼠标,在下拉菜单中选择“设备管理器” 若出“端口(COM和LPT)”下拉列表中出现“USB-SERIAL CH340 (COM6)” 说明安装成功,并且USB转串对应的串口为COM6。这个在程序下载和串口 调试的时候要用到。 到此,USB转串驱动安装成功!

二、KEIL C51的集成开发环境软件安装 1、打开Keil_C51_v9.02a文件夹双击“Keil_C51_v9.02a”图标 2、点击“NEXT” 3、在“I agree to ..........”前面的方框打点击。勾选。点击“NEXT” 4、默认,点击“NEXT” 5、填写相关信息,点击“NEXT” 6、开始安装

7、去掉那些勾选项,点击“finish” 8、打开破解文件夹,双击打开。 9、双击打开”KEIL_LIC”文件 10、双击桌面上的“KIEL UVISION4”图标,打开KIEL软件。 选择“file license management”

11、复制CID框中的内容, 12、粘贴到破解对话框的“CID”框中。 13、点击退“Generate”,生成破解码,复制该码,

14、把该破解码粘贴到KEIL软件的“New license ID code..”框中。并击“ADD LIC” 即完成破解。 *** LIC Added Sucessfully ***提示破解成功。 点击”CLOSE”。 15、打开“Keil C51 0xFD Bug修正方法”文件夹,进行BUG修正。点击“START”即 可。 点击“Cancel”关闭窗口。 到此KIEL 软件已经安装完毕。 三、HEX文件烧写工具软件 1、本款下载软件不用安装,只需要打开“stc-isp-15xx-v6.85H”文件夹,把发送到

大数据学习环境搭建系列(二)虚拟机软件Vmware的安装

虚拟机软件Vmware的安装 1、概述 在进行分布式架构的学习前,首先需进行基础环境准备。众所周知,在单机运算能力无法满足处理海量数据的运算能力时,人们普遍开始考虑使用分布式运算来代替单机运算,这也成为了大数据分析和小数据分析最显著的区别之一,即使用的工具不同。当前大数据行业标准是使用Hadoop及其生态组件来执行分布式处理,这也是我们后续文章的主要内容。 分布式集群的主要目的在于连接多台的物理机,以达到整合运算能力线性增长的效果,在学习过程中,我们仍然可以在单台物理机上模拟搭建和运行分布式集群。通常来说,单台物理机上模拟分布式集群有两种方法,其一是利用Hadoop进行分进程的分布式模拟,即一般意义上的伪分布式,通常用于实验和测试;其二则是利用虚拟化软件,将一台物理机分为三台虚拟物理机,然后搭建分布式集群。其中后者与实际工作情景无异,只不过在物理机本身运算能力上有所差别,企业多用服务器级物理机,而在学习过程中个人电脑性能可能稍差。后续文章将针对两种分布式集群搭建方法进行教学,同时也将更加侧重分布式集群的搭建。

注:这里推荐个人计算机配置:硬盘空间大于100G、内存大于等于8G、CPU大于两核。 尽管Apache Hadoop可适用于Windows、Linux和Mac OS操作系统,但就其稳定性而言,我们首推Linux系统或Mac OS系统,而二者相比选择Linux系统适用面更为广泛,因此后续文章我们将在Linux系统中安装Hadoop。由于个人用户普遍使用Windows或Mac OS系统,我们需要在当前操作系统中虚拟一个Linux系统,因此,虚拟化工具就是我们需要掌握和使用的第一个软件。除此之外,由于将要多个虚拟机的统一管理和多个终端的操作,因此我们还需要掌握一些终端管理软件和文件传输软件的基本操作方法。这些软件将在后续使用过程中进行详细介绍。 2、虚拟机软件 2.1虚拟机软件简介 就目前而言,VMware Workstation是使用最为广泛、功能最为强大的虚拟机软件,主要用于IT开发和系统管理等商业环境,而开源虚拟软件Oracle VM VirtualBox,则在所有免费虚拟机软件中表现较为突出,成为大多数教学、实验等非商业环境中的首选。后续文章主要将采用VMware Workstation作为虚拟机软件安装虚拟机,而关于Virtual Box的下载和安装方法,也会在后续文章中单独介绍已满足各位同学的不同需求。今天我们介绍VMware Workstation的安装使用方法。 2.2VMware Workstation下载安装 1)VMware WorkStation下载 2)VMware WorkStation安装 双击安装文件,开始安装,在安全警告窗口点击“运行”

IAR开发环境搭建

IAR 集成开发环境的使用与设置:建立保存一个工程如何向工程中添加源文件如何编译源文件1)打开 IAR 集成开发环境,单击菜单栏的 Project,在弹出的下拉菜单中选择 Create New Project 2)在弹出窗口选中Empty project 再点OK,如下图: 3)选择保存工程的位置和工程名:

4)选择菜单栏上的 File,在弹出的下拉菜单中选择 Save Workspace。在弹出的 Save Workspace As 对话框中选择保存的位置,输入文件名即可,保存 Workspace。

新建源文件,点击 File 选择 New 中 File,再点击 File 选择 Save 填写好源文件的名称,点击保存即可。 源文件建立好了还需要把源文件添加到工程里面,选择 project 的 Add File,添加刚才保存的文件。比如我刚才保存为 main.c,在弹出的对话框选择 main.c 即可,然后点击打开。这时,发现左边框里面出现了我们添加的文件,说明添加成功。如果想删除文件怎么办?在 Workspace 中选择 main.c,然后右键选择 Remove,删除源文件;源文件这时候只是在工程中被移除了,并没有被真正删除掉,如果不需要,必须在保存的文件夹里面手动删除。添加文件也有快捷方式,在工程名上点右键,选择Add.如下图:

2.4.5 工程的设置 IAR 集成了许多种处理器,在建立工程后必须对工程进行设置才能够开发出相应的程序。设置步骤如下: 1) 点击菜单栏上的Project,在弹出的下拉菜单中选择Options,弹出的Option for node “Led”, 快捷方式:在工程名上点右键,选.Options设置设置窗口如下图所示: 2) 设置相关参数。在General Option 选项Target 标签下,Device 栏中选择Texas Instruments 文件夹下的 CC2530F256.i51

大数据环境软件

大数据环境软件 操作系统 CentOS 7 #zip unzip 命令安装 yum install zip unzip #netstat 等命令网络工具包安装 yum install net-tools 软件安装包 -rw-r--r--. 1 root root 20985335 4月30 10:14 apache-storm-0.9.3.tar.gz -rw-r--r--. 1 root root 153512879 5月26 16:15 jdk-7u79-linux-x64.tar.gz drwxr-xr-x. 10 root root 4096 7月10 11:55 jzmq -rw-r--r--. 1 root root 71503892 4月17 10:06 kafka_2.10-0.8.2.1.zip -rw-r--r--. 1 root root 1358190 5月27 11:26 redis-3.0.1.tar.gz -rw-r--r--. 1 root root 1877380 5月12 2011 zeromq-2.1.7.tar.gz -rw-r--r--. 1 root root 17699306 7月10 02:50 zookeeper-3.4.6.tar.gz JAVA vi /etc/profile 在文件末尾增加如下配置内容 #set java environment JAVA_HOME=/usr/local/jdk1.7.0_79/ CLASSPATH=.:$JAVA_HOME/lib/tools.jar PATH=$JAVA_HOME/bin:$PATH export JAVA_HOME CLASSPATH PATH 配置生效 source /etc/profile 验证配置结果 [root@localhost local]# java -version java version "1.7.0_79"

使用Ambari快速部署Hadoop大数据环境

作者:杨鑫奇 前言 做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文 着重来讲解下Ambari,这个新的Apache的项目,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能. 作为新手,我讲讲我自己的学习经历,刚刚开始学习的时候,当然最简单的 Google 下Hadoop ,然后下载相关的包,在自己的虚拟机(CentOS 6.3) 上安装一个单机的Hadoop版本用来做测试,写几个测试类,然后做下CRUD测试之类的,跑跑Map/Reduce的测试,当然这个时候对于Hadoop还不是很了解,不断的看别人的文章,了解下整体的架构,自己所做的就是修改conf下的几个配置文件,让Hadoop能够正常的跑起来,这个时候几种在修改配置上,这个阶段之后,又用到了HBase,这个Hadoop生态圈的另外一个产品,当然还是修改配置,然后 start-all.sh , start-hbase.sh 把服务起起来,然后就是修改自己的程序,做测试,随着用Hbase 学了下 Zookeeper 和Hive等, 接着过了这个操作阶段了之后,开始研究Hadoop2.0看了董的博客的相关文章,还有CSDN上很多大牛的文章了之后, 算是对Hadoop的生态圈整体有一些了解,介于自己在公司所承担的开发所涉及到相关的技术仅仅就这些.但是作为一个 爱好探索的人,是否想多了解下呢,它的性能怎么样? 它是具体如何运作的? 看大公司的那些PPT,人家(淘宝等大公司)动不动就是几十个,几百个,乃至几千个节点,人家是如何管理的,性能是怎么样的?看着PPT里面的那些性能测试的曲线,你是否也能够详细的了解,并且对自己的项目进行性能调优呢? 我貌似找到答案了,那就是 Ambari , 由HortonWorks开发的一个Hadoop相关的项目,具体可以上官方去了解. 了解Hadoop生态圈 现在我们经常看到的一些关键字有: HDFS,MapReduce,HBase,Hive,ZooKeeper,Pig,Sqoop,Oozie,Ganglia,Nagios,CDH3,CDH4,Flume,Scri be,Fluented,HttpFS等等,其实应该还有更多,Hadoop生态圈现在发展算是相当繁荣了,而在这些繁 荣的背后又是谁在推动的呢? 读过Hadoop历史的朋友可能知道,Hadoop最早是始于Yahoo,但是现在主要是由 HortonWorks 和 Cloudera 这2家公司在维护者,大部分的commiter 都属于这2家公司,所以现在市面上看到的主要有2个版本,CDH系列,和社区版, 我最早用的是社区版本,后来换到CDH3,现在又换回社区版,因为有Ambari.当然,用什么和不用什么,只要自己的技术到家,还是都能修改的跑的正常的.这里就不多说了. 讲了这么多废话了,开始讲 Ambari安装吧. 开始部署 首先了解下Ambari, 项目地址在:https://www.doczj.com/doc/db17542869.html,/ambari/

OpenCV与JAVA(MyEclipse)集成开发环境搭建

OpenCV与MyEclipse 集成开发环境搭建 一、下载OpenCV库 官网下载OpenCV Win pack,下载地址:https://https://www.doczj.com/doc/db17542869.html,/opencv-3-4-1.html,下载得到的文件为opencv-3.4.1-vc14_vc15.exe,解压到指定目录OpenCV。 二、OpenCV与MyEclipse的集成 2.1 OpenCV集成到JA V A项目 (1)启动Myeclipse,新建JA V A项目,在JA V A项目中新建一个目录lib,用于存储第三方包。(2)集成OpenCV到JA V A项目,从解压目录进入build\java目录,如下图所示: 将opencv-341.jar文件拷贝到JA V A项目新建的目录中(lib) (3)将x64或x86目录中的文件opencv_java341.dll复制到项目使用的JDK\bin目录中。 (4)在opencv-341.jar上右击,弹出菜单,选择Build path->Add to Build path,如下图所示 (5)测试是否运行正常 在项目中新建一个运行类,在main方法中运行代码:

System.loadLibrary(Core.NATIVE_LIBRARY_NAME); Mat m = Mat.eye(3, 3, CvType.CV_8UC1); System.out.println("m = " + m.dump()); 显示下列结果: 2.2 OpenCV集成到MyEclipse (1)启动Myeclipse,单击工具栏上边的Window -> Preferences; (2)在弹出的窗口左侧单击Java -> Build path -> User libraries,单击new按钮,在弹出的New User Library中输入已经安装好的OpenCV库(OpenCV-3.4.1),如下图所示。 (3)在右边的按钮中点击Add External JARs, 选择到所安装的OpenCV路径下的build/java/ opencv-341.jar文件,如下图所示。

环境大数据综合应用平台建设方案

第一章概述 (2) 第二章现状分析 (3) 2.1 环保相关系统 (3) 2.1.1 环境信息发布系统 (3) 2.1.2 环境监控监测系统 (3) 2.1.3 环境管理业务系统 (4) 2.1.4 高清视频监控 (6) 2.1.5 指挥中心 (6) 2.2 系统应用情况 (6) 第三章建设方案 (7) 3.1 平台要求 (7) 3.2 平台特点 (7) 3.3 建设原则 (8) 3.4 建设目标 (8) 3.5 建设内容 (9) 3.6 接口方式 (10) 第四章环境大数据综合应用平台介绍 (11) 4.1 平台功能介绍 (11) 4.1.1 云数据处理中心 (11) 4.1.1.1 数据交换目标 (11) 4.1.1.2 环保数据交换 (11) 4.1.2 统一用户管理系统 (12) 4.1.3 综合应用管理系统 (12) 4.1.3.1 环保信息查阅 (13) 4.1.3.2 环保信息分发 (13) 4.1.3.3 日程管理 (14) 4.1.3.4 我的工作台 (14) 4.1.4 办公自动化系统 (15) 4.1.4.1 我的工作台 (15) 4.1.4.2 公文管理 (16) 4.1.4.3 会议管理 (17) 4.1.4.4 车辆管理 (17) 4.1.4.5 接待管理 (18)

4.1.4.6 通讯录 (18) 4.1.4.7 工作交流 (19) 第五章相关技术 (20) 5.1 基于SOA技术架构 (20) 5.2 采用J2EE技术 (20) 5.3 遵循XML标准 (21) 5.4 采用组件化的设计方法 (22) 5.5 Web Service接口 (22) 第一章概述 近年来,国内环保信息化收到政府和环境保护部门的重视,环境保护事业进入新的发展阶段。为全面深化生态文明体制改革,2月份《关于推进环境监测服务社会化的指导意见》、6月份的《环境监测数据弄虚作假行为处理办法》和8月份的《生态环境监测网络建设方案》等国家政策的出台,全面放开了服务性监测市场,环境自动监测、第三方运营维护和智慧环保领域将出现快速增长。抓住当前国家大力发展大数据产业的政策时机,随着信息技术日益完善普及,环境相关信息及数据的价值将得到显现,将成为推进环境治理体系和治理能力现代化的重要手段,促进环保产业实现智慧化转型。 推进智慧环保建设,是把环保现代化推向新阶段的战略举措,是提升环保执法能力、加快节能减排的目标、提高公共管理服务水平的战略举措。智慧环保建设一方面要认真贯彻《2006-2020年国家信息化发展战略》和《国家综合业务OA 总体框架》,另一方面要按照《国务院关于落实科学发展观加强环境保护的决定》关于“完善环境监测网络,实现‘智慧环保’,加快环境与核安全信息系统建设,实行信息资源共享机制”的要求,全面建立适应经济社会发展和环境保护工作需要的环境信息化体系。

大数据学习环境搭建系列(一)大数据集群平台介绍

大数据集群平台介绍 掌握搭建大数据集群的方法是学习大数据技术的人需要具备的基础技能,因此我会通过接下来的三十余篇文章介绍大数据平台的搭建方法。在本文中我将向小伙伴们介绍一下搭建大数据集群需要哪些知识以及我们接下来搭建的大数据集群平台架构,让大家对平台有个总体的认识并普及一些概念。 首先我们接触的是虚拟机,及在虚拟机中安装Linux操作系统

集群搭建完成后我们总共会有四个虚拟机,其中伪分布集群有一台虚拟机,虚拟机名称为single_node。分布式集群有三个虚拟机名称分别为master、slave1、slave2。各个虚拟机的IP配置及安装软件(含软件运行的模块)如下表所示。 注:hostname:每个节点的主机名称 IP:每个节点的IP地址 NN:NameNode DN:DataNode NM:NodeManager RM:ResourceManager SNN:SecondaryNameNode / :表示不安装 分布式集群的架构如下图所示

slave1 192.168.***.12 slave2 192.168.***.13 Master 192.168.***.11 1、硬件 节点:我们后面会经常提到节点,分布式环境中一个服务器就是一个节点,在我们搭建的集群中服务器指的是通过VMware软件虚拟出来的虚拟机。 操作系统:服务器上运行的操作系统基本上都是Linux操作系统,当然虚拟机中安装的也是Linux系统。 网络:集群中的多个节点之间协同工作需要不断交换数据及状态、命令等信息,因此需要互通的网络环境。我们的集群是通过虚拟机软件虚拟出来的,网络也是由虚拟机软件虚拟出的虚拟网卡来实现数据交换的。 2、软件 集群中的软件主要有hadoop、spark、hive、hbase、zookeeper这几个。Hadoop 虽然大数据集群平台根据具体业务需求不同配置组成不同,但大部分集群都会以hadoop集群为基础。例如大数据仓库Hive及分布式数据库Hbase的存储都会用到hadoop 集群的分布式文件系统HDFS,计算部分默认使用Hadoop原生的MapReduce计算框架。分布式计算框架spark可以使用hadoop内置的通用资源管理模块yarn来提供统一的资源管理和调度。

java开发环境的搭建与使用实验报告

实验一开发环境的搭建及使用 一实验要求 1、进行Java开发环境的配置; 2、编写简单的Java Application程序,调试、编译并运行程序。 二实验内容 1、安装JDK并配置环境变量,在下面写出如何判断环境变量是否配置成功;安装Eclipse 集成开发环境。 Jdk安装成功后,打开DOS,输入javac,若出现 则环境变量设置成功! 2、使用Eclipse编写Java Application其功能都是显示字符串“Hello World!”,源代码写在下面的空白处。 package helloworld;

public class Hello { public static void main(String[] args) { // TODO Auto-generated method stub System.out.println("Hello world!"); } } 三实验内容中遇到的问题、解决方法和体会。 第一步:安装jdk,在安装jdk的时候我把jre安装到了jdk目录下了,导致jdk安装失败了,后来又重新安装了一下,把jre单独拉出来过后就好了。 第二步:在配置环境变量的时候,很容易忽略路径前面的,;,所以导致环境变量配置失败! 第三步:编写代码,忘记了hello world 后面的!和类名Hello的首字母忘记大写了! 还有就是这Eclipse是全英文的,真的搞伤的了,回去我要研究研究中文的破解包怎么安装进去! 这次实验初步了解了java在运行程序时的基本步骤和容易出现的问题!后面需要多多实验,多搞些程序过来试试! (资料素材和资料部分来自网络,供参考。可复制、编制,期待你的好评与关注)

大数据平台kerberos安装部署文档

大数据平台-kerberos安装部署文档

————————————————————————————————作者: ————————————————————————————————日期: ?

1.环境准备 1.1.操作系统 本次安装部署要求在操作系统为CentOS release 6.5(Final)的版本下进行部署,所以在安装部署kerberos之前请先确保操作系统为以上版本,并且集群 中各机器已做时钟同步。 本次安装部署以csdm-hadoop-04作为主kdc服务器,以csdm-hadoop-05作为从kdc服务器,以csdm-hadoop-03作为客户端。一般不建议在服务器上再 安装其他应用程序,比如hadoop。但为了节省资源本次安装在这三台机器均已安 装hadoop相关软件。 1.2.创建操作用户 创建操作系统hdfs、yarn、mapred用户,并使其归属于hadoop用户组: adduserhdfs -gHadoop adduseryarn -g Hadoop adduser mapred-gHadoop 1.3.配置hosts文件 为各台机器修改/etc/hosts文件,将真实ip与主机名对应配置,服务端与 客户端均需配置,形如:(不能存在127.0.0.1的配置,否则hadoop进行k erberos验证时将会出错) 1.4.关闭防火墙 执行以下命令关闭防火墙: service iptables stop 出现以下界面表示关闭成功 1.5.注册服务与端口的对应 在/etc/service文件最后增加以下信息,以便后续使用: ?krb5_prop754/tcp # Kerberos slave propagation 2.安装配置Kerberos 2.1.安装rpm包 ?以root用户登录并创建目录存放安装包: mkdir /var/kerberos

大数据技术实验一平台搭建

《大数据技术原理与应用》实验报告一 题目:安装Hadoop 姓名:高聪江班级:大数据1533 学号:2015005677 日期:2017.11.01 实验环境: 笔记本电脑一台 Archlinux虚拟机3台 Hadoop 2-7-10 Java 1-8-0 实验内容与完成情况: 下载相关软件已完成 安装虚拟机已完成 配置环境变量已完成 安装Hadoop 已完成 出现的问题: 01 虚拟机运行软件选择 02 虚拟机选择 03 虚拟机的分盘出现问题 04 虚拟机命令不被识别 05 Hadoop版本选择 06 Hadoop无法正常启动 07 结束安装后活节点数是0 解决方案(列出遇到的问题和解决办法,列出没有解决的问题): 01 虚拟机运行软件选择使用了VirtualBox 02 虚拟机选择使用了Archlinux 03 虚拟机的分盘出现问题再分了一次,成功解决 04 虚拟机命令不被识别系统的环境变量出现问题,修改配置文件解决 05 Hadoop版本选择选择了2-7-10这一比较广泛的版本Hadoop 06 Hadoop无法正常启动由于格式化节点的时候没有先把生成文件都删除 07 结束安装后活节点数是0 这个问题原因一直没有找到,重装解决的 报告正文 1.实验内容与步骤 本实验主要内容和步骤如下: 1.1.实验内容

Hadoop集群搭建(由于伪分布比较简单,所以实验报告描述集群搭建),WorldCount实例测试。 1.2.实验步骤 1>下载相关软件。主要是Java,VirtualBox,Hadoop安装包,虚拟机的镜像 文件。 2>安装ArchLinux虚拟机(由于此发行版本比较洁净,系统体积小,运 行比较流畅) 安装结果如图: 3>进行Hadoop集群安装 >>启用网络并安装SSH和JDK >>配置SSH免密登录

生态环境大数据平台建设方案 环境生态大数据监测预警系统建设方案2018版

生态环境大数据平台建设方案2018版 环境生态大数据监测预警系统建设方案

目录 1概述 (1) 1.1项目简介 (1) 1.1.1项目背景 (1) 1.1.2建设目标 (2) 1.1.3建设范围 (3) 1.2手册目的 (3) 2运行环境和配置要求 (3) 3系统通用操作 (5) 3.1系统登录 (5) 3.2系统退出 (6) 4水环境质量 (7) 4.1数据采集 (7) 4.1.1水常规监测 (8) 4.2数据审核 (17) 4.2.1河流断面数据审核 (18) 4.2.2湖库垂线数据审核 (21)

4.2.3地下水数据审核 (21) 4.2.4饮用水地表水数据审核 (22) 4.2.5饮用水地下水数据审核 (22) 4.2.6饮用水地表水全分析审核 (23) 4.2.7饮用水地下水全分析审核 (23) 4.2.8水自动站监测数据审核 (24) 4.2.9县级饮用水地表水数据审核 (24) 4.2.10县级饮用水地下水数据审核 (24) 4.3数据查询 (24) 4.3.1地表水查询 (25) 4.3.2地下水查询 (28) 4.3.3饮用水查询 (30) 4.4报表分析 (35) 4.4.1水质评价报告 (36) 4.4.2地下水水质查询统计 (47) 4.4.3地表水水质查询统计 (53) 4.5基础信息 (58)

4.5.1基础信息 (58) 4.5.2代码信息 (67) 4.6GIS专题图 (71) 5空气环境质量 (72) 5.1数据采集 (72) 5.1.1大气监测 (73) 5.2数据审核 (80) 5.2.1气 (80) 5.2.2降水 (84) 5.2.3降尘 (84) 5.2.4硫酸盐化速率 (85) 5.3数据查询 (85) 5.3.1常规监测数据 (86) 5.4报表分析 (89) 5.4.1空气质量分析综合 (89) 5.5基础信息 (99) 5.5.1测点信息 (100)

大数据环境集群环境搭建

大数据环境搭建 1、CentOS 6.5 2、JDK 1.8 3、Hadoop 2.6 4、Hive 1.1.0 5、ZooKeeper-3.4.9 6、kafka_2.11- 7、Spark 2.1.1 8、flume-ng-1.6.0 CentOS 6.5防火墙和DNS配置 1、关闭防火墙 2、配置yum JDK 1.7安装 1、将jdk-8u131-linux- 2、安装JDK:把压缩包放到/usr/java/目录下

3、配置jdk相关的环境变量 5、rm -f /etc/udev/rules.d/70-persistent-net.rules 安装第二台和第三台服务器 1、安装上述步骤,再安装两台一模一样环境的服务器,因为后面hadoop和spark都是要搭建集群的。 2、集群的最小环境就是三台。因为后面要搭建ZooKeeper、kafka等集群。 3、另外两台机器的hostname分别设置为spark2和spark3即可,ip分别为 4、在安装的时候,另外两台服务器的centos镜像文件必须重新拷贝一份,放在新的目录里,使用各自自己的镜像文件。 5、服务器的硬盘文件也必须重新选择一个新的目录,以更好的区分。 6、安装好之后,记得要在三台机器的/etc/hosts文件中,配置全三台机器的ip地址到hostname 的映射,而不能只配置本机,这个很重要! 7、在windows的hosts文件中也要配置全三台机器的ip地址到hostname的映射。 配置集群ssh免密码登录 1、首先在三台机器上配置对本机的ssh免密码登录

生成本机的公钥,过程中不断敲回车即可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下 ssh-keygen -t rsa 将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了 cd /root/.ssh cp id_rsa.pub authorized_keys 2、接着配置三台机器互相之间的ssh免密码登录 使用ssh-copy-id -i spark命令将本机的公钥拷贝到指定机器的authorized_keys文件中(方便好用) Hadoop 安装hadoop包 1、使用hadoop-,使用W in SCP上传到CentOS的/usr/local目录下。 2、将hadoop包进行解压缩:tar -zxvf hadoop- 3、对hadoop目录进行重命名:mv hadoop-2.4.1 hadoop 4、配置hadoop相关环境变量

教你如何快速搭建一个大数据分析平台

一般的大数据平台从平台搭建到数据分析大概包括以下几个步骤: 1、Linux系统安装 一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。比如,可以选择给HDFS的namenode做RAID2以提高其稳定性,将数据存储与操作系统分别放置在不同硬盘上,以确保操作系统的正常运行。 2、分布式计算平台/组件安装 当前分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。 使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方);2)开源组件一般免费,学习和维护相对方便;3)开源组件一般会持续更新;4)因为代码开源,如果出现bug可自由对源码作修改维护。

常用的分布式数据数据仓库有Hive、Hbase。Hive可以用SQL查询,Hbase 可以快速读取行。外部数据库导入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。Zookeeper是提供数据同步服务,Impala是对hive的一个补充,可以实现高效的SQL查询 3、数据导入 前面提到,数据导入的工具是Sqoop。它可以将数据从文件或者传统数据库导入到分布式平台。

4、数据分析 数据分析一般包括两个阶段:数据预处理和数据建模分析。 数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive SQL,Spark QL和Impala。 数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。如前面所提到的,这一块最好用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等,都已经在ML lib里面,调用比较方便。

蒙草搭建农业大数据平台资料

一、 蒙草集团依托20余年的生态科研实践,运用互联网、云计算、物联网等技术,结合实地监测,整理收集指定区域水、土、气、人、草、畜等生态系统相关数据,建立指标分析模型,从而精准指导生态修复实践,科学指导产业发展决策,优化引导农牧民生产生活,成为生态产业、农林牧产业等移动版的“GPS”+“科技110”。作为“生态+农业”大数据的一项实践,五原县农业大数据平台是蒙草依据当地农业生态现状和农业生产实际需求,搭建的以农业大数据为核心的生态公众服务平台。 大数据指导农业生产 五原县农业大数据平台使当地的农业生态实现了农业技术服务“一网覆盖”,农业资源数据“一键获取”,有效监控农畜产品的产量和质量。同时,大数据平台的遥感数据也提供该县农作物种类的空间分布、作物长势的变化以及不同程度的盐碱地分布的各类信息,为该县因地制宜规划农业生产提供依据。 大数据平台中的物联监测,可提供农作物生长环境、生长需求以及不同气候温度条件下病虫害发生情况的信息,提示农业部门及农民及早预防治疗,保证农作物健康生长,并通过精准施肥灌溉,减少水肥浪费,保护生态环境,促进农业可持续发展。 平台可监测家畜疫病的防治。防疫员可通过“智慧农业”APP快速地将牲畜图片、视频、农户和防疫员确认签字情况等防疫信息实时上报,并汇总到大数据平台。平台可对疫苗进行追溯,并做出该地区防疫热区图。2018年2月14日,五原县养羊农户赵瑞花在平台留言,家里的羊腿疼,走路一瘸一拐,不吃草,情况不止出现过一次,且附近几个村子都有类似情况发生。专家王强胜看到提问后回复了有效的治疗措施。平台通过为农户提供与专家沟通的渠道,为农户及时解决问题。 此外,农业信息员也将防灾减灾、土地流转与疫病防控等相关信息发布在农业综合信息平台上。平台信息结合科技服务直通车的

相关主题
文本预览
相关文档 最新文档