Kettle使用培训文档
- 格式:ppt
- 大小:890.00 KB
- 文档页数:17
1.Kettle简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle主要由资源库、数据库、作业(job)、转换、步骤五部分组成,资源库是用来存储用户所编写的作业和转换(即kjb文件和ktr文件)一般是在数据库中存储,方便用户的查找和使用。
数据库就是处理数据是需要的数据库。
作业是用来确定一个工程中需要使用的转换和转换的执行顺序。
转换是数据在ktr文件中的具体转换过程,类似于Java的一个方法,而作业就类似于java的一个类,它可以调用各种不同的方法(转换)。
2.Kettle框架搭建(1)下载安装可以从下载最新版的Kettle软件,同时,Kettle 是绿色软件,下载后,解压到任意目录即可。
(2)配置环境变量使用Kettle前提是配置好Java的环境变量,因为Kettle是java编写,需要本地的JVM的运行环境。
配置Java环境变量可参考:/zzq900503/article/details/9770237配置Kettle环境变量步骤:一、在系统的环境变量中添加KETTLE_HOME变量,目录指向kettle的安装目录:D:kettledata-integration(具体以安装路径为准)二、新建系统变量:KETTLE_HOME变量值:D:kettledata-integration(具体以安装路径为准,Kettle的解压路径,直到Kettle.exe所在目录)三、选择PATH添加环境变量:变量名:PATH变量值:%KETTLE_HOME%;(3)Kettle工具的运行在Windows系统下运行,只需要解压kettle文件后,双击data-integration文件夹中的Spoon.bat文件在Linux下运行则双击data-integration文件夹中的Spoon.sh文件3.Kettle的基本概念(1)作业(job)负责将【转换】组织在一起进而完成某一块工作,通常我们需要把一个大的任务分解成几个逻辑上隔离的作业,当这几个作业都完成了,也就说明这项任务完成了。
Kettle 培训手册一、Etl 介绍ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于金融IT 来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。
Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
二、kettle 部署运行将kettle2.5.1文件夹拷贝到本地路径,例如D 盘根目录。
双击运行kettle文件夹下的spoon.bat文件,出现kettle欢迎界面:稍等几秒选择没有资源库,打开kettle主界面创建transformation,job点击页面左上角的创建一个新的transformation,点击保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation文件保存后后缀名为ktr点击页面左上角的创建一个新的job,点击保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestJob,kettle默认job文件保存后后缀名为kjb创建数据库连接在transformation页面下,点击左边的【Main Tree】,双击【DB连接】,进行数据库连接配置。
connection name自命名连接名称Connection type选择需要连接的数据库Method of access选择连接类型Server host name写入数据库服务器的ip地址Database name写入数据库名Port number写入端口号Username写入用户名Password写入密码例如如下配置:点击【test】,如果出现如下提示则说明配置成功点击关闭,再点击确定保存数据库连接。
Kettle操作文档1.Kettle介绍。
(2)2. Kettle下载。
(2)3.使用规范和注意事项。
(3)3.1.配置数据库的全局变量。
(3)3.2.文件命名规范(不要用汉字)。
(3)3.3.文件存放位置。
(3)3.4.配置启动任务文件。
(3)3.5.注意事项。
(4)4. Kettle部署使用。
(4)4.1.启动kettle。
(4)4.2.创建转换文件。
(5)4.2.1.使用标识字段实现新增数据。
(5)4.2.2.使用时间戳实现新增或修改数据。
(11)4.2.3.使用时间比较实现新增或修改数据。
(14)4.2.4.使用对某一数据值比较实现新增或修改数据。
(17)4.3.创建任务文件。
(19)4.4.命令行启动任务。
(20)1.Kettle介绍。
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于政府部门来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。
Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定,提供了图形化界面,使用很方便。
Kettle中有两种脚本文件,transformation和job,transformation 完成针对数据的基础转换,job则完成整个工作流的控制。
2.Kettle下载。
Kettle可以在http://2.2.2.240/bbs/网站下载kettle压缩包,因kettle为绿色软件,解压即可使用。
这个压缩包,公司加了一些功能,跟官网下载的不太一样,建议使用公司论坛上的压缩包。
资料网站:/。
注:解压路径尽量不要有中文。
.kettle:存放kettle的一些环境变量信息,资源库的信息。
jre6:存放java运行库文件(1.6版本)。
launcher:存放启动的文件以及启动的配置信息。
lib:存放kettle的库文件。
Kettle操作文档1.Kettle介绍。
(2)2. Kettle下载。
(2)3.使用规范和注意事项。
(3)3.1.配置数据库的全局变量。
(3)3.2.文件命名规范(不要用汉字)。
(3)3.3.文件存放位置。
(3)3.4.配置启动任务文件。
(3)3.5.注意事项。
(4)4. Kettle部署使用。
(4)4.1.启动kettle。
(4)4.2.创建转换文件。
(5)4.2.1.使用标识字段实现新增数据。
(5)4.2.2.使用时间戳实现新增或修改数据。
(11)4.2.3.使用时间比较实现新增或修改数据。
(14)4.2.4.使用对某一数据值比较实现新增或修改数据。
(17)4.3.创建任务文件。
(19)4.4.命令行启动任务。
(20)1.Kettle介绍。
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于政府部门来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。
Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定,提供了图形化界面,使用很方便。
Kettle中有两种脚本文件,transformation和job,transformation 完成针对数据的基础转换,job则完成整个工作流的控制。
2.Kettle下载。
Kettle可以在http://2.2.2.240/bbs/网站下载kettle压缩包,因kettle为绿色软件,解压即可使用。
这个压缩包,公司加了一些功能,跟官网下载的不太一样,建议使用公司论坛上的压缩包。
资料网站:/。
注:解压路径尽量不要有中文。
.kettle:存放kettle的一些环境变量信息,资源库的信息。
jre6:存放java运行库文件(1.6版本)。
launcher:存放启动的文件以及启动的配置信息。
lib:存放kettle的库文件。
Kette目录1、输入 (2)1.1 文本输入 (2)1.2 表输入 (3)2、输出 (3)2.1 文本输出 (3)2.2)输出表 (3)3、连接 (5)3. 1 “Merge” (5)3.2 Sorted Merge (5)3.3 合并记录 (7)3.4 (8)4、转换 (10)4.1)split field to rows (10)4.2)去掉重复记录 (11)4.3 增加常量 (11)4.4 增加序列 (12)4.5 字段选择 (12)4.6)拆分字段 (13)4.7 排序记录 (14)4.8 换转列 (14)4.9)计算器 (15)4.10)值映射 (16)4.11)number range (17)5、flow (19)5.1)switch/case (19)5.2)过滤记录 (20)6、statistics (21)6.1)分组 (21)7、Uitlity (22)7.1)If field value is null (22)7.2)Null if... .. (24)8、查询 (25)8.1)Check if a column exists (25)8.2 File exists (26)8.3)Table exists (27)8.4 数据库查询 (28)8.5 数据库连接 (30)8.6 流查询 (31)9、脚本 (33)9.1) Modified Java Script Value (33)9.2)执行SQL脚本 (34)9.3 Regex Evaluation (35)1、输入1.1 文本输入:就是程序读取文本文件里边的东西,我现在用到的是自己到处去的文件。
给拉出来的文本起名文件卡里边先浏览选着自己用到的文本,点击添加,选中的文件会到“选中的文件”框里边图中的“1”就是我选中的文件之后点击“字段卡”在下边有个“”点击它会出现你导出时候的字段名称,下边有“”可以查看里边的记录1.2 表输入“编辑”就是选着数据库“获得sql查询语句”就是得到数据,下边可以预览然后会出现在你可以对语句进行编辑,去掉你不要的字段,或者加条件去掉的字段不会在导出的文件中出现,2、输出2.1 文本输出“步骤名称”是给选着的文本文件的加名字的“文件卡”中的“浏览”中是选着文本输出的地方和起名字的“字段卡”点击这个你会看见下边有“获取字段”这个是得到输出的字段的名称,默认的是全部输出2.2)输出表“步骤名称”kettle起名用的“数据库连接”是选着数据库“编辑”是修该数据库“目标表”是选着存入的表“Specify datebase fileds”挑勾它说明说上说选没说为什么“Datebase fileds卡”中点击“enter filed mapping”第一个文本框是读进来的表的字段第二个文本框是写数据库中的字段第三个是他们的对应关系在这你可以选择自己要的字段然后点add(注意数据库表的字段类型一定要一样,要不报错,你也可以选择guess ,这个是根据字段的名字去猜,如果你的字段类型不一样,报错,出现在第三个文本框中的才是写如表的字段3、连接3. 1 “Merge”“第一个步骤”选择导入的“输入表”或“输入文件”“第二个步骤”选择导入的“输入表”或“输入文件”“连接类型”是内连接外连接做连接有连接。
1.1数据抽取1.1.1表输入1.1.1.1功能描述通过sql语句或者界面选择的方式从数据库中抽取需要的数据。
数据库基本上包括了所有通用数据库,如sqlserver,mysql,oracle等。
1.1.1.2操作步骤及图解双击表输入界面如下图。
图11101单击‘新建’显示如下界面。
图11102输入数据库连接配置参数,单击‘Test‘验证数据源是否配置正确,配置正确后通过‘特征列表’查询数据库特征,通过‘浏览’查询数据库表,视图等资源。
单击‘ok’后回到图11101。
单击‘获取sql查询语句’显示下图.从上图选择你需要抽取数据的表或视图,双击‘student’表后如下图。
图11104单击‘是’生成sql语句如下图。
图11105单击‘预览’显示如下图,图11106显示你抽取的数据,单击‘关闭’回到图11105。
替换SQL语句里的变量:选中,则将SQL中的变量名替换成设定的值;未选中,不替换。
如图11107有变量申明。
重要点提示:1当表输入double类型时,预览时不能获得正确的值(此时并不代表值获取异常,由于预览设置double位数导致),表输出是正常值1.1.2Excel输入1.1.2.1功能描述从Excel文件中读取数据。
1.1.2.2操作步骤及图解双击Excel输入弹出界面如下图11201图11201文件:点击浏览按钮选择excel文件,点击增加按钮文件增加到选中的文件列表。
从前面的步骤获取文件名:当有数据流连接当前Excel输入时,选中,则可以选择文件。
图11202工作表,见上图11202:点击获取工作表名称会弹出框,将可用选项选到你的选择,点击确认即可。
如图11203图11203图11204内容,见上图11204:头部:检查工作表是否指定了一个头部行,该项基本要选择。
非空记录:检查是否不需要空行输出。
停在空记录:当遇空行时停止读取。
限制:0则表示内容大小无限制图11205字段,见上图11205:重要提示:类型选项要严格与Excel文件中对应字段的类型匹配,否则会报错。