当前位置:文档之家› kettle操作文档

kettle操作文档

kettle操作文档
kettle操作文档

Kettle操作文档

1.Kettle介绍。 (2)

2. Kettle下载。 (2)

3.使用规范和注意事项。 (3)

3.1.配置数据库的全局变量。 (3)

3.2.文件命名规范(不要用汉字)。 (3)

3.3.文件存放位置。 (3)

3.4.配置启动任务文件。 (3)

3.5.注意事项。 (4)

4. Kettle部署使用。 (4)

4.1.启动kettle。 (4)

4.2.创建转换文件。 (5)

4.2.1.使用标识字段实现新增数据。 (5)

4.2.2.使用时间戳实现新增或修改数据。 (11)

4.2.3.使用时间比较实现新增或修改数据。 (14)

4.2.4.使用对某一数据值比较实现新增或修改数据。 (17)

4.3.创建任务文件。 (19)

4.4.命令行启动任务。 (20)

1.Kettle介绍。

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于政府部门来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。

Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定,提供了图形化界面,使用很方便。Kettle中有两种脚本文件,transformation和job,transformation 完成针对数据的基础转换,job则完成整个工作流的控制。

2.Kettle下载。

Kettle可以在http://2.2.2.240/bbs/网站下载kettle压缩包,因kettle为绿色软件,解压即可使用。这个压缩包,公司加了一些功能,跟官网下载的不太一样,建议使用公司论坛上的压缩包。

资料网站:https://www.doczj.com/doc/3d9431299.html,/。

注:解压路径尽量不要有中文。

.kettle:存放kettle的一些环境变量信息,资源库的信息。

jre6:存放java运行库文件(1.6版本)。

launcher:存放启动的文件以及启动的配置信息。

lib:存放kettle的库文件。

libext:存放用到的外部库文件。

libswt:存放用到的界面库文件。

plugins:存放插件文件。

resources:存放编写的转换和任务文件,以及日志和任务

配置信息。

ui:存放用到的的图片和配置信息。

Kitchen.bat:任务文件执行器(命令行模式)。

Pan.bat:转换文件执行器(命令行模式)。

set-pentaho-env.bat:设置kettle运行的环境变量。

Spoon.bat:打开设计工具(界面方式)。

Spoon.ico,spoon.png:工具的图标。

start.bat:启动存放在resources目录下的任务配置文件。

说明.txt:使用的规范和注意事项。

3.使用规范和注意事项。

3.1.配置数据库的全局变量。

在.kettle目录下的kettle.properties文件配置数据库全局变量。

属性:HostName,DatabaseName,PortNumber,UserName,Password。

规则:地市名+数据库名+属性名=值,且命名时第一个单词以小写字母作为开头,后面的单词则用大写字母开头。

如:昆山的ebcmks数据库,配置如下:

ksEbcmksHostName=2.2.2.7

ksEbcmksDatabaseName=ebcmks

ksEbcmksPortNumber=1433

ksEbcmksUserName=sa

ksEbcmksPassword=powerdata

在工具中使用方法为:${ksEbcmksHostName}。

3.2.文件命名规范(不要用汉字)。

转换文件用操作数据库的表名(大写中文首字母)。

任务文件用项目名。

配置启动任务文件用项目名。

日志文件用“kettlelog_项目名.log”。

3.3.文件存放位置。

文件统一放到resources目录下。

存放规则:项目名目录->(transformations目录,jobs目录),config目录,logs目录;

其中transformations目录主要存放转换文件,jobs目录存放任务文件,config目录存放配置启动任务文件(需要执行的任务文件配置信息)。

如昆山:项目名目录为:ks,转换文件目录:transformations,任务文件目录:jobs,配置文件目录:config,日志文件目录:logs。

3.4.配置启动任务文件。

配置文件统一放到:项目名目录->config目录下。

文件后缀名为:bat(批处理文件)。

编写规则:Kitchen.bat -file=%cd%\resources\任务文件(从项目名目录开始)-level=日志等级-log=resources\logs\日志文件(以工具主目录为起始目录),之间用空格分割;

如:Kitchen.bat -file=%cd%\resources\ks\jobs\ebcmks.kjb -level=Basic -log=resources\logs\kettlelog_ebcmks.log,

其中level等级包括(Basic, Detailed, Debug, Rowlevel, Error, Nothing)。

如下:

3.5.注意事项。

1):路径和文件名称不要使用中文。

2):在只进行新增操作时,如果两边的表字段数量不一样,应把“表输出”的specify database 选中。

3):启动任务只需执行主目录下的start.bat文件。

4):在任务中选择一个交换时的目录应使用相对路径,如:应把“D:\kettle\kettle4.2.0\resources\ks\transformations\T_WORKFLOW_GZLCSL.ktr”修改为:“${KETTLE_HOME}\resources\ks\transformations\T_WORKFLOW_GZLCSL.ktr”,使用${KETTLE_HOME}全局变量。

5):在表里面新增字段后,如果在别的控件(如“表输入”)中没有找到新增的字段,此时应操作菜单Tool->Database->Clear Cache,把缓存清除掉。

6):在预览数据时,如果数据量比较大的情况下可能会报错,

此时应把“表输入”的“记录数量限制”修改为100,正式转换时应把值修改为0。

4.Kettle部署使用。

4.1.启动kettle。

把下载的压缩文件压缩到D盘根目录。

双击kettle4.2.0目录下的Spoon.bat文件,出现kettle欢迎界面如图1。

图1

进入主界面如图2。

题2

4.2.创建转换文件。

4.2.1.使用标识字段实现新增数据。

如:传输人员的轨迹信息。

单击菜单项的文件->新建->转换,创建一个转换文件;保存文件名为:WZXX路径为主目录

下的resources\ks\transformations\WZXX.ktr;右键选择“转换设置”,把转换名字修改为:轨迹信息;如图3.

图3

把左边菜单“输入”下的“表输入”,通过鼠标左键拖到主界面中,并双击“表输入”,

如图4。

图4

单击图4界面中的“新建”按钮,创建源数据连接信息,弹出框如图5。

Connection Name:ebcmks。(连接库的名称)

Connection Type:MS Sql Server。(数据库类型)

Host Name:通过Ctrl+Alt+Space(空格),选择ksEbcmksHostName(也可直接输入)。(数据库的服务器IP地址)

Database Name:${ksEbcmksDatabaseName}。(数据库名称)

Port Number:${ksEbcmksPortNumber}。(数据库端口号)

User Name:${ksEbcmksUserName}。(数据库用户名)

Password:${ksEbcmksPassword}。(数据库密码)

说明:

使用${value}表示的value值,都是在kettle.properties文件中配置的变量名。

配置格式为:ksEbcmksDatabaseName=ebcmks。

配置好上面的信息之后,可以用“Test”按钮进行测试,如果连接成功,单击“OK”按钮。

图5

在图4中的Sql面板中输入“select* from t_emop_wzxx where isNUll(flag,'0')<>'1'”可以通过“预览”按钮,查看数据,如果数据量比较大的情况下可能会报错,此时应把“表输入”的“记录数量限制”修改为100,正式转换时应把值修改为0,单击“OK”。

与“表输入”同理,把左边菜单中的“表输出”用鼠标拖到主界面中,按住Shift键,用鼠标把“表输入”与“表输出”连接起来,如图5。

图5

“表输出”的功能就是往表里面新增数据,在图5中双击“表输出”,在弹出的窗口中单击“新建”按钮,创建目标数据连接信息(与源目标连接信息同理),配置信息如下,如图6:Connection Name:datacenter_ks。

Connection Type:MS Sql Server。

Host Name:通过Ctrl+Alt+Space(空格),选择ksDatacenter_ksHostName(也可直接输入)。Database Name:${ksDatacenter_ksDatabaseName}。

Port Number:${ksDatacenter_ksPortNumber}。

User Name:${ksDatacenter_ksUserName}。

Password:${ksDatacenter_ksPassword}。

图6

表输出配置信息如下(图7):

数据库连接选为:datacenter_ks。

目标表选择:t_emop_wzxx。

Specify database fileds前面的勾打上。

图7

单击图7中的Database fileds选项卡,如图8,单击Enter filed mapping,在弹出框中单击“猜一猜”,会把相同的字段匹配上,单击“确定”。

图8

把左边菜单中的“脚本”下的“执行SQL脚本”拖到主界面中,并通过鼠标把“表输出”

与“执行SQL脚本”连接起来,如图9。

图9

“执行SQL脚本”的功能就是执行里面写sql语句,双击“执行SQL脚本”,配置如下信息

(图10):

数据库连接:ebcmks。

Sql面板中输入:update t_emop_wzxx set flag='1'where uuid='?'。

“执行每一行”前面的勾打上。

“变量替换”前面的勾打上。

参数中:选中UUID。

运行该转换文件,单击左上角的按钮启动,此时下面会显示执行结果信息,如图11。

图11

4.2.2.使用时间戳实现新增或修改数据。

如:传输前一天的数据。

单击菜单项的文件->新建->转换,创建一个转换文件;保存文件名为:XCJC路径为主目录下的resources\ks\transformations\XCJC.ktr;右键选择“转换设置”,把转换名字修改为:现场检查;如图12,“字段选择”在左边“转换”菜单下,“插入或更新”在左边“输出”菜

单下。

“表输入”配置信息,只查询前昨天的数据,如图13。

图13

“字段选择”的功能可以把前面的字段重命名,把与目标库不同的字段名,重命名为目标库

的字段名;其配置信息,如图14,

图14

“插入或更新”的功能是根据关键字找对应的记录,如果找不到则执行新增,否则执行更新,其配置信息,如图15,用来查询的关键字就是用来比较的字段,通过“获取和更新字段”按钮,来获取更新字段;更新字段就是更新目标表的字段,表字段:目标表的字段;流字段:前一步骤传过来的字段;Update:是否更新。

图15

4.2.3.使用时间比较实现新增或修改数据。

如:根据修改时间来判断数据是否需要传输,只有当源数据的修改时间大于目标数据的修改时间时就修改这些数据或源数据是新增数据时就新增这些数据到目标数据库。

单击菜单项的文件->新建->转换,创建一个转换文件;保存文件名为:WRYJBXX路径为主目录下的resources\ks\transformations\WRYJBXX.ktr;右键选择“转换设置”,把转换名字修改为:污染源基本信息;如图16。

“插入”:在左边“输入”菜单下。

“数据库查询”:在左边“查询”菜单下。

“过滤记录”:在左边“Flow”菜单下。

“空操作”:在左边“Flow”菜单下。

“插入或更新”:在左边“输出”菜单下。

图16

表输入配置信息,如图17。

图17

数据库查询就是把前一步骤的数据通过关键字与别的库中的记录进行比较,如图18,等价于下面查询语句括号里面的内容:

Select wrybh,wrymc,

(select wrybh from datacenter_ks.t_wry_jbxx where wrybh=wry.wrybh and xgsj>=wry.xgsj) as newwrybh

from t_wry_jbxx wry。

查询所需的关键字:与上边括号中where后边的查询条件相同。

查询表返回的值:与上边括号的值的别名相同。

图18

“过滤记录”就是对前面传过来的值进行判断,如图19。

当NEWWRYBH为空时执行插入/更新操作,否则执行空操作。

图19

“空操作(什么也不做)”表示一个提示信息,不执行任何操作。“插入或更新”如图20。

图20

4.2.4.使用对某一数据值比较实现新增或修改数据。

如:通过目标数据表的BH的最大值,作为源数据的比较值,来更新或修改数据。

单击菜单项的文件->新建->转换,创建一个转换文件;保存文件名为:GZLCSL路径为主目录下的resources\ks\transformations\GZLCSL.ktr;右键选择“转换设置”,把转换名字修改为:工作流程实例;如图21。

图21

获取编号最大值,配置信息如图22,查询的是目标数据库的信息。

图22

表输入,配置信息如图23。

Sql面板的语句为:“SELECT * FROM T_WORKFLOW_GZLCSL WHERE BH>?”。

替换Sql语句里的变量:前面的勾打上。

从步骤插入数据:选择获取编号最大值。

执行每一行:前面的勾打上。

图23 插入或更新,配置信息如图24。

图24

4.3.创建任务文件。

单击菜单项的文件->新建->作业,创建一个任务文件;保存文件名为:ebcmks路径为主目录下的resources\ks\jobs\ebcmks.kjb;右键选择“作业设置”,把Job名字修改为:昆山转换任务;配置如图25的信息。

Start:在左边“通用”菜单下。

Transformation,Transformation2,Transformation3,Transformation4:在左边“通用”菜单下。Success:在左边“通用”菜单下。

图25

Start配置信息如图26。

重复:前面的勾如果打上,表示任务会循环执行。

类型:任务执行方式。

Time of day:1.

表示每天凌晨1点执行。

图26

Transformation配置信息如图27。

Job名称修改为:轨迹信息,其中转换文件名的格式为:${KETTLE_HOME}\resources\项目名\transformations\转换文件;

如:${KETTLE_HOME}\resources\ks\transformations\WZXX.ktr。

Transformation2,Transformation3,Transformation4同理,

job名称,转换文件名分别设为:

Transformation2->job名称:现场检查,转换文件名称:

${KETTLE_HOME}\resources\ks\transformations\XCJC.ktr。

Transformation3->job名称:污染源基本信息,转换文件名称:

${KETTLE_HOME}\resources\ks\transformations\WRYJBXX.ktr。

Transformation4->job名称:工作流程实例,转换文件名称:

${KETTLE_HOME}\resources\ks\transformations\GZLCSL.ktr。

图27

执行结果如图28。

图28

4.4.命令行启动任务。

配置启动任务文件。

在resources\config目录下新建ebcmks.bat文件。

Kettle开发使用手册

Kettle开发使用手册2017年4月

版本历史说明

1.Kettle介绍 1.1.什么是Kettle Kettle是纯Java编写的、免费开源的ETL工具,主要用于抽取(Extraction)、转换(Transformation)、和装载(Loading)数据。Kettle中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。在这种思想的设计下,Kettle广泛用于不同数据库之间的数据抽取,例如Mysql数据库的数据传到Oracle,Oracle数据库的数据传到Greenplum数据库。1.2.Kettle的安装 Kettle工具是不需要安装的,直接网上下载解压就可以运行了。不过它依赖于Java,需要本地有JDK环境,如果是安装4.2或5.4版本,JDK需要1.5以上的版本,推荐1.6或1.7的JDK。 运行Kettle直接双击里面的批处理文件spoon.bat就行了,如图1.1所示: 图1.1

2.Kettle脚本开发 2.1.建立资源库(repository仓库) Repository仓库是用来存储所有kettle文件的文件系统,由于数据交换平台服务器管理kettle文件也是用Repository仓库,因此我们这边本地的kettle开发环境也是要用到该资源库。建立资源库的方式是工具 --> 资源库- -> 连接资源库,这时候弹出一个窗口,我们点击右上角的“+”号,跟着点击下面的kettle file repository选项,按确定,如图2.1所示: 图2.1 跟着在右上角选择一个目录,建议在kettle路径下新建repository文件夹,再选择这个文件夹作为根目录,名称和描述可以任意写,如图2.2所示: 图2.2 建完后会kettle工具会自动连接到repository资源库,每次打开kettle 也会弹出一个窗口让你先连接到资源库。在连接到资源库的情况下打开文件就是资源库所在目录了,如图2.3所示。注意你在资源库建的目录结构要跟数据交换平台的目录结构一致,这样写好kettle脚本,保存后放的路径能跟交换平台的目录结构一致了。

Kettle用户操作手册1

Kettle用户操作手册 1.kettle介绍 1.1 什么是kettle Kettle是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL 需要:抽取、转换、装入和加载数据;它的名字起源正如该项目的主程序员MATT所说:希望把各种数据放到一个壶里然后以一种指定的格式流出。 Spoon是一个图形用户界面,它允许你运行转换或者任务。 1.2 Kettle 的安装 要运行此工具你必须安装 Sun 公司的JAVA 运行环境1.4 或者更高版本,相关资源你可以到网络上搜索JDK 进行下载,Kettle 的下载可以到https://www.doczj.com/doc/3d9431299.html,/取得最新版本。 1.3运行SPOON 下面是在不同的平台上运行Spoon 所支持的脚本: Spoon.bat: 在windows 平台运行Spoon。 Spoon.sh: 在Linux、Apple OSX、Solaris 平台运行Spoon。1.4 资源库 一个Kettle资源库可以包含那些转换信息,这意味着为了从数据库资源中加载一个转换就必须连接相应的资源库。在启动SPOON的时候,可以在资源库中定义一个数据库连接,利用启动spoon时弹出的资源库对话框来定义,如图所示:单击加号便可新增;

关于资源库的信息存储在文件“reposityries.xml”中,它位于你的缺省home 目录的隐藏目录“.kettle”中。如果是windows 系统,这个路径就是c:\Documents andSettings\\.kettle。 如果你不想每次在Spoon 启动的时候都显示这个对话框,你可以在“编辑/选项”菜单下面禁用它。admin 用户的缺省密码也是admin。如果你创建了资源库,你可以在“资源库/编辑用户”菜单下面修改缺省密码。 1.5 定义 1.5.1 转换 主要用来完成数据的转换处理。转换步骤,可以理解为将一个或者多个不同的数据源组装成一条数据流水线。然后最终输出到某一个地方,文件或者数据库等。 Step:转换步骤,数据流中的处理步骤,对数据进行处理 Hop:节点连接,一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop 总是代表着一个步骤的输出流和一个步骤的输入流。

kettle操作文档

Kettle操作文档 1.Kettle介绍。 (2) 2. Kettle下载。 (2) 3.使用规范和注意事项。 (3) 3.1.配置数据库的全局变量。 (3) 3.2.文件命名规范(不要用汉字)。 (3) 3.3.文件存放位置。 (3) 3.4.配置启动任务文件。 (3) 3.5.注意事项。 (4) 4. Kettle部署使用。 (4) 4.1.启动kettle。 (4) 4.2.创建转换文件。 (5) 4.2.1.使用标识字段实现新增数据。 (5) 4.2.2.使用时间戳实现新增或修改数据。 (11) 4.2.3.使用时间比较实现新增或修改数据。 (14) 4.2.4.使用对某一数据值比较实现新增或修改数据。 (17) 4.3.创建任务文件。 (19) 4.4.命令行启动任务。 (20)

1.Kettle介绍。 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于政府部门来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。 Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定,提供了图形化界面,使用很方便。Kettle中有两种脚本文件,transformation和job,transformation 完成针对数据的基础转换,job则完成整个工作流的控制。 2.Kettle下载。 Kettle可以在http://2.2.2.240/bbs/网站下载kettle压缩包,因kettle为绿色软件,解压即可使用。这个压缩包,公司加了一些功能,跟官网下载的不太一样,建议使用公司论坛上的压缩包。 资料网站:https://www.doczj.com/doc/3d9431299.html,/。 注:解压路径尽量不要有中文。 .kettle:存放kettle的一些环境变量信息,资源库的信息。 jre6:存放java运行库文件(1.6版本)。 launcher:存放启动的文件以及启动的配置信息。 lib:存放kettle的库文件。 libext:存放用到的外部库文件。 libswt:存放用到的界面库文件。 plugins:存放插件文件。 resources:存放编写的转换和任务文件,以及日志和任务 配置信息。 ui:存放用到的的图片和配置信息。 Kitchen.bat:任务文件执行器(命令行模式)。 Pan.bat:转换文件执行器(命令行模式)。 set-pentaho-env.bat:设置kettle运行的环境变量。 Spoon.bat:打开设计工具(界面方式)。 Spoon.ico,spoon.png:工具的图标。 start.bat:启动存放在resources目录下的任务配置文件。 说明.txt:使用的规范和注意事项。

Kettle使用手册

Kettle培训手册 Etl介绍 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于金融IT来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。 Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 kettle部署运行 将kettle2.5.1文件夹拷贝到本地路径,例如D盘根目录。 双击运行kettle文件夹下的spoon.bat文件,出现kettle欢迎界面:

稍等几秒 选择没有资源库,打开kettle主界面

创建transformation,job 点击页面左上角的解并到本地路径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation 文件保存后后缀名为ktr 点击页面左上角的解并到本地路径,例如保存到D:/etltest下,保存文件名为EtltestJob,kettle默认job文件保存后后缀名为kjb 创建数据库连接

在transformation页面下,点击左边的【Main Tree】,双击【DB连接】,进行数据库连接配置。 Connection name自命名连接名称 Connection type选择需要连接的数据库 Method of access选择连接类型 Server host name写入数据库服务器的ip地址 Database name写入数据库名 Port number写入端口号 Username写入用户名 Password写入密码 例如如下配置:

ETL工具Kettle用户手册

技术资料,【Kette3.0 用户手册】
Kettle 3.0 用户手册
目录
Kettle 3.0 用户手册......................................................................................................................1
Kettle 3.0 用户手册......................................................................................................................6
1. Kettle 介绍................................................................................................................................6
1.1
什么是 kettle.............................................................................................................6
1.2
Kettle 的安装............................................................................................................6
1.3
运行 Spoon ...............................................................................................................6
1.4
资源库 ....................................................................................................................... 6
1.5
资源库自动登录 ....................................................................................................... 7
1.6
定义 ........................................................................................................................... 8
1.6.1 转换...................................................................................................................8
1.6.2 任务...................................................................................................................8
1.7
选项 ........................................................................................................................... 9
1.7.1 General 标签 ...................................................................................................10
1.7.2 Look Feel 标签 ...............................................................................................11
1.8
搜索元数据 ............................................................................................................. 12
1.9
设置环境变量 ......................................................................................................... 13
2. 创建一个转换或任务.............................................................................................................13
3. 数据库连接(Database Connections) ......................................................................................14
3.1
描述 ......................................................................................................................... 14
3.2
设置窗口 ................................................................................................................. 14
3.3
选项 ......................................................................................................................... 14
3.4
数据库用法 ............................................................................................................. 15
4. SQL 编辑器(SQL Editor) .......................................................................................................16
4.1
描述 ......................................................................................................................... 16
4.2
屏幕截图 ................................................................................................................. 16
4.3
局限性 ..................................................................................................................... 16
5. 数据库浏览器(Database Explorer) ........................................................................................17
5.1
屏幕截图 ................................................................................................................. 17
5.2
描述 ......................................................................................................................... 17
6. 节点连接(Hops) ................................................................................................................18
6.1
描述 ......................................................................................................................... 18
6.2
转换连接 ................................................................................................................. 18
6.3
任务连接 ................................................................................................................. 18
6.4
屏幕截图 ................................................................................................................. 18
6.5
创建一个连接 ......................................................................................................... 19
6.6
拆分一个连接 ......................................................................................................... 19
6.7
转换连接颜色 ......................................................................................................... 19
7. 变量(Variables)..................................................................................................................20
?深圳市神盾信息技术有限公司,2008
第 1 页/共 202 页

kettle文档

Kette 1 (2) 1.1 (2) 1.2 (3) 2 (3) 2.1 (3) 2.2) (4) 3 (5) 3. 1"Merge" (5) 3.2Sorted Merge (5) 3.3 (7) 3.4) (9) 4 (10) 4.1)split field to rows (10) 4.2) (11) 4.3 (12) 4.4 (12) 4.5 (13) 4.6) (14) 4.7 (14) 4.8 (15) 4.9) (16) 4.10) (17) 4.11)number range (18) 5flow (20) 5.1)switch/case (20)

5.2) (21) 6statistics (22) 6.1) (22) 7Uitlity (23) 7.1)If field value is null (23) 7.2)Null if... .. (25) 8 (26) 8.1)Check if a column exists (26) 8.2File exists (27) 8.3)Table exists (28) 8.4 (29) 8.5 (31) 8.6 (32) 9 (34) 9.1) Modified Java Script Value (34) 9.2)SQL (35) 9.3)Regex Evaluation (36) 1 11

"""1" """" "" 1.2 "" "sql" 2 2.1 "" """"

"""" 2.2) ""kettle "" "" "" "Specify datebase fileds" "Datebase fileds""enter filed mapping" add

kettle公司内部培训手册.doc

Kettle 培训手册 一、Etl 介绍 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于金融IT 来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。 Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高 效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针 对数据的基础转换,job则完成整个工作流的控制。 二、kettle 部署运行 将kettle2.5.1文件夹拷贝到本地路径,例如D 盘根目录。 双击运行kettle文件夹下的spoon.bat文件,出现kettle欢迎界面: 稍等几秒

选择没有资源库,打开kettle主界面 创建transformation,job

点击页面左上角的创建一个新的transformation,点击保存到本地路 径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation 文件保存后后缀名为ktr 点击页面左上角的创建一个新的job,点击保存到本地路径,例如保 存到D:/etltest下,保存文件名为EtltestJob,kettle默认job文件保存后后缀名为kjb 创建数据库连接 在transformation页面下,点击左边的【Main Tree】,双击【DB连接】,进行 数据库连接配置。 connection name自命名连接名称 Connection type选择需要连接的数据库 Method of access选择连接类型 Server host name写入数据库服务器的ip地址 Database name写入数据库名 Port number写入端口号 Username写入用户名 Password写入密码 例如如下配置:

kettle使用手册

1打开程序,点击 spoon.bat 其实对于简单的数据库数据的抽取,基本只需要转换(.ktr格式)和作业(.kjb格式)这两种东西。下面就是建立一个转换的步骤: a 点击文件-->新建-->转换。 b 在左侧的树状列表中选“主对象树”,新建DB连接(参照第4点)。 c 在核心对象-->输入这个地方拖出一个表输入,在“输出”目录下拖出“表输出”,按住shift,从一个对象拖到另一个对象可进行连线。 2基本作业由开始,转换,成功3步骤组成。步骤之间使用shift+左键连线。 2.1‘1’代表无条件执行; 2.2‘2’代表上一步执行完成后,再执行下一步; 2.3‘3’代表不执行,左击连接线使其生效(绿色)或失效(灰色)。

3打开具体步骤中的转换流程,点击‘Transformation’跳转至相应具体转换流程, 编辑此转换具体路径,双击转换,弹出窗口,‘1’为相对路径,点击‘2’选择具体Visit.ktr 转换,为绝对路径。

4建立数据库连接,输入相应信息测试,成功即可 图4 5转换具体设置,如图4,‘表输出’至‘文本文件输出’流程跳接线为错误处理步骤,当输出格式不能满足表输出的目的表结构类型时,将会将记录输出到‘文本文件输出’

中的记录中。 5.1双击‘表输入’,输入相应的SSQL语句,选择配置数据库连接,或新增,预览查询 生成的结果(如果数据库配置中使用变量获取,此处预览生成错误)。 5.2双击‘表输出’,选择数据库连接,‘浏览’选择相应目标表,(此处‘使用批量插 入’勾选去除,目的是在错误处理步骤中无法使用批量处理,可能是插件兼容问 题) 6表输出插件定义 a) Target Schema:目标模式。要写数据的表的Schema的名称。允许表明中包含“。”对数据源来 说是很重要的 b) 目标表:要写数据的表名。

java程序执行kettle的ktr(转换)文件

官网资料修改 java程序执行kettle的ktr(转换)文件 2009-11-16 20:03 /** * */ package com.hshz.xutil.kettle; import org.pentaho.di.core.exception.KettleException; import org.pentaho.di.core.util.EnvUtil; import org.pentaho.di.trans.StepLoader; import org.pentaho.di.trans.Trans; import org.pentaho.di.trans.TransMeta; /** * @author Administrator * */ public class KTRRun { /** * */ public KTRRun() { // TODO Auto-generated constructor stub } /** * @param args */ public boolean runTransformation(String filePathName) { try { StepLoader.init(); EnvUtil.environmentInit(); TransMeta transMeta = new TransMeta(filePathName); Trans trans = new Trans(transMeta); trans.execute(null); trans.waitUntilFinished(); if ( trans.getErrors() > 0 ) { throw new RuntimeException( "There were errors during transformation execution." ); } return true;

kettle工具使用文档

目录 1. Kettle工具的组成 (2) 2. kettle工具的运行 (2) 3. 资源库的设置 (3) 4. 转换的创建与使用 (8) 4.1 创建一个新的装换 (8) 4.2 DataGird (9) 4.3 Write to log控件 (10) 4.4 表输入控件 (13) 4.5 字段选择控件 (14) 4.6 表输出控件 (15) 4.7 插入/更新控件 (17) 4.8 转换中变量的设置 (18) 4.9变量的使用 (19) 4.10 步骤的错误处理 (19) 4.11 flow控件的使用 (20) 4.11.1 Switch/Case控件 (20) 4.11.2 Blocking Step控件 (21) 4.11.3 Indentify last row in a stream控件 (22) 4.11.4 过滤记录控件 (23) 4.11.5 空操作控件 (23) 4.11.6 Abort控件 (24) 5. 作业(job)的创建及使用 (24) 5.1 创建一个新的作业 (24) 5.2 START控件 (25) 5.3 Success控件 (25) 5.4 Transformation控件 (25) 5.5 变量设置 (26) 5.6 Js脚本使用 (27) 5.7 空操作控件 (27)

1.Kettle工具的组成 Kettle主要由资源库、数据库、作业(job)、转换、步骤五部分组成,资源库是用来存储用户所编写的作业和转换(即kjb文件和ktr文件),一般是在数据库中存储,方便用户的查找和使用。数据库就是处理数据是需要的数据库。作业是用来确定一个工程中需要使用的转换和转换的执行顺序。转换是数据在ktr文件中的具体转换过程,类似于Java的一个方法,而作业就类似于java的一个类,它可以调用各种不同的方法(转换)。 步骤是kettle最小的执行单位。 2.kettle工具的运行 1)在电脑中安装jdk并配置java运行环境(jdk版本建议是1.6或以上版本) 2)Kettle工具的下载:可以在https://www.doczj.com/doc/3d9431299.html,中下载最新的版本,此文档所 使用的是kettel-4.1.0的版本 3)Kettle工具的运行: 在Windows系统下运行,只需要解压kettle文件后,双击data-integration文件夹中的Spoon.bat文件

kettle培训手册

Kettle简介: Kettle是使用Java语言开发的一个开源ETL工具(Extract--Transform--Loading),完成数据的抽取、转换、加载工作。Kettle的意思是“水壶”,把各种各样的数据倒进水壶中,经过转换、处理,以我们所需的格式输出对我们有价值的信息。 问题:为什么要用kettle? 需求:不同的数据库(同一种类型但实例不同的数据库,或者不同类型的数据库)之间、不同的数据存储形式(数据库、文本文件)之间需要协同工作,计算、处理、转换成我们需要的数据。 实际应用场景:对帐系统需要读取ATM的交易流水文件到Oracle数据库中并进行统计。不使用kettle的情况:专门编写程序(Java或C)导入到数据库中,在Oracle中编写存储过程进行批量统计。 使用kettle的情况:通过“文本文件输入”step,指定分隔符,即可完成导入,无需编写程序;使用kettle中的各种对象可以完成统计功能,不需要编写存储过程。 两种情况对比: 情况一:需要编写专门的导入程序,不具备通用性。存储过程在不同类型的数据库中语法不同,也不具备通用性。但不需要掌握kettle。 情况二:不需要编写专门的导入程序,不同的文件格式只需要修改“文本文件输入”step中的对应参数即可。不需要针对不同的数据库编写不同版本的存储过程,只需要使用标准SQL 就可以具备通用性。需要掌握kettle。 好处:跨数据库、跨平台,减少我们的工作量。 Kettle中有两种类型的对象,分别对应两种类型的文件。一种是Transformation(以后简称Trans),即转换;一种是Job,即工作。Trans完成具体的任务,Job用于控制转换之间的执行顺序。

ETL工具KETTLE实例手册

如有你有帮助,请购买下载,谢谢! KETTLE SPOON使用手册 融汇兴业开发部高健2010年12月 MSN: 1.到官方网站下载 2.配置JA V A环境,解压下载包到英文路径下。如:D:\pdi-ce- 3.文档说明:本文只介绍基本的同步和定时JOB,其他高级操作请自行拓展。 4.工作区介绍: 运行安装目录下Spoon.bat欢迎界面: 欢迎界面后进入工作平台,一般应用中使用转换和JOB即可。 双击转换即新建转换作用。 通过主对象树可以配置所要用到的数据库连接。 配置好后点击核心对象。 下图是JOB用到的基本元素。 5.建立转换 选中列表中的的“表输入”、“表输出”、“插入/更新”,拖拽到右侧工作区。鼠标选中节点键盘按shift键,拖拽即可连线。下图是一个转换,有两个动作,一是直接从数据源表同步数据到目标表,一是检查源表的插入和更新,同步到目标表。 黑色线为生效,灰色线为失效,节点和连接可双击进行编辑。 可预览数据是否正确。 双击编辑输出动作。 点击“Enter field mapping”进行字段选择。 选择要用的字段后点确定,注意字段的约束条件。 说明:现输入和输出表为不同库的两个同构数据表,ID为主键。 编辑好后点击上面的执行即可。 左侧参数暂不说明,执行完成后可以观看下方的日志。 双击编辑“插入/更新”动作。 然后点击运行。 执行前,在源库里加条新纪录。确定作业执行正常后可以保存作业,如保存路径到本地磁盘地址C:\Documents and Settings\w_gaoj\My Documents\etl2.ktr。 6.建立定时执行的JOB 建立JOB的前提是有可以完整执行的作业,上面步骤定制的作业进行保存。 从左侧列表拖拽“START”,“Success”,“Transformation”到工作区并连接,如下图。 然后双击“START”动作进行编辑。 然后双击编辑“Transformation”活动。 编辑完成后直接点击运行即可。 运行后查看日志。 当任务执行以后可以查看相对应的日志,也可自行配置日志。 多次执行的记录结果。 可以返回工作区,查看相应的资源,如下图。 1页

ETL工具Kettle用户手册及Kettle5.x使用步骤带案例超详细版教学文稿

E T L工具K e t t l e用户手册及K e t t l e5.x 使用步骤带案例超详 细版

ETL工具Kettle用户手册 之 Spoon 2.5.0用户手册 ETL工具Kettle用户手册 (2) 之 (2) Spoon 2.5.0用户手册 (2) 1、Spoon介绍 (21) 1、1什么是Spoon (21) 1、2安装 (22) 1、3运行Spoon (22) 1、4资源库 (22) 1、5资源库自动登录 (23) 1、6定义 (23) 1、6、1转换 (23) 1、6、2任务 (24) 1、7工具栏 (25) 1、8选项 (25) 1、8、1 General标签 (26) 1、8、2 Look Feel标签 (27) 1、9搜索元数据 (28) 1、10设置环境变量 (29) 2、创建一个转换或任务(Creating a Transformation or Job) (29) 3、数据库连接(Database Connections) (30) 3、1描述 (30) 3、2 设置窗口 (31) 3、3选项 (31) 3、4数据库用法 (31) 4、SQL编辑器(SQL Editor) (32) 4、1描述 (32) 4、2屏幕截图 (33) 4、3局限性 (33) 5、数据库浏览器(Database Explorer) (33) 5、1屏幕截图 (33) 5、2描述 (34)

6、节点连接(Hops) (35) 6、1描述 (35) 6、1、1转换连接 (35) 6、1、2任务连接 (35) 6、2屏幕截图 (35) 6、3创建一个连接 (36) 6、4拆分一个连接 (36) 6、5转换连接颜色 (36) 7、变量(Variables) (37) 7、1变量使用 (37) 7、2变量范围 (37) 7、2、1环境变量 (37) 7、2、2 Kettle变量 (38) 7、2、3内部变量 (38) 8、转换设置(Transformation Settings) (38) 8、1描述 (38) 8、2屏幕截图 (39) 8、3选项 (42) 8、4其它 (43) 9、转换步骤(Transformation steps) (43) 9、1描述 (43) 9、2运行步骤的多个副本 (44) 9、3分发或者复制 (45) 9、4常用错误处理 (46) 9、5Apache虚拟文件系统(VFS)支持 (47) 9、6转换步骤类型 (49) 9、6、1文本文件输入(Text Input) (49) 9、6、1、1屏幕截图 (49) 9、6、1、2图标 (51) 9、6、1、3常用描述 (52) 9、6、1、4选项 (52) 9、6、1、5格式化 (58) 9、6、1、6其它 (60) 9、6、2表输入(Table Input) (61) 9、6、2、1屏幕截图 (61) 9、6、2、2图标 (61) 9、6、2、3常用描述 (61) 9、6、2、4选项 (62) 9、6、2、5示例 (62) 9、6、2、6其它 (63) 9、6、3获取系统信息(Get System Info) (64) 9、6、3、1屏幕截图 (64) 9、6、3、2图标 (65) 9、6、3、3常用描述 (65)

ELT平台操作手册-KETTLE

智能数据比对系统ELT平台操作手册 【用户手册】 广州市灵讯通信科技有限公司 2011-01-7

目录 第1章系统介绍 (2) 1.1系统简介 (2) 第2章系统管理 (2) 2.1基本概念 (2) 2.2主界面介绍 (2) 2.3基本功能 (2) 第3章转换步骤 (2) 3.1文本文件输入 (2) 3.2表输入 (2) 3.3EXCEL输入 (2) 3.4CSV文件输入 (2) 3.5文本文件输出 (2) 3.6表输出 (2) 3.7EXCEL输出 (2) 3.8插入/更新 (2) 3.9更新 (2) 3.10删除 (2) 3.11调用DB存储过程 (2) 3.12S WITCH分支 (2) 3.13修改J AVA S CRIPT的值 (2) 3.14值映射 (2) 3.15列转行 (2) 3.16去除重复记录 (2) 3.17去除重复记录(哈希集合) (2) 3.18增加常量 (2) 3.19增加序列 (2) 3.20字段选择 (2) 3.21字符串裁剪 (2) 3.22封锁步骤 (2) 3.23执行SQL脚本 (2) 3.24执行SQL脚本行 (2) 3.25拆分字段 (2) 3.26排序记录 (2) 3.27数据库查询 (2) 3.28数据库连接 (2) 3.29替换字符串 (2) 3.30空操作 (2) 3.31行扁平化 (2) 3.32行标准化 (2) 3.33计算器 (2) 3.34过滤记录 (2) 3.35追加流 (2) 3.36从结果中获取文件 (2) 3.37把文件设置到结果中 (2)

3.39获取系统信息 (2) 3.40设置变量 (2) 第4章作业步骤 (2) 4.1S TART(开始) (2) 4.2DUMMY (2) 4.3转换 (2) 4.4采集作业 (2) 4.5S HELL (2) 4.6SQL (2) 4.7发邮件 (2) 4.8收邮件 (2) 4.9消息对话框 (2) 4.10FTP (2) 4.11HTTP (2) 4.12SSH2上传 (2) 4.13SSH2获取 (2) 4.14Z IP 文件 (2) 4.15上传文件到FTP (2) 4.16从FTP下载文件 (2) 4.17使用加密的FTP上传 (2) 4.18写到文件 (2) 4.19创建一个文件夹 (2) 4.20创建文件 (2) 4.21删除FTP文件 (2) 4.22删除多个文件 (2) 4.23删除文件 (2) 4.24删除文件夹 (2) 4.25在结果中删除文件名 (2) 4.26复制或移动结果文件 (2) 4.27复制文件 (2) 4.28安全的FTP (2) 4.29文件比较 (2) 4.30比较文件夹 (2) 4.31添加文件名到结果 (2) 4.32移动文件 (2) 4.33等待文件 (2) 4.34解压ZIP文件 (2) 4.35列在表中存在 (2) 4.36判断文件夹是否为空 (2) 4.37判断文件是否存在 (2) 4.38判断文件的指标 (2) 4.39判断是否有文件被锁定 (2) 4.40判断表中的行数 (2) 4.41文件存在 (2) 4.42检查W EB S ERVICE的可用性 (2) 4.43检查数据库连接 (2)

ETL工具Kettle用户手册及Kettle5.x使用步骤带案例超详细版

ETL工具Kettle用户手册 之 Spoon 2.5.0用户手册 Spoon 2.5.0用户手册 (1) 1、Spoon介绍 (14) 1、1 什么是Spoon (14) 1、2 安装 (14) 1、3 运行Spoon (14) 1、4 资源库 (14) 1、5 资源库自动登录 (15) 1、6 定义 (15) 1、6、1 转换 (15) 1、6、2 任务 (16) 1、7 工具栏 (17) 1、8 选项 (17) 1、8、1 General标签 (18) 1、8、2 Look Feel标签 (19) 1、9 搜索元数据 (19) 1、10设置环境变量 (20) 2、创建一个转换或任务(Creating a Transformation or Job) (21) 3、数据库连接(Database Connections) (21) 3、1 描述 (21) 3、2 设置窗口 (22) 3、3 选项 (22) 3、4 数据库用法 (22) 4、SQL编辑器(SQL Editor) (23) 4、1 描述 (23) 4、2 屏幕截图 (23) 4、3 局限性 (24) 5、数据库浏览器(Database Explorer) (24) 5、1 屏幕截图 (24) 5、2 描述 (24) 6、节点连接(Hops) (25) 6、1 描述 (25) 6、1、1 转换连接 (25)

6、2 屏幕截图 (25) 6、3 创建一个连接 (26) 6、4 拆分一个连接 (26) 6、5 转换连接颜色 (26) 7、变量(Variables) (27) 7、1 变量使用 (27) 7、2 变量范围 (27) 7、2、1 环境变量 (27) 7、2、2 Kettle变量 (27) 7、2、3 内部变量 (27) 8、转换设置(Transformation Settings) (28) 8、1 描述 (28) 8、2 屏幕截图 (29) 8、3 选项 (32) 8、4 其它 (33) 9、转换步骤(Transformation steps) (33) 9、1 描述 (33) 9、2 运行步骤的多个副本 (33) 9、3 分发或者复制 (35) 9、4 常用错误处理 (35) 9、5 Apache虚拟文件系统(VFS)支持 (37) 9、6 转换步骤类型 (39) 9、6、1 文本文件输入(Text Input) (39) 9、6、1、1 屏幕截图 (39) 9、6、1、2 图标 (41) 9、6、1、3 常用描述 (42) 9、6、1、4 选项 (42) 9、6、1、5 格式化 (47) 9、6、1、6 其它 (48) 9、6、2 表输入(Table Input) (49) 9、6、2、1 屏幕截图 (49) 9、6、2、2 图标 (49) 9、6、2、3 常用描述 (49) 9、6、2、4 选项 (50) 9、6、2、5 示例 (50) 9、6、2、6 其它 (51) 9、6、3 获取系统信息(Get System Info) (51) 9、6、3、1 屏幕截图 (51) 9、6、3、2 图标 (52) 9、6、3、3 常用描述 (52) 9、6、3、4 选项 (53) 9、6、3、5 用法 (53) 9、6、4 生成行(Generate Rows) (54)

相关主题
文本预览
相关文档 最新文档