当前位置:文档之家› ETL手册_0107

ETL手册_0107

ETL手册_0107
ETL手册_0107

金蝶ETL手册

目录

金蝶ETL手册 (1)

目录 (2)

1.kettle原理结构图 (3)

2.kettle的物理环境 (3)

2.1.kettle 的安装和部署 (3)

2.2.kettle的运行 (3)

3.kettle基本使用样例 (5)

3.1.kettle创建转换或作业 (5)

3.2.kettle转换或作业的导入(没有资源库) (6)

3.3.kettle转换的菜单介绍 (6)

3.4.kettle作业的菜单介绍 (8)

3.5.kettle 创建数据库连接 (9)

3.6.转换(Transformation)简单示例 (11)

3.7.作业(JOB)简单示例 (16)

3.8.kettle 资源库的创建 (20)

3.9.kettle 资源库登录 (23)

3.10.kettle 资源库目录创建及使用 (24)

3.11.kettle转换或作业的导入(登录资源库后) (27)

3.12.kettle 资源库中作业调用转换或作业 (27)

3.13.转换(Transformation)增量设计 (33)

3.13.1.增量抽取(时间戳)方案设计 (33)

3.13.2.增量抽取(时间戳)实现方法及业务场景 (33)

4.kettle调试和测试 (37)

5.kettle定时功能及日志 (37)

6.kettle性能及效率提升 (39)

7.kettle项目总结经验 (40)

1.kettle原理结构图

2.kettle的物理环境

2.1.kettle 的安装和部署

1.要运行此工具,必须按照Sun公司的JAVA运行环境1.4或者更高版本,Kettle的下载可以

在https://www.doczj.com/doc/f115845367.html,/网站下载。

2.因Kettle是绿色软件,只需把Kettle文件夹拷贝到本地路径,例如D 盘根目录。

3.设置JAVA_HOME 环境变量,右键点击“我的电脑--- > 属性”,选择“高级”选项卡,

点击“环境变量”,在系统变量中,点击“新建”,输入:

变量名:JAVA_HOME

变量值:JDK更目录的路径

2.2.kettle的运行

1.下面是在不同平台上运行spoon所支持的脚本:

i.Spoon.bat 是在windows 平台运行;

ii.Spoon.sh 是在Linux、Apple OSX、Solaris 平台运行。

2.进入到Kettle目录,双击运行spoon.bat 文件,出现【图-01】

【图-01】

稍等几秒后,出现【图-02】

【图-02】

选择【没有资源库】,打开Kettle 主界面。虽然Kettle提供了资源库的方式来整合所有工作,但是因为资源库移植不方便,所以选择【没有资源库】。

3.kettle基本使用样例

3.1.kettle创建转换或作业

a)点击页面左上角的【文件】-- > 【新建】-- >【转换】,创建一个新的转换,点击【保

存】到本地路径,例如保存到D:/ETLTEST目录下,保存文件为TestTrans,Kettle默认转换文件保存后后缀名为ktr,参考【图-03】。

【图-03】

b)点击页面左上角的【文件】-- >【新建】-- > 【作业】,创建一个新的作业,点击【保

存】到本地路径,例如保存到D:/ETLTEST目录下,保存文件为TestJob,Kettle默认作业文件保存后后缀名为kjb,参考【图-04】。

【图-04】

3.2.k ettle转换或作业的导入(没有资源库)

找到【文件】菜单,选择【从XML文件导入】,找到转换或作业存放的路径,选择需要导入的文件。

3.3.k ettle转换的菜单介绍

1.转换的菜单分为:【主对象树】和【核心对象树】。

1)【主对象树】列出的是转换的基本属性,可以通过各个节点来查看,参考【图-05】。

【图-05】

DB连接:显示当前转换中的数据库连接,每一个转换的数据库连接都需要单独配置。

DB连接有以下选项:

Connection name:定义转换或者任务访问的连接的唯一名称,可以自行设置;

Connection type:连接的数据类型;

Access:可以是Native(JDBC),ODBC,JNDI,一般选择JDBC;

host name:指定数据库部署的主机或者服务器的名称,也可以指定IP地址

database name:指定连接的数据库的名称;

port number:设定数据库监听的TCP/IP端口号;

user name:指定连接数据库的用户名;

passord:指定连接数据库的密码;

Steps(步骤):一个转换中应用到的环节列表。

Hops(节点连接):一个转换中应用到的节点连接列表。

2)【核心对象树】列出的是转换中可以调用的环节列表。每个环节可以通过鼠标拖动来

将环节添加到主窗口中;并可以通过“shift+鼠标拖动”,实现环节之间的连接,参考【图-06】

【图-06】

3.4.k ettle作业的菜单介绍

作业的菜单分为:【主对象树】和【核心对象树】。

【主对象树】列出的是作业的基本属性,可以通过各个节点来查看,参考【图-07】

【图-07】

DB连接:显示当前作业中的数据库连接,配置和转换中的DB链接配置一样。

作业项目:作业调用的流程。

【核心对象树】列出的是调用流程的节点,主要用到的是【通用】中的【START】、【Job】和【Transformation】,参考【图-08】

【图-08】

3.5.k ettle 创建数据库连接

新建的一个转换,在这个转换页面下,点击左侧的【主对象树】,点击【转换名称】,右键点击【DB连接】,选择【新建】,选择或输入下面列出的选项:

Connection name:定义转换或者任务访问的连接的唯一名称,可以自行设置;

Connection type:连接的数据类型;

Access:可以是Native(JDBC),ODBC,JNDI,一般选择JDBC;

host name:指定数据库部署的主机或者服务器的名称,也可以指定IP地址

database name:指定连接的数据库的名称;

port number:设定数据库监听的TCP/IP端口号;

user name:指定连接数据库的用户名;

passord:指定连接数据库的密码;

按照上面的步骤,分别新建一个源库Source,目标库Target,参考【图-09】,【图-10】

【图-09】

【图-10】

3.6.转换(Transformation)简单示例

现在要从源库中的城市表(T_BD_CITY)抽取数据到目标表(T_FI_CITY_DIM)。

操作步骤:

创建一个转换,点击页面左上角的【文件】-- > 【新建】-- > 【转换】,参考“4. Kettle创建转换或作业”;

在新建的这个转换页面下,点击左侧的【核心对象树】,点击【输入】,选中【表输入】,拖动到主窗口释放鼠标,就可以看到【图-11】的节点。

双击【表输入】图标,步骤名称可以自定义;

数据库连接选择前面建好的名称为Source的连接;

在主窗口中写入对应的查询语句,点击“确定”完成这个节点的操作,参考【图-12】

【图-12】

点击左侧的【核心对象树】,点击【转换】,选中【字段选择】,拖动到主窗口释放鼠标,就可以看到【图-13】的节点

【图-13】

按住shift 键,从“城市”节点开始,拖动鼠标到“字段选择”节点后,释放鼠标,这样就

可以把这两个节点连接起来,参考【图-14】

【图-14】

点击左侧的【核心对象树】,点击【输出】,选中【表输出】,拖动到主窗口释放鼠标,就可以看到【图-15】的节点

【图-15】

按住shift 键,从“字段选择”节点开始,拖动鼠标到“表输出”节点后,释放鼠标,这样就可以把这两个节点连接起来,参考【图-16】

【图-16】

双击【表输出】图标,步骤名称可以自定义;

数据库连接选择前面建好的名称为Target的连接;

目标表选择浏览,找到要输出到的目标表名称“T_FI_CITY_DIM”,点击确定完成,参考【图-17】

【图-17】

双击【字段选择】图标,步骤名称可以自定义;

点击“获取选择的字段”,会自动列出获取到的表T_BD_CITY的字段,参考【图-18】

【图-18】

点击“列映射”,Source fields 是Source库中的T_BD_CITY表的字段,Target fields 是Target库中的T_FI_CITY_DIM 表的字段,Mapping 是这两个表字段的映射,需要映射的字段类型必须一致,点击确定完成,参考【图-19】。

【图-19】

映射成功后,将会看到【图-20】,点击确定完成字段选择这个节点的操作,参考【图-20】

【图-20】

点击按钮,保存转换。

点击按钮,将会看见【图-21】,点击启动完成操作,参考【图-21】

【图-21】

如果转换执行成功,在执行结果中的“Step Metrics”中的“激活”列中会看见“已完成”的字样,参考【图-22】。

【图-22】

3.7.作业(JOB)简单示例

使用作业(JOB)的目的是为了将所有的转换(Transformation)可以放在同一个作业(JOB)里调用执行。

创建一个作业,点击页面左上角的“文件-- > 新建-- > 作业”,参考“4. Kettle创建转换或作业”;

在新建的这个作业页面下,点击左侧的【核心对象树】,点击【通用】,选中【START】,拖动到

主窗口释放鼠标,就可以看到【图-23】的节点。

在新建的这个作业页面下,点击左侧的【核心对象树】,点击【通用】,选中【Transformation】,

拖动到主窗口释放鼠标,就可以看到【图-24】的节点。

【图-24】

双击【Transformation 1】图标,双击转换文件名后面的图标,选择要调用的转换,参考【图

-25】。

【图-25】

【图-25】中的转换文件是一个绝对路径,我们需要把它改成相对路径,为了方便移植,就需要

把“file:///D:/ETLTEST”改成“${Internal.Job.Filename.Directory}”,参考【图-26】

【图-26】

点击确定完成转换节点的操作。

按住shift 键,从“开始”节点开始,拖动鼠标到“TestTrans”节点后,释放鼠标,这样就

可以把这两个节点连接起来,参考【图-27】

【图-27】

点击按钮,保存转换。

点击按钮,将会看见【图-28】,点击Launch 按钮完成操作。

【图-28】

执行完成后,在执行结果中的“Job Metrics”中的“结果”列,可以看到执行是否成功,参考【图-29】

【图-29】

这样就完成了在作业里面调用转换的操作,也可以在同一个作业里面调用多个转换;在作业里面也可以调用多个作业(作业里面再调用作业),如【图-30】

【图-30】3.8.kettle 资源库的创建

创建kettle资源库的前提:必须要新建一个存放ETL的数据库。

Kettte 资源库默认的登录用户名和密码都是admin。

1.Kettle资源库的创建,可以在运行Kettle时进行创建,【图-31】是Kettle运行时的界面

【图-31】

2.点击红色方框标记的新建按钮,将会出现【图-32】

【图-32】

3.点击红色方框标记的新建按钮,将会出现【图-33】,这个界面就是创建数据库连接的界

面,在前面已经讲过,不熟悉的话,可以参考“7. Kettle 创建数据库连接”。

相关主题
文本预览
相关文档 最新文档