Kettle公司培训手册范本

格式：doc
大小：647.00 KB
文档页数：20

下载文档原格式

Kettle用户操作手册1

Kettle用户操作手册1.kettle介绍1.1 什么是kettleKettle是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写，这意味着它被设计用来帮助你实现你的ETTL 需要：抽取、转换、装入和加载数据；它的名字起源正如该项目的主程序员MATT所说：希望把各种数据放到一个壶里然后以一种指定的格式流出。

Spoon是一个图形用户界面，它允许你运行转换或者任务。

1.2 Kettle 的安装要运行此工具你必须安装 Sun 公司的JAVA 运行环境1.4 或者更高版本，相关资源你可以到网络上搜索JDK 进行下载，Kettle 的下载可以到/取得最新版本。

1.3运行SPOON下面是在不同的平台上运行Spoon 所支持的脚本：Spoon.bat: 在windows 平台运行Spoon。

Spoon.sh: 在Linux、Apple OSX、Solaris 平台运行Spoon。

1.4 资源库一个Kettle资源库可以包含那些转换信息，这意味着为了从数据库资源中加载一个转换就必须连接相应的资源库。

在启动SPOON的时候，可以在资源库中定义一个数据库连接，利用启动spoon时弹出的资源库对话框来定义，如图所示：单击加号便可新增；关于资源库的信息存储在文件“reposityries.xml”中，它位于你的缺省home 目录的隐藏目录“.kettle”中。

如果是windows 系统，这个路径就是c:\Documents andSettings\<username>\.kettle。

如果你不想每次在Spoon 启动的时候都显示这个对话框，你可以在“编辑/选项”菜单下面禁用它。

admin 用户的缺省密码也是admin。

如果你创建了资源库，你可以在“资源库/编辑用户”菜单下面修改缺省密码。

1.5 定义1.5.1 转换主要用来完成数据的转换处理。

转换步骤，可以理解为将一个或者多个不同的数据源组装成一条数据流水线。

kettle使用手册

kettle使用手册Kettle使用手册一、Kettle简介1.1 Kettle概述Kettle（也被称为Pentaho Data Integration）是一款开源的ETL（Extract, Transform, Load）工具，它能够从各种数据源中提取数据，并进行各种转换和加工，最后将数据加载到指定的目的地中。

Kettle具有强大的数据处理功能和友好的图形化界面，使得数据集成和转换变得简单而高效。

1.2 功能特点- 数据抽取：从多种数据源中提取数据，包括关系型数据库、文件、Web服务等。

- 数据转换：支持多种数据转换操作，如字段映射、类型转换、数据清洗等。

- 数据加载：将转换后的数据加载到不同的目的地，如数据库表、文件、Web服务等。

- 调度管理：支持定时调度和监控，可自动执行数据集成任务。

二、安装与配置2.1 系统要求在安装Kettle之前，请确保满足以下系统要求： - 操作系统：Windows、Linux、Unix等。

- Java版本：JDK 1.8及以上。

- 内存：建议至少4GB的可用内存。

2.2 安装Kettle最新版本的Kettle安装包，并按照安装向导进行安装。

根据系统要求和个人需求进行相应的配置选项，完成安装过程。

2.3 配置Kettle在安装完成后，需要进行一些配置以确保Kettle正常运行。

具体配置步骤如下：- 打开Kettle安装目录下的kettle.properties文件。

- 根据实际需要修改配置项，如数据库连接、日志路径、内存分配等。

- 保存修改并重启Kettle。

三、Kettle基础操作3.1 数据抽取3.1.1 创建数据源连接打开Kettle，左上角的“新建连接”按钮，在弹出的窗口中选择待抽取的数据源类型（如MySQL、Oracle等），填写相关参数并测试连接。

3.1.2 设计数据抽取作业- 打开Kettle中的“转换”视图。

- 从左侧的工具栏中选择适当的输入组件（如“表输入”或“文件输入”），将其拖拽到设计区域中。

kettle使用手册

1打开程序，点击spoon.bat其实对于简单的数据库数据的抽取，基本只需要转换(.ktr格式)和作业(.kjb格式)这两种东西。

下面就是建立一个转换的步骤：a 点击文件-->新建-->转换。

b 在左侧的树状列表中选“主对象树”，新建DB连接(参照第4点)。

c 在核心对象-->输入这个地方拖出一个表输入，在“输出”目录下拖出“表输出”，按住shift，从一个对象拖到另一个对象可进行连线。

2基本作业由开始，转换，成功3步骤组成。

步骤之间使用shift+左键连线。

2.1‘1’代表无条件执行；2.2‘2’代表上一步执行完成后，再执行下一步；2.3‘3’代表不执行，左击连接线使其生效（绿色）或失效（灰色）。

3打开具体步骤中的转换流程，点击‘Transformation’跳转至相应具体转换流程，编辑此转换具体路径，双击转换，弹出窗口，‘1’为相对路径，点击‘2’选择具体Visit.ktr转换，为绝对路径。

4建立数据库连接，输入相应信息测试，成功即可图45转换具体设置，如图4，‘表输出’至‘文本文件输出’流程跳接线为错误处理步骤，当输出格式不能满足表输出的目的表结构类型时，将会将记录输出到‘文本文件输出’中的记录中。

5.1双击‘表输入’，输入相应的SSQL语句，选择配置数据库连接，或新增，预览查询生成的结果（如果数据库配置中使用变量获取，此处预览生成错误）。

5.2双击‘表输出’，选择数据库连接，‘浏览’选择相应目标表，（此处‘使用批量插入’勾选去除，目的是在错误处理步骤中无法使用批量处理，可能是插件兼容问题）6表输出插件定义a) Target Schema：目标模式。

要写数据的表的Schema的名称。

允许表明中包含“。

”对数据源来说是很重要的b) 目标表：要写数据的表名。

c) 提交记录数量：在数据表中用事物插入行。

如果n比0大，每n行提交一次连接。

否则不使用事务，速度会慢一些。

d) 裁剪表：在第一行数据插入之前裁剪表。

史上最强 Kettle 培训教程资料

表输入
功能描述：从数据库中按条件查找表的数据注意事项：
可以使用变量替换的方式进行查询，请将“替换sql语句里的变量”勾选上可以使用上一步结果中赋予值，请将“从步骤插入数据”选择上一步的名称测试过程中发现如果上一个步骤设置的变量，在table input里面获取不到，
变量设置必须作为一个单独的转换先执行一次，然后才能获取到这个变量
例二：导出数据到文本文件
步骤： ⑥ 鼠标双击【文本文件输出】控件，弹出窗口编辑，如下图：
例二：导出数据到文本文件
步骤： ⑦ 鼠标点击左上角的图标执行，如下图：
例三：表对表数据转换
• 新建一个转换：文件－＞新建建一个作业：文件－＞新建－＞作业 • 作业可以调用作业，这样方便流程控制
（2）创建作业将已经创建好的转换和相关的作业组件串联起来，形成一个整体的任务。
Kettle 的执行顺序
• 作业：分串行执行和并行执行，串行执行是先执行完其中一条线再执行另一条线，并行是两条线同时执行，同一条线上的两个步聚会先执行前面的再执行后面的。每个步骤执行结果分两种：true(成功)/false(失败),根据返回结果可以控制流程走向。
作业的常用环节介绍：
Kettle主界面
说明：A： A：Kettle所使用到的菜单栏。 B：在使用Kettle时所涉及使用到的对象。 C：Kettle中所有的组件。 D：根据选择(B)或者(C)显示相应的结果。 E：Kettle设计界面。
Kettle界面-job
Kettle界面-transformation
47
例五：作业调用转换
• 作业也可以调用转换
48
作业的一个例子
指定job执行规则：是否重复执行、设置重复执行的间隔时间等

Kettle 公司培训手册(DOC 20页)

Kettle 培训手册一、Etl 介绍ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于金融IT 来说，经常会遇到大数据量的处理，转换，迁移，所以了解并掌握一种etl工具的使用，必不可少。

Kettle是一款国外开源的etl工具，纯java编写，绿色无需安装，数据抽取高效稳定。

Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

二、kettle 部署运行将kettle2.5.1文件夹拷贝到本地路径，例如D 盘根目录。

双击运行kettle文件夹下的spoon.bat文件，出现kettle欢迎界面：稍等几秒选择没有资源库，打开kettle主界面创建transformation，job点击页面左上角的创建一个新的transformation，点击保存到本地路径，例如保存到D:/etltest下，保存文件名为EtltestTrans，kettle默认transformation 文件保存后后缀名为ktr点击页面左上角的创建一个新的job，点击保存到本地路径，例如保存到D:/etltest下，保存文件名为EtltestJob，kettle默认job文件保存后后缀名为kjb 创建数据库连接在transformation页面下，点击左边的【Main Tree】，双击【DB连接】，进行数据库连接配置。

connection name自命名连接名称Connection type选择需要连接的数据库Method of access选择连接类型Server host name写入数据库服务器的ip地址Database name写入数据库名Port number写入端口号Username写入用户名Password写入密码例如如下配置：点击【test】，如果出现如下提示则说明配置成功点击关闭，再点击确定保存数据库连接。

Kettle使用培训文档-PPT课件

Kettle使用-运行

Kettle提供了资源库方式的方式来整合所有的工作，但是因为资源库移植不方便，所以选择没有资源库
Kettle使用-ktr&kjb

点击页面左上角的创建一个新的 transformation，点击保存到本地路径，例如保存到D:/etltest下，保存文件名为 EtltestTrans，kettle默认transformation 文件保存后后缀名为ktr
Kettle使用培训文档
shenxiangl
Kettle使用-ETL&Kettle
ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于金融IT来说，经常会遇到大数据量的处理，转换，迁移，所以了解并掌握一种etl工具的使用，必不可少。 Kettle是一款国外开源的etl工具，纯java 编写，绿色无需安装，数据抽取高效稳定。 Kettle中有两种脚本文件，transformation 和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。
DB连接：显示当前transformation中的数据库连接，每一个transformation的数据库连接都需要单独配置。
Steps：一个transformation中应用到的环节列表
Hops：一个transformation中应用到的节点连接列表
Kettle使用-transformation
类别 Input
Kettle使用-Job

菜单介绍
Main Tree菜单列出的是一个Job 中基本的属性，可以通过各个节点来查看。
DB连接：显示当前Job中的数据库连接，每一个Job的数据库连接都需要单独配置。 Job entries：一个Job中引用的环节列表

Kettle使用培训文档

KETTLE使用-TRANSFORMATION
菜单介绍
Core Objects菜单列出的是 transformation中可以调用的环节列表，可以通过鼠标拖动的方式对环节进行添加。
Input：输入环节 Output：输出环节 Lookup：查询环节 Transform：转化环节 Joins：连接环节 Scripting：脚本环节
KETTLE使用案例
KETTLE使用案例
KETTLE使用案例
数据库连接选择数据仓库的数据库，目标表选择对应的infortaotal表，在查询关键字里，表字段写name(表示仓库表里的字段)，流里的字段1里写入NAME(即上一个步骤输入的内容里的NAME)。比较符用”=”号。点击Edit mapping 按钮，将表字段，与流利的字段进行对应，即流里字段里的值输入到表里的哪个字段里去。
会根据查询条件中字段进行判断更新根据处理结果对数据库进行更新若需要更新的数据在数据库表中无记录则会报错停止删除根据处理结果对数据库记录进行删除若需要删除的数据在数据库表中无记录则会报错停止lookup数据库查询根据设定的查询条件对目标表进行查询返回需要的结果字段流查询将目标表读取到内存通过查询条件对内存中数据集进行查询调用db存储过程调用数据库存储过程transform字段选择选择需要的字段过滤掉不要的字段也可做数据库字段对应过滤记录根据条件对记录进行分类排序记录将数据根据某以条件进行排序空操作无操作增加常量增加需要的常量字段scriptingmodifiedjavascriptvalue扩展功能编写javascript脚本对数据进行相应处理mapping映射子转换数据映射jobsatvariables设置环境变量getvariables获取环境变量kettlekettle使用使用jobjob菜单介绍maintree菜单列出的是一个job中基本的属性可以通过各个节点来查看

KETTLE使用培训

• 使用原则
采集demo
• 采集demo1和采集demo2说明两个demo实现的业务是一样的，区别是demo2多用了几个step去实现连接功能。意在说明两点：1、如果一条sql实现不了的，可以通过Kettle提供的step实现。2、Kettle 很灵活，所以从性能上考虑，对开发人员的要求也是挺高的，下面一节会给出一些原则。
使用原则???能使用truncatetable的时候就不要使用deleteallrow这种类似sql合理的分区如果删除操作是基于某一个分区的就不要使用deleterow这种方式不管是deletesql还是delete步骤直接把分区drop掉再重新创建尽量缩小输入的数据集的大小增量更新也是为了这个目的尽量使用数据库原生的方式装载文本文件oracle的sqlloadermysql的bulkloader步骤尽量不要用kettle的calculate计算步骤能用数据库本身的sql就用sql不能用sql就尽量想办法用procedure实在不行才是calculate步骤
常用Step介绍
• Table Input和Table Output a1表字段名：a，b A2表字段名：a，c 在这个demo中可以看出两点： 1、数据流（输入/出流）中的数据字段名与生成该数据流的Step自动获取。 2、表输出是按照数据流的数据自动匹配并且插入到输出表中的。
常用Step介绍
采集demo
• 采集demo1
采集demo
• 采集demo2
使用原则
• • • • 目的 Kettle介绍 Kettle实战使用原则
使用原则
• 尽量使用数据库连接池 • 尽量提高批处理的commit size • 尽量使用缓存，缓存尽量大一些（主要是文本文件和数据流） • Kettle 是Java 做的，尽量用大一点的内存参数启动Kettle. • 可以使用sql 来做的一些操作尽量用sql Group , merge , stream lookup ,split field 这些操作都是比较慢的，想办法避免他们.，能用sql 就用sql • 插入大量数据的时候尽量把索引删掉 • 尽量避免使用update , delete 操作，尤其是update , 如果可以把update 变成先delete , 后insert .

2024年史上最强Kettle培训教程

配置环境变量
将Kettle的bin目录添加到系统环境变量PATH中
2024/2/29
启动服务
在命令行中输入kettle.bat （Windows）或kettle.sh （Linux/MacOS）启动服务
服务端口
默认端口为8080，可通过配置文件进行修改
6
常见问题解决方案
问题1
无法启动服务
解决方案
作有很大的帮助。
2024/2/29
30
行业发展趋势分析
2024/2/29
大数据时代下的数据处理需求
随着大数据时代的到来，数据处理需求越来越大，Kettle作为一种高效的数据处理工具，将会得到更广泛的应用。
Kettle在数据仓库建设中的地位和作用
数据仓库是企业级数据集成和存储的重要平台，Kettle在数据仓库建设中扮演着重要的角色，能够实现数据的快速集成和转换。
2024/2/29
27
06
总结回顾与未来展望
2024/2/29
28
关键知识点总结回顾
Kettle工具介绍和使用场景：包括Kettle的基本概念、特点、使用场景等，让学员对Kettle有一个全面的了解。
Kettle组件和功能介绍：介绍了Kettle中的各种组件和功能，如输入/输出组件、转换组件、脚本组件等，以及如何使用这些组件完成复杂的数据处理任务。
2024/2/29
数据抽取、转换和加载（ETL）过程详解：详细讲解了ETL过程中的各个环节，包括数据抽取、清洗、转换、加载等，以及如何使用Kettle实现这些操作。
Kettle性能优化技巧：分享了在使用Kettle过程中如何优化性能，提高数据处理效率的方法和技巧。

Kettle使用手册及测试案例

一、【kettle】window安装与配置1、下载kettle包，并解压2、安装jdk，并配置java环境a).打开我的电脑--属性--高级--环境变量b).新建系统变量JA V A_HOME和CLASSPATH变量名：JA V A_HOME变量值：C:\Program Files\Java\jdk1.7.0[具体路径以自己本机安装目录为准]变量名：CLASSPATH变量值：.;%JA V A_HOME%\lib\dt.jar;%JA V A_HOME%\lib\tools.jar;c). 选择“系统变量”中变量名为“Path”的环境变量，双击该变量，把JDK安装路径中bin目录的绝对路径，添加到Path变量的值中，并使用半角的分号和已有的路径进行分隔。

变量名：Path变量值：%JA V A_HOME%\bin;%JA V A_HOME%\jre\bin;3、配置kettle环境在系统的环境变量中添加KETTLE_HOME变量，目录指向kettle的安装目录：D:\kettle\data-integration4、启动spoonWindows直接双击批处理文件Spoon.bat具体路径为：kettle\data-integration\Spoon.batLinux 则是执行spoon.sh,具体路径为：~/kettle/data-integration/spoon.sh二、使用Kettle同步数据同步数据常见的应用场景包括以下4个种类型：➢ 只增加、无更新、无删除➢ 只更新、无增加、无删除➢ 增加+更新、无删除➢ 增加+更新+删除只增加、无更新、无删除对于这种只增加数据的情况，可细分为以下2种类型：1) 基表存在更新字段。

通过获取目标表上最大的更新时间或最大ID，在“表输入”步骤中加入条件限制只读取新增的数据。

2) 基表不存在更新字段。

通过“插入/更新”步骤进行插入。

插入/更新步骤选项：只更新、无增加、无删除通过“更新”步骤进行更新。

kettle培训手册

Kettle简介：Kettle是使用Java语言开发的一个开源ETL工具(Extract--Transform--Loading)，完成数据的抽取、转换、加载工作。

Kettle的意思是“水壶”，把各种各样的数据倒进水壶中，经过转换、处理，以我们所需的格式输出对我们有价值的信息。

问题：为什么要用kettle？需求：不同的数据库(同一种类型但实例不同的数据库，或者不同类型的数据库)之间、不同的数据存储形式(数据库、文本文件)之间需要协同工作，计算、处理、转换成我们需要的数据。

实际应用场景：对帐系统需要读取ATM的交易流水文件到Oracle数据库中并进行统计。

不使用kettle的情况：专门编写程序(Java或C)导入到数据库中，在Oracle中编写存储过程进行批量统计。

使用kettle的情况：通过“文本文件输入”step，指定分隔符，即可完成导入，无需编写程序；使用kettle中的各种对象可以完成统计功能，不需要编写存储过程。

两种情况对比：情况一：需要编写专门的导入程序，不具备通用性。

存储过程在不同类型的数据库中语法不同，也不具备通用性。

但不需要掌握kettle。

情况二：不需要编写专门的导入程序，不同的文件格式只需要修改“文本文件输入”step中的对应参数即可。

不需要针对不同的数据库编写不同版本的存储过程，只需要使用标准SQL 就可以具备通用性。

需要掌握kettle。

好处：跨数据库、跨平台，减少我们的工作量。

Kettle中有两种类型的对象，分别对应两种类型的文件。

一种是Transformation(以后简称Trans)，即转换；一种是Job，即工作。

Trans完成具体的任务，Job用于控制转换之间的执行顺序。

第一部分：与数据库打交道1创建数据库连接<1>新建一个Transformation，在“DB连接”下创建一个“数据库连接”，如下图所示：<2>如果创建kettle不支持的数据库的连接，ConnectionType选择Generic database。

KETTLE基础培训

Java调用KTR
• 传入变量
Java调用KTR
• 调用ktr TransMeta localTransMeta = localTransMeta = new TransMeta(ktrPath); 设置变量 localTransMeta.setVariable(key,value) Trans tran=new Trans(localTransMeta ) tran.execute(null); tran.waitUntilFinished();
• 新建一个转换：文件－＞新建－＞转换
12
基于表对表的同步
13
基于表对表的同步
14
基于表对表的同步
15
基于表对表的同步
16
基于文件到表的同步
• 新建一个转换 • 流程：从文件读取记录插入到数据库中
17
基于文件到表的同步
18
基于文件到表的同步
19
基于文件到表的同步
20
基于表到文件的同步
• ETL是数据抽取（Extract）、清洗（Cleaning）、转换（Transform）、装载（Load）的过程。是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。
简介Kettle
• Kettle是一款国外开源的ETL工具，纯java编写，可以在 Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。
KETTLE的要求环境（JDK版本）、安装、基本操作
• KETTLE要求先安装JDK1.5版本或以上 • 无需安装下载后直接运行spoon.bat即
可
5
KETTLE的组件的类型基本说明（作业与转换）

史上最强 Kettle 培训教程

Kettle 常用控件
（1）转换控件-主对象-数据路连接：
由于一般在做数据处理时都会涉及到表操作，所以一般需要创建数据库连接，这是其它操作的前提
Kettle 常用控件
（2）转换控件-核心对象：
Kettle 常用控件
（3）作业控件-核心对象
（4）kettle 内部变量
Kettle 常用控件
（5）常用控件说明
输入控件
生成记录
功能描述：生成一些固定字段的记录
，主要用来模拟一些数据进行测试
注意事项：注意生成行数
自定义常量数据
功能描述：
用来给查询增加常量列 “元数据”页是定义字段
相关信息 “数据”页则是赋予各字
段相应的值
生成随机数
功能描述：生成36位的随机数注意事项：生成36位的随机数中间有四个“-”，如果用来做32位主
表输入
功能描述：从数据库中按条件查找表的数据注意事项：
可以使用变量替换的方式进行查询，请将“替换sql语句里的变量”勾选上可以使用上一步结果中赋予值，请将“从步骤插入数据”选择上一步的名称测试过程中发现如果上一个步骤设置的变量，在table input里面获取不到，
变量设置必须作为一个单独的转换先执行一次，然后才能获取到这个变量
例一：导入文本文件到数据库
步骤： ⑤ 鼠标双击【文本输入】控件，弹出窗口编辑，如下图：
点击获取字段按钮，可自动获取字段名称，然后编辑相关属性，预览记录
例一：导入文本文件到数据库
步骤： ⑥ 鼠标双击【表输出】控件，弹出窗口编辑，如下图：
例一：导入文本文件到数据库
步骤： ⑦ 鼠标点击左上角的图标执行，如下图：
Steps：一个transformation中应用到的环节列表

2024版史上最强Kettle培训教程资料

03
数据加载
使用Kettle的输出组件，如“文本文件输出”、“表输出”等，将处理后的数据加载
到指定数据库或文件中。
05
02
数据抽取
使用Kettle的输入组件，如“文本文件输入”、“表输入”等，从不同来源抽取数据。
06
04
数据转换
使用Kettle的转换组件，如“值映射”、“计算字段”、“日期格式转换”等，对数据进行格式转换和计算处理。
功能
提供数据抽取、转换、加载等核心功能，支持多种数据格式和数据库类型，支持自定义函数和插件扩展等。
02 Kettle安装与配置
系统需求与准备
操作系统
硬件要求
Kettle支持Windows、Linux和MacOS等主流操作系统。
建议内存4GB以上，硬盘空间500GB以上，以确保软件运行流畅。
问题1
01
无法启动Kettle软件。
解决方案
02
检查Java运行环境是否已正确安装并配置，确保Kettle的可执行
文件路径已添加到系统的环境变量中。
问题2
03
Kettle界面显示异常。
常见问题及解决方案
解决方案
调整系统的分辨率和字体大小设置，以适应Kettle软件的界面显示要求。
问题3
无法连接数据库。
主界面布局及功能
01
02
03
04
主界面概览
Kettle主界面包括菜单栏、工具栏、转换/作业设计区、组件
树、属性设置区等部分。
转换/作业设计区
用于可视化设计ETL转换流程和作业调度流程，支持拖拽组
件并进行连线。
组件树
展示当前转换/作业中使用的所有组件，方便用户快速定位和

etl工具kettle公司学习文档

1.1数据抽取1.1.1表输入1.1.1.1功能描述通过sql语句或者界面选择的方式从数据库中抽取需要的数据。

数据库基本上包括了所有通用数据库，如sqlserver，mysql，oracle等。

1.1.1.2操作步骤及图解双击表输入界面如下图。

图11101单击‘新建’显示如下界面。

图11102输入数据库连接配置参数，单击‘Test‘验证数据源是否配置正确，配置正确后通过‘特征列表’查询数据库特征，通过‘浏览’查询数据库表，视图等资源。

单击‘ok’后回到图11101。

单击‘获取sql查询语句’显示下图.从上图选择你需要抽取数据的表或视图，双击‘student’表后如下图。

图11104单击‘是’生成sql语句如下图。

图11105单击‘预览’显示如下图，图11106显示你抽取的数据，单击‘关闭’回到图11105。

替换SQL语句里的变量：选中，则将SQL中的变量名替换成设定的值；未选中，不替换。

如图11107有变量申明。

重要点提示：1当表输入double类型时，预览时不能获得正确的值（此时并不代表值获取异常，由于预览设置double位数导致），表输出是正常值1.1.2Excel输入1.1.2.1功能描述从Excel文件中读取数据。

1.1.2.2操作步骤及图解双击Excel输入弹出界面如下图11201图11201文件：点击浏览按钮选择excel文件，点击增加按钮文件增加到选中的文件列表。

从前面的步骤获取文件名：当有数据流连接当前Excel输入时，选中，则可以选择文件。

图11202工作表，见上图11202：点击获取工作表名称会弹出框，将可用选项选到你的选择，点击确认即可。

如图11203图11203图11204内容，见上图11204：头部：检查工作表是否指定了一个头部行，该项基本要选择。

非空记录：检查是否不需要空行输出。

停在空记录：当遇空行时停止读取。

限制：0则表示内容大小无限制图11205字段，见上图11205：重要提示：类型选项要严格与Excel文件中对应字段的类型匹配，否则会报错。

Kettle使用培训文档 PPT课件

类别
环节名称
功能说明
Job entries START
开始
DUMMY
结束
Transformation 引用Transformation流程
Job
引用Job流程
Shell
调用Shell脚本
SQL
执行sql语句
FTP
通过FTP下载
Table exists
检查目标表是否存在，返回布尔值
File exists
Input：输入环节 Output：输出环节 Lookup：查询环节 Transform：转化环节 Joins：连接环节 Scripting：脚本环节
8
2020/3/31
KETTLE使用-TRANSFORMATION
每一个环节可以通过鼠标拖动来将环节添加到主窗口中。
并可通过shift+鼠标拖动，实现环节之间的连接。
2020/3/31
菜单介绍
Job entries菜单列出的是Job 中可以调用的环节列表，可以通过鼠标拖动的方式对环节进行添加。
每一个环节可以通过鼠标拖动来将环节添加到主窗口中。
并可通过shift+鼠标拖动，实现环节之间的连接。
12
KETTLE使用-JOB
2020/3/31
常用环节介绍
5
2020/3/31
KETTLE使用-KTR&KJB
点击页面左上角的创建一个新的 transformation，点击保存到本地路径，例如保存到D:/etltest下，保存文件名为EtltestTrans， kettle默认transformation文件保存后后缀名为 ktr
点击页面左上角的创建一个新的job，点击保存到本地路径，例如保存到D:/etltest下，保存文件名为EtltestJob，kettle默认job文件保存后后缀名为kjb

2024年史上最强Kettle培训教程

史上最强Kettle培训教程一、引言Kettle是一款开源的ETL工具，具有简单易用、功能强大、扩展性强等特点。

本教程旨在帮助读者全面了解Kettle的基础知识、高级应用以及最佳实践，从而掌握这款强大的ETL工具。

二、Kettle简介1.1Kettle概述Kettle是一款基于Java开发的ETL工具，主要用于数据抽取、转换和加载。

它由Pentaho公司开发，并在2006年开源。

Kettle支持多种数据源，如关系型数据库、文本文件、Excel文件等，并且提供了丰富的转换组件，可以满足各种复杂的数据处理需求。

1.2Kettle主要组件Kettle主要包括两个组件：Spoon和Pan。

Spoon是Kettle的图形界面设计工具，用于创建和编辑ETL转换；Pan是Kettle的命令行执行工具，用于执行Spoon中创建的转换。

三、Kettle基础教程2.1环境搭建2.2Spoon界面介绍启动Spoon，看到的是欢迎界面。

“新建”按钮，创建一个转换或作业。

在转换编辑界面，左侧为组件面板，右侧为画布。

在画布上，我们可以通过拖拽组件来创建ETL流程。

2.3创建转换在本节中，我们将学习如何创建一个简单的ETL转换。

从组件面板中拖拽一个“表输入”组件到画布上，双击该组件，设置数据库连接和SQL查询。

然后，拖拽一个“表输出”组件到画布上，双击该组件，设置目标数据库连接和表名。

将“表输入”和“表输出”组件连接起来，保存并运行转换。

2.4执行转换pan.sh-file=/path/to/your/transformation.ktr其中，`/path/to/your/transformation.ktr`为转换文件的路径。

四、Kettle高级教程3.1数据类型转换在ETL过程中，我们经常需要对数据进行类型转换。

Kettle提供了丰富的类型转换组件，如“复制记录”、“字段选择”等。

在本节中，我们将学习如何使用这些组件进行数据类型转换。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Kettle 培训手册
一、Etl 介绍
ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于金融IT 来说，经常会遇到大数据量的处理，转换，迁移，所以了解并掌握一种
etl工具的使用，必不可少。

Kettle是一款国外开源的etl工具，纯java编写，绿色无需安装，数据抽取高
效稳定。

Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

二、kettle 部署运行
将kettle2.5.1文件夹拷贝到本地路径，例如D 盘根目录。

双击运行kettle文件夹下的spoon.bat文件，出现kettle欢迎界面：
稍等几秒
选择没有资源库，打开kettle主界面
创建transformation，job
点击页面左上角的创建一个新的transformation，点击保存到本地路
径，例如保存到D:/etltest下，保存文件名为EtltestTrans，kettle默认transformation
文件保存后后缀名为ktr
点击页面左上角的创建一个新的job，点击保存到本地路径，例如保
存到D:/etltest下，保存文件名为EtltestJob，kettle默认job文件保存后后缀名为kjb
创建数据库连接
在transformation页面下，点击左边的【Main Tree】，双击【DB连接】，进行
数据库连接配置。

connection name自命名连接名称
Connection type选择需要连接的数据库
Method of access选择连接类型
Server host name写入数据库服务器的ip地址
Database name写入数据库名
Port number写入端口号
Username写入用户名
Password写入密码
例如如下配置：
点击【test】，如果出现如下提示则说明配置成功
点击关闭，再点击确定保存数据库连接。

一个简单的ktr 例子
目的：
将一个数据库导入到另一个数据库中。

操作步骤：
创建一个transformation，命名为etlTestTrans.ktr，创建数据库连接ods，点击【Input】，选中【表输入】，拖到主窗口，释放鼠标，双击打开
如下图
点击【Transform】，选中【字段选择】，拖到主窗口，释放鼠标
点击【Output】，选中【表输出】，拖到主窗口，释放鼠标
建立【文本文件输入】和【字段选择】与【字段选择】和【表输出】的连接
双击【表输出】，目标表中写入ZT_TEST_KETTLE，，确定保存
双击【字段选择】，点击获取选择的字段，再点击Edlt Mapping，点击OK 确定，编辑所有字段对应关系，点确定。

点击运行这个转换。

，则将上一个ktr中生成的文本，导入到数据库当中。

一个简单的kjb例子
目的：
将上一个transformation在一个job里面调用执行。

操作步骤：
在etlTestJob页面，点击【Core Objects】，点击【Job entries】，选中【START】拖动到主窗口释放鼠标，再选中【Transformation】，拖动到主窗口释放鼠标，
建立【START】和【Transformation】之间的连接。

双击【Transformation 】，在Transformation filename 中写入
E:\kettleWorkspace\etlTestTrans.ktr，确定保存。

点击保存创建好的job。

点击运行这个转换。

待所有任务都显示成功，则为job调用transformation运行成功。

一个增量的例子
增量更新按照数据种类的不同大概可以分成：
1. 只增加，不更新，
2. 只更新，不增加
3. 即增加也更新
4. 有删除，有增加，有更新
下面针对前三种做一个增量的ETL抽取。

过程如下：
根据前面讲解的例子一样，首先建立源表（fina_test1）和目标表（fina_test2），整个设计流程如下:
其中第一个步骤（输入-目标表）的sql 大概如下模式：
select ifnull(max(date_seal),'1900-01-01 00:00:00') from fina_test2
你会注意到第二个步骤和第一个步骤的连接是黄色的线，这是因为第二个table input（输入-源表）步骤把前面一个步骤的输出当作一个参数来用，所有Kettle用黄色的线来表示，第二个table input（输入-源表）的sql 模式大概如下：SELECT * FROM fina_test1 where date_seal>?
后面的一个问号就是表示它需要接受一个参数，你在这个table input（输入-源表）下面需要指定replace variable in script 选项和执行每一行为选中状态，这样，Kettle就会循环执行这个sql , 执行的次数为前面参数步骤传入的数据集的大小。

关于第三个步骤执行插入/更新步骤需要特别解释一下，
Kettle执行这个步骤是需要两个数据流对比，其中一个是目标数据库，你在目标表里面指定的，它放在用来查询的关键字左边的表字段里面的，另外一个数据流就是你在前一个步骤传进来的，它放在用来查询的关键字的右边，Kettle首先用你传进来的key 在数据库中查询这些记录，如果没有找到，它就插入一条记录，所有的值都跟你原来的值相同，如果根据这个key找到了这条记录，kettle会比较这两条记录，根据你指定update field 来比较，如果数据完全一样，kettle就什么都不做，如果记录不完全一样，kettle就执行一个update 步骤。

备注：主键被修改得数据认为是新记录
删除的数据由在仓库中需要保留无需考虑
然后点击新建-job，然后job的核心对象job entries拉出组建，进行执行抽取。

创建kettle资料库
资源库是用来保存转换任务的，用户通过图形界面创建的的转换任务可以保存在资源库中。

资源库可以是各种常见的数据库，用户通过用户名/密码来访问资源库中的资源，默认的用户名/密码是admin/admin
资源库并不是必须的，如果没有资源库，用户还可以把转换任务保存在 xml 文件中。

如果用户需要创建一个资源库，在资源库的登录窗口（PDI 启动时的第一个窗口）
中有【新建】按钮，点击该按钮弹出新建资源库窗口，
在该窗口中选择一个数据库连接，如果没有事先定义的数据库连接，则还要点击【新建】按钮，来创建一个数据库连接。

选择数据库连接后，要为该资源库命名，作为这个资源库的唯一标志，
最后选择【创建或更新】按钮来创建这个资源库。

资源库可以使多用户共享转换任务，转换任务在资源库中是以文件夹形式分组管理的，用户可以自定义文件夹名称。

如何使用kettle读取包含多行表的Excel文件
如果 Excel 工作表的表头只有一行,使用 Kettle 读取这样的文件是很容易的.
如果 Excel 工作表的表头是多行的, 或者是分级的就需要在容标签下正确设置列名所占
行数才可以读取.
考虑这样的一个工作表
如果想把里面的 12列数据都读出来, 就要考虑如何处理多级表头.
步骤设置的详细描述:
步骤一选择文件名，现在文件或目录里到所要添加的excel文档，然后点击，确定后，点击，
步骤二选择要读取的工作表名称和要读取的容在工作表里的起始位置, 也就是表头开始的行号和列号 (这里行号和列号是以 0 开始的)
步骤三设置要读取的容的一些属性, 这里要设置表头的所占行数是 4行.
步骤四错误处理, 选择如果有错误终止还是继续, 错误信息保存的文件等.
(图略)
步骤五选择字段, 如果前面的三个步骤(不包括错误处理步骤)都设置正确, 在这个页面选择 "获取字段" 字段按钮, 就会获得所有的列名称和数据类型.
这里我们可以看到: 多级表头中各级表头的名称被叠加起来, 形成了唯一的列名.
点击 [预览] 按钮可以预览到数据
对于表头跨连续的多行, 但不分级的情况也可以使用上述方式处理.
kettle注释：
1、kettle的控制流可以设置一些简单的时间，并且可以实现隔断天、周、月（三个只
能选一个，不能选那个月的那周那日），但是kettle工具不能关，如果关了，必须重新启动。

2、kettle里面缺少一个编辑的字段的插件，导致字段编辑很麻烦，这只能先sql中进
行手写，这个对写sql的要求很高。

一个kettle字段转换（截取）的例子
大致的流程是：
表输入还是正常的sql查询，没有添加参数。

字段转换（截取）是在进行修改。

具体样式如下：
具体的用法：
transform Functions 里面包括了字符、数字的一些函数方法，这些函数方法可以解决一些字段需要转化的问题。

Input fields和 Output fields 里面包括了从表输入进来的字段（数据）。

字段主要转化的操作界面：
注意下：substr(xxx,1,2) 中的1代表是第一位开始，2代表是取2位，在这里面还可以添加if等语句，进行编写。

在字段选择那里面要配置从js过来的字段，点击列映射（前提是已经和表输出连接上），这个字段对应要根据你实际从js倒过来的字段和目标表相对应的字段一一对应。

Kettle公司培训手册范本

合集下载

Kettle用户操作手册1

kettle使用手册

kettle使用手册

史上最强 Kettle 培训教程资料

Kettle 公司培训手册(DOC 20页)

Kettle使用培训文档-PPT课件

Kettle使用培训文档

KETTLE使用培训

2024年史上最强Kettle培训教程

Kettle使用手册及测试案例

kettle培训手册

KETTLE基础培训

史上最强 Kettle 培训教程

2024版史上最强Kettle培训教程资料

etl工具kettle公司学习文档

Kettle使用培训文档 PPT课件

2024年史上最强Kettle培训教程

文档推荐

最新文档