大数据预处理技术 第2章 Kettle工具的初步使用
- 格式:pptx
- 大小:4.36 MB
- 文档页数:78
kettle新⼿教程1、kettle介绍kettle是⼀个ETL(Extract, Transform and Load抽取、转换、加载)⼯具,ETL⼯具在数据仓库项⽬使⽤很频繁,kettle也能够应⽤在下⾯⼀些场景:在不同应⽤或数据库之间整合数据把数据库中的数据导出到⽂本⽂件⼤批量数据装加载数据库数据清洗集成应⽤相关项⽬是个使⽤kettle使⽤很easy,通过图形界⾯设计实现做什么业务,⽆需写代码去实现。
因此,kettle是以⾯向元数据来设计。
kettle⽀持⾮常多种输⼊和输出格式。
包含⽂本⽂件。
数据表。
以及商业和免费的数据库引擎。
另外,kettle强⼤的转换功能让您⾮常⽅便操纵数据。
以下展⽰⼀个简单的“Hello World”演⽰样例,本教程将告诉你怎样轻松⽤kettle⼯作。
让你有基础可以学习更复杂的转换功能。
安装kettlekettle设计⼯具spoon介绍hello world演⽰样例⼜⼀次设计helloworld演⽰样例2、⼊门演⽰样例学习2.1、安装kettle⾸先通过官⽹下载kettle;需求环境:kettle须要jre1.5及以上版本号。
能够通过oracle官⽹免费下载;kettle安装kettle⽆需安装。
直接解压zip⽂件到指定的⽬录。
在类unix操作系统上。
须要运⾏下⾯脚本:cd Kettlechmod +x *.sh执⾏kettle中的⼀个图形⽤户界⾯叫spoon,spoon能够设计转换和作业,也能够执⾏转换和作业,以下的内容将继续介绍他们。
2.2、kettle设计⼯具spoon介绍Spoon是⼀个图形设计⼯具,⽤来设计和測试数据交换处理流程,也能够通过命令⾏(终端)运⾏处理流程。
资源库和⽂件在spoon中设计作业和转换。
kettle提供两种⽅式存储:资源库和⽂件;假设你选择资源库,spoon第⼀次启动时须要创建资源库。
选择⽂件⽅法,作业保存⽂件是的扩展名是KJB。
转换⽂件的扩展名为KTR,为了简化学习,以下教程採⽤后者。
1打开程序,点击spoon.bat其实对于简单的数据库数据的抽取,基本只需要转换(.ktr格式)和作业(.kjb格式)这两种东西。
下面就是建立一个转换的步骤:a 点击文件-->新建-->转换。
b 在左侧的树状列表中选“主对象树”,新建DB连接(参照第4点)。
c 在核心对象-->输入这个地方拖出一个表输入,在“输出”目录下拖出“表输出”,按住shift,从一个对象拖到另一个对象可进行连线。
2基本作业由开始,转换,成功3步骤组成。
步骤之间使用shift+左键连线。
2.1‘1’代表无条件执行;2.2‘2’代表上一步执行完成后,再执行下一步;2.3‘3’代表不执行,左击连接线使其生效(绿色)或失效(灰色)。
3打开具体步骤中的转换流程,点击‘Transformation’跳转至相应具体转换流程,编辑此转换具体路径,双击转换,弹出窗口,‘1’为相对路径,点击‘2’选择具体Visit.ktr 转换,为绝对路径。
4建立数据库连接,输入相应信息测试,成功即可图45转换具体设置,如图4,‘表输出’至‘文本文件输出’流程跳接线为错误处理步骤,当输出格式不能满足表输出的目的表结构类型时,将会将记录输出到‘文本文件输出’中的记录中。
5.1双击‘表输入’,输入相应的SSQL语句,选择配置数据库连接,或新增,预览查询生成的结果(如果数据库配置中使用变量获取,此处预览生成错误)。
5.2双击‘表输出’,选择数据库连接,‘浏览’选择相应目标表,(此处‘使用批量插入’勾选去除,目的是在错误处理步骤中无法使用批量处理,可能是插件兼容问题)6表输出插件定义a) Target Schema:目标模式。
要写数据的表的Schema的名称。
允许表明中包含“。
”对数据源来说是很重要的b) 目标表:要写数据的表名。
c) 提交记录数量:在数据表中用事物插入行。
如果n比0大,每n行提交一次连接。
否则不使用事务,速度会慢一些。
d) 裁剪表:在第一行数据插入之前裁剪表。
kettle的使用方法Kettle是一种用于数据集成和转换的开源工具,也被称为Pentaho Data Integrator(PDI)。
它提供了一套功能强大的工具,可以帮助用户从不同的数据源中提取、转换和加载数据。
本文将介绍Kettle 的使用方法,帮助读者快速上手使用该工具。
一、安装Kettle您需要从Kettle官方网站下载最新版本的安装包。
安装包通常是一个压缩文件,您可以将其解压到您选择的目录中。
然后,通过运行解压后的文件夹中的启动脚本来启动Kettle。
二、连接数据源在使用Kettle之前,您需要先连接到您的数据源。
Kettle支持多种类型的数据源,包括关系型数据库、文件、Web服务等。
您可以使用Kettle提供的连接器来连接到您的数据源,或者根据需要自定义连接器。
连接成功后,您可以在Kettle中查看和操作您的数据。
三、创建转换在Kettle中,数据转换是通过创建转换作业来实现的。
转换作业是由一系列的转换步骤组成的,每个步骤都执行特定的数据操作。
您可以使用Kettle提供的各种转换步骤,如数据提取、数据过滤、数据转换、数据加载等,来构建您的转换作业。
四、配置转换步骤在创建转换作业后,您需要配置每个转换步骤的参数和选项。
例如,在数据提取步骤中,您需要指定要提取的数据源和查询条件。
在数据转换步骤中,您可以定义数据的转换逻辑,如数据清洗、数据合并、数据计算等。
在数据加载步骤中,您需要指定目标数据表和加载方式。
五、运行转换作业完成转换步骤的配置后,您可以运行整个转换作业,将数据从源数据源提取、转换和加载到目标数据源。
在运行转换作业之前,您可以选择性地预览转换结果,以确保数据操作的准确性和一致性。
Kettle还提供了调试功能,可以帮助您快速定位和解决转换作业中的问题。
六、调度转换作业除了手动运行转换作业之外,Kettle还支持将转换作业安排为定期执行的任务。
您可以使用Kettle提供的调度功能,根据您的需求设置转换作业的执行时间和频率。
kettle使用方法一、什么是kettle?Kettle是一款功能强大的开源ETL (Extract, Transform, Load) 工具,用于处理各种数据的抽取、转换和加载。
它提供了可视化的界面,使用户能够轻松地创建和管理数据流程。
二、kettle的安装和配置1.下载kettle安装包,并解压到指定目录。
2.进入kettle目录,在终端中运行spoon.sh (Linux/Mac) 或spoon.bat(Windows) 启动kettle。
3.在弹出的窗口中,点击”File”菜单,选择”Preferences”打开配置页面。
4.在配置页面中,设置kettle的选项,如数据连接、插件路径等。
三、kettle中的数据流程1.创建一个新的数据流程:点击工具栏上的”新建”按钮,在弹出的对话框中选择”Transformation”创建一个新的转换,或选择”Job”创建一个作业。
2.在数据流程中,可以拖拽各种组件来构建转换或作业,如数据输入、数据输出、转换、聚合等。
3.连接组件:使用鼠标拖拽连线工具,连接各个组件,定义数据的流向。
4.配置组件:双击组件,如数据输入组件,可以配置数据源的连接信息、查询语句等。
5.定义转换规则:在转换组件中,根据需要配置字段映射、条件过滤、转换函数等。
6.运行数据流程:点击工具栏上的”运行”按钮,运行数据流程并查看结果。
四、kettle的常用组件和功能1.数据输入:用于读取数据源的组件,支持多种数据源,如数据库、文件、Web服务等。
2.数据输出:用于将数据写入目标的组件,支持多种输出格式,如数据库表、文件、Web服务等。
3.转换组件:用于对数据进行转换的组件,如字段映射、类型转换、条件过滤、聚合等。
4.调度和监控:kettle提供了作业调度和监控的功能,可以定时执行作业、生成报表等。
5.插件扩展:kettle支持插件扩展,用户可以根据需要开发自己的插件,用于处理特定的数据源或转换规则。
KETTLE使用说明简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle可以在/网站下载到。
注:ETL,是英文Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。
ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。
下载和安装首先,需要下载开源免费的pdi-ce软件压缩包,当前最新版本为5.20.0。
下载网址:/projects/pentaho/files/Data%20Integration/然后,解压下载的软件压缩包:pdi-ce-5.2.0.0-209.zip,解压后会在当前目录下上传一个目录,名为data-integration。
由于Kettle是使用Java开发的,所以系统环境需要安装并且配置好JDK。
žKettle可以在/网站下载ž 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。
运行Kettle进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat 或Kettle.exe文件。
Linux用户需要运行spoon.sh文件,进入到Shell提示行窗口,进入到解压目录中执行下面的命令:# chmod +x spoon.sh# nohup ./spoon.sh & 后台运行脚本这样就可以打开配置Kettle脚本的UI界面。
Kettle入门教程最近做的项目用到了ETL工具Kettle,这个工具相当好用,可以将各种类型数据作为数据流,经过处理后再生成各种类型的数据。
正如其名“水壶”,将各个地方的水倒进水壶里,再用水壶倒入不同的容器。
不过一来初学乍用,二来对此任务不是很感兴趣,研究的不是很深入,可能是以一种不科学的方法使用的,但观教程,常用的内容似乎也涉及到了,并且Y大说过,要善于总结,于是有了这篇,作为入门说明吧。
一、下载与安装官网地址大概700~800M,下载好解压缩即可。
当然,要求JDK环境(似乎有自带)二、任务(.kjb)与转换(.ktr)Kettle工具的主界面-作业简单地说,一个转换就是一个ETL的过程,而作业则是多个转换、作业的集合,在作业中可以对转换或作业进行调度、定时任务等(据说定时不好用,可以通过其他方式,比如linux的crontab命令,不过实际使用中,这个指令也不大好使,有待查看日志探明原因。
)我在实际过程中,写的流程不是很复杂,当数据抽取需要多步骤时,分成多个转换,在集合到一个作业里顺序摆放,然后执行即可,不放到作业里的话,要对多个转换依次执行命令,比较麻烦。
三、煎锅、勺子、厨房是不是莫名其妙,以为走错了片场?然而这是几个重要的工具名称。
1)勺子-Spoon.bat/spoon.sh图形界面工具,就是启动上图主界面的命令行。
这个界面应该是JavaFX做的。
这个用来在有图形界面的系统下写任务(如何通过命令行写我不知道,并且我怀疑没有这个可能……),如Windows,写好后,也可以通过该工具进行执行,调试。
这个工具最大的问题是启动很慢,并且如果修改了数据库连接的配置,只有重新启动才能生效了。
这时候就体现了命令行的优越性。
转换窗口简单的转换示例左边有很多控件可供选择,上图展示了我在使用中经常用到的几个控件。
•执行SQL脚本:可以直接在控件里写SQL,并指定执行的库。
•表输入:通过查询数据库的表来获取输入数据流。
kettle工具用法关于"kettle工具用法"的1500-2000字文章:Kettle工具是一款功能强大的开源数据集成工具,旨在简化和自动化数据导入、转换和输出的过程。
它拥有直观而强大的用户界面,可让用户通过图形化界面创建和管理数据管道。
本文将逐步回答Kettle工具的用法,涵盖安装、界面介绍、数据导入和转换、数据输出等方面。
一、安装Kettle工具首先,访问Kettle官方网站并下载最新版本的Kettle工具。
下载完成后,运行安装程序,并按照提示进行安装。
安装完成后,打开Kettle工具。
二、界面介绍打开Kettle工具后,你将看到一个主界面,其中包含了工具栏、转换面板和作业面板等。
工具栏上有各种按钮,用于打开、保存和运行数据转换和作业。
转换面板用于创建、编辑和管理数据转换,而作业面板用于创建和管理作业。
你可以通过拖放组件和连接器来建立转换和作业的流程。
三、数据导入数据导入是Kettle工具的一个重要功能,它允许将数据从各种来源导入到目标数据库或文件中。
在Kettle中,你可以通过以下步骤导入数据:1. 创建新的数据转换:在转换面板上右键单击,选择“新建转换”来创建一个新的数据转换。
2. 添加数据输入组件:在工具栏上选择“输入”,然后拖放数据源到转换面板上。
根据需要选择适当的输入类型,如CSV文件、数据库、Excel文件等。
3. 配置数据输入组件:选择添加到转换面板的数据输入组件,右键单击并选择“编辑”。
在配置窗口中,设置数据源的连接信息、查询语句和字段映射等。
4. 添加目标组件:与添加数据输入组件类似,选择“输出”按钮并拖放目标数据库或文件组件到转换面板上。
5. 配置目标组件:选择添加到转换面板的目标组件,右键单击并选择“编辑”。
在配置窗口中,设置目标数据库的连接信息、目标表或文件的格式等。
6. 连接输入和目标组件:在转换面板上,拖动鼠标从数据输入组件的输出连接器到目标组件的输入连接器上,建立数据流。
ETL工具——kettle使用说明1简介ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),Kettle是一款国外开源的etl工具,纯java编写,数据抽取高效稳定。
2运行环境:OS:Window、Linux、Unix均可Jdk1.4以上3开始使用:Kettle可以在/网站下载。
下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。
(本文着重介绍kettle3.2.0稳定版)Spoon是一个图形用户界面,在不同平台上运行Spoon需要不同的脚本:Spoon.bat:在windows平台运行Spoon(或直接点击Kettle.exe)。
Spoon.sh:在Linux、Apple OSX、Solaris平台运行Spoon。
登陆一般选择没有资源库:Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
4转换(Transformation)新建一个转换kettle默认transformation文件保存后后缀名为ktr新建数据库连接(此链接也可在用到的节点处配置)填写数据源配置内容点击Test测试连接成功:核心对象切换到核心对象,菜单列出的是Transformation中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。
并且可通过shift+鼠标拖动,实现环节之间的连接。
常用节点介绍(红色节点后面逐一演示)类别环节名称功能说明输入文本文件输入从本地文本文件输入数据表输入从数据库表中输入数据获取系统信息读取系统信息输入数据输出文本文件输出将处理结果输出到文本文件表输出将处理结果输出到数据库表插入/更新根据处理结果对数据库表机型插入更新,如果数据库中不存在相关记录则插入,否则为更新。
会根据查询条件中字段进行判断更新根据处理结果对数据库进行更新,若需要更新的数据在数据库表中无记录,则会报错停止删除根据处理结果对数据库记录进行删除,若需要删除的数据在数据库表中无记录,则会报错停止查询数据库查询根据设定的查询条件,对目标表进行查询,返回需要的结果字段流查询将目标表读取到内存,通过查询条件对内存中数据集进行查询调用DB存储过程调用数据库存储过程转换字段选择选择需要的字段,过滤掉不要的字段,也可做数据库字段对应过滤记录根据条件对记录进行分类排序记录将数据根据某以条件,进行排序空操作无操作增加常量增加需要的常量字段脚本Modified Java扩展功能,编写JavaScript脚本,对数据进行相应处理Script Value映射映射(子转换)数据映射作业Sat Variables设置环境变量Get Variables获取环境变量表输入双击拖动到工作面板上的表输入结点,选择(或者新建)所需要的数据库连接,点击获取SQL查询语句或自行编辑SQL。
Kettle简介及使⽤1.1 ETL简介ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或⾏业应⽤来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握⼀种ETL⼯具的使⽤,必不可少。
市⾯上常⽤的ETL⼯具有很多,⽐如Sqoop,DataX,Kettle,Talend等,作为⼀个⼤数据⼯程师,我们最好要掌握其中的两到三种,这⾥我们要学习的ETL⼯具是Kettle!1.2.1 Kettle是什么Kettle是⼀款国外开源的ETL⼯具,纯java编写,可以在Window、Linux、Unix上运⾏,绿⾊⽆需安装,数据抽取⾼效稳定。
Kettle 中⽂名称叫⽔壶,该项⽬的主程序员MATT 希望把各种数据放到⼀个壶⾥,然后以⼀种指定的格式流出。
Kettle这个ETL⼯具集,它允许你管理来⾃不同数据库的数据,通过提供⼀个图形化的⽤户环境来描述你想做什么,⽽不是你想怎么做。
Kettle中有两种脚本⽂件,transformation和job,transformation完成针对数据的基础转换,job则完成整个⼯作流的控制。
Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。
1.2.2 Kettle的两种设计1.2.3 Kettle的核⼼组件1.2.4 Kettle特点2.1 Kettle下载2.2 Kettle安装部署2.2.1 概述在实际企业开发中,都是在本地Windows环境下进⾏kettle的job和Transformation开发的,可以在本地运⾏,也可以连接远程机器运⾏2.2.2 安装1) 安装jdk,版本建议1.8及以上2) 下载kettle压缩包,因kettle为绿⾊软件,解压缩到任意本地路径即可3) 双击Spoon.bat,启动图形化界⾯⼯具,就可以直接使⽤了2.3 Kettle界⾯简介2.3.1 ⾸页2.3.2 转换2.3.3 作业2.4 Kettle转换初次体验体验案例:将csv⽂件⽤Kettle转换成excel⽂件1)在Kettle中新建⼀个转换,然后选择转换下⾯的“csv⽂件输⼊”和“Excel输出”控件验.csv),然后点击下⾯的获取字段按钮,将我们需要的字段加载到kettle中3)按住键盘SHIFT键,并且点击⿏标左键将两个控件链接起来,链接时选择“主输出步骤”4)双击Excel输出控件,在弹出的设置框⾥设置⽂件输出路径和⽂件名称,然后点击上⾯的字段框,依次点击下⾯的获取字段和最⼩宽度,获取到输出字段。
Spoon 工具使用说明介绍:spoon是一个开源java编写etl开发工具。
我们可以使用它实现多种数据导入工作。
一、登陆界面资源库:指本spoon当中配置的共享的数据库;初始登陆名、密码都为admin;二、程序主界面功能:Transformations:生成转化,即将按照我们既定的规则倒数Job:将我们生成多个转化脚本封装,真正形成一个etl开发整体。
:新建Transformations和Job的快捷菜单三、建立数据库连接在此双击”DB连接”可以新建数据库。
四、Transformations的使用:单击Core Objects将展现Input:输入设备;Output:输出设备;Lookup:查询Transform:转化的各种方法;Joins:联合查询;Scripting:嵌入脚本Data Warehouse:数据仓库Mapping:映射;Job:嵌入job;Inline:嵌入socket;注:每项下面都有很多子功能,我们可以根据自己的需求建立转换。
具体细节,只要了解需求,及基本的数据库知识,基本就可以上手。
事例:济南商行反洗钱项目客户数据抽取流程一、将商行核心系统客户数据抽取到文件。
二、将生成的数据文件导入到本地数据库。
三、将所需的transformation整合,形成etl程序。
具体实施流程一、将商行核心系统客户数据抽取到文件。
1.建立数据库连接:在DB连接上双击左键弹出如下窗口2.新建一个transformations 文件/新建/transformation上图是已经创建好并能完成一定转换功能的转化脚本。
从个人客户资料簿到文本文件输出是一个整体转化流,每个transformation可以包含多个流,但每个流不能有分支,除非有判断。
3.测试我们的建立的transformation方法如下:单击“对号”进行测试如上图,证明编译没有问题,我们可以抽取数据了,注意,编译正确并不代表,此transformation抽取工作可以正常工作,在编译通过后还可能产生运行时异常。