datastage常用组件使用方法:
- 格式:docx
- 大小:24.38 KB
- 文档页数:12
经验总结_DataStage本资料仅供内部使用!经验总结_DataStage2010年09月29日目录1.D A TA S TAGE怎么调用存储过程 (2)2.D A TA S TAGE调度设计 (3)1. DataStage怎么调用存储过程1)打开Desinger2)拉入DB2 Connector控件3)填写参数4)在“Insert statement”属性中输入:call DCDW.SP_ODS2DW_DIRECTOR 5)总体情况如下图:6)编译1)新建“序列作业”2)加入Job Activity控件3)编辑Job Activity控件内容4)调度时间的设置3. DataStage8.5作业日志入库1)原理:新建一个Before/After subroutine,名为RoutineJobInfo,每个JOB运行完后执行一个这个routine,用于将每个job执行完后的相关日志信息写到一个文件里,然后通过一个shell程序runjobinfo将每个job运行的日志信息写入数据表LOG_DATASTAGE中。
每天通过检查LOG_DA TASTAGE表中每个job的状态信息来检查job是否运行失败。
2)步骤第一步,打开Designer 客户机,进入如下界面,找到左边的Routines目录第二步第三步RoutineJobInfo_code.txt 第四步第五步输入参数0;/dcdata/etl/runjobinfo/,在/dcdata/etl/runjobinfo/目录下产生每个JOB运行后的日志信息,文件名为job名称.txt。
3)建立日志表(DCDW.LOG_DATASTAGE)4)Shell程序etl_runjobinfo.sh读取/dcdata/etl/runjobinfo/下产生的每个JOB日志信息,产生JOB运行清单jobfilename.tmp记录运行job名称,将相关信息插入DCDW.LOG_DATASTAGE表。
Datastage应用开发1 Datastage 简介Datastage包含四大部件:Administrator、Manager、Designer、Director。
1.用DataStage Administrator 新建或者删除项目,设置项目的公共属性,比如权限。
2.用DataStage Designer 连接到指定的项目上进行Job的设计;3.用DataStage Director 负责job的运行,监控等。
例如设置设计好的job的调度时间。
4.用DataStage Manager 进行Job的备份等job的管理工作。
2 设计一个JOB示例2.1 环境准备目标:将源表中数据调度到目标表中去。
1 数据库:posuser/posuser@WHORADB , ip: 192.168.100.882 源表:a_test_from3 目标表:a_test_to两者表结构一样,代码参考:create table A_TEST_FROM(ID INTEGER not null,CR_SHOP_NO CHAR(15),SHOP_NAME VARCHAR2(80),SHOP_TEL CHAR(20),YEAR_INCOME NUMBER(16,2),SHOP_CLOSE_DATE DATE,SHOP_OPEN_DATE DATE);alter table A_TEST_FROMadd constraint TEST primary key (ID);4. 示例数据:insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24402, '105420580990038', '宜昌市云集门诊部', '82714596 ', 1000, to_date('01-05-2008', 'dd-mm-yyyy'), to_date('01-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24403, '105420559982198', '于志良', '82714596 ', 2000, to_date('02-05-2008', 'dd-mm-yyyy'), to_date('02-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24404, '105420556410012', '阳光儿童广场', '82714596 ', 3000, to_date('03-05-2008', 'dd-mm-yyyy'), to_date('03-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24405, '105420580620033', '秭归县医疗中心', '82714596 ', 4000, to_date('04-05-2008', 'dd-mm-yyyy'), to_date('04-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24406, '105420559120063', '同德医药零售北门连锁店', '82714596 ', 5000, to_date('05-05-2008', 'dd-mm-yyyy'), to_date('05-06-2008', 'dd-mm-yyyy'));2.2 打开Designer任务:打开datastage designer,连接datastage服务器1.双击桌面datastage designer图标。
用DataStage进行数据整合DataStage 的开发环境是基于C/S 模式的,通过DataStage Client 连接到DataStage Server 上进行开发。
这里有一点需要注意,DataStage Client 只能安装在Windows 平台上面。
而DataStage Server 则支持多种平台,比如Windows、Redhat Linux、AIX、HP-UNIX。
DataStage Client 有四种客户端工具。
分别是DataStage Administrator、DataStage Designer、DataStage Manager、DataStage Director。
接下来首先介绍这几种客户端工具在DataStage 架构中所处的位置以及它们如何协同工作来开发ETL Job 的,接着再分别详细介绍每个工具的功能。
图1 描述了IBM WebSphere DataStage 的整个系统架构。
DataStage 的客户端工具连接到DataStage Server 上进行ETL Job 的开发,DataStage Server 再与后台的数据库连接起来进行数据处理。
DataStage 的客户端工具之间的是一个相互合作的关系。
下面通过介绍ETL Job的开发过程来介绍他们之间的这种关系。
ETL Job开发流程1.用DataStage Administrator 新建一个项目;2.用DataStage Designer 连接到这个新建的项目上进行ETL Job的设计;3.用DataStage Director 对设计好的ETL Job设置运行的模式,比如多长时间运行一次ETL Job;4.用DataStage Manager 进行ETL Job的备份等。
图1:IBM WebSphere DataStage 架构图DataStage AdministratorDataStage Administrator 的主要功能有以下几个:1.设置客户端和服务器连接的最大时间。
DataStage 客户端安装及使用文档1.客户端安装1.1 安装步骤解压客户端文件client_IA-suite.rar,完成后,进入目录,client_IA-suite,运行install.exe,会提示如下:选择英语,点击确定,安装时,最好关闭防火墙,选择要安装客户端的位置,点击NEXT:选择要安装的组件,点击NEXT:选择安装模式,点击NEXT:点击INSTALL后,开始安装:点击FINISH,安装完成。
安装完成后,在本机的HOSTS文件中需要配置一下:目录:C:\Windows\System32\drivers\etc在最后一行添加如下:# localhost name resolution is handled within DNS itself.# 127.0.0.1 localhost# ::1 localhost17.83.26.110(IP地址为服务器地址)ETL110(这个名字可以自己取)1.2 DataStage Client组件安装完成后有如下组件:1.Administrator Client用于创建DataStage 用户,创建,移动项目,设置清除标准的用户界面。
2.Director Client用来验证,计划时间,运行,监控DataStage 作业的用户界面。
3.Designer Client用来创建DataStage 应用(或作业)的设计接口。
每个作业都指定数据源,所需的转换和数据的目的地。
作业被编译成可执行的,由Director 计划,由Server 运行(主机作业被转移,在主机上运行)。
4.Datastage Manager用于存储和管理JOB 的元数据,使之可以在DataStage Designer 中再度被使用,包括库表定义、集中的转换程序等,并对工程备份和恢复。
2.组件使用2.1Administrator Client2.1.1登陆界面ETL110为刚刚我们在HOSTS中配置的名字,端口一般都是9080输入DOMAIN和账号密码完成后,点击DATASTAGE SERVER 右边的小三角,这时DATASTAGE会去验证用户名密码,成功后,会出来下拉框,这时证明已经联通了,选中一个SERVER,点击OK即可登陆2.1.2设置参数登陆成功后,界面如下:General页签:Projects页签:点击工程属性按钮后,显示界面如下:General 页签:Protect Projec t :设置项目为protected, 如果一个项目已经是protected,则按钮就显示为“Unprotect Project”Auto-purge of job log:每个Job 都对应一个log 文件,Job 的每一次运行都会产生新的log 附加到log 文件中,如果不及时清除无用的log,将会占用大量的空间,同时还会影响Job 的运行效率。
DATESTAGE 使用实用指南1.DataStage官方文档学习笔记1.1通过右键添加link鼠标右键点击起始stage,按住右键移动鼠标到目标stage。
还有一种方法就是把鼠标放在起始stage的边缘等到变为一个小圆圈里面有一个叉的时候拖动鼠标到目标stage。
1.2DataStage中默认和隐式类型转换时注意的问题当从源向目标映射数据时,如果类型不一致,对于有些类型我们需要在modify或transfomer stage中通过函数进行转换,对于有些系统会自动完成类型转换,在类型转换过程中,注意以下几点:1 在变长到固定长度字符串的默认转换中,parallel jobs用null(ASCII 0)字符来填充剩余长度。
联系到前面做的一个parallel job,当目标是变长时(当时源也是变长,但是好像源的精度要小些),但是字符串实际的长度没有指定的变长那么长的话,系统会自动用空格(ASCII 20)来填充(具体在哪个stage 填充的不知),而且环境变量APT_STRING_PADCHAR的默认值也是空格(ASCII 20)。
2 通过环境变量APT_STRING_PADCHAR可以改变默认的填充字符null(ASCII 0)。
注:联系上面两点,感觉文档讲的与实际不符,难道我们项目的administrator改变了该环境变量的默认值?3 有个PadString 函数可以用来用指定的字符来填充一个变长的字符串到指定的长度。
这个函数的参数不能使固定长度字符串,如果是固定长度的先转化为变长。
1.3Copy Stage作为占位符在job开发中,当你暂时不知道该使用哪个stage时,可以使用copy stage作为占位符,注意不要把Force 属性设为True,在不把Force设为True时,复制将在运行时进行优化。
使用Schema file来指定meta data1 可以通过列定义和schema file两种方式来指定meta data,值得注意的一点是Note that, if you usea schema file, you should ensure that runtime column propagation is turned on. Otherwise the column definitions specified in the stage editor will always override any schema file.即,如果想通过schema file来指定meta data,必须勾上runtime column propagation,否则总是使用列定义来作为meta data。
Datastage介绍及示例1 Datastage 简介Datastage包含四大部件:Administrator、Manager、Designer、Director。
1.用DataStage Administrator 新建或者删除项目,设置项目的公共属性,比如权限。
2.用DataStage Designer 连接到指定的项目上进行Job的设计;3.用DataStage Director 负责job的运行,监控等。
例如设置设计好的job的调度时间。
4.用DataStage Manager 进行Job的备份等job的管理工作。
2 设计一个JOB示例2.1 环境准备目标:将源表中数据调度到目标表中去。
1 数据库:posuser/posuser@WHORADB , ip: 192.168.100.882 源表:a_test_from3 目标表:a_test_to两者表结构一样,代码参考:create table A_TEST_FROM(ID INTEGER not null,CR_SHOP_NO CHAR(15),SHOP_NAME VARCHAR2(80),SHOP_TEL CHAR(20),YEAR_INCOME NUMBER(16,2),SHOP_CLOSE_DATE DATE,SHOP_OPEN_DATE DATE);alter table A_TEST_FROMadd constraint TEST primary key (ID);4. 示例数据:insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24402, '105420580990038', '宜昌市云集门诊部', '82714596 ', 1000, to_date('01-05-2008', 'dd-mm-yyyy'), to_date('01-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24403, '105420559982198', '于志良', '82714596 ', 2000, to_date('02-05-2008', 'dd-mm-yyyy'), to_date('02-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24404, '105420556410012', '阳光儿童广场', '82714596 ', 3000, to_date('03-05-2008', 'dd-mm-yyyy'), to_date('03-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24405, '105420580620033', '秭归县医疗中心', '82714596 ', 4000, to_date('04-05-2008', 'dd-mm-yyyy'), to_date('04-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24406, '105420559120063', '同德医药零售北门连锁店', '82714596 ', 5000, to_date('05-05-2008', 'dd-mm-yyyy'), to_date('05-06-2008', 'dd-mm-yyyy'));2.2 打开Designer任务:打开datastage designer,连接datastage服务器1.双击桌面datastage designer图标。
DATASTAGE常用组件的使用Datastage产品开发使用指南北京先进数通信息技术有限公司商业智能应用部Datastage产品开发使用指南文档信息标题 Datastage产品开发使用指南2005-12-22 创建日期打印日期文件名 PMA-003-Datastage产品开发使用指南-V1.0.doc DI\PMA 存放目录所有者北京先进数通信息技术有限公司作者何应龙修订记录日期作者描述文档审核/审批姓名职务/职称审核批准文档分发此文档将分发至如下各人姓名职务/职称- i -Datastage产品开发使用指南目录目录 ..................................................................... ..................................................................... II 1. 引言 ..................................................................... .........................................................................1 2. 常用STAGE使用说明 ..................................................................... ........................................... 1 2.1. SEQUENTIAL FILE STAGE .................................................................. ........................................ 1 2.2. ANNOTATION.............................................................. .............................................................. 4 2.3. CHANGE CAPTURESTAGE .................................................................. ....................................... 5 2.4. COPY STAGE................................................................... .......................................................... 7 2.5. FILTERSTAGE .................................................................. ........................................................ 8 2.6. FUNNEL STAGE .................................................................. ....................................................... 9 2.7. TANSFORMERSTAGE .................................................................. ............................................ 10 2.8. SORTSTAGE .................................................................. ......................................................... 11 2.9. LOOKUP STAGE .................................................................. .................................................... 12 2.10. JOIN STAGE .................................................................. ........................................................ 12 2.11. MERGE STAGE .................................................................. .................................................... 14 2.12. MODIFY STAGE .................................................................. (15)DATA SETSTAGE .................................................................. ................................................ 16 2.13.2.14. FILE SETSTAGE .................................................................. .. (17)LOOKUP FILE SETSTAGE .................................................................. .................................... 19 2.15.2.16. ORACLE ENTERPRISESTAGE .................................................................. ............................... 21 2.17. AGGREGATORSTAGE .................................................................. .......................................... 22 2.18. REMOVE DUPLICATES STAGE .................................................................. .............................. 24 2.19. COMPRESSSTAGE .................................................................. .. (25)EXPAND STAGE................................................................... .................................................. 26 2.20.2.21. DIFFERENCESTAGE .................................................................. ............................................ 27 2.22. COMPARESTAGE .................................................................. ................................................ 29 2.23. SWITCH STAGE .................................................................. ................................................... 30 2.24. COLUMN IMPORTSTAGE ....................................................................................................... 31 2.25. COLUMN EXPORTSTAGE .................................................................. ..................................... 33 3. DATASTAGE ADMINISTRATOR常用配置 ..................................................................... ...... 35 3.1. 设置TIMEOUT时间...................................................................... .......................................... 35 3.2. 设置PROJECT的属性 ..................................................................... ........................................ 36 3.3. 更新DATASTAGE SERVER的LICENSE和本地CLIENT的LICENSE .............................................. 37 4. DATASTAGE MANAGER使用 ..................................................................... ........................... 37 4.1. 导入导出JOB及其它组件...................................................................... ................................ 37 4.2. 管理配置文件 ..................................................................... .................................................. 39 5. DATASTAGE DIRECTOR使用 ..................................................................... .......................... 40 5.1. 察看JOB的状态,运行已经编译好的JOB .................................................................... ......... 40 5.2. 将编译好的JOB加入计划任务 ..................................................................... ......................... 43 5.3. 监控JOB的运行情况 ..................................................................... . (44)- ii -Datastage产品开发使用指南1. 引言DataStage EE的开发主要由DataStage Designer完成。
DATASTAGE的介绍及基本操作DataStage的基本操作包括设计和开发数据集成任务、管理数据集成任务的执行、监控任务的运行状态和性能等。
下面将分别介绍DataStage 的设计和开发、任务管理和监控等方面的基本操作。
1.设计和开发数据集成任务:- 创建项目:在DataStage中创建一个新的项目,并指定项目的名称和存储位置。
-创建作业流:在项目中创建一个新的作业流,并指定作业流的名称和描述。
-添加源和目标:将源数据和目标数据的连接器添加到作业流中,并配置其连接属性。
-设计转换:使用图形化工具将数据转换逻辑以节点的方式添加到作业流中。
可以使用预定义的转换函数、过滤器和聚合函数,并自定义转换规则。
-配置作业参数:为作业流设置参数,例如源数据的路径、目标数据的路径等。
-配置作业调度:定义作业流的调度规则,例如每日、每周或每月执行一次。
2.任务管理:- 启动任务:在DataStage的用户界面中选择要执行的作业流,并单击启动按钮来启动任务。
-监控任务状态:查看任务的运行状态,例如正在运行、已完成或已失败。
-管理调度:可以根据需要修改任务的调度规则,例如修改任务的执行时间或频率。
-管理依赖关系:设置任务之间的依赖关系,例如一个任务的输出作为另一个任务的输入,确保任务按照正确的顺序执行。
3.监控任务:- 实时监控:在DataStage的用户界面中查看任务的实时执行情况,包括输入/输出数据的数量、处理速度、错误记录等。
-查看日志:查看任务执行的详细日志,包括每个节点的执行情况、输入/输出数据的详细信息、转换规则的执行结果等。
-分析性能:分析任务的性能指标,例如任务的执行时间、内存使用情况、CPU利用率等,以优化任务的运行效率。
DataStage还提供了其他高级功能,例如数据质量检查、数据变化捕获和增量加载等。
此外,DataStage与其他数据集成工具和平台的集成也是可能的,例如与大数据处理框架Hadoop、数据仓库工具Teradata等的集成。
简介DataStage 使用了Client-Server 架构,服务器端存储所有的项目和元数据,客户端DataStage Designer 为整个ETL 过程提供了一个图形化的开发环境,用所见即所得的方式设计数据的抽取清洗转换整合和加载的过程。
Datastage 的可运行单元是Datastage Job ,用户在Designer 中对Datastage Job 的进行设计和开发。
Datastage 中的Job 分为Server Job, Parallel Job 和Mainframe Job ,其中Mainframe Job 专供大型机上用,常用到的Job 为Server Job 和Parallel Job 。
本文将介绍如何使用Server Job 和Parallel Job 进行ETL 开发。
Server Job一个Job 就是一个Datastage 的可运行单元。
Server Job 是最简单常用的Job 类型,它使用拖拽的方式将基本的设计单元-Stage 拖拽到工作区中,并通过连线的方式代表数据的流向。
通过Server Job,可以实现以下功能。
1.定义数据如何抽取2.定义数据流程3.定义数据的集合4.定义数据的转换5.定义数据的约束条件6.定义数据的聚载7.定义数据的写入Parallel JobServer Job 简单而强大,适合快速开发ETL 流程。
Parallel Job 与Server Job 的不同点在于其提供了并行机制,在支持多节点的情况下可以迅速提高数据处理效率。
Parallel Job 中包含更多的Stage 并用于不同的需求,每种Stage 使用上的限制也往往大于Server Job。
Sequence JobSequence Job 用于Job 之间的协同控制,使用图形化的方式来将多个Job 汇集在一起,并指定了Job 之间的执行顺序,逻辑关系和出错处理等。
数据源的连接DataStage 能够直接连接非常多的数据源,应用范围非常大,可连接的数据源包括:∙文本文件∙XML 文件∙企业应用程序,比如SAP 、PeopleSoft 、Siebel 、Oracle Application∙几乎所有的数据库系统,比如DB2 、Oracle 、SQL Server 、Sybase ASE/IQ 、Teradata 、Informix 以及可通过ODBC 连接的数据库等∙Web Services∙SAS 、WebSphere MQServer JobServer Job 中的Stage 综述Stage 是构成Datastage Job 的基本元素,在Server Job 中,Stage 可分为以下五种:1.General2.Database3.File4.Processing5.Real Time本节中将介绍如何使用Datastage 开发一个Server Job。
常用组件使用方法:1.Sequential file功能特点:适用于一般顺序文件(定长或不定长),可识别文本文件或IBM大机ebcdic文件。
使用要点:按照命名规范命名点住文件,双击鼠标,在general说明此文件内容,格式,存储目录等。
2.Annotation功能特点:一般用于注释,可利用其背景颜色在job中分颜色区别不同功能块3.Change Capture Stage功能特点:Change Capture Stage有两个输入,分别标记为before link 及after link。
输出的数据表示before link 和after link的区别,我们称作change set。
Change Capture Stage可以和Change Apply Stage配合使用来计算after set。
使用要点:key及value的说明:key值是比较的关键值,value是当key值相同是作进一步比较用的。
change mode选项说明:All keys,Explicit Values需要指定value,其余字段为keyExplicit Keys&Valueskey及value都需要指定Explicit Keys,All Values需要指定key,其余的字段为value输出策略说明:Drop Output For CopyFalse:保留before及afte link中key值相同的行True:删除before及afte link中key值相同的行Drop Output For DeleteFalse:保留before link中有但是after link中没有的key值所在的行True:删除before link中有但是afte link中没有的key值所在的行Drop Output For EditFalse:保留key值相同,value不同的行True:删除key值相同,value不同的行Drop Output For InsertFalse:保留before link中没有但afte link中有的key值所在的行True:删除before link中没有但afte link中有的key值所在的行4.Copy Stage功能说明:Copy Stage可以有一个输入,多个输出。
他可以在输出时改变字段的顺序,但是不能改变字段类型。
注意:当只有一个输入及一个输出时最好将Force设置为True,这样可以在Designer里看到运行结束,否则将无法标识运行结束,但不会影响运行结果数据。
5.Filter Stage功能说明:Filter Stage只有一个输入,可以有多个输出。
根据不同的筛选条件,可以将数据输出到不同的output link。
6.Funnel Stage功能说明:将多个字段相同的数据文件合并为一个单独的文件输出合并策略说明:Continuous Funnel:从每一个input link中循环取一条记录Sort Funnel:按照Key值排序合并输出Sequence:先输出第一个input link的数据,输出完毕后再输出第二个input link的数据,依此类推,直到结束。
(此时可以通过调整link Ordering调整输出顺序)7.Tansformer Stage功能说明:一个功能极为强大的Stage。
有一个input link,多个output link,可以将字段进行转换,也可以通过条件来指定数据输出到那个output link。
在开发过程中可以使用拖拽。
Constraint及Derivation的区别Constraint通过限定条件使符合条件的数据输出到这个output link。
Derivation通过定义表达式来转换字段值。
在Constraint及Derivation中可以使用Job parameters及Stage Variables。
注意:Transformer Stage功能强大,但在运行过程中是以牺牲速度为代价的。
在只有简单的变换,拷贝等操作时,最好用Modify Stage,Copy Stage,Filter Stage等来替换Transformer Stage。
8.Sort Stage功能说明:只能有一个输入及一个输出,按照指定的Key值进行排列。
可以选择升序还是降序,是否去除重复的数据等等。
Option具体说明:Allow Duplicates:是否去除重复数据。
为False时,只选取一条数据,当Stable Sort为True时,选取第一条数据。
当Sort Unility为UNIX时此选项无效。
Sort Utility:选择排序时执行应用程序,可以选择DataStage内建的命令或者Unix的Sort命令。
Output Statistics:是否输出排序统计信息到job日志。
Stable Sort:是否对数据进行二次整理。
Create Cluster Key Change Column:是否为每条记录创建一个新的字段:clusterKeyChange。
当Sort Key Mode为Don’t Sort(Previously Sorted) 或Don’t Sort (Previously Grouped)时,对于第一条记录该字段被设置为1,其余的记录设置为0。
Create Key Change Column:是否为每一条记录创建一个新的字段KeyChange。
9.LookUp Stage功能说明:LookUp Stage把数据读入内存执行查询操作,将匹配的字段输出,或者在符合条件的记录中修改或加入新的字段。
10.Join Stage功能说明:将多个表连接后输出11.LookUp Stage 和Join Stage 的区别LookUp Stage将数据读入到内存中,所以效率很高,但是占用了较多的物理内存。
所以当reference data 比较小的时候,我们推荐用LookUp Stage;当reference data比较大的时候,我们推荐用Join Stage。
12.Merge Stage功能说明:将Merge Key值相同的记录合并。
将其中的一个输入设定为Master,其余的为Update。
把Update中Merge Key相同的记录合并入Master。
13.Modify Stage功能说明:Modify stage 只能有一个输入及一个输出,它可以修改表结构:删除,保留一个字段;给字段改名;修改字段的数据类型。
Specification的具体用法:删除一个字段:DROP columnname [, columnname]保留一个字段:KEEP columnname [, columnname]改变字段:new_columnname[:new_type]=[explicit_conversion_function]old_c olumnname可用的explicit_conversion_function请参看Datastage开发参考。
14.Data Set StageStage类型:File stage功能说明:从data set文件中读取数据或者写数据到data set文件中,一个Date Set Stage只能有一个输入连接(input link)或者一个输出连接(output link)。
具体用法:包括Stage Page,Inputs Page,Outputs Page。
Stage Page通常描述了stage的一般信息,诸如名称等;Inputs Page描述了即要写入信息的data set文件的详细信息;主要是Properties和Column的定义。
Properties中配置了文件的存放路径和更新策略;15.File Set StageStage类型:File stage功能说明:从file set文件中读取数据或者写数据到file set文件中,一个File Set Stage只能有一个输入连接(input link)、一个输出连接(output link)和一个拒绝连接(rejects link)。
并且只能在并行模式下执行。
具体用法:Stage Page:对Stage的基本定义Inputs Page:主要是Properties和Format的配置Properties的配置:定义文件的存取路径及其他读写的相关的参数。
特别要说明的是Options下的Reject Mode的选择,当stage有reject link的时候,必须选择Output;没有reject link时,可选择其他两个选项。
Format的配置:定义了数据写到文件中的格式Outputs Page:对stage输出的数据字段的描述,另外,reject link的输出系统将默认,不需要用户自己定义字段。
16.Lookup File Set StageStage类型:File stage功能说明:为执行查找操作而创建的参照文件。
作为查找的参照数据,通常在参照数据比较大量或者重复使用率较高的情况下,将参照数据生成专门的Lookup File Set文件,以便提高查找的效率具体用法:Inputs Page:主要定义了查找关键字和存放路径等主要信息Outputs Page:当作为参照数据进行查找操作时,因为文件是已经生成好的,所以在这里不需要再做详细的定义,只要引入即可。
17.Oracle Enterprise StageStage类型:Database Stage功能说明:从Oracle数据库中读取数据或者写数据到Oracle数据库中。
通常完成的操作:使用INSERT或UPDATWE命令更新数据库表装入数据库表读取数据库表从数据库表中删除行在库表中直接执行查询操作将库表装入内存,然后执行查询操作具体用法:Inputs Page:向数据库中写数据,关键是对Properties的配置Outputs Page:与Inputs Page类似,只是完成的是从数据库中读取数据。
18.Aggregator StageStage类型:Processing Stage功能说明:将输入的数据分组,计算各组数据的总和或者按组进行其他的操作,最后将结果数据输出到其他的stage。
具体用法:Stage Page:描述stage的一般信息以及字段的分组信息和选择分组计算函数Inputs Page:详细描述输入数据信息,一般直接反映输入数据字段信息Oupputs Page:详细描述输出数据信息,即经过分组计算后的数据字段信息19.Remove Duplicates StageStage类型:Processing Stage功能说明:输入根据关键字分好类的有序数据,去除所有记录中关键字重复的记录,通常与sort stage配合使用具体用法:Stage Page:Properties中的key值与之前sort stage的分类key值相同Inputs Page:对输入数据字段的描述Oupputs Page:对输出数据字段的描述20.Compress StageStage类型:Processing Stage功能说明:将data set文件压缩成二进制文件(与expend datastage相对应)具体用法:Inputs Page:对输入数据字段的描述Oupputs Page:对输出数据字段的描述21.Expand StageStage类型:Processing Stage功能说明:将压缩的二进制文件解压缩(解压缩compress stage生成的压缩文件)具体用法:Inputs Page:对输入数据字段的描述Oupputs Page:对输出数据字段的描述22.Difference StageStage类型:Processing Stage功能说明:按字段比较两个文件,找出不同的记录。