datastage常用组件使用方法：

格式：docx
大小：24.38 KB
文档页数：12

下载文档原格式

经验总结_DataStage

经验总结_DataStage本资料仅供内部使用！经验总结_DataStage2010年09月29日目录1.D A TA S TAGE怎么调用存储过程 (2)2.D A TA S TAGE调度设计 (3)1. DataStage怎么调用存储过程1）打开Desinger2）拉入DB2 Connector控件3）填写参数4）在“Insert statement”属性中输入：call DCDW.SP_ODS2DW_DIRECTOR 5）总体情况如下图：6）编译1）新建“序列作业”2）加入Job Activity控件3）编辑Job Activity控件内容4）调度时间的设置3. DataStage8.5作业日志入库1)原理：新建一个Before/After subroutine，名为RoutineJobInfo，每个JOB运行完后执行一个这个routine，用于将每个job执行完后的相关日志信息写到一个文件里，然后通过一个shell程序runjobinfo将每个job运行的日志信息写入数据表LOG_DATASTAGE中。

每天通过检查LOG_DA TASTAGE表中每个job的状态信息来检查job是否运行失败。

2)步骤第一步，打开Designer 客户机，进入如下界面，找到左边的Routines目录第二步第三步RoutineJobInfo_code.txt 第四步第五步输入参数0;/dcdata/etl/runjobinfo/，在/dcdata/etl/runjobinfo/目录下产生每个JOB运行后的日志信息，文件名为job名称.txt。

3)建立日志表(DCDW.LOG_DATASTAGE)4)Shell程序etl_runjobinfo.sh读取/dcdata/etl/runjobinfo/下产生的每个JOB日志信息，产生JOB运行清单jobfilename.tmp记录运行job名称，将相关信息插入DCDW.LOG_DATASTAGE表。

Datastager入门应用开发(详细示例)

Datastage应用开发1 Datastage 简介Datastage包含四大部件：Administrator、Manager、Designer、Director。

1．用DataStage Administrator 新建或者删除项目，设置项目的公共属性，比如权限。

2．用DataStage Designer 连接到指定的项目上进行Job的设计；3．用DataStage Director 负责job的运行，监控等。

例如设置设计好的job的调度时间。

4．用DataStage Manager 进行Job的备份等job的管理工作。

2 设计一个JOB示例2.1 环境准备目标：将源表中数据调度到目标表中去。

1 数据库：posuser/posuser@WHORADB , ip: 192.168.100.882 源表：a_test_from3 目标表：a_test_to两者表结构一样，代码参考：create table A_TEST_FROM(ID INTEGER not null,CR_SHOP_NO CHAR(15),SHOP_NAME VARCHAR2(80),SHOP_TEL CHAR(20),YEAR_INCOME NUMBER(16,2),SHOP_CLOSE_DATE DATE,SHOP_OPEN_DATE DATE)；alter table A_TEST_FROMadd constraint TEST primary key (ID)；4. 示例数据：insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24402, '105420580990038', '宜昌市云集门诊部', '82714596 ', 1000, to_date('01-05-2008', 'dd-mm-yyyy'), to_date('01-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24403, '105420559982198', '于志良', '82714596 ', 2000, to_date('02-05-2008', 'dd-mm-yyyy'), to_date('02-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24404, '105420556410012', '阳光儿童广场', '82714596 ', 3000, to_date('03-05-2008', 'dd-mm-yyyy'), to_date('03-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24405, '105420580620033', '秭归县医疗中心', '82714596 ', 4000, to_date('04-05-2008', 'dd-mm-yyyy'), to_date('04-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24406, '105420559120063', '同德医药零售北门连锁店', '82714596 ', 5000, to_date('05-05-2008', 'dd-mm-yyyy'), to_date('05-06-2008', 'dd-mm-yyyy'));2.2 打开Designer任务：打开datastage designer，连接datastage服务器1．双击桌面datastage designer图标。

DATASTAGE的介绍及基本操作

DATASTAGE 介绍及基本操作
内容提要：
• 一、datastage 介绍 • 二、如何安装datastage • 三、配置datastage 工程 • 四、设计并运行datastage的job • 五、操作元数据 • 六、操作关联数据 • 七、操作约束条件及数据来源 • 八、定义查找使用的哈希文件 • 九、聚合数据 • 十、job的运行及调试 • 十一、创建Basic表达式
• 使用DataStage中的Manager来存储和管理Job的元
数据，使之可以在DataStage中的Designer中再度被使用。
• 元数据包括表单和文件结构和导出数据的Routines
的转换等等。
• Manager是DataStage存储的一个重要的部分，可以
用来加入表单和文件的结构，在左侧分支树中显示 Routines、Transforms和Jobs。
• 问题二：
Datastage的Manager用来执行编译通过的Jobs。（Yes/No）
答案二：
No， Datastage的Manager是用来管理元数据的，如表单结构，内置和自定义Routines等的，使Datastage用来管理资源存储的。
• 问题三：
Datastage的Director用来执行编译通过的Jobs。（Yes/No）答案三：
程中系统提示使用者选择安装路径和输入产品序列号。
在Datastage Server安装的过程中会提示用户建立一个工程。
在安装Datastage Server端以后，需要安装Datastage Client端，鼠标点击
软件会自动进行安装，安装过程中系统提示使用者选择安装路径和输入产品序列号。
• 安装有Datastage服务端的机器，必须运行

datastage使用说明

用DataStage进行数据整合DataStage 的开发环境是基于C/S 模式的，通过DataStage Client 连接到DataStage Server 上进行开发。

这里有一点需要注意，DataStage Client 只能安装在Windows 平台上面。

而DataStage Server 则支持多种平台，比如Windows、Redhat Linux、AIX、HP-UNIX。

DataStage Client 有四种客户端工具。

分别是DataStage Administrator、DataStage Designer、DataStage Manager、DataStage Director。

接下来首先介绍这几种客户端工具在DataStage 架构中所处的位置以及它们如何协同工作来开发ETL Job 的，接着再分别详细介绍每个工具的功能。

图1 描述了IBM WebSphere DataStage 的整个系统架构。

DataStage 的客户端工具连接到DataStage Server 上进行ETL Job 的开发，DataStage Server 再与后台的数据库连接起来进行数据处理。

DataStage 的客户端工具之间的是一个相互合作的关系。

下面通过介绍ETL Job的开发过程来介绍他们之间的这种关系。

ETL Job开发流程1．用DataStage Administrator 新建一个项目；2．用DataStage Designer 连接到这个新建的项目上进行ETL Job的设计；3．用DataStage Director 对设计好的ETL Job设置运行的模式，比如多长时间运行一次ETL Job；4．用DataStage Manager 进行ETL Job的备份等。

图1：IBM WebSphere DataStage 架构图DataStage AdministratorDataStage Administrator 的主要功能有以下几个：1．设置客户端和服务器连接的最大时间。

DataStage客户端安装及使用文档

DataStage 客户端安装及使用文档1.客户端安装1.1 安装步骤解压客户端文件client_IA-suite.rar，完成后，进入目录，client_IA-suite，运行install.exe，会提示如下：选择英语，点击确定，安装时，最好关闭防火墙，选择要安装客户端的位置，点击NEXT：选择要安装的组件，点击NEXT：选择安装模式，点击NEXT：点击INSTALL后，开始安装：点击FINISH，安装完成。

安装完成后，在本机的HOSTS文件中需要配置一下：目录：C:\Windows\System32\drivers\etc在最后一行添加如下：# localhost name resolution is handled within DNS itself.# 127.0.0.1 localhost# ::1 localhost17.83.26.110（IP地址为服务器地址）ETL110（这个名字可以自己取）1.2 DataStage Client组件安装完成后有如下组件：1.Administrator Client用于创建DataStage 用户，创建，移动项目，设置清除标准的用户界面。

2.Director Client用来验证，计划时间，运行，监控DataStage 作业的用户界面。

3.Designer Client用来创建DataStage 应用（或作业）的设计接口。

每个作业都指定数据源，所需的转换和数据的目的地。

作业被编译成可执行的，由Director 计划，由Server 运行（主机作业被转移，在主机上运行）。

4.Datastage Manager用于存储和管理JOB 的元数据，使之可以在DataStage Designer 中再度被使用，包括库表定义、集中的转换程序等，并对工程备份和恢复。

2.组件使用2.1Administrator Client2.1.1登陆界面ETL110为刚刚我们在HOSTS中配置的名字，端口一般都是9080输入DOMAIN和账号密码完成后，点击DATASTAGE SERVER 右边的小三角，这时DATASTAGE会去验证用户名密码，成功后，会出来下拉框，这时证明已经联通了，选中一个SERVER，点击OK即可登陆2.1.2设置参数登陆成功后，界面如下：General页签：Projects页签：点击工程属性按钮后，显示界面如下：General 页签：Protect Projec t :设置项目为protected, 如果一个项目已经是protected，则按钮就显示为“Unprotect Project”Auto-purge of job log：每个Job 都对应一个log 文件，Job 的每一次运行都会产生新的log 附加到log 文件中，如果不及时清除无用的log，将会占用大量的空间，同时还会影响Job 的运行效率。

DATASTAGE使用实用指南

DATESTAGE 使用实用指南1.DataStage官方文档学习笔记1.1通过右键添加link鼠标右键点击起始stage，按住右键移动鼠标到目标stage。

还有一种方法就是把鼠标放在起始stage的边缘等到变为一个小圆圈里面有一个叉的时候拖动鼠标到目标stage。

1.2DataStage中默认和隐式类型转换时注意的问题当从源向目标映射数据时，如果类型不一致，对于有些类型我们需要在modify或transfomer stage中通过函数进行转换，对于有些系统会自动完成类型转换，在类型转换过程中，注意以下几点：1 在变长到固定长度字符串的默认转换中，parallel jobs用null（ASCII 0）字符来填充剩余长度。

联系到前面做的一个parallel job，当目标是变长时（当时源也是变长，但是好像源的精度要小些），但是字符串实际的长度没有指定的变长那么长的话，系统会自动用空格（ASCII 20）来填充（具体在哪个stage 填充的不知），而且环境变量APT_STRING_PADCHAR的默认值也是空格（ASCII 20）。

2 通过环境变量APT_STRING_PADCHAR可以改变默认的填充字符null（ASCII 0）。

注：联系上面两点，感觉文档讲的与实际不符，难道我们项目的administrator改变了该环境变量的默认值？3 有个PadString 函数可以用来用指定的字符来填充一个变长的字符串到指定的长度。

这个函数的参数不能使固定长度字符串，如果是固定长度的先转化为变长。

1.3Copy Stage作为占位符在job开发中，当你暂时不知道该使用哪个stage时，可以使用copy stage作为占位符，注意不要把Force 属性设为True，在不把Force设为True时，复制将在运行时进行优化。

使用Schema file来指定meta data1 可以通过列定义和schema file两种方式来指定meta data，值得注意的一点是Note that, if you usea schema file, you should ensure that runtime column propagation is turned on. Otherwise the column definitions specified in the stage editor will always override any schema file.即，如果想通过schema file来指定meta data，必须勾上runtime column propagation，否则总是使用列定义来作为meta data。

Datastage介绍及示例

Datastage介绍及示例1 Datastage 简介Datastage包含四大部件：Administrator、Manager、Designer、Director。

1．用DataStage Administrator 新建或者删除项目，设置项目的公共属性，比如权限。

2．用DataStage Designer 连接到指定的项目上进行Job的设计；3．用DataStage Director 负责job的运行，监控等。

例如设置设计好的job的调度时间。

4．用DataStage Manager 进行Job的备份等job的管理工作。

2 设计一个JOB示例2.1 环境准备目标：将源表中数据调度到目标表中去。

DATASTAGE常用组件的使用

DATASTAGE常用组件的使用Datastage产品开发使用指南北京先进数通信息技术有限公司商业智能应用部Datastage产品开发使用指南文档信息标题 Datastage产品开发使用指南2005-12-22 创建日期打印日期文件名 PMA-003-Datastage产品开发使用指南-V1.0.doc DI\PMA 存放目录所有者北京先进数通信息技术有限公司作者何应龙修订记录日期作者描述文档审核/审批姓名职务/职称审核批准文档分发此文档将分发至如下各人姓名职务/职称- i -Datastage产品开发使用指南目录目录 ..................................................................... ..................................................................... II 1. 引言 ..................................................................... .........................................................................1 2. 常用STAGE使用说明 ..................................................................... ........................................... 1 2.1. SEQUENTIAL FILE STAGE .................................................................. ........................................ 1 2.2. ANNOTATION.............................................................. .............................................................. 4 2.3. CHANGE CAPTURESTAGE .................................................................. ....................................... 5 2.4. COPY STAGE................................................................... .......................................................... 7 2.5. FILTERSTAGE .................................................................. ........................................................ 8 2.6. FUNNEL STAGE .................................................................. ....................................................... 9 2.7. TANSFORMERSTAGE .................................................................. ............................................ 10 2.8. SORTSTAGE .................................................................. ......................................................... 11 2.9. LOOKUP STAGE .................................................................. .................................................... 12 2.10. JOIN STAGE .................................................................. ........................................................ 12 2.11. MERGE STAGE .................................................................. .................................................... 14 2.12. MODIFY STAGE .................................................................. (15)DATA SETSTAGE .................................................................. ................................................ 16 2.13.2.14. FILE SETSTAGE .................................................................. .. (17)LOOKUP FILE SETSTAGE .................................................................. .................................... 19 2.15.2.16. ORACLE ENTERPRISESTAGE .................................................................. ............................... 21 2.17. AGGREGATORSTAGE .................................................................. .......................................... 22 2.18. REMOVE DUPLICATES STAGE .................................................................. .............................. 24 2.19. COMPRESSSTAGE .................................................................. .. (25)EXPAND STAGE................................................................... .................................................. 26 2.20.2.21. DIFFERENCESTAGE .................................................................. ............................................ 27 2.22. COMPARESTAGE .................................................................. ................................................ 29 2.23. SWITCH STAGE .................................................................. ................................................... 30 2.24. COLUMN IMPORTSTAGE ....................................................................................................... 31 2.25. COLUMN EXPORTSTAGE .................................................................. ..................................... 33 3. DATASTAGE ADMINISTRATOR常用配置 ..................................................................... ...... 35 3.1. 设置TIMEOUT时间...................................................................... .......................................... 35 3.2. 设置PROJECT的属性 ..................................................................... ........................................ 36 3.3. 更新DATASTAGE SERVER的LICENSE和本地CLIENT的LICENSE .............................................. 37 4. DATASTAGE MANAGER使用 ..................................................................... ........................... 37 4.1. 导入导出JOB及其它组件...................................................................... ................................ 37 4.2. 管理配置文件 ..................................................................... .................................................. 39 5. DATASTAGE DIRECTOR使用 ..................................................................... .......................... 40 5.1. 察看JOB的状态，运行已经编译好的JOB .................................................................... ......... 40 5.2. 将编译好的JOB加入计划任务 ..................................................................... ......................... 43 5.3. 监控JOB的运行情况 ..................................................................... . (44)- ii -Datastage产品开发使用指南1. 引言DataStage EE的开发主要由DataStage Designer完成。

DATASTAGE的介绍及基本操作

DATASTAGE的介绍及基本操作DataStage的基本操作包括设计和开发数据集成任务、管理数据集成任务的执行、监控任务的运行状态和性能等。

下面将分别介绍DataStage 的设计和开发、任务管理和监控等方面的基本操作。

1.设计和开发数据集成任务：- 创建项目：在DataStage中创建一个新的项目，并指定项目的名称和存储位置。

-创建作业流：在项目中创建一个新的作业流，并指定作业流的名称和描述。

-添加源和目标：将源数据和目标数据的连接器添加到作业流中，并配置其连接属性。

-设计转换：使用图形化工具将数据转换逻辑以节点的方式添加到作业流中。

可以使用预定义的转换函数、过滤器和聚合函数，并自定义转换规则。

-配置作业参数：为作业流设置参数，例如源数据的路径、目标数据的路径等。

-配置作业调度：定义作业流的调度规则，例如每日、每周或每月执行一次。

2.任务管理：- 启动任务：在DataStage的用户界面中选择要执行的作业流，并单击启动按钮来启动任务。

-监控任务状态：查看任务的运行状态，例如正在运行、已完成或已失败。

-管理调度：可以根据需要修改任务的调度规则，例如修改任务的执行时间或频率。

-管理依赖关系：设置任务之间的依赖关系，例如一个任务的输出作为另一个任务的输入，确保任务按照正确的顺序执行。

3.监控任务：- 实时监控：在DataStage的用户界面中查看任务的实时执行情况，包括输入/输出数据的数量、处理速度、错误记录等。

-查看日志：查看任务执行的详细日志，包括每个节点的执行情况、输入/输出数据的详细信息、转换规则的执行结果等。

-分析性能：分析任务的性能指标，例如任务的执行时间、内存使用情况、CPU利用率等，以优化任务的运行效率。

DataStage还提供了其他高级功能，例如数据质量检查、数据变化捕获和增量加载等。

此外，DataStage与其他数据集成工具和平台的集成也是可能的，例如与大数据处理框架Hadoop、数据仓库工具Teradata等的集成。

datastage入门教程

简介DataStage 使用了Client-Server 架构，服务器端存储所有的项目和元数据，客户端DataStage Designer 为整个ETL 过程提供了一个图形化的开发环境，用所见即所得的方式设计数据的抽取清洗转换整合和加载的过程。

Datastage 的可运行单元是Datastage Job ，用户在Designer 中对Datastage Job 的进行设计和开发。

Datastage 中的Job 分为Server Job, Parallel Job 和Mainframe Job ，其中Mainframe Job 专供大型机上用，常用到的Job 为Server Job 和Parallel Job 。

本文将介绍如何使用Server Job 和Parallel Job 进行ETL 开发。

Server Job一个Job 就是一个Datastage 的可运行单元。

Server Job 是最简单常用的Job 类型，它使用拖拽的方式将基本的设计单元-Stage 拖拽到工作区中，并通过连线的方式代表数据的流向。

通过Server Job，可以实现以下功能。

1.定义数据如何抽取2.定义数据流程3.定义数据的集合4.定义数据的转换5.定义数据的约束条件6.定义数据的聚载7.定义数据的写入Parallel JobServer Job 简单而强大，适合快速开发ETL 流程。

Parallel Job 与Server Job 的不同点在于其提供了并行机制，在支持多节点的情况下可以迅速提高数据处理效率。

Parallel Job 中包含更多的Stage 并用于不同的需求，每种Stage 使用上的限制也往往大于Server Job。

Sequence JobSequence Job 用于Job 之间的协同控制，使用图形化的方式来将多个Job 汇集在一起，并指定了Job 之间的执行顺序，逻辑关系和出错处理等。

数据源的连接DataStage 能够直接连接非常多的数据源，应用范围非常大，可连接的数据源包括：∙文本文件∙XML 文件∙企业应用程序，比如SAP 、PeopleSoft 、Siebel 、Oracle Application∙几乎所有的数据库系统，比如DB2 、Oracle 、SQL Server 、Sybase ASE/IQ 、Teradata 、Informix 以及可通过ODBC 连接的数据库等∙Web Services∙SAS 、WebSphere MQServer JobServer Job 中的Stage 综述Stage 是构成Datastage Job 的基本元素，在Server Job 中，Stage 可分为以下五种：1.General2.Database3.File4.Processing5.Real Time本节中将介绍如何使用Datastage 开发一个Server Job。

DataStage控件说明

Tail
从一个输入数据集合分区中选择最后一个 N条记录并且将
选择的记录拷贝的输出数据集合中
Write Range Map Encode
将数据写入range map；抓取排序或排序产生的数据集合，并写入到一个文件用于范围分区方法（是不是把一个数据集分离成一或多个）
SAS
用于并行执行部分s as 应用
DB2
Orac le （这个是最常用的）
Informix XPS （听讲公司用这个还是比较多的）
IBM DB2 UDB访问从DB2数据库读取数据或将数据写入DB2数据库顺序执行或并行执行支持DB2的hash分区支持write、upsert和load的写方法支持表、自动产生SQL和用户定义SQL读方法
Change Apply Head
抓取变化数据，包括前面或后面数据记录的变化，从 change capture stage并应用编码改变操作到前面数据集合，计算一个后面数据集合
从一个输入数据集合分区中选择第一个N 条记录并且将选择的记录拷贝的输出数据集合中
根据选择器字段的值，将一个输入记录分配到一个输出的 lin k，支持128个output link和1个reject link。
Change Capture
抓取两个输入数据集合，表现为前和后，并且获取后面的数据路输出一个记录表现已经改变的数据集合到前数据集合
使用支持的unix编码命令对一个数据集合进行编码；将一个顺序数据集合转换到没有处理过的二进制数据流
Decode Co mpress Expand Diffe rence Colu mn Import

DataStage开发指南

DataStage开发指南DataStage开发指南DataStage EE开发指南目录目录 ..................................................................... . (I)1. 引言 ..................................................................... .........................................................................1 1.1 编写目的 ..................................................................... ............................................................ 1 1.2 帮助使用 ..................................................................... ............................................................ 1 2. 产品概述 ..................................................................... .................................................................. 2 3. 常规应用 ..................................................................... .................................................................. 3 3.1 常用组件使用方法 ..................................................................... ............................................. 3 3.1.1 Sequentialfile ................................................................... ................................................. 3 3.1.2Annotation ............................................................. ............................................................ 7 3.1.3 Change CaptureStage .................................................................. ...................................... 8 3.1.4 CopyStage .................................................................. .................................................... 10 3.1.5 Filter Stage .................................................................. .................................................... 11 3.1.6 Funnel Stage .................................................................. .................................................. 12 3.1.7 Tansformer Stage .................................................................. ........................................... 13 3.1.8 SortStage .................................................................. ...................................................... 14 3.1.9 LookUp Stage .................................................................. ................................................ 15 3.1.10 JoinStage .................................................................. .................................................... 16 3.1.11 LookUp Stage 和 Join Stage的区别...................................................................... ........ 17 3.1.12 MergeStage .................................................................. ................................................. 18 3.1.13 Modify Stage .................................................................. ............................................... 19 3.1.14 Data Set Stage .................................................................. .............................................. 20 3.1.15 File SetStage .................................................................. ............................................... 22 3.1.16 Lookup File SetStage .................................................................. .................................. 23 3.1.17 Oracle EnterpriseStage .................................................................. ................................ 26 3.1.18 Aggregator Stage................................................................... ......................................... 28 3.1.19 Remove Duplicates Stage .................................................................. ............................. 30 3.1.20 CompressStage .................................................................. ............................................ 31 3.1.21 ExpandStage .................................................................. ............................................... 32 3.1.22 Difference Stage............................................................................................................. 33 3.1.23 CompareStage .................................................................. ............................................. 36 3.1.24 SwitchStage .................................................................. ................................................ 37 3.1.25 Column Import Stage .................................................................. ................................... 39 3.1.26 Column ExportStage .................................................................. ................................... 41 3.1.27 Teradata EnterpriseStage .................................................................. ............................. 43 3.2 常用数据库的连接 ..................................................................... ........................................... 45 3.2.1 Informix数据库连接 ..................................................................... ................................... 45 3.2.2 Oracle数据库连接 ..................................................................... ...................................... 46 4. 高级应用 ..................................................................... ................................................................ 48 4.1 DATASTAGE BASIC接口 ..................................................................... ................................... 48 4.2 自定义STAGETYPE ................................................................... ............................................. 49 4.2.1 WrappedStage .................................................................. ............................................... 49 4.2.2 BuildStage .................................................................. .................................................... 49 4.2.3 Custom Stage .................................................................. ................................................. 49 4.3 性能调优 ..................................................................... .......................................................... 49 4.3.1 优化策略 ..................................................................... ................................................... 49 4.3.2 关键问题分析 ..................................................................... ........................................... 54 4.3.3 并行度 ..................................................................... . (54)DataStage EE开发指南4.3.4 处理建议 ..................................................................... ................................................... 55 4.3.5 其它...................................................................... .......................................................... 56 4.3.6 机器的对称性 ..................................................................... ........................................... 56 4.3.7 并行调度测试说明: .................................................................... ................................. 56 5. 开发经验技巧汇总 ..................................................................... .............. 错误～未定义书签。

datastage教程

1、【第一章】datastage简介与工作原理1、简介数据中心（数据仓库）中的数据来自于多种业务数据源，这些数据源可能是不同硬件平台上，使用不同的操作系统，数据模型也相差很远，因而数据以不同的方式存在不同的数据库中。

如何获取并向数据中心（数据仓库）加载这些数据量大、种类多的数据，已成为建立数据中心（数据仓库）所面临的一个关键问题。

针对目前系统的数据来源复杂，而且分析应用尚未成型的现状，专业的数据抽取、转换和装载工具DataStage是最好的选择。

Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化，并将其输入数据集市或数据中心（数据仓库）目标数据库的集成工具。

DataStage 能够处理多种数据源的数据，包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等，以下列出它所能处理的主要数据源：大型主机系统数据库：IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库：Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统：SAP/R3,PeopleSoft系统等，普通文件和复杂文件系统，FTP 文件系统，XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。

DataStage 可以从多个不同的业务系统中，从多个平台的数据源中抽取数据，完成转换和清洗，装载到各种系统里面。

其中每步都可以在图形化工具里完成，同样可以灵活的被外部系统调度，提供专门的设计工具来设计转换规则和清洗规则等，实现了增量抽取、任务调度等多种复杂而实用的功能。

其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现，复杂转换可以通过编写脚本或结合其他语言的扩展来实现，并且DataStage 提供调试环境，可以极大提高开发和调试抽取、转换程序的效率。

DataStage Stage使用

Funnel阶段Funnel阶段是一个处理阶段。

它将多个输入数据集复制到单个数据集，该操作对于将单独数据集合并到单个大型数据集而言非常有用。

该阶段可以有众多输入链接和一个输出链接Funnel阶段能够以下列三种方式之一运行：1、连续传送以不可保证顺序合并输入数据的记录。

它依次从每个输入链接获取一条记录。

如果输入链接上的数据不可用，那么该阶段会跳至下一个链接，而不是等待。

2、排序传送按照一个或多个键列的值定义的顺序合并输入记录，输出记录的顺序由这绡排序键确定。

3、顺序将第一个输入数据集中的所有记录复制到输出数据集，然后将第二个输入数据集中的所有记录复制到输出数据集，依此类推。

对于所有方法，所有数据数据集的元数据都必须椒相同的。

排序传送方法对于其输入数据有一些特定要求。

所有输入数据集都必须根据Funnel操作的键列进行排序。

通常，排序传送操作的所有输入数据集在排序之前都是散列分区的（选择自动分区方法将确保完成这一操作）.散列分区可确保具有相同键列值的所有记录都位于同一分区中，以便在同一个节点上处理。

如果在Funnel阶段之前在单独的阶段上执行排序和分区，那么必须保留该分区排序传送操作允许您设置一个主键和多个辅键以确定将输出的记录的顺序。

Funnel阶段：快速路径InfoSphere DataStage有许多缺省设置，这表示您能够载作业中轻松包含Funnel阶段。

本部分指定了要使Funnel阶段运行所需的最少步骤。

InfoSphere DataStage提供了多样化的用户界面，且提供了许多快捷方式供您达到特定目标，本部分描述了基本方法。

要使用Funnel阶段：1、在“阶段”页面的属性选项卡中，指定“传送类型”。

“连续传送”为缺省值，但也可以选择“顺序”或“排序传送”。

如果选择使用“排序传送”方法，则还需要指定对数据进行排序所依据的键。

可以重复使用键属性来指定组合键。

2、如果使用“顺序”方法，请在“阶段”页面的“链接排序”选项卡中，指定合并数据集的顺序。

DataStage进行数据整合第 2 部分

在本文中，您将看到一个同时处理多个数据源和目标的 ETL Job 的开发过程，并了解DataStage 中 Container 和 Job Sequence 的用法。

引言系列的第一部分介绍了 DataStage 的基本功能。

本文将从以下几个方面深入介绍 IBM WebSphere DataStage 在数据整合方面的强大功能。

1． Job Sequence 的用法2． DataStage Container 的用法3．开发一个同时处理多个数据源和目标的 ETL JobJob Sequence 的用法在用 IBM WebSphere DataStage 进行数据整合的过程中，我们一般会开发很多个单独的 ETL Job 去完成特定的逻辑功能，这些 ETL Job 之间的运行顺序往往是有限制的，那么我们如何处理 ETL Job 之间的这种依赖关系呢？IBM WebSphere DataStage 提供了处理这种问题的方法，那就是使用 Job Sequence。

使用 Job Sequence 可以方便的处理 ETL Job 之间的依赖以及运行顺序问题。

下面我们通过开发一个简单的 Job Sequence 来演示 Job Sequence 的用法。

开发一个 Job Sequence 和开发一个 ETL Job 的方法是类似的，都是用 DataStage Designer 来开发。

我们将要开发的这个 Job Sequence 的功能是实现两个 ETL Job 的顺序执行，并且在第一个 ETL Job 运行成功的情况下第二个 ETL Job 才开始执行。

因此我们必须先准备两个 ETL Job，这两个 ETL Job 的名字分别为 Job1 和 Job2。

开发步骤1．打开 DataStage Designer。

如下图所示，从下拉列表中选择 Job Sequence。

这样就会新建一个 Job Sequence；图 1：新建 Job Sequence2. 新建的 Job Sequence 如下图所示。

Datastage 配置操作步骤

1部署软件环境DB服务器：22.4.8.7DB客户端：22.4.8.10，22.4.8.11，22.4.8.12，22.4.8.13DataStage主服务器：22.4.8.11DataStage备份服务器：22.4.8.13DataStage节点：22.5.8.10，22.5.8.122创建用户为每台机器创建dstage组和dsadm用户运行smit命令，启动管理界面在安装机器上创建dstage组设置ADMINISTRA TIVE USER 选项为true设置GID设为300创建用户dsadm设置主属为dstage，设置ADMINISTRA TIVE USER 选项为true；设置UID设为300；设置Primary GROUP，Group SET，ADMINISTRATIVE GROUPS：均为dstage；设置Soft FILE size [-1] （无限制）设置Hard FILE size [-1] （无限制）3修改系统参数调整每台机器的最大进程数查看用户进程最大数目：lsattr -El sys0|grep maxuproc如：修改用户进程最大数目：注意：要调整每个Ｄatastage节点的最大进程数用root用户登陆，键入即可。

chdev -l sys0 -a maxuproc=40964DataStage安装4.1上传DataStage介质到服务器上将介质拷贝到终端上，然后ftp到22.4.8.11和22.4.8.13上，将介质放在/Ascential.media 目录下，并赋上所有权限：chmod -R 777 /Ascential.media4.2安装DataStage4.2.1进入/Ascential.media，运行sh ./install.sh –admin dsadm，中间安装过程请参考上线文档，在安装过程中创建工程ETL_ODS.4.2.2配置dsadm用户.profile环境变量，增加如下内容22.4.8.11：# The following three lines have been added by IBM DB2 instance utilities.if [ -f /home/db2inst1/sqllib/db2profile ]; then. /home/db2inst1/sqllib/db2profilefi#ds envexport ETLPLUS_HOME=/home/dsadmexport DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2HOME=/home/db2inst1/sqllibexportPATH=$PATH:$DSHOME/bin:$DB2HOME/include:/home/dsadm/Ascential/DataStage/PX Engine.753.1/libexportLIBPATH=$LIBPA TH:$DSHOME/lib:$APT_ORCHHOME/lib:/home/dsadm/Ascential/Dat aStage/PXEngine.753.1/lib. $DSHOME/dsenv22.4.8.13：# The following three lines have been added by IBM DB2 instance utilities.if [ -f /home/db2inst1/sqllib/db2profile ]; then. /home/db2inst1/sqllib/db2profilefi#ds envexport ETLPLUS_HOME=/home/dsadmexport DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2HOME=/home/db2inst1/sqllibexportPATH=$PATH:$DSHOME/bin:$DB2HOME/include:/home/dsadm/Ascential/DataStage/PX Engine.753.1/libexportLIBPATH=$LIBPA TH:$DSHOME/lib:$APT_ORCHHOME/lib:/home/dsadm/Ascential/Dat aStage/PXEngine.753.1/lib. $DSHOME/dsenv22.4.8.10：export DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2DIR=/opt/IBM/db2/V9.5export DB2INSTANCE=db2inst1export INSTHOME=/home/db2inst1exportPATH=$PATH:$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc: $APT_ORCHHOME/lib:$APT_ORCHHOME/binexportDB2PATH=$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc exportLIBPATH=$LIBPA TH:$DB2DIR/lib:$INSTHOME/sqllib/lib:$APT_ORCHHOME/lib export ETLPLUS_HOME=/home/dsadm22.4.8.12：export DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2DIR=/opt/IBM/db2/V9.5export DB2INSTANCE=db2inst1export INSTHOME=/home/db2inst1exportPATH=$PATH:$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc: $APT_ORCHHOME/lib:$APT_ORCHHOME/binexportDB2PATH=$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc exportLIBPATH=$LIBPA TH:$DB2DIR/lib:$INSTHOME/sqllib/lib:$APT_ORCHHOME/libexport ETLPLUS_HOME=/home/dsadm22.4.8.7：# The following three lines have been added by IBM DB2 instance utilities.if [ -f /home/db2inst1/sqllib/db2profile ]; then. /home/db2inst1/sqllib/db2profilefiexport ETLPLUS_HOME=/progexport DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2DIR=/opt/IBM/db2/V9.5export DB2INSTANCE=db2inst1export INSTHOME=/home/db2inst1exportPATH=$PATH:$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc: $APT_ORCHHOME/lib:$APT_ORCHHOME/binexportDB2PATH=$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc exportLIBPATH=$LIBPA TH:$DB2DIR/lib:$INSTHOME/sqllib/lib:$APT_ORCHHOME/libexport DateInfoPath=/gpfsf/DateInfoPath5配置rsh环境。

DataStage使用说明

目录1.安装 (2)2.DataStage Administrator (3)2.1对Project的管理 (3)2.2修改DataStage Server的License (5)3.DataStage Designer篇Job的定义 (5)3.1登录 (5)3.2建立Job (6)3.3界面说明 (6)3.4 ETL过程定义 (7)3.4.1数据库到数据库 (7)3.4.2 Job的调试 (17)3.4.3文件到数据库 (19)3.4.4远程数据抽取 (20)3.4.5多进程联合运行（Job Sequencer） (23)3.4.6数据聚合的处理 (25)3.4.7自定义程序 (27)4.DataStage Director篇Job的运行 (31)4.1登录 (31)4.2运行Job (31)4.3 Job的运行时间定义 (31)4.4日志的查看 (33)1.安装DataStage Server端的安装，如果在Windows操作系统上安装，需要NTFS格式的分区。

安装完毕将启动DataStage Engine Resource Service，DataStage Telnet Service两个服务。

DataStage Client在安装的过程中，会提示建立一个Project，建立了Project之后，Client就可以连接到此Project，当然也可用选择其他Server端的Project。

安装完毕，将产生4个各司其职的模块：DataStage Administrator，DataStage Director，DataStage Designer，DataStage Manager。

DataStage Adminstrator是对DataStage Server的一些参数、Project进行管理的模块。

DataStage Designer是一个界面性的设计平台，实现在创建执行数据集成任务“Job”的同时，对数据流和转换过程创建一个可视化的演示。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

常用组件使用方法：1.Sequential file功能特点：适用于一般顺序文件（定长或不定长），可识别文本文件或IBM大机ebcdic文件。

使用要点：按照命名规范命名点住文件，双击鼠标，在general说明此文件内容，格式，存储目录等。

2.Annotation功能特点：一般用于注释，可利用其背景颜色在job中分颜色区别不同功能块3.Change Capture Stage功能特点：Change Capture Stage有两个输入，分别标记为before link 及after link。

输出的数据表示before link 和after link的区别，我们称作change set。

Change Capture Stage可以和Change Apply Stage配合使用来计算after set。

使用要点：key及value的说明：key值是比较的关键值，value是当key值相同是作进一步比较用的。

change mode选项说明：All keys，Explicit Values需要指定value，其余字段为keyExplicit Keys&Valueskey及value都需要指定Explicit Keys，All Values需要指定key，其余的字段为value输出策略说明：Drop Output For CopyFalse：保留before及afte link中key值相同的行True：删除before及afte link中key值相同的行Drop Output For DeleteFalse：保留before link中有但是after link中没有的key值所在的行True：删除before link中有但是afte link中没有的key值所在的行Drop Output For EditFalse：保留key值相同,value不同的行True：删除key值相同,value不同的行Drop Output For InsertFalse：保留before link中没有但afte link中有的key值所在的行True：删除before link中没有但afte link中有的key值所在的行4.Copy Stage功能说明：Copy Stage可以有一个输入，多个输出。

他可以在输出时改变字段的顺序，但是不能改变字段类型。

注意：当只有一个输入及一个输出时最好将Force设置为True，这样可以在Designer里看到运行结束，否则将无法标识运行结束，但不会影响运行结果数据。

5.Filter Stage功能说明：Filter Stage只有一个输入，可以有多个输出。

根据不同的筛选条件，可以将数据输出到不同的output link。

6.Funnel Stage功能说明：将多个字段相同的数据文件合并为一个单独的文件输出合并策略说明：Continuous Funnel：从每一个input link中循环取一条记录Sort Funnel：按照Key值排序合并输出Sequence：先输出第一个input link的数据，输出完毕后再输出第二个input link的数据，依此类推，直到结束。

(此时可以通过调整link Ordering调整输出顺序)7.Tansformer Stage功能说明：一个功能极为强大的Stage。

有一个input link，多个output link，可以将字段进行转换，也可以通过条件来指定数据输出到那个output link。

在开发过程中可以使用拖拽。

Constraint及Derivation的区别Constraint通过限定条件使符合条件的数据输出到这个output link。

Derivation通过定义表达式来转换字段值。

在Constraint及Derivation中可以使用Job parameters及Stage Variables。

注意：Transformer Stage功能强大，但在运行过程中是以牺牲速度为代价的。

在只有简单的变换，拷贝等操作时，最好用Modify Stage，Copy Stage，Filter Stage等来替换Transformer Stage。

8.Sort Stage功能说明：只能有一个输入及一个输出，按照指定的Key值进行排列。

可以选择升序还是降序，是否去除重复的数据等等。

Option具体说明：Allow Duplicates：是否去除重复数据。

为False时，只选取一条数据，当Stable Sort为True时，选取第一条数据。

当Sort Unility为UNIX时此选项无效。

Sort Utility：选择排序时执行应用程序，可以选择DataStage内建的命令或者Unix的Sort命令。

Output Statistics：是否输出排序统计信息到job日志。

Stable Sort：是否对数据进行二次整理。

Create Cluster Key Change Column：是否为每条记录创建一个新的字段：clusterKeyChange。

当Sort Key Mode为Don’t Sort(Previously Sorted) 或Don’t Sort (Previously Grouped)时，对于第一条记录该字段被设置为1，其余的记录设置为0。

Create Key Change Column：是否为每一条记录创建一个新的字段KeyChange。

9.LookUp Stage功能说明：LookUp Stage把数据读入内存执行查询操作，将匹配的字段输出，或者在符合条件的记录中修改或加入新的字段。

10.Join Stage功能说明：将多个表连接后输出11.LookUp Stage 和Join Stage 的区别LookUp Stage将数据读入到内存中，所以效率很高，但是占用了较多的物理内存。

所以当reference data 比较小的时候，我们推荐用LookUp Stage；当reference data比较大的时候，我们推荐用Join Stage。

12.Merge Stage功能说明：将Merge Key值相同的记录合并。

将其中的一个输入设定为Master，其余的为Update。

把Update中Merge Key相同的记录合并入Master。

13.Modify Stage功能说明：Modify stage 只能有一个输入及一个输出，它可以修改表结构：删除，保留一个字段；给字段改名；修改字段的数据类型。

Specification的具体用法：删除一个字段：DROP columnname [, columnname]保留一个字段：KEEP columnname [, columnname]改变字段：new_columnname[:new_type]=[explicit_conversion_function]old_c olumnname可用的explicit_conversion_function请参看Datastage开发参考。

14.Data Set StageStage类型：File stage功能说明：从data set文件中读取数据或者写数据到data set文件中，一个Date Set Stage只能有一个输入连接（input link）或者一个输出连接（output link）。

具体用法：包括Stage Page，Inputs Page，Outputs Page。

Stage Page通常描述了stage的一般信息，诸如名称等；Inputs Page描述了即要写入信息的data set文件的详细信息；主要是Properties和Column的定义。

Properties中配置了文件的存放路径和更新策略；15.File Set StageStage类型：File stage功能说明：从file set文件中读取数据或者写数据到file set文件中，一个File Set Stage只能有一个输入连接（input link）、一个输出连接（output link）和一个拒绝连接（rejects link）。

并且只能在并行模式下执行。

具体用法：Stage Page：对Stage的基本定义Inputs Page：主要是Properties和Format的配置Properties的配置：定义文件的存取路径及其他读写的相关的参数。

特别要说明的是Options下的Reject Mode的选择，当stage有reject link的时候，必须选择Output；没有reject link时，可选择其他两个选项。

Format的配置：定义了数据写到文件中的格式Outputs Page：对stage输出的数据字段的描述，另外，reject link的输出系统将默认，不需要用户自己定义字段。

16.Lookup File Set StageStage类型：File stage功能说明：为执行查找操作而创建的参照文件。

作为查找的参照数据，通常在参照数据比较大量或者重复使用率较高的情况下，将参照数据生成专门的Lookup File Set文件，以便提高查找的效率具体用法：Inputs Page：主要定义了查找关键字和存放路径等主要信息Outputs Page：当作为参照数据进行查找操作时，因为文件是已经生成好的，所以在这里不需要再做详细的定义，只要引入即可。

17.Oracle Enterprise StageStage类型：Database Stage功能说明：从Oracle数据库中读取数据或者写数据到Oracle数据库中。

通常完成的操作：使用INSERT或UPDATWE命令更新数据库表装入数据库表读取数据库表从数据库表中删除行在库表中直接执行查询操作将库表装入内存，然后执行查询操作具体用法：Inputs Page：向数据库中写数据，关键是对Properties的配置Outputs Page：与Inputs Page类似，只是完成的是从数据库中读取数据。

18.Aggregator StageStage类型：Processing Stage功能说明：将输入的数据分组，计算各组数据的总和或者按组进行其他的操作，最后将结果数据输出到其他的stage。

具体用法：Stage Page：描述stage的一般信息以及字段的分组信息和选择分组计算函数Inputs Page：详细描述输入数据信息，一般直接反映输入数据字段信息Oupputs Page：详细描述输出数据信息，即经过分组计算后的数据字段信息19.Remove Duplicates StageStage类型：Processing Stage功能说明：输入根据关键字分好类的有序数据，去除所有记录中关键字重复的记录，通常与sort stage配合使用具体用法：Stage Page：Properties中的key值与之前sort stage的分类key值相同Inputs Page：对输入数据字段的描述Oupputs Page：对输出数据字段的描述20.Compress StageStage类型：Processing Stage功能说明：将data set文件压缩成二进制文件（与expend datastage相对应）具体用法：Inputs Page：对输入数据字段的描述Oupputs Page：对输出数据字段的描述21.Expand StageStage类型：Processing Stage功能说明：将压缩的二进制文件解压缩（解压缩compress stage生成的压缩文件）具体用法：Inputs Page：对输入数据字段的描述Oupputs Page：对输出数据字段的描述22.Difference StageStage类型：Processing Stage功能说明：按字段比较两个文件，找出不同的记录。

datastage常用组件使用方法：

合集下载

经验总结_DataStage

Datastager入门应用开发(详细示例)

DATASTAGE的介绍及基本操作

datastage使用说明

DataStage客户端安装及使用文档

DATASTAGE使用实用指南

Datastage介绍及示例

DATASTAGE常用组件的使用

DATASTAGE的介绍及基本操作

datastage入门教程

DataStage控件说明

DataStage开发指南

datastage教程

DataStage Stage使用

DataStage进行数据整合第 2 部分

Datastage 配置操作步骤

DataStage使用说明

文档推荐

最新文档

datastage常用组件使用方法：

合集下载

经验总结_DataStage

Datastager入门应用开发(详细示例)

DATASTAGE的介绍及基本操作

datastage使用说明

DataStage客户端安装及使用文档

DATASTAGE使用实用指南

Datastage介绍及示例

DATASTAGE常用组件的使用

DATASTAGE的介绍及基本操作

datastage入门教程

DataStage控件说明

DataStage开发指南

datastage教程

DataStage Stage使用

DataStage进行数据整合 第 2 部分

Datastage 配置操作步骤

DataStage使用说明

文档推荐

最新文档

DataStage进行数据整合第 2 部分