Datastage 培训资料

格式：doc
大小：3.64 MB
文档页数：37

下载文档原格式

DataStage 基础培训_练习

DataStage 基础培训_练习
2011-04-12
1
练习 1、需求内容实现按部门和城市对订单进行多维度分析
2、设计方案 1）新建订单多维分析事实表
注：在插入数据之前，先对当前 2)源头取数
从订单表orders获取当前会计期(200305)订单信息
从员工表emp获取员工所属部门信息
从供应商表suppliers获取供应商所属城市信息
3
练习 2、设计方案 3）开发ETL，将基于部门和城市的订单多维分析数据装载到事
实表，要求：
A、新建一个JOB将订单信息先落地到中间数据文件 B、新建另一个JOB从中间数据文件抽取订单信息，并通过与员工表、供应商表匹配获取订单多维分析数据，装载到事实表 C、通过JOB Sequence将两个JOB封装起来，并设计前后依赖
（2）DataStage环境
IP:192.168.1.253
Project:SIEProjectA u/p:dsadm/dsadm
5
练习参考ETL（SQL）
6
Q&A
7
关系
D、使用的Stage包括但不限于以下stage：Oracle Stage、 DataSet Stage、Join Stage、Lookup Stage、Transformer Stage、Aggregator Stage
4
练习
3、环境
（1）#深圳SIEDW数据库 USER/ PASSWORD：BI_APP/bi_app SIEDW = (DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 192.168.1.254)(PORT = 1521)) (CONNECT_DATA = (SERVER = DEDICATED) (SERVICE_NAME = SIEDW) ) )

DataStage基本知识

本例对字段做简单运算,根据条件装载到不同表中
53
DataStage实例-表到表

本例中连接数据库仍使用ODBC,每个ODBC Stage连接Informix中的一张表. 本例中使用一个新的Stage: Transformer(转换) 在设置了各个ODBC Stage之后,我们来看一下 Transformer(转换)的属性

DataStage Administrator（主管）：用于创建 DataStage用户，创建，移动项目。
10
DataStage Administrator（主管）
11
DataStage Administrator（主管）
12
DataStage Designer（设计者）
13
DataStage Manager（管理者）

输入需要导出的列
需要的列
47
DataStage实例-表到文件

查看并修改SQL语句
SQL语句
SQL参考
48
DataStage实例-表到文件

可使用”View data…”按钮查看内容
查看内容
49
DataStage实例-表到文件

指定输出文件
文件路径名称
50
DataStage实例-表到文件

Repository（仓库），包括建造数据集市或数据仓库所需要的全部信息的中央存储器； DataStage Server（服务器），运行向数据仓库抽取，转换，导入数据的可执行作业； DataStage Package Installer（包安装，服务端的安装工具），用来安装包装的DataStage作业和插件的用户界面。

DATASTAGE----DATASTAGE经验积累

DATASTAGE——一DATASTAGE经验积累一、JOB的分类与作用1、Server JOB:最为常用的Job类型，Job可以组合使用，Server Job是Job的最小单位。

原文档：If you have the Web Services pack installed an additional check box, Web Service Enabled, appears. Select it to indicate the job can be made available as a web service.2、Parallel JOB:3、Mainframe JOB:运行于大型机的JOB。

4、JOB Sequences:Job Sequence主要用于Job间的协作工作控制，如各Job的实行流程，出错处理，文件监控等。

二、jobstatus的用法jobstatus-jobstatus waits for the job to complete, then returns an exit code derived from the job status.命令格式为：dsjob –run[ –mode [ NORMAL | RESET | VALIDATE ] ][ –param name=value ][ –warn n ][ –rows n ][ –wait ][ –stop ][ –jobstatus][–userstatus][-local]project job三、判断NULL值实例STAGE ：JOIN STAGE设置：LEFT JOIN左输入语句：SELECT * FROM PMP_Insured_Amount右输入语句：SELECT COL_ID,TAB_NAME,WORK_DATE,REF_COLUMN1 AS UNIQUE_ID_IN_SRC_SYS,REF_COLUMN2,ROW_ID,HASHCODE AS B_HASHCODE,ANCHOR_ID,PARTITION_KEY,IS_DUPLICATED,'A' AS MARK --用以判断结果集右边是否为空FROM ETL_FOR_INC_TMP2SQL语句：SELECT A.*,B.*FROM PMP_Insured_Amount ALEFT JOIN ETL_FRO_INC_TMP2 BON A.UNIQUE_ID_IN_SRC_SYS = B.UNIQUE_ID_IN_SRC_SYS 功能：判断来自A表的所有记录，哪些能够B表关联，哪些不能与B表关联。

DataStage官方培训教程10

DataStage官方培训教程10DataStage是一个ETL工具，它提供了广泛的数据连接选项以及数据转换和清理功能，以帮助企业完成数据仓库构建和管理。

由于数据驱动的世界越来越重要，数据管理和ETL应用程序的需求也变得越来越迫切。

DataStage官方培训教程10涵盖了DataStage常见的任务和操作，为学习DataStage用户提供了完整的指导。

在本文中，我们将对DataStage官方培训教程10进行分析和实践，以帮助读者更好地了解和掌握DataStage。

DataStage官方培训教程10的结构和内容DataStage官方培训教程10是一本基于DataStage 11.7版本的官方培训教材。

该教材共包含15个单元，分为4个部分。

第一部分介绍了DataStage概述和安装过程，包括DataStage架构、组件、工作流程等。

第二部分介绍了DataStage的数据源定义、数据移动和数据变换。

第三部分主要介绍了DataStage的错误处理和调试，包括日志、报告、来源和目标检查等。

第四部分介绍了高级主题，如DataStage管理、性能调整、共享资源和集成JDBC驱动程序等。

DataStage官方培训教程10的学习方法和技巧DataStage官方培训教程10是一本详细的教材，需要耐心和时间来学习。

以下是一些学习方法和技巧，可以帮助读者更好地掌握DataStage。

1.按照教材结构进行学习按照各个部分和单元的结构进行学习，以便逐步深入理解每个主题。

特别是，在学习前两部分时需要仔细阅读和理解数据源定义、数据移动和数据变换的概念和操作指南，掌握其重要性和影响关系。

2.完整地跟随实例进行演示教材中提供了许多实例来示范DataStage的各个方面，读者可以用自己的DataStage环境进行实操，加深对DataStage的理解和熟练度。

值得注意的是，在学习高级主题时需要一定的实践经验和技能，否则可能会花费更多的时间和精力。

DataStage基础培训教程ppt课件

全局变量与Job变量
• 全局变量 -- 生命周期：整个Project -- 在Administrator中定义
• Job变量 -- 生命周期：一个Job -- 在Designer、Manager中定义
演示：定义一个Job变量在Designer中定义参数
Meta data definition
Debug and Tuning
• View Status and Logs - status, log, detail等多种视图 - 配合Monitor来查错、调优
Job Status
• Not Compiled • Compiled • Reset • Running • Finished • Finished (with warning) • Abort
演示：生成事实表
明细表
关联
聚合
事实表
Hash File
• 用途： -- 左连接时用作副表 -- 多次被访问的数据集 -- 存储其他临时数据
• 关键点： -- 必须指定key -- output的position必须与input一致
Transformer
• 用途： -- 提供丰富的运算符和函数 -- 数据清洗、转换 -- 关联多个数据源
DataStage基础培训
Jerry 2006.03
议程
• Hello World • DataStage Components • Define Parameter & Table • Hash File、Transformer、Aggregator • Director & Monitor • Administrator & Manager • Routine & Control

DataStage培训资料

1，注册号（序列号）。 2，工程数量。在Datastage服务端可以建立的最大工程数量。包括新建的工程，也包括对先前建立的工程进行加上升级。 3，到期时间。 4，授权代码。在许可信息中，这个信息必须被正确输入的。
安装向导会指导通过以下步骤进行：
1，输入许可信息。 2，指定服务器的路径。 3，选择程序的文件夹。 4，创建一个新的工程或升级已经存在的工程。
安装Datastage
首先安装Datastage Server端，鼠标点击软件会自动安装，安装过程中系统提示使用者选择安装路径和输入产品序列号。在Datastage Server安装的过程中会提示用户建立一个工程。在安装Datastage Server端以后，需要安装Datastage Client端，鼠标点击软件会自动进行安装，安装过程中系统提示使用者选择安装路径和输入产品序列号。
Datastage的服务端
安装有Datastage服务端的机器，必须运行着。需要运行Datastage的客户端。打开Datastage的控制面板，来停止或启动服务端。当再次安装Datastage的时候，会停止服务端。
为了保证Datastage客户端程序的正常运行，必须保证 Datastage的服务器保持运行状态。在Windows2000的控制面板中打开Datastage的控制面板，可以启动或停止全部的Datastage服务。点击可以启动全部的服务或者停止全部的服务。在安装或重新安装Datastage的时候，这些服务一定要全部停止。
安装Datastage客户端
在安装Datastage服务端之后。可以安装在WinNT，Windows2000以及WinXP上。 Datastage产品的许可用于安装Datastage的客户端。 Datastage的操作许可只能用于安装Director和 Administrator。

datastage教程

1、【第一章】datastage简介与工作原理1、简介数据中心（数据仓库）中的数据来自于多种业务数据源，这些数据源可能是不同硬件平台上，使用不同的操作系统，数据模型也相差很远，因而数据以不同的方式存在不同的数据库中。

如何获取并向数据中心（数据仓库）加载这些数据量大、种类多的数据，已成为建立数据中心（数据仓库）所面临的一个关键问题。

针对目前系统的数据来源复杂，而且分析应用尚未成型的现状，专业的数据抽取、转换和装载工具DataStage是最好的选择。

Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化，并将其输入数据集市或数据中心（数据仓库）目标数据库的集成工具。

DataStage 能够处理多种数据源的数据，包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等，以下列出它所能处理的主要数据源：大型主机系统数据库：IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库：Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统：SAP/R3,PeopleSoft系统等，普通文件和复杂文件系统，FTP 文件系统，XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。

DataStage 可以从多个不同的业务系统中，从多个平台的数据源中抽取数据，完成转换和清洗，装载到各种系统里面。

其中每步都可以在图形化工具里完成，同样可以灵活的被外部系统调度，提供专门的设计工具来设计转换规则和清洗规则等，实现了增量抽取、任务调度等多种复杂而实用的功能。

其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现，复杂转换可以通过编写脚本或结合其他语言的扩展来实现，并且DataStage 提供调试环境，可以极大提高开发和调试抽取、转换程序的效率。

DataStage官方培训教程7

12/23/2019
Module Objectives
Upon module completion, students will be able to: Define what a hashed file is List different types of hashed files List various uses for hashed files Create hashed files Source hashed files Use caching attributes to accelerate reads and writes Import metadata from hashed files Delete hashed files
Overflow Groups
When there is not enough space remaining in a group, the group overflows
2048 4096 6144 8192 10240 12288
Group Address
Header
Group 1 Group 2 Group 3
Insert the name of the hashed file— can use parameters Let the job create the hashed file
Can optionally use the CREATE.FILE command from a DataStage command shell or program
Hashing Algorithms (Static File Types)
Character type
Location where most variation occurs in key column

DATASTAGE技术培训-经典收藏

DataStage Designer常用STAGE
l Sequential file q 功能特点：适用于一般顺序文件（定长或不定长），可识别文本文件
或IBM大机ebcdic文件。
DataStage Designer常用STAGE
修改文件属性，文件名称，reject方式等
DataStage Designer常用STAGE
对每个工程的各个单元，包括库表定义、集中的转换程序和元数据连接等对象进行分类和组织。
DataStage Client部件简介
n Director 为启动、停止和监视作业提供交互式控制。
n Administrator 在服务器端管理Datastage的工程和使用者权限的分配。
DataStage服务器
单的设置，点击对我们的JOB进行编译，就可以运行了（我们一般在Director运行JOB）。 u Designer的主要功能编译和设计JOB，编写函数、子程序、脚本等。
我们将在下面以一个例子介绍Designer的用法。
DataStage功能组件-- Director
双击：编辑的JOB。
进入Director登录界面，注意选择自己想进入
n 服务器是数据集成的主要设备。在服务器上，你可以在运行时间
内对几个并行的处理过程进行控制，以便在多个不同的数据源和数据目标之间发送数据。服务器可以安装在NT或UNIX、 LINUX环境中，同时通过调节来有效地利用多处理器和内存的优势。通过使用Datstage中包括的许多富有效率的功能，企业可以缩短学习周期、简化管理过程、最大限度地开发资源，从而缩短数据集成应用程序的开发和维护周期。
DATASTAGE技术培训
ETL简介
ETL(Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程)作为BI/DW（Business Intelligence）的核心和灵魂，能够按照统一的规则集成并提高数据的价值，是负责完成数据从数据源向目标数据仓库转化的过程，是实施数据仓库的关键步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图，数据是砖瓦的话，那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计，而ETL规则设计和实施则是工作量最大的，约占整个项目的60%～80%，这是国内外从众多实践中得到的普遍共识。

DataStage基础及开发实践

DataStage基础及开发实践InfoSphere DataStage是IBM统一数据集成平台InfoSphere Information Server(IIS) 的重要组件，是业界主流的 ETL(Extract, Transform, Load) 工具。

DataStage执行从源系统到目标系统的批量和实时的数据转换和移动，它广泛支持各种异构平台的数据源和各种类型的数据格式(结构化、半结构化和非结构化数据)；通过简单易用的图形化设计方式，并内置丰富的功能组件，从而支持从简单到高度复杂的数据结构中，对大量数据进行收集、清洗、整合和转换，具有满足最苛刻的数据集成需求所需的功能性、灵活性和可伸缩性。

本课程主要介绍InfoSphere DataStage的基本架构和产品特点，并基于实战案例详细讲解DataStage 的安装、配置、开发以及最佳实践。

课程大纲：第一课 IBM数据集成与治理方案简介第二课 Infosphere Datastage 架构、安装与配置第三课 Infosphere Datastage 管理与开发部署流程第四课 Infosphere Datastage 数据连接组件使用第五课 Infosphere Datastage 数据合并、排序与聚合组件使用第六课 Infosphere Datastage 数据转换组件使用第七课 Infosphere Datastage 自定义公共组件与过程第八课 Infosphere Datastage 作业序列和作业控制第九课 Infosphere Datastage 作业调试、调度与监控第十课 Infosphere Datastage 数据血源分析第十一课 Infosphere Datastage 性能调优和最佳实践第十二课 Infosphere Datastage 实战案例分享授课对象：本课程由浅入深，循序渐进地介绍DataStage的基本原理和开发实践，主要面向DataStage 的初学者以及基础开发运维人员。

IBM-DataStage技能培训

DataStage存储过程的调用(方法一)
可以通过SQL语句块调用存储过程
DataStage存储过程的调用(方法二)
两种调用比较：第一种简单明了，但是取不到存储过程的返回值；第二种方法比较复杂，下去可以在测试环境搞搞。
DS备份（导出）
可以选择不同的对象进行备份，一般建议完全备份，选择Whole project
候开始执行后面的序列
erVariables_Activity：自定义参数控件，可以定义全局参数，
供整个JOB引用
6.Routine_Activity：调用封装好的Routine，Routine类似于SQL中
的存储过程。 Demo: SEQ_POL_MAIN
一个数据抽取转换装载的实例 Demo: CopyCopyPjob_PRIP_LJTEMPFEE 实例目的：暂收费表，根据中保信二期逻辑改造而来，介绍Prallel
专业程度如Datastage旗鼓相当，也是图形化界面开发，很多控件的功能与Datastage 相似，价格似乎比Datastage便宜，可以在Window、Linux、Unix、Aix等多个环境上运行。
• Kettle
Kettle 中文名叫水壶，纯java编写的开源ETL工具，开源当然就免费，免费的有些东西使用就不是很方便，很多功能需要结合Java开发，可以在Window、Linux、Unix、Aix 上运行，数据抽取高效稳定。
• ODI
Oracle数据库厂商提供的工具，有局限性，与oracle数据库耦合太深
完备的开发环境
IBM WebSphere DataStage 的开发环境是基于 C/S 模式的，通过 DataStage Client 连接到DataStage Server 上进行开发，DataStage Server 支持多种平台，比如 Windows、Redhat Linux、 IBM AIX 、HP-UNIX等。

Datastage 培训资料详述

Datastage培训1.什么是Datastage？➢设计jobs 抽取（Extraction）、转换（Transformation）、装载（Loading）即ETL ➢数据整合项目工具，如数据仓库、数据集市和系统移植。

DataStage的框架，如图-1：图-1在开发过程中是通过DataStage的四个客户端（DataStage Administrator如图-2, DataStage Manager如图-3, DataStage Designer如图-4, DataStage Director如图-5）来进行工作的。

图-2 图-3 图-4 图-5➢DataStage的基本开发流程：1．在Administrator中新建工程、定义全局和工程属性2．在Manager中导入元数据3．在Designer中定义job4．在Designer中编译job5. 在Director中验证，运行，监控job2.DataStage Administrator介绍主要功能：对server进行一些常规的设置、用来执行管理任务，如建立DataStage用户、新建和删除工程，设置工程的属性。

2.1.登陆登陆后的界面：在General标签中、可以看到当前server的版本是7.5.1.A，你也可以点击”NLS…”选择Client端的默认字符集。

2.2.新建工程选择Projects标签，在这里你可以选择Add按钮来新建一个工程“sjzh”如图：该工程存放的目录为“/home/dsadm/Ascential/DataStage/Projects/sjzh”在这里我们选择系统的默认路径。

选择“OK”就新建了一个工程，如图：2.3.更改“Licensing”选择“Licensing”标签，如图：在这里可以对Server和Client端的License进行更改。

比如当软件License过期时，要在不重新安装的情况下改变License就要使用这个功能。

datastage教程

如何获取并向数据中心（数据仓库）加载这些数据量大、种类多的数据，已成为建立数据中心（数据仓库）所面临的一个关键问题。

针对目前系统的数据来源复杂，而且分析应用尚未成型的现状，专业的数据抽取、转换和装载工具DataStage是最好的选择。

DataStage 可以从多个不同的业务系统中，从多个平台的数据源中抽取数据，完成转换和清洗，装载到各种系统里面。

DataStage优化培训笔记.doc

DataStage优化培训笔记Sequential file1、注意reject mode的设置2、优化：（在文件定长的前提下）number of readers per node 设定单节点的多个读取，根据实际情况设置多读个数read from multiple nodes 设定多节点的数据读取Change Capture Stage比较数据后会进行排序，如果之前的数据已经做了排序，则需要改变排序属性。

注意before 和after 的设置，不要设反。

Copy Stage在内存中操作的组件，建议1进多出用copy组件Tansformer Stage是内嵌的程序，一旦作业执行到此stage 程序会暂停进程，外部调用so的程序，Transformer组件中包含的函数，可以自己编写函数进行嵌入（通过routine实现）filter不能用于复杂的判断，copy不能增加赋默认值的字段..Sort Stage尽量不用，属于滞留组件，要等数据齐全后再能进行sort操作LookUp和Join的区别需要注意join一定要进行排序再进行处理（效率较低），LookUp是流水线实现（超过800M不能用此stage）Data Set StageStage自动设置数据为定长，实现多值读取，可以通过drop on input来限制输入数据。

生产环境优化：关注CPU(并发路数,逻辑节点数,物理作业数),内存,I/O交互1、在Oracle Enterprise 中使用select语句时，提取尽量少的字段数据2、在使用LookUp Stage时，如果数据从Oralce出来的，在LookUp table（参照表中）可以设置Lookup type＝sparse(此方式是数据不提取到内存，直接在表中进行操作)3、在Oracle Enterprise中设置Partition table="需要查询的表名"可以实现多进程读取数据4、在文件系统中，为平衡节点负载，建议数据的输入和输出放在不同的磁盘上（可通过节点进行设置，如Sequential_File中设置FILE的路径）5、尽量少用repartition（sort stage 、join stage等组件需要对数据进行repartition）6、要保证有足够的scratch空间，当此空间满了之后，系统会把数据转移到tmp空间，效率变低7、网络瓶颈会影响作业效率（局域网通讯，Node之间的通讯问题）8、在MAIN机器上，设置是否关闭jobmonitor进程（pools"" 为默认节点，需要进行节点运行，如果对””进行赋值，则不作为默认节点，不做运行。

datastage培训提纲

培训提纲1.ETL定义说明ETL过程指的是从数据源中抽取数据，然后对这些数据进行清洗、转换，最终加载到目标数据库和数据仓库中。

数据抽取：数据抽取主要是针对各个业务系统及不同网点的分散数据，充分理解数据定义后，规划需要的数据源及数据定义，制定可操作的数据源，制定增量抽取的定义。

数据转化和清洗：数据转换是真正将源数据变为目标数据的关键环节，它包括数据格式转换、数据类型转换、数据汇总计算、数据拼接等等。

但这些工作可以在不同的过程中处理视具体情况而定，比如，可以在数据抽取时转换，也可以在数据加载时转换。

数据清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题，允许通过试抽取，将有问题的纪录先剔除出来，根据实际情况调整相应的清洗操作。

数据加载：数据加载主要是将经过转换和清洗的数据加载到数据仓库（或数据库）里面，即入库，操作者可以通过数据文件直接装载或直连数据库的方式来进行数据装载。

2.ETL工具的选择2.1.支持平台随着各种应用系统数据量的飞速增长和对业务可靠性等要求的不断提高，人们对数据抽取工具的要求往往是将几十、上百个GB的数据在有限的几个小时内完成抽取转换和装载工作，这种挑战势必要求抽取工具对高性能的硬件和主机提供更多支持。

因此，我们可以从数据抽取工具支持的平台，来判断它能否胜任企业的环境，目前主流的平台包括SUN Solaris、HP-UX、IBM AIX、AS/400、OS/390、Sco UNIX、Linux、Windows等。

2.2.支持数据源对数据源支持的重要性不言而喻，因此这个指标必须仔细地考量。

首先，我们需要对项目中可能会遇到的各种数据源有一个清晰的认识；其次对各种工具提供的数据源接口类型也要有深入了解，比如，针对同一种数据库，使用通用的接口（如ODBC/JDBC）还是原厂商自己的专用接口，数据抽取效率都会有很大差别，这直接影响到我们能不能在有限的时间内完成ETL任务。

datastage学习文档

工作总结1 如何重新启动DataStage服务器, 步骤如下: (5)2 DataStage开发经验积累: (5)2.1模板开发 (5)2.2通过S ERVER S HARED C ONTAINER在P ARALLEL J OB中添加S ERVER J OB S TAGE (5)2.3去除不需要的字段 (5)2.4T RANSFORMER S TAGE的使用 (5)2.5L OOK UP/JOIN 空值处理 (6)2.6D ATA S TAGE中默认和隐式类型转换时注意的问题 (6)2.7配置一个INPUT或OUTPUT,就VIEW DATA一下,不要等到RUN时再回头找ERROR (6)2.8D ATA型数据是比较麻烦的 (6)2.9行列互换之H ORIZONTAL P IVOT（P IVOT S TAGE） (7)2.10行列互换之V ERTICAL P IVOT (7)2.11O RACLE EE S TAGE在VIEW数据时出现的错误及解决方法 (9)2.12D ATA S TAGE SAP S TAGE的使用 (10)2.13C OLUM I MPORT S TAGE的使用 (10)2.14C OLUM E XPORT S TAGE的使用 (12)2.15G OT ERROR:C ANNOT FIND ANY PROCESS NUMBER FOR STAGES IN J OB J OBNAME解决 (13)2.16U NABLE TO CREATE RT_CONFIG NNN (14)2.17查看JOB和CLIENT的对应的后台进程 (14)2.18强制杀死DS进程 (14)2.19查看S ERVER E NGINE的进程 (15)2.20查看S ERVER L OCKS (15)2.21关于UNIX系统下无法启动服务的解决办法 (16)2.22L OCKED BY OTHER USER (17)2.23DATA S TAGE J OB L OG的处理 (17)2.24一些BASIC语言中处理字符串的函数 (17)2.25BASIC程序中使用到的一些语法知识 (18)3DS中常见问题记录 (22)3.1权限管理问题 (22)3.2JOB MAY BE BEING MONITORED或者是CLEANUP问题 (22)3.3删除文件的问题 (22)3.4SEQUENCE调度出现的错误问题 (23)3.17字符集问题 (23)3.18V ERSION C ONTROL的问题 (23)3.19SEQUENCE调不起JOB的问题 (23)3.20SEQUENCE调度失败的问题 (24)3.21DS发送邮件的配置问题 (25)3.22随机错误问题 (26)3.23DS中的日期问题 (26)3.24DS连接ORACLE问题 (27)。

DataStage入门培训

Designer Creates DataStage jobs that are compiled into executable programs
Director Used to run and monitor the DataStage jobs
Manager Allows you to view and edit the contents of the repository
Each project is associated with a directory. The directory stores the objects (jobs, metadata, custom routines, etc.) created in the project.
Before you can work in a project you must attach to it (open it).
DATASTAGE ADMINISTRATOR
DATASTAGE ADMINISTRATOR
In DataStage all development work is done within a project. Projects are created during installation and after installation using Administrator.
DATASTAGE 入门培训
讲师：邱明伟日期：2010-03-01

东南融通版权所有
DataStage介绍 DataStage开发
1. DataStage四个客户端的使用 2. DataStage常用组件使用
DataStage常用命令练习
AGENDA

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Datastage培训1.什么是Datastage？设计jobs 抽取（Extraction）、转换（Transformation）、装载（Loading）即ETL 数据整合项目工具，如数据仓库、数据集市和系统移植。

图-2 图-3 图-4 图-5DataStage的基本开发流程：1．在Administrator中新建工程、定义全局和工程属性2．在Manager中导入元数据3．在Designer中定义job4．在Designer中编译job5. 在Director中验证，运行，监控job2.DataStage Administrator介绍主要功能：对server进行一些常规的设置、用来执行管理任务，如建立DataStage用户、新建和删除工程，设置工程的属性。

2.1.登陆登陆后的界面：在General标签中、可以看到当前server的版本是7.5.1.A，你也可以点击”NLS…”选择Client端的默认字符集。

选择“OK”就新建了一个工程，如图：2.3.更改“Licensing”选择“Licensing”标签，如图：在这里可以对Server和Client端的License进行更改。

比如当软件License过期时，要在不重新安装的情况下改变License就要使用这个功能。

2.4.设置Project的属性其他页面的属性，请勿修改。

2.5.设置TimeOut时间3.DataStage Manager介绍主要功能：存储和管理在Designer中定义jobs过程可再利用的元数据（在数据转换抽取过程中用到的表定义，文件输出格式，routines）、批量编译jobs、导入和导出工程等。

3.1.导入导出Job及其它组件导入●导出通过Export--→DataStage Components把设计好的job导出保存为DSX文件或者XML文件。

3.2.管理配置文件该文件是定义DataStage的网络节点、安装目录和运行时使用的临时文件。

可以配置多个节点。

目的是让作业并行、并发执行。

提高数据效率。

通过Tools- Configurations管理DataStage配置文件4.DataStage Director使用主要功能：验证（validate），运行（run），监控（monitor）你所定义的DataStage jobs，为每个job的运行定义时间表（schedule）。

4.1.运行已经编译好的Job注意以下几点：多个Job可以同时执行，但是需要仔细考虑Job的数据量，处理逻辑的复杂程度。

否则可能造成，其中一个或者多个Job异常。

Job并行运行时，可能会提高效率，但是也可能造成并行运行的时间比串行运行时间还长。

具体要看每个Job的CPU和I/O负荷。

每个Job可以生成多个Instance，多个Instance可以并发执行。

须特别注意：重新编译后同一个Job的Instance将会消失。

4.2.在Design中设置同一个Job生成多个Instance在Direct设置多个实例运行规则输入Invocation ID，即Instance No4.3.将编译好的Job加入计划任务未编译好的Job不能使用schedule。

4.4.监控Job的运行情况4.5.杀死僵死进程进入清除资源页面杀死进程5.DataStage Designer主要功能：抽取(extracting)，清洗(cleansing)，转换（transforming），整合(integrating)和装载（loading）数据到仓库中的表中。

常用的控件：ODBC Enterprise，Column Generator，Peek，Row Generator，Sequential File，Aggregator，Copy，Filter，FTP Enterprise，Funnel，Join，Merge，Modify，Switch，Transformer5.1.DataStage JOB属性设置进入JOB属性设置页面，并选择“允许同一个JOB多实例运行”。

设置JOB参数：5.2.Annotation功能特点：一般用于注释，可利用其背景颜色在job中分颜色区别不同功能块使用要点：5.3.数据库控件：Oracle Enterprise Stage 功能说明：从Oracle数据库中读取数据或者写数据到Oracle数据库中。

通常完成的操作：✓使用INSERT或UPDATE命令更新数据库表✓装入数据库表✓读取数据库表✓从数据库表中删除行✓在库表中直接执行查询操作✓将库表装入内存，然后执行查询操作具体用法：✓Inputs Page向数据库中写数据，关键是对Properties的配置Outputs Page：与Inputs Page类似，只是完成的是从数据库中读取数据。

5.4.Sequential File Stage功能特点：适用于一般顺序文件（定长或不定长），可识别文本文件。

使用要点：按照命名规范命名点住文件，双击鼠标，在general说明此文件内容，格式，存储目录等修改文件属性，文件名称，reject方式等到修改文件格式，比如记录结束符是什么，字段分隔符，字符串是用什么区别等输入此文件字段内容5.5.Copy Stage功能说明：Copy Stage可以有一个输入，多个输出。

它可以在输出时改变字段的顺序，但是不能改变字段类型。

注意：当只有一个输入及一个输出时最好将Force设置为True，这样可以在Designer里看到运行结束，否则将无法标识运行结束，但不会影响运行结果数据。

5.6.LookUp Stage功能说明：LookUp Stage把数据读入内存执行查询操作，将匹配的字段输出，或者在在符合条件的记录中修改或加入新的字段。

功能说明：将多个表连接后输出用JOIN Stage和LookUp Stage时做关联的字段类型和长度定义保持一致。

LookUp Stage 和 Join Stage的区别LookUp Stage将数据读入到内存中，所以效率很高，但是占用了较多的物理内存。

所以当reference data比较小的时候，我们推荐用LookUp Stage；当reference data比较大的时候，我们推荐用Join Stage。

5.8.Merge Stage功能说明：将Merge Key值相同的记录合并。

将其中的一个输入设定为Master，其余的为Update。

把Update中Merge Key相同的记录合并入Master。

5.9.Modify Stage功能说明：Modify stage 只能有一个输入及一个输出，它可以修改表结构：删除，保留一个字段；给字段改名；修改字段的数据类型。

Specification的具体用法：删除一个字段： DROP columnname [, columnname]保留一个字段： KEEP columnname [, columnname]改变字段：new_columnname [:new_type] = [explicit_conversion_function]old_columnname5.10.Aggregator StageStage类型：Processing Stage功能说明：将输入的数据分组，计算各组数据的总和或者按组进行其他的操作，最后将结果数据输出到其他的stage。

具体用法：✓Stage Page：描述stage的一般信息以及字段的分组信息和选择分组计算函数✓Inputs Page：详细描述输入数据信息，一般直接反映输入数据字段信息Oupputs Page：详细描述输出数据信息，即经过分组计算后的数据字段信息.5.11.Remove Duplicates StageStage类型：Processing Stage功能说明：输入根据关键字分好类的有序数据，去除所有记录中关键字重复的记录，通常与sort stage配合使用具体用法：✓Stage Page：Properties中的key值与之前sort stage的分类key值相同✓Inputs Page：对输入数据字段的描述Oupputs Page：对输出数据字段的描述5.12.Difference StageStage类型：Processing Stage功能说明：按字段比较两个文件，找出不同的记录。

（两个文件before和after，以before 为准，与after文件中的记录进行比较，找出before在after文件中没有或者有的记录）具体用法：✓Stage Page比较策略说明Drop Output For Copy False：保留before及afte link中key值相同的行 True：删除before及afte link中key值相同的行Drop Output For Delete False：保留before link中有但是afte link中没有的key值所在的行True：删除before link中有但是afte link中没有的key 值所在的行Drop Output For Edit False：保留key值相同,value不同的行True：删除key值相同,value不同的行Drop Output For Insert False：保留before link中没有但afte link中有的key值所在的行True：删除before link中没有但afte link中有的key值所在的行调整before和after的顺序：✓Inputs Page：对输入数据字段的描述Oupputs Page：对输出数据字段的描述5.13.Switch StageStage类型：Processing Stage功能说明：将文件按照一定的条件（一般为字段的值）分割成多个子文件。

具体是将输入的每一条记录按照各自符合的条件（关键字的值）分配到不同的输出（Switch Stage 有一个input link 和多个output link，一个 reject link，output link最多可达128个；此功能很类似与C函数中的switch函数）。

Datastage 培训资料

合集下载

DataStage 基础培训_练习

DataStage基本知识

DATASTAGE----DATASTAGE经验积累

DataStage官方培训教程10

DataStage基础培训教程ppt课件

DataStage培训资料

datastage教程

DataStage官方培训教程7

DATASTAGE技术培训-经典收藏

DataStage基础及开发实践

IBM-DataStage技能培训

Datastage 培训资料详述

datastage教程

DataStage优化培训笔记.doc

datastage培训提纲

datastage学习文档

DataStage入门培训

文档推荐

最新文档