Datastage开发经验

格式：docx
大小：1.65 MB
文档页数：34

下载文档原格式

datastage常用组件使用方法：

常用组件使用方法：1.Sequential file功能特点：适用于一般顺序文件（定长或不定长），可识别文本文件或IBM大机ebcdic文件。

使用要点：按照命名规范命名点住文件，双击鼠标，在general说明此文件内容，格式，存储目录等。

2.Annotation功能特点：一般用于注释，可利用其背景颜色在job中分颜色区别不同功能块3.Change Capture Stage功能特点：Change Capture Stage有两个输入，分别标记为before link 及after link。

输出的数据表示before link 和after link的区别，我们称作change set。

Change Capture Stage可以和Change Apply Stage配合使用来计算after set。

使用要点：key及value的说明：key值是比较的关键值，value是当key值相同是作进一步比较用的。

change mode选项说明：All keys，Explicit Values需要指定value，其余字段为keyExplicit Keys&Valueskey及value都需要指定Explicit Keys，All Values需要指定key，其余的字段为value输出策略说明：Drop Output For CopyFalse：保留before及afte link中key值相同的行True：删除before及afte link中key值相同的行Drop Output For DeleteFalse：保留before link中有但是after link中没有的key值所在的行True：删除before link中有但是afte link中没有的key值所在的行Drop Output For EditFalse：保留key值相同,value不同的行True：删除key值相同,value不同的行Drop Output For InsertFalse：保留before link中没有但afte link中有的key值所在的行True：删除before link中没有但afte link中有的key值所在的行4.Copy Stage功能说明：Copy Stage可以有一个输入，多个输出。

DataStage培训的项目错误总结

1.导入表结构导入表BI_ERP.HZ_CUST_ACCT_SITES_ALL，BI_ERP.HZ_LOCATIO的表结构，出现报错提示：点击“是”后，出现如下提示：问题原因：这两张表有些字段的类型（例如CLOB）在DataStage中不被识别。

解决办法：不用导入办法第一个Orchestrate Schema Definition 而使用Plup-in Meta Data Definitions2.数据库数据库连接问题在开发作业时候，使用view data出现报错提示问题原因：第一个提示是数据库没启动。

第二个提示服务器DATASTAGE的服务器里面没有配置TNS，或者填错DATASOURCE名字。

解决方法：启动数据库服务，配置好DataStage中的TNS数据库用户权限⑴．把数据从业务库导入到ODS层，源数据Oracle Enterprise Stage使用view data时，出现报错提示：问题原因：用户权限不足，赋予select权限解决方法：赋予用户select权限，⑵．开发JOB BL_PUB_SALER_DIM作业时，使用VIEW DA TA时，出现报错提示：问题原因：未对BI_PUB用户赋予dba_extents权限解决办法：赋予BI_PUB用户dba_extents权限⑶．开发JOB‘销售员维’，JOB运行后，出现报错提示：问题原因：BI_PUB没有BI_APP使用权限解决办法：把使用权限赋予BI_PUB用户grant all on BI_APP.BL_PUB_PRODUCT_DIM_S to bi_pub ⑷．在开发JOB时，出现报错提示：问题原因：USER的SRC表和OPEN COMMAND的表USER冲突，权限不足解决解决：用BI_PUB用户登录授权：GRANT DELETE ON BL_PUB_INDUSTRY_DIM_C TO BI_ODS;⑸．在开发JOB时，出现报错提示：问题原因：BI_PUB权限不足解决描述：用DBA用户登录授权GRANT SELECT ON SYS.DBA_EXTENTS TO BI_PUB3.加载字段中间落地stage为DATA SET，作为另一个JOB源数据时的时候，VIEWDATE看不到数据问题原因：源数据缺少字段解决问题：加载中间数据的字段。

DataStage技术方案

DataStage技术介绍目录1.绪论 (2)1.1先进的开发和维护 (4)1.2完整的开发环境 (5)1.3企业级实施和管理 (9)1.4高扩展的体系架构 (12)2.附录B：DataStage企业版内嵌的扩展Stage (14)3.附录C：扩展连接 (19)1.绪论DataStage企业版是Ascential Software公司所有企业整合系列产品中关键产品。

企业版支持大容量数据的收集、整合和转换，数据从简单结构到很复杂的结构。

基于高可扩展性的软件架购，企业版使得企业能够通过高性能来解决大部分业务问题，并行处理大容量数据。

强大的企业元数据管理能力使得可以在数据整合生命周期中在所有工具中共享和使用工具。

DataStage企业版发布了四个核心功能来成功实施企业数据整合：先进的开发和维护；完整的开发环境；企业级实施和管理；高扩展的体系架构；端对端的企业级元数据管理。

1.1 先进的开发和维护DataStage企业版提供了全面的功能去最优化用户在建立、升级和管理数据整合架构时的速度、灵活性和效率。

DataStage企业版增强的功能减少了学习的周期、简单化了管理和优化了开发资源的使用，减少了数据整合应用的开发和维护周期。

结果，DataStage 企业版使得企业能够花更少的时间开发他们的整合应用，更多的时间是不断的从中受益。

DataStage企业版使用了Client-server架构，如下所示。

图一、DataState企业版Client-Server架构用户通过各个客户端工具访问DataStage企业版的开发、配置和维护功能。

这些工具包括：Designer：用来建立和编辑DataStage作业和表的定义。

Designer中的“Job Sequencer”控制作业的执行，其他作业成功完成（或失败，等）的条件。

Administrator：用来执行管理任务，如建立DataStage用户、建立和删除工程并且建立清洗标准。

DataStage培训[1]

切换。
PPT文档演模板
DataStage培训[1]
DataStage中的Director
PPT文档演模板
DataStage培训[1]
• 使用Datastage的Director可以对设计的job进
行验证、运行、任务调度和监控的工作。也
可以针对job 的运行查看运行的聚合统计情况。
PPT文档演模板
DataStage培训[1]
Designer的工具栏
工具栏中的一些图标可以快捷的调用
一些Datastage的内部函数，更加方便进行 Jobs的设计工作。
PPT文档演模板
DataStage培训[1]
Designer的Stage工具面板
• 工具面板中包含描述的图标，可以将其加入到
Jobs设计当中。
PPT文档演模板
PPT文档演模板
DataStage培训[1]
• DS Administrator
在服务端管理ds的项目和服务端操作。主要用于工程的参数调整，变量设置，及command操作。
• DS Designer
建立ds的job并且编译执行的程序。主要用于job的开发及编译。
• DS Director
运行和监控ds的job。主要用于job调试。
DataStage培训[1]
下面将部分的Stage进行简单的说明（有些Stage在普通应用中并不常用）：
PPT文档演模板
DataStage培训[1]
PPT文档演模板
DataStage培训[1]
PPT文档演模板
DataStage培训[1]
PPT文档演模板
DataStage培训[1]
PPT文档演模板
PPT文档演模板

新教材DATASTAGE的介绍及基本操作.ppt

课件
Datastage测试
• 问题一：
Datastage的Designer是用来建立和编译job、用来进行数据的抽取、转换和加载即ETL。（Yes/No）答案一： Yes，Designer使用拖拽的方式将设计元素（习惯上叫stage）拖拽到设计区域中，经过建立和编译，Job就可以执行，用来进行数据的抽取、转换和加载。
安装操作员版本的Datastage，需要有Datastage 的Director的许可。
一个工程关联着一个目录，这个工程目录用来存储jobs、 Datastage项目和元数据。在做任何操作前都要先打开这个工程，即登录这个工程。
工程是自包含的很多的工程可以在同一时间被打开，在各自单独的环境打开。可以在它们之间导入或导出项目。
多用户可以在同一时间使用一个工程中工作，但是 Datastage禁止在同一时间由多个用户访问同一个job。
• 3，到期时间。 • 4，授权代码。
在许可信息中，这个信息必须被正确输入的。
课件
安装向导会指导通过以下步骤进行：
• 1，输入许可信息。 • 2，指定服务器的路径。 • 3，选择程序的文件夹。 • 4，创建一个新的工程或升级已经存在的工
程。
课件
安装Datastage
课件
首先安装Datastage Server端，鼠标点击软件会自动安装，安装过
• 在Windows系统中安装Datastage服务端。 • 建立一个Datastage的工程。 • 安装Datastage的客户端。
课件
Datastage 的服务端要首先安装，之后才可以安装Datastage 客户端，服务端能都安装在WinNT、Windows2000或者UNIX系统中，这个模块将介绍在Windows环境下进行安装。

DataStage 资源相关问题总结

资源角度设计DS开发规范主要从7.5版本进行描述一、JOB种类的选取目前能完成数据抽取转换加载功能的JOB有两类：一类是Parallel JOB；一类是Server JOB。

从单个JOB的数据抽取转换加载性能来看，前者要远高与后者，这也是这两类JOB 运行方式所决定的。

Parallel JOB会根据环境配置文件中的配置，在运行时发起多个进程运行；Server JOB单进程运行。

应该主要从ETL的业务及实现逻辑和数据量来考虑。

①数据量大；②实现逻辑复杂；③数据量小；④实现逻辑简单。

含有①、④的情况使用Parallel JOB；含有③、④的情况使用Server JOB；含有②的情况需要根据具体情况决定是使用Parallel JOB还是Server JOB。

由于使用Parallel JOB会根据配置文件决定运行时创建数据流的数量。

对于数据量大的JOB要求资源配置较高；对于数据量小的JOB需要资源少，如果对数据量小的JOB配置多并发的资源，会引起资源浪费，会产生负效应。

比如，一个JOB只有很少的数据，通过单进程在很短时间内就可以完成数据抽取转化加载，这个JOB默认的配置支持四个NODE的并发，那么JOB在执行时首先是创建四个并发进程，再做Partition，而创建并发进程和Partition是需要消耗资源和时间的，这时效率也不如单进程快。

因此，一台服务器需要准备多个配置文件模版，在开发时根据具体情况指定具体的配置文件。

这一做法还可以使JOB的运行维护变得更容易。

二、JOB大小的控制对于大小JOB的区分以三十个Stage为界限，小于30个的属于小JOB，大于30的属于大JOB。

大JOB要进行分割，不然很容易出错。

三、DW和DS负载均衡从数据仓库取数一般都需要做大量转换，从实现角度考虑，有两种办法：第一种是将这部分数据在数据仓库内部处理时就转换处理，DataStage做简单的抽取加载任务；第二种是将转换放到JOB中进行处理，从数据仓库中取数时只做简单的处理或不做处理。

DataStage（ETL工具）

1. DataStage(ETL工具)要求：5用户数2.技术要求ETL过程必须有图形化的开发、管理和监控界面；ETL处理过程支持各种字符集的转换；ETL处理过程具有完整的日志管理功能、完善的数据审计功能。

并且有相关的监控预警机制，保证ETL正常进行，不影响数据源系统和经营分析系统的正常工作；ETL处理过程可以定义外部数据记录的错误限制，如发现最多1000条错误数据记录时停止进行处理，同时将发生错误的数据记录加到相应的错误表中；支持多种操作系统平台，如UNIX、Windows NT/2000/2003、Linux等；支持Oracle、DB2、Sybase、SQL Server等业界主流数据库软件平台；采用高性能的数据抽取接口，比如：专用数据库驱动接口、JDBC、ODBC接口等；数据转换模块可进行二次开发，并通过对内嵌脚本语言、存储过程、插件及外部程序的支持来处理复杂的处理，提供调试、跟踪功能；丰富的数据加载功能：可以利用关系型数据库引擎私有的装载功能(native load)进行数据装载；ETL工具必须支持一定的数据转换功能，支持ETL过程中数据转换环节执行顺序、支持的数据平滑化、规范化、聚类等转换操作；ETL工具必须提供自动文档生成功能；ETL工具作业开发支持过程驱动方法和自顶向下的设计，提供设计模板；ETL工具提供灵活的作业开发的参数支持；ETL处理过程必须包括有统一调度、监控和管理的功能。

具有元数据提取和存储的功能，通过元数据管理实现数据冲突分析、血统分析功能。

具有基于Web上的系统管理、作业调度和元数据展现。

ETL工具处理过程应能够支持并行（集群）处理，并能支持多服务器组成网格进行并行处理。

3. 实施要求3.1实施计划投标方需要在标书中提出项目实施计划的草案，内容包括：1)投标方必须给出切实可行的项目实施时间进度表。

2)所有可交付的开发成果、服务及交付时间和方式。

3)可交付的开发成果及服务之间的依赖关系。

datastage介绍(中文)讲述

DataStage SERVER CLIENT
DataStage Designer
DataStage Director
DataStage Manager
DataStage Administrator
DataStage的功能
r 定义project的属性；使用Manager进行元数据管理；使用Designer ： . 定义数据抽取规则； . 定义数据流； . 进行数据整合； . 进行数据转换； . 加入相关的约束条件； . 装载数据到目标； . 进行数据聚合；使用Designer进行作业开发和调试；使用Director执行作业，并且进行监控；
DataStage的特点
图形化操作，简单易学；参数化作业设计，利于数据从不同地点的同构数据库整合到一个目标数据中；作业调试，跟踪功能比较强；作业运行的监控和定时，检查；作业导出导入方便；多数据库支持；提供可扩展接口，可编程实现扩展功能；

datastage介绍mis项目组2004年6月pamisico什么是datastage?datastage是一个能够简单快捷进行数据仓库和数据集市创建和维护的强有力的工具
DATASTAGE介绍
mis项目组
2004年6月
什么是DATASTAGE

DataStage是一个能够简单快捷进行数据仓库和数据集市创建和维护的强有力的工具。它为您提供了创建，管理数据仓库所必须的工具，并且您还可以对这些工具加以扩展。借助于DataStage, 你可以快速建立数据仓库解决方案并且提供给用户所需要的数据和报告。使用DataStage您可以做到 : 为您的数据仓库和数据集市设计对于数据进行抽取，整合，聚集，装载，转换的相关作业；创建和重用原数据和作业组件； . 执行，监控和定时运行作业；管理开发和生产环境。

DataStage组件学习

DataStage 的基本逻辑处理单位是Job,每个Job由许多stage组成;由Stage 来完成;由Stage 来完成对数据的抽取,转换,加载等;Sequential File Stage: 适用于一般顺序文件,可识别文本文件。

Annotation : 功能特点一般用于注释,可利用其背景颜色在job中分颜色区分不同功能模块。

Change Capture Stage功能特点:Change Capture Stage 有两个输入Copy Stage: 功能说明: Copy Stage 可以有一个输入，多个输出。

它可以再输出是改变字段的顺序，但是不能改变字段类型。

当只有一个输入及一个输出时最好将Force 设置为True，这样可以在Designer里看到运行结束，否则将无法标识运行结束，但不会影响运行结果数据。

Filter Stage: 只有一个输入，可以有多个输出。

根据不同的筛选条件，可以将数据输出到不同的output link。

Funnel Stage : 将多个字段相同的数据文件合并为一个单独的文件输出合并策略说明Continuous Funnel : 从每一个input link中循环取一条记录Sort Funnel ：按照Key 值排序合并输出Sequence : 先第一个input link 的输出数据，输出完毕后再输出第二个input link 的数据，以此类推，直到结束Tansformer Stage: 一个功能强大的Stage 。

有一个input link，多个output link ，可以将字段进行转换，也可以通过条件来指定数据输出到哪个output link。

在开发过程中可以通过拖拽。

Constraint 及Derivation 的区别Constraint 通过限定条件使符合条件的数据输出到这个output linkDerivation 通过定义表达式来转换字段值。

在Constraint 及Derivation中可以使用Job parameter 及Stage Variable。

基于DataStage的大批量数据处理优化策略的设计与实现【毕业论文】

图书分类号：密级：毕业设计(论文)题目：基于DataStage的大批量数据处理优化策略的设计与实现学生姓名班级学院名称专业名称指导教师学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。

除文中已经注明引用或参考的内容外，本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。

对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标注。

本人完全意识到本声明的法律结果由本人承担。

论文作者签名：日期：年月日学位论文版权协议书本人完全了解关于收集、保存、使用学位论文的规定，即：本校学生在学习期间所完成的学位论文的知识产权归所拥有。

有权保留并向国家有关部门或机构送交学位论文的纸本复印件和电子文档拷贝，允许论文被查阅和借阅。

可以公布学位论文的全部或部分内容，可以将本学位论文的全部或部分内容提交至各类数据库进行发布和检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

论文作者签名：导师签名：日期：年月日日期：年月日基于DataStage的大批量数据处理优化策略的设计与实现摘要新一代企业现金日终批量数据处理系统延续CCMP系统的构建模式，在日终进行数据的加载，以满足客户查询等操作的及时性要求。

本文围绕企业现金日终批量数据处理的整体流程，具体介绍了作者在数据组日终批量项目中的工作。

在日终批量数据处理的过程中，各类数据文件通过IBM InfoSphere DataStage软件进行读取、转换、载入到Oracle数据库中，并在数据库中对数据进一步的加工。

随着我行业务的发展，企业现金的日交易量超过了千万级，每日产生的数据量级也达到了千万级。

高效高质的进行数据处理譬如与上下游组件数据交互，日终数据备份等也成了制约现金管理数据处理和维护的瓶颈。

为了保证企业现金管理组件安全稳定的运行，需要对现有的数据策略进行优化，综合比较现有的大批量数据处理方案并结合企业现金组件现行的生产运行环境，选择datastage作为数据处理的优化点，充分利用现有工具的并发处理能力提高数据处理效率。

DataStage作业开发规范-V2.3

业务系统包括：CBS、PBS、CMMS、ATMP
属性包括：ADD、ALL
文件操作，参见上面的文件命名规范
Systemname为源系统的名称
Table为操作文件数据的表名称
增量全量标志为 All：全量
Add增量，
del-删除文件。
如果存在跨系统的生成的目标文件，源系统名填写输入主表对应的系统
Hashfile
单主要输入输出，如下图：
多主要输入输出如下图：
2.
作业的头上须表明作业加工的档名，下方须表明作业加工逻辑，
所有的属性中须注名作业的作者，及设计思路。
对设计的流程做适当的说明以便让人更易理解，如上图。
3.
注意事项：
Stage的命名全部使用英文，参数注释也必须使用英文。
Job中使用Annotationstage来做模块说明可以使用中文注释。
内容规范:
<?xml version="1.0" encoding="ISO8859-1" ?>
<transmit-content>
<file>
<filename>FF1010_0001_XXX_20060121_000.dat</filename>
<filesize>2344560</filesize>
说明：
LK为link的简称，所有的link命名都使用LK作为头。
如Sequential file的link指向一个look up。则link命名为LK_description
注意：
1.如果一个stage只有一个link的输入，则不需要填写Description,只需要填写link的序号。

informatica与datastage对比

InformaticaVSIBM-DataStage化和扩展上，均有一定的限制。

项目实施的支持➢Informatica结合15多年的数据集成领域的经验，总结出一套针对Informatica产品实施数据仓库、数据管理等项目的最佳方法论Velocity 2008。

该成熟的开发方法论，是指导客户实现快速、高质量项目实施的最佳武器。

➢现在全国拥有众多的名高级技术专家与顾问，与国内如大唐，联创、神州数码、东软，中软等多家知名集成商成立战略合作伙伴，Informatica产品开发人员全国上千人规模。

➢Informatica支持服务中心是有非常熟练的技术支持工程师充当的，这些工程师具备你需要的、成功的专家知识。

在中国有专门的售后服务工程师。

➢无专业/成熟，基于产品的项目最佳开发方法论➢很难找到熟悉类Basic开发语言的Datastage开发工程师➢IBM是以服务为主的公司，如果客户采用了其DataStage产品，将要支付大笔的IBM咨询服务费。

产品安装完全图形化安装，无需额外安装平台软件，且不需修改系统内核参数➢需耗用时间安装和准备C编译环境，不同平台软件安装的C编译器也不尽相同➢需修改系统内核参数，对其他应用影响较大，有潜在的危险。

产品升级➢平滑升级，完全图形化，不需修改已设计完作业。

➢主要是升级资料库，工作量很小。

➢需重新编译已有作业➢大版本之间以及跨平台的升级，很多作业需重新编写/编译代码，重复操作和维护工作量大。

产品移植➢PowerCenter支持逻辑和物理设计分离的开发模式，有一个Mapping（逻辑的）和Session（物理的或者可运行）的概念，Mapping是逻辑上的ETL规则，而Session才是真正可以实例化运行的任务。

➢可以跨平台、跨不同数据库进行作业的单个、整体移植。

不需改变作业设计等，原有的任务可以直接在新环境下运行，并且只要更改Session的数据库联接串，则使用原有的Session任务访问不同的数据库类型数据，大大简化项目移植的工作。

DataStage 工作笔记

1.安装与配置参考文档：《Planning, Installation, and Configuration Guide.pdf》1.1服务端与客户端的安装1.1.1安装拓扑采用简单的两层部署进行安装，安装拓扑如下图所示：Host1环境如下：(1)硬件环境CPU：Inetel Core Duo P8600内存：4GB(2)软件环境操作系统：Windows Server 2003 EE SP2C++编译器：Microsoft Visual Studio .NET 2008 Express Edition C++1.1.2安装参考文档：《Planning, Installation, and Configuration Guide.pdf》[pages 198-200]1.1.3C++编译器配置参考链接：/infocenter/iisinfsv/v8r5/index.jsp?topic=/com.ibm.swg.im.iis.productization.iisinfsv.install.doc/topics/wsis inst_set_envars_cpp.html(1)支持的C++编译器，见如下链接的系统要求说明：/support/docview.wss?rs=14&uid=swg270163821.1.4登陆与安装语言选择登陆（会话）语言选择中文，DataStage安装语言选择英文，结果Designer里同时有中文和英文，而DB2和WAS都是中文版，如何安装纯英文版的？解决方法1：登陆语言选择和安装语言全部选择英文即可安装上纯英文版。

解决方法2：通过控制面板->区域和语言选项，将语言设置为英语，安装完成后将语言再修改为中文即可。

1.1.5新建用户与凭证（Credentials）参考文档：《Day 1 Exercise-DS.doc》[Exercise 1: Administration Console] (1)通过Web浏览器登陆Web Console for IBM Information Server，地址如下（localhost为server端主机名）：http://localhost:9080/ibm/iis/console/loginForm.jsp?displayForm=true (2)新建两个用户dsadmin和dsuser，如下图：权限设置如下：dsadmin：Suite User、DataStage and QualityStage Administrator/User dsadmin：Suite User、DataStage and QualityStage Userdsadmin 可以正常使用，但dsuser 只能登陆 Administrator，登陆Designer和Director会报错：The current user does not have the required DataStage roles set up. 为什么？解决方法1：直接给dsuser同时授予Suite User、DataStage and QualityStage Administrator/User权限。

DataStage培训

DataStage培训
什么是Job
一个Job就是一个Datastage的运行程序。在Datastage中，可以设计并运行Jobs，执行一些有用的数据仓库，包括数据的抽取、转换、聚合和数据加载等等。
Datastage的Job是：
1、在Designer中设计和编译。
2、在Director中进行任务预定，调度和监控
可以将Link想象成为一个通道，从一头流到另外一头，所以输入和输出的格式要保持一致。
DataStage培训
Transformer Stage
• 很关键的主动Stage。 • 使用Transformer Stage可以定义条件、来源和字段的对应关系。 • 输入的列和输出的列进行对应。 • 在这个讲解中，我们将定义列的对应。
DataStage培训
2020/10/30
DataStage培训
内容提要：
• 一、datastage 介绍 • 二、如何安装datastage • 三、配置datastage 工程 • 四、设计并运行datastage的job • 五、操作元数据 • 六、操作关联数据 • 七、操作约束条件及数据来源 • 八、定义查找使用的哈希文件 • 九、聚合数据 • 十、job的运行及调试 • 十一、创建Basic表达式
DataStage培训
一，datastage的介绍本章主要讲解ETL的概念，datastage的介绍、组成及主要功能。
DataStage培训
ETL概要
ETL包括数据抽取（Extract）、数据转换（Transform）以及数据加载（Load）3个阶段。
一般而言，这三个过程中有二次落地（生成中间文件）。
查找到Customer的名称。 • b）当需要连接数据集市并使用查询，可以快速的进行访问。 • 4、对数据进行整合。 • 5、在定义的约束条件中将基础数据分割成为多个输出的连接。 • 在Tools菜单中可以轻松的于Director，Designer和Manager之间切换。

datastage学习文档

工作总结1 如何重新启动DataStage服务器, 步骤如下: (5)2 DataStage开发经验积累: (5)2.1模板开发 (5)2.2通过S ERVER S HARED C ONTAINER在P ARALLEL J OB中添加S ERVER J OB S TAGE (5)2.3去除不需要的字段 (5)2.4T RANSFORMER S TAGE的使用 (5)2.5L OOK UP/JOIN 空值处理 (6)2.6D ATA S TAGE中默认和隐式类型转换时注意的问题 (6)2.7配置一个INPUT或OUTPUT,就VIEW DATA一下,不要等到RUN时再回头找ERROR (6)2.8D ATA型数据是比较麻烦的 (6)2.9行列互换之H ORIZONTAL P IVOT（P IVOT S TAGE） (7)2.10行列互换之V ERTICAL P IVOT (7)2.11O RACLE EE S TAGE在VIEW数据时出现的错误及解决方法 (9)2.12D ATA S TAGE SAP S TAGE的使用 (10)2.13C OLUM I MPORT S TAGE的使用 (10)2.14C OLUM E XPORT S TAGE的使用 (12)2.15G OT ERROR:C ANNOT FIND ANY PROCESS NUMBER FOR STAGES IN J OB J OBNAME解决 (13)2.16U NABLE TO CREATE RT_CONFIG NNN (14)2.17查看JOB和CLIENT的对应的后台进程 (14)2.18强制杀死DS进程 (14)2.19查看S ERVER E NGINE的进程 (15)2.20查看S ERVER L OCKS (15)2.21关于UNIX系统下无法启动服务的解决办法 (16)2.22L OCKED BY OTHER USER (17)2.23DATA S TAGE J OB L OG的处理 (17)2.24一些BASIC语言中处理字符串的函数 (17)2.25BASIC程序中使用到的一些语法知识 (18)3DS中常见问题记录 (22)3.1权限管理问题 (22)3.2JOB MAY BE BEING MONITORED或者是CLEANUP问题 (22)3.3删除文件的问题 (22)3.4SEQUENCE调度出现的错误问题 (23)3.17字符集问题 (23)3.18V ERSION C ONTROL的问题 (23)3.19SEQUENCE调不起JOB的问题 (23)3.20SEQUENCE调度失败的问题 (24)3.21DS发送邮件的配置问题 (25)3.22随机错误问题 (26)3.23DS中的日期问题 (26)3.24DS连接ORACLE问题 (27)。

DATASTAGE常用组件的使用

DATASTAGE常用组件的使用Datastage产品开发使用指南北京先进数通信息技术有限公司商业智能应用部Datastage产品开发使用指南文档信息标题 Datastage产品开发使用指南2005-12-22 创建日期打印日期文件名 PMA-003-Datastage产品开发使用指南-V1.0.doc DI\PMA 存放目录所有者北京先进数通信息技术有限公司作者何应龙修订记录日期作者描述文档审核/审批姓名职务/职称审核批准文档分发此文档将分发至如下各人姓名职务/职称- i -Datastage产品开发使用指南目录目录 ..................................................................... (II)1. 引言 ..................................................................... .........................................................................1 2. 常用STAGE使用说明 ..................................................................... ........................................... 1 2.1. SEQUENTIAL FILE STAGE .................................................................. ........................................ 1 2.2. ANNOTATION.............................................................. .............................................................. 4 2.3. CHANGE CAPTURESTAGE .................................................................. ....................................... 5 2.4. COPY STAGE................................................................... .......................................................... 7 2.5. FILTERSTAGE .................................................................. ........................................................ 8 2.6. FUNNEL STAGE .................................................................. ....................................................... 9 2.7. TANSFORMERSTAGE .................................................................. ............................................ 10 2.8. SORTSTAGE .................................................................. ......................................................... 11 2.9. LOOKUP STAGE .................................................................. .................................................... 12 2.10. JOIN STAGE .................................................................. ........................................................ 12 2.11. MERGE STAGE .................................................................. .................................................... 14 2.12. MODIFY STAGE .................................................................. (15)DATA SETSTAGE .................................................................. ................................................ 16 2.13.2.14. FILE SETSTAGE .................................................................. .. (17)LOOKUP FILE SETSTAGE .................................................................. .................................... 19 2.15.2.16. ORACLE ENTERPRISESTAGE .................................................................. ............................... 21 2.17. AGGREGATORSTAGE .................................................................. .......................................... 22 2.18. REMOVE DUPLICATES STAGE .................................................................. .............................. 24 2.19. COMPRESSSTAGE .................................................................. .. (25)EXPAND STAGE................................................................... .................................................. 26 2.20.2.21. DIFFERENCESTAGE .................................................................. ............................................ 27 2.22. COMPARESTAGE .................................................................. ................................................ 29 2.23. SWITCH STAGE .................................................................. ................................................... 30 2.24. COLUMN IMPORTSTAGE ....................................................................................................... 31 2.25. COLUMN EXPORTSTAGE .................................................................. ..................................... 33 3. DATASTAGE ADMINISTRATOR常用配置 ..................................................................... ...... 35 3.1. 设置TIMEOUT时间...................................................................... .......................................... 35 3.2. 设置PROJECT的属性 ..................................................................... ........................................ 36 3.3. 更新DATASTAGE SERVER的LICENSE和本地CLIENT的LICENSE .............................................. 37 4. DATASTAGE MANAGER使用 ..................................................................... ........................... 37 4.1. 导入导出JOB及其它组件...................................................................... ................................ 37 4.2. 管理配置文件 ..................................................................... .................................................. 39 5. DATASTAGE DIRECTOR使用 ..................................................................... .......................... 40 5.1. 察看JOB的状态，运行已经编译好的JOB .................................................................... ......... 40 5.2. 将编译好的JOB加入计划任务 ..................................................................... ......................... 43 5.3. 监控JOB的运行情况 ..................................................................... . (44)- ii -Datastage产品开发使用指南1. 引言DataStage EE的开发主要由DataStage Designer完成。

DataStage使用说明

目录1.安装 (2)2.DataStage Administrator (3)2.1对Project的管理 (3)2.2修改DataStage Server的License (5)3.DataStage Designer篇Job的定义 (5)3.1登录 (5)3.2建立Job (6)3.3界面说明 (6)3.4 ETL过程定义 (7)3.4.1数据库到数据库 (7)3.4.2 Job的调试 (17)3.4.3文件到数据库 (19)3.4.4远程数据抽取 (20)3.4.5多进程联合运行（Job Sequencer） (23)3.4.6数据聚合的处理 (25)3.4.7自定义程序 (27)4.DataStage Director篇Job的运行 (31)4.1登录 (31)4.2运行Job (31)4.3 Job的运行时间定义 (31)4.4日志的查看 (33)1.安装DataStage Server端的安装，如果在Windows操作系统上安装，需要NTFS格式的分区。

安装完毕将启动DataStage Engine Resource Service，DataStage Telnet Service两个服务。

DataStage Client在安装的过程中，会提示建立一个Project，建立了Project之后，Client就可以连接到此Project，当然也可用选择其他Server端的Project。

安装完毕，将产生4个各司其职的模块：DataStage Administrator，DataStage Director，DataStage Designer，DataStage Manager。

DataStage Adminstrator是对DataStage Server的一些参数、Project进行管理的模块。

DataStage Designer是一个界面性的设计平台，实现在创建执行数据集成任务“Job”的同时，对数据流和转换过程创建一个可视化的演示。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

NEUSOFT Datastage开发经验

开发手册

刘石磊 2014/7/23 目录第一章 Datastage连接配置 .................................................................................................. 3 1. 配置DS连接 ................................................................................................................. 3 2. 打开DS designer，选择服务层主机名，输入用户名密码，然后在项目中选择对应的开发项目，确定后进入DS开发界面 ............................................................................. 3

第二章 Datastage Designer开发 ........................................................................................ 4 1. 在Jobs目录下建立自己的开发目录层级 ................................................................... 4 2. job调用关系 ................................................................................................................. 4 3. job能调用的组件 ......................................................................................................... 5 4. 开发一个job ................................................................................................................. 6 5. 导入表定义（Table Definitions） .............................................................................. 17 6. 开发一个sequence ..................................................................................................... 20 a. 新建Sequence，将并行job拖入设计面板 .......................................................... 20 b. 保存编译后即可运行 .............................................................................................. 20 7. 运行job ....................................................................................................................... 21 8. 全局参数&环境变量设置 ........................................................................................... 23 9. 在job和sequence中调用参数 ................................................................................. 24 a. Job中变量参数设置 ............................................................................................... 24 b. Sequence中变量参数设置 ..................................................................................... 27 10. 调用存储过程 .......................................................................................................... 28 a. 新建一个job，作业属性配置如下图 .................................................................... 28 b. 调用存储过程，在查询存储过程运行状态的表的sql前—Before SQL，调用存储过程CALL ETL.SP_IPRO_ETL_ALL('#$p_etl_date#'); ....................................................... 28

11. 运行job失败时怎么办 ........................................................................................... 29 第三章 Datastage Director使用 ...................................................................................... 30 a. 只有处于已编译和已完成状态的job或sequence才能直接运行 ..................... 30 b. 查看报错日志 .......................................................................................................... 30 c. job日志过滤 ............................................................................................................ 31 d. 再次运行job ............................................................................................................ 32 第四章 Datastage Designer其它功能 .............................................................................. 33 1. Job搜索 ....................................................................................................................... 33 修订历史记录日期版本作者描述审核人 2014/7/23 V1.0 刘石磊 DS开发的一点点经验

第一章 Datastage连接配置 1. 配置DS连接 DS服务器搭建好后,需要在客户端配置方可连接(DS服务器搭建没做过) 首先,在C:\Windows\System32\drivers\etc\hosts文件中加上服务器IP或计算机名和DS的项目名称。

2. 打开DS designer，选择服务层主机名，输入用户名密码，然后在项目中选择对应的开发项目，确定后进入DS开发界面第二章 Datastage Designer开发 1. 在Jobs目录下建立自己的开发目录层级

2. job调用关系最常用到的是并行作业和序列作业，并行作业为最小job单位，序列作业既可以包装和调用多个并行作业，也可以包装和调用多个序列作业。 3. job能调用的组件在Stage Types 文件夹下，Parallel文件夹下的各组件并行作业可以调用，Sequence下的组件序列作业可以调用。

例如：新建一个并行作业，将Sequence的组件拖上去后，出现无法调用的图标，表示此组件在并行作业不可用。如下图，可用的组件拖上去是这种图标在进行开发时，使用组件选用板更方便，打开选用板方法：查看—选用板选用板如下图，其实就是把Stage Types里面的内容以另一种形式展现出来 4. 开发一个job 例如：开发一个表对表的数据抽取，从s_orduna表中抽取数据，然后对抽取的数据进行过滤，满足条件company_code=’’的插入表s_orduna_full，不满足条件company_code=’’的插入s_orduna_error a. 新建并行作业,将选用板里面的注释组件拖进去，写上此job的功能，建议用英文注释

b. 将数据库组件拖进去，db2使用db2 connector

c. 将过滤组件拖进去 d. 各组件在没有连接时，一些属性是不会显示的，因此用处理箭头把他们连接起来，按住鼠标右键，从一个组件开始，到另一个组件时放开，就可以把组件连起来