DataStage学习笔记
- 格式:docx
- 大小:5.12 MB
- 文档页数:20
Datastage学习总结Datastage学习总结1Datastage介绍1.1产品概述DataStage企业版是Ascential Software公司所有企业整合系列产品中关键产品。
企业版⽀持⼤容量数据的收集、整合和转换,数据从简单结构到很复杂的结构。
基于⾼可扩展性的软件架购,企业版使得企业能够通过⾼性能来解决⼤部分业务问题,并⾏处理⼤容量数据。
强⼤的企业元数据管理能⼒使得可以在数据整合⽣命周期中在所有⼯具中共享和使⽤⼯具。
DataStage企业版发布了四个核⼼功能来成功实施企业数据整合:1)先进的开发和简单化的维护;2)企业级别的开发、监测和管理;3)在吞吐量和性能⽅⾯提供了⽆限制的⾼扩展的体系架构;4)端对端的企业级元数据管理。
DataStage企业版提供了全⾯的功能去最优化⽤户在建⽴、升级和管理数据整合架构时的速度、灵活性和效率。
DataStage企业版增强的功能减少了学习的周期、简单化了管理和优化了开发资源的使⽤,减少了数据整合应⽤的开发和维护周期。
结果,DataStage企业版使得企业能够花更少的时间开发他们的整合应⽤,更多的时间是不断的从中受益。
1.2基础架构1.3客户档介绍⽤户通过各个客户端⼯具访问DataStage企业版的开发、配置和维护功能。
这些⼯具包括:Designer:⽤来建⽴和编辑DataStage作业和表的定义。
Designer 中的“Job Sequencer”控制作业的执⾏,其他作业成功完成(或失败,等)的条件。
Administrator:⽤来执⾏管理任务,如建⽴DataStage⽤户、建⽴和删除⼯程并且建⽴清洗标准。
Manager:⽤来编辑管理⽤户⼯程的DataStage资料库。
Director:⽤来验证、时序安排、运⾏和监测企业版作业。
2⽇常操作2.1登录客户端2.1.1登录Datastage Administrator 客户机点击图标选择需要登录的服务器,输⼊⽤户名,密码登录进去后点击项⽬,可进⾏项⽬增加,删除,设置项⽬属性2.1.2登录Datastage Designer客户机点击图标选择需要登录的域,输⼊⽤户名,密码,选择需要登录的项⽬登录成功:2.1.3登录Datastage Director客户机点击图标选择需要登录的域,输⼊⽤户名,密码,选择需要登录的项⽬登录成功:2.2启停服务端以dsadm⽤户进⼊,执⾏以下命令:1) Server启动命令:$HOMEDIR/uv–admin -start注意:启动前,需要查看端⼝是否被释放,通过‘netstat–afinet |grep ds’查看,如果有连接,则需要等待操作系统⾃动释放后在启动服务。
DATASTAGE——一DATASTAGE经验积累一、JOB的分类与作用1、Server JOB:最为常用的Job类型,Job可以组合使用,Server Job是Job的最小单位。
原文档:If you have the Web Services pack installed an additional check box, Web Service Enabled, appears. Select it to indicate the job can be made available as a web service.2、Parallel JOB:3、Mainframe JOB:运行于大型机的JOB。
4、JOB Sequences:Job Sequence主要用于Job间的协作工作控制,如各Job的实行流程,出错处理,文件监控等。
二、jobstatus的用法jobstatus-jobstatus waits for the job to complete, then returns an exit code derived from the job status.命令格式为:dsjob –run[ –mode [ NORMAL | RESET | VALIDATE ] ][ –param name=value ][ –warn n ][ –rows n ][ –wait ][ –stop ][ –jobstatus][–userstatus][-local]project job三、判断NULL值 实例STAGE :JOIN STAGE设置:LEFT JOIN左输入语句:SELECT * FROM PMP_Insured_Amount右输入语句:SELECT COL_ID,TAB_NAME,WORK_DATE,REF_COLUMN1 AS UNIQUE_ID_IN_SRC_SYS,REF_COLUMN2,ROW_ID,HASHCODE AS B_HASHCODE,ANCHOR_ID,PARTITION_KEY,IS_DUPLICATED,'A' AS MARK --用以判断结果集右边是否为空FROM ETL_FOR_INC_TMP2SQL语句:SELECT A.*,B.*FROM PMP_Insured_Amount ALEFT JOIN ETL_FRO_INC_TMP2 BON A.UNIQUE_ID_IN_SRC_SYS = B.UNIQUE_ID_IN_SRC_SYS 功能:判断来自A表的所有记录,哪些能够B表关联,哪些不能与B表关联。
DataStage官方培训教程10DataStage是一个ETL工具,它提供了广泛的数据连接选项以及数据转换和清理功能,以帮助企业完成数据仓库构建和管理。
由于数据驱动的世界越来越重要,数据管理和ETL应用程序的需求也变得越来越迫切。
DataStage官方培训教程10涵盖了DataStage常见的任务和操作,为学习DataStage用户提供了完整的指导。
在本文中,我们将对DataStage官方培训教程10进行分析和实践,以帮助读者更好地了解和掌握DataStage。
DataStage官方培训教程10的结构和内容DataStage官方培训教程10是一本基于DataStage 11.7版本的官方培训教材。
该教材共包含15个单元,分为4个部分。
第一部分介绍了DataStage概述和安装过程,包括DataStage架构、组件、工作流程等。
第二部分介绍了DataStage的数据源定义、数据移动和数据变换。
第三部分主要介绍了DataStage的错误处理和调试,包括日志、报告、来源和目标检查等。
第四部分介绍了高级主题,如DataStage管理、性能调整、共享资源和集成JDBC驱动程序等。
DataStage官方培训教程10的学习方法和技巧DataStage官方培训教程10是一本详细的教材,需要耐心和时间来学习。
以下是一些学习方法和技巧,可以帮助读者更好地掌握DataStage。
1.按照教材结构进行学习按照各个部分和单元的结构进行学习,以便逐步深入理解每个主题。
特别是,在学习前两部分时需要仔细阅读和理解数据源定义、数据移动和数据变换的概念和操作指南,掌握其重要性和影响关系。
2.完整地跟随实例进行演示教材中提供了许多实例来示范DataStage的各个方面,读者可以用自己的DataStage环境进行实操,加深对DataStage的理解和熟练度。
值得注意的是,在学习高级主题时需要一定的实践经验和技能,否则可能会花费更多的时间和精力。
经验总结_DataStage本资料仅供内部使用!经验总结_DataStage2010年09月29日目录1.D A TA S TAGE怎么调用存储过程 (2)2.D A TA S TAGE调度设计 (3)1. DataStage怎么调用存储过程1)打开Desinger2)拉入DB2 Connector控件3)填写参数4)在“Insert statement”属性中输入:call DCDW.SP_ODS2DW_DIRECTOR 5)总体情况如下图:6)编译1)新建“序列作业”2)加入Job Activity控件3)编辑Job Activity控件内容4)调度时间的设置3. DataStage8.5作业日志入库1)原理:新建一个Before/After subroutine,名为RoutineJobInfo,每个JOB运行完后执行一个这个routine,用于将每个job执行完后的相关日志信息写到一个文件里,然后通过一个shell程序runjobinfo将每个job运行的日志信息写入数据表LOG_DATASTAGE中。
每天通过检查LOG_DA TASTAGE表中每个job的状态信息来检查job是否运行失败。
2)步骤第一步,打开Designer 客户机,进入如下界面,找到左边的Routines目录第二步第三步RoutineJobInfo_code.txt 第四步第五步输入参数0;/dcdata/etl/runjobinfo/,在/dcdata/etl/runjobinfo/目录下产生每个JOB运行后的日志信息,文件名为job名称.txt。
3)建立日志表(DCDW.LOG_DATASTAGE)4)Shell程序etl_runjobinfo.sh读取/dcdata/etl/runjobinfo/下产生的每个JOB日志信息,产生JOB运行清单jobfilename.tmp记录运行job名称,将相关信息插入DCDW.LOG_DATASTAGE表。
1、【第一章】datastage简介与工作原理1、简介数据中心(数据仓库)中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库中。
如何获取并向数据中心(数据仓库)加载这些数据量大、种类多的数据,已成为建立数据中心(数据仓库)所面临的一个关键问题。
针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,专业的数据抽取、转换和装载工具DataStage是最好的选择。
Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。
DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统:SAP/R3,PeopleSoft系统等,普通文件和复杂文件系统,FTP 文件系统,XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。
DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。
其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。
其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。
一、DataStage简介Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。
DataStage能够处理多种数据源的数据,包括主机系统上的大型数据库、开放系统上的关系型数据库和普通的文件系统等。
常见的主要数据源有:大型主机系统的数据库:IMS、DB2、ADABAS、VSAM等。
开发系统的关系型数据库:Informix、Oracle、Sybase、DB2、Microsoft SQL Server等。
ERP系统:SAP/R3、PeopleSoft等。
普通文件和复杂文件系统,FTP文件系统,XML等。
IIS、Netscape、Apache等Web服务器系统。
Outlook等Email系统。
DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。
其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。
其中简单的数据转换可以通过在界面上拖拉操作和调用一些 DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且 DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。
二、DataStage工作原理DataStage XEDataStage的设计是基于数据流的概念。
一个完整的数据流图(DataStage作业),从一个永久存储的数据源开始,并且执行一系列的增值转换和其他处理操作,最后加载数据到一个永久的存储。
数据集(Data Set)就是对通过数据流程的记录的收集。
一个数据集可以是屋里放置在磁盘上,也可以是虚拟放置在内存中。
数据在数据流中的Stage中移动使用的是虚拟的数据集,这样可以大大提高性能;分区(在后面介绍)是在Stage的属性中设置的。
一、DataStage简介Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。
DataStage能够处理多种数据源的数据,包括主机系统上的大型数据库、开放系统上的关系型数据库和普通的文件系统等。
常见的主要数据源有:➢大型主机系统的数据库:IMS、DB2、ADABAS、VSAM等。
➢开发系统的关系型数据库:Informix、Oracle、Sybase、DB2、Microsoft SQL Server 等。
➢ERP系统:SAP/R3、PeopleSoft等。
➢普通文件和复杂文件系统,FTP文件系统,XML等。
➢IIS、Netscape、Apache等Web服务器系统。
➢Outlook等Email系统。
DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。
其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。
其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。
二、DataStage工作原理DataStage XEDataStage的设计是基于数据流的概念。
一个完整的数据流图(DataStage作业),从一个永久存储的数据源开始,并且执行一系列的增值转换和其他处理操作,最后加载数据到一个永久的存储。
数据集(Data Set)就是对通过数据流程的记录的收集。
一个数据集可以是屋里放置在磁盘上,也可以是虚拟放置在内存中。
数据在数据流中的Stage中移动使用的是虚拟的数据集,这样可以大大提高性能;分区(在后面介绍)是在Stage的属性中设置的。
Datastage培训1.什么是Datastage?➢设计jobs 抽取(Extraction)、转换(Transformation)、装载(Loading)即ETL ➢数据整合项目工具,如数据仓库、数据集市和系统移植。
DataStage的框架,如图-1:图-1在开发过程中是通过DataStage的四个客户端(DataStage Administrator如图-2, DataStage Manager如图-3, DataStage Designer如图-4, DataStage Director如图-5)来进行工作的。
图-2 图-3 图-4 图-5➢DataStage的基本开发流程:1.在Administrator中新建工程、定义全局和工程属性2.在Manager中导入元数据3.在Designer中定义job4.在Designer中编译job5. 在Director中验证,运行,监控job2.DataStage Administrator介绍主要功能:对server进行一些常规的设置、用来执行管理任务,如建立DataStage用户、新建和删除工程,设置工程的属性。
2.1.登陆登陆后的界面:在General标签中、可以看到当前server的版本是7.5.1.A,你也可以点击”NLS…”选择Client端的默认字符集。
2.2.新建工程选择Projects标签,在这里你可以选择Add按钮来新建一个工程“sjzh”如图:该工程存放的目录为“/home/dsadm/Ascential/DataStage/Projects/sjzh”在这里我们选择系统的默认路径。
选择“OK”就新建了一个工程,如图:2.3.更改“Licensing”选择“Licensing”标签,如图:在这里可以对Server和Client端的License进行更改。
比如当软件License过期时,要在不重新安装的情况下改变License就要使用这个功能。
DataStage学习笔记
Bruce Lau
2015-08-11
1、方法论
2、各个阶段对应的工具
3、数据整合难度大
4、数据转换与迁移
5、DataStage如何工作
6、DataStage Designer特点
7、Designer内置控件
8、鼠标拖拽完成开发
9、开发示例
10、可视化实时性能监控
11、工作流
12、运行监控
13、DataStage连通性
14、并行数据整合平台
15、传统冲突
16、并行技术:数据管道
17、并行技术:数据分区
18、并行技术:组合数据管道+数据分区
19、DataStage作业开发VS 作业运行
20、DataStage拓展性:线性拓展
21、DataStage拓展性:节点配置文件
22、DataStage功能:字段级影响分析
23、DataStage功能:高级查找
24、DataStage功能:区间匹配
25、DataStage功能:代理键管理
26、DataStage功能:支持缓慢变化维
27、DataStage功能:数据库控件Connector
28、DataStage功能:工程级参数管理
29、DataStage功能:作业性能分析
30、DataStage功能:作业资源预估
31、DataStage功能:XML控件
32、DataStage功能:控制允许循环逻辑
33、DataStage功能:并行处理行业
34、版本控制
35、高可用性。