DataStage 基础培训3
- 格式:ppt
- 大小:712.00 KB
- 文档页数:22
【正式版】DATACON培训3PPT资料在当今数字化快速发展的时代,数据的处理和分析变得越来越重要。
DATACON 培训 3PPT 资料为我们提供了宝贵的学习资源,帮助我们深入了解数据处理和分析的相关知识与技能。
这份资料首先为我们清晰地阐述了数据处理的基础概念。
它让我们明白,数据并非只是一堆杂乱无章的数字和字符,而是蕴含着丰富信息的宝藏。
通过合理的收集、整理和存储,我们能够从海量的数据中挖掘出有价值的内容。
在数据收集方面,PPT 资料强调了多种有效的方法和途径。
比如,通过在线调查问卷获取用户的反馈,从企业内部的业务系统中提取关键数据,以及利用传感器等设备实时采集物理世界的数据。
同时,还提醒我们要注意数据的准确性和完整性,避免因为错误或缺失的数据导致分析结果的偏差。
数据整理环节是将收集到的原始数据进行清洗和预处理的过程。
这包括去除重复数据、纠正错误数据、补充缺失值等操作。
资料中通过实际案例展示了这些步骤的重要性和具体实现方法,让我们能够直观地理解和掌握。
数据存储也是一个关键的环节。
PPT 资料介绍了常见的数据存储方式,如关系型数据库、非关系型数据库等,并对比了它们各自的优缺点和适用场景。
这让我们在面对不同的数据存储需求时,能够做出明智的选择。
接下来,资料重点讲解了数据分析的方法和技术。
从简单的描述性统计分析,到复杂的预测分析和数据挖掘算法,都进行了深入浅出的介绍。
我们了解到如何通过平均值、中位数、标准差等指标来描述数据的集中趋势和离散程度;如何运用回归分析预测未来的趋势;如何使用聚类分析将数据进行分类等。
同时,PPT 资料还强调了数据分析工具的应用。
例如,Excel 在日常数据处理中的便捷性,Python 强大的数据分析库,以及专业的数据分析软件如 SPSS、SAS 等。
通过实际操作演示,让我们熟悉了这些工具的基本功能和使用技巧。
在数据可视化方面,这份资料也给了我们很多启示。
它指出,好的数据可视化不仅能够清晰地展示数据,还能够帮助我们发现数据中的隐藏模式和趋势。
1、【第一章】datastage简介与工作原理1、简介数据中心(数据仓库)中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库中。
如何获取并向数据中心(数据仓库)加载这些数据量大、种类多的数据,已成为建立数据中心(数据仓库)所面临的一个关键问题。
针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,专业的数据抽取、转换和装载工具DataStage是最好的选择。
Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。
DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统:SAP/R3,PeopleSoft系统等,普通文件和复杂文件系统,FTP 文件系统,XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。
DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。
其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。
其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。
DATASTAGE总结一、安装datastageA、安装服务端安装虚拟机(注册码在文件中)---解压datastage安装包redhat3__Datastage----点击解压文件中Red Hat Enterprise Linux 3---安装---在虚拟机启动---查看虚拟机IP地址,在dos窗口验证是否可以连接---打开secureCRT,连接虚拟机---进入/app/oracle/product/10.2/network/admin/tnsnames.ora中---按E键,再按i 进入编辑状态---将IP地址设为本机Ip地址,数据库实例名自己设置---按ESC、W、Q、:键退出---完成B、安装客户端解压datastage客户端安装包Datastageclient---点击解压文件datastage7.5.3\datastage client---安装---注册码在datastage7.5.1下载地址及license中----完成二、DATASTAGE主键1、transforme r(oracle----transformer---file)数据源oracle设置properties\source\readmethod=auto-generated sqlproperties\source\table=要导入的表名点击connection,出现remote server=数据库实例名,user=Scott,password=tigerColumns下将length设置合适---load---oracleI9--选定导入的表名---ok注意:若不知道导入表的格式Columns下将length设置合适---load---import---plug-in meda data definitions---oracleI9--ok---数据库实例名,用户名、密码---ok--选择Scott用户下---选表--- 导入Transformer设置:将需要显示的字段拖拽过去---ok目标文件file设置:properties下file--填入保存路径first line is columns name=trueFomat下点击record level 添加record delimiter 属性为UNIX newline点击field defaults 添加 null field value 属性为0 Quote=noneColumns下将length设置合适----ok以下主键数据源或目标文件为oracle/file的设置同上transformer的设置方法2、转存(file---transformer---file)Transformer设置:将需要显示的字段拖拽过去---ok3、导入(file---transformer---oracle)Transformer设置:将需要显示的字段拖拽过去---ok4、copy(file--copy--多file):一个输入,多个输出Copy设置:stage当只有一个输入及一个输出时最好将Force设置为TrueOutput下将需要显示的字段拖拽过去---ok5、filter(file--filter---多file):只有一个输入,可以有多个输出Filter设置:stage下properties\where clause=过滤条件--点击whereclause出现output link=slink值(在link orderingzhong看对应值) Output下将需要显示的字段拖拽过去---ok6、join(多oracle---join---file):多表连接Join设置:stage下properties\join keys\key=关联字段,options\join type=连接类型(内、全、左、右连接)Output下将需要显示的字段拖拽过去---ok7、look up(多oracle---look up--file):数据的查询Look up设置:将关联字段连接,再将需要显示的字段拖拽过去8、merge(多file---merge---file):相同数据的合并Merge设置:stage下properties\merge keys\key=字段,sort order=排序Options下unmatched masters mode=保留/删除Output下将需要显示的字段拖拽过去---ok9、funnel(多file---funnel---file):数据的合并Funnel设置:stage下properties\options\funnel type=选择合并方式Output下将需要显示的字段拖拽过去---ok10、aggregator(oracle---aggregator---file):数据的分类、汇总Aggregator设置:stage下properties\grouping keys\group=分组字段点击aggregations\aggregation type出现column for calculation=聚合字段及合方式,可以取最大值,最小值, Sum值,count值等多种聚合方式。
DataStage 优化培训笔记Sequential file1、注意 reject mode 的设置2、优化:(在文件定长的前提下)number of readers per node 设定单节点的多个读取,根据实际情况设置多读个数read from multiple nodes 设定多节点的数据读取Change Capture Stage比较数据后会进行排序,如果之前的数据已经做了排序,则需要改变排序属性。
注意 before和after的设置,不要设反。
Copy Stage在内存中操作的组件,建议 1 进多出用copy组件Tansformer Stage是内嵌的程序,一旦作业执行到此stage程序会暂停进程,外部调用so 的程序,Transformer 组件中包含的函数,可以自己编写函数进行嵌入(通过routine实现)filter 不能用于复杂的判断, copy 不能增加赋默认值的字段 ..Sort Stage尽量不用,属于滞留组件,要等数据齐全后再能进行sort 操作LookUp 和 Join 的区别需要注意join 一定要进行排序再进行处理(效率较低),LookUp 是流水线实现(超过 800M不能用此 stage)Data Set StageStage 自动设置数据为定长,实现多值读取,可以通过drop on input来限制输入数据。
生产环境优化:关注 CPU(并发路数 , 逻辑节点数 , 物理作业数 ), 内存 ,I/O 交互1、在 Oracle Enterprise 中使用 select 语句时,提取尽量少的字段数据2、在使用 LookUp Stage 时,如果数据从Oralce 出来的,在 LookUp table (参照表中)可以设置 Lookup type = sparse(此方式是数据不提取到内存,直接在表中进行操作)3、在 Oracle Enterprise 中设置 Partition table=" 需要查询的表名" 可以实现多进程读取数据4、在文件系统中,为平衡节点负载,建议数据的输入和输出放在不同的磁盘上(可通过节点进行设置,如Sequential_File 中设置 FILE的路径)5、尽量少用repartition ( sort stage 、 join stage 等组件需要对数据进行repartition )6、要保证有足够的scratch 空间,当此空间满了之后,系统会把数据转移到tmp 空间,效率变低7、网络瓶颈会影响作业效率(局域网通讯,Node 之间的通讯问题)8、在 MAIN 机器上,设置是否关闭jobmonitor 进程( pools""为默认节点,需要进行节点运行,如果对””进行赋值,则不作为默认节点,不做运行。