informatica组件介绍
- 格式:pptx
- 大小:1.47 MB
- 文档页数:53
Informatica常⽤组件Lookup缓存之⼀概述 可以配置查找转换以⾼速缓存查找表。
PowerCenter 将在处理⾼速缓存查找转换中的第⼀个数据⾏时在存储器中建⽴⾼速缓存。
它将根据您在转换或会话特性中配置的数量来分配⾼速缓存区内存。
PowerCenter 会将条件值存储在索引⾼速缓存区中,⽽将输出值存储到数据⾼速缓存区。
PowerCenter 将查询进⼊转换的每⾏的⾼速缓存。
默认情况下,PowerCenter 还将在 $PMCacheDir 中创建⾼速缓存⽂件。
如果数据在存储器⾼速缓存区中放不下,PowerCenter 会将溢出值存储在⾼速缓存⽂件中。
会话完成后,PowerCenter 将释放⾼速缓存区内存并删除⾼速缓存⽂件,除⾮您将查找转换配置为使⽤永久性⾼速缓存。
如果使⽤平⾯⽂件查找,PowerCenter 将总是⾼速缓存查找源。
如果为已排序输⼊配置平⾯⽂件查找,⽽未分组条件列,PowerCenter 将⽆法⾼速缓存查找。
如果对列进⾏了分组,但尚未排序,PowerCenter 将按您没有配置排序输⼊的⽅式来处理查找。
配置查找⾼速缓存时,您可以指定以下任意选项:永久⾼速缓存。
可以保存查找⾼速缓存⽂件并在下次 PowerCenter 处理配置使⽤⾼速缓存的"查找"转换时重新使⽤。
从源重新⾼速缓存。
如果永久⾼速缓存与查找表不同步,则可以配置"查找"转换以重建查找⾼速缓存。
静态⾼速缓存。
可以为任意查找源配置静态或只读⾼速缓存。
默认情况下,PowerCenter 创建静态⾼速缓存。
它会为进⼊转换的⾏⾼速缓存查找⽂件或表并在⾼速缓存中查找值。
条件为真时,PowerCenter 将从查找⾼速缓存返回值。
PowerCenter 处理查找转换时不会更新⾼速缓存。
动态⾼速缓存。
如果要⾼速缓存⽬标表并在⾼速缓存和⽬标中插⼊新⾏或更新现有⾏,则可创建"查找"转换以使⽤动态⾼速缓存。
目录未找到目录项。
Informatica 数据整合分为三类数据集成,即下游集成、中游集成和上游集成下游集成:指数据仓库,显著特点是,从数据流的角度看,数据仓库的主体功能是所有应用系统的下游,所有数据都会流向数据仓库中游集成:指数据交换平台,特点是,任何平台和它的关系都是对等的,它是这个数据枢纽hub的中心点,用来支持所有系统之间数据的数据交换,用于解决数据集成毛团问题。
上游集成:指主数据平台,而且是交易型主数据平台。
用于管理企业核心数据的黄金记录,作为企业核心记录的黄金数据的标准平台。
Informatica 的四个客户端及作用:1,Repository Manager:用于管理Repository本身,如创建文件夹,导入/导出Mapping、Worlkfolw,版本管理,部署,Repository的清除。
2,Designer:用于导入ETL元数据,开发ETL程序。
在Power Center中ETL程序被叫做Mapping,即源到目标的映射。
3,Workflow Manager:用于对Mapping的进行数据源、数据目标、使用的字符集、调优及参数配置等,使Mapping能够运行。
此外,还提供了基本的调度和排程的能力。
4,Workflow Monitor:用于监控运行时的Workflow和session,监控ETL运行是否正常、执行效率及异常时的错误信息。
Power Center的开发过程:0,使用PowerCenter客户端连接域(Domian)和数据库服务器Repository Service;建立一个文件夹(Folder),用于开发学习;1,在客户端PowerCenter Designer中导入源表和目标表的结构定义;注:在Power Center Designer中导入的仅仅是表结构,与执行过程的表名无强相关2,在Designer中,创建Mapping(ETL流程)3,在Designer中,拖动源和目标,以及相应组件进入Mapping4,在Designer中,建立源和目标,以及相应组件之间的映射5,在Workflow Manager中提供相应的配置信息及参数6,通过Workflow Monitor客户端进行监控7,预览执行结果重要概念:Mapping:是一个程序,但它不直接可以执行Session:是一个Mapping的实例,指定相关的配置信息后,可以执行;Workflow:可以执行一个或者多个Session,对Session或者其他Task组件进行排程基础组件:1,Source:源文件数据源可以是数据库表,文本文件,XML文件,SAP等,应用系统、Hadoop,MQ等源文件常用方法:手工创建,通过数据库、文本文件、样例文件导入注意:理论上,源表结构定义继承了数据库中表的定义,但是实践中有可能导入后的数据类型发生变化,如表中varchar2,而导入后变为nvarchar2,从而引起Session执行异常。
Transaction Control组件Active输入输出行数不同Connected连接组件组件概述PowerCenter可以根据流经过Transaction Control组件的一组数据来控制事务的操作类型:提交或者回滚。
事务包含受限于提交或者回滚的数据行。
可以通过输入行中一个变化的数值来定义一个事务,也可以通过一组已经排序了的数据来定义一个事务,比如员工id、日期。
在PowerCenter中,可以应用Transaction Control组件在mapping或者session 中:Mapping:在mapping中,通过Transaction Control组件定义一个事务。
在组件中根据一个表达式定义一个事务。
根据表达式的返回值,可以选择commit、roll back 或者continue不做任何变化。
Session:在配置session的时候可以自己定义事务。
在Integration Service向目标中写数据失败时,可以选择提交或者回滚。
在执行session的时候,Integration Service判断组件输入的每一行,当输入行事务类型为commit时,Integration Service提交所有行至目标。
当输入行事务类型为回滚时,Integration Service从目标中回滚该事务的所有行。
如果mapping的目标为文件时,Integration Service每开始一个新的事务时生成一个新的动态命名的输出文件。
Note:也可以通过其他的组件属性来定义事务。
组件属性使用Transaction Control组件定义事务目标的提交、回滚条件。
事务目标包含:relational, XML, and dynamic MQSeries。
在Properties tab中控制表达式中定义以下参数,事务是一行或者一组数据,受限于提交或者回滚行。
每个事务的行数是变化的。
Transformation tab:在这个tab中可以重命名组件名称和增加组件说明Ports tab:增加输入输出端口Properties tab:定义事务控制表达式,标志出:commit, roll back, or no actionMetadata Extensions tab:You can extend the metadata stored in the repository by associating information with the Transaction Control transformation.Properties Tab通过该tab可以定义以下两个属性:Transaction control expressionTracing level事务控制表达式使用IIF函数来检查每一行是否满足条件。
Informatica目录创立于 1993 年,总部位于 Redwood City, California of USA 的Informatica ( Nasdaq:INFA )公司,作为电子商务分析型软件市场的领先者,一直致力于通过自身的产品和服务提升企业的竞争性优势。
其拳头产品 Informatica Insight Network(Infrastructure and Analytics) 已被全球 1 , 800 多家企业用来集成、分析和个性化企业的关键商务信息,优化整个商务价值链的表现和响应速度。
拥有包括 Citigroup, Deutsche Bank, AT&T, British Telecom, Motorola, Cisco, HP, Boeing, National Semiconductor, Timer Warner, News Group 在内的广泛的客户群。
Agent Logic 拥有商业和公共领域的客户,包括美国国家安全局。
在公共领域,Agent Logic 可以促进海域感知、地理空间跟踪以及战场命令和控制。
在商业领域,Agent Logic 能够通过符合相关差旅和开支政策的规则,帮助控制与公司信用卡计划有关的成本。
Agent Logic 将进一步加强 Informatica 在公共领域的业务,特别是美国联邦政府。
编辑本段Informatica在全球Informatica,1993年创立于美国加利福尼亚州,并于1999年4月在纳斯达克上市。
作为全球领先的企业数据集成解决方案提供商,Informatica提供专业数据集成软件和服务,以解决系统间的数据碎片问题,从而帮助企业获得了数据的更大商业价值。
Informatica开放、独立于平台的软件降低了企业IT的运营成本、加快了产出速度,可伸缩处理不同规模或不同复杂程度的数据集成项目。
Informatica拥有遍布全球的客户关系网络,其出色的成功案例显示,Informatica将帮助更多的企业和政府机构实现其企业数据的商业价值。
Informatica组件应⽤详解Informatica组件介绍⼀、update的功能Update 主要是与lookup相组合的搭档。
根据lookup来与源表数据相对⽐,来跟新数据数据抽取。
它起到⼀个插⼊和拒绝的作⽤。
1.Powercenter的更新策略包括两个⽅⾯:A.在Mapping中:⽤Update Strategy Transformation标识⾏为Insert,Update,Delete或者Reject;B.在Session中:配置Treat source row as 属性(Insert,Update,Delete或者Data driven),配置Target的属性(Insert,Update [as Update](只是更新) | [as Insert](把更新视为新增) | [else Insert](先更新,更新不到则新增) ,Delete,Truncate target table option);2.在Update Strategy Expression中可以输⼊常量(DD_INSERT, DD_UPDATE,DD_DELETE, DD_REJECT)或者数字值(0,1,2,3),其它数字值被解析为0,可以⽤IIF或者DECODE函数构建逻辑表达式来区别每⼀⾏的更新策略;3.Forward Rejected Rows:勾选时被Rejected的⾏会存⼊对应Target配置的Reject⽂件中去,不选时,可能会写⼊Session Log中去,根椐当前Transformation的Tracing Level的属性来决定;如果在会话属性中配置了出错⾏⽇志属性,则不会⽣成Reject⽂件;⼆、Expression 的功能表达式编辑器可以使⽤不同的颜⾊来标记表达式的语法,以便很好的阅读。
如果你有最新的Rich Edit,riched20.dll,安装到了系统,表达式显⽰表达式函数为兰⾊,注释式灰⾊,引⽤的字符串式绿⾊。
informatica 面试题Informatica面试题在数据处理和数据集成领域,Informatica是一家领先的软件公司,其技术和解决方案被广泛应用于企业中。
如果你正在为Informatica面试做准备,那么本文将提供一些常见的Informatica面试题,并为你提供详细的回答。
1. 什么是Informatica?它在数据集成中扮演了什么角色?Informatica是一种企业级数据集成和管理解决方案。
它提供了一套强大的工具和技术,用于数据抽取、转换和加载(ETL)等任务。
通过使用Informatica,企业可以将来自不同数据源的数据整合到一个统一的数据仓库中,并提供准确、一致的数据结果。
2. Informatica的主要组件是什么?请简要描述它们的功能。
Informatica的主要组件包括:- PowerCenter:这是Informatica的核心组件,用于数据整合和ETL。
它提供了一个集成的环境,用于开发、部署和监控数据集成任务。
- PowerExchange:它是一个提供与外部数据源(如关系数据库、文件系统等)通信的插件框架。
- PowerMart:这是一个基于Web的工具,用于创建和发布简单的数据仓库。
- PowerDesigner:它是一个用于建模和设计数据仓库的工具。
- Metadata Manager:它用于管理和浏览不同数据源中的元数据,以支持数据整合和分析。
3. Informatica中的工作流是什么?它是如何工作的?工作流是Informatica中用于管理和执行任务的一种方式。
工作流由多个任务(任务是数据整合的不同阶段或步骤)组成,并按照预定的顺序执行。
每个任务都可以定义为数据抽取、清洗、转换或加载等操作。
工作流具有以下主要特点:- 有向无环图(DAG)结构:工作流中的任务按照特定的依赖关系组成一个有向无环图。
每个任务都依赖于其他任务的输出结果,并且没有循环依赖。
- 并行处理:工作流中的任务可以以并行或串行方式运行。
Informatica_(3)组件⼀、Informatica介绍Informatica PowerCenter 是Informatica公司开发的世界级的企业数据集成平台,也是业界领先的ETL⼯具。
Informatica PowerCenter使⽤户能够⽅便地从异构的已有系统和数据源中抽取数据,⽤来建⽴、部署、管理企业的数据仓库,从⽽帮助企业做出快速、正确的决策。
此产品为满⾜企业级要求⽽设计,可以提供企业部门的数据和电⼦商务数据源之间的集成,如XML,⽹站⽇志,关系型数据,主机和遗留系统等数据源。
此平台性能可以满⾜企业分析最严格的要求。
Informatica PowerCenter已被全球多家著名企业⽤来建设BI/DW系统,它可集成和分析企业的关键商务信息,优化整个商务价值链的表现和响应速度。
Informatica PowerCenter拥有⼀个功能强⼤的数据整合引擎,所有的数据抽取、转换、装载的功能都是在内存中执⾏的,不需要开发者⼿⼯编写这些过程的代码。
Informatica PowerCenter 数据整合引擎是元数据驱动的,通过知识库和引擎的配对管理,可以保证数据整合过程能够最优化执⾏,并且使数据仓库管理员⽐较容易对系统进⾏分析管理,从⽽适应⽇益增加的数据装载和⽤户群。
⼆、informatica开发步骤:定义源: Desinger定义⽬标: Desinger创建映射: 源--》转换组件--》⽬标Mapping都是由源表、转换组件和⽬标表组成,⽤于描述数据抽取的过程。
源表和⽬标表可以从源和⽬标⽂件夹拖拽到⼯作区,转换组件需要⼿动创建。
Mapping设计的关键就是转换组件的使⽤,这关系到数据抽取的正确性和效率。
定义任务: Workflow Manager创建⼯作流: Workflow Manager⼯作流调度监控 : Workflow Monitor三、转换组件1. 组件列表Source Qualifier 从数据源读取数据Expression ⾏级转换Filter 数据过滤Sorter 数据排序Router 条件分发joiner 异构数据关联连接Lookup 查询连接Aggregator 聚合Update Strategy 对⽬标编辑(insert\update\delete\reject)Union 数据合并Sequence Generator 序列号⽣成器Normalizer 记录规范化Rank 对记录进⾏TOPxTransaction Control 对装载数据按条件进⾏事物控制Stored Procedure 存储过程组件Custom ⽤户⾃定义组件HTTP WWW组件Java Java⾃编程组件其它应⽤组件2. 组件类型Passive类型:流⼊流出组件的⾏数不发⽣变化,如:Expression、Lookup、HTTP组件。
informatica工作原理Informatica是一家全球知名的数据集成和数据管理公司,其工作原理涉及到多个关键组件和技术。
本篇文章将详细介绍Informatica 的工作原理,包括其核心组件、数据处理流程、数据传输方式以及安全机制等方面。
一、核心组件Informatica的核心组件包括PowerCenter、PowerExchange和PowerDesigner等。
这些组件共同构成了Informatica的数据集成平台,提供了数据抽取、转换、清洗、加载等功能。
1.PowerCenter:作为Informatica的核心数据集成引擎,PowerCenter负责执行数据抽取、转换和加载等操作。
它支持多种数据源和目标,包括关系型数据库、非关系型数据库、文件系统等。
PowerCenter通过使用流处理引擎和批量处理引擎,实现了高效的数据处理能力。
2.PowerExchange:PowerExchange是Informatica的数据传输组件,负责在不同的数据源和目标之间进行数据传输。
它支持多种传输协议,如TCP、HTTP、JMS等,可以保证数据传输的可靠性和稳定性。
3.PowerDesigner:PowerDesigner是Informatica的数据模型设计工具,用于创建和编辑数据模型。
它提供了丰富的图形化界面,方便用户设计数据模型并生成相应的元数据。
二、数据处理流程Informatica的数据处理流程主要包括数据抽取、转换、清洗、加载和验证等步骤。
具体流程如下:1.数据抽取:从源数据存储中提取所需的数据,并将其加载到Informatica的数据仓库中。
2.数据转换:将抽取的数据进行转换和清洗,以满足目标系统的要求。
这一步骤可能包括数据类型转换、格式转换、去除重复数据等操作。
3.数据加载:将清洗后的数据加载到目标系统中,完成数据的最终传输。
4.验证:对加载的数据进行验证,确保数据的准确性和完整性。