INFORMATICA关于WORKFLOW Manager系统的元数据解析
- 格式:doc
- 大小:17.52 KB
- 文档页数:29
Informatica 服务配置一.作为客户端来操作Informatica 只是作为客户端连接远程方式工作时,无需进行相关配置,直接使用相关参数即可.但一定要保证掌握以下信息才能访问相关的repository此五项目必须与服务器的一样(与配置ORACLE客户端差不多,只是不能像ORACLE 那个可以对服务器进行别名配置)二.作为服务器来操作。
需要配置server和repository server1 配置repository server 知识库Informatica PowerCenter →informatica powerCenter--RepServer→Informatica Repository server setupConfigure repository server 较简单,只需要输入密码即可以。
(见图P_A11) 此密码会在连接知识库服务器时用到2启动repository server 知识库3创建知识库Informatica PowerCenter →informatica powerCenter--Client→Repository Server Administration console3.1创建知识库服务器点击New Server Registration 后出现下面界面Host name :输入主机的名字或IP3.2创建知识库Step 1 连接知识库服务器见图注意:此处的密码要与“配置知识库”的密码一致(图P_A11) 输入密码,点击OK进入下一界面Step 2 创建知识库---general页见图输入知识库的名字Step3 创建知识库---Database Connection页Databasetype : 选择数据厂商Codepage:不用理它Connectstring: 数据库连接串Dbuser: 数据库用户Dbpassword:数据库密码注意项:connectstring 根据选择的数据库厂商不同,字符串的格式也是不同的. Oracle:tns的名字SQLServer:hostserver@dbnameStep4 创建知识库---Licenses页将三种KEY (product key;option key;connective key)分别都UPDATE IJIF-NTMA-OCOX-QKQK-QBAYCLBW-KTAE-BHQH-PDXR-QBVJZQKZ-CFAY-JYZB-IIRR-NZYA如果发现已经过期(expiry) 可以调整本地日期来解决!4配置workflow manager4.1.打开workflowmanagerInformatica PowerCenter →informatica powerCenter--Client→Workflowmanager4.2.连接知识库输入password:Administrator(系统默认)可以在server config 中更改此处密码其它选项必须与知识库中的配置一致。
目录未找到目录项。
Informatica 数据整合分为三类数据集成,即下游集成、中游集成和上游集成下游集成:指数据仓库,显著特点是,从数据流的角度看,数据仓库的主体功能是所有应用系统的下游,所有数据都会流向数据仓库中游集成:指数据交换平台,特点是,任何平台和它的关系都是对等的,它是这个数据枢纽hub的中心点,用来支持所有系统之间数据的数据交换,用于解决数据集成毛团问题。
上游集成:指主数据平台,而且是交易型主数据平台。
用于管理企业核心数据的黄金记录,作为企业核心记录的黄金数据的标准平台。
Informatica 的四个客户端及作用:1,Repository Manager:用于管理Repository本身,如创建文件夹,导入/导出Mapping、Worlkfolw,版本管理,部署,Repository的清除。
2,Designer:用于导入ETL元数据,开发ETL程序。
在Power Center中ETL程序被叫做Mapping,即源到目标的映射。
3,Workflow Manager:用于对Mapping的进行数据源、数据目标、使用的字符集、调优及参数配置等,使Mapping能够运行。
此外,还提供了基本的调度和排程的能力。
4,Workflow Monitor:用于监控运行时的Workflow和session,监控ETL运行是否正常、执行效率及异常时的错误信息。
Power Center的开发过程:0,使用PowerCenter客户端连接域(Domian)和数据库服务器Repository Service;建立一个文件夹(Folder),用于开发学习;1,在客户端PowerCenter Designer中导入源表和目标表的结构定义;注:在Power Center Designer中导入的仅仅是表结构,与执行过程的表名无强相关2,在Designer中,创建Mapping(ETL流程)3,在Designer中,拖动源和目标,以及相应组件进入Mapping4,在Designer中,建立源和目标,以及相应组件之间的映射5,在Workflow Manager中提供相应的配置信息及参数6,通过Workflow Monitor客户端进行监控7,预览执行结果重要概念:Mapping:是一个程序,但它不直接可以执行Session:是一个Mapping的实例,指定相关的配置信息后,可以执行;Workflow:可以执行一个或者多个Session,对Session或者其他Task组件进行排程基础组件:1,Source:源文件数据源可以是数据库表,文本文件,XML文件,SAP等,应用系统、Hadoop,MQ等源文件常用方法:手工创建,通过数据库、文本文件、样例文件导入注意:理论上,源表结构定义继承了数据库中表的定义,但是实践中有可能导入后的数据类型发生变化,如表中varchar2,而导入后变为nvarchar2,从而引起Session执行异常。
Informatica目录创立于 1993 年,总部位于 Redwood City, California of USA 的Informatica ( Nasdaq:INFA )公司,作为电子商务分析型软件市场的领先者,一直致力于通过自身的产品和服务提升企业的竞争性优势。
其拳头产品 Informatica Insight Network(Infrastructure and Analytics) 已被全球 1 , 800 多家企业用来集成、分析和个性化企业的关键商务信息,优化整个商务价值链的表现和响应速度。
拥有包括 Citigroup, Deutsche Bank, AT&T, British Telecom, Motorola, Cisco, HP, Boeing, National Semiconductor, Timer Warner, News Group 在内的广泛的客户群。
Agent Logic 拥有商业和公共领域的客户,包括美国国家安全局。
在公共领域,Agent Logic 可以促进海域感知、地理空间跟踪以及战场命令和控制。
在商业领域,Agent Logic 能够通过符合相关差旅和开支政策的规则,帮助控制与公司信用卡计划有关的成本。
Agent Logic 将进一步加强 Informatica 在公共领域的业务,特别是美国联邦政府。
编辑本段Informatica在全球Informatica,1993年创立于美国加利福尼亚州,并于1999年4月在纳斯达克上市。
作为全球领先的企业数据集成解决方案提供商,Informatica提供专业数据集成软件和服务,以解决系统间的数据碎片问题,从而帮助企业获得了数据的更大商业价值。
Informatica开放、独立于平台的软件降低了企业IT的运营成本、加快了产出速度,可伸缩处理不同规模或不同复杂程度的数据集成项目。
Informatica拥有遍布全球的客户关系网络,其出色的成功案例显示,Informatica将帮助更多的企业和政府机构实现其企业数据的商业价值。
Informatica总结rmatica中关键词:(一)源表:即源表来自于数据库的表,例如在job100下面的源表是一些PRPCmain、CD码表、ODS表等一些表主要是来自于核心生产库中的表;job200下面的源表是些CD、ODS、MID表;job300下面的源表主要是CD、ODS、MID、olap表。
(二)元数据:元数据就是来自于数据库的基本表,起初的表(三)目标表:在执行完一个job后最终将数据存储在的表即目标表。
(四)映射:简单来讲将源表的数据导入目标表的过程就是一个映射。
(五)工作集:在一个job中执行的转化其中的每一个过程就相当于一个工作集。
(六)工作流:相当于在kettle中执行一个job的过程。
2.designer界面主要是定义源表和目标表生成映射的过程。
3.workflow界面编辑工作集执行工作流的过程。
4.monitor界面主要是为了执行完工作流之后查看工作日志的过程。
关于数据库方面(1).在Informatica中创建源和目标表的时候:在designer中创建源:来自于核心生产库在本地的配置文件中进行配置创建目标表:来自MIS生产库或者是测试库在本地的配置文件中进行配置根据这个路径E:\oracle\product\10.2.0\db_1\network\admin\tnsnames.ora找出.ora文件(2)创建工作流和工作集的时候:在workflow中,在进行启动的时候:在进行刷数参数配置在C:\Windows\System32\drivers\etc添加88.22.34.188 zj-misetl路径:/home/info_param data_param_test.txt文件是在windows32相对应的文件夹的下面在启动工作流的时候:配置数据库的文件不在本地文件中而是在Linux系统下面所以需要和Linux系统相连,通过xftp连接Linux系统,找到配置数据库的时候需要的文件。
informatica 面试题Informatica面试题在数据处理和数据集成领域,Informatica是一家领先的软件公司,其技术和解决方案被广泛应用于企业中。
如果你正在为Informatica面试做准备,那么本文将提供一些常见的Informatica面试题,并为你提供详细的回答。
1. 什么是Informatica?它在数据集成中扮演了什么角色?Informatica是一种企业级数据集成和管理解决方案。
它提供了一套强大的工具和技术,用于数据抽取、转换和加载(ETL)等任务。
通过使用Informatica,企业可以将来自不同数据源的数据整合到一个统一的数据仓库中,并提供准确、一致的数据结果。
2. Informatica的主要组件是什么?请简要描述它们的功能。
Informatica的主要组件包括:- PowerCenter:这是Informatica的核心组件,用于数据整合和ETL。
它提供了一个集成的环境,用于开发、部署和监控数据集成任务。
- PowerExchange:它是一个提供与外部数据源(如关系数据库、文件系统等)通信的插件框架。
- PowerMart:这是一个基于Web的工具,用于创建和发布简单的数据仓库。
- PowerDesigner:它是一个用于建模和设计数据仓库的工具。
- Metadata Manager:它用于管理和浏览不同数据源中的元数据,以支持数据整合和分析。
3. Informatica中的工作流是什么?它是如何工作的?工作流是Informatica中用于管理和执行任务的一种方式。
工作流由多个任务(任务是数据整合的不同阶段或步骤)组成,并按照预定的顺序执行。
每个任务都可以定义为数据抽取、清洗、转换或加载等操作。
工作流具有以下主要特点:- 有向无环图(DAG)结构:工作流中的任务按照特定的依赖关系组成一个有向无环图。
每个任务都依赖于其他任务的输出结果,并且没有循环依赖。
- 并行处理:工作流中的任务可以以并行或串行方式运行。
Informatica_(4)⼯作流三、workflow执⾏、监控workflow是PowerCenter的执⾏单元;⼀个workflow包括⼀个或者多个session(或task)。
1.sessionsession是mapping的实例化。
session是给mapping提供配置⽂件的场所或机制。
有了这些配置信息,mapping就可以执⾏了,所以说session是mapping的⼀个可执⾏实例。
session的两种类型:Reusable session(可重复使⽤)和⾮Reusable session(不可重复使⽤)。
1.1 Reusable session(可重复使⽤session)创建⼀次,可以被多次重⽤。
选中“Task Developer”,打开菜单“Tasks--》create”,输⼊session名点“create”,选择对应的mapping.Reusable session可⽤以多个workflow或者worklet。
1.2 ⾮Reusable session(不可重复使⽤session)先创建workflow,再创建session。
选中“workflow designer”,打开菜单“workflows--》create”,输⼊workflow名点“OK”,workflow的起始点“Start”创建成功;再在workflow的⼯作区内创建session,即⾮Reusable session。
⾮Reusable session可以转换为Reusable session,双击session,选中“make reuseable”。
2.workflow2.1 并⾏执⾏⼀个workflow同时链接多个session,并且多个session之间没有依赖关系,可以并⾏执⾏以提升效率。
2.2 串⾏执⾏⼀个workflow同时链接多个session,并且多个session之间存在依赖关系,需要按照依赖关系顺序依次执⾏。
informatica工作原理-回复Informatica工作原理: 实现数据集成、数据质量和数据管理的关键技术引言:在当今数字化时代,数据成为了企业决策和战略规划的问题。
然而,大量分散在不同系统和数据源中的数据给企业数据分析和管理带来了很大挑战。
为了解决这些问题,许多组织都转向了数据集成和数据管理解决方案。
而其中的佼佼者就是Informatica。
在本文中,我们将深入探讨Informatica工作原理,了解它如何实现高效的数据集成、数据质量和数据管理。
第一部分:数据集成数据集成是将分散在不同数据源中的数据整合在一起,以获得一致、可信的数据视图的过程。
Informatica通过以下步骤实现数据集成:1. 数据源连接:Informatica可以连接到各种数据源,包括数据库、文件、应用程序和云端存储。
它使用统一的接口和驱动程序来实现连接,并建立与数据源之间的通信。
2. 数据提取:Informatica从不同的数据源中提取数据。
这可以通过读取数据库表、文件或执行Web服务调用来实现。
数据提取是通过查询或API 调用来完成的,并将数据保存在Informatica的数据集成引擎中。
3. 数据转换:在数据提取后,Informatica对数据进行转换和清洗,以确保数据的一致性和准确性。
数据转换可以包括数据格式转换、数据清洗、数据合并、数据筛选等操作。
4. 数据加载:一旦数据经过转换和清洗,Informatica将数据加载到目标系统中。
这可以是目标数据库、文件、数据仓库或其他应用程序。
第二部分:数据质量数据质量是确保数据准确性、一致性和完整性的一项关键任务。
Informatica通过以下方式确保数据质量:1. 数据校验:Informatica对数据进行校验,以确保数据的准确性和一致性。
它可以检查数据的完整性、有效性和规范性,并根据预定义的规则和逻辑对数据进行验证。
2. 数据清洗:Informatica清洗数据以去除重复项、缺失值和错误数据。
informatica工作原理Informatica是一家全球知名的数据集成和数据管理公司,其工作原理涉及到多个关键组件和技术。
本篇文章将详细介绍Informatica 的工作原理,包括其核心组件、数据处理流程、数据传输方式以及安全机制等方面。
一、核心组件Informatica的核心组件包括PowerCenter、PowerExchange和PowerDesigner等。
这些组件共同构成了Informatica的数据集成平台,提供了数据抽取、转换、清洗、加载等功能。
1.PowerCenter:作为Informatica的核心数据集成引擎,PowerCenter负责执行数据抽取、转换和加载等操作。
它支持多种数据源和目标,包括关系型数据库、非关系型数据库、文件系统等。
PowerCenter通过使用流处理引擎和批量处理引擎,实现了高效的数据处理能力。
2.PowerExchange:PowerExchange是Informatica的数据传输组件,负责在不同的数据源和目标之间进行数据传输。
它支持多种传输协议,如TCP、HTTP、JMS等,可以保证数据传输的可靠性和稳定性。
3.PowerDesigner:PowerDesigner是Informatica的数据模型设计工具,用于创建和编辑数据模型。
它提供了丰富的图形化界面,方便用户设计数据模型并生成相应的元数据。
二、数据处理流程Informatica的数据处理流程主要包括数据抽取、转换、清洗、加载和验证等步骤。
具体流程如下:1.数据抽取:从源数据存储中提取所需的数据,并将其加载到Informatica的数据仓库中。
2.数据转换:将抽取的数据进行转换和清洗,以满足目标系统的要求。
这一步骤可能包括数据类型转换、格式转换、去除重复数据等操作。
3.数据加载:将清洗后的数据加载到目标系统中,完成数据的最终传输。
4.验证:对加载的数据进行验证,确保数据的准确性和完整性。
informatica面试常见问题
1. 请介绍一下Informatica的工作原理和主要功能。
2. 你在之前的项目中如何使用Informatica ETL工具?
3. 如何处理Informatica作业的错误和异常?
4. 如何进行Informatica数据质量检查和数据清洗?
5. 请列举一些常用的Informatica转换(transformation)和它们的作用。
6. 如何进行Informatica数据加载和抽取?
7. 你在之前的项目中遇到的最大的数据质量问题是什么,你是如何解决的?
8. 如何进行Informatica性能优化和调优?
9. 如何进行Informatica作业的监控和日志记录?
10. 请描述一下Informatica的工作流(workflow)和会话(session)的关系。
11. 如何在Informatica中处理事实表和维度表的加载?
12. 你在Informatica中使用过哪些源系统和目标系统?
13. 如何进行Informatica作业的自动化调度和自动重启?
14. 在使用Informatica过程中,你遇到过哪些具体的技术难题,你是如何解决的?
15. 你对Informatica未来的发展有何看法?
16. 你具备哪些Informatica相关的认证?
17. 请简要介绍一下你的Informatica项目经验和技术能力。
18. 你对数据仓库设计和数据模型有哪些了解?如何将其应用到Informatica中?
19. 请谈谈你在Informatica中的团队合作经验。
20. 你对Informatica的竞争对手有何了解,为什么选择使用Informatica?。
INFORMATICA关于WORKFLOW Manager系统的元数据解析INFORMATICA关于WORKFLOW Manager系统的元数据解析关键词:INFORMATICA,WOR Manager,元数据informaica是一个很强大的ETL工具。
其WORKFLOW MANAGER负责对ETL调度流程进行设计与管理和执行!informatica在在资料库中提供以下表来存储调动流程的相关信息。
以便WORKFLOW MANAGER对用户所设计的调动流程进行管理和执行。
opb_wflow_dep:描述workflow执行步骤相关信息和每个步骤执行的条件信息opb_wflow_dep_run:描述workflow执行步骤运行时相关信息opb_wflow_expr :描述workflow中相关的表达式或条件的相关信息opb_wflow_perval:描述workflow可持续性变量相关信息opb_wflow_run:描述workflow运行日志相关信息opb_wflow_var:描述workflow变量相关信息opb_task:描述任务对象的基本信息opb_task_attr:描述任务对象相关的属性的信息opb_task_inst:描述任务对象实例的基本信息opb_task_inst_run:描述任务对象实例运行日志相关信息opb_task_val_list:描述任务对象实例中command信息WORKFLOW MANAGER系统中常用的有这几个模块,Command模块,Session模块,Waiting_Event模块,Raising_Event模块,Assignment模块,Worklet模块WORKFLOW MANAGER系统中上述的这些模块统称为任务(Task).如果你对一个模块进行了复制后新的模块就称作该任务的任务实例(Task_Inst). WORKFLOW MANAGER系统中Worklet模块可以有其他非Worklet模块组成。
在WORKFLOW MANAGER系统中一个工资流被称作Workflow,Workflow由各种任务模块组合而成。
同时一个Workflow也是一个任务。
以下是WORKFLOW 元数据表的详细说明,-------------------------------------------------------------------------OPB_WFLOW_DEP:描述workflow执行步骤相关信息和每个步骤执行的条件信息--WORKFOLW MANAGER系统将用户设计的工作流的流程(步骤)信息存放到该表中。
--将每个步骤的执行的条件详细信息存放到opb_wflow_expr 中,然后由CONDITION_ID--关联。
如果用户没有设置步骤执行条件则opb_wflow_expr 对应记录中的CONDITION--字段值为空。
WORKFOLW MANAGER系统执行一个工作流时,就根据这个表中的步骤信息--获得所要调度的任务实例标识,然后到opb_task_inst获取具体信息。
----------------------------------------------------------------------- CREATE TABLE OPB_WFLOW_DEP (WORKFLOW_ID NUMBER NULL,--工作流步骤归属的工作流标识FROM_INST_ID NUMBER NULL,--工作流步骤中起始任务实例标识TO_INST_ID NUMBER NULL,--工作流步骤中终止任务实例标识CONDITION_ID NUMBER NULL,--工作流步骤可以执行的条件标识OPB_OBJECT_ID NUMBER NULL); ----------------------------------------------------------------------- --OPB_WFLOW_DEP_RUN:描述workflow执行步骤运行时相关信息--用于关联opb_wflow_run和opb_task_inst_run--这样这三张表就能完整的描述一个工作流的运行情况了。
----------------------------------------------------------------------- CREATE TABLE OPB_WFLOW_DEP_RUN (WORKFLOW_ID NUMBER NULL,--工作流步骤归属的工作流标识WORKFLOW_RUN_ID NUMBER NULL,--工作流步骤归属的工作流运行实例标识WORKLET_RUN_ID NUMBER NULL,--工作流步骤归属的WORKLET运行实例标识FROM_INSTANCE_ID NUMBER NULL,--工作流步骤中起始任务实例标识TO_INSTANCE_ID NUMBER NULL --工作流步骤可以执行的条件标识); ----------------------------------------------------------------------- --OPB_WFLOW_EXPR:描述workflow中相关的表达式或条件的相关信息------------------------------------------------------------------------- CREATE TABLE OPB_WFLOW_EXPR (WORKFLOW_ID NUMBER NULL,--表达式归属的工作流标识CONDITION_ID NUMBER NULL,--条件标识LINE_NO NUMBER NULL,CONDITION VARCHAR2(2000) NULL,--条件表达式描述OPB_OBJECT_ID NUMBER NULL); ----------------------------------------------------------------------- --OPB_WFLOW_PERVAL:描述workflow可持续性变量相关信息--当下次运用到一持续性变量时,WORKFLOW MANAGER 系统就会从该表中读取--该变量的VAR_VALUE值了。
当该持续性变量所在的WORKFLOW(或WORKLET)结束后--系统就会将该持续性变量的当前值保存到该表相应记录的VAR_VALUE字段中----------------------------------------------------------------------- CREATE TABLE OPB_WFLOW_PERVAL (SUBJECT_ID NUMBER NULL,--工作流归属的主题标识WORKFLOW_ID NUMBER NULL,--变量归属的工作流标识WORKLET_ID NUMBER NULL,VARIABLE_ID NUMBER NULL,--变量标识VAR_VALUE VARCHAR2(2000) NULL,--变量当前值LAST_SAVED VARCHAR2(30) NULL,BIT_OPTIONS NUMBER NULL,OPB_OBJECT_ID NUMBER NULL,WORKLET_INST_ID NUMBER NULL--变量归属的WORKLET任务实例标识);----------------------------------------------------------------------------- --OPB_WFLOW_RUN:描述workflow运行日志相关信息--该表中描述运行WROKFLOW的运行环境信息(SERVER_ID、USER_NAME)--和WORKFLOW的运行结果。
--OPB_WFLOW_RUN和OPB_TASK_INST_RUN这两个表提供了WORKFLOW MONITER系统--对显示工作流详细运行状态的所需要的所有信息------------------------------------------------------------------------------CREATE TABLE OPB_WFLOW_RUN (SUBJECT_ID NUMBER NULL,--工作流归属主题标识WORKFLOW_ID NUMBER NULL,--工作流标识WORKFLOW_RUN_ID NUMBER NULL,--工作流运行实例标识WORKFLOW_NAME VARCHAR2(240) NULL,--工作流名称SERVER_ID NUMBER NULL,--运行工作流的INFOMATICA服务器标识SERVER_NAME VARCHAR2(240) NULL,--运行工作流的INFOMATICA服务器名称START_TIME DATE NULL,--开始运行工作流时间END_TIME DATE NULL,--结束运行工作流时间LOG_FILE VARCHAR2(2000) NULL,--记录工作流运行详细情况的日志文件全名称RUN_ERR_CODE NUMBER NULL,--工作流运行错误代码(如果工作流正常结束该字段值为空)RUN_ERR_MSG VARCHAR2(2000) NULL,--工作流运行错误描述(如果工作流正常结束该字段值为空)RUN_STATUS_CODE NUMBER NULL,--工作流运行状态USER_NAME VARCHAR2(240) NULL,--运行该工作流所使用的用户名称RUN_TYPE NUMBER NULL,--工作流运行类型CODEPAGE_ID NUMBER NULL);-----------------------------------------------------------------------------------------OPB_WFLOW_VAR:描述workflow变量相关信息--在WORKFLOW MANAGER系统中有系统内值变量和用户自定义变量。
------------------------------------------------------------------------------------------CREATE TABLE OPB_WFLOW_VAR (SUBJECT_ID NUMBER NULL,--工作流归属主题标识WORKFLOW_ID NUMBER NULL,--变量归属的工作流任务实例标识(或者变量归属的WORKLET 任务实例标识)VARIABLE_ID NUMBER NULL,--变量标识VAR_NAME VARCHAR2(240) NULL,--变量名称VAR_TYPE NUMBER NULL,--变量类型(临时、持久)VAR_DESC VARCHAR2(2000) NULL,--变量描述VAR_DATATYPE NUMBER NULL,--变量数据类型VAR_DEFAULT VARCHAR2(2000) NULL,--变量缺省值LAST_SAVED VARCHAR2(30) NULL,OPB_OBJECT_ID NUMBER NULL,TASK_INST_ID NUMBER NULL,--变量归属任务实例标识(该任务实例为非WORKFLOW/WORKLET 任务实例)TASK_INST_NAME VARCHAR2(240)NULL,--变量归属任务实例名称BIT_OPTIONS NUMBER NULL); ------------------------------------------------------------------------- --OPB_TASK:描述任务对象实例的基本信息--任务概论是INFORMAICA系统中对所有可以被调度执行的模块的总称,--包含Command任务,Session任务,Waiting_Event任务,--Raising_Event任务,Assignment任务,Worklet任务,Workflow任务等。