当前位置:文档之家› 元数据管理方案

元数据管理方案

元数据管理方案
元数据管理方案

元数据管理方案

元数据管理方案

1.1元数据抽取

为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。通过元数据自动抽取,用户可以方便、快捷地获得大量的元数据信息。

1.1.1抽取的对象

元数据抽取主要针对的对象有以下几种:

已有目录:已建业务应用系统中现有的目录资源。

数据库:各种数据库资源,包括关系型数据库、XML数据库等。

格式化电子文件:电子文件,例如Word PDF XLS等文件。

1.1.2元数据抽取的流程

元数据抽取的流程有4个主要步骤,分别为:

数据源信息获取:解决要从哪个数据源获得元数据的问题。

内容/结构分析:解决要从数据源中获得哪些元数据的问题。

元数据提取:解决如何从数据源中获取元数据的问题。

存储入库:解决元数据存储的问题。

1.1.3电子文档的元数据抽取

对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。

针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程:

整理归档

对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统一整理,根据公开共享的前提进行集中,这种集中可以是物理上集中的,也可以是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。

根据安全级别,建立相应的访问机制

由于受到安全级别的限制,所以对于需要共享的数据要进行安全方面的限制,限制的手段可以有:用户名/ 密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。

编目处理

现阶段,主流格式的电子文档,主要包含:word、excel 、ppt 、pdf 等。对主流格式的电子文档,要提供自动采集工具进行编目处理。采集的范围主要是文档的标题和内容,对于其它的元数据内容,要提供手工配置的方式进行辅助。另外,在工具的采集效率上,要提高增量文档发布后的采集效率。

对于格式特殊、内容有加密算法的文档,是很难通过抓取工具进行采集的,这些文档主要通过手工编目的方式来处理。

对于存在管理库的文档,就需要对数据库来进行编目采集,详见数据库元数据抽取部分。

电子档案元数据的管理方案

龙源期刊网 https://www.doczj.com/doc/692930157.html, 电子档案元数据的管理方案 作者:陈兰 来源:《经营者》2018年第06期 摘要随着社会的进步和信息技术的不断发展,越来越多的电子文件在其归档后就形成了电子档案,这种电子档案是保存各种电子文件的重要工具。其中,元数据是这种电子档案的基础,它又被叫作“关于数据的数据”,是记录各种电子文件全部信息的重要工具,通过元数据可以实现对各种重要的电子文件的完整性、真实性的保护。 关键词电子档案元数据管理方案 元数据的准确定义为:对各种信息资源进行结构化的描述,提供关于信息资源或数据的一种结构化数据。它可以对各种电子数据本身的特征和属性进行描述,具有发现、检索、管理、描述等功能。目前基于元数据的电子档案管理已经广泛应用于各行各业。本文对元数据在电子档案管理中的功能、电子档案元数据管理方案等几个方面进行研究和探讨。 一、元数据在电子档案管理中的作用 (一)保证电子档案的真实性和完整性 因为电子档案与实体分离,并且可以通过相关的操作进行变更,所以它的真实性往往会受到怀疑。但是,如果电子档案有了元数据,就可以将整个电子档案的形成、利用、处理的过程记录下来,从而保证整个电子档案的真实性和完整性。 (二)确保电子档案的长期可读性 我们知道,电子档案的生成和保存主要是依靠电脑和一些软件,一旦电脑或者是软件运行出现问题,电子档案就无法识别。在这种情况下,就可以利用元数据建立相应的模型对电子档案的格式信息、制作信息、转换方式等进行详细的记录与描述,这样就可以在电子档案迁移过程中保证其完整性和可读性。 (三)具有发现、检索、管理、描述等基本功能 元数据最基本的功能就是描述功能,它可以对档案信息对象的属性和位置进行详细的描述,从而将所找对象的基本信息呈现在人们面前。此外,因为元数据将主要信息展示出来了,所以就便于人们快速查找所需信息。同时,元数据还可以对各种资源对象的各个部件之间的结构和关联模式进行管理。 二、电子档案元数据的管理方案

元数据管理解决方案-2018.3.27

元数据解决方案 随着报价系统每年收集和使用的数据飞速增长,数据体量日趋增长,数据形态多样化且不统一,多种数据源之间的采集、传播和共享遇到困难。元数据管理作为大数据治理的核心,是有效管理这些数据的基础和前提,在信息化建设中发挥着重要的作用。如何理解、管理并发挥出元数据的价值,成为迫切的任务。 一、什么是元数据 元数据(Metadata)是关于数据的数据。元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 1. 技术元数据 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息: 1) 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据 的定义,以及数据集市的位置和内容。 2) 业务系统、数据仓库和数据集市的体系结构和模式。 3) 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、 汇总、预定义的查询与报告。 4) 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分 割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存 取控制)。 2. 业务元数据 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:

1) 使用者的业务术语所表达的数据模型、对象名和属性名。 2) 访问数据的原则和数据的来源。 3) 系统所提供的分析方法以及公式和报表的信息。 4) 企业概念模型、多维数据模型,业务概念模型与物理数据的依赖, 二、元数据的作用 元数据可以实现业务模型与数据模型的映射,帮助用户理解数据仓库中的数据;元数据清晰的描述了数据的来龙去脉,描述了数据抽取转换规则,是保证数据质量的关键;元数据管理系统可以把整个业务的工作流、数据流和信息流有效的管理,可以支持需求变化,从而提高系统的可扩展性;打通数据孤岛,统一数据定义,形成企业级知识传承平台,元数据管理使得数据变的更有价值。三、元数据管理 在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。元数据管理是企业提升数据质量的基础,也是企业数据治理中的关键环节。元数据管理不当,信息很容易被丢失,进而不能对业务进行有效支撑,企业内部业务人员要识别相关信息就会变得十分困难,最终用户也将失去对数据的信任。 1. 元数据采集 技术元数据的采集,根据现有元数据设计出元模型,然后将数据仓库系统之中的元数据按元模型集中汇总并关联到一起,达到企业对数据统一管理与应用的目的,ETL等产生的元数据,对于元数据管理工具支持的格式可直接进行导入,对于一些自定义的规则,需要进行格式转换并导入。

典型的元数据方案

典型的元数据方案 3.1都柏林核心(Dublin core)简介 Dublin core是都柏林元数据核心元素集(Dublin metadata core element set)的简称,在1995年3月,由超级图书馆中心和美国超级计算机应用中心主持,在美国俄亥俄州都柏林召开的第一届元数据研讨会上提出的。其目的就是希望建立一套适合描述网络资源的方法,用来信息识别,查询,组织,检索。 DC元数据简练,易于理解,扩展性强,与其他元数据形式兼容性强。网络资源能够被有效的整合利用,是它成为了一个良好的网络资源描述元数据集合。 DC研讨会已经召开了十届,从理解DC研讨会中我们可以总结出每一节研讨会都推出了一些具体的研究成果,并且在深度,广泛度上都有发展。DC元数据理论不断在实践中完善。 都柏林十次研讨会时间地点及成果如表1

3.2 DC语法的实现 DC在HTML的语法主要是通过“标记”和“标记”来实现的。 以下是一个基于XML和RDF的DC元数据详例: 新华网首页 新华通讯社网络中心 新闻 新华社通讯 上面就是多媒体对象的DC描述,用DC描述网络信息资源十分方便,为了节省篇幅,直接用RDF/XML元数据框架来叙述。相比其他描述程序而言,这里调用了DC标准模式,所以节省了DTD的大段描述。

数据管理平台建设方案

数据管理平台建设方案 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

数据管理平台建设方案 目录 一、数据管理平台项目概述 建立韶关市中小科技企业数据库。韶关市中小科技企业数据库主要收录韶关市科技中小企业的财务数据、治理数据等涉及企业经营和管理的相关的数据,以便为政府决策提供参考。 韶关市中小科技企业数据库的项目建设包括硬件部分和软件部分建设。软件部分建设方面,韶关市科技金融综合服务中心希望能建设成一套综合性的数据管理平台。该数据管理平台的建设以搭建中心与企业桥梁为目标,以提供专业化服务平台为导向,应具备高性能、高安全性、高可靠性、可扩展性、高可用性,便于将来拓展和进一步改造。 二、总体设计 需求概述 1、功能性需求 数据管理平台采用B/S模式,业务操作简单、扩展方便。平台用户群体主要是企业用户与管理员。平台分为前端、后端,具备展示、操作、分析等功能,可以满足服务中心一整套的数据采集、管理、展示及分析需求,具体包含以下模块: ?录入系统

录入系统是录入数据的源头,本着方便录入人员界面录入操作的原则设计,更有效提高数据录入效率。录入系统的数据除了人工录入外,还有一部分通过自动化配置导入的方式,配合人工录入,提高效率。 ?内容发布系统 用户根据需要查询、发布、修改、删除科技金融服务中心的新闻、公告。 并在前端展示。 ?信息检索系统 点击“表”进入检索界面,会员可进行“企业筛选”、“时间筛选”、“字段选 择”、“条件筛选”,快速定位需要数据。 ?元数据管理系统 是韶关市中心企业库的信息目录,用户可很快捷地查询出相关库的信息及与该库相关的流入流出。元数据管理主要是针对韶关市科技金融服务中心的各种元数据进行管理,主要包括元数据的查询,新增,修改,删除。通过建设元数据系统,拥有统一、标准、规范化的库信息,并在所有数据流程中实现有效管理,降低维护成本与资源内耗。 ?数据质检系统 财务数据质检与自动化质检配置结合,用户提交数据同时根据已配置的质检关系将通过质检数据入库,展现用户。为通过质检数据显示在质检不通过列表中根据已配置的质检关系显示对应的错误信息,用户根据错误信息修改数据再次提交质检。 ?配置管理系统

元数据管理方案

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。通过元数据自动抽取,用户可以方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针对的对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。 1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: 整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统

一整理,根据公开共享的前提进行集中,这种集中可以是物理上集中的,也可以是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,所以对于需要共享的数据要进行安全方面的限制,限制的手段可以有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理 现阶段,主流格式的电子文档,主要包含:word、excel、ppt、pdf等。对主流格式的电子文档,要提供自动采集工具进行编目处理。采集的范围主要是文档的标题和内容,对于其它的元数据内容,要提供手工配置的方式进行辅助。另外,在工具的采集效率上,要提高增量文档发布后的采集效率。 对于格式特殊、内容有加密算法的文档,是很难通过抓取工具进行采集的,这些文档主要通过手工编目的方式来处理。 对于存在管理库的文档,就需要对数据库来进行编目采集,详见数据库元数据抽取部分。 ●保存元数据 采集后的数据要放到数据库或者保存到硬盘上,另外要根据目录体系标准,把数据分解为元数据,然后进行存储 1.1.4数据库元数据抽取 数据中心需要抽取的数据库类型主要为Sql server,首先利用ETL工具从源数据库中将所需数据抽取至中心数据库基础业务库中,在利用元数据著录工具对抽取出来的数据进行元数据著录。

元数据管理

1.前言 数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是对元数据进行科学有效的管理。元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的运行都是基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来,组成了一个有机的整体。2.元数据 2.1 元数据的概念 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。 2.2 元数据的作用 在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。 与其说数据仓库是软件开发项目,还不如说是系统集成项目[1],因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。 3.数据仓库元数据管理现状 元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递,协调各模

元数据管理方案

元数据管理方案

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。经过元数据自动抽取,用户能够方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针正确对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。

1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: ●整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统一整理,根据公开共享的前提进行集中,这种集中能够是物理上集中的,也能够是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,因此对于需要共享的数据要进行安全方面的限制,限制的手段能够有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理

数据仓库元数据管理

1.1.1 第一章元数据概论 企业的计算机系统每年会产生很多数据,很多企业面临着这样的困境,难以有效的管理大量的、繁杂的、不一致的数据,并方便地访问、利用这些数据进行辅助决策。 建立数据仓库提供一个方法,把数据转化为有用的、可信赖的信息,支持商业决策。建立数据仓库一个重要的工作是元数据管理。元数据(Metadata)就是数据的数据,用于建立、管理、维护和使用数据仓库。。元数据管理是企业级数据仓库中的关键组件,贯穿于建立数据仓库的整个过程。 元数据使得用户可以掌握数据的历史情况,如数据从哪里来?流通时间有多长?更新频率是多大?数据元素的含义是什么?对它已经进行了哪些计算、转换和筛选等等。在需求不确定情况下,在瞬间万变的商业环境下,元数据可以更好的支持需求的变化,降低项目风险。 通常把元数据分为技术元数据(Technical Metadata)和业务元数据(Business Metadata)。技术元数据是描述关于数据仓库技术细节的数据,这些元数据应用于开发、管理和维护数据仓库;业务元数据从商业和业务的角度描述数据仓库的数据,提供了良好的语义层定义,业务元数据使业务人员能够更好的理解数据仓库分析出来的数据。 元数据贯彻于建立数据仓库的整个过程,不只是ETL过程需要元数据的支持。 图1 元数据的应用 在使用元数据的同时,随着数据仓库市场的发展,业界出现许多数据仓库管理和分析的工具,各种工具使用不同的元数据标准来表示和处理,不同系统之间的迁移、数据交换变得困难。于是,我们希望用一种单一的元数据标准,使得各种组织的元数据具有单一的元模型(MetaModel),因此,需要建立一种标准使得不同的数据仓库和商业智能系统之间可以相互交换元数据。 1.1.2 第二章元数据标准 1.1. 2.1 一、元数据标准CWM OMG于2001年颁布元数据标准CWM 1.0(Common Warehouse Metamodel Version 1.0)。CWM定义一个描述数据源、数据目的、转换、分析的元数据框架,以及定义建立和管理数据仓库的过程和操作,提供使用信息的继承。 目前宣布支持CWM的厂商包括:IBM、Oracle、Hyperion、Dimension EDI、Genesis IONA、HP、NCR和Unisys等。 CWM基于3个工业标准: UML - Unified Modeling Language,OMG建模标准; MOF - Meta Object Facility,OMG建立元模型和模型库的标准,提供在异构环境下的数据交换的接口; XMI - XML Metadata Interchange,OMG元数据交换标准。 UML在CWM中得到充分的应用,担任3个不同的角色: 1),UML用来做为与MOF对应的meta-metamodel。UML相当于MOF Model,,UML Notation和OCL(Object Constraint Language),被用来做为建模语言、图形符号、约束语言,

元数据管理项目工程实施方案

xx移动 元数据管理项目工程实施方案 2012年5月

目录 1建设目标 ------------------------------------------------------------------------------------------------------ 3 2系统环境配置------------------------------------------------------------------------------------------------ 3 2.1客户端环境配置------------------------------------------------------------------------------------- 3 2.2服务器端环境配置---------------------------------------------------------------------------------- 4 2.3网络配置 ---------------------------------------------------------------------------------------------- 4 3元数据管理范围--------------------------------------------------------------------------------------------- 5 4项目实施计划------------------------------------------------------------------------------------------------ 6 4.1建设规划 ---------------------------------------------------------------------------------------------- 6 4.2时间安排 ---------------------------------------------------------------------------------------------- 7 4.3产品部署 ---------------------------------------------------------------------------------------------- 7 4.4元模型定制 ------------------------------------------------------------------------------------------- 7 4.5元数据存储 ------------------------------------------------------------------------------------------- 8 4.5.1技术类元数据存储-------------------------------------------------------------------------- 8 4.5.1.1关系型数据库元数据 ------------------------------------------------------------ 8 4.5.1.2OLAP元数据 ------------------------------------------------------------------------ 8 4.5.1.3ETL元数据-------------------------------------------------------------------------- 9 4.5.1.4模型元数据 ------------------------------------------------------------------------ 10 4.5.2业务元数据存储 ---------------------------------------------------------------------------- 10 4.5.2.1业务指标元数据------------------------------------------------------------------ 10 4.5.2.2业务规则&术语元数据---------------------------------------------------------- 11 4.5.2.3维度&基础编码元数据---------------------------------------------------------- 11 4.5.3管理类元数据存储------------------------------------------------------------------------- 11 4.6建立日常管理流程--------------------------------------------------------------------------------- 12 4.6.1元数据权限管理 ---------------------------------------------------------------------------- 12 4.6.2通过元数据变更流程进行维护管理 --------------------------------------------------- 12 4.6.3元数据同步维护 ---------------------------------------------------------------------------- 12 4.6.3.1业务元数据同步维护 ----------------------------------------------------------- 12 4.6.3.2管理元数据同步维护 ----------------------------------------------------------- 13 4.6.3.3元数据同步维护------------------------------------------------------------------ 14 4.6.3.4库表结构元数据同步维护 ----------------------------------------------------- 14 4.6.3.5Erwin元数据同步维护 --------------------------------------------------------- 15 4.7元数据交付、培训--------------------------------------------------------------------------------- 15 4.8元数据管理应用定制------------------------------------------------------------------------------ 15 5元数据建设中需要的配合工作------------------------------------------------------------------------- 16 6备份策略 ----------------------------------------------------------------------------------------------------- 16

数据管理平台建设方案

数据管理平台建设方案 目录 一、数据管理平台项目概述 (2) 二、总体设计 (2) 2.1 需求概述 (2) 1、功能性需求 (2)

2、非功能需求 (4) 2.2 设计方案 (4) 三、关键的开发技术 (6) 四、系统软硬件要求 (8) 一、数据管理平台项目概述 建立韶关市中小科技企业数据库。韶关市中小科技企业数据库主要收录韶关市科技中小企业的财务数据、治理数据等涉及企业经营和管理的相关的数据,以便为政府决策提供参考。 韶关市中小科技企业数据库的项目建设包括硬件部分和软件部分建设。软件部分建设方面,韶关市科技金融综合服务中心希望能建设成一套综合性的数据管理平台。该数据管理平台的建设以搭建中心与企业桥梁为目标,以提供专业化服务平台为导向,应具备高性能、高安全性、高可靠性、可扩展性、高可用性,便于将来拓展和进一步改造。 二、总体设计 2.1 需求概述 1、功能性需求

数据管理平台采用B/S模式,业务操作简单、扩展方便。平台用户群体主要是企业用户与管理员。平台分为前端、后端,具备展示、操作、分析等功能,可以满足服务中心一整套的数据采集、管理、展示及分析需求,具体包含以下模块: 录入系统 录入系统是录入数据的源头,本着方便录入人员界面录入操作的原则设计,更有效提高数 据录入效率。录入系统的数据除了人工录入外,还有一部分通过自动化配置导入的方式, 配合人工录入,提高效率。 内容发布系统 用户根据需要查询、发布、修改、删除科技金融服务中心的新闻、公告。并在前端展示。 信息检索系统 点击“表”进入检索界面,会员可进行“企业筛选”、“时间筛选”、“字段选择”、“条 件筛选”,快速定位需要数据。 元数据管理系统 是韶关市中心企业库的信息目录,用户可很快捷地查询出相关库的信息及与该库相关的流 入流出。元数据管理主要是针对韶关市科技金融服务中心的各种元数据进行管理,主要包 括元数据的查询,新增,修改,删除。通过建设元数据系统,拥有统一、标准、规范化的 库信息,并在所有数据流程中实现有效管理,降低维护成本与资源内耗。 数据质检系统 财务数据质检与自动化质检配置结合,用户提交数据同时根据已配置的质检关系将通过质 检数据入库,展现用户。为通过质检数据显示在质检不通过列表中根据已配置的质检关系 显示对应的错误信息,用户根据错误信息修改数据再次提交质检。 配置管理系统

元数据管理模块方案1.doc

元数据管理模块方案1 目录 1. 现状分析(2) 1.1 目前的困境(2) 1.2 什么是元数据管理(3) 2. 目标分析(3) 2.1 建立完善的指标解释体系(3) 2.2 建立规范的元数据管理体系(4) 2.3 建立有效的数据稽核体系(4) 3. 功能概述(4) 3.1 元数据管理(4) 3.1.1 业务元数据(5) 3.2.2 技术元数据(6) 3.3元数据分析(9) 3.3.1 血统分析(9) 3.3.2 影响分析(10) 3.3.3 重要性分析(11)

3.3.4 无关性分析(12) 3.4数据稽核(12) 3.4.1 稽核规则管理(13) 3.4.2 稽核任务调度(13) 3.4.3 稽核结果分析(14) 3.4.4 数据质量评估(14) 3.4.5 数据问题管理(14) 元数据管理系统概述 1.项目背景 随着经营分析系统规模不断扩大,系统所积累数据量也越来越大,收集到的海量数据背后隐藏着大量珍贵重要的信息,但也同时提高了系统的数据管理难度:一方面难以对这些数据进行有效解释,缺乏对业务流程执行的实时监控和管理;另一方面各部门数据与数据整合的难度也不断加大,影响到了经营分析系统中的数据质量。 如何对现有数据进行深层发掘,并揭示出埋藏在元数据中的趋势、因果关系、关联模式等核心信息?这是下一步深化经营分析系统应用的电信运营商需要解决的头等大事。构建BI,首先要保证的是数据质量。元数据管理解决的问题就是如何把业务系统中的数据分门别类地进行管理,并建立数据与数据之间的关系,为数据仓库的数据质量监控提供基础素材。

1.1 需求分析 使用者(决策层、业务分析人员): 1) 经营分析系统中存在有很多报表,不同报表中存在一些相同的指标,这 些指标往往不一致,给业务分析和决策工作造成很多困惑,必须花费很大的精力去检查核实。 2) 对于很多指标,不清楚其具体含义,不清楚其反映的问题,不清楚其具 体算法和来龙去脉。 数据仓库项目开发维护者: 1) 不同报表中的同一指标不一致,必须花费很大的精力去检查,目前基本 上是通过手工检查表和存储过程的方式,效率较低。 2) 没有完善的开发、维护规范。比如,新增一张分析报表,开发人员根据 业务人员的需求制作完成之后,往往没有整理完善相应的数据指标解释和元数据管理,造成日后检查困难。 3) 开发、维护规范的执行力较低,没有行之有效的管控手段。不严格按照 规范执行,随着项目的发展和时间的推移,导致数据仓库项

元数据管理实施方案

元数据管理实施方案

————————————————————————————————作者:————————————————————————————————日期:

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。通过元数据自动抽取,用户可以方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针对的对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。 1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: 整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统

一整理,根据公开共享的前提进行集中,这种集中可以是物理上集中的,也可以是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,所以对于需要共享的数据要进行安全方面的限制,限制的手段可以有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理 现阶段,主流格式的电子文档,主要包含:word、excel、ppt、pdf等。对主流格式的电子文档,要提供自动采集工具进行编目处理。采集的范围主要是文档的标题和内容,对于其它的元数据内容,要提供手工配置的方式进行辅助。另外,在工具的采集效率上,要提高增量文档发布后的采集效率。 对于格式特殊、内容有加密算法的文档,是很难通过抓取工具进行采集的,这些文档主要通过手工编目的方式来处理。 对于存在管理库的文档,就需要对数据库来进行编目采集,详见数据库元数据抽取部分。 ●保存元数据 采集后的数据要放到数据库或者保存到硬盘上,另外要根据目录体系标准,把数据分解为元数据,然后进行存储 1.1.4数据库元数据抽取 数据中心需要抽取的数据库类型主要为Sql server,首先利用ETL工具从源数据库中将所需数据抽取至中心数据库基础业务库中,在利用元数据著录工具对抽取出来的数据进行元数据著录。

烟草公司元数据管理项目实施方案.doc

XX烟草公司元数据管理项目实施方案1 xx烟草公司 元数据管理项目工程实施方案 2012年11月 目录 1建设目标------------------------------------------------------------------------------------------------------ 3 2系统环境配置------------------------------------------------------------------------------------------------ 3 2.1客户端环境配置------------------------------------------------------------------------------------- 3 2.2服务器端环境配置---------------------------------------------------------------------------------- 4 2.3网络配置---------------------------------------------------------------------------------------------- 4 3元数据管理范围--------------------------------------------------------------------------------------------- 5 4项目实施计划-----------------------------------------------------------------------------------

元数据管理方案

元数据管理方案 元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。通过元数据自动抽取,用户可以方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针对的对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word PDF XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。

元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。 1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: 整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统一整理,根据公开共享的前提进行集中,这种集中可以是物理上集中的,也可以是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 根据安全级别,建立相应的访问机制 由于受到安全级别的限制,所以对于需要共享的数据要进行安全方面的限制,限制的手段可以有:用户名/ 密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 编目处理 现阶段,主流格式的电子文档,主要包含:word、excel 、ppt 、pdf 等。对主流格式的电子文档,要提供自动采集工具进行编目处理。采集的范围主要是文档的标题和内容,对于其它的元数据内容,要提供手工配置的方式进行辅助。另外,在工具的采集效率上,要提高增量文档发布后的采集效率。 对于格式特殊、内容有加密算法的文档,是很难通过抓取工具进行采集的,这些文档主要通过手工编目的方式来处理。 对于存在管理库的文档,就需要对数据库来进行编目采集,详见数据库元数据抽取部分。

元数据管理

元数据管理 —企业信息化建设的润滑剂 作者:石竹软件有限公司薛勇 随着企业IT信息化建设如火如荼的进行了数十年,大多数企业逐渐拥有了ERP、CRM、SCM等系统。在企业的这些分散的业务系统里存放着大量珍贵的数据,而这些数据对于企业而言,恰似深埋在大地中的宝藏一样,会对企业的未来发展产生至关重要的作用。于是乎企业挖“宝藏”的工作全面展开了,而这就是商业智能(Business Intelligence)。 可现实情况是这些“宝藏”零散的深埋于浩如烟海的数据之中,并非因企业有了激情和想法就能轻易获得。由于原来企业各业务系统建设的出发点,都只考虑单系统自身的完整性和一致性,当企业想从全局层次上把这些分散的系统有机的集成起来的时候,人们会发现这种工作的难度比挖矿本身还难。人们无论怎么去努力,但离“智能”的境界总是有不小的差距。在人们不断探索解决问题的过程中,元数据的出现,为那些挖掘数据宝藏者们提供了有力的支撑。 元数据(Meta Data)是关于数据的数据。当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便可以看作是元数据;元数据主要用来描述数据的上下文信息。通俗的来讲,假若图书馆的每本书中的内容是数据的话,那么找到每本书的索引则是元数据。 元数据之所以有其它方法无法比拟的优势,就在于它可以帮助人们更好的理解数据,发现和描述数据的来龙去脉,特别是那些即将要从OLTP系统上升到DW/BI体系建设的企业,元数据可以帮他们形成清晰直观的数据流图。 元数据的概念虽然在国内刚刚被人们熟悉起来,但在国外他已经历了较长的发展历史。从上世纪60年代,人们认识到元数据的需要,到数据字典、CASE工具的应用,以及上世纪90年代数据仓库体系中元数据存储库的出现,直到现阶段国外企业以元数据为驱动的IT系统建设的方法论流行。企业对于元数据的价值越来越有深刻的体会。 元数据按其描述对象的不同可以分三大类:技术元数据、业务元数据和管理元数据。技术元数据主要用是用来描述数据实体和数据处理过程中的技术细节和处理规则。比如我们所熟知的表结构、ETL映射关系等,这类元数据主要是系统建设的技术人员使用。业务元数据主要是对IT系统的数据实体和数据处理的业务化描述,包括业务规则、业务术语、统计口径、信息分类等。我们经常提及的KPI定义和报表统计规则等就属于此类元数据。业务元数据主要的使用者是业务人员和公司决策人员。管理类元数据主要是对项目管理、IT运维、IT资源设备等相关信息的描述。这类元数据主要是企业IT 部门的管理人员使用。利用此类元数据可以进行工作分配、网络资源等方面的管理。

企业元数据管理方案设计

企业元数据管理方案设计

一、背景 大数据挑战 大数据时代,饿了么面临数据管理、数据使用、数据问题等多重挑战。具体可以参考下图: ?数据问题:多种执行、存储引擎,分钟、小时、天级的任务调度,怎样梳理数据的时间线变化? ?数据使用:任务、表、列、指标等数据,如何进行检索、复用、清理、热度Top计算? ?数据管理:怎样对表、列、指标等进行权限控制、任务治理以及上下游依赖影响分析? 元数据定义与价值

元数据打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息(也就是MetaStore);动态的任务、表依赖映射关系;数据仓库的模型定义、数据生命周期;以及ETL任务调度信息、输入输出等。 元数据是数据管理、数据内容、数据应用的基础。例如可以利用元数据构建任务、表、列、用户之间的数据图谱;构建任务DAG依赖关系,编排任务执行序列;构建任务画像,进行任务质量治理;数据分析时,使用数据图谱进行字典检索;根据表名查看表详情,以及每张表的来源、去向,每个字段的加工逻辑;提供个人或BU的资产管理、计算资源消耗概览等。 开源解决方案

WhereHows是LinkedIn开源的元数据治理方案。Azkaban调度器抓取job执行日志,也就是Hadoop的JobHistory,Log Parser后保存DB,并提供REST查询。WhereHows太重,需要部署Azkaban等调度器,以及只支持表血缘,功能局限。

Atlas是Apache开源的元数据治理方案。Hook执行中采集数据(比如HiveHook),发送Kafka,消费Kafka数据,生成Relation关系保存图数据库Titan,并提供REST接口查询功能,支持表血缘,列级支持不完善。 二、饿了么元数据系统架构

相关主题
文本预览
相关文档 最新文档