当前位置:文档之家› 空间元数据管理与发布技术研究

空间元数据管理与发布技术研究

空间元数据管理与发布技术研究
空间元数据管理与发布技术研究

收稿日期:2004209229;修返日期:2004211226

基金项目:国家“九五”重中之重科技攻关资助项目(962B02203)

空间元数据管理与发布技术研究

3

高 睿1

,刘修国

2

(1.武汉大学土木建筑工程学院,湖北武汉430072;2.中国地质大学信息工程学院,湖北武汉430074)

摘 要:随着信息技术的飞速发展,元数据正成为地理空间信息资源共享的关键。按照I S O /T C211的19115空间元数据标准,简要介绍了空间元数据的元素组成和分类应用,提出了空间元数据建库的一些基本原则,给出了一个基于X ML 和Z39.50协议的元数据管理与共享系统设计方案,并对其中的关键技术提出了一些实现策略与建议。

关键词:元数据;标准;Z39.50;X ML

中图法分类号:TP335 文献标识码:A 文章编号:100123695(2005)0920022203

System Design for Managing and Sharing of Geo 2s patial Metadata

G AO Rui 1

,L I U Xiu 2guo

2

(1.Faculty of C ivil Engineering,W uhan U niversity,W uhan Hubei 430072,China;2.Faculty of Infor m ation Engineering,CUG,W uhan Hu 2

bei 430074,China )

Abstract:Metadata is becom ing the abs olutely essential s oluti on f or the sharing of geo 2s patial data with the rap id devel opment

of inf or mati on technol ogies .This paper intr oduce the contents and app licati ons of metadata according t o the I S O ’s geo 2s patial metadata standard,and p r oposes s ome p rinci p les on how t o create a meta 2database,then e mphasizes on a frame work f or ma 2naging and sharing of geo 2s patial metadata based on X ML and Z39.50p r ot ocol with detailed descri p ti on of t w o key components and their i m p le mentati on strategies .

Key words:M etadata;Standard;Z39.50;X ML

空间信息在人类生活中无时不有,无处不在。随着地理信息系统的出现,人们逐步具备了通过计算机对空间信息进行存储管理和分析使用的能力。但面对网络中分布广泛的海量空间信息,如何查找所需要的空间数据;如何使用这些空间数据等问题也接踵而至,空间元数据是解决这一问题的最好途径。空间元数据是对空间数据进行描述的数据,它以结构化的形式描述了地理数据集的内容、质量、表示方式、空间参考、管理方式以及数据集的其他特征。它不仅可以提供对空间信息数据的搜索、导航,而且便于数据的转换、维护、理解和使用。它是实现地理空间信息共享的基础,是数字地球的重要技术支撑条件之一。建立一套空间元数据管理系统,提供对元数据的采集、管理、维护与网络发布,是元数据项目实施的当务之急。目前已经开发的一些系统,往往以文本方式提供空间元数据的管理,在数据的组织上也缺乏人性化的设计,需要用户确定搜索策略。本文结合项目实践,通过对空间元数据标准的研究与分析,总结了空间元数据的内容组成与组织表达形式,探讨了空间元数据库的建库原则和方法。

1 空间元数据标准

元数据由描述数据特征的元素组成。空间元数据标准一般都包括这么几个部分:表示方法的说明、构成元数据的元素分类及定义(元数据字典)、按层次关系的元素组织(元数据模式)、元数据扩展方法与专用标准定义。

《数字地理空间元数据内容标准,CS DG M 》是美国联邦地理数据委员会(FG DC )制定的空间元数据标准,由220多个元素组成。在内容组织上分为部分、复合元素和数据元素三个层次。国际标准化组织(I S O )的地理信息/地球信息技术委员会

(即I S O /TC211)在CS DG M 的基础上制定了I S O 空间元数据标

准(I S O D I S19115.32标准草案2001.8)。该标准定义了元数据模式,并用UML 包(Package )的概念来表示地理空间元数据。每个包可以有一个或多个实体(Entity ),实体又包含离散的元素(Ele ment ),可以是要素(Feature )和属性(A ttribute )。实体与实体之间可以互相关联,自身还可以多重聚合和重复(图

1)。该标准定义了14个元数据包,分别是元数据实体集信息、

标志信息、资源限制信息、数据质量信息、维护信息、空间表示信息、参照系统信息、内容信息、描绘目录信息、发行信息、元数据扩展信息、应用模式信息、扩展信息、引用与负责机构信息。在元数据字典中,给出了每个元数据实体和元素的角色名称、短名称、定义、限制条件、最大出现次数、数据类型以及取值域信息。另外,按照所描述数据内容的差异,I S O D I S19115把空间元数据分为数据集系列空间元数据、数据集空间元数据、要素类型和要素实例空间元数据、属性类型和属性实例空间元数据四个层次,分别用于描述数据集聚集、独立的数据集、单独的地理要素,以及构成一个地理要素的不同对象类。数据集空间元数据是整个空间元数据标准的核心。

?22?计算机应用研究2005年

2 空间元数据建库

在对具体的空间数据应用建立元数据库时,应当有一些原则性的考虑,以保证建成的元数据库不仅满足当前应用的需要,而且能够较好地适应与其他相关系统进行资源共享和将来升级扩展的需要。下面是本文认为应当考虑的一些基本原则:

(1)先进性原则。元数据库的设计和建设应当尽量借鉴

国际国内先进的元数据标准。I S O 19115是目前最新最具权威的空间元数据标准,元数据的设计应当遵循这个标准或根据它制定的专用标准,使元数据库具有良好的互操作性和兼容性。

(2)管理高效原则。元数据存储可以采用文件系统或者

商用数据库系统,但元数据库的组织要便于提高元数据的存储、访问效率。使用文件系统组织存储元数据文档简单,但不便于查询和安全性管理,一般用于小型或试验性系统;多利用大型商用关系型数据库如O racle 或S QL Server,这样可以充分利用DBMS 的数据管理能力,但在解决结构化元数据与关系型数据库模式之间的相互映射上需要花费一定的代价。

(3)可扩展性原则。由于系统的持续性,元数据拥有者必

然会对原有的元数据添加一些新的元素和数据子集,因此元数据库必须具有良好的可扩展性,以适应系统发展的需要。

(4)分层分级原则。空间元数据是高度结构化的复杂数

据,元数据的组织应当根据不同层次的应用需要和描述的详细程度进行分层分级。元数据可能偏重于管理,或偏重于描述,也可能两者兼顾;另外,一级元数据集中了最基本、最主要的实体和元素,用于了解数据集的总体,而二级元数据可以按不同的数据类别详细描述数据集信息。

3 空间元数据管理与共享框架

空间元数据标准的制定为空间元数据的实施规定了操作对象的内容、组织形式,以及建模技术和方法。空间元数据实施的基本目的就是要使用户通过客户端工具实现对分布的空间元数据库进行查询、检索访问,根据查询的元数据结果可以定位和检索相应的空间数据。数据拥有者和管理员可以通过元数据库管理系统实现对空间元数据库的管理和维护。一个典型的空间元数据管理与共享系统的基本框架如图2所示

在框架中,Z39.50客户机/服务器是Z39.50信息检索协议的实现,它提供了对分布的多数据库进行一致访问的机制。

HTTP 2Z39.50网关负责HTTP 协议与Z39.50协议之间的通信

和数据交换。元数据库服务器针对具体的空间元数据库,提供进行数据访问、存储管理、安全管理、系统维护等服务功能。

元数据与空间数据库之间的连接可以是离线或在线的形式,可能处于安全保密的原因,空间数据并不对外发布,但元数据指明了获取空间数据的方式。

4 关键问题与解决方案

4.1 元数据的关系化存储

空间元数据管理系统的一个关键问题是存储。X ML 技术所具备的一些优点,如(半)结构化的数据表达、语义明确、丰富的查询支持等,使它很自然地成为解决元数据表达与存储的第一选择。在建立空间元数据库时,一般首先根据用X ML

Sche ma 表示的元数据标准,创建元数据库,然后将X ML 格式

的元数据文档导入数据库。这个过程包括两个问题,即元数据模式和元数据文档与数据库的映射。目前已经有多种X ML 与关系型数据库的映射解决方案,但往往导致数据库结构非常复杂,数据存取的效率也不高。因此,笔者提出了一种数据类型驱动的映射方法,具有表结构与数量固定、算法实现简单、较高的存取效率等特点。

X ML 文档是由标记和内容所组成的文本文档,标记包括

元素和属性,内容则是这些元素和属性的值。X ML Sche ma 是文档有效性验证的机制,符合同一个模式的所有X ML 文档,应当具有相似的结构。因此,可以把X ML 文档分为结构和内容两个部分,分别用不同的数据库表来存储。为了便于支持数据的比较查询,具有不同数据类型的元素又分别保存在不同的表中;因为X ML 所支持的数据类型是有限的,对应一个模式的数据表也就比较简单。按模式建库时,对模式进行分析,并将其中的元素和属性用GI D 唯一标志,生成模式表。在X ML 文档的映射时,按照广度优先的算法遍历文档树,一方面结合模式表中的标志号,记下所有节点的出现顺序,获取文档结构信息;另一方面取出每个节点的属性值和叶节点的值,根据取值类型的不同存入相应的数据表。这样得到的X ML 文档的存储结构如图3所示。

4.2 Z39.50协议服务查找引擎

Z39.50协议是一个基于客户机/服务器模型的互联网络

协议,在客户机与服务器建立Z 连接(Z_A ss ociati on )之后,两者之间可以进行多次通信,客户机可以在上一次查询的结果集中继续请求提取或再查询等服务,直到Z 连接被关闭。在空间元数据的网络共享发布系统中,一般需要实现Z39.50协议地

理空间元数据专用标准(“GE O ”

),它要求至少提供I nit,Search 和Present 三种Z39.50服务。

Z39.50协议服务器在逻辑上可分为两个部分:①Z39150

协议核心服务器,负责与客户机的数据通信、多线程任务处理以及应用协议数据单元处理;②查找服务器,负责在元数据库中的查询检索任务和结果集的管理维护。

结合Z39.50协议查找服务器,空间元数据库管理系统中

的一个基于X ML 的元数据存取模型示意如图4所示。

?

32?第9期

高 睿等:空间元数据管理与发布技术研究

图4中各步骤表示:①将元数据标准用X ML Sche ma文件表达;②标准模式文件注册用于数据库建立和数据文档的自适应采集;③采集生成X ML格式的元数据文档;④X ML格式的元数据文档经关系化后入库存储;⑤提出查询请求;⑥生成查询结果集(抽象集),用视图等形式表示;⑦根据元素集名称、记录语法生成检索结果(如ES N=“B”,简单列表记录);⑧提出检索提取记录的请求;⑨生成检索结果(如ES N=“F”,完整记录);⑩将检索结果返回请求者。

5 结论

元数据在空间数据处理领域正在发挥越来越重要的作用。元数据的组织、存储、表达、传输、查询、管理等是元数据系统实现时必须考虑的一些问题。按照本文所提出的设计思路开发了一个原型系统,初步实现了空间元数据的数据库存储管理和网络发布。实际上,完善的元数据库机制还要考虑很多问题,如元数据的安全,对高级别安全的元数据可以考虑加密传输与数字签名服务;另外,对分布式数据的检索,可以运用智能代理技术。因此,在将来的工作中,要结合信息技术领域的新进展,对元数据库机制进一步完善,并在面向网络的大型地理信息系统中发挥支柱作用。参考文献:

[1]中国21世纪议程管理中心.中国地理信息元数据标准研究[C].

北京:科学出版社,1999.

[2]FG DC2ST D200121998.Content Standard for D igital Geos patial Meta2

data v2[EB/OL].htt p://https://www.doczj.com/doc/f42055062.html,/,1998. 6.

[3]I S O D I S19115Geographic I nfor mati on/Geomatics2Metadata[EB/

OL].htt p://www.is https://www.doczj.com/doc/f42055062.html,/.

[4]I nf or mati on Retrieval(Z39.50):App licati on Service Definiti on and

Pr ot ocol Specificati on[EB/OL].htt p://www.l https://www.doczj.com/doc/f42055062.html,/z39.50/agen2 cy,2001.

[5]Z39.50App licati on Pr ofile for Geo2s patialMetadata("GE O").ver2

si on2.2[EB/OL].htt p://https://www.doczj.com/doc/f42055062.html,/standards/Geo2 Pr ofile,2000205.

[6]Fernandez M;Amer2Yahia S.Techniques for St oring X ML[C].I n2

ternati onal Conference on Data Engineering,2002.

[7]Banerjee,et al.O racle8i:The X ML Enabled Data Management Sys2

te m[C].I nternati onal Conference on Data Engineering,2000.

作者简介:

高睿(19752),男,湖北鄂州人,讲师,博士,研究方向为GI S理论及应用研究;刘修国(19682),男,河南信阳人,教授,博士,研究方向为GI S理论及应用研究。

(上接第21页)

[12]Gadia S K,C S Yeung.A Generalized Model f or a Relati onal Tempo2

ral Database[C].Pr oceedings of AC M SI G MOD I nternati onal Confe2 rence on Manage ment of Data,1988.2512259.

[13]Goodchild M F.Geographical I nfor mati on Science[J].I nternati onal

Journal of Geographical I nfor mati on Syste m s,1992,6(1):31245. [14]Goodchild M F.Geographical Data Modeling[J].Computers&Geo2

sciences,1992,18(4):4012408.

[15]B ishr Y.Overcom ing the Se mantic and O ther Barriers t o GI S I nter o2

perability[J].I nternati onal Journal of Geographical I nfor mati on Science,1998,12(4):2992314.

[16]David J W ilcon,et al.Modeling Dyna m ic Polygon Object in Space

and Ti m e:A Ne w Graph2based Technique[J].Cart ography and Geography I nf or mati on Science,2000,27(2):1532164.

[17]A llen J F.Maintaining Knowledge about Te mporal I ntervals[J].

Communicati ons of the AC M,1983,26(11):8322843

[18]Date C J.An I ntr oducti on t o Database System s[M].The6th Edi2

ti on,Massachusetts,Reading:Addis on2W esley,1990.

[19]Codd E F.The Relati onal Model for Database Manage ment[M].

Massachusetts,Reading:Addis on2W esley,1990.

[20]A r m str ongM P.Temporality in Spatial Database[C].Pr oceedings:

GI S/L I S’88,1988.8802889

[21]Barrera R,Frank A,A l2Taha K.Te mporal Relati ons in Geographic

I nfor mati on Syste m s[R].NCGI A Technical Report,1991.

[22]Beller A,Giblin T,et al.A Te mporal GI S Pr ot otype for Gl obal

Change Research[C].Pr oceedings:GI S/L I S’91,1991.7522765.

[23]Frank A U,Mark D https://www.doczj.com/doc/f42055062.html,nguages Issues f or GI S[A].I n Geographic

I nfor mati on Syste m s:Princi p les and App licati ons,Maguire D J,

Goodchild M F,Rhind D W,(Esses:Long man Scientific&Techni2 cal I nc.)[C].1991.1472163.

[24]Freksa C.Te mporal Reas oningBased on Se m i2intervals[J].A rtificial

I ntelligence,1992,54:1992227.

[25]Jensen C S.Te mporal Database Management[E B/OL].htt p://

www.cs.auc.dk/~csj/Tesis/,2000.

[26]Te mporal Database L inks[EB/OL].htt p://www.db.inf or matik.

uni2r ost ock..de/~bg/tdb2res.ht m l,2001.

[27]Jensen C S.I ntr oducti on t o Temporal Database Research Outline

[EB/OL].htt p://inf https://www.doczj.com/doc/f42055062.html,/csci599/Fall2001/p resenta2 ti ons/sessi on16.pdf,Fall,2001.

[28]Tang Chang2jie.The Backgr ound,Characteristics and Rep resentative

Researchers of Te mporal Database[J].Computer Science,1999,26

(2).

[29]Tang Chang2jie.The Achieve ments,Deficiency and Future Work in

Temporal Database[J].Computer Science,1999,26(3).

[30]Gong J ian2ya.An Object2O riented Spati o2te mporal Data Model in GI S

[J].Acta Geodaetica et Cart ographic Sinica,1997,26(4):2892298.

[31]Tang Yong,Tang Na,Ye Xiao2p ing.Te mporal I nf or mati on Pr oces2

sing Research Survey[J].Acta Scientiarum Naturlium Universitatis Sunyatseni,2003,42(4).

[32]Chen jun,Cui bingliang.U se Vor onoi t o Extend Topol ogy Functi on

f orMap I nfo[J].Journal of W uhan Technical University of Surveying

and Mapp ing,1997,22(3):1952200.

[33]L iu Ren2yi,L iu Nan.Extensi on of Spatial2te mporal Data Models of

Base State with Amendments and Its I m p lementati on in Land Registra2 ti on Management Syste m s[J].Acta Geodaetica et Cart ographica Sini2 ca,2001,30(2):1682172.

[34]LU Feng,L I Xiao2juan,et al.Feature2based Te mporal2Spatial Data

Modeling:State of the A rt and Pr oble m D iscussi on[J].Journal of

I m age and Graphics,2001,6(A)(9):8302835.

作者简介:

黄照强(19732),男,江西赣州人,博士生,主要从事遥感与地理信息系统和时空数据模型研究;冯学智(19532),男,兰州人,教授,博士生导师,主要研究方向为遥感与地理信息系统。

?

4

2

?计算机应用研究2005年

元数据的概念

元数据的概念 元数据(Metadata),即关于数据的数据,是对数据和信息资源进行描述的信息。通常认为,元数据是为了更为有效地管理和使用数据而对它进行说明的信息。所以元数据与其描述的数据内容有着密切联系,不同领域的数据的元数据在内容 上差异很大。地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容、质量、状态和其它特性的一类数据,它是实现地理空间信息共享的核心标准之一。其中,对空间数据某一特征的描述,称为一个空间元数据元素。空间元数据是一个由若干复杂或简单的元数据项组成的集合。它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信息。 研究元数据的作用和意义 元数据可用来帮助数据提供者和数据使用者解决数据转换、沟通和理解的问题。归纳起来,元数据主要有下列几个方面的作用: 1)、用来组织、管理和维护空间数据,建立数据文档,并保证即使其主要工作人员退休或调离时,也不会失去对数据情况的了解 2)、提供数据存储、数据分类、数据内容、数据质量及数据分发等方面的信息,帮助数据使用者查询检索所需地理空间数据 3)、用来建立空间信息的数据目录和数据交换中心,提供通过网络对数据进行查询检索的方法或途径,以及与数据交换和传输有关的辅助信息 4)、通过空间元数据,人们可以接受并理解空间信息,帮助数据使用者了解数据, 以便就数据是否能满足其需求作出正确的判断并与自己的空间信息集成在一起,进行不同方面的科学分析和决策。 元数据是使数据充分发挥作用的重要条件之一。它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。元数据对于建立空间数据交换网络是十分重要的,往往网络中心通过设在中心的元数据库可以实时地连接各个分发数据的分节点元数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据共享。 一个完整的元数据系统通常包括三部分,即元数据标准、元数据管理工具和元数据库。不同的元数据库可能采用不同的管理工具,唯一能够在不同数据管理软件间交换元数据的途径是统一元数据标准,只有在统一的标准前提下,才能跨越操作系统平台和数据库软件平台进行数据的互操作,实现数据共享。 DIF 元数据标准

实验空间数据库管理及属性编辑实验报告

实验报告 一、实验名称 二、实验目的 三、实验准备 四、实验内容及步骤 五、实验后思考题 班级:资工(基)10901 姓名:魏文风 序号:28 实验二、空间数据库管理及属性编辑 一、实验目的 1.利用ArcCatalog管理地理空间数据库,理解Personal Geodatabse空间数据库模型的有关概念。 2.掌握在ArcMap中编辑属性数据的基本操作。 3.掌握根据GPS数据文件生成矢量图层的方法和过程。 4.理解图层属性表间的连接(Join)或关联(Link)关系。 二、实验准备 预备知识: ArcCatalog 用于组织和管理所有GIS 数据。它包含一组工具用于浏览和查找地理数据、记录和浏览元数据、快速显示数据集及为地理数据定义数据结构。 ArcCatalog 应用模块帮助你组织和管理你所有的GIS 信息,比如地图,数据集,模型,元数据,服务等。它包括了下面的工具: ●浏览和查找地理信息。 ●记录、查看和管理元数据。 ●创建、编辑图层和数据库 ●导入和导出geodatabase 结构和设计。 ●在局域网和广域网上搜索和查找的GIS 数据。

管理ArcGIS Server。 ArcGIS 具有表达要素、栅格等空间信息的高级地理数据模型,ArcGIS支持基于文件和DBMS(数据库管理系统)的两种数据模型。基于文件的数据模型包括Coverage、Shape文件、Grids、影像、不规则三角网(TIN)等GIS数据集。 Geodatabase 数据模型实现矢量数据和栅格数据的一体化存储,有两种格式,一种是基于Access文件的格式-称为Personal Geodatabase,另一种是基于Oracle或SQL Server等RDBMS关系数据库管理系统的数据模型。 GeoDatabase是geographic database 的简写,Geodatabase 是一种采用标准关系数据库技术来表现地理信息的数据模型。Geodatabase是ArcGIS软件中最主要的数据库模型。 Geodatabase 支持在标准的数据库管理系统(DBMS)表中存储和管理地理信息。 在Geodatabase数据库模型中,可以将图形数据和属性数据同时存储在一个数据表中,每一个图层对应这样一个数据表。 Geodatabase可以表达复杂的地理要素(如,河流网络、电线杆等)。比如:水系可以同时表示线状和面状的水系。 基本概念:要素数据集、要素类 数据准备: 数据文件:National.mdb ,GPS.txt (GPS野外采集数据)。 软件准备: ArcGIS Desktop 9.x ---ArcCatalog 三、实验内容及步骤 第1步启动ArcCatalog打开一个地理数据库 当ArcCatalog打开后,点击, 按钮(连接到文件夹). 建立到包含练习数据的连接(比如 “E:\ARCGIS\EXEC2”), 在ArcCatalog窗口左边的目录树中, 点击上面创建的文件夹的连接图标旁的(+)号,双击个人空间数据库-National.mdb。打开它。. 在National.mdb中包含有2个要素数据集、1个关系类和1个属性表第2步预览地理数据库中的要素类 在ArcCatalog窗口右边的数据显示区内,点击“预览”选项页切换到“预览”视图界面。在目录树中,双击数据集要素集-“WorldContainer”,点击要素类-“Countries94”激活它。 在此窗口的下方,“预览”下拉列表中,选择“表格”。现在,你可以看到Countries94的属性表。查看它的属性字段信息。 花几分钟,以同样的方法查看一下National.mdb地理数据库中的其它数据。

数字航道空间数据库管理系统

长江空间数据库管理系统 1、项目介绍 建设长江航道数据库管理软件,包括元数据管理、数据预处理、数据管理、空间分析、测绘成果管理、区域局空间数据发布、空间数据应用接口等模块,同时接合各区域局业务需求,定制相关业务功能处理模块。要满足6个区域局和长江航道局、长江航道测量中心、长江规划研究院9个用户的需求。 2、系统功能模块 系统分为数据入库、数据管理、业务应用、系统设置、数据交换及建库工具等功能模块。 数据入库模块:包括数据质检检查、数据预处理和数据入库三大模块;主要用于数据入库及入库数据的准备工作。

数据入库:完成全要素数据、水深、DEM、DRG、DOM数据的入库工作。 数据质检:对入库数据进行质量检查,并将检查结果与清华山维进行对接,以在清华山维中显质检结果。 数据处理工具:对入库前数据进行相应处理,如果坐标转换、格式转换、DEM生成等。

数据编辑:对ESRI格式的数据进行简单的图形和属性编辑。 数据管理模块:包括数据数据浏览、基础数据管理、测绘成果管理、查询分析、制图与输出、测绘成果管理、DEM基础分析、工具箱等模块,主要完成对入库数据的管理和浏览工作,是数据管理系统的的核心。 数据制图输出:对当前分析结果进行制图成图,并打印输出等,以及对数据库中进行数据输出。

工具箱:提供数据处理的常用工具。 查询分析:查询统计模块主要是针对图层数据属性的查询与统计,这是对数据信息展示,方便用户随时了解数据成果的详细详细,整个“查询统计”功能模块包含以下功能点。 测绘成果管理:对工程测图成果、维护性测图成果、专项测图成果、ENC测图成果及整治建筑物测量成果等专题测绘成果进行管理,包括测量项目信息、成果入果、成果管理等。

元数据管理平台

元数据管理平台 技术白皮书 北京亿信华辰软件责任有限公司 2018年4月

目录 1.前言 (1) 1.1.关于本白皮书 (1) 1.2.背景介绍 (1) 1.3.产品定位 (1) 2.产品架构 (2) 2.1.概述 (2) 2.2.数据源层 (2) 2.3.采集层 (2) 2.4.数据层 (3) 2.5.功能层 (3) 2.6.访问层 (3) 3.产品功能特色 (4) 3.1.规范的元模型管理 (4) 3.2.端到端的自动化采集 (5) 3.3.全面的采集适配器 (5) 3.4.可灵活定制的采集模板 (6) 3.5.便捷的元数据检索 (7) 3.6.完善的元数据管理 (7) 3.7.强大的元数据版本管理 (8) 3.8.实时的元数据变更监控 (8) 3.9.数据地图鸟瞰全局 (9) 3.10.丰富的元数据分析应用 (9) 3.10.1.血缘分析 (9) 3.10.2.影响分析 (10) 3.10.3.全链分析 (10) 3.10.4.关联度分析 (11) 3.10.5.属性差异分析 (11) 3.11.出色的元数据检核机制 (12) 3.11.1.一致性检核 (12) 3.11.2.属性填充率检核 (12) 3.11.3.组合关系检核 (12) 3.12.自助式门户 (13) 3.13.丰富的服务接口 (13) 4.产品技术优势 (13)

4.1.系统设计原则 (13) 4.1.1.先进性 (14) 4.1.2.可维护性 (14) 4.1.3.可靠性 (14) 4.1.4.易用性 (15) 4.1.5.安全性 (15) 4.1.6.扩展性 (15) 4.2.可扩展采集适配器设计 (16) 4.3.采用MOF规范 (16) 4.4.支持基于XMI的数据交换 (17) 4.5.运用REST FUL架构 (18) 5.软硬软件环境 (19) 5.1.服务器配置推荐 (19) 5.2.客户端配置 (20) 5.2.1.客户端(建议配置) (20) 5.2.2.客户端浏览器 (20)

元数据管理解决方案-2018.3.27

元数据解决方案 随着报价系统每年收集和使用的数据飞速增长,数据体量日趋增长,数据形态多样化且不统一,多种数据源之间的采集、传播和共享遇到困难。元数据管理作为大数据治理的核心,是有效管理这些数据的基础和前提,在信息化建设中发挥着重要的作用。如何理解、管理并发挥出元数据的价值,成为迫切的任务。 一、什么是元数据 元数据(Metadata)是关于数据的数据。元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 1. 技术元数据 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息: 1) 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据 的定义,以及数据集市的位置和内容。 2) 业务系统、数据仓库和数据集市的体系结构和模式。 3) 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、 汇总、预定义的查询与报告。 4) 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分 割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存 取控制)。 2. 业务元数据 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:

1) 使用者的业务术语所表达的数据模型、对象名和属性名。 2) 访问数据的原则和数据的来源。 3) 系统所提供的分析方法以及公式和报表的信息。 4) 企业概念模型、多维数据模型,业务概念模型与物理数据的依赖, 二、元数据的作用 元数据可以实现业务模型与数据模型的映射,帮助用户理解数据仓库中的数据;元数据清晰的描述了数据的来龙去脉,描述了数据抽取转换规则,是保证数据质量的关键;元数据管理系统可以把整个业务的工作流、数据流和信息流有效的管理,可以支持需求变化,从而提高系统的可扩展性;打通数据孤岛,统一数据定义,形成企业级知识传承平台,元数据管理使得数据变的更有价值。三、元数据管理 在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。元数据管理是企业提升数据质量的基础,也是企业数据治理中的关键环节。元数据管理不当,信息很容易被丢失,进而不能对业务进行有效支撑,企业内部业务人员要识别相关信息就会变得十分困难,最终用户也将失去对数据的信任。 1. 元数据采集 技术元数据的采集,根据现有元数据设计出元模型,然后将数据仓库系统之中的元数据按元模型集中汇总并关联到一起,达到企业对数据统一管理与应用的目的,ETL等产生的元数据,对于元数据管理工具支持的格式可直接进行导入,对于一些自定义的规则,需要进行格式转换并导入。

空间数据管理平台解决方案

空间数据管理平台解决方案

1.引言 1.1方案概述 空间数据管理平台解决方案主要是针对我国各级测绘院、信息中心建设区域地理信息基础框架的迫切需求,开发的一套专业性强、具有高可扩展性的基础地理信息数据库管理平台。 整个方案从管理多源、多尺度、多类型的基础地理信息数据的角度出发,开发了一些列软件系统,包括空间数据入库更新子系统、空间数据质量检查子系统以及空间数据管理平台等,可以实现对现有基础地理信息数据的整合、转换与集成管理,为政府、企业、公众等提供空间信息服务。 1.2系统特点 ●“多源、多尺度、多时相”基础地理数据的集成管理 由于基础地理数据具有多源、多尺度、多时相的特点,基础地理数据管理平台必须具有集成不同数据类型、不同比例尺、不同时间的各种基础地理数据的能力。 ●多比例尺数据集成 对于不同尺度的基础地理数据,其集成通过统一空间参考系(WGS84、西安80、北京54)或动态投影技术来实现。不同比例尺的

基础地理数据可以叠加一起显示,通过控制其显示比例实现地图的逐层显示效果。 ●多类型数据集成 对于不同类型的数据(如DLG与DRG)的集成采用按空间坐标范围或图幅索引实现。 ●多时序数据集成 对于不同时间段的基础地理数据,采用历史数据库来实现。根据数据更新周期的不同,采用按数据集、图幅、对象级别的历史数据库机制。 ●基础地理数据管理全过程支持 SuperMap D-Manager特别针对我国各级测绘院、信息中心设计开发,系统支持数据加工、数据入库管理、数据共享、数据发布的整个业务过程,可以快速为用户打造完备的基础地理数据中心,满足各种用户对基础地理信息的需求,为数字城市建设服务。 ●基础性与平台性 SuperMap D-Manager从设计到实现,充分考虑了其作为基础性、平台性等支撑性要求。SuperMap D-Manager在设计思路、软件开发实现上都具有高可扩展性的特点。

《元数据的作用 [元数据的构成方式]》

《元数据的作用[元数据的构成方式]》 (徐枫宦茂盛)通过元数据的描述,能够使信息资源的使用者了解数据的内容、特征、作用、获取方式等信息。元数据是关于数据的数据,在建立信息资源目录体系的过程中,元数据主要是对信息资源从外部特征进行而非从内部结构进行描述。通俗地讲,元数据就是信息资源的标签或卡片,通过元数据的描述,可以使信息资源的使用者能够了解数据的内容、特征、作用、获取方式等信息,能够对信息资源是否满足特定的应用需求做出适当的评价,并根据评价的结果决定是否采取进一步的措施来获取该信息资源。 元数据是信息资源目录体系建立的基础,构建一个信息资源目录体系首要和基础性的工作就是建立描述各个信息资源的元数据库,元数据库中存储的是描述各种来源、各种类型的信息资源的描述信息。无论用户以何种方式查询信息资源目录,包括以分类目录的形式进行查询、或者以多关键词的形式进行查询,其本质都是对后台元数据库的检索,只是从表现层提供了不同形式的人机查询接口。根据所描述的信息资源对象的不同,可以建立不同的元数据库,分别对各类信息资源进行描述。 元数据的组成 为能够对信息资源进行准确和高效的描述,元数据本身具有自身的逻辑结构。一般来说,元数据本身是层次化、树状结构的。处于树状结构最底端的叶子节点称之为元数据元素,包含了元数据元素的节点称之为元数据实体,当然元数据实体也可以只包含元数据实体。根

据实际需求,元数据实体或者元数据元素可以多次出现。例如,信息资源可以有不同的分类,可以按照信息资源的来源进行分类,也可以按照信息资源的不同应用主题进行分类,因此,“信息资源分类”元数据实体就可以出现多次。 元数据一般分三个方面对信息资源进行描述。 一是对信息资源基本内容的描述。包括信息资源的标题、摘要、关键词等基本信息。标题是信息资源的名称,通过标题使用者能够初步掌握信息资源的基本范围。其次,使用者可以通过摘要,了解信息资源的主要内容、用途等各种信息。一般情况下,用户主要通过摘要作为信息资源适用性评价的主要依据。所以,在信息资源元数据的著录过程中,摘要的填写一般都由专业人员完成,只有专业人员才能够对信息资源的内容有准确的把握和深入的理解,能够提供有关信息资源内容的更加权威的解释。根据信息资源对象的不同,描述信息资源基本内容的元数据实体和元数据元素还可以进行有选择的增加。例如,描述空间信息资源时,可以增加空间参照系、图示表达等元数据实体,描述科学数据资源时需要增加数据质量等元数据实体。 二是对信息资源的获取方式进行描述。包括信息资源的分发者信息、信息资源的在线获取地址信息等。通过提供分发者联系信息,使用者可以直接联系信息资源的分发部门,这对于不能直接在网络上进行数据交换的信息资源获取非常有效。其次,使用者还可以通过信息资源的在线地址来下载、查询、浏览信息资源。使用者甚至可以提供专门的电子订单处理系统,并将入口信息加入到元数据内容中,方便

元数据管理平台的建立

元数据管理平台的建立 1.1 元数据简介 元数据被定义为:描述数据的数据,对数据及信息资源的描述性信息。 元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。 元数据的基本特点主要有: 1、元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要; 2、元数据首先是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。 元数据体系构建了企业业务的逻辑框架和基本模型,从而决定了企业业务的功能特征、运行模式和系统运行的总体性能。企业业务的运作都基于元数据来实现。其主要作用有:描述功能、整合功能、控制功能和代理功能。 由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。

在数据仓库领域中,元数据按用途分成技术元数据和业务元数据。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能: (1)描述哪些数据在数据仓库中; (2)定义要进入数据仓库中的数据和从数据仓库中产生的数据; (3)记录根据业务事件发生而随之进行的数据抽取工作时间安排; (4)记录并检测系统数据一致性的要求和执行情况; (5)衡量数据质量。 1.2 元数据管理平台体系结构 图1 元数据管理平台体系结构 关键特性

.数据分析篇——空间元数据

空间元数据库知识点一、知识点结构

二、知识点内容 知识点(优先级)描述定位 1元数据编辑相关插件(A) 与元数据编辑相关的视图为元数据视图。 与元数据编辑相关的插件有元数据编辑插件,加载之后的工具条为: ?元数据库列表框用于选择元数据库,如图所示:元数据库列表框; ?元数据集列表框用于选择元数据集,如图所示:元数据集列表框; ?样式表列表框用于选择样式表,如图所示:元数据显示样式表列表框; ?单击编辑按钮,可以实现对元数据的编辑,如图所示:编辑元数据按钮; ?单击创建按钮,可以实现对元数据的创建,如图所示:创建元数据按钮; ?单击导入按钮,可以导入元数据,如图所示:导入元数据按钮; ?单击导出按钮,可以导出元数据,如图所示:导出元数据按钮; ?单击元数据和空间数据的一致性检查按钮,可以浏览检查元数据和空间数据的一致性,如图所示:元数据和空间数据的一致性检查按钮; ?单击浏览附件按钮,可以浏览元数据附件,如图所示:浏览元数据附件按钮。 MapGIS7.x 数据管理 篇.chm 25.2.2

2元数据创建(A)1、创建元数据库和元数据集 在“元数据库”文件夹右键选择“创建”功能,输入元数据库的名称,如test。 展开元数据库,找到test点击右键选择创建元数据集,输入元数据集名称。 图1创建元数据库和元数据集 2、元数据的创建方法有多种,以下逐一介绍。 (1)在元数据集上右键点击元数据导入,其具体的操作参见元数据的批量导入。 (2)工具条上点击创建元数据按钮,如果当前选中的是“元数据库”,就会在元数据库文件夹下的第一个元数 据库中的第一个元数据集中建立元数据;如果选中的是某个元数据库(如test),就会在该元数据库中的最先建的 元数据集中建立元数据;如果选中的是某个元数据集(如meta),就会在该元数据集中建立元数据。 (3)为地理实体建立元关系,在建立了元关系的元数据集上右键点击,选择同步元数据,则会在元数据列表中新 建元数据,其具体的操作请参考创建同步和更新同步。 MapGIS7.x 数据管理 篇.chm 25.2.1 3元数据浏览(A)在MapGisCatalog目录树中选中某个元数据集,将视图切换到元数据视图,在元数据视图中的元数据列表中会列出 该元数据集下的所有元数据,选择某条元数据,在元数据视图中即会显示该条元数据的信息。 可以从下拉列表中,选择已有的显示方式对该条元数据的显示方式进行更改。 MapGIS7.x 数据管理 篇.chm 25.2.1

空间数据库管理模式

空间数据管理模式 1.文件管理——ArcInfo中Coverage文件管理 ARC/INFO7.X以前版本以Coverage作为矢量数据的基本存储单元。一个Coverage存储指定区域内地理要素的位置、拓扑关系及其专题属性。每个Coverage一般只描述一种类型的地理要素(一个专题Theme)。位置信息用X,Y表示,相互关系用拓扑结构表示,属性信息用二维关系表存储。 ?Coverage的优点 空间数据与属性数据关联 空间数据放在建立了索引的二进制文件中,属性数据则放在DBMS表(TABLES)里面,二者以公共的标识编码关连。 矢量数据间的拓扑关系得以保存 由此拓扑关系信息,我们可以得知多边形是哪些弧段(线)组成、弧段(线)由哪些点组成、两条弧段(线)是否相连以及一条弧段(线)的左 或右多边形是谁?这就是通常所说的“平面拓扑”。 ?新技术条件下Coverage的缺陷 Coverage模型可取的方面,有的已经可以不再继续作为强调的因素; 拓扑关系的建立可以由面向对象技术解决(记录在对象中) 硬件的发展,不再将存储空间的节省与否作为考虑问题的重心 计算机运算能力的提高,已经可以实时地通过计算直接获得分析结果。 空间数据不能很好地与其行为相对应; 以文件方式保存空间数据,而将属性数据放在另外的DBMS系统中。这种方式对于日益趋向企业级和社会级的GIS应用而言,已很难适应(如海量数据、 并发等) Coverage模型拓扑结构不够灵活,局部的变动必须对全局的拓扑关系重新建立(Build) “牵一发而动全身”,且费时 在不同的Coverage之间无法建立拓扑关系; 河流与国界 人井与管道 2.文件-关系数据库混合型管理——ArcInfo、ArcView GIS的Shape文件和Mapinfo中的Tab文件管理 用文件系统管理几何图形数据,用商用关系型数据库管理属性数据,两者之间通过目标标识或内部连接码进行连接。在这一管理模式中,除通过OID(object,ID)连接之外,图形数据和属性数据几乎是完全独立组织、管理与检索的。当前GIS ODBC(Open Database Consortium,开放性数据库连接协议)

元数据管理

1.前言 数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是对元数据进行科学有效的管理。元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的运行都是基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来,组成了一个有机的整体。2.元数据 2.1 元数据的概念 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。 2.2 元数据的作用 在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。 与其说数据仓库是软件开发项目,还不如说是系统集成项目[1],因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。 3.数据仓库元数据管理现状 元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递,协调各模

遥感影像元数据管理服务系统

3.6.3遥感影像元数据管理服务系统 遥感影像元数据管理系统在定位为在国家监管中心实现遥感影像元数据管理和对外服务的 基础设施,建成一套持续化、业务化运行系统。该系统的建设目标是:一方面满足海量持续增加的遥感影像数据有序管理的问题,同时面向海洋监测应用部门提供强大的影像服务功能。在保证数据安全的前提下,提供高效快捷的遥感影像网络服务支撑保障和数据持续有效集成能力。 主要工作及系统功能包括: (1)遥感影像元数据库规范 遥感影像元数据库是存放遥感影像数据元数据的空间数据库,以方便用户或者其他程序查询和使用特定的影像数据。遥感影像元数据库规范包括两个部分,一是空间数据模型规范,即如何根据遥感影像数据涉及的数据类型创建空间数据模型;一是元数据信息组织规范,即如何依据影像数据的元数据规范将影像数据的元数据信息有效组织到数据库中,利用ArcSDE 空间数据库进行一体化管理。 (2)影像数据管理子系统 系统采用C/S模式,面向业务人员。提供的具体功能包括:1)批量自动化灵活直接入库和快速浏览影像库支持的各类数据及其元数据;2)高效多条件检索影像库管理的数据并显示;3)直接读取影像库外多种格式影像并自动叠加显示、便捷注册和发布影像与地图服务等;4)管理员可以对不同类型用户和影像数据进行授权和分级管理。 影像数据管理子系统主要功能指标详细如下: *支持常用国外卫星影像数据:WorldView 1/2/3, GeoEye-1/2, RapidEye, IKONOS, QuickBird, Spot5, Spot6, Landsat-5 TM, Landsat-7 ETM+和Landsat-8 ALI等和国内主要卫星影像数据:HJ-A/B CCD, ZY-02-C, ZY-3、CBERS-3/4、天绘系列、高分系列、资源系列等; 影像实时动态镶嵌(自动计算金字塔、覆盖区域和显示比例以及处理分辨率); 影像元数据自动识别和解析,交互式元数据灵活更新和扩展; 读取和叠加GeoTIFF, ERDAS Image, eYaImage, ECW和JPEG等格式影像; 影像服务和地图服务的编辑,发布,和管理。 (3)影像共享服务子系统 基于B/S结构,面向管理和业务用户提供影像数据服务,包括影像数据检索服务、数据下载服务、影像展示服务等。系统包含以下四个功能模块:几何查询、属性条件过滤、查询结果浏览、对外影像和地图服务等。 系统结构为四层结构,客户浏览层、Web服务层、GIS中间件层以及影像数据存储层。其中,Web服务层基于SOA架构,为客户端提供业务服务;客户浏览器层则基于ArcGIS API for Flex;GIS中间件层提供遵循OGC规范的GIS服务,将遥感影像地理信息库和文件存储库中的数据提供给Web服务层 (4)影像动态处理和镶嵌融合模块 该模块是利用服务器端发布的Image Service服务,为用户提供影像数据进动态镶嵌融合处

元数据管理方案

元数据管理方案

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。经过元数据自动抽取,用户能够方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针正确对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。

1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: ●整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统一整理,根据公开共享的前提进行集中,这种集中能够是物理上集中的,也能够是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,因此对于需要共享的数据要进行安全方面的限制,限制的手段能够有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理

数据仓库元数据管理

1.1.1 第一章元数据概论 企业的计算机系统每年会产生很多数据,很多企业面临着这样的困境,难以有效的管理大量的、繁杂的、不一致的数据,并方便地访问、利用这些数据进行辅助决策。 建立数据仓库提供一个方法,把数据转化为有用的、可信赖的信息,支持商业决策。建立数据仓库一个重要的工作是元数据管理。元数据(Metadata)就是数据的数据,用于建立、管理、维护和使用数据仓库。。元数据管理是企业级数据仓库中的关键组件,贯穿于建立数据仓库的整个过程。 元数据使得用户可以掌握数据的历史情况,如数据从哪里来?流通时间有多长?更新频率是多大?数据元素的含义是什么?对它已经进行了哪些计算、转换和筛选等等。在需求不确定情况下,在瞬间万变的商业环境下,元数据可以更好的支持需求的变化,降低项目风险。 通常把元数据分为技术元数据(Technical Metadata)和业务元数据(Business Metadata)。技术元数据是描述关于数据仓库技术细节的数据,这些元数据应用于开发、管理和维护数据仓库;业务元数据从商业和业务的角度描述数据仓库的数据,提供了良好的语义层定义,业务元数据使业务人员能够更好的理解数据仓库分析出来的数据。 元数据贯彻于建立数据仓库的整个过程,不只是ETL过程需要元数据的支持。 图1 元数据的应用 在使用元数据的同时,随着数据仓库市场的发展,业界出现许多数据仓库管理和分析的工具,各种工具使用不同的元数据标准来表示和处理,不同系统之间的迁移、数据交换变得困难。于是,我们希望用一种单一的元数据标准,使得各种组织的元数据具有单一的元模型(MetaModel),因此,需要建立一种标准使得不同的数据仓库和商业智能系统之间可以相互交换元数据。 1.1.2 第二章元数据标准 1.1. 2.1 一、元数据标准CWM OMG于2001年颁布元数据标准CWM 1.0(Common Warehouse Metamodel Version 1.0)。CWM定义一个描述数据源、数据目的、转换、分析的元数据框架,以及定义建立和管理数据仓库的过程和操作,提供使用信息的继承。 目前宣布支持CWM的厂商包括:IBM、Oracle、Hyperion、Dimension EDI、Genesis IONA、HP、NCR和Unisys等。 CWM基于3个工业标准: UML - Unified Modeling Language,OMG建模标准; MOF - Meta Object Facility,OMG建立元模型和模型库的标准,提供在异构环境下的数据交换的接口; XMI - XML Metadata Interchange,OMG元数据交换标准。 UML在CWM中得到充分的应用,担任3个不同的角色: 1),UML用来做为与MOF对应的meta-metamodel。UML相当于MOF Model,,UML Notation和OCL(Object Constraint Language),被用来做为建模语言、图形符号、约束语言,

2018年系统元数据管理系统分析

2018年系统元数据管理系统分析 1. 现状分析 随着经营分析系统规模不断扩大,系统所积累数据量也越来越大,收集到的海量数据背后隐藏着大量珍贵重要的信息,但也同时提高了系统的数据管理难度:一方面难以对这些数据进行有效解释,缺乏对业务流程执行的实时监控和管理;另一方面各部门数据与数据整合的难度也不断加大,影响到了经营分析系统中的数据质量。 如何对现有数据进行深层发掘,并揭示出埋藏在元数据中的趋势、因果关系、关联模式等核心信息?这是下一步深化经营分析系统应用的电信运营商需要解决的头等大事。构建BI,首先要保证的是数据质量。元数据管理解决的问题就是如何把业务系统中的数据分门别类地进行管理,并建立数据与数据之间的关系,为数据仓库的数据质量监控提供基础素材。 1.1 目前的困境 使用者(决策层、业务分析人员): 1) 经营分析系统中存在有很多报表,不同报表中存在一些相同的指标,这些指标往往不一致,给业务分析和决策工作造成很多困惑,必须花费很大的精力去检查核实。 2) 对于很多指标,不清楚其具体含义,不清楚其反映的问题,不清楚其具体算法和来龙去脉。

数据仓库项目开发维护者: 1) 不同报表中的同一指标不一致,必须花费很大的精力去检查,目前基本上是通过手工检查表和存储过程的方式,效率较低。 2) 没有完善的开发、维护规范。比如,新增一张分析报表,开发人员根据业务人员的需求制作完成之后,往往没有整理完善相应的数据指标解释和元数据管理,造成日后检查困难。 3) 开发、维护规范的执行力较低,没有行之有效的管控手段。不严格按照规范执行,随着项目的发展和时间的推移,导致数据仓库项目的健壮性和可维护性呈几何级数下降,给数据仓库的建设带来大量的重复工作。 1.2 什么是元数据管理 元数据最本质,最抽象的定义为:data about data (关于数据的数据)。而对于经营分析数据仓库而言,形象的定义为:元数据就是数据仓库的规范。这些规范包括对各种指标的定义、解释;包括对各表中数据的来龙去脉、数据的大小和格式的定义。 元数据管理,就是要建立一套行之有效的规范以及该规范的管控体系,实现从管理到查询到综合分析的全面管控,管理层次从接口到ETL处理、业务逻辑处理、结果展现处理和指标分析的方方面面,构成数据仓库应用系统的核心和基础。做到开发者能严格遵守规范,维护者和使用者有规范可查,有力的保障数据仓库项目的健壮性和可维护性。

元数据管理模块方案1.doc

元数据管理模块方案1 目录 1. 现状分析(2) 1.1 目前的困境(2) 1.2 什么是元数据管理(3) 2. 目标分析(3) 2.1 建立完善的指标解释体系(3) 2.2 建立规范的元数据管理体系(4) 2.3 建立有效的数据稽核体系(4) 3. 功能概述(4) 3.1 元数据管理(4) 3.1.1 业务元数据(5) 3.2.2 技术元数据(6) 3.3元数据分析(9) 3.3.1 血统分析(9) 3.3.2 影响分析(10) 3.3.3 重要性分析(11)

3.3.4 无关性分析(12) 3.4数据稽核(12) 3.4.1 稽核规则管理(13) 3.4.2 稽核任务调度(13) 3.4.3 稽核结果分析(14) 3.4.4 数据质量评估(14) 3.4.5 数据问题管理(14) 元数据管理系统概述 1.项目背景 随着经营分析系统规模不断扩大,系统所积累数据量也越来越大,收集到的海量数据背后隐藏着大量珍贵重要的信息,但也同时提高了系统的数据管理难度:一方面难以对这些数据进行有效解释,缺乏对业务流程执行的实时监控和管理;另一方面各部门数据与数据整合的难度也不断加大,影响到了经营分析系统中的数据质量。 如何对现有数据进行深层发掘,并揭示出埋藏在元数据中的趋势、因果关系、关联模式等核心信息?这是下一步深化经营分析系统应用的电信运营商需要解决的头等大事。构建BI,首先要保证的是数据质量。元数据管理解决的问题就是如何把业务系统中的数据分门别类地进行管理,并建立数据与数据之间的关系,为数据仓库的数据质量监控提供基础素材。

1.1 需求分析 使用者(决策层、业务分析人员): 1) 经营分析系统中存在有很多报表,不同报表中存在一些相同的指标,这 些指标往往不一致,给业务分析和决策工作造成很多困惑,必须花费很大的精力去检查核实。 2) 对于很多指标,不清楚其具体含义,不清楚其反映的问题,不清楚其具 体算法和来龙去脉。 数据仓库项目开发维护者: 1) 不同报表中的同一指标不一致,必须花费很大的精力去检查,目前基本 上是通过手工检查表和存储过程的方式,效率较低。 2) 没有完善的开发、维护规范。比如,新增一张分析报表,开发人员根据 业务人员的需求制作完成之后,往往没有整理完善相应的数据指标解释和元数据管理,造成日后检查困难。 3) 开发、维护规范的执行力较低,没有行之有效的管控手段。不严格按照 规范执行,随着项目的发展和时间的推移,导致数据仓库项

简述空间元数据及其作用

1、简述空间元数据及其作用。138 空间元数据是指在空间数据库中用于描述空间数据的内容、质量、表示方法、空间参考和管理方式等特征的数据,是实现地理空间信息共享的核心标准之一。 元数据的类型:标志信息:是惟一标志数据集的元数据信息,比如数据集名称、发布时间、空间分辨率、法律限制等 数据质量信息:是数据集质量的总体评价,包括数据集的完整性、逻辑性、位置精度、时间精度、属性精度等方面的综述以及说明数据质量的保证措施,以及数据源、数据处理过程。空间参照系统的信息:对于空间数据信息参照的说明。 空间数据的组织信息、内容信息、分发信息和核心参考信息等 作用:帮助用户了解、分析数据;空间数据的质量控制;在数据的集成中的运用;数据存储和功能的实现;空间数据质量控制;能够保证数据逻辑与科学的集成;有足够的说明数据来源加工处理的过程、数据翻译。 2、3s集成的意义和作用 “3S”集成技术是指RS、GPS和GIS借助于通讯技术、计算机技术有机结合起来的技术。RS:Remote Sensing-遥感 GPS:Global Positioning System-全球定位系统 GIS:Geographic Information System-地理信息系统 3s集成科用于科学研究、政府管理、政府生产以新一代的观测手段和描述语言作为工具。3s的联合运用取长补短,是一个自然发展的趋势,3s相互作用形成以个大的镜框。 Rs和gps向gis提供区域及空间位置,gis用于相应的空间分析;rs提供的浩如烟海的数据中提取出有用的信息并进行综合的集成,使之成为决策的科学依据。 在实际运用中,表现为3s两两之间的集成,gis、rs的集成,gis、gps的集成。Rs、gps的集成。 3、简述数字城市的框架以及数据共享需要解决的关键数据问题。 功能体系分为3个层次:基础层、专题层、综合层。 基础层包括:城市的地理环境、城市的资源环境、城市的社会经济人文环境。 专题层包括:(1)社会:人口、教育、科技、文化、体育、卫生、公安、司法、劳动、民政(2)经济:规划、房产、国土、供水、供电、供热、供气、供水、工业农业、商业财税收、金融 (基础层再专题化) 综合层:政府的综合决策系统。 技术框架有:全球定位系统、遥感系统、矢量技术、数据的标准化、数据的传输、数据的存储、数据的处理、3s的集成。 关键技术有:计算技术、海量存储于处理技术、数据获取技术、宽带网络技术、库操作技术、空间数据仓库、空间数据融合、元数据、虚拟现实技术。 三、综述 1、为了完成城市道路拓宽改建的分析,需要哪些数据,分析的流程。 答:利用建立缓冲区、拓扑叠加的特征提取,计算一条道路拓宽改建过程中的拆迁指标。(1)明确分析的目的和标准:目的是计算由于道路拓宽而拆迁的建筑物的建筑面积和房产价值,道路拓宽改建的标准是: a)道路从原有的20m拓宽至60m; b)拓宽道路应尽量保持直线; c)部分位于拆迁区内的10层以上的建筑不拆除。 (2)准备进行分析的数据:需要设计两类信息,一类是现状道路图;另一类为分析区域

元数据管理方案

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。通过元数据自动抽取,用户可以方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针对的对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。 1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: 整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统

一整理,根据公开共享的前提进行集中,这种集中可以是物理上集中的,也可以是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,所以对于需要共享的数据要进行安全方面的限制,限制的手段可以有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理 现阶段,主流格式的电子文档,主要包含:word、excel、ppt、pdf等。对主流格式的电子文档,要提供自动采集工具进行编目处理。采集的范围主要是文档的标题和内容,对于其它的元数据内容,要提供手工配置的方式进行辅助。另外,在工具的采集效率上,要提高增量文档发布后的采集效率。 对于格式特殊、内容有加密算法的文档,是很难通过抓取工具进行采集的,这些文档主要通过手工编目的方式来处理。 对于存在管理库的文档,就需要对数据库来进行编目采集,详见数据库元数据抽取部分。 ●保存元数据 采集后的数据要放到数据库或者保存到硬盘上,另外要根据目录体系标准,把数据分解为元数据,然后进行存储 1.1.4数据库元数据抽取 数据中心需要抽取的数据库类型主要为Sql server,首先利用ETL工具从源数据库中将所需数据抽取至中心数据库基础业务库中,在利用元数据著录工具对抽取出来的数据进行元数据著录。

相关主题
文本预览
相关文档 最新文档