当前位置:文档之家› 空间数据与数据质量

空间数据与数据质量

空间数据与数据质量
空间数据与数据质量

第四章空间数据与数据质量

空间数据是对现实世界对象(地理特征)的空间信息和专题属性信息描述,它具有诸如数据量巨大,结构复杂多样、操作是计算密集型的,具有自相关性等特征。空间数据是地理信息系统不可缺少的组成部分,其质量在很大程度上影响和制约着地理信息系统的可用性,为地理信息系统用户提供满足质量要求的空间数据是地理信息系统建设的关键任务之一。

4.1空间数据

4.1.1空间数据的来源

地理信息系统的数据源是指建立地理信息系统数据库所需要的各种类型数据的来源。地理信息系统的数据源是多种多样的,并随系统功能的不同而不同,通常包括以下几种:

(1)地图数据:各种类型的地图是GIS最主要的数据源,因为地图是地理数据的传统描述形式,是具有共同参考坐标系统的点、线、面的二维平面形式的表示,内容丰富,图上实体间的空间关系直观,而且实体的类别或属性可以用各种不同的符号加以识别和表示。

(2)遥感数据:遥感数据是GIS中一个极其重要的信息源。通过遥感影象可以快速、准确地获得大面积的、综合的各种专题信息,航天遥感影象还可以取得周期性的资料,这些都为GIS提供了丰富的信息。

(3)测量数据:测量数据主要指使用大地测量、GPS、城市测量、摄影测量和其他一些测量方法直接量测所得到的测量对象的空间位置信息。各种实测数据特别是一些GPS点位数据、地籍测量数据常常是GIS的一个很准确和很现势的资料。(4)国民经济的各种统计数据常常也是GIS的数据源。如人口数量、人口构成、国民生产总值等等。各种文字报告和立法文件在一些管理类的GIS系统中,有很大的应用,如在城市规划管理信息系统中,各种城市管理法规及规划报告在规划管理工作中起着很大的作用。

4.1.2空间数据的基本特征

地理数据一般具有三个基本特征:属性特征(非定位数据),描述空间对象的特性,即是什么,如对象的类别、等级、名称、数量等。空间特征(定位数据):描述空间对象的地理位置以及相互关系,又称几何特征和拓扑特征,前者用经纬度、坐标表示,后者如交通学院与电力学院相邻等。时间特征(时间尺度):指现象或物体随时间的变化,其变化的周期有超短期的、短期的、中期的、长期的

等等。

4.1.3空间数据的组织方法

大部分GIS软件以分层的方式组织地理景观,将地理景观按主题分层提取,例如地块、水井、建筑物、正射影像以及基于栅格的数字高程模型(DEM),同一地区的整个数据层集表达了该地区地理景观的内容。

GIS专题信息集合使用层来组织,这样的思想也是GIS数据集一个关键的思想。通过层之间共同的地理位置,我们可以很容易地得到多个层之间的空间关系。ArcGIS以四种类型来分别描述现实世界中不同的地理特征:点(Point):一个x 和y坐标对;线(Line):x和y坐标对点集的有序集合;面(Polygon):具有相同起点和终点坐标的x和y坐标对点集的有序集合;表面(Surface):与每一对x和y坐标对相对应的点都有一个描述该空间位置上某种属性的值的集合。

4.2数据质量

数据质量是指数据的可靠性和精度,在测量学中通常用误差来度量,在地理空间信息数据库更新与建库过程中,有许多生产环节,每个环节均产生一定的误差。根据数据质量的特性,数据质量检查的主要是:位置精度检查,属性精度检查,逻辑一致性与完整性的检查。

1.位置精度检查

位置精度即定位精度,它包括数学基础、平面精度、高程精度、接边精度等。

2.属性精度检查

属性精度主要包括要素分类与代码的正确性,要素属性值的正确性,要素注记的正确性。

3.逻辑一致性与完整性的检查

逻辑一致性的检查的主要包括:多边形闭合精度、结点匹配精度、拓扑关系的正确性。完整性的检查包括:数据分层的完整性、实体类型的完整性、属性数据的完整性、注记的完整性等。

目前,测绘行业已由传统的测绘方式与手段转变到了数字化测绘体系,对空间数据质量要求越来越高。但是,对如何处理误差,目前没有成熟的规范可行,在使用空间数据时,既要看到数据误差的不可避免性,也要重视数据误差的危害性。根据对空间数据的要求确定数据质量控制的内容和制订相应的数据质量控制策略。总之,空间数据的质量控制是一件非常庞杂的工程,没有质量作保证,所有的劳动都可能是白费。

4.3 元数据

元数据的英文名称是“metadata",“meta”是一希腊语词根,意思是“改

变”,“Metadata”一词的原意是关于数据变化的描述。一般都认为元数据就是“关于数据的数据”。在地理空间信息中用于描述地理数据集的内容、质量、表示方式、空间参考、管理方式以及数据集的其他特征,它是实现地理空间信息共享的核心标准之一。

空间元数据标准内容分两个层次。第一层是目录信息,主要用于对数据集信息进行宏观描述,它适合在数字地球的国家级空间信息交换中心或区域以及全球范围内管理和查询空间信息时使用。第二层是详细信息,用来详细或全面描述地理空间信息的空间元数据标准内容,是数据集生产者在提供空间数据集时必须要提供的信息。

元数据主要有下列几个方面的作用:(1)用来组织和管理空间信息,并挖掘空间信息资源,这正是数字地球的特点和优点所在;(2)帮助数据使用者查询所需空间信息;(3)组织和维护一个机构对数据的投资;(4)用来建立空间信息的数据目录和数据交换中心;(5)提供数据转换方面的信息。

目前,国际上对空间元数据标准内容进行研究的组织主要有三个,分别是欧洲标准化委员会(CEN/TC 287)、美国联邦地理数据委员会(FGDC)和国际标准化组织地理信息/地球信息技术委员会(ISO/TC 211)。

4.4 本章小结

“数据质量是GIS的灵魂”,GIS 空间数据的质量直接影响GIS 的分析和应用,影响了GIS 的生存和发展。对空间数据质量的研究已经成为GIS理论主要研究领域之一。

元数据的概念

元数据的概念 元数据(Metadata),即关于数据的数据,是对数据和信息资源进行描述的信息。通常认为,元数据是为了更为有效地管理和使用数据而对它进行说明的信息。所以元数据与其描述的数据内容有着密切联系,不同领域的数据的元数据在内容 上差异很大。地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容、质量、状态和其它特性的一类数据,它是实现地理空间信息共享的核心标准之一。其中,对空间数据某一特征的描述,称为一个空间元数据元素。空间元数据是一个由若干复杂或简单的元数据项组成的集合。它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信息。 研究元数据的作用和意义 元数据可用来帮助数据提供者和数据使用者解决数据转换、沟通和理解的问题。归纳起来,元数据主要有下列几个方面的作用: 1)、用来组织、管理和维护空间数据,建立数据文档,并保证即使其主要工作人员退休或调离时,也不会失去对数据情况的了解 2)、提供数据存储、数据分类、数据内容、数据质量及数据分发等方面的信息,帮助数据使用者查询检索所需地理空间数据 3)、用来建立空间信息的数据目录和数据交换中心,提供通过网络对数据进行查询检索的方法或途径,以及与数据交换和传输有关的辅助信息 4)、通过空间元数据,人们可以接受并理解空间信息,帮助数据使用者了解数据, 以便就数据是否能满足其需求作出正确的判断并与自己的空间信息集成在一起,进行不同方面的科学分析和决策。 元数据是使数据充分发挥作用的重要条件之一。它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。元数据对于建立空间数据交换网络是十分重要的,往往网络中心通过设在中心的元数据库可以实时地连接各个分发数据的分节点元数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据共享。 一个完整的元数据系统通常包括三部分,即元数据标准、元数据管理工具和元数据库。不同的元数据库可能采用不同的管理工具,唯一能够在不同数据管理软件间交换元数据的途径是统一元数据标准,只有在统一的标准前提下,才能跨越操作系统平台和数据库软件平台进行数据的互操作,实现数据共享。 DIF 元数据标准

客户数据质量评价的原则与方法

客户数据质量评价的原则与方法 admin 2013-10-12 关于客户数据质量的困惑 “什么样的客户数据质量是比较好的?”“为什么我们的客户数据看起来很不错,可是在进行电话营销时,客户接触率和营销效果确差强人意,与期望大相径庭?”在进行数据库营销的讨论和交流中,经常有人问到这样的问题。 这些问题反映出了很多在从事数据库营销或直复营销过程中的营销策划人员和运营管理人员经常面临的问题和困惑。 几乎所有的组织都需要数据,一些行业严重依赖于客户数据,如银行、电信、保险公司等。毫无疑问,较差的数据质量给企业营销带来的损失非常巨大!试想一下,如果你的呼叫中心正在试图向非目标客户进行大规模电话营销活动,或是你的企业正向那些早已过期的邮寄地址寄出了数以万计的促销宣传资料。这些给公司带来的损失有多少?不幸的是,这样的情况几乎经常发生,而企业的数据库营销策划人员也经常面临着数据选择和评价的挑战。 理解关于质量的涵义 首先,让我们简单探讨一下“质量”的涵义。

在服务营销和服务管理中,通常将“质量”定义为:“满足不同客户的个性化需求的能力”。这样的定义有着一定的主观特征,也就是说不同的企业会根据其对客户需求和竞争环境的理解,来定义其产品与服务的质量特征。这可以用来解释为什么对于不同等级的客户提供的服务质量标准有所差异的原因,这也是为什么同样是提供点对点的航空运输服务,某些航空公司的服务质量和客户体验要好于其他一些竞争者的原因。 国际标准组织将质量定义为:“产品或服务所具备的满足明确或隐含需求能力的特征和特性的总和”。这样的定义虽然更明确,但对于大多数的人来说,过于专业和抽象。 一个比较通俗且受到多数人认可的对质量的直观定义是“适合使用需求”。这也是我们本文的一个主旨,没有质量绝对完美的数据,对于数据质量的评价也是要根据数据的使用需求来进行评价的。只要能够适合使用的需求,我们就认为数据的质量是符合要求的。企业也应当本着有取有舍的原则,选择那些为企业所能利用的数据。 了解了质量的定义,接下来就可以进入客户数据质量的评价话题了。 数据质量评价的基本原则

空间数据质量特性与质量控制.

空间数据质量特性与质量控制 范志坚1,2,方源敏1,汪虹2 (1.昆明理工大学国土资源工程学院昆明 650093;2.云南省基础地理信息中心昆明 650034) 摘要:本文主要讨论空间数据质量特性、质量控制所涉及的内容。结合笔者最近从事空间数 据库建库的具体实践和工作体会,探讨从位置精度、属性精度、时间精度、数据完整性和逻辑一致性等方面对数据质量进行全面控制,最终建成一个质量可靠的空间数据库。 关键词:地理信息系统;空间数据库;空间数据;质量特性;质量控制 Quality characteristic and Quality control of Spatial data Fan Zhi-jian1,2,Fang Yuan-min1,Wang-Hong2 (1.Faculty of Land Resources Engineering,Kunming University of Science and Technology,Kunming 650093,China;2.Yunnan Provincial Geomatics center,Kunming 650034,China) Abstract:This paper mainly talks over contents which are involved with quality characteristic and quality control of spatial data.Integrating with concrete practice and work experience which the writer has recently been engaged in establishing spatial database,a very comprehensive control of data quality should be discussed from aspects of positional accuracy、attribute accuracy、temporal accuracy、data compression、as well as logic conformance and so on.Finally,a dependable spatial database should be set up. Key words:GIS;spatial database;spatial data;quality characteristic;quality control 0 引言 空间数据库是随着地理信息系统(GIS)的开发和应用而发展起来的数据库新技术,它是地理信息系统的重要组成部份,是地理信息系统应用部份的前题和基础。空间数据库为此建立了如实体、关系、数据独立性、完整性、数据操作、资源共享等一系列基本概念。以空间数据存储和操作为对象的空间数据库,把被管理的数据从一维推向了二维、三维甚至更高维。空间数据库是一种应用于空间数据处理与信息分析领域的具有工程性质的数据库,它所管理的对象主要是空间实体。在空间数据库中,空间数据质量的好坏,直接影响到空间数据库的经济效益和社会效益。 要得到高质量的空间数据,最重要的是在空间数据生产和使用过程中进行质量管理和质量控制。通过质量管理和质量控制,可以分析影响产品质量的原因,进而提高空间数据的质量。空间数据的质量是空间数据库生存和发展的保障,缺少质量指标的空间数据将无法得到用户的信任,且直接影响到地理信息系统应用、分析、决策的正确性和可靠性。由此可知,空间数据质量是空间数据库的生

空间数据质量在GIS中的影响

地理信息系统(GIS)的基础是空间数据,空间数据的核心是质量,空间数据的生产与质量控制是一个相互作用的过程,生产数据是为了应用,而数据质量是一个关系到数据可靠性和系统可靠性的重要问题。随着数据质量在建设数字地球、进行矿产预测的计算机模拟中发挥着越来越重要的作用,但如果空间数据的质量及其精度未能引起足够的重视,由这些空间数据进行重新运算和组合产生的空间数据就不是最终需要的结果,可能导致最终决策错误。要提高空间数据的质量,减小空间数据误差,就要对空间数据误差产生和扩散的所有过程和环节进行控制。在数据采集时对元数据进行跟踪,采取相应的措施提高数据质量。以地图数字化为例,对纸质地图进行数字化前应对其进行校正或配准,选用精度比较高的数字化仪和扫描仪提高栅格数据的精度等;根据空间数据质量评价的标准还应制定相应的细则来提高数据质量;对采集和处理空间数据人员进行岗前培训等也都能减小误差的传播。 1 GIS 空间数据质量控制研究现状 GIS 空间数据的质量优劣直接影响着GIS应用中分析结果的可靠程度及应用的真正实现,也影响着GIS产业的健康发展。因此,近年来国内外越来越关注GIS数据的精度和质量控制的研究。GIS数据的质量控制问题涉及面很广,包括数据质量的衡量标准、表示方法,数据误差的来源和性质,评价方法和控制方法及相关政策等。如政府部门积极制定法规保障数据质量;将数据作为产品,采用管理产品质量的方法管理数据质量;数据质量的教育、培训与咨询;初步形成了地理数据质量的系列国际标准,如ISO 19100系列标准中地理信息质量标准;方法上,主要成果和结论,包括直线不确定性模型的改进、曲线不确定性模型的建立;将平差理论引入GIS数据误差处理和质量控制,并提出了实用方法;对GIS 数字化误差的性质、分布进行了深入研究;从抽样检验的理论出发,探讨了GIS 产品的质量控制技术和方法。 2 空间数据质量的概念 2.1空间数据的质量 空间数据是有关空间位臵、专题特征以及时间信息的符号记录,而数据质量是空间数据在表达这3个基本要素时所能达到的准确性、一致性、完整性以及它们三者之间统一性的程度。由于现实世界的复杂性、模糊性以及人类认识和表达能力的局限性,空间数据在表达上不可能完全达到真值,只能在一定程度上接近真值。用户根据需要对空间数据的处理也会导致出现一定的质量问题。所以空间数据的误差产生于各种数据源及空间数据的输入和处理过程中。 2.2与空间数据质量相关的几个概念 2.2.1误差(Error)反映了数据与真实值或公认的真值之间的差异,它是一种常用的数据准确性的表达方式。

数据质量管理

数据质量管理 定义: 是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。 目录 1数据质量管理 2数据质量管理评估维度 3分析影响数据质量的因素 4MTC-DQM 数据质量管理的方法与步骤 一数据质量管理 数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。 二数据质量管理评估维度 由于数据清洗(DataCleaning)工具通常简单地被称为数据质量(Data Quality)工具,因此很多人认为数据质量管理,就是修改数据中的错误、是对错误数据和垃圾数据进行清理。 这个理解是片面的,其实数据清洗只是数据质量管理中的一步。数据质量管理(DQM),不仅包含了对数据质量的改善,同时还包含了对组织的改善。针对数据的改善和管理,主要包括数据分析、数据评估、数据清洗、数据监控、错误预警等内容;针对组织的改善和管理,主要包括确立组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制定组织监督审核机制、实施改进、评估改善效果等多个环节。 任何改善都是建立在评估的基础上,知道问题在哪才能实施改进。通常数据质量评估和管理评估需通过以下几个维度衡量。

1 数据质量评估维度 完整性Completeness:完整性用于度量哪些数据丢失了或者哪些数据不可用。 规范性Conformity:规范性用于度量哪些数据未按统一格式存储。 一致性Consistency:一致性用于度量哪些数据的值在信息含义上是冲突的。 准确性Accuracy:准确性用于度量哪些数据和信息是不正确的,或者数据是超期的。 唯一性Uniqueness:唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的。 关联性Integration:关联性用于度量哪些关联的数据缺失或者未建立索引。 2 管理质量评估维度 配置管理Config Management:此维度用于度量数据在其生命周期内的一切资源是否得到了控制和规范,即数据的计划、产生、变更直至消亡的过程中,与数据相关的计划、规范、描述是否收到控制。评估指标包括:评估配置项的细化粒度、评估基线准确度和频度以及变更流程是否合理完善等。 培训 Training:此维度用于度量数据的生产和使用者在数据生命周期内的一切活动中是否经过了知识和技能的培训、培训效果是否满足岗位需要;受训的知识和技能是否经过审核和确认,受训的内容是否与企业文化和价值观一致;培训流程是否合理完善等; 验证和确认Verify & Validation:此维度用于度量数据在其生命周期内是否得到验证和确认。评估内容包括是否通过验证流程确保工作产品(数据)满足指定的要求、是否通过“确认”流程保证工作产品(数据)在计划的环境中满足使用的要求;“验证”和“确认”的流程是否完善; 监督和监控Monitoring:此维度用于度量产生和使用数据的流程在数据的整个生命周期内是否真正受控。脱离监控的信息、技术、计划、流程、制度,会导致数据质量低下。监督和监控的流程是否完善。 三分析影响数据质量的因素 影响数据质量的因素主要来源于四方面:信息因素、技术因素、流程因素和管理因素

《元数据的作用 [元数据的构成方式]》

《元数据的作用[元数据的构成方式]》 (徐枫宦茂盛)通过元数据的描述,能够使信息资源的使用者了解数据的内容、特征、作用、获取方式等信息。元数据是关于数据的数据,在建立信息资源目录体系的过程中,元数据主要是对信息资源从外部特征进行而非从内部结构进行描述。通俗地讲,元数据就是信息资源的标签或卡片,通过元数据的描述,可以使信息资源的使用者能够了解数据的内容、特征、作用、获取方式等信息,能够对信息资源是否满足特定的应用需求做出适当的评价,并根据评价的结果决定是否采取进一步的措施来获取该信息资源。 元数据是信息资源目录体系建立的基础,构建一个信息资源目录体系首要和基础性的工作就是建立描述各个信息资源的元数据库,元数据库中存储的是描述各种来源、各种类型的信息资源的描述信息。无论用户以何种方式查询信息资源目录,包括以分类目录的形式进行查询、或者以多关键词的形式进行查询,其本质都是对后台元数据库的检索,只是从表现层提供了不同形式的人机查询接口。根据所描述的信息资源对象的不同,可以建立不同的元数据库,分别对各类信息资源进行描述。 元数据的组成 为能够对信息资源进行准确和高效的描述,元数据本身具有自身的逻辑结构。一般来说,元数据本身是层次化、树状结构的。处于树状结构最底端的叶子节点称之为元数据元素,包含了元数据元素的节点称之为元数据实体,当然元数据实体也可以只包含元数据实体。根

据实际需求,元数据实体或者元数据元素可以多次出现。例如,信息资源可以有不同的分类,可以按照信息资源的来源进行分类,也可以按照信息资源的不同应用主题进行分类,因此,“信息资源分类”元数据实体就可以出现多次。 元数据一般分三个方面对信息资源进行描述。 一是对信息资源基本内容的描述。包括信息资源的标题、摘要、关键词等基本信息。标题是信息资源的名称,通过标题使用者能够初步掌握信息资源的基本范围。其次,使用者可以通过摘要,了解信息资源的主要内容、用途等各种信息。一般情况下,用户主要通过摘要作为信息资源适用性评价的主要依据。所以,在信息资源元数据的著录过程中,摘要的填写一般都由专业人员完成,只有专业人员才能够对信息资源的内容有准确的把握和深入的理解,能够提供有关信息资源内容的更加权威的解释。根据信息资源对象的不同,描述信息资源基本内容的元数据实体和元数据元素还可以进行有选择的增加。例如,描述空间信息资源时,可以增加空间参照系、图示表达等元数据实体,描述科学数据资源时需要增加数据质量等元数据实体。 二是对信息资源的获取方式进行描述。包括信息资源的分发者信息、信息资源的在线获取地址信息等。通过提供分发者联系信息,使用者可以直接联系信息资源的分发部门,这对于不能直接在网络上进行数据交换的信息资源获取非常有效。其次,使用者还可以通过信息资源的在线地址来下载、查询、浏览信息资源。使用者甚至可以提供专门的电子订单处理系统,并将入口信息加入到元数据内容中,方便

数据质量具体评测指标及方法说明

数据质量具体评测指标及方法说明 一、主要评测内容 重点评测个案库的数据完整性、逻辑关系准确性。评测内容及指标计算方法会根据需要作适当调整。 二、具体评测指标及方法 (一)主要数据项完整情况 1、评测内容:重点评测个案库中的基本情况表,具体数据项包括姓名、性别、现居住地代码、户籍所在地代码、公民身份号码、出生日期、婚姻状况、户口性质等8项必填内容。 其中:每条个案记录中,只要任意一项主要数据项缺失,即认定为该条记录的主要数据项不完整。 2、评测指标:主要数据项完整率 3、计算公式: 主要数据项完整的人口总数 —————————————×100% 个案信息库包含的人口总数 其中: 主要数据项要通过单项逻辑校验,没有通过单项逻辑校验的视为数据项缺失。校验规则如下: (1)性别、户口性质、婚姻状况数据项均不能为空错值;

(2)姓名:7岁以上(含7岁)“姓名”不含“未取名”、阿拉伯数字、英文字母等不符合规范的文字,不少于两个汉字。7岁以下人口不做此单项逻辑校验。 (3)公民身份号码:7岁以上(含7岁)“公民身份号码”不含空格、性别码与性别匹配、长度为15或18位、校验码正确。7岁以下人口不做此单项逻辑校验。 (4)出生日期:不大于汇总数据时点。 (5)现居住地代码:不为空错值,当人员类别为外出时,现居住地代码不应为本地 (6)户籍地代码:不为空错值,当人员类别为外来时,户籍地代码不应为本地 (二)逻辑关系准确情况 1、评测内容:分为单表审核、表间审核两种类型,共计7个审核内容。 其中,每条个案记录中,只要任意一项逻辑关系不准确,即认定为该条记录的逻辑关系不准确。 (1)若总人口数据“婚姻状况”为已婚(代码为20 – 23 29),则与配偶有关的信息项目配偶姓名、配偶身份证(配偶身份证错误也视为空)项均不为空; (2)育妇卡片“育龄妇女初婚日期”加15年不能小于“育龄妇女出生日期”;

.数据分析篇——空间元数据

空间元数据库知识点一、知识点结构

二、知识点内容 知识点(优先级)描述定位 1元数据编辑相关插件(A) 与元数据编辑相关的视图为元数据视图。 与元数据编辑相关的插件有元数据编辑插件,加载之后的工具条为: ?元数据库列表框用于选择元数据库,如图所示:元数据库列表框; ?元数据集列表框用于选择元数据集,如图所示:元数据集列表框; ?样式表列表框用于选择样式表,如图所示:元数据显示样式表列表框; ?单击编辑按钮,可以实现对元数据的编辑,如图所示:编辑元数据按钮; ?单击创建按钮,可以实现对元数据的创建,如图所示:创建元数据按钮; ?单击导入按钮,可以导入元数据,如图所示:导入元数据按钮; ?单击导出按钮,可以导出元数据,如图所示:导出元数据按钮; ?单击元数据和空间数据的一致性检查按钮,可以浏览检查元数据和空间数据的一致性,如图所示:元数据和空间数据的一致性检查按钮; ?单击浏览附件按钮,可以浏览元数据附件,如图所示:浏览元数据附件按钮。 MapGIS7.x 数据管理 篇.chm 25.2.2

2元数据创建(A)1、创建元数据库和元数据集 在“元数据库”文件夹右键选择“创建”功能,输入元数据库的名称,如test。 展开元数据库,找到test点击右键选择创建元数据集,输入元数据集名称。 图1创建元数据库和元数据集 2、元数据的创建方法有多种,以下逐一介绍。 (1)在元数据集上右键点击元数据导入,其具体的操作参见元数据的批量导入。 (2)工具条上点击创建元数据按钮,如果当前选中的是“元数据库”,就会在元数据库文件夹下的第一个元数 据库中的第一个元数据集中建立元数据;如果选中的是某个元数据库(如test),就会在该元数据库中的最先建的 元数据集中建立元数据;如果选中的是某个元数据集(如meta),就会在该元数据集中建立元数据。 (3)为地理实体建立元关系,在建立了元关系的元数据集上右键点击,选择同步元数据,则会在元数据列表中新 建元数据,其具体的操作请参考创建同步和更新同步。 MapGIS7.x 数据管理 篇.chm 25.2.1 3元数据浏览(A)在MapGisCatalog目录树中选中某个元数据集,将视图切换到元数据视图,在元数据视图中的元数据列表中会列出 该元数据集下的所有元数据,选择某条元数据,在元数据视图中即会显示该条元数据的信息。 可以从下拉列表中,选择已有的显示方式对该条元数据的显示方式进行更改。 MapGIS7.x 数据管理 篇.chm 25.2.1

数据质量评价模型的建立和实现

[摘要] 本文提出了数据质量评价模型、质量校验与评价方法,论述了“数据质量分析评价系统”的程序实现流程、总体结构及功能,介绍了系统的关键技术及进一步的研究方向。 [关键词] 质量模型质量检验质量评价 数据作为一种资源,是支撑信息化建设和应用的主体,根据“进去的是垃圾,出来的也是垃圾”这条原理,为了支持正确决策,就要求我们所管理的数据可靠,没有错误,能够准确地反映采油厂的实际情况。胜利采油厂数据中心存放了5千万条的数据,还在以每天2万条的速度加载,如何使这些海量数据在生产管理、科学研究、企业决策中发挥应有作用,使用户能用、敢用、愿用,使数据真正为企业服务,这是几乎所有信息化企业亟需迫切解决的问题。为解决数据质量问题,各种管理手段、技术手段和新的数据评价体系不断被应用在数据的采集和加工过程中。 一、数据质量评价模型的提出背景 采油厂的数据资源具有:横跨专业多,数据采集密度大、频度高,数据处理流程复杂等特点,为了保证数据的可用性,数据管理人员在客户端、服务器端均设置了数据质量审核规则,但是依然不可避免存在比例较高的数据质量问题,典型的有记录不全、数据遗漏、数据错误、多义字段、矛盾值、违背业务规则、无法关联等。产生数据问题的根本原因可以归结为以下几个方面: 1.没有从数据资源的战略高度对数据质量进行统一完整的定义,导致数据的分析评估没有统一可靠的标准; 2.数据质量还停留在定性评价,不能实现精确的量化评价,只是在业务需要某个数据时,才到库里去手动统计,无法动态记录某个单位、某个月的真实数据质量发生情况,导致数据质量考核缺乏可信的数据依据,大大影响考核力度; 3.没有一个能同时面对用户、专业部门、数据管理人员的可视化的数据质量监控评价平台,三方无法共享一个平台,共同实行数据管控一体化,导致业务规则的变更滞后,问题数据在库中的长期滞留; 4.也许有了N个业务模型,但是没有把它放到时间轴上去控制流程,导致实际生产中应该发生的活动的部分生产数据遗漏; 虽然影响采油厂数据质量的原因是多方面的,但主要的原因还是集中在管理、制度和数据采集加工规范化方面。对于如何通过管理、制度、标准和流程来控制数据质量,提高数据可信度,我们提出建立采油厂统一的数据质量分析评价模型,使用管理手段和技术手段相结合的办法,建立一套完善的数据定义、控制、评估流程,依托科学严谨的数据监督和质量控制体系持续地改进数据质量。 二、数据质量分析评价模型构成 构成数据质量分析评估模型的要素分别为:基础模型、数据质量辅助模型、数据质量定义模型、数据质量控制模型、数据质量评价模型。 1.基础模型。基础模型部分是整个模型框架的支撑核心部分,其他质量模型的定义和控制必须以基础模型中的计划和标准为依据。基础模型主要是映射、定义数据采集标准,上载分单位的采集计划,同时纳入了约束规则定义规范、控制规则定义规范、模板定义规范。 数据标准:分两部分,一部分是直接映射应用中的标准,例如源数据库标准;另一部分是针对新增应用库和项目库标准的定义规范,包括代码定义标准、数据项定义标准(例如是取英文还是汉语拼音,取几个字符)、值域定义标准等等新增表准的建立规范; 采集计划:采集单位的每月上载的日度、月度、年度的采集计划;

数据质量评价的原则与方法

仅供参考! 目前,基于数据仓库的商业智能应用已经成为国内许多企业的IT规划项目,并受到企业管理层的关注。作为商业智能的基础,数据质量的好坏是影响商业智能应用效果的关键,但由于企业的信息化经过长期的积累和发展,数据质量参差不齐,脏数据的存在阻碍了商业智能应用的进程,下面将重点谈谈如何让脏数据改头换面。 数据的“往事” 脏数据是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。 脏数据的存在主要是由于源系统的设计不够严密造成的。主要表现为:数据格式错误,数据不一致,数据重复、错误,业务逻辑的不合理,违反业务规则等。例如,未经验证的身份证号码、未经验证的日期字段等,还有账户开户日期晚于用户销户日期、交易处理的操作员号不存在、性别超过取值范围等。此外,也有因为源系统基于性能的考虑,放弃了外键约束,从而导致数据不一致的结果。 目前,大多数的银行业务系统的输入界面是采用COBOL语言或C语言开发的,界面处理功能不是很强,一些要素被设计成“输入”而不是“选择”,如企业客户的信用等级被设计成输入,输入的正确与否完全由操作员的理解决定,这也是脏数据产生的原因之一。例如,如果被设计成“选择”就不会出现把AAA输成“1”或其他了。 转换与清洗的实例 下面以银行业务系统的客户的惟一标识—客户号为例来讲解如何转换与清洗数据。 客户信息的处理是整个数据抽取、转换、清洗和装载(ETL)工作中最复杂的部分。目前业务系统中常见的客户信息处理的难点主要有以下两个方面。 客户的惟一标识混乱 银行的客户号一般由证件类型与证件号组成,这里就有一个问题,如果客户有多种证件怎么办?或者说某个客户办了移民,有了新的身份,系统中怎样体现出他是同一个客户?这些问题,除了少部分是由于发证机关造成的(如身份证重号),大部分是由于操作人员的操作不规范造成的。主要表现在以下三个方面。 A、客户身份证号问题 最常见的问题是客户的身份证从15位更换为18位。首先操作人员只要能输入新的客户号,就认为是一个新的客户;其次,即使操作员知道客户的身份证升位了,但在银行的客户信息中,客户号是惟一标识,如果对惟一标识进行更新,作为增量反映到目标系统中,但没有记录原客户号,对于目标系统来说就是一条新记录,而删除原有的客户信息在实际操作中可能是不允许或做不到的,因为在这个客户号上可能还挂了许多账户,即便物理删除了这条客户

第三章 空间数据采集与处理练习资料

一、单选题 1、对于离散空间最佳的内插方法 是: A.整体内插法 B.局部内插法 C.移动拟合法 D.邻近元法 2、下列能进行地图数字化的设备 是: A.打印机 B.手扶跟踪数字化仪 C.主 机 D.硬盘 3、有关数据处理的叙述错误的 是: A.数据处理是实现空间数据有序化的必要过程 B.数据处理是检验数据质量的关键环节 C.数据处理是实现数据共享的关键步骤 D.数据处理是对地图数字化前的预处理 4、邻近元法 是: A.离散空间数据内插的方法 B.连续空间内插的方法 C.生成DEM的一种方法 D.生成DTM的一种方法 5、一般用于模拟大范围内变化的内插技术是: A.邻近元法 B.整体拟合技术 C.局部拟合技术 D.移动拟合法 6、在地理数据采集中,手工方式主要是用于录入: A.属性数据 B.地图数据 C.影象数 据 D.DTM数据

7、要保证GIS中数据的现势性必须实时进行: A.数据编辑 B.数据变换 C.数据更 新 D.数据匹配 8、下列属于地图投影变换方法的 是: A.正解变换 B.平移变换 C.空间变 换 D.旋转变换 9、以信息损失为代价换取空间数据容量的压缩方法是: A.压缩软件 B.消冗处理 C.特征点筛选 法 D.压缩编码技术 10、表达现实世界空间变化的三个基本要素是。 A. 空间位置、专题特征、时间 B. 空间位置、专题特征、属性 C. 空间特点、变化趋势、属性 D. 空间特点、变化趋势、时间 11、以下哪种不属于数据采集的方式: A. 手工方式 B.扫描方式 C.投影方 式 D.数据通讯方式 12、以下不属于地图投影变换方法的是: A. 正解变换 B.平移变换 C.数值变 换 D.反解变换 13、以下不属于按照空间数据元数据描述对象分类的是: A. 实体元数据 B.属性元数据 C.数据层元数据 D. 应用层元数据 14、以下按照空间数据元数据的作用分类的是: A. 实体元数据 B.属性元数据 C. 说明元数据 D. 分类元数据 15、以下不属于遥感数据误差的是: A. 数字化误差 B.数据预处理误差 C. 数据转换误差 D. 人工判读误差

上机七 空间数据的准确度和质量

上机七空间数据的准确度和质量 一、目的与任务 1. 熟悉并掌握ArcGIS环境下基本编辑工具的使用。 2. 熟悉并掌握利用拓扑规则进行数据编辑的基本操作。 二、实验准备 1. 人员组织:以班为单位由教师进行操作上的讲解演示。 2. 仪器资料:计算机、多媒体、已安装的ArcGIS软件、上机实验指导书。 3. 数据:包含扫描的土壤界线的TIFF文件hoytmtn.tif,rect_hoytmtn.tif,spot-pan.bil和road.shp。 三、内容与方法 本章有4个习作。习作1用基本编辑工具对Shapefile文件进行编辑。习作2运用地图拓扑和集聚容差对两个Shapefile的数字化错误进行修正。习作3和4运用拓扑规则:习作3修正悬挂弧段,习作4修正轮廓边界线。 习作1:编辑一个Shapefile文件 所需数据:editmap2.shp和editmap3.shp。 习作1包括三个基本操作:合并多边形、分割多边形和整形多边形边界。你将对editmap2.shp进行编辑,而editmap3.shp用来说明编辑后的editmap2.shp 有何变化。 1.启动ArcCatalog连接到chap7数据。启动ArcMap,重命名数据帧为Task1。 将editmap2.shp和editmap3.shp添加到Task1。以editmap3.shp为参照编辑

editmap2.shp(二者用不同的外框表示)。在editmap2.shp的快捷菜单中选择Properties,在Symbology标签中,将symbol改为Hollow,将Outline Color 设为黑色。在Labels标签,勾选label features in this layer,并选择LANDED_ID为标识字段。然后在目录表中,单击editmap3.shp的符号,选择为Hollow,Outline Color设为红色。右击editmap2,指向Selection(选择),单击Make This The Only Selectable Layer(将此图层设为唯一可选图层)。 2.检查编辑工具条是否被选中。单击Editor下拉箭头,选择Start Editing。 editmap2高亮显示在Create Features窗口。关闭窗口。第一步,合并编号为74和75的多边形:单击Editor Toolbar上的Edit工具,在75号多边形内单击左键,按下Shift键,单击74号多边形。两个多边形以青色高亮显示。单击Editor下拉箭头,选择Merge(合并)。在出现的对话框中,选择最上面的一个要素,单击OK。多边形74、75合并成一个多边形,标记为75。 3.第二个操作是分割71好多边形。放大图层至多边形71包含在视窗中。单 击Edit工具,用它单击多边形内部选中71号多边形。单击Editor Toolbar 上的Cut Polygon工具(裁剪面工具)。要分割多边形时,分割线必须横穿多边形边界。在你准备开始绘制分割线之处,单击鼠标左键,单击组成分割线的每一个节点,在终节点双击鼠标。多边形71被分成两部分,每个多边形都标记为71。 4.第三个操作,是把73号多边形的矩形南边向下拉伸,以改变其形状。因 为多边形73和59有公共边界,需要使用地图拓扑修改边界。单击Editor

大数据平台 数据质量评价维度

附录A (资料性附录) 数据质量评价维度 A.1 完整性 按照数据规则要求,数据元素被赋予数值的程度。即完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值会大大降低,完整性是数据质量评估标准的基础。 表A.1完整性评价指标 A.2 规范性 数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。 表A.1规范性评价指标

表A.2 (续) A.3 一致性 数据与其他特定上下文中使用的数据无矛盾的程度。即一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。 表A.2 一致性评价指标 11

数据准确表示其所描述的真实实体(实际对象)真实值得程度。即准确性是指数据记录的信息是否存在异常或错误。 表A.3 准确性评价指标 A.5 唯一性 数据唯一不重复。即唯一性是指度量哪些数据是重复数据或者数据的哪些属性是重复的。 A.6 关联性 数据的关联不可缺失的。即关联性是度量哪些关联的数据缺失或者未建立索引。 关联性评价因素: a)查找到的信息和主题不完全一致,但确是其中某一方面的阐述; b)查找到的信息集合多数在用户需要的检索主题内; c)提供的信息主题与用户检索主题相匹配; d)查找到的信息多数与用户需要的信息无关; e)信息必须和用户需求有相关性。

数据在时间变化中的正确程度。即及时性是指数据从产生到可以查看的时间间歇,也叫做数据的延时时长,及时性对数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析出的结论失去借鉴意义。 表A.4 时效性评价指标 A.8 可访问性 数据能被访问的程度。 表A.5 可访问性评价指标 13

简述空间元数据及其作用

1、简述空间元数据及其作用。138 空间元数据是指在空间数据库中用于描述空间数据的内容、质量、表示方法、空间参考和管理方式等特征的数据,是实现地理空间信息共享的核心标准之一。 元数据的类型:标志信息:是惟一标志数据集的元数据信息,比如数据集名称、发布时间、空间分辨率、法律限制等 数据质量信息:是数据集质量的总体评价,包括数据集的完整性、逻辑性、位置精度、时间精度、属性精度等方面的综述以及说明数据质量的保证措施,以及数据源、数据处理过程。空间参照系统的信息:对于空间数据信息参照的说明。 空间数据的组织信息、内容信息、分发信息和核心参考信息等 作用:帮助用户了解、分析数据;空间数据的质量控制;在数据的集成中的运用;数据存储和功能的实现;空间数据质量控制;能够保证数据逻辑与科学的集成;有足够的说明数据来源加工处理的过程、数据翻译。 2、3s集成的意义和作用 “3S”集成技术是指RS、GPS和GIS借助于通讯技术、计算机技术有机结合起来的技术。RS:Remote Sensing-遥感 GPS:Global Positioning System-全球定位系统 GIS:Geographic Information System-地理信息系统 3s集成科用于科学研究、政府管理、政府生产以新一代的观测手段和描述语言作为工具。3s的联合运用取长补短,是一个自然发展的趋势,3s相互作用形成以个大的镜框。 Rs和gps向gis提供区域及空间位置,gis用于相应的空间分析;rs提供的浩如烟海的数据中提取出有用的信息并进行综合的集成,使之成为决策的科学依据。 在实际运用中,表现为3s两两之间的集成,gis、rs的集成,gis、gps的集成。Rs、gps的集成。 3、简述数字城市的框架以及数据共享需要解决的关键数据问题。 功能体系分为3个层次:基础层、专题层、综合层。 基础层包括:城市的地理环境、城市的资源环境、城市的社会经济人文环境。 专题层包括:(1)社会:人口、教育、科技、文化、体育、卫生、公安、司法、劳动、民政(2)经济:规划、房产、国土、供水、供电、供热、供气、供水、工业农业、商业财税收、金融 (基础层再专题化) 综合层:政府的综合决策系统。 技术框架有:全球定位系统、遥感系统、矢量技术、数据的标准化、数据的传输、数据的存储、数据的处理、3s的集成。 关键技术有:计算技术、海量存储于处理技术、数据获取技术、宽带网络技术、库操作技术、空间数据仓库、空间数据融合、元数据、虚拟现实技术。 三、综述 1、为了完成城市道路拓宽改建的分析,需要哪些数据,分析的流程。 答:利用建立缓冲区、拓扑叠加的特征提取,计算一条道路拓宽改建过程中的拆迁指标。(1)明确分析的目的和标准:目的是计算由于道路拓宽而拆迁的建筑物的建筑面积和房产价值,道路拓宽改建的标准是: a)道路从原有的20m拓宽至60m; b)拓宽道路应尽量保持直线; c)部分位于拆迁区内的10层以上的建筑不拆除。 (2)准备进行分析的数据:需要设计两类信息,一类是现状道路图;另一类为分析区域

空间数据与数据质量

第四章空间数据与数据质量 空间数据是对现实世界对象(地理特征)的空间信息和专题属性信息描述,它具有诸如数据量巨大,结构复杂多样、操作是计算密集型的,具有自相关性等特征。空间数据是地理信息系统不可缺少的组成部分,其质量在很大程度上影响和制约着地理信息系统的可用性,为地理信息系统用户提供满足质量要求的空间数据是地理信息系统建设的关键任务之一。 4.1空间数据 4.1.1空间数据的来源 地理信息系统的数据源是指建立地理信息系统数据库所需要的各种类型数据的来源。地理信息系统的数据源是多种多样的,并随系统功能的不同而不同,通常包括以下几种: (1)地图数据:各种类型的地图是GIS最主要的数据源,因为地图是地理数据的传统描述形式,是具有共同参考坐标系统的点、线、面的二维平面形式的表示,内容丰富,图上实体间的空间关系直观,而且实体的类别或属性可以用各种不同的符号加以识别和表示。 (2)遥感数据:遥感数据是GIS中一个极其重要的信息源。通过遥感影象可以快速、准确地获得大面积的、综合的各种专题信息,航天遥感影象还可以取得周期性的资料,这些都为GIS提供了丰富的信息。 (3)测量数据:测量数据主要指使用大地测量、GPS、城市测量、摄影测量和其他一些测量方法直接量测所得到的测量对象的空间位置信息。各种实测数据特别是一些GPS点位数据、地籍测量数据常常是GIS的一个很准确和很现势的资料。(4)国民经济的各种统计数据常常也是GIS的数据源。如人口数量、人口构成、国民生产总值等等。各种文字报告和立法文件在一些管理类的GIS系统中,有很大的应用,如在城市规划管理信息系统中,各种城市管理法规及规划报告在规划管理工作中起着很大的作用。 4.1.2空间数据的基本特征 地理数据一般具有三个基本特征:属性特征(非定位数据),描述空间对象的特性,即是什么,如对象的类别、等级、名称、数量等。空间特征(定位数据):描述空间对象的地理位置以及相互关系,又称几何特征和拓扑特征,前者用经纬度、坐标表示,后者如交通学院与电力学院相邻等。时间特征(时间尺度):指现象或物体随时间的变化,其变化的周期有超短期的、短期的、中期的、长期的

数据质量评测方法与指标体系

中国科学院数据应用环境建设与服务 数据质量评测方法与指标体系 (征求意见稿) 中国科学院数据应用环境建设与服务项目组 2009 年9 月

前言本规范是“中国科学院数据应用环境建设与服务”之标准规范建设成果之一。本规范由中国科学院计算机网络信息中心科学数据中心提出并归口。本规范由中国科学院计算机网络信息中心科学数据中心负责起草。

目录 1 范围.......................................................................................................... 2 规范性引用文件................................................................................................ 3 应用.......................................................................................................... 4 术语.......................................................................................................... 5 数据质量评测制度.............................................................................................. 6 数据质量评测原则.............................................................................................. 6.1 科学性原则 (5) 6.2 客观性原则 (5) 6.3 系统性原则 (5) 6.4 可操作性原则 (6) 6.5 针对性原则 (6) 6.6 引导性原则 (6) 7 数据质量评测一般流程.......................................................................................... 7.1 数据质量需求分析 (7) 7.2 确定评价对象及范围 (7) 7.3 选取数据质量维度及评价指标 (7) 7.4 确定质量测度及其评价方法 (8) 7.5 运用方法进行评价 (8) 7.6 结果分析及评级 (9) 7.7 质量结果及报告 (9) 8 数据质量评价主体的要求........................................................................................ 9 数据质量指标体系............................................................................................... 9.1 数据质量结构 (10) 9.2 主要数据质量指标 (11) 9.2.1 基本层 (12) 9.2.2 准则层 (13) 9.2.3 评价指标选取的基本要求 (16) 9.2.4 评价指标的筛选和权重 (16) 9.2.5 评测指标的冲突处理原则 (17) 10 数据质量评测方法........................................................................................... 10.1 定性方法 (18) 10.1.1 第三方评测法 (19) 10.1.2 用户反馈法 (19) 10.1.3 专家评议法 (20) 10.2 定量方法 (20) 10.2.1 访问量统计 (20) 10.2.2 计算机辅助检查 (21) 10.3 综合方法 (21) 10.3.1 层次分析法 (21) 10.3.2 缺陷扣分法 (26)

相关主题
文本预览
相关文档 最新文档