地理信息公共服务平台数据质量评价体系研究
- 格式:pdf
- 大小:291.17 KB
- 文档页数:4
测绘第35卷第4期2012年8月 l77
地理信息公共服务平台数据质量
评价体系研究
孔令昌 庞小平 曹振宇
(1.四川测绘地理信息局技术监督处,四川成都61 0041: 2.武汉大学资源与环境科学学院,湖北武汉430072;3.四川省基础地理信息中心,四川成都61 0041)
[摘要]本文简要分析了公共平台数据的不同质量特性和要求,介绍了数据质量的概念和质量信息结构及其内
容与要求,对数据质量评价的两种基本方法进行了表述。在此基础上,提出以直接评价法为主来实施地理信息 公共服务平台的数据质量评定,并概要说明开展数据质量评定的基本程序和步骤。 [关键词]地理信息公共平台;基础地理信息;数据质量评价;直接评价法
[中图分类号]P208 [文献标识码]A [文章编号]1674—5019(2012)04—0177—04
Research for the Data Quality Evaluation System of Common Platforrn
of Geographic Information
KONGLing-chang PANGXiao-ping CAOZhen-yu
1 引言
地理信息公共服务平台(以下简称:公共平台) 是依托地理信息数据,通过在线方式满足政府部门、 企事业单位和社会公众等对地理信息空间定位分析 等基本需求,是实现地理空问框架应用服务功能的
数据、软件及其支撑环境的总称。公共平台建设对 于推进地理信息资源共建共享、全面提升信息化条
件下测绘地理信息公共服务能力等具有现实意义。 近几年各地积极开展“数字城市”等公共平台建设, 有些已在政府管理和其他公共领域得到良好应用,
并延伸出卓有成效的管理和服务新模式。 数据是公共平台的核心和基础,质量则是数据 的生命。公共平台要建立起来并发挥作用,首先要 合理确定并控制数据内容和质量。当前公共平台数
据主要有四种:一是基础地理数据,包括DLG、DOM、 DEM、DRG数据;二是面向服务的产品数据,包括地 理实体(基本实体和扩展实体)、影像、地图、地名
地址和三维景观等数据;三是专业部门在业务数据 基础上整合加工并侧重于政府决策管理的专题数 据,如房产信息(房产市场、房产开发项目、房屋产
权等信息)、地籍管理信息(宗地、土地使用权证等 信息)、规划信息(基础规划、规划审批等信息)等; 四是目录与元数据,主要包括编目、标识、内容、 限制、数据说明、发行、范围、空间参考系、继承、
数据质量、产品发行等内容。由于这些信息在平台 建设初期就陆续进入数据库并成为基础资源,而它 们获取时间跨度大、结构类型不一致、更新频次及
统计需求不同,其内容和质量参差不齐,有必要进 行数据质量评定,以确保符合要求。
2数据质量与质量信息结构
2.1质量特性要求 (1)完整性。即具有同一准确度和精度的数据
在特定空间范围内完整的程度,是数据本身要素及 其属性和关系的存在与缺失。 (2)逻辑一致性。主要指同一空间数据库中数 据定义的统一性,即对数据结构、属性及关系的逻 辑规则的符合程度,包括不同尺度纵向、同一尺度
横向上和地形要素之间关系上的一致性。 (3)时间准确度(现势性)。即数据本身所代 表的时间信息的正确性。 (4)位置准确度。主要指数据的地理位置精度,
包括数学基础、平面、高程、接边、形状再现(形 状保真度)、像元定位(图像分辨率)等精度。 (5)属性准确度。主要指数据所载负的地理信 息的正确性及描述的详细程度,包括要素分类与代
码的正确性、要素属性值的准确性及其名称的正确 性等。 2.2质量信息结构 数据质量信息通过数据质量元素描述,包括数 据质量量化元素和数据质量非量化元素。数据质量
量化元素又可细化为数据质量量化子元素。
2.2.1数据质量量化元素及其子元素 l78 测绘第35卷第4期2012年8月
表1 量化元素及子元素分解表
量化元素 量化子元素
完整性 多余、遗漏 概念一致性、值域一致性、格式一致性、 逻辑一致性 拓扑一致性 绝对准确度、相对准确度、格网数据位置 位置准确度 准确度 时间准确度 时间度量准确度、时间一致性、有效性 分类正确性、非量化属性正确性、量化属 属性准确度 性准确度
2.2.2数据质量非量化元素
表2非量化元素分类及其说明
非量化元素 适用说明
目的 建立数据集的原因和数据集预期用途 数据生产者或其他不同数据用户对数据集 使用情况 的应用。 数据集的历史:从采集、获取、编辑、派 数据志 生直到其当前状况的生命周期。
3质量评价指标体系
3.1量化质量信息的确定 第一步:确定数据质量量化元素。可根据需要
命名和定义新的量化元素,并作为数据集质量信息 的组成部分。 第二步:确定数据质量量化子元素。合理确定 每个适用的量化元素的所有适用的量化子元素,并
可以命名和定义新的量化子元素。 第三步:使用量化子元素描述符。确定多重数 据质量范围,完整描述质量信息。 3.2非量化质量信息的确定
确定适用的数据质量非量化元素,包括目的、 使用情况、数据志等。量化质量信息和非量化质量 信息均应作为对应数据的元数据予以记录,记录内 容视一定的数据质量元素、子元素及其评定项结果 而定。
4质量评价模型
数据质量评价基本方法主要有直接评价法和间 接评价法,如图1所示。
(1)直接评价法。通过将与内部和/或外部参 照信息对比确定数据质量,又分内部和外部评价法。 (2)间接评价法。一种基于外部知识的数据集
质量评价方法,利用数据志等数据信息来推断或评 估数据质量,仅在直接评价法不能使用时使用。
(3)数据质量评价的主要程序和步骤,如图2 所示。 田园
图1质量评价方法分类结构图
L 厂 产品规范或 l评价的数据集I l 用户要求
l 第1步 j f L 确定适用的数据质量量化元 I 素、子元素和数据质量范围 第2步 l 确定数据质量的度量方法 第3步 ’ 一致性质量级别
懈和应用数据质量评价方
i弟判定数据质量结果 f 第5步 { I: 1 判定一翠性 IJ
l 记录数据质量结果 记录数据质量结果 (量化的) (合格/不合格)
’ 图2数据质量评价及记录过程
在第四步和第五步完成后,均应分别记录数据
质量评价结果。其中对数据质量的判定结果应有量 化描述,对数据质量一致性的质量判定则表述为合
格或不合格。
5质量评价实例模拟
这里假定以公共平台数据库中的城市道路数据
为评价对象,概要模拟其质量评价程序和步骤。道 路数据空间形态用“线一结点”表示,其中线表示路
段,结点表示路口。路段的属性数据包括路名、要
素代码、等级、类型、长度、宽度、车道数量等, 路口的属性数据包括路口名称、要素代码、路口类
型等。道路附属物则根据其空间特性分别用点(如 里程碑、路标等)、线(如道路边线、路堤等)和面
(收费站、服务区等)表示。
(t)确定质量元素、子元素和质量范围,如表 3所示。
(2)确定数据质量度量(方法)。对不同数据
质量元素分别确定。如对道路数据完整性,因已明 测绘第35卷第4期2012年8月
因此选择外部直接数据质量评价法。第二步:实施 评价方法。由于道路数量众多、分布密集、名称和
长度、宽度等各不同,应采用分层(分级)抽样检 验。将整个道路信息数据作为批成果,按不同级别、 区域、宽度等分层,分别按其在批成果中所占比例 确定样本量,并提取道路数据有关资料,对所有数 据及资料进行检验评价。
(4)开展数据质量评价。第一步:确定检查项。 检查项是质量子元素的基本组成部分,如表4所示。 第二步:质量指标评价。主要有三种方法:a.数据
比对。与技术文件规定的指标要求、高精度数据、 专题数据、官方发布和共享的资料数据等比对,确 定是否错漏或获取被检数据与参考数据的差值;b. 内部检查。检查相应数据的内在特性,主要是矢量
和影像数据的室内检查;c.野外实测。对不易认定 或有歧义的数据,通过野外实测验证,确定其差值 或正误,并注意数据时间的一致性。 表3质量范围、质量元素及其子元素对应表
数据质量范围 数据质量元素 数据质量子元素
完整性 多余、遗漏
概念一致性、格式一致性、 逻辑一致性 拓扑一致性 位置准确度 平面准确度、高程准确度 主城区内的所 时间准确度 现势性 有道路 属性精度 分类正确性(量化和非量 化)、属性正确性 几何表达、地理形态、符 表征质量 号、注记、整饰 附件质量 元数据、文档
确质量子元素为多余和遗漏,则可确定其质量度量 为一致(完整)和错误(多余或遗漏)的数目。
(3)选择数据质量评价方法。第一步:确定评 价方法。由于有专门道路资料可以获取,如城区干 道、支路、街巷路的名称、宽度等及道路附属设施,
表4质量检查项表
质量元素 质量子元素 评定项:评定内容/标准
多余 要素多余:全部道路数据多余的个数(包括不同类型道路,下同);要素遗漏: 完整性 遗漏 所有遗漏的数据个数,如路段名称。 属性项:定义是否符合要求,如道路名称、级别、长度;数据集:对道路数据层 概念一致性 的定义是否符合要求。 格式一致性 数据归档:是否符合要求;数据格式:格式是否符合要求;数据文件:完整性与 可读性;文件命名:是否符合要求。 逻辑一致性 拓扑关系:是否符合要求;重复:重复个数,如相同路段的路边线:重合:不重 合个数,如相邻路段共用边线;相接:未相接的错误个数,如悬挂点;连续:不 拓扑一致性 连续的错误个数,如同一路段中的伪节点;闭合:未正确闭合路段数;打断:未 打断的错误个数,如应打断的相交路段。 平面位置中误差:道路中心点或标识点平面位置中误差;控制点坐标:平面坐标处 理不符合要求的个数;几何位置:道路边线或中心线几何位置偏移超限的个数; 平面精度 矢量接边:几何位置接边错误个数;影像接边:同一道路在影像上的同名地物点 位置精度 位置中误差。 等高距:不同路段或同路段不同位置等高距是否符合要求;等高线/高程注记点高 高程精度 程中误差:路段上等高线/高程注记点高程中误差;控制点高程:高程值处理不符合要 求的个数。 时间准确度 现势性 原始资料:资料现势性;入库数据:当前道路数据的现势性。 分类正确性 属性精度 代码值:数据分类代码值错漏的个数;属性值:属性值错漏的个数。 属性正确性
几何类型:点、线、面表达错误的个数;几何异常:几何图形异常的个数,如是 几何表达 否依比例尺、道路穿越居民地或粘连、自相交等不合理线。 要素取舍:错误个数(不同比例尺显示下);图形概括:图形概括错误的个数, 地理形态 如立交桥、中心干道局部特征细节丢失、变形;要素关系:要素关系错误的个数; 表征质量 方向特征:要素方向特征错误的个数。 符号规格:道路及其附属设施符号规格错误的个数,如图形、颜色、尺寸;符号 符号 配置:符号配置不合理的个数。 注记规格:主机规格错误的个数,如字体、字大;注记内容:注记内容错漏的个 注记 数;注记配置:注记配置不合理的个数。 整饰 图面整饰:用户显示层图面整体。 元数据 数据项错漏:错漏个数;内容错漏:各项内容错漏个数。 附件质量 文档 完整性:道路及相关文档资料完整性;正确性:文档资料的正确性。