当前位置:文档之家› 地理空间数据不确定性与研究报告进展

地理空间数据不确定性与研究报告进展

地理空间数据不确定性与研究报告进展
地理空间数据不确定性与研究报告进展

地理空间数据不确定性与研究进展

王春,汤国安,赵牡丹,王雷,张婷

<西北大学城市与资源学系,陕西西安,710069)

摘要:在介绍空间数据不确定性概念、研究意义与常用的研究理论与方法的基础上,回顾了地理空间数据不确定性研究的历程,对地理空间数据不确定性研究的现状、所取得的主要成果问题进行了总结。分析了当前空间数据不确定性研究中所存在的基本问题:研究的内容与研究方法缺乏整体性与总览性,研究的对象与应用目标还不够明确。建议在今后的研究中应着重于:细化地理空间数据不确定性的内容;强化地理空间数据应用的不确定性研究;研究方法上注重多种理论和方法综合使用,以建立不确定性数据处理模型为其出发点和基础。

关键词:地理空间数据;不确定性;研究进展

中图分类号:TP391文献标识码:A文章编号:1000-274X(2004>0078-08

地理空间数据建设是国家空间数据基础设施

1误差与不确定性

误差通常被定义为观测数据与其真值之间的差异。对于一组数据的误差来说,它们可能是随机误差或系统误差,系统误差在其数值大小和符号上呈现出一定的规律,而随机误差的数值大小或符号呈现着随机性,但它们之间也有其统计规律。此外,在一组数据的误差中,还可能出现少量的异常值,或称之为粗

差。误差是地理空间数据的固然属性,因为:①变化和模糊是自然界的两个固有属性,它们直接影响着GIS信息的准确表达;②由于观测条件的限制,利用测量设备进行的任何测量都不可避免地要引入误差;

③测量结果等描述数据的模型只能是客观实体的一种近似和抽象。需要说明的是,通常情况下误差的大小并不能直接衡量地理空间数据质量的优劣,对于只含有随机误差的数据,人们一般用精度的概念来衡量。即:精度高是指小误差出现的概率大,大误差出现的概率小;精度低是指小误差出现的概率小,大误差出现的概率大,数据的精度反映了数据误差的离散程度。

对于数据的不确定性,早在20世纪70年代初的电子测量和计量学的文献中就已经出现。当时不确定性的实质其实仍主要指数据的误差,不确定性和误差常被任意选用,较多的还是使用误差这一简洁的概念。随着现代测量技术的迅速发展,以及地理空间数据信息来源的多源化,考虑误差的范围也从数字上扩大到概念上,虽然以数值误差为主,但也要顾及不能用数值来度量的误差。这样,传统的误差理论已远远不能满足需要,数据不确定性的研究逐渐得到重视。时至今日,人们趋向于认为,数据不确定性

2研究的基础理论

地理空间数据误差来源的复杂性以及地理信息很难重复采样,使得地理空间数据不确定性既有空间位置的不确定性和空间属性数据的不确定性,还具有与其空间位置相关的结构性问题,同时尺度也是不确定性研究要考虑的因素。不确定性问题是非线性复杂问题。因此,除了经典误差理论、概率论、数理统计仍是研究该问题的理论基础外,还需要寻找证据理论、模糊数学、空间统计学、熵理论、云理论、信息论、人工智能等非线性科学理论的支持,随机几何学、分形几何学、神经网络、遥感信息模型等基于边缘学科的不确定性分析处理方法也逐渐受到重视[3~12]。

2.1基于概率论及数理统计的不确定性研究

这方面的理论主要有概率论、证据理论、空间统计学。概率论主要用于处理由于随机误差而产生的不确定性。在概率论中,不确定性被描述成在给定某些观测值的条件下某一假设成真的条件概率。如在经典的测量理论中,点位误差的分布可看作二维正态分布或圆正态分布,一维点的不确定性指标用均方差表示,用点位中误差和误差椭圆代表平面点的不确定性模型。概率论可以使用相当复杂的联合概率研究地理

空间数据不确定性问题,但此时它需要大量的概率观测值,并且概率论本身不提供其可靠性的度量指标,很多情况下人们很难找到一个概率值质量的描述指标。

证据理论也称Dempster-Shafer理论,是对传统概率论的一个扩展。该理论的一个基本策略是把一个证据集合分解成一系列不相关的证据集合,在这些证据集合中分别作判断,最后利用Dempster结合规则将这些判断结合起来。在证据理论中,样本为真的概率量测值由满足这一假设的可获得的证据的概率来代替,它是基于可信度和可能函数所确定的一个区间。证据理论是概率论的更一般性表达,证据理论可以利用结合规则和两两比较的方法分析不确定性。其最大弱点在于,不能就矛盾证据或不同假设之间具有的微弱支持问题提出解决办法。

空间统计较之非空间统计是一个更一般的理论,它可以被认为是对非空间变量的一个空间扩展,而时-空统计则是更一般的扩展。空间统计学利用有序的模型描述无序事件,根据不确定性和有限信息分析、评价、预测或模拟空间趋势及其相互关系。在地理空间数据不确定的研究中,空间统计学运用空间自协方差结构、变异函数或与其相关的自协变量,或局部变量值的相似程度来描述空间属性的不确定性,改善GIS对随机过程的处理,估计模拟决策分析的不确定性范围,分析空间模型的误差传播规律,为分析连续域的空间相关性提供理论依据和量化工具。

2.2基于模糊集合、粗集理论的不确定性研究

模糊数学是由Zadeh(1965>提出的由计算机处理不精确概率的一种理论。它以模糊集合为基础,用模糊可行区间表示数据非统计不确定度。模糊数学的优点在于其处理不确定性的能力,如土地分类中土壤渐变区域的处理、基于自然语言的空间查询等。它的一个弱点是,没有严格证明的过程,它所处理的对象是可能性而不是概率。因此,模糊数学常用于处理不确定性中的不准确性而非随机性,如两线状地物连接处的不确定性、场模型中确定域与模糊域目标间拓扑空间关系的描述等。

粗集理论中,粗集(roughsets>由上近似集和下近似集组成,适于处理不精确、不确定和不完全的数据。粗集理论从集合论的观点出发,在给定论域中以知识足够与否作为实体分类的标准,并给出划分类型的精度。粗集理论不排斥不确定性,力求按照实体的原形来研究实体,非常适合用于不确定影像分类、模糊边界划分、属性不确定性及评定属性的绝对不确定性和相对不确定性、简化属性依赖和属性表等。2.3 基于云理论、信息熵的不确定性研究

云理论是一个分析不确定信息的新理论,包括云模型、不确定性推理和云变换三部分。云在空间由系列云滴组成,具有期望值、熵和超熵3个数字特征。期望值完全是一个定性的概念;熵是定性概念模糊度的度量,其值越大,概念越模糊;超熵反映云滴的离散程度,其值越大,隶属的随机离散度越大。以云理论为基础提出了云方法,它用期望值、熵和超熵这3个数字特征描述整个云团,实现定性和定量的转换,适用于空间关联规则的挖掘、空间数据库的不确定性查询及地理空间数据中模糊性和随机性为一体的属性不确定性问题。

熵是信息论中的一个基本概念,是用以度量信息源不确定性的惟一量,非常适合用来对测量结果的不

确定度进行评定。利用熵理论评定测量数据的不确定性方法主要有2种:①直接根据样本的信息熵计算测量值的不确定度;②由最大偏方法确定出样本的概率分布,再根据此概率分布计算测量结果的估计及其不确定度。其优点是在小样本容量下能获得可靠的评定结果。

2.4基于多学科融合模型的不确定性研究

使用多学科融合模型日益成为分析处理地理空间数据不确定性的有效手段。如:目标模型、域模型是经典的GIS数据处理模型;“ε-带”模型已成为研究线不确定性问题的基础;神经网络模型的建模方法不需要对象的先验知识,不管对象模型是线性的或非线性的均根据测量数据直接建模,避开了空间数据不确定度评定的数学模型构建难题,特别适用于空间数据的不确定度评定问题;遥感信息模型可以直接对图像进行计算,非常适合对场模型地物的不确定性进行计算和分析,但该方法有待进一步的验证和改善。除此之外,基于复制、交叉和变异的遗传算法、基于灰色分析的灰色系统、基于信息无序互动的混沌理论等等,均具有各自独特的优势,有望进一步促进不确定性研究的进展。当然,这些理论和方法不是孤立的,在实际分析处理不确定性时,常常要予以综合应用。

3研究现状与进展

早在20世纪60~70年代,一些学者采用数理统计学原理对地理空间数据的不确定性展开分析。1960年,Mailing等首先采用统计学分析制图问题;1969年,Frolov建立拓扑匹配误差公式,讨论空间操作运算的精度;1975年,Switzer提出一种估计从矢量到栅格数据转换精度的方法,MacDougall用实例说明了不考虑空间数据误差所带来的严重后果;1978年,Michael Goodchild给出了检验多边形叠置过程中产生的无意义多边形的统计量运算。到了80年代,除了继续采用统计学原理进行研究外,开始进行影像分类和判读过程中的误差分析。具有代表意义主要有:1982年,Chrisman引入著名的“ε-误差带”,以后被许多学者发展;1983年,Congalto和Mead将Kappa系数引入遥感数据处理,来评判遥感数据的解译结果与验证数据的一致性;1986年,Burrough、Goodchild和Gopal(1989>对空间数据误差的重要研究成果进行了系统总结。

90年代后,随着GIS技术在国民经济各个方面广泛的应用,国内外对于地理空间数据的不确定性问题非常重视。在国际空间数据处理会议(ISDH>、欧洲地理信息系统会议(EGIS>、美国地理信息系统年会(AGIS>、自然资源数据库空间数据不确定性等国际会议中,都设立了关于空间数据不确定性专题讨论组;美国的Kansas大学、纽约州立大学Buffalo分校、Washington大学、麻省理工学院

在位置不确定性、属性不确定性、不确定性的可视化表示,也有部分学者在时域不确定性、数据不完整与逻辑不一致性、不确定性的传播等方面进行了非常有意义的探索,得到一批很有应用价值的研究成果。

初期,位置不确定性的研究主要集中在对线元和面元不确定性模型的研究,其研究工作主要体现在对Chrisman(1982>提出的“ε-误差带”的扩展与改进以及置信域模型。刘大杰等利用“ε-误差带”模型,对GIS 中点、直线、圆曲线、一般曲线、面的不确定性进行了研究,建立了误差模型,导出了误差带的数学方程,分析了误差带的形状特征并加以可视化表达[6]。同时,很多学者运用模糊集合理论和概率论对此进行了修正和发展,进而产生了“E-带”、“S-带”和“G-带”等模型[13~19]。Tveite等用缓冲区覆盖统计(BOS>方法,分析线相邻控制点间的距离、线弯曲变化的频率分形特征,得到线的精度评价指标,这种方法与“ε-带”有相似之处,但是避免了重复抽样的困难[17]。近年来,人们将直线的位置不确定模型扩展到了曲线的位置不确定性模型,从具有明确空间范围的空间实体的不确定性研究,转向模糊目标的空间不确定的研究,以及基于信息熵、场模型的空间位置不确定性研究[20,21]。

在早期的空间数据不确定性处理中,通常假设已经检核了属性数据,并把属性不确定性和位置不确定性隔离讨论。这造成地理空间数据不确定性研究的重点主要基于分析位置的不确定性,而对属性数据不确定性的研究相对较少。随着GIS研究与应用的不断深入,目前属性不确定性研究异常活跃,人们引入一些新的数学理论,如模糊数学、粗集理论、证据理论和云理论等,来研究不能精确描述的属性不确定性。主要的研究成果有:基于高斯分布的分类数据不确定性自回归模型;基于知识推理的遥感数据解译不确定性模型;数据分类和边界划分不确定性模糊数学模型;从区域分类不确定性、边界定位误差和区域内部定量属性数据的抽样误差出发,综合进行属性数据不确定性的度量和传播分析;从遥感数据中提取DEM的不确定性;用模糊数学方法研究边界分类和连续变量的不对称边界模型等[2~8,22]。

位置不确定性与属性不确定性在很多情况下往往是紧密相关、相互影响的[23]。对此,史文中<1998)讨论了地理信息系统与遥感集成中位置与属性结合的不确定性问题,提出了“S-带”模型[7]。黄幼才等对前人的研究成果进行了比较详细的介绍[5]。

不确定性的可视化研究是进入90年代以后随着计算机技术的发展而兴起的,目前主要采用灰度方法、彩色加三维的方法,通过采用直观的二维、三维图形或其他灵活的形式,把抽象的空间数据不确定性的大小及分布转换为人的视觉可以直接感受的具体图形,以利于用户对数据质量的认识。这方面的研究主要有空间矢量数据位置不确定性的可视化表示、影像分类不确定性的可视化表示、GIS应用系统中不确定性的可视化等[7,24]。

不确定性的传播是不确定性研究的难关所在。目前对该问题的研究非常薄弱,现有的研究主要集中在地图叠置及知识推理中的不确定性传播,Manfred Ehlers<2000)等研究了地理信息系统与遥感集成过程中地理空间的不同概念模型转换时的不确定性模型[16]。同样,对于时域不确定性、数据不完整性及逻辑不一致性的研究目前还处于初期试探阶段。刘文宝等用模糊集和粗集理论对模糊的、不精确的地理区域间的不确定性拓扑关系进行了描述[24],张保钢提出了空间数据时域不确定性的现势度表示的概念和方法[25],Suzana Dragicevic等采用模糊集理论对连续快照之间的空间变化进行了模拟。

特别值得注意的是,数字高程模型

4 结论与讨论

空间数据不确定性的研究,涉及测绘学、数学、地理学、计算机科学、地理信息科学等多门学科,是地学界的重大理论问题。对评价空间数据质量、确定GIS数据录用标准、改善GIS算法、提高GIS分析结果的可信度、完善GIS基础理论和技术等有着重要的意义。目前,对空间数据不确定性的研究方兴未艾,在诸多领域取得了突破性进展,基本上构建了空间数据不确定性研究的理论与方法体系。

4.1目前所存在的主要问题

1>研究的内容与研究方法缺乏整体性与总览性。由于地理空间数据来源的复杂性和综合性,引起地理空间数据不确定性的原因是多种多样的,是多种因素综合作用的结果,有些是已知的,有些是未知的,各种不确定性之间也常常是相互联系、相互影响的,各种不确定性之间存在很大的相关性。但是,目前大多数研究基本上基于一个方面或一个特定的内容孤立进行,仅适合特定的条件,在一定程度上影响了研究的深入与应用效果。

2>研究的对象与应用目标还不够明确。目前对地理空间数据不确定的研究,大多数都是针对数据本身进行的,很少对地理空间数据的实际应用<应用范围、应用结果等)的不确定性展开研究。在GIS中,采集、收集、存储和查询地理空间数据只是完成应用资料的管理,而实现特定的应用目的,输出可靠的结果,则是GIS的核心功能和主要目的。因此,对地理空间数据的应用范围,以及在规定的应用范围内将产生怎样的应用结果进行不确定性评定,远比只研究地理空间数据本身的不确定性更为重要。

4.2 对今后研究的建议

1>细化地理空间数据不确定性的内容,完善不确定性问题框架体系。注意选取一些典型问题进行深入分析,逐步建立研究地理空间数据不确定性的理论体系、研究方法体系,以及应用框架体系。

2>研究方法上注重多种理论和方法综合使用,以建立不确定性数据处理模型为其出发点和基础。在建立模型时应顾及各种不确定性之间的相关性及数据如何抽样等问题,把地理空间数据不确定性研究与地理空间数据挖掘联系起来,建立基于知识的不确定性分析模型,从而使建立的不确定性模型具有更好的实用性与可操作性。

3>强化地理空间数据应用的不确定性研究。即加强地理空间数据的应用范围,以及在规定的应用范围

内所产生的应用结果的不确定性研究。同时,研究GIS空间分析与各类操作结果不确定性在GIS软件平台上的发布问题,实现不确定性理论研究成果的实用化。

4>地理空间数据质量控制的根本在于提高测量数据的精确性和对事物描述的抽象模型的科学性。因此,应该加强地理空间数据的元数据、不确定性的传播和可视化、数据完整性和逻辑一致性的研究,从数据集建立开始就建立起数据质量描述的体系。

参考文献:

[1]GOODCHILD M F,GOPALS. The Accuracy of Spatial Database[M]. NewYork:Taylor and francis,1989,

107-113.

[2]ABLER RF. The national science foundation center for geographic information and analysis[J]. International

Journal of Geographic Information Systems,1987,<1):303-326.

[3]陶本藻. GIS质量控制中不确定性理论[J]. 测绘学院学报,2002,17(4>:235-238

[4]刘文宝. GIS空间数据的不确定性理论[D]. 武汉:武汉大学,1995.

[5]黄幼才,刘文宝,李宗华,等. GIS空间数据误差分析与处理[M]. 武汉:中国地质大学出版社,1995.7-13.

[6]刘大杰,史文中,童小花,等. GIS空间数据精度分析与质量控制[M]. 上海:科学技术文献出版社,

1999.109-149.

[7]史文中. 空间数据误差处理的理论与方法[M]. 北京:科学出版社,1998.23-147.

[8]刘大杰,刘春. GIS空间数据不确定性与质量控制的研究现状[J]. 测绘工程,2001,10(1>:6-10.

[9]邬伦,丁海龙,高振纪,等.GIS不确定性框架体系与数据不确定性研究方法[J]. 地理学与国土研究

2002,18(4>:1-4.

[10]GOODCHILD M F,SUN G,Y ANG S. Development and test of an error model for categorical data[J].

Internatioal Journal of Geographic Systems,1992,6(2>:87-104.

[11]CHRISMAN NR. Atheory of cartographic error and it's measurement in digital databases[J]. Auto-Carto,

1982,<5):59-168.

[12]WALTER V,FRITSCH D. Matching spatial data sets: statistical approach [J]. Int J Geographical Information

Science,1999,13(5>:445-452.

[13]CASPARY W,SCHEURING R. Positional accuracy in spatial databases[J]. Comput, Environand

UrbanSystems,1993,17:103-110.

[14]DUTTON G.. Handling positional uncertainty in spatial databases[J]. In:Proceedings of 5th International

Symposium on Spatial Data Handling,1992.460-469.

[15]HUNTER G J,BEARD K. Understanding error in spatial database[J]. The Australian Surveyor,1992,37(2>:11-19.

[16]MARK G,MANFRED E.A framwork for the modelling of uncertainty between remote sensing and

geograohic information systems[J].ISPKS Journal of Photogrammetry & Remote Sensing,2000,55:176-188.

[17]TVEITE H,LANGASS S. An accuracy assessment method of geographical line data sets based on

buffering[J]. Geo-graphical Information Science,1999,13(1>:27-30.

[18]蓝悦明,陶本藻. GIS中线元不确定性的综合量化[J]. 武汉大学学报(信息科学版>,2003,28(5>:559-561.

[19]史文中,童小华,刘大杰. GIS中一般曲线的不确定性模型[J]. 测绘学报,2000,29(1>:52-58.

[20]李大军,龚键雅,谢刚生,等. 熵理论在确定点位不确定性指标上的应用[J]. 测绘学院学报,2002,

19(4>:243-246.

[21]李大军. 基于信息论的空间数据位置不确定性模型的研究[D]. 武汉:武汉大学,2003.

[22]史文中,王树良. GIS中属性不确定性的处理方法及其发展[J]. 遥感学报,2002,6(5>:393-400.

[23]戴洪磊,夏宗国,黄杏元. GIS中衡量位置数据不确定性的可视化度量指标族探讨[J]. 中国图像图形学

:165-169.

[24]刘文宝,邓敏. GIS图上地理区域空间不确定性的分析[J]. 遥感学报,2002,6(1>:46-49.

[25]张保钢. 空间数据现势度的概念[J]. 测绘信息工程,2000,(2>:13-14.

[26]李志林,朱庆. 数字高程模型[M]. 武汉:武汉大学出版社,2001.

[27]TANG Guo-an, A Research on the Accuracy of Digital Elevation Models[M]. New York;Beijing:Science

Press Beijing,2000.

[28]汤国安. DEM地形描述误差空间结构分析[J]. 西北大学学报(自然科学版>,2000,30(4>:349-352.

[29]汤国安,龚建雅,陈正江,等. 数字高程模型地形描述精度量化模拟研究[J]. 测绘学报,2001,30(4>:

361-365.

[30]汤国安,赵牡丹,李天文,等. DEM提取黄土高原地面坡度的不确定性[J]. 地理学报,2003,58(11>:

824-830.

<编辑张银玲)

Review on spatial data uncertainty and its research

WANG Chun,TANG Guo-an,ZHAO Mu-dan,

WANG Lei,ZHANG Ting

Abstract:Based on the conception, significance, and the methodology of spatial data uncertainty, research course of geo-spatial data uncertainty is reviewed, while the, research situation and achievement of geo-spatial data uncertainty are summarized. Finally, some major problems existing in the research are probed into. One is the research contents and methods are lack of holism, the other is the research objects and applying goals are not clear. So, further research should lay stress on detailing the content of geo-spatial data uncertainty and strengthening the uncertainty research of geo-spatial data applying. As to the methods, we should pay more attention to integrative utilization of different theories and methods and should take the establishing of data uncertainty process model as the research base.

Key words: geographical spatial data,;uncertainty

作者简介

王春,男,宁夏固原人,生于1975年1月。1997年6月毕业于原武汉测绘科

技大学<现武汉大学),获测量工程工学学士学位。1997年7月-2002年8月在国家测绘局测绘标准化研究所工作,主要从事测绘标准的制修订与GIS应用开发技术研究。2002年9月进入西北大学城市与资源学系攻读地图学与地理信息系统专业硕士学位,主要从事地理空间数据不确定性及DEM数字地形分析研究。

不确定性数据管理的要求与挑战

专题 6无所不在 近几十年来,数据管理技术发展迅猛,在 国民经济建设中起到了突出作用。以Oracle、 DB2、SQL Server等为代表的大型关系数据 库管理系统(Relational Database Management System,RDBMS)更是诸多大型信息管理系 统、客户关系管理软件不可或缺的核心部分。 同时,以可扩展标记语言(Extensible Mar k up Language,XML)为代表的半结构化数据管理 技术也在数据交换和缺乏严格结构的数据管理 方面占据一席之地。上述技术均对数据质量、 待处理数据的准确性要求非常高。当原始数据 的质量不高时,需要先经过预处理过程提升数 据质量。以部门人事管理系统为例,员工的个 人资料、薪酬待遇和日常考核等信息必须准 确。但在诸如经济、军事和电信等领域,数据 的不确定性普遍存在,其存在性未知而且各属 性值存在误差。尽管数据预处理能够提升原始 数据集合的质量,但也可能会丧失原始数据集 合的部分性质,导致无法返回高质量的查询结 果[1]。典型的应用背景如下。 传感器网络与射频识别电子标签 传感器网络(Sensor Networ k)[2]与无线 射频识别(Radio Frequency Identification, RFID)[3]是两类新兴的数据收集和传输技术, 在工业、军事等领域中有着重要应用。传感器 网络中分布着众多低成本的传感器节点,相 互之间以无线网络方式通讯,可用来分析处理 数据;无线射频识别利用它的阅读器以非接 触方式读取附近的无线射频识别标签(RFID tag),改变了传统的基于条形码的识别方式。 困扰这两类应用的难题就是数据质量问题。传 感器节点体积小、功耗低、主要使用低成本电 子元器件,因而采集到的数据精度不高;在实 用应用中,无线射频识别阅读器的误读率高达 30%~40%[4]。另外,复杂多变的工作环境也 会降低原始数据的质量。在无线网络环境中, 数据传输的准确性受带宽、传输延时、能量等 因素影响,并不稳定。当查询任务需同时考虑 来自多个传感器或无线射频识别阅读器的数据 时,数据可能不一致,从而增加了数据处理的 难度。 互联网数据 互联网上的信息资源极为丰富,而且这些 信息一直在不断地膨胀,乃至于有人将互联网 称为史上最大规模的数据库。根据2009年1月 中国互联网信息中心(China Internet Networ k Information Center,CNNIC)的调查报告,截 至2008年底,中国网站总数为287.8万个,全 国网页总数约为160.9亿,较2007年增长90%, 网页字数为460,217,386,099KB。但是互联网数 据的质量却不尽如人意。作为一个典型的分散 管理系统,互联网中并不存在一个统一的信息不确定性数据管理的 要求与挑战 李建中1于戈2周傲英3 1哈尔滨工业大学 2东北大学 3华东师范大学 关键词:不确定性数据可能世界模型

空间不确定性研究综述

空间不确定性研究综述 摘要:介绍了空间不确定性的概念,对空间不确定性的研究内容进行阐述说明并归纳总结其研究方法,对不确定性研究的发展趋势进行分析。 关键词:空间数据;不确定性;GIS;研究 1 空间不确定性问题概述 空间数据质量的不确定性研究伴随着GIS 的问世而开始,由于人类测量与表达能力的局限性,描述数据的模型只能是对客观实体的一种近似,此外各种空间操作、处理等又会引入新的误差和不确定性,可以说误差的存在是各类观测与分析数据的基本特征。这往往导致空间特征和空间过程很难被准确确定,从而直接关系到对GIS产品的质量控制,影响了空间数据的反演、多尺度和多角度数据分析和应用建模的效果,影响决策结果的质量。因此,在GIS初步形成和产品化时,就提出了空间数据的不确定性问题,且被国际上列为地理信息科学界重大基础理论研究课题之一。 在不确定性理论提出的早期,不确定性与误差是近义词,二者在多数情况下可以相互通用。误差指统计意义下的偏差或错误,而数据不确定性主要指数据“真实值”不能被肯定的程度。从这个意义看,数据不确定性可以看作是一种更广义与抽象的误差,它既包含随机误差,也包含系统误差和粗差;既包含可度量的误差,又包含不可度量的误差以及数值上和概念上的误差。 不确定性可划分为四类,分别是随机性、模糊性、未确定性和灰色性。随机性的特点是可重复观察,在观察之前知道所有可能的结果,但不知道到底哪一种结果会出现。模糊性是指事物的概念本身是模糊的,即一个对象是否符合这个概念难以确定。就像“一粒”和“一堆”是有区别的两个概念,它们的区别是渐变的,两者之间并不存在明确的界限,这种不确定性就是模糊性。未确定性是指纯主观上的、认识上的不确定性。灰色性是指由于事物的复杂性和噪声干扰,人们只能把握部分信息或信息的大致范围,而不知其全部信息或确切的信息量。 2 不确定性的研究内容 空间数据不确定性的产生来源十分复杂,空间对象本身可能具有不稳定性,在空间数据的获取、存储、传输、分析等过程中会引入更多复杂的不确定性。如在数据获取过程中,仪器精度限制、测量方案完善程度、环境的复杂性、观测员的能力水平、空间分析方法与模型表达的多样性等均会造成空间数据的不确定性。 根据实际应用中的需要,对地理空间数据不确定性的研究又可细分为:位置不确定性、属性不确定性、时域不确定性、逻辑一致性、数据完整性、数据不确定性的传播以及不确定性的可视化表示等[1]。地理空间数据不确定性研究的核心就是建立一套不确定性分析和处理的理论体系和方法体系。 2.1位置不确定性 位置不确定性指表示空间实体的真实位置与实际位置之间的差别,空间实体的位置通常以二维或三维坐标表示,相应的,位置不确定性常用坐标的精度来表示。近年来,空间数据位置不确定性成了研究热点,主要集中在数据源不确定性

校园基础地理空间数据库建设设计方案

校园基础地理空间数据库建设设计方案 遥感1503班第10组 (杨森泉张晨欣杨剑钢熊倩倩) 测绘地理信息技术专业 昆明冶金高等专科学校测绘学院 2017年5月

一.数据来源 二. 目的 三 .任务 四. 任务范围 五 .任务分配与计划六.小组任务分配七. E-R模型设计八.关系模式九.属性结构表十.编码方案

一.数据来源 原始数据为大二上学期期末实训数字测图成果(即DWG格式的校园地形图) 导入GIS 软件数据则为修改过的校园地形图 二.目的 把现实世界中有一定范围内存在着的应用数据抽象成一个数据库的具体结构的过程。空间数据库设计要满足用户需求,具有良好的数据库性能,准确模拟现实世界,能够被某个数据库管理系统接受。

三.任务 任务包括三个方面:数据结构、数据操作、完整性约束 具体为: ①静态特征设计——结构特性,包括概念结构设计和逻辑结构设计; ②动态特性设计——数据库的行为特性,设计查询、静态事务处理等应用程序; ③物理设计,设计数据库的存储模式和存储方式。 主要步骤:需求分析→概念设计→逻辑设计→物理设计 原则:①尽量减少空间数据存储冗余;②提供稳定的空间数据结构,在用户的需要改变时,数据结构能够做出相应的变化;③满足用户对空间数据及时访问的需求,高校提供用户所需的空间数据查询结果;④在空间元素间为耻复杂的联系,反应空间数据的复杂性;⑤支持多种决策需要,具有较强的应用适应性。 四、任务范围 空间数据库实现的步骤、建库的前期准备工作内容、建库流程 步骤:①建立实际的空间数据库结构;②装入试验性数据测试应用程序;③装入实际空间数据,建立实际运行的空间数据库。 前期准备工作内容:①数据源的选择;②数据采集存储原则;③建库的数据准备;④数据库入库的组织管理。 建库流程:①首先必须确定数字化的方法及工具;②准备数字化原图,并掌握该图的投影、比例尺、网格等空间信息;③按照分层要求进行

第三章 空间数据采集与处理练习资料

一、单选题 1、对于离散空间最佳的内插方法 是: A.整体内插法 B.局部内插法 C.移动拟合法 D.邻近元法 2、下列能进行地图数字化的设备 是: A.打印机 B.手扶跟踪数字化仪 C.主 机 D.硬盘 3、有关数据处理的叙述错误的 是: A.数据处理是实现空间数据有序化的必要过程 B.数据处理是检验数据质量的关键环节 C.数据处理是实现数据共享的关键步骤 D.数据处理是对地图数字化前的预处理 4、邻近元法 是: A.离散空间数据内插的方法 B.连续空间内插的方法 C.生成DEM的一种方法 D.生成DTM的一种方法 5、一般用于模拟大范围内变化的内插技术是: A.邻近元法 B.整体拟合技术 C.局部拟合技术 D.移动拟合法 6、在地理数据采集中,手工方式主要是用于录入: A.属性数据 B.地图数据 C.影象数 据 D.DTM数据

7、要保证GIS中数据的现势性必须实时进行: A.数据编辑 B.数据变换 C.数据更 新 D.数据匹配 8、下列属于地图投影变换方法的 是: A.正解变换 B.平移变换 C.空间变 换 D.旋转变换 9、以信息损失为代价换取空间数据容量的压缩方法是: A.压缩软件 B.消冗处理 C.特征点筛选 法 D.压缩编码技术 10、表达现实世界空间变化的三个基本要素是。 A. 空间位置、专题特征、时间 B. 空间位置、专题特征、属性 C. 空间特点、变化趋势、属性 D. 空间特点、变化趋势、时间 11、以下哪种不属于数据采集的方式: A. 手工方式 B.扫描方式 C.投影方 式 D.数据通讯方式 12、以下不属于地图投影变换方法的是: A. 正解变换 B.平移变换 C.数值变 换 D.反解变换 13、以下不属于按照空间数据元数据描述对象分类的是: A. 实体元数据 B.属性元数据 C.数据层元数据 D. 应用层元数据 14、以下按照空间数据元数据的作用分类的是: A. 实体元数据 B.属性元数据 C. 说明元数据 D. 分类元数据 15、以下不属于遥感数据误差的是: A. 数字化误差 B.数据预处理误差 C. 数据转换误差 D. 人工判读误差

空间数据基本理论

1.空间地理数据的基本特征 要完整地描述空间实体或现象的状态,一般需要同时有空间数据和属性数据。如果要描述空间实体或的变化,则还需记录空间实体或现象在某一个时间的状态。所以,一般认为空间数据具有三个基本特征: ⑴空间特征表示现象的空间位置或现在所处的地理位置。空间特征又称为几何特征或定位特征,一般以坐标数据表示。 ⑵属性特征表示现象的特征,例如变量、分类、数量特征和名称等等。 ⑶时间特征指现象或物体随时间的变化。 位置数据和属性数据相对于时间来说,常常呈相互独立的变化,即在不同的时间,空间位置不变,但是属性类型可能已经发生变化,或者相反。因此,空间数据的管理是十分复杂的。 有效的空间数据管理要求位置数据和非位置数据互相作为单独的变量存放,并分别采用不同的软件来处理这两类数据。这种数据组织方法,对于随时间而变化的数据,具有更大的灵活性。 2.如何在计算机内部用数字形式描述客观事物或现象 对地理信息进行数字化描述,就是要使计算机能够识别地理事物的形状,为此,必须精确地指出空间模式如何处理,如何显示等。在计算机内描述空间实体有两种形式:显式描述和隐式描述。在计算机中的显式表示,就是栅格中的一系列像元。隐式表示是由一系列定义了始点和终点的线及某种连接关系来描述。 计算机对地理实体的显式描述也称栅格数据结构,计算机对地理实体的隐式描述也称矢量数据结构。栅格和矢量结构是计算机描述空间实体的两种最基本的方式。 在栅格数据结构中,整个地理空间被规则地分为一个个小块(通常为正方形),地理实体的位置是由占据小块的横排与竖列的位置决定,小块的位置则由其横排竖列的数码决定,每个地理实体的形态是由栅格或网格中的一组点来构成。

地理空间大大数据库原理期末考试地题目总卷

《地理空间数据库原理》课程期末考试卷 一、选择题(每题3分,共10题) 1、下列不适合直接采用关系型数据库对空间数据进行管理说法错误的是(A) A. 传统数据库管理的是连续的相关性较小的数字或字符,而空间数据是连续的,并且有很强的空间相关性; B. 传统数据库管理的实体类型较少,并且实体类型间关系简单固定,而GIS数据库的实体类型繁多,实体间存在着复杂的空间关系; C. 传统数据库存储的数据通常为等长记录的数据,而空间数据的目标坐标长度不定,具有变长记录,并且数据项可能很多,很复杂; D.传统数据库只查询和操作数字和文字信息,而空间数据库需要大量的空间数据操作和查询。 2. 下列关于的空间数据库管理方式经历的阶段及其各自特点说法错误的是(C) A. 文件关系数据库混合管理阶段,用一组文件形式来存储地理空间数据及其拓扑关系,利用通用关系数据库存储属性数据,通过唯一的标识符来建立它们之间的连接。 B. 全关系式数据库管理阶段,基于关系模型方式,将图形数据按关系模型组织。图形数据和属性数据统一存储在通用关系数据库中,即将图形文件转成关系存放在目前大部分关系型数据库提供的二进制块中。 C.面向对象数据库管理阶段,面向对象型空间数据库管理系统最适合空间数据的表达和管理。持变长记录,还支持对象的嵌套,信息的继承和聚集。支持SQL 语言,有一定的通用性。允许定义合适的数据结构和数据操作。 D.对象关系数据库管理阶段,解决了空间数据的变长记录管理,使数据管理效率大大提高;空间和属性之间联结有空间数据管理模块解决,不仅具有操作关系数据的函数,还具有操作图形的API函数; 3. 对下述图形进行链式编码,编码结果为(D)

不确定性数据的分类方法研究综述

第19卷第4期重庆科技学院学报(自然科学版)2017年8月不确定性数据的分类方法研究综述 沈杰许高建杨阳李绍稳 (安徽农业大学信息与计算机学院,合肥230036) 摘要:传统的数据挖掘分类方法能够成功地应用于确定性数据分类,但却无法满足绝大多数领域中复杂的不确定性数据的分类需求,由此出现了一系列针对不确定性数据的分类方法。通过大量研究,目前经典的分类算法及针对不确定数据分类的改进方法得到了很大发展,如改进后的支持向量机算法、朴素贝叶斯算法、决策树算法等日渐成熟。 关键词:不确定性数据;分类;支持向量机;朴素贝叶斯;决策树 中图分类号:TP301 文献标识码:A文章编号=1673 -1980(2017)04 -0096 -04 面临海量的、复杂的不确定性数据,针对不确定 性数据的数据挖掘成为智能分析数据并获取知识的 重要手段,分类算法成为其主要的研究方向之一。2006年,第六届ffiEE数据挖掘国际会议(I C D M)评 选了最具影响的10个数据挖掘算法,其中分类算法 占据了 6 个:k - N N、Naive Bayes、C4. 5、C A R T、S V M、AdaB〇〇s t[1]。分类的任务就是通过分析来建 立区分对象的分类模型,即分类器。传统的分类算 法通常将精确数据作为研究背景,只考虑了精准数 据的输入和分类,因而不能直接应用于不确定性数 据分类,如支持向量机(S V M)、决策树、朴素贝叶斯 算法等。针对此现象,基于这些算法的原有经典模 式加以改进,加入不确定性数据分析,可使得不确定 知识数据挖掘技术更加成熟。 1不确定性数据 1.1不确定性数据的产生 数据的不确定性源于数据本身。数据不确定性 分以下几种情况:采集数据时出现缺省值、干扰值 等;在实验时受周围环境的影响而导致数据不确定; 在数据传输过程中的失真导致不确定性。 1.2不确定性数据的表示 不确定性一般可分为存在(元组级)不确定性 和值(属性级)不确定性[2]。其中,存在(元组级)不 确定性是指一个对象即有出现的可能性,也有不出 现的可能,如某天可能会下雨或者可能不会下雨;而值(属性级)不确定性是指这个对象取值的不确定 性。在高维空间中,确定性数据对象表现为某些具 体的点,而不确定数据对象的表现形式为满足某种 分布的一个范围。 2常见的不确定性数据分类方法 2.1支持向量机算法 Vapnik等人提出的传统支持向量机是一种基 于统计学理论、以结构风险最小化为原则的判别式 分类器[>5]。其基本思想是,在《维数据空间中寻 找一个超平面,可以极大化地将空间属于不同类别 的样本点分开,对于精确的小样本数据有很好的分 类效果。孙喜晨等人对不确定数据作了预处理,在 属性均值聚类(A M C)与支持向量机(S V M)的基础 上,提出基于(属性)聚类的属性支持向量机(A M C -A S V M)算法[6]。该算法对样本进行属性均值聚 类,然后将各个聚类中心及其属性作为新的样本点 来训练,进而得到分类器[7]。但该方法本质上是将 数据的不确定性转化为确定性来处理,对不确定性 考虑得不够充分。 Jianqiang Y a n g等人在S V M中引入多维高斯分 布模型来描述不确定数据的,提出U S V C、A U S V C 及M P S V C支持向量机分类算法[8]。U S V C的原始 问题通过引入约束得到,将机会约束的规划问题转 化为二次规划问题来求解。而A U S V C以及M P S V C 是由U S V C算法改进而来,即通过调整U S V C中的 收稿日期=2017 -03 -23 基金项目:国家自然科学基金项目“农业领域(茶学)云本体建模与方法研究”(31271615)作者简介:沈杰(1990 —),女,合肥人,在读硕士研究生,研究方向为人工智能和数据挖掘? 96 ?

基于CAD数据的地理空间数据库的建立

基于CAD数据的地理空间数据库的建立

引言 计算机技术在测绘业的最早应用之一是在地图制图学中引入了机助制图技术,即cad(computer aided drafting)。cad具有强大的绘图功能和处理矢量图形的能力,目前已广泛地被应用在工业设计、机械设计、建筑设计、城市规划之中。随着相关学科高新技术日新月异的进步,cad技术也逐步向gis技术方向发展,同时也促进了传统的测绘产业向地理信息产业转化。地理信息系统(gis)具有便捷的地图显示处理、地理信息查询和强大的空间分析能力[1],在数字产品的管理与应用方面明显优于cad技术[2]。以前的cad数据能否为gis所利用呢?找寻gis利用cad数据的有效途径无疑会有事半功倍的效果。 1.cad与gis数据概述 1.1cad与gis的区别 1)gis是采集、存储、分析、查询、输出与空间和地理分布有关的数据的空间信息系统。对信息进行管理是这个系统的主要目的。cad是对制图信息进行采集、综合、识别、存储、不同比例尺和不同投影之间的转换、编辑、输出的计算机处理系统。输出满足规范要求的图形为其最终目的。 2)gis是将空间图形实体抽象为点、线、面、注记4种类型。以此来采集、存储、编辑和管理。如围墙、陡坎、河流、道路等等在gis图中都是线型实体。它们之间差别不是用图形符号来区分,而是以属性来区分。cad图形中的图形元素种类很多,如点、线、多

义线、圆、矩形、注记等等。cad中的图形数据是矢量形式的,它不仅包含了由一组或多组的x、y、z坐标确定图形的几何位置和几何形状的可见的几何信息,还包含由数值或字符串表示线型的属性的不可见的非几何信息。 3)gis是个动态系统,存储的信息要求符合现状。因此,空间信息也要求及时更新。由于它是面向实体,实体图形只存储其主点主线,比较简单,所以修改比较方便。cad图是以符号来存储,修改麻烦。 1.2数据转换的研究现状 autocad具有极为强大的建模功能,能够精确、便捷地创建各种平面和三维图形,所以画地图首选autocad。在autocad中画出的图形能生成的是.dxf和.dwg这两种格式的文件,可以被arcgis直接调用,但是在打开后只能分成“注释”、“点”、“线”、“面”4层,这样不能很好的区分地图里面的有用信息,例如:做一幅城市地图,要把建筑物和河流分开,在autocad中可以分成两层,一层叫“一般房屋”,一层叫“面状水系”。如图1,当用arcmap打开后,这两层都合成到“面”这一层了,“一般房屋”和“面状水系”就只有靠注释和经验来分辨,这样会加长辨析的时间,远远不能满足人们的操作要求,如图2,在arcgis中的arcmap直接画地图没有在autocad中画的便捷,特别是在三维效果上面的体现更加没有autocad中表现的好。根据上面的原因,我们不得不面临着在autocad中画图,通过转换成.shp格式的文件给arcgis调用。

地理不确定性研究

空间不确定性研究进展 张勇 (浙江师范大学地理与环境科学学院,浙江金华321004) 摘要:GIS随着计算机技术的发展而出现,并正处于激烈的演化和发展状态。文中介绍了GIS现状及发展趋势,以及由错误导致的拓扑关系的不确定性和GIS(空间数据、空间推理、空间查询、空间查询语言)的不确定性、拓扑关系理论的发展、GIS在21世纪的发展等问题。 关键词:地理信息系统(GIS);空间数据;拓扑学关系;不确定性;不一致性Advance of study in spatial uncertainty Zhang Yong ( Zhejiang Normal University College of environment and sciences , Zhejiang Jinhua 321004) Abstract: The emergence of GIS keep pace with the development of computer technology,and be in the state of evolution and intense development. This paper describes the current situation and development of GIS trend, as well as the uncertainty caused by the error of topological relations and GIS (spatial data, spatial reasoning, spatial query, spatial query language) of uncertainty, development of topological relation theory, development and other issues of GIS in the 21 century. 1绪论 地理信息系统(GIS)是以采集、存储、管理、分析和描述整个和部分地球表面与空间和地理分布有关的空间信息系统。GIS在采集和处理、分析中出现的数据范围很广,包括位置数据、属性数据、时域数据、逻辑关系等。由于现实世界的复杂性和模糊性、人类表达能力的局限性,数据不可避免地含有误差,研究GIS的误差理论,直接关系到GIS产品的质量控制。因此在GIS初步形成和产品化时,提出了数据质量中空间数据的不确定性理论,并被国际上列为20世纪90年代的重点基础理论课题之一。 所谓不确定性是指一种广义的误差,它包含数值和概念的误差,也包含可

空间数据库复习资料

第一章 1数据库的定义:数据库:就是为了一定的目的,在计算机系统中以特定的结构组织、存储、管理和应用的相关联的数据集合。空间数据库是存取、管理空间信息的数据库。 2 空间数据库的内容 (1)矢量地形要素数据库矢量核心地形要素数据库是利用计算机存储的各种数字地形数据及其数据管理软件的集合。 (2)数字高程模型数据库数字高程模型是计算机存储的数字高程模型数据及其管理软件的集合。 (3)数字正射影像数据库数字正射影像数据库是具有正射投影的数字影像的集合。 (4)数字栅格地图数据库数字栅格地图数据库是数据栅格地图及其管理软件的集合。数字栅格地图是现有纸质地形图经计算机处理后的栅格数字文件。 (5)元数据库元数据库是描述数据库/子库和库中各数字产品的元数据构成的数据库。(6)专题数据库专题数据库是各种专题数据的集合 3 空间数据管理演变过程(发展) 空间数据库的研究始于20世纪70年代的地图制图与遥感图像处理领域,其目的是为了有效利用卫星遥感资源迅速绘制出各种经济专题地图。 (1)人工管理阶段(50年代中期以前) (2)文件系统阶段(50年代后期—60年代中期) (3)文件与数据库管理阶段(20世纪70年代初) (4)全关系型空间数据库管理系统(20世纪70年代后期) (5)对象关系数据库管理系统 (6)面向对象的数据库管理系统 4 地理空间数据库主要研究内容 (1)空间数据模型 (2)地理空间数据的获取与处理1)空间数据库的准确性研究2)空间数据质量研究(3)地理空间数据组织1)空间数据的多种表达方式研究2)时空关系的研究 3)海量空间数据库的结构体系研究 (4)空间数据库管理系统1)空间关系语言研究2)分布式处理和Client/Server模式(5)地理空间数据共享研究1)空间数据共享的理论;2)空间数据共享的处理方法,包括数据规范、标准、元数据研究,空间数据融合、集成与互操作的理论与方法等。 第二章 1 空间实体——指具有确定的位置和形态特征并具有地理意义的地理空间物体。(河流、道 路、城市、航线等) 空间实体:地理信息系统中不可再分的最小单元现象称为空间实体.属性是空间实体已定义 的特征(如人口数量、林地上林木名称等) 空间实体:是指现实世界中地理实体的最小抽象单位,主要包括点、线和面三种类型.空间检索的目的是对给定的空间坐标,能够以尽快的速度搜索到坐标范围内的空间对象,进 而对空间对象进行拓扑关系的分析处理 2 空间对象模型特征 (1)点对象点是有特定的位置、维数为零的实体 1)点实体(point entity):用来代表一个实体。 2)注记点:用于定位注记。 3)内点(label point):用于记录多边形的属性,存在于多边形内。 4)结点(node):表示线的终点和起点。

探索不确定性与遥感数据论文 英译汉

Exploring uncertainty in remotely sensed data with parallel coordinate plots Yong Ge , Sanping Li , V. Chris Lakhan , Arko Lucieer Abstract The existence of uncertainty in classified remotely sensed data necessitates the application of enhanced techniques for identifying and visualizing the various degrees of uncertainty. This paper, therefore, applies the multidimensional graphical data analysis technique of parallel coordinate plots (PCP) to visualize the uncertainty in Landsat Thematic Mapper (TM) data classified by the Maximum Likelihood Classifier (MLC) and Fuzzy C-Means (FCM). The Landsat TM data are from the Yellow River Delta, Shandong Province, China. Image classification with MLC and FCM provides the probability vector and fuzzy membership vector of each pixel. Based on these vectors, the Shannon’s entropy (S.E.) of each pixel is calculated. PCPs are then produced for each classification output. The PCP axes denote the posterior probability vector and fuzzy membership vector and two additional axes represent S.E. and the associated degree of uncertainty. The PCPs highlight the distribution of probability values of different land cover types for each pixel, and also reflect the status of pixels with different degrees of uncertainty. Brushing functionality is then added to PCP visualization in order to highlight selected pixels of interest. This not only reduces the visualization uncertainty, but also provides invaluable information on the positional and spectral characteristics of targeted pixels. 1. Introduction A major problem that needs to be addressed in remote sensing is the analysis, identification and visualization of the uncertainties arising from the classification of remotely sensed data with classifiers such as the Maximum Likelihood Classifier (MLC) and Fuzzy C-Means (FCM). While the estimation and mapping of uncertainty has been discussed by several authors (for example, Shi and Ehlers, 1996; van der Wel et al., 1998; Dungan et al., 2002; Foody and Atkinson, 2002; Lucieer and Kraak, 2004; Ibrahim et al., 2005; Ge and Li, 2008a), very little research has been done on identifying, targeting and visualizing pixels with different degrees of uncertainty. This paper, therefore, applies parallel coordinate plots (PCP) (Inselberg, 1985, 2009; Inselberg and Dimsdale, 1990) to visualize the uncertainty in sample data and classified data with MLC and Fuzzy C-Means. A PCP is a multivariate visualization tool that plots multiple attributes on the X-axis against their values on the Y-axis and has been widely applied to data mining and

空间数据处理模型误差和不确定性分析_孙庆辉

文章编号:1673-6338(2007)01-0033-04 空间数据处理模型误差和不确定性分析 孙庆辉1,2,池天河1,赵军喜2,钟大伟1,邵士新2 (1.中国科学院遥感应用研究所,北京 100101;2.信息工程大学测绘学院,河南郑州 450052) 摘要:在G IS 应用中,涉及到大量的模型应用,这些模型包括了利用G IS 进行空间信息处理的大部分阶段中所用到的模型。模型处理以及分析结果往往是进行下一步应用的基础,因此模型处理结果的误差和不确定性制约了实际的GIS 应用。影响空间数据处理模型的误差和不确定性的因素主要包括:定位和特征信息,制图,空间分析,空间数据库以及空间数据处理模型等所具有的误差和不确定性。主要分析了空间数据处理模型误差和不确定性的表达、来源以及分析方法。 关 键 词:数据处理模型;不确定性;误差;灵敏度分析;蒙特卡罗方法中图分类号:P208 文献标识码:A Errors and Uncertainties Analysis of Spatial Data Processing Model SUN Qing -hui 1牞2牞CH I Tian -he 1牞ZH AO Jun -xi 2牞ZH ONG Da -w ei 1牞SH AO Shi -xin 2 牗1牣I nstitute o f Remote Sensing Ap plications 牞CAS 牞Beij ing 100101牞China 牷 2牣Institute of S urvey ing and Mapping 牞In f ormation Engineering University 牞Z hengzhou 450052牞China 牘A bstract 牶In G IS applications 牞we alw ay s use many models to handle spatial data 牞w hich are in g ene ral concept 牞 including all the spa tial da ta pro ce ssing model and mathematic methods 牣T he result o f a model is the input data of the o ther model o r is the foundatio n of spatial data analy sis of application 牞the er ro r and unce rtainty in mo del result is a key problem in G IS applications 牣T he e rro r and uncer tainty sources of spatial da ta pro cessing mo del include spa tial data po sitional info rmatio n 牞spatial at tribute info rmatio n 牞ma pping 牞spatial analy sis 牞da tabase and model itself 牣H ere w e mainly analyzed the definitio n 牞uncer tainty so urces and analy sis methods of spatial data pro ce ssing mo del 牣Key words 牶data pro cessing mo del 牷uncer tainty 牷err or 牷sensitivity analy sis 牷mo nte carlo method GIS 是将计算机硬件、软件、地理数据以及系统管理人员组织而成的对任意形式的地理空间信息进行高效获取、存储、更新、操作、分析及显示的集成系统[1,2] 。地理信息系统以及其他信息系统对表达地理信息的空间数据的利用是通过地理信息处理模型来完成。在这里,模型是一个很广泛的概念,包括了利用GIS 进行空间信息处理的大部分阶段中所用到的模型。如,在数据获取、输入过程中应用数学模型来获取好的处理结果。在地理信息科学中,空间数据处理模型主要是指对地理信息进行获取、处理、管理、分析、表达、可视化等操作所采用的模拟处理方法的全集,同时也包括在专题应用领域中利用地理信息进行分析、处理等的专业应用模型,这些模型通常与地理信息系统进行藕合,以外部模型的方式提供应用服务。 H ar tkam p 在1999年定义了3种模型和GIS 结合的方式,分别为:“Link ”即两者之间通过数据或文件方式进行信息交换;“Combine ”即两者之间可以自动交换数据信息;“Integ ra te ”两者之间实 现真正的整合形成一个整体系统。在以往GIS 应用中,应用模型主要考虑模型的模拟表达及模型的构建。对模型处理结果的不确定性和误差以及造成模型处理结果误差的因素的研究比较少。当前,在实际应用过程中,GIS 研究人员已经意识到这方面的问题。此处主要分析模型不确定性的来源,以及模型不确定性的评价方法。在应用GIS 和模型进行客观世界信息处理时,对其结果的不确定性影响比较大的几个方面主要是:定位和特征信息,制图,空间分析,空间数据库以及空间数据处理模型等所具有的误差和不确定性。 收稿日期:2006-09-01;修回日期:2006-12-28 基金项目:国家自然科学基金(40401039) 作者简介:孙庆辉(1974-),男,河南叶县人,讲师,博士生,主要从事GIS 理论与应用方法研究。 第24卷第1期2007年2月测绘科学技术学报 Journal of Zhengz hou In stitu te of Surveying and M apping Vol.24No.1Feb.2007

不确定性空间数据挖掘算法模型

第36卷第1期 中国矿业大学学报 Vol.36No.12007年1月 Journal of China University of Mining &Technology J an.2007 收稿日期:2005-08-28 基金项目:国家自然科学基金项目(60275021);中国博士后科学基金(20060390326) 作者简介:何彬彬(19722),男,湖南省邵阳市人,博士(博士后),从事空间数据库与数据挖掘、遥感信息处理方面的研究.E 2m ail :binbinhe @https://www.doczj.com/doc/ec807802.html, T el :028********* 文章编号:100021964(2007)0120121205 不确定性空间数据挖掘算法模型 何彬彬1,方 涛2,郭达志3 (1.电子科技大学地表空间信息技术研究所,四川成都 610054;2.上海交通大学图像处理与模式识别研究所,上海 200030;3.中国矿业大学环境与测绘学院,江苏徐州 221008) 摘要:在分析空间数据和空间数据挖掘的不确定性基础上,针对传统空间数据挖掘的局限性,将空间数据的不确定性和空间数据挖掘的不确定性有机结合,以EM 算法和Apriori 算法为基础,建立了不确定性空间数据挖掘算法模型,包括不确定性空间数据聚类算法(UN EM )和不确定性空间数据关联规则挖掘模型(U SAR ).并以中国37个有代表性的大中城市的地理空间经济数据为例,进行实验验证,结果表明:采用不确定性空间数据挖掘算法模型比传统的空间数据挖掘方法得到的知识更为真实客观. 关键词:不确定性;空间数据挖掘;UN EM 算法;U SA R 模型;质量评价中图分类号:P 2;TP 391文献标识码:A Uncertain Spatial Data Mining Algorit hms H E Bin 2bin 1,FAN G Tao 2,GUO Da 2zhi 3 (1.Institute of Geo 2Spatial Information Science and Technology ,University of Electronic Science and Technology of China ,Chengdu ,Sichuan 610054,China ;2.Institute of Image Processing &Pattern Recognition ,Shanghai Jiao Tong University ,Shanghai ,200030,China ;3.School of Environment &Spatial Informatics , China University of Mining &Technology ,Xuzhou ,Jiangsu 221008,China ) Abstract :On t he basis of analyzing t he uncertainties of spatial data and spatial data mining (SDM ),in view of t he limit s of traditional spatial data mining ,t he uncertainties of spatial data and spatial data mining were p roperly combined.Based on EM algorit hm and Apriori algo 2rit hm ,t he uncertain spatial data mining algorit hms ,including uncertain spatial clustering algo 2rit hm (uncertain neighborhood expectatio n maximum ,UN EM )and uncertain spatial associa 2tion rules mining (U SAR )model were presented.Meanwhile ,t he experiment s concerned have been performed using t he geo 2spatial data from 37typified cites in China.The result s show t hat t he knowledge acquired t hrough t he uncertain spatial data mining algorit hms is more real and objective t han t hose t hrough t raditional spatial data mining met hods. K ey w ords :uncertainty ;spatial data mining ;UN EM algorit hm ;U SAR model ;quality assess 2ment 空间数据挖掘(Spatial Data Mining ),是指从空间数据库(空间数据仓库)中提取隐含的、用户感兴趣的空间模式与规则、空间与非空间数据的普遍 关系及其他一些隐含在数据库中的普遍的数据特征的过程[122].随着空间数据获取手段的自动化程度的不断提高,空间数据库的数据呈指数级的增

地理数据库复习思考题(答案)

第一章练习与思考 1、地理要素的特征与空间信息类型? 地理要素是地理实体和现象的基本表示,在数据世界中地理要素包括时间特征和属性特征。地理要素的空间特征包括空间位置和空间关系,空间位置是一组表示地理要素空间位置的坐标序列。属性特征表示地理要素的类型、数量、质量、状态和时间序列等属性信息。 空间信息的类型: 位置信息:在哪里? 形状信息:什么样? 属性信息:是什么? 关系信息:方向、距离等 时间信息:发生、发展 2、地理空间信息的数据类型、表达方式是怎样的?(P9) 一、地图中所表示的空间信息类型有:空间几何信息、描述性信息、空 间关系信息; 地图所传递的信息是地图符号来实现的:点状符号、线状符号、面状符号,以及地图符号的形状、尺寸、颜色、亮度、密度、图案纹理和地图注记的字体、颜色、尺寸等。 二、计算机表达时的空间信息类型有:空间几何信息、描述性信息、空间关系信息、时间维信息。 在计算机中,用一对或一组有序x、y 坐标记录表示空间几何信息;用一组数字或字符的形式存储属性信息;拓扑结构定义空间关系信息等 3、地理(地图)数据的复杂性体现在哪些方面?(P11) 地图数据是空间数据,比一般信息处理中的统计数据更为复杂。其复杂性体现在如下几 个方面: 一是数据类型繁多,既有属性数据,也有几何数据,还有表示地图

要素相互联系的 空间关系数据,以及便于图化处理的辅佐数据等,而且这些数据还随时间的变化各自独立地 发生变化。 二是数据操纵复杂,地图的操纵不但需要一般数据检索、增加、删除、修改等功 能,而且需要一些特有的检索方式,如定位检索、拓扑关系检索以及一些特有的操纵方式, 如图形编辑等。 三是数据输出形式的多样性,有数据、报表,还有图形。 四是数据量大,一幅中等分辨率的栅格地图需6MB 的存储空间。 五是地图数据来源多样,不仅有测量、统计数据、文字资料,而且有地图、遥感图像等图形图像数据。地图数据如此复杂、浩繁,给地图数据的获取、处理带来很大难度,因而促使了能对地图数据实施有效管理,能存储、管理大量地图数据的地图数据库系统的发展。 4、地理数据库系统的基本构成是怎样的? 地理数据库系统通常是指带有数据库的计算机系统,它采用现代数据库技术来管理地理 数据。广义地讲,地理数据库系统不仅包括地理数据库本身(指实际存储在计算机中的 地理数据),还包括相应的计算机硬件系统,地理数据库软件系统和地理数据库开发、管理和使用人员等。 5、地理数据库、地理数据库系统、地理数据库管理系统之间 有什么区别与联系? 地理数据库系统(GDBS),有时简称“地理数据库”。它包括地理数据库(指实际存储在计算机中的地理数据)和相应的计算机硬件系统,地理数据库软件系统和地理数据库开发、管理和使用人员等; 地理数据库指实际存储在计算机中的与地理有关的数据集合。包括空间数据和属性数据。

相关主题
文本预览
相关文档 最新文档