当前位置:文档之家› 空间数据挖掘技术研究进展_王海起

空间数据挖掘技术研究进展_王海起

空间数据挖掘技术研究进展_王海起
空间数据挖掘技术研究进展_王海起

空间数据挖掘技术研究进展

王海起1,2,3,王劲峰1

(1.中国科学院地理科学与资源研究所资源与环境信息系统

国家重点实验室,北京100101;

2.中国石油大学(华东)地球资源与信息学院,山东东营

257061;3.中国科学院研究生院,北京100039)

访问方法之上分析空间趋势,需要使用回归和

相关的分析方法。由于空间对象自身的特殊性,传

统的回归模型可能并不合适。例如,传统的线性回

归模型(y=Xβ+ε)对空间对象就不适用,需要使用

空间自回归SAR模型[19]:y=ρWy+Xβ+ε。

(7)数字图像分析和模式识别方法。空间数据

库(数据仓库)中含有大量的图形图像数据,一些图

像分析和模式识别方法可直接用于挖掘数据和发现

知识,或作为其他挖掘方法的预处理方法[20]。用于

图像分析和模式识别的方法主要有:决策树(decision

tree)方法、人工神经网络(artificial neural network)

方法、数学形态学方法、图论方法等。

(8)可视化方法。空间数据可视化技术拓宽了

传统的图表功能,使用户对数据的剖析更为清楚。

例如,把数据库中的多维数据变成多种图形,对揭示

数据的状况、内在本质及规律性有很强的作用。当

显示空间数据挖掘结果时,将地图同时显示作为背

景,一方面能够显示其知识特征的分布规律,另一方

面也可对挖掘结果进行可视化解释,从而达到最佳

的分析效果。可视化技术使用户能够看到数据处理

的全过程,监测并控制数据分析过程。

在实际应用中,常常要综合运用上述方法。另

外,数据挖掘方法要与常规的数据库技术充分结合。

数据挖掘利用的技术越多,结果的精确性越高。

4空间数据挖掘与GIS集成

由于空间数据挖掘由空间数据库系统(主要是

指GIS数据库)、数据挖掘系统和人机接口3部分组

成,而从当前存在的系统状态看,空间数据库部分也

是GIS系统的组成部分,所以空间数据挖掘的集成

就是GIS系统、数据挖掘系统以及人机接口系统的集成。其中GIS系统与空间数据挖掘系统的集成是整个系统集成的核心。关于数据挖掘和GIS的集成,一般有3种模式[21-23]:1)集成的空间数据挖掘系统开发模式。该模式自主开发GIS空间数据管理功能,将各种数据挖掘模块和数据管理模块集成为一个统一的系统。2)利用现有的GIS系统,实现空

间数据挖掘系统与GIS系统的耦合集成,包括松散

耦合和紧密耦合。松散耦合指GIS系统与空间数据挖掘系统完全分开,通过文件系统或关系数据库系统来交换信息,GIS系统完成部分数据预处理功能

和空间数据的管理及挖掘结果的显示等。紧密耦合是指GIS系统与空间数据挖掘系统部分集成。紧密耦合有两种形式:通过GIS系统提供的脚本语言或OLE(对象链接或嵌入)来实现应用程序,如Geomin- er;或通过组件技术利用GIS的空间数据库管理和

数据显示功能,以实现GIS与数据挖掘的无缝链接

集成,这也是当前开发GIS应用系统的主流方向。3)基于通用数据库系统的数据挖掘与基于GIS系统的空间数据管理功能的集成开发模式。

空间数据管理和空间分析功能主要由GIS组件

或OLE技术实现,通用数据库只负责存储空间数据,GIS系统通过专用接口与通用数据库链接。

5空间数据挖掘的发展方向

在空间数据挖掘的理论和方法方面,重要的研

究方向有:背景知识概念树的自动生成,不确定性状态下的数据挖掘,递增式数据挖掘,栅格矢量一体化数据挖掘,多分辨率及多层次数据挖掘,并行数据挖掘,新算法和高效率算法的研究,空间数据挖掘查询语言,规则的可视化表达等[2,3]。在SDM系统的实现方面,要研究多算法的集成,SDM系统中人机交

互技术和可视化技术,SDM系统与GIS、遥感解译专家系统、空间决策支持系统的集成等。数据挖掘的研究和开发急需解决的问题主要体现在[11,12]: (1)效率和可伸缩性。海量数据库存有成百上

千属性表和百万条记录。GB数量级的数据库不少见,TB级的数据库已经出现,这必然导致海量数据

库中问题的维数很大,不仅增大了挖掘算法的搜索空间,也增加了盲目搜索的可能性[15]。因此,必须利用领域知识除去与挖掘任务无关的数据,有效地降低问题的维数,设计出更加有效的知识发现算法。(2)交互性。目前许多知识发现系统和工具缺

乏和用户的交互性,在知识发现过程中,难以充分有效地利用领域知识。对此,可以利用贝叶斯方法确

定数据可能性和分布,从而利用先验知识。此外,可

利用演绎数据库的演绎能力发现知识,并用于指导

知识挖掘过程。

(3)挖掘模式的精练。当数据挖掘搜索空间很

大时,就会获得许多挖掘结果。其中有些是偶然、盲

目的,这时可利用领域知识进一步精练所发现的模

式,从中提取有用的知识。

(4)互联网上的知识发现。Web逐渐普及,在这

个信息的海洋中可以发现大量知识。已有一些资源

挖掘工具可用于挖掘含有关键字的文本,但挖掘知

识的研究刚刚开始。目前的问题是如何从复杂的数

据(如包含文本、图像、视频的多媒体数据)中提取有

用的信息、对多层次数据库的维护以及如何处理数

页9第第4期王海起等:空间数据挖掘技术研究进展关的数据。3)检查数据的完整性及一致性,过

滤其中的噪声数据,插补缺失数据。4)根据用户的

要求,确定空间数据挖掘的目标知识类型。5)选择

合适的数据挖掘、知识发现算法,包括选取合适的模

型和参数,并使数据挖掘、知识发现算法和整个空间

数据挖掘的评判标准相一致。6)运用选定的数据挖

掘、知识发现算法,从数据库中提取用户需要的知

识,这些知识可以用特定的方式表示,如特征表、谓

词逻辑、产生式规则、语义网络、面向对象或可视化

等。7)根据某种有效性度量,对数据挖掘、知识发现

的模式进行解释和评价。

3空间数据挖掘方法

空间数据挖掘的方法很多,根据发现对象可分

为关系数据库、面向对象数据库、空间数据库、时态

数据库、文本数据库、多媒体数据库、异质数据库、互

联网Web等;根据发现方法可分为机器学习方法

(归纳学习、决策树、规则归纳、基于范例学习、遗传

算法)、统计方法(回归分析、判别分析、聚类分析、探

索性分析)、神经网络方法(BP算法、自组织神经网

络)、数据库方法;根据发现任务可分为分类、聚类、

关联规则发现、时间序列预测、演化规则发掘等。本

文综述常用的空间数据挖掘方法[2,3,11-18]。

(1)统计分析方法(statistical analysis method)是

最常用的空间数据分析方法,目前已经有很多优秀

的算法和优化技术,是空间分析方法的基础。其主

要缺点是假定空间数据之间互不相关,实际上很多

空间数据是高度相关的,所以使用这个方法效果很

差。运用回归模型虽然可以在某种程度上降低问题

的难度,却使整个建模过程变得非常复杂,同时它不

能为非线性规则和符号值建立模型,也不能很好地

适用于不完整或者不确定性数据,所产生的巨大计

算量通常会影响其实时处理的性能。

(2)归纳/泛化学习方法(induction/generalization learning method)。归纳学习方法是从大量的经验数据中归纳抽取一般的规则和模式,其大部分算法来源于机器学习领域,其中最著名的是Quinlan提出的C 5.0 决策树算法。基于泛化的数据挖掘方法需要一定的

背景知识,而且这些背景知识需要上升到概念层次。对空间对象而言,有空间和非空间两种概念层次。面向空间数据的泛化方法是从下到上归纳合并挖掘的

空间区域,直到区域的数值到达一个门限值为止。在进行面向空间的归纳处理后,再使用面向属性的归纳技术得到非空间的属性数据。面向非空间数据的泛

化是对所收集的非空间属性的数据进行面向属性的

归纳,将它们概括到一个更高的概念层次。泛化的门限值用来决定是继续泛化还是停止。

(3)空间聚类方法(methods using clustering)与

归纳/泛化方法不同,它无需背景知识,能直接从空

间数据库中发现有意义的空间聚类结构。目前已经

提出了4种空间聚类方法:基于分割的方法、基于层次的方法、基于密度的方法和基于栅格的方法。基

于分割的方法包括K-平均法、K-中心点法和EM

聚类法。它们都是采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进聚类效果。基于层次

的方法固定数据对象的关系,只是对对象集合进行分解。根据层次的分解方式,这类方法可分为凝聚和分裂两种。Birch、Cure和Chameleon方法是上述方法的改进。基于密度的方法主要思想是:对给定类中的每个数据点,在一个给定范围的区域中必须包含超过某个阈值的数据点,才能够继续聚类。它可以用来发现任意形状的簇,过滤噪声。代表性的方法有DBscan、Optics和Denclue。基于栅格的方法把对象空间划分为有限数据的单元,形成一个网格结构。其特点是处理速度快,处理时间独立于数据对象的数目。该类方法包括Sting、Sting+、WaveCluster和Clique。

(4)空间分类方法(methods using classification)。

空间分类主要有两种途径:监督分类和非监督分类。针对RS和GIS的空间数据挖掘,监督分类通过野外

调查找出分类样本,然后进行分类;非监督分类一般

先进行分类,然后进行野外考察验证。分类和聚类

算法的不同在于:聚类算法根据一定要求将对象聚

为一个集合,最后得到的分布模式是聚类之前未确

知的;分类算法根据已知分布模式的属性要求,将数

据库对象归入相应的类中。

(5)探测性数据分析(Exploratory Data Analysis,

EDA)采用动态统计图形和动态链接窗口技术将数

据及统计特征显示出来,可发现数据中非直观的数

据特征及异常数据。EDA与空间分析相结合,构成

探测性空间数据分析(Exploratory Spatial Data Anal-

ysis,ESDA)[19]。EDA和ESDA技术在数据挖掘、知

识发现中用于选取感兴趣的数据子集,即数据聚焦,

并可初步发现隐含在数据中的某些特征和规律。

(6)空间趋势分析(spatial trend analysis)。空间

趋势指离开一个给定的起始空间对象时,非空间属

性的变化情况。例如,当离城市中心越来越远时经

济形势的变化趋势。其分析结果可能是正向趋势、

反向趋势,或者没有趋势。一般在空间数据结构和

页8第地理与地理信息科学第21卷空间数据库中可挖掘的知识类型

GIS数据库是空间数据库的主要类型,从中可

以挖掘的基本知识类型有普遍的几何知识、空间分

布规律、空间关联规则、空间聚类规则、空间特征规

则、空间区分规则、空间演变规则、面向对象的知识

等。它们可用特征表、谓词逻辑、产生式规则、语义

网络、面向对象方法和可视化等方法表达[7-12],应

根据不同的应用选取不同的表达形式,并且各种表

达形式间可以相互转换。

(1)普遍的几何知识(general geometric knowl-

edge)指某类空间对象的数量、大小、形态特征等普遍

的几何特征,可以计算几何特征量的最小值、最大值、

均值、方差、众数等,还可得到特征量的直方图。在此

基础上根据背景知识归纳出泛化的普遍几何知识。

(2)空间分布规律(spatial distribution regulari-

ties)指对象在地理空间的分布规律,可分为垂直向、

水平向以及垂直向和水平向的联合分布规律。垂直

向分布指地物沿高程带的分布,如植被沿高程带分

布规律、植被沿坡度坡向分布规律等;水平向分布指

地物在平面区域的分布规律,如不同区域农作物的

差异、公用设施的城乡差异等;垂直向和水平向的联

合分布即不同的区域中地物沿高程分布规律。

(3)空间关联规则(spatial association rules)指空

间对象间相邻、相连、共生、包含等关联规则,如村落

与道路相连,道路与河流的交叉处是桥梁等。

(4)空间特征规则(spatial characteristic rules)指

某类或几类空间对象的几何和属性的普遍特征,即

对共性的描述。普遍的几何知识属于空间特征规则

的一类,由于它在遥感影像解译中具有重要作用,所

以分离出来单独作为一类知识。

(5)空间区分规则(spatial discriminate rules)指

两类或多类对象间几何或属性的不同特征,即可以

区分不同类型对象的特征。

(6)空间分类/回归规则(spatial classification

rules/spatial regression rules):空间分类规则根据空

间区分规则把数据集的数据映射到某个给定的类

上,用于数据预测,其预测值是离散的;空间回归规

则也是一种分类器,其预测值是连续的。二者常表

现为一棵决策树,根据数值从树根开始搜索,沿着数

据满足的分支往上,到树叶就能确定类别。空间分

类或回归的规则是普及知识,实质是对给定对象数

据集的抽象和概括,可用宏元组表示。

(7)空间聚类/函数依赖规则(spatial clustering

rules/spatial functional dependency rules):空间聚类

把特征相近的空间实体数据划分到不同的组中,组

间的差别尽可能大,组内的差别尽可能小,可用于空

间对象的概括和综合。与分类规则不同,聚类前并

不知道将要划分几个组和什么样的组,也不知道根

据哪些空间区分规则来定义组。空间函数依赖规则

旨在发现空间对象属性间的函数关系,挖掘知识用

以属性名为变量的数学方程来表示。

(8)空间序列规则(spatial serial rules)基于时序,

根据空间对象随时间变化的趋势预测将来的值。为

了发现序列规则,不仅需要知道空间事件是否发生,

而且需要确定事件发生的时间。

(9)空间演变规则(spatial evolution rules)指空间

对象依时间的变化规则,即哪些对象易变及怎么变,

哪些对象固定不变。如果GIS数据库是时空数据库

或者GIS数据库中存有同一地区多个时间数据的快

照(snapshot),则可以发现空间演变规则。

(10)面向对象的知识(object oriented knowl-

edge)指某些复杂空间对象的子类构成及其普遍特

征的知识。

2空间数据挖掘体系结构及一般过程

2.1空间数据挖掘的体系结构

数据挖掘有各种各样的体系结构,如Han提出

的通用数据挖掘原型、Holsheimer等的并行体系结构、Matheus等的多组件体系结构。所有这些体系结构都可以扩展用于空间数据挖掘。相比之下, Matheus等提出的体系结构更通用一些[7,11]。在Matheus体系结构中,用户可以控制挖掘过程中的每

个步骤,在知识库中存储背景知识,如空间和非空间

概念层或有关元数据,或有关数据库的信息。挖掘

处理过程主要由DB接口、聚焦、模式提取、评估4个

组件完成。利用DB接口组件从数据源取出数据,该

接口允许查询优化,利用空间数据索引结构(如R树)

等方法进行高效处理;聚焦组件进行对象和属性抽

取,决定哪些数据对模式识别是有用的;模式提取组

件发现规则和模式,该组件使用统计学、机器学习和

数据挖掘等技术发现规则和关系;评估组件评价所发

现模式的有效性和重要性,以去除冗余知识。4个组

件通过控制器进行交互,挖掘的结果最终传给用户。

2.2空间数据挖掘的一般过程

从空间数据库中挖掘数据、发现知识是一个多

步骤相互链接、反复进行的交互过程:1)了解空间数

据挖掘相关领域的情况,熟悉有关背景知识,掌握用

户需求。2)从空间数据库中提取与空间数据挖掘过

页7第第4期王海起等:空间数据挖掘技术研究进展

收稿日期:2005-03-07;修订日期:2005-05-14

基金项目:国家“863”计划项目(2002AA135230-1);国家自然科学基金项目(40471111) 作者简介:王海起(1972-),男,讲师,博士研究生,研究方向为GIS与空间信息分析。E-mail:wanghq@https://www.doczj.com/doc/222684676.html,

空间数据挖掘技术研究进展

王海起1,2,3,王劲峰1

(1.中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京100101;

2.中国石油大学(华东)地球资源与信息学院,山东东营257061;

3.中国科学院研究生院,北京100039)

摘要:空间数据具有海量、非线性、多尺度、高维和模糊性等复杂性特点,空间数据挖掘技术是对空间数据中非显性

的知识、空间关系等模式的自动提取。该文从空间数据挖掘的知识类型、方法、体系结构、过程以及与GIS系统集

成等方面对其进行综述。重点阐述空间特征及区分规则、空间分类及聚类规则、空间分布及关联规则、空间序列及

演化规则等知识类型以及统计分析、机器学习、探索性数据分析、可视化分析等数据挖掘方法。通过对空间数据挖

掘理论、应用和系统实现等方面研究方向、存在问题的分析,指出集数据库、知识库、专家系统、决策支持系统、可视

化工具、网络等技术于一体的空间数据挖掘系统是其主要发展方向。

关键词:空间数据;知识类型;数据挖掘;体系结构;GIS

中图分类号:P208文献标识码:A文章编号:1672-0504(2005)04-0006-05 空间数据库含有空间数据和非空间数据,空间

数据主要是地表在GIS中的二维投影,非空间数据

则是除空间数据以外的一切数据[1]。随着对地观

测、获取设备的迅速发展,空间数据资源日益丰富。

然而,数据资源中蕴含的知识远远没有得到充分的

挖掘和利用,导致“数据爆炸但知识贫乏”[2];同时,

要求用户详细分析这些数据并提取感兴趣的知识或

特征是不现实的。因此,从空间数据库中自动地挖

掘知识,寻找数据库中不明确的、隐含的知识、空间

关系或其它模式,即空间数据挖掘技术(Spatial Data Mining,SDM)越来越重要。

空间数据挖掘是在空间数据库的基础上,综合利用

统计学方法、模式识别技术、人工智能方法、神经网络技术、模糊数学、机器学习、专家系统和相关信息技术等, 按照一定的度量值和临界值抽取空间知识及与之相关

的预处理、空间抽样和数据变换的一个多步骤相互链

接、反复进行的人机交互过程。可以归纳为数据准备(了解应用领域的先验知识、生成目标数据集、数据清理、数据简化与投影)、数据挖掘和知识发现(数据挖掘

功能和算法的选取,在空间的关联、特征、分类、回归、聚类、函数依赖等特定的规则中搜索感兴趣的知识)以及

数据挖掘后处理(知识的解释、评价和应用)3部分[2-4]。1空间数据的特点及可挖掘的知识类型

1.1空间数据的特点

空间对象具有空间位置和距离属性,并且距离

邻近的对象之间存在一定的相互作用,因此空间数

据之间的关系类型更为复杂(不仅多了拓扑关系、方

位关系,而且度量关系还与空间位置和对象间的距

离有关),与其他类型的数据之间存在明显的差异。

空间数据具有如下复杂性特点[5-7]:1)海量的

数据。海量数据常使一些算法因难度或计算量过大

而无法实施,因而空间数据挖掘的任务之一就是要

创建新的计算策略并发展新的高效算法,克服海量

数据造成的技术困难。2)空间属性之间的非线性关

系。它是空间系统复杂性的重要标志,反映了系统

内部作用的复杂机制,是空间数据挖掘的主要任务

之一。3)空间数据的尺度特征。空间数据在不同观

察层次遵循的规律以及体现出的特征不尽相同。尺

度特征是空间数据复杂性的又一表现形式,利用该

性质可以探究空间信息在泛化和细化过程中所反映

出的特征渐变规律。4)空间维数的增高。空间对象

的属性增加极为迅速,如在遥感领域,由于感知器技

术的飞速发展,波段的数目由几个增加到几十甚至

上百个,如何从几十甚至几百维空间中挖掘数据、发

现知识成为研究中的又一热点。5)空间信息的模糊

性。模糊性几乎存在于各种类型的空间信息中,如

空间位置的模糊性、空间相关性的模糊性以及模糊

的属性值等。6)空间数据的缺失。数据缺失现象是

由于某种不可抗拒的外力使数据无法获取或发生丢

失。如何对丢失数据进行恢复并估计数据的固有分

布参数,成为解决数据复杂性的难点之一。

据的异质性和自主性等。

(5)和其它系统的集成。一个方法、功能单一的

挖掘系统的适用范围必然受到限制,并且开发的知

识系统仅局限于数据库领域。要在更广阔的领域挖

掘数据、发现知识,数据挖掘系统应该是数据库、知

识库、专家系统、决策支持系统、可视化工具、网络等

多项技术集成的系统。

参考文献:

[1]陈述彭,鲁学军,周成虎.地理信息系统导论[M].北京:科学出

版社,2000.3-10.

[2]李德仁,王树良,史文中,等.论空间数据挖掘和知识发现[J].

武汉大学学报(信息科学版),2001,26(6):491-499.

[3]李德仁,王树良,李德毅,等.论空间数据挖掘和知识发现的理论与方法[J].武汉大学学报(信息科学版),2002,27(3):221-233.

[4]HAN J,KAMBER M.Data Mining:Concepts and Techniques[M]. San Francisco:Academic Press,2001.145-176.

[5]裴韬,周成虎,骆剑承,等.空间数据知识发现研究进展评述[J].中国图象图形学报,2001,6A(9):854-860.

[6]罗志清,李琦.城市空间数据基础设施研究[J].地理与地理信

息科学,2003,19(3):32-34.

[7]MILLER HJ,HAN J.Geographic data mining and knowledge dis- covery:An overview[A].MILLER H J,HAN J.Geographic Data

Mining and Knowledge Discovery[C].London:Taylor and Fran-

cis,2001.3-32.

[8]周海燕,王家耀,吴升.空间数据挖掘技术及其应用[J].测绘通报,2002,2:11-13.

[9]余达太,蓝荣钦,张世涛,等.空间数据挖掘的方法和实施[J].

测绘学院学报,2003,20(2):132-134.

[10]李新运,郑新奇,闫弘文.坐标与属性一体化的空间聚类方法研究[J].地理与地理信息科学,2004,20(2):38-40.

[11]ESTER M,FROMMELT A,KRIEGEL H P,et al.Spatial data mining:database primitives,algorithms and efficient DBMS sup-

port[J].Data Mining and Knowledge Discovery,2000,4(2-3):

193-216.

[12]GAHEGAN M,WACHOWICZ M,HARROWER M,et al.The integration of geographic visualization with knowledge discovery

in databases and geocomputation[J].Cartography and Geographic Information Systems,2001,28:29-44.

[13]蒋良孝,蔡之华.空间数据挖掘的回顾与展望[J].计算机工程,2003,29(6):9-10.

[14]毛克彪,田庆久.空间数据挖掘技术方法及应用[J].遥感技术与应用,2002,17(4):198-204.

[15]AGGARWAL C,HAN J,WANG J,et al.A framework for pro- jected clustering of high dimensional data streams[A].FREY-

TAG J C,LOCKEMANN P C,ABITEBOUL S,et al.Proceed-

ings 2004 VLDB Conference:The 30th International Conference

on Very Large Databases(VLDB)[C].San Francisco:Morgan

Kaufmann,2004.852-863.

[16]DONG G,HAN J,LAM J M W,et al.Mining multi-dimensional

constrained gradients in data cubes[A].APERS P M G,ATZENI

P,CERI S,et al.VLDB'01:Proceedings of the 27th International

Conference on Very Large Data Bases[C].San Francisco:Morgan

Kaufmann,2001.321-330.

[17]SHEKHAR S,LU C,ZHANG P.A unified approach to spatial

outliers[J].GeoInformatica,2003,7(2):139-166.

[18]陈中祥,岳超源.空间数据挖掘的研究与发展[J].计算机工程

与应用,2003,3:5-7.

[19]HAINING R,WISE S,MA J.Exploratory spatial data analysis in

a geographic information system environment[J].The Statisti-

cian,1998,47:457-469.

[20]张杰林,曹代勇,刘德长.高光谱数据挖掘技术在资源勘查中

的应用研究[J].地理与地理信息科学,2004,20(3):89-91.

[21]袁红春,熊范纶,淮晓永.空间数据挖掘及其与智能系统的集

成框架[J].信息与控制,2002,31(4):304-309.

[22]张瑞菊,陶华学.GIS与空间数据挖掘技术集成问题的研究

[J].勘察科学技术,2003(2):21-24.

[23]GOODCHILD M F,HAINING R P,WISE S,et al.Integrating

GIS and spatial analysis:problems and possibilities[J].Interna-

tional Journal of Geographical Information Systems,1992,6(5):

407-423.

Research on Progress of Spatial Data Mining

WANG Hai-qi1,2,3,WANG Jin-feng1

(1.LREIS,Institute ofGeographical Sciences and National Resources Research,CAS,Beijing100101;

2.College ofGeo-Resources and Information,UniversityofPetroleum(East China),Dongying257061;

3.Graduate School ofChinese AcademyofSciences,Beijing100039,China)

Abstract:Spatial data mining discovers and extracts implicit knowledge,spatial relations,spatial rules and other interesting patterns

from spatial data which have complexity characters of mass,nonlinearity,multi-scale,high-dimension,fuzzy etc.This paper at-

tempts an annotated review of knowledge type,methods,architecture,process and integration with GIS which are related with the field

of spatial data mining,and especially pays attention to knowledge type including spatial characteristic and discriminate rules,spatial

classification and clustering rules,spatial distribution and association rules,spatial serial and evolution rules,and at the same time,pays

attention to data mining methods including statistical analysis,machine learning,exploratory data analysis,visualization analysis,etc.In

addition,the existing problems and research directions of spatial data mining are also analyzed about its theory,application and imple-

ment of software system.In conclusion,the main trends of spatial data mining are expected through seamless integration with

database,knowledge database,expert system,decision system,visualization,and network.

Key words:spatial data;knowledge type;data mining;architecture;GIS

页10第地理与地理信息科学第21卷

空间数据挖掘工具浅谈_汤海鹏

第28卷第3期2005年6月 测绘与空间地理信息 G E O M A T I C S &S P A T I A LI N F O R M A T I O NT E C H N O L O G Y V o l .28,N o .3 J u n .,2005 收稿日期:2004-09-14 基金项目:国家重点基础研究发展规划(973)资助项目(2001C B 309404) 作者简介:汤海鹏(1979-),男,湖南沅江人,本科,主要从事信息化管理和信息化建设等方面的研究。 空间数据挖掘工具浅谈 汤海鹏1 ,毛克彪 2,3 ,覃志豪2,吴 毅 4 (1.公安部出入境管理局技术处,北京100741;2.中国农业科学院自然资源与农业区划研究所农业遥感实验室, 北京100081;3.中国科学院遥感所,北京100101;4.黑龙江乌苏里江制药有限公司,黑龙江哈尔滨150060) 摘要:数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以 用来做出预测。空间数据挖掘有十分广阔的应用范围和市场前景,目前已出现大量的数据挖掘工具用于企业决策、科学分析等各个领域。文中对2个数据挖掘工具进行讨论,介绍它们的功能、所使用的技术以及如何使用它们来进行数据挖掘。 关键词:数据挖掘;空间数据挖掘;数据立方体;知识库引擎 中图分类号:P 208 文献标识码:A 文章编号:1672-5867(2005)03-0004-02 AS u r v e y o f D a t a Mi n i n g T o o l s T A N GH a i -p e n g 1 ,M A OK e -b i a o 2,3 ,Q I NZ h i -h a o 2 ,W UY i 4 (1.B u r e a uo f E x i t a n dE n t r y A d m i n i s t r a t i o n ,M i n i s t r y o f P u b l i c S e c u r i t y ,B e i j i n g 100741,C h i n a ;2.T h e K e y L a b o r a t o r y o f R e m o t e S e n s i n g a n d D i g i t a l A g r i c u l t u r e ,C h i n a A c a d e m y o f A g r i c u l t u r e R e m o t e S e n s i n g L a b o r a t o r y ,B e i j i n g 100081,C h i n a ; 3.I n s t i t u t eo f R e m o t e S e n s i n g A p p l i c a t i o n s ,C h i n e s e A c a d e m y o f S c i e n c e s ,B e i j i n g 100101,C h i n a ; 4.H e i l o n g j i a n g Wu s u l i j i a n g P h a r m a c e u t i c a l C o .L t d .,H a r b i n 150060,C h i n a ) A b s t r a c t : B e c a u s e o f c o m m e r c i a l d e m a n d s a n dr e s e a r c hi n t e r e s t ,a l l k i n d s o f s p a t i a l d a t a m i n i n g s o f t w a r e t o o l s e m e r g e .I n o r d e r t o g e t u s e o f t h e d a t a m i n i n g t o o l s ,t w o o f t h e ma r e i n t r o d u c e d i n t h i s p a p e r a n d m a k e p r o s p e c t o f i n t e g r a t i o n o f G I S ,R S ,G P S a n d d a t a m i n -i n g .K e yw o r d s :d a t a m i n i n g ;s p a t i a l d a t a m i n i n g ;d a t a c u b e ;d a t a b a s e e n g i n e 0 引 言 随着数据获取手段(特别是对地观测技术)及数据库 技术的快速发展,科研机构、政府部门在过去的若干年里都积累了大量的数据,而且,目前这些数据仍保持迅猛的增长势头。如此大量的数据已远远超过传统的人工处理能力,怎样从大量数据中自动、快速、有效地提取模式和发现知识显得越来越重要。数据挖掘与知识发现作为一个新的研究领域和新的技术正方兴未艾,用于从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式[1~2],很好地满足了海量数据处理的需要。 具体应用中,数据挖掘工具很多。它们在功能和方法等方面差别很大。如何选择适合具体挖掘需求的工具,是进行挖掘工作必须考察的前提。选择某一工具时,应考虑数据类型,主要是考察工具能处理的数据:①关系 数据库的数据。包括数据仓库数据、文本文档、空间数据、 多媒体数据、W e b 数据等;②功能和方法。数据挖掘功能是数据挖掘工具(或系统)的核心,一些数据挖掘工具仅提供一种功能(如分类),另一些工具可能支持另外的挖掘功能(如描述、关联、分类、预测和聚类等);③其他考虑的方面如:系统问题、数据源、可伸缩性、可视化、数据挖掘查询语言和图形用户接口、工具和数据库或数据仓库系统等。 在众多的数据中,有近80%的数据可以通过空间关系表达。现在,通过卫星扫描地球,每天都能获得大量的关于地表的遥感图像。要从大量的数据中判读出每一个图片所潜藏的信息,就必然要用到数据挖掘技术。本文将通过介绍专业的航空遥感图像处理系统E r d a s 和D B -M i n e r 来阐述处理空间数据和关系数据的这一过程及这2种软件的特点。

GIS技术的研究现状及未来发展趋势.

GIS 技术的研究现状及未来发展趋势 摘要:GIS 是随着计算机技术发展而形成的一门新兴技术,其应用程度和范围也随之渗透、延伸,得到了人们的广泛关注。该文综述了地理信.息的发展现状,从多个角度分析当前 GIS 技术发展存在的不足,并在此基础上研究分析了 GIS 技术的未来发展趋势。 关键词:GIS 研究现状发展趋势 0 引言 随着计算机技术的飞速发展、空间技术的日新月异及计算机图形学理论的日渐完善, GIS(Geographic Information System技术也日趋成熟,并且逐渐被人们所认识和接受。近年来, GIS 被世界各国普遍重视,尤其是“数字地球”概念的提出,使其核心技术 GIS 更为各国政府所关注。目前,以管理空间数据见长的 GIS 已经在全球变化与监测、军事、资源管理、城市规划、土地管理、环境研究、农作物估产、灾害预测、交通管理、矿产资源评价、文物保护、湿地制图以及政府部门等许多领域发挥着越来越重要的作用。当前 GIS 正处于急剧发展和变化之中,研究和总结 GIS 技术发展,对进一步开展 GIS 研究工作具有重要的指导意义。因此,本文就目前 GIS 技术的研究现状及未来发展趋势进行总结和分析。 1 GIS 研究现状及其分析 1.1 GIS研究现状 世纪 90年代以来,由于计算机技术的不断突破以及其它相关理论和技术的完善, GIS 在全球得到了迅速的发展。在海量数据存储、处理、表达、显示及数据共享技术等方面都取得了显著的成效,其概括起来有以下几个方面 [1]:①硬件系统采用服务器 /客户机结构,初步形成了网络化、分布式、多媒体 GIS ; ②在 GIS 的设计中, 提出了采用“开放的 CIS 环境” 的概念, 最终以实现资源共享、数据共享为目标; ③高度重视数据标准化与数据质量的问题, 并已形成一些较为可行的数据标准; ④ 面向对象的数据库管理系统已经问世, 正在发展称之为“对象 --关系 DBMS (数据库

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用* 戴晓燕1 过仲阳1 李勤奋2 吴健平1 (1华东师范大学教育部地球信息科学实验室 上海 200062) (2上海市地质调查研究院 上海 200072) 摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 关键词 空间聚类 K-均值法 散度 1 前言 随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。 空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。 空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。 本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2 划分法 设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— *基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学 地理系硕士研究生,主要从事空间数 据挖掘的研究。 · 41 · 2003年第4期 上海地质 Shanghai Geology

数据挖掘研究的现状与发展趋势_郑继刚

数据挖掘研究的现状与发展趋势 郑继刚,王边疆 (保山学院数学系,云南保山678000) 影响其空间分布的因素之间的关系;预测型的模 型用来根据给定的一些属性预测某些属性,如分类模 型和回归模型等. 目前,主要在空间数据挖掘的体系结构和挖掘过 程做了大量研究,包括面向对象的空间数据库的数据 挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类 挖掘、挖掘空间数据的偏离和演变规则、基于多专题 地图的挖掘、交叉概化、基于时空数据的概化、并行数 据挖掘、统计分析与数据挖掘的协同和遥感影像的挖 掘等,主要采用了基于统计学和概率论、集合论、机器 学习、仿生物学、地球信息学的研究方法. 4.2多媒体数据挖掘 多媒体数据,包括图形、图像、文本、文档、超文 本、声音、视频和音频数据等,数据类型复杂.随着信 息技术的进步,人们所接触的数据形式越来越丰富, 多媒体数据的大量涌现,形成了很多海量的多媒体数 据库[8].这些数据大多是非结构化数据、异构数据, 特征向量通常是数十维甚至数百维,转化为结构数据 和降维成了多媒体数据挖掘的关键技术. 有研究者提出了多媒体数据挖掘的系统原型 MDMP,将多媒体数据的建模表示、存储和检索等多 媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联 规则挖掘、分类与聚类分析等挖掘方法,广泛地应用 于医学影像诊断分析、卫星图片分析、地下矿藏预测 等各种领域. 4.3时序数据挖掘 时序数据挖掘通过研究信息的时间特性,深入洞 悉事物进化的机制,揭示其内在规律(如波动的周期、 振幅、趋势的种类等),成为获得知识的有效途径.关 键问题是要是寻找一种合适的序列表示方式,基于点 距离和关键点是常用的算法,但都不能完整表示出序 列的动态属性.时序数据挖掘的主要技术有趋势分析 和相似搜索,在宏观的经济预测、市场营销、客流量分 析、太阳黑子数、月降水量、河流流量、股票价格波动 等众多领域得到了应用.

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

数据挖掘现状与前景

数据挖掘,这是个听起来既神秘,又具有诱惑性的词。就好像要去一片热带沙漠搜寻宝藏,宝藏的诱惑性很强,但是黄沙远处却看不透彻,不知此行是对是错,看到的光亮又是否只是虚幻的海市蜃楼。 所以很多学习数据挖掘的,或是想选择数据挖掘方向的人会在是否踏出第一脚时犹豫不决。 以下,我们就来分析看看数据挖掘的现状及前景。 首先看看百科中数据挖掘的定义:数据挖掘(Data Mining,DM)是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。 基于数据挖掘可能产生的巨大价值,我国的各大重点院校都针对数据挖掘开了专业课程以及研究课题,不仅如此,政府以及大型企业也开始重视这一领域,投资人力物力支持数据挖掘项目。 或许这样说还不够直观,那就就数字佐证。 据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。 国外如此,那中国呢? 随着我国信息化的发展,数据的积累及计算机的广泛应用,加上来自外资企业商业智能数据挖掘应用带来的竞争压力,商业智能及数据挖掘也逐渐在中国也形成了一个产业。随着成功案例的增多,不仅仅是金融保险电信等行业或是政府机构,中小企业也逐渐将商业智能应用于业务之中。 信息化时代数据的潜力不容小觑,IT部门一直是企业的核心,而数据挖掘技术更是得到了前所未有的重视和期待。目前我国数据挖掘、商业智能技术的人才培养体系还未健全,而企业对这方面的需求却一直在增长。数据知识发展为核心竞争力是现在及未来必然的形势。因此数据挖掘、商业智能行业的前景还是非常可观的。 所以,请坚定勇敢地踏出迈向数据挖掘的那一步吧,然后扎实地学好所需的知识理论及实践技巧,最后所收获到的,或许比你所期待的还多。

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。 关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势 Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decision tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining. Key words:data mining,algorithm of data mining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency 1引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(Data Mining,DM)技术应运而生[2]。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 江西理工大学

数据挖掘中的软计算方法及应用综述

摘要文章对数据挖掘中软计算方法及应用作了综述。对模糊逻辑、遗传算法、神经网络、粗集等软计算方法,以及它们的混合算法的特点进行了分析,并对它们在数据挖掘中的应用进行了分类。 关键词数据挖掘;软计算;模糊逻辑;遗传算法;神经网络;粗集 1 引言 在过去的数十年中,随着计算机软件和硬件的发展,我们产生和收集数据的能力已经迅速提高。许多领域的大量数据集中或分布的存储在数据库中[1][2],这些领域包括商业、金融投资业、生产制造业、医疗卫生、科学研究,以及全球信息系统的万维网。数据存储量的增长速度是惊人的。大量的、未加工的数据很难直接产生效益。这些数据的真正价值在于从中找出有用的信息以供决策支持。在许多领域,数据分析都采用传统的手工处理方法。一些分析软件在统计技术的帮助下可将数据汇总,并生成报表。随着数据量和多维数据的进一步增加,高达109的数据库和103的多维数据库已越来越普遍。没有强有力的工具,理解它们已经远远超出了人的能力。所有这些显示我们需要智能的数据分析工具,从大量的数据中发现有用的知识。数据挖掘技术应运而生。 数据挖掘就是指从数据库中发现知识的过程。包括存储和处理数据,选择处理大量数据集的算法、解释结果、使结果可视化。整个过程中支持人机交互的模式[3]。数据挖掘从许多交叉学科中得到发展,并有很好的前景。这些学科包括数据库技术、机器学习、人工智能、模式识别、统计学、模糊推理、专家系统、数据可视化、空间数据分析和高性能计算等。数据挖掘综合以上领域的理论、算法和方法,已成功应用在超市、金融、银行[4]、生产企业 [5]和电信,并有很好的表现。 软计算是能够处理现实环境中一种或多种复杂信息的方法集合。软计算的指导原则是开发利用那些不精确性、不确定性和部分真实数据的容忍技术,以获得易处理、鲁棒性好、低求解成本和更好地与实际融合的性能。通常,软计算试图寻找对精确的或不精确表述问题的近似解[6]。它是创建计算智能系统的有效工具。软计算包括模糊集、神经网络、遗传算法和粗集理论。 2 数据挖掘中的软计算方法 目前,已有多种软计算方法被应用于数据挖掘系统中,来处理一些具有挑战性的问题。软计算方法主要包括模糊逻辑、神经网络、遗传算法和粗糙集等。这些方法各具优势,它们是互补的而非竞争的,与传统的数据分析技术相比,它能使系统更加智能化,有更好的可理解性,且成本更低。下面主要对各种软计算方法及其混合算法做系统性的阐述,并着重强调它们在数据挖掘中的应用情况。 2.1 模糊逻辑 模糊逻辑是1965年由泽德引入的,它为处理不确定和不精确的问题提供了一种数学工具。模糊逻辑是最早、应用最广泛的软计算方法,模糊集技术在数据挖掘领域也占有重要地位。从数据库中挖掘知识主要考虑的是发现有兴趣的模式并以简洁、可理解的方式描述出来。模糊集可以对系统中的数据进行约简和过滤,提供了在高抽象层处理的便利。同时,数据挖掘中的数据分析经常面对多种类型的数据,即符号数据和数字数据。nauck[7]研究了新的算法,可以从同时包含符号数据和数字数据中生成混合模糊规则。数据挖掘中模糊逻辑主要应用于以下几个方面: (1)聚类。将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。聚类分析是一种重要的人类行为,通过聚类,人能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的关系。模糊集有很强的搜索能力,它对发现的结构感兴趣,这会帮助发现定性或半定性数据的依赖度。在数据挖掘中,这种能力可以帮助

数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究 导读:本文以科学引文索引数据库(SCI)、工程索引数据库(EI)以及清华全文数据库(CNKI)中有关“数据挖掘”研究文章的统计数据为研究基础,对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展,并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。 关键字:数据挖掘 0 引言 近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据量与日俱增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运而生。 中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计,对数据挖掘在中国发展的现状及发展趋势进行分析和研究,通过分析有关论文的发表,对数据挖掘在中国的理论研究和实际应用提出建议。 1 数据挖掘的应用与研究发展 数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。数据挖掘是一门新兴的边缘学科,近年来引起了中国学术界和产业界的广泛关注。 数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review)提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。 数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或商业上经常发生的诈骗行为进行预测IBM公司

数据挖掘在中国的现状和发展研究.

万方数据 万方数据 万方数据 万方数据 万方数据 Vo.l18.N.o3管理工程学报2004年第3期圈回[l4j网[l6j皿[lsj[l9j厂.Ll周生炳,张钱,成栋.于规则面向属性的数据库归纳的无回基溯算法[7软件学报,9,()63681.1917:7一7.90蒋嵘,李德毅,范建华.数值型

数据的泛概念树的自动生成方法【1计算机学报,0,()4046i.2025:一7.037一」一一尸十勺,1,刁[7软件学报,0,()7574J.2016:一4.013周水庚,周傲类,曹晶.基于数据分区的DSABCN算法【l计J.算机研究与发展,0,0)13192030:一1.07155「一-,,‘ ,郭建生,,赵奕施鹏飞一种有效的用于数据挖掘的动态概念毛国君,椿年.于项目序列集操作的关联规则挖掘算法刘基]i计算机学报,0,()4742I.2224:1一2.05IL尸聚类算法[l软件学报,0,()一9.J.2114:2510258内、内j「一一J魏李,宫学庆,钱卫宁,高维空间中的离群点发现〔l软件等.J.学报,0,32:8一9.221()20200门仁」程岩,黄梯云.粗糙集中定量关联规则的发现及其规则约简的方法研究【〕管理工程学报,0,()7-7J2113:7.053esLF飞)4俞蓓,王军,叶施仁.基于近邻方法的高维数据可视化聚类方苑森森,程晓青,数量关联规则发现中的聚类方法研究【l计i.法〔7计算机研究与发展,0,()747.J.2036:-07120r..L算机学报,0,()87812028:一7.036倪志伟,蔡庆生,方瑾.用神经网络来挖掘数据库中的关联规内、〕‘ 一一J「陈宁,陈安,周龙骥.大规模交易数据库的一种有效聚类算法[7软件学报,0,()4544J.2114:7一8.02L则【l系统仿真学报,0,()65671.2016:-.0288J内几6lesEtM,rSneJAgimadlaosstlsrPtKadrlrhsapcifpieeH,e.tonpitnoaar陆建江.数据库中布尔型及广义模糊型加权关联规则的挖掘dai仁lIicprGoaiDtMngamnZ.vehtferhainatignntaeogpcaindrdKolgDsvr,eroorhiGSTyrdnweeceRscMngpsI,ladioyeahanaonFacs20.一3.rni,112

数据挖掘综述

数据挖掘综述 1、产生背景 随着计算机的产生和大量数字化的存储方法的出现,我们借助计算机来收集和分类各种数据资料,但是不同存储结构存放的大量数据集合很快被淹没,便导致了结构化数据库以及DBMS的产生。 但是随着信息时代的到来,信息量远远超过了我们所能处理的范围,从商业交易数据、科学资料到卫星图片、文本报告和军事情报,以及生活中各种信息,这也就是“数据爆炸但知识贫乏”的网络时代,面对巨大的数据资料,出现了新的需求,希望能够更好的利用这些数据,进行更高层次的分析,从这些巨大的数据中提取出对我们有意义的数据,这就是知识发现(KDD,Knowledge Discovery in Databases),数据挖掘应运而生。 2、数据库系统技术的演变 1)20世纪60年代和更早 这个时期是数据收集和数据库创建的过程,原始文件的处理2)20世纪70年代---80年代初期 有层次性数据库、网状数据库、关系数据库系统 3)20世纪80年代中期—现在 高级数据库系统,可以应用在空间、时间的、多媒体的、主动的、流的和传感器的、科学的和工程的。 4)20世纪80年代后期—现在

高级数据分析:数据仓库和数据挖掘 5)20世纪90年代—现在 基于web的数据库,与信息检索和数据信息的集成6)现在---将来 新一代的集成数据域信息系统 3、数据挖掘概念 数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在的有用的,最终可以理解的模式的非平凡过程。数据挖掘,又称为数据库中知识发现(KDD,Knowledge Discovery in Databases),也有人把数据挖掘作为数据库中知识发现过程的一个基本步骤。 数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库等。 4、数据挖掘特点和任务 4.1数据挖掘具有以下几个特点: 1)处理的数据规模十分庞大,达到GB,TB数量级,甚至更大2)查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴 趣的东西。 3)在一些应用(如商业投资等)中,由于数据变化迅速,因此

基于matlab的数据挖掘技术研究【文献综述】

毕业论文文献综述 信息与计算科学 基于matlab的数据挖掘技术研究 数据挖掘是用于大规模数据处理的一种新的思维方式和技术手段,他是在现实生活中各种数据量呈指数级不断增长,以及以数据库(database)技术为核心的信息技术逐渐成熟的背景下产生的。数据挖掘可以帮助用户发现影藏在大型数据库中的规律和模式,它融合了人工智能(artificial intelligence)、统计(statistics)、机器学习(nachine learning)、模式识别(pattern recognition)和数据库等多种学科的理论、方法与技术,已经在商业、企业、政府、科研及体育等多种不同类型的组织机构和领域中获得了非常广泛的应用。即使在日常生活中,数据挖掘技术也已经潜移默化地参与到人们的生活质量改善过程中。 数据挖掘有很多种技术和计算方法,包括决策树方法(decision tree)、人工神经网络方法(artificial neural metwork,ANN)、聚类分析、模糊集合方法、遗传算法(genetic algorithm)、模拟退火算法(simulated annealing,SA)、进化式程序设计(evolutionary programming)等。这里主要介绍一下聚类分析、遗传算法和人工神经网络算法。 聚类分析也称无监督学习,或无教师学习,或无指导学习,因为和分类学习相比,聚类的样本没有标记,需要由聚类学习算法来自动确定。聚类分析是研究如何在没有训练的条件下把样本划分为若干。聚类(clustering)是对物理的或抽象的样本集合分组的过程。聚类分析有很多种目标,但都涉及把一个样本集合分组或分割为子集或簇(cluster)。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。聚类分析主要针对的数据类型包括区间标度变量、二值变量、标称变量、序数型变量、比例标度型变量以及由这些变量类型构成的复合类型。聚类算法应具有以下几个特点:1处理不同字段类型的能力;2可伸缩性;3处理高维数据的能力;4发现具有任意簇的形状的族类能力;5能够处理异常数据;6对数据顺序的不敏感性;7输入参数对领域知识的弱依赖性;8聚类结果的可解释性和实用性;9增加限制条件后的聚类分析能力。 基因算法起源于对生物系统进行的计算机模拟研究,是一种受生物进化启发,使用计算机模拟生物进化的学习方法。基因算法是模拟生物进化过程的计算模型,是自然遗传学与计算机科学互相结合、互相渗透而形成的新的计算方法。基因算法的最大优点是问题求解与初始条件无关,搜索最优解的能力极强。从数学的角度看,基因算法是一种概率型搜索算法:从工程学角度看,它是一种自适应的迭代寻优过程。基因算法需要完成两种数据转换,算法实施之前进行从表现型到基因型的转换,即将搜索空间中的参数或可行解转化成遗传空间中的染色体或个体,完成编码操作;在算法

可视化空间数据挖掘研究综述

可视化空间数据挖掘研究综述 贾泽露1,2 刘耀林2 (1. 河南理工大学测绘与国土信息工程学院,焦作,454000;2. 武汉大学资源与环境科学学院,武汉,430079)摘要:空间数据挖掘针对的是更具有可视化要求的地理空间数据的知识发现过程,可视化能提供同用户对空间目标心理认知过程相适应的信息表现和分析环境,可视化与空间数据挖掘的结合是该领域研究发展的必然,并已成为一个研究热点。论文综述了空间数据挖掘和可视化的研究现状,重点阐述了空间数据挖掘中的可视化化技术及其应用,并对可视化空间数据挖掘的发展趋势进行了阐述。 关键词:数据挖掘;空间数据挖掘;数据可视化;信息可视化;GIS; 空间信息获取技术的飞速发展和各种应用的广泛深入,多分辨率、多时态空间信息大量涌现,以及与之紧密相关的非空间数据的日益丰富,对海量空间信息的综合应用和处理技术提出了新的挑战,要求越来越高。空间数据挖掘技术作为一种高效处理海量地学空间数据、提高地学分析自动化和智能化水平、解决地学领域“数据爆炸、知识贫乏”问题的有效手段,已发展成为空间信息处理的关键技术。然而,传统数据挖掘“黑箱”作业过程使得用户只能被动地接受挖掘结果。可视化技术能为数据挖掘提供直观的数据输入、输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了传统数据挖掘过程“黑箱”作业的缺点,同时也大大弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度[1]。空间数据挖掘中可视化技术已由数据的空间展现逐步发展成为表现数据内在复杂结构、关系和规律的技术,由静态空间关系的可视化发展到表示系统演变过程的可视化。可视化方法不仅用于数据的理解,而且用于空间知识的呈现。可视化与空间数据挖掘的结合己成为必然,并已形成了当前空间数据挖掘1与知识发现的一个新的研究热点——可视化空间数据挖掘(Visual Spatial Data Mining,VSDM)。VSDM技术将打破传统数据挖掘算法的“封闭性”,充分利用各式各样的数据可视化技术,以一种完全开放、互动的方式支持用户结合自身专业背景参与到数据挖掘的全过程中,从而提高数据挖掘的有效性和可靠性。本文将对空间数据挖掘、可视化的研究概况,以及可视化在空间数据挖掘中的应用进行概括性回顾总结,并对未来发展趋势进行探讨。 一、空间数据挖掘研究概述 1.1 空间数据挖掘的诞生及发展 1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,从事数据库、人工智能、数理统计和可视化等技术的学者们,首次出现了从数据库中发现知识(knowledge discovery in database,KDD)的概念,标志着数据挖掘技术的诞生[1]。此时的数据挖掘针对的 作者1简介:贾泽露(1977,6-),男,土家族,湖北巴东人,讲师,博士,主要从事空间数据挖掘、可视化、土地信息系统智能化及GIS理论、方法与应用的研究和教学工作。 作者2简介:刘耀林(1960,9- ),男,汉族,湖北黄冈人,教授,博士,博士生导师,武汉大学资源与环境科学学院院长,现从事地理信息系统的理论、方法和应用研究和教学工作。

数据挖掘研究及发展现状

数据挖掘技术的研究现状及发展方向 摘要:数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展方向。 关键词:数据挖掘;神经网络;决策树;粗糙集;模糊集;研究现状;发展方向 The present situation and future direction of the data mining technology research Abstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advantages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international research situation and focus of data mining in details, and pointed out the development trend of data mining. Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development direction 0 引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖,从而达到为决策服务的目的。在这种情况下,一个新的技术——数据挖掘(Data Mining,DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。 数据挖掘通常又称数据库中的知识发现(Knowledge Discovery in Databases),是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 1 数据挖掘算法 数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。 数据选择:确定发现任务的操作对象,即目标对象; 预处理:包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等; 转换:消减数据维数或降维; 数据开采:确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等,并确定使用什么样的开采算法; 解释和评价:数据挖掘阶段发现的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用。十大经典算法如图2: 目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

相关主题
文本预览
相关文档 最新文档