当前位置:文档之家› 可视化空间数据挖掘研究综述

可视化空间数据挖掘研究综述

可视化空间数据挖掘研究综述
可视化空间数据挖掘研究综述

可视化空间数据挖掘研究综述

贾泽露1,2 刘耀林2

(1. 河南理工大学测绘与国土信息工程学院,焦作,454000;2. 武汉大学资源与环境科学学院,武汉,430079)摘要:空间数据挖掘针对的是更具有可视化要求的地理空间数据的知识发现过程,可视化能提供同用户对空间目标心理认知过程相适应的信息表现和分析环境,可视化与空间数据挖掘的结合是该领域研究发展的必然,并已成为一个研究热点。论文综述了空间数据挖掘和可视化的研究现状,重点阐述了空间数据挖掘中的可视化化技术及其应用,并对可视化空间数据挖掘的发展趋势进行了阐述。

关键词:数据挖掘;空间数据挖掘;数据可视化;信息可视化;GIS;

空间信息获取技术的飞速发展和各种应用的广泛深入,多分辨率、多时态空间信息大量涌现,以及与之紧密相关的非空间数据的日益丰富,对海量空间信息的综合应用和处理技术提出了新的挑战,要求越来越高。空间数据挖掘技术作为一种高效处理海量地学空间数据、提高地学分析自动化和智能化水平、解决地学领域“数据爆炸、知识贫乏”问题的有效手段,已发展成为空间信息处理的关键技术。然而,传统数据挖掘“黑箱”作业过程使得用户只能被动地接受挖掘结果。可视化技术能为数据挖掘提供直观的数据输入、输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了传统数据挖掘过程“黑箱”作业的缺点,同时也大大弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度[1]。空间数据挖掘中可视化技术已由数据的空间展现逐步发展成为表现数据内在复杂结构、关系和规律的技术,由静态空间关系的可视化发展到表示系统演变过程的可视化。可视化方法不仅用于数据的理解,而且用于空间知识的呈现。可视化与空间数据挖掘的结合己成为必然,并已形成了当前空间数据挖掘1与知识发现的一个新的研究热点——可视化空间数据挖掘(Visual Spatial Data Mining,VSDM)。VSDM技术将打破传统数据挖掘算法的“封闭性”,充分利用各式各样的数据可视化技术,以一种完全开放、互动的方式支持用户结合自身专业背景参与到数据挖掘的全过程中,从而提高数据挖掘的有效性和可靠性。本文将对空间数据挖掘、可视化的研究概况,以及可视化在空间数据挖掘中的应用进行概括性回顾总结,并对未来发展趋势进行探讨。

一、空间数据挖掘研究概述

1.1 空间数据挖掘的诞生及发展

1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,从事数据库、人工智能、数理统计和可视化等技术的学者们,首次出现了从数据库中发现知识(knowledge discovery in database,KDD)的概念,标志着数据挖掘技术的诞生[1]。此时的数据挖掘针对的

作者1简介:贾泽露(1977,6-),男,土家族,湖北巴东人,讲师,博士,主要从事空间数据挖掘、可视化、土地信息系统智能化及GIS理论、方法与应用的研究和教学工作。

作者2简介:刘耀林(1960,9- ),男,汉族,湖北黄冈人,教授,博士,博士生导师,武汉大学资源与环境科学学院院长,现从事地理信息系统的理论、方法和应用研究和教学工作。

一般是非空间数据,其研究和应用的成果势必对空间数据的利用造成影响。在数据挖掘技术发展与海量空间数据积累的推动下,为了引导地球空间信息学向更深的层次发展,国内外对空间数据挖掘展开了积极的研究。加拿大西蒙法拉色大学计算机科学系的韩家炜教授领导的研究小组,较早对空间数据挖掘进行系统全面的研究[1]。1994年,在加拿大渥太华举行的GIS国际学术会议上,我国著名地球信息科学学者李德仁院士首次提出了从GIS数据库中发现知识(knowledge discovery from GIS,KDG)的概念,并系统分析了空间知识发现的特点和方法,认为它能够把GIS有限的数据变成无限的知识,并进一步用于精练和更新GIS数据,使GIS成为智能化的信息系统[2]。1995年,在加拿大召开的第一届知识发现和数据挖掘国际学术会议上,数据库中的数据被形象地喻为矿床,再次出现了崭新的数据挖掘(data mining, DM)学科。由于DM和KDD较为常用且难以分离,而且DM通常被认为是KDD中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤,即数据挖掘和知识发现(data mining and knowledge discovery,DMKD)。同时,李德仁院士也把KDD进一步发展为空间数据挖掘和知识发现(SDMKD),系统地研究或提出了可用的理论、技术和方法,并取得了很多创新性成果[2~7],奠定了空间数据挖掘和知识发现在地球空间信息学中的学科地位和基础。经过10多年的发展,空间数据挖掘已经显示出在空间数据处理分析中具有越来越重要的作用,SDMKD目前已经成为国际研究和应用的热点,国内外对SDMKD的研究应用也正愈来愈引起人们的极大关注,并且取得了相当的理论和技术成就。如:李德仁院士最早开始关注空间数据挖掘和知识发现[2],不仅在国际上第一次提出了空间数据挖掘和知识发现的概念,而且率先研究了从GIS数据库中发现知识[4],构筑了空间数据挖掘和知识发现的理论框架[5],系统研究了粗集和云理论在空间数据挖掘中的理论和技术[2,6],提出了用于空间数据挖掘的地学粗空间理论。王树良博士在李德毅院士的云理论的基础上,完善了数据场的概念,提出了空间数据挖掘视觉的概念及实现方法,并成功地应用于滑坡监测数据挖掘,取得了较好的成果[8]。秦昆博士在对图像数据挖掘的理论与方法进行系统研究的基础上,针对图像(遥感图像)数据中蕴涵的内容,如光谱特征、纹理特征、形状特征、空间分布特征等来进行挖掘,挖掘出抽象层次更高的知识,并研究出了遥感图像数据挖掘软件原型系统的框架,设计和开发了遥感图像数据挖掘软件原型系统RSImageMiner[9]。Murray和Estivill_Castro[10]回顾了探测性空间数据分析的聚类发现技术,分析了基于统计学、数据挖掘和地理信息系统的空间模式识别和知识发现方法。Koperski,Adhikary和Han[11]总结了空间数据挖掘的发展,认为巨量的空间数据来自从遥感到GIS、计算机制图、环境评价和规划等各种领域,空间数据的累积已经远远超出人们的分析能力,数据挖掘已经从关系数据库和交易数据库扩展到空间数据库。他们就空间数据生成、空间数据聚类和挖掘空间数据关联规则等方面总结了空间数据挖掘的最近发展。Han和Kamber[12]在其数据挖掘专著中,系统讲述了空间数据挖掘的概念和技术。汪闽和周成虎[13]根据自己的认识讨论了空间数据挖掘的研究进展。总体上讲,经过十多年的发展,SDMKD无论是其理论研究还是相关软件原型的研制目前都已得到蓬勃发展并已逐渐走向成熟。

1.2 空间数据挖掘的概念、方法和理论

空间数据挖掘(Spatial Data Mining,SDM)指的是从空间数据库中抽取隐含的知识、空间关系或非显式地存储在空间数据库中有意义的特征或模式等[14]。SDM需要综合数据挖掘(Data

Mining,DM)与空间数据库技术,可用于对空间数据的理解,空间关系和空间与非空间数据间关系的发现、空间知识库的构造、空间数据库的重组和空间查询的优化等[15]。SDM是计算机技术、数据库应用技术和管理决策支持技术等发展到一定阶段多学科交叉的新兴边缘学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果。

SDM的方法很多,根据发现对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、异质数据库、互联网Web 等;根据发现方法可分为机器学习方法(归纳学习、决策树、规则归纳、基于范例学习、遗传算法) 、统计方法(回归分析、判别分析、聚类分析、探索性分析) 、神经网络方法(BP 算法、自组织神经网络) 、数据库方法;根据发现任务可分为分类、聚类、关联规则发现、时间序列预测、演化规则发掘等。按数据挖掘的目的来划分,常用的空间数据挖掘技术包括:空间数据概化、空间规则挖掘、空间分类、空间趋势预测、空间聚类、空间离群点查找等。一般地,SDM可以分成4类挖掘方法:空间分类和预测、空间聚类、空间孤立点和空间关联规则。

关于SDM的理论和方法,王新洲等[16]进行了详细的讨论。概括起来,其可用的理论方法有:概率论、证据理论、空间统计学、规则归纳、聚类分析、空间分析、模糊集、云理论、粗集、神经网络、遗传算法、决策树、空间在线数据挖掘、分类分析、预测、关联规则分析、时间序列分析、熵空间理论、形式概念分析理论(概念格理论)等。这些理论和方法都是自成体系的,不是SDM自身的理论体系。因此,王新洲教授认为,关于SDM理论的研究应重点放在构建SDM 系统的理论框架上,不能简单地将各种现成理论统归于SDM理论。并提出SDM的系统理论框架应由三大部分构成[17]:SDM的基础理论、SDM的技术方法和SDM结果的质量评价体系。

二、可视化研究概述

可视化(Visualization)技术是指将描述自然、社会状况的数字、字符等信息转换为人类直观可视的图像,以从中洞察自然、社会本质的技术。它向人们提供一种方法和手段,即以人们惯于接受图形、图像并辅之以信息处理技术,将被感知、被认知、被想象、被推理、被综合及被抽象了的对象属性及其变化发展的形式和过程,通过形象化、模拟化、仿真化、现实化的技术手段表现出来,利用这种方法和手段人们可以观察人们所不能观察到的事务或概念,其目标是帮助人们增强认知能力。基于计算机的可视化技术不仅仅把计算机作为信息集成处理的工具,用计算机图形和其他技术来考虑更多的样本、变量和联系。它更是用户之间的一种交流媒介,在认知激励和用户认知之间建立起一个反馈环。可视化不仅是客观现实的形象再现,也是客观规律、知识和信息的有机融合。根据研究的对象、目的及方式的不同,可视化可以分为科学可视化、数据可视化、信息可视化、知识可视化[18]。一般情况下,研究较多的可视化技术多指数据可视化。数据可视化是指运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术,具有交互性、多维性和可视性[19]三大特点。它拓宽了传统的图标功能,使用户对数据的剖析更加清晰,并可以控制数据分析过程[20,21]。

人类的认知系统可以识别空间三维物体,对于抽象的物体或者像素的识别很困难。空间的可视性最多能够达到四维。目前,可视化方法研究主要体现在以下几个方面:(1)空间三维图形:不同的图形元素的组合的变换映射为不同的数据维解释。把一个可视化空间结构和一条数据信息对应起来。通过图形的密度和颜色的分布,大致能够了解数据的分布、数据之间的相似

性和数据之间的关系。(2)颜色图:分为彩色图和灰度图。彩色图的每一种颜色,对应着不同的属性维,灰度图可以利用颜色的深浅来标记数据量的属性值的大小,颜色越深,数值越大或者用它来强调某种特别的信息,它通常预先需要很好的映射定义。(3)亮度:对于特定的区域,用不同的亮度来辅助人眼对视点的观察。(4)数学的方法:利用数学中统计的方法,先对数据关系进行分析,得到数据的大体分布信息,然后再结合其它的可视化方法来进行细节数据分析。或者利用数学中统计的方法对数据中的关系进行映射,映射成为图形图像关系来帮助分析。目前,对可视化的研究多集中在多维数据可视化的研究方面,对此,任东怀等[22]对多维数据可视化中采用的主要视图变换方法、目前主要的多维数据可视化技术(包括:Scatterplot Matri技术、几何图技术、图标技术、平行坐标技术、Hierarchy技术以及Treemap、Cone Trees等层次化技术等)以及主要的降维技术等进行了详细的阐述。

三、可视化空间数据挖掘

为了在数据挖掘过程中将人类的灵活性、创造力和通用的常识与计算机强大的计算和存储功能结合起来,从而将可视化技术应用到数据挖掘中,产生了可视化数据挖掘技术。因此,用户可以根据可视化的视觉反馈指导更快地研究数据的更多特性。数据挖掘中的可视化技术根据是否包括物理数据,可粗略地分为两类:科学计算可视化和信息可视化。科学计算可视化显示的对象涉及标量、矢量和张量等不同类别的空间数据,研究的重点放在如何真实、快速地显示三维数据场。信息可视化研究的对象主要是显示多维的标量数据,研究的重点放在设计和选择合适的显示方式表示庞大的多维数据及其相互之间的关系,是从数据信息到可视化形式再到人的感知系统的可调节的映射。SDM针对的是更具有可视化要求的地理空间数据的知识发现过程,可视化能提供同用户对空间目标心理认知过程相适应的信息表现和分析环境。在SDM中可视化对于知识发现和知识构建有两个显著的优点:提供高度的交互功能,让用户比较自由地发挥自己的能动性,控制数据挖掘过程;提供丰富的可视化表现能力,从空间数据的各维、各角度同时展开分析,有利于用户更深入地理解问题和选用更适当的数据挖掘模型算法。

3.1 空间数据挖掘中可视化技术的提出及现状

数据挖掘可视化技术来源于美国国家基金会(NSF)的报告《科学计算中的可视化》,最初用于绘制物理数据的可观察属性,后来逐步应用于抽象信息的直观表达,用来揭示信息之间的关系和信息中隐藏的特征。随着人机交互技术和认知技术的运用,刻画数据之间复杂关系的数据挖掘过程和结果的可视化成为可能。自2001年起连续3年分别在欧洲“机器学习暨KDD理论与实践”和IEEE第三届国际数据挖掘会议期间召开了国际性的可视化数据挖掘(VDM)专场学术研讨会。SDM的可视化分为二维(x,y)、三维(x,y,z)和四维(x,y,z,t)可视化,如果分别对它们按时间序列实时处理,就可以形成较全面地反映数据挖掘过程和知识的动画。建立在可视化基础之上的SDM可视化理论和技术,将对空间信息可视表达、分析的研究与实践产生更大的影响。在此方面已有很多学者进行了相应的研究。如Kriegel等[23]利用可调的多参数函数分段逼近空间物体表面,然后以此为基础挖掘空间分布知识,并用误差椭圆评估可视化的知识。Ravantti和Bamford[24]用三维可视化的空间数据挖掘技术分析了用于表示高分子结构的密度图,兼顾了感兴趣的确定部分和可能的扩展部分。Ankerst等[25]分析了空间目标的形状属性,利用3D形状的直方图表示空间数据库中的相似搜寻和分类。Maceachren等[26]集成了地理可视

化和空间数据挖掘,从结构化的多元时空数据集中构筑知识。

3.2 空间数据挖掘中可视化技术的应用

SDM的每一步流程均能够同可视化结合起来:包括数据选取过程、数据预处理、SDM算法的分析处理、SDM结果的解释和表达,可视化贯穿于SDM整个流程当中,可视化手段对于知识的提炼、整理和表现都至关重要。因此,将SDM过程置于可视化的环境之下,二者的结合促使数据挖掘经历一个数据可视化——挖掘算法的应用——挖掘结果的验证和可视化表达——挖掘算法的进一步改进和完善的循环往复的提高过程,可视化在其中扮演重要角色。目前SDM中可视化技术的应用主要体现在以下几个方面:

(1)数据可视化。数据库和数据仓库中的数据可看作具有不同的粒度或不同的抽象级别,也可以看作是由不同属性和维组合起来的。数据能用多种可视化方式进行描述,比如盒状图、三维立方体、数据分布图表、曲线、曲面、连接图等,或者以上几种方法的任意组合,完成数据组织的可视化。传统的几何方法如点图,线图,柱状图,饼图等。数据分析的目的不同,采用的方法也不同。目前数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等等。

(2)挖掘过程的可视化。即指数据挖掘过程的各个环节用可视化的方式表现出来,用户可从中直观地看到内容,如:数据从哪个数据仓库或数据库抽取出来;数据怎样被抽取;所选择的数据是如何经过清理、预处理、集成和挖掘的;数据挖掘过程中哪种数据挖掘算法被选取;结果如何存储和显示的。这方面值得一提的是一个开源的数据挖掘软件产品——Weka,Weka用可视化的形式描述各种数据挖掘过程,用户可以看出数据是怎样清洗、转换和挖掘的。

(3)挖掘模型的可视化。并不是每个用户都是数据挖掘方面的专家;用户事先也不知道数据挖掘能发现什么样的信息;有些模型很难被理解。因此我们必须把数据挖掘模型转换成最自然的表示。只有这样,才能更有效地理解模型,然后采取行动。另外,有些模型得到的结果很庞大,如关联规则。有可能一次数据挖掘得到许多的规则,如何从这些规则中发现感兴趣的是一个辣手的问题。因此,模型可视化主要可以考虑两个方面:让模型输出可视化和交互操纵。即挖掘模型输出时用一种有意义的方式表示,同时允许用户操纵模型,改变模型输入以观察模型输出的变化。

(4)挖掘结果的可视化。既将数据挖掘得到的知识或结果用可视化的形式表示出来,这些形式包括盒图、散列图、决策树、簇、概化规则等。在数据挖掘系统和产品方面早期比较著名的有加拿大Simon Fraser大学的Han Jiawei博士等人开发的OLAP挖掘系统DBMiner2.0,提供了对挖掘结果进行交互式可视化的功能,其他的还有IBM的Intelligent Miner, Polar System,SAS的 Enterprise Miner,Minset3.0等都是提供数据挖掘结果可视化功能的数据挖掘软件。

(5)数据挖掘交互式可视化。数据挖掘交互式可视化把用户引入到挖掘过程当中,使具有灵活性、创造性和大量知识的人能与具有强大处理能力和海量存储能力的计算机相结合,在交互式数据挖掘过程中,帮助用户作出明智的数据挖掘决策。Nigel等提出了针对企业用户的一个数据挖掘的试验性过程,指出数据挖掘应该在整个过程中都提供可视化,而不仅仅在结果呈

现时才将可视的信息展现给用户,这样用户能够掌握的信息就会更多,数据挖掘也可以更充分的应用人脑中的知识。基于此理念,Nigel等人还开发了一个数据挖掘交互式可视化软件VDEM ( Vitual Data Mining Environment),将人设置在虚拟环境中来找到解决数据挖掘问题的线索。

(6)可视化数据挖掘与GIS的结合。数据挖掘可以利用GIS作为可视化的有效手段,如加拿大Simon Fraser大学开发了建立在MapInfo基础上的可视化数据挖掘系统GeoMiner,该系统通过GMQL查询语言作为空间数据挖掘查询工具,用户可以动态地以图形、图表和地图的形式操作和观察数据挖掘过程。德国国家信息技术中心研发了基于Web的空间数据挖掘系统SPIN,其实质是将交互式地图设计工具Descarts与空间数据挖掘(机器学习和贝叶斯统计)的数据分析工具结合起来。美国宾夕法尼亚大学的Apoala项目研发了一种将地理可视化技术同空间知识发现紧密结合用于复杂多维环境数据的分析处理方法。在目前针对可视化空间数据挖掘提出的屈指可数的系统中,有代表性的是基于Linux系统的XGobi。运行时,XGobi与ArcView3.0构成一个松散集成环境。这一环境通过动态连接两种软件:GIS软件——ArcView和多维数据可视化工具——XGobi,充分利用二者的优势,以动态地图为主体,动态关联多种多维数据可视化技术的可视化表达方式,协同完成空间数据挖掘可视化的任务。

四、结束语

目前,可视化技术在数据挖掘中一般是作为表达工具,如生成最初的视图,解析复杂结构的数据和显示分析结果。可视化与分析数据挖掘技术之间的松散关系代表了当今可视化数据挖掘系统的主要状况。现有的相互插入策略,只是简单将分析过程和图形可视化交错在一起,这突出了两者的欠缺和限制。当前的可视化数据挖掘方法大致可以划分为以下几种:(1)由传统的可视化方法组成或者独立于数据挖掘算法。(2)描述了通过数据挖掘算法抽取的模式,从而有助于对模式更好的理解。(3)在数据挖掘算法运行过程当中,允许用户通过可视化进行指导、操控。目前几乎所有已经提出的可视化数据挖掘方法都属于第一组或第二组。

一个更强的可视数据挖掘策略依赖于将可视化与分析过程紧密结合起来形成一个统一强大的可视数据挖掘工具。目前,使人类可视地参与到分析过程中以实现决策支持依然是一个主要的挑战。因此,未来的工作包括两个方面,一是针对复杂的信息结构如Web数据和文本等半结构化、非结构化的数据开发合适的可视化挖掘方法;二是将各种可视化方法与来自统计学、机器学习、运筹学、仿真技术的传统方法紧密结合,融入到数据挖掘的过程中,把快速、自动的数据挖掘算法与人脑的认知能力、判断能力结合起来,改善可视化数据挖掘过程的质量和速度。最终的目标是使得基于计算机的可视化数据挖掘系统具有简单性、可见性、用户自主性、可靠性、可重用性和安全性,具有更好、更快速、更直观地探索大型数据资源的能力。

参考文献:

[1]王树良.基于数据场与云模型的空间数据挖掘和知识发现[D].武汉:武汉大学,2002

[2] Li D R, Cheng T. KDG——Knowledge Discovery from GIS. The Canadian Conference on GIS, Ottawa, Canada,1994:1001~1012

[3]Wang Shuliang,Li Deren,Li Deyi,et al. Cloud Models-Based SDMKD, Geoinformatics’2002: GIS and Remote Sensing for Global Change Studies and Sustainable Development [J]. International Association of Chinese Professionals in Geographic Information Science (CPGIS), 2002,C54:1~11

[4]王树良,李德仁,史文中等.地学粗空间的理论与应用[J].武汉大学学报·信息科学版,2002,27(3): 274~282

[5]李德仁,王树良,史文中等. 论空间数据挖掘和知识发现[J].武汉大学学报·信息科学版,2001,26(6):491~499

[6]李德仁,王树良,李德毅等.论空间数据挖掘和知识发现的理论和方法[J].武汉大学学报·信息科学版,2002,27(3):221~233

[7]王树良,李德仁,史文中等.地学粗空间的理论与应用[J].武汉大学学报·信息科学版,2002,27(3): 274~282

[8]王树良,王新洲,曾旭平等.滑坡监测数据挖掘视角[J].武汉大学学报·信息科学版,2004,29(7): 608~610

[9] 秦昆.基于形式概念分析的图像数据挖掘研究[D].武汉:武汉大学,2004

[10] Murray A T, Estivill_castro V. Clustering Discovery Techniques for Exploratory Spatial Data Analysis. International Journal of Geographical Information Science,1998,12(5):431~443

[11] Koperski K, Adhikary J, Han J. Spatial Data Mining: Process and Challenges Survey Paper. SIGMOD’96 Workshop on Research Issues on Data Mining and Knowledge Discovery (DMKD’96), Montreal, Canada, 1996

[12] Han J,Kamber M.Data Mining:Concepts and Techniques.San Francisco:Academic Press,2001

[13] 汪闽,周成虎.空间数据挖掘方法的研究进展[C].中国地理信息系统协会2001年年会, 成都, 2001

[14] Lu W, Han J, et al. Discovery of general knowledge in large spatial databases. In: Proc. Far East Workshop on Geographic Information Systems.Singapore,1993:275~289

[15]范明,孟小峰等译. 数据挖掘概念与技术[M].北京:机械工业出版社,2001

[16]王新洲.论空间数据处理与空间数据挖掘[J].武汉大学学报·信息科学版,2006,31(1):1~4

[17]李德仁,王树良,李德毅等.论空间数据挖掘和知识发现的理论与方法[J].武汉大学学报·信息科学版,2002,27(3):221~232

[18]罗棒晟.可视化浅析[J].科技情报开发与经济,2006,16(5):188~19O.

[19]黄志澄.数据可视化技术及其应用展望[J].电子展望与决策,1999,(6):3~9.

[20]韩卫国,王劲峰,王海起等.基于数据可视化的交通流量分析[J].武汉理工大学学报(交通科学与工程版),2004,10(5):668~67O.

[21]Daniel R M,Dianne C.Visualization of data[J].Current Opinion In Biotechnology,2000,11(1):89~96.

[22] 任东怀,胡俊. 多维数据可视化技术综述[J].工程地质计算机应用 2006(4):4~9.

[23] Kriegel H P. 3D Similarity Search by Shape Approximation. In: Scholl M, Voisard A, eds. Proceedings of the 5th International Symposium on Spatial Databases (SSD’97). Berlin: Springer_Verlag, 1997:11~28

[24]Ravantti J J. Bamford D H.A Data Mining Approachfor Analyzing Density Maps Representing Macromolecular Structures. Journal of Structural Biology, 1999(25):216~222

[25]Ankerst M. 3D Shape Histograms for Similarity Search and Classification in Spatial Databases. In:Güting RH,Papadias D,Lochovshy F.eds.Proceedings of the 6th International Symposium on Spatial Databases (SSD’99). Berlin: Springer_Verlag,1999:207~225

[26]Maceachren A M. Constructing Knowledge from Multivariate Spatiotemporal Data:Integrating Geographical Visualization with Knowledge Discovery in Database Methods. International Journal of Geographical Information Science, 1999,13(4):311~334

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

GIS技术的研究现状及未来发展趋势.

GIS 技术的研究现状及未来发展趋势 摘要:GIS 是随着计算机技术发展而形成的一门新兴技术,其应用程度和范围也随之渗透、延伸,得到了人们的广泛关注。该文综述了地理信.息的发展现状,从多个角度分析当前 GIS 技术发展存在的不足,并在此基础上研究分析了 GIS 技术的未来发展趋势。 关键词:GIS 研究现状发展趋势 0 引言 随着计算机技术的飞速发展、空间技术的日新月异及计算机图形学理论的日渐完善, GIS(Geographic Information System技术也日趋成熟,并且逐渐被人们所认识和接受。近年来, GIS 被世界各国普遍重视,尤其是“数字地球”概念的提出,使其核心技术 GIS 更为各国政府所关注。目前,以管理空间数据见长的 GIS 已经在全球变化与监测、军事、资源管理、城市规划、土地管理、环境研究、农作物估产、灾害预测、交通管理、矿产资源评价、文物保护、湿地制图以及政府部门等许多领域发挥着越来越重要的作用。当前 GIS 正处于急剧发展和变化之中,研究和总结 GIS 技术发展,对进一步开展 GIS 研究工作具有重要的指导意义。因此,本文就目前 GIS 技术的研究现状及未来发展趋势进行总结和分析。 1 GIS 研究现状及其分析 1.1 GIS研究现状 世纪 90年代以来,由于计算机技术的不断突破以及其它相关理论和技术的完善, GIS 在全球得到了迅速的发展。在海量数据存储、处理、表达、显示及数据共享技术等方面都取得了显著的成效,其概括起来有以下几个方面 [1]:①硬件系统采用服务器 /客户机结构,初步形成了网络化、分布式、多媒体 GIS ; ②在 GIS 的设计中, 提出了采用“开放的 CIS 环境” 的概念, 最终以实现资源共享、数据共享为目标; ③高度重视数据标准化与数据质量的问题, 并已形成一些较为可行的数据标准; ④ 面向对象的数据库管理系统已经问世, 正在发展称之为“对象 --关系 DBMS (数据库

文献综述_数据挖掘

数据挖掘简介 数据挖掘的任务 数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分: 数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。 多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP,onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用,如著名的SAS数据分析软件包、Businessobject公司的决策支持系统Businessobjeet,以及IBM公司的决策分析工具都使用了多维数据分析技术。 采用多维数据分析方法进行数据总结,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是,直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。数据挖掘的分类 数据挖掘所能发现的知识有如下几种: .广义型知识,反映同类事物共同性质的知识; .特征型知识,反映事物各方面的特征知识; .差异型知识,反映不同事物之间属性差别的知识; .关联型知识,反映事物之间依赖或关联的知识; .预测型知识,根据历史的和当前的数据推测未来数据; .偏离型知识。揭示事物偏离常规的异常现象。 所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”,也可能是“买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。 数据挖掘的方法 数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用,然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受,即不管你选择哪种方法,总存在着某种协定。因此对实际情况,应该具体分析,根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐,也没

模糊数学在数据挖掘领域综述

模糊数学在数据挖掘研究综述 一、模糊数学 关于数学的分类,根据所研究对象的确定性可以分为经典数学、随机数学以及模糊数学。三者的关系如图1所示。经典数学建立在集合论的基础上,一个对象对于一个集合要么属于,要么不属于,两者必居其一,且仅居其一,绝不可模棱两可,由于这个要求,大大限制了数学的应用范围,使它无法处理日常生活中大量的不明确的模糊现象与概念。随着发展,过去那些与数学毫无关系或关系不大的学科如生物学,心理学,等都迫切要求定量化和数学化。 图1依照研究对象是否确定的数学分类 在日常生活中,我们经常会遇到一些模糊不清的概念。例如,“高个子”、“矮个子”等。如果把1.80米的人算高个子,那么,身高1.76米的人算不算高个子呢?这就很难说,因为“高个子”,“矮个子”并没有二者明确的标准,因而这些概念就显得模糊不清。为了适应这些学科自身的特点,只有通过改造数学,使它应用的面更为广泛。模糊数学就是研究事物这种模糊性质的一门数学学科。 模糊数学诞生于1965年,创始人是美国自动控制专家查德,他最早提出了模糊集合的概念,引入了隶属函数。自诞生之日起,就与电子计算机息息相关。今天精确的数学计算当然是不可少的,然而,当我们要求脑功能的时候,精确这个长处反而成了短处。例如,我们在判别走过的人是谁时,总是将来人的高矮,胖瘦、走路姿势与大脑存储的样子进行比较,从而作出判断。一般说来,这不是件难事,即使是分别多年的老友,也会很快地认出他来,但是若让计算机做这件事,使用精确数学就太复杂了。得测量来人的身高、体重、手臂摆的角度以及鞋底对地面的正压力、磨擦力、速度、加速度等数据,而且非要精确到后几十位才肯罢休。如果有位熟人最近稍为瘦了或胖了一些,计算机就“翻脸不认了”。显然,这样的“精确”容易使人糊涂。由此可见,要使计算机能模拟人功能,一定程度的模糊是必要的。模糊数学就是在这样的背景下诞生的。 随机数学与模糊数学都是对不确定性量的研究,但与模糊数学不同的是,随机数学是研究随机现象统计规律性的一个数学分支,涉及四个主要部分:概率论、随机过程、数理统计、随机运筹。随机数学更强调对数据的统计规律;而模糊数学强调的是变量的定义的模糊性。 模糊数学是一门新兴学科,过去那些与数学毫不相关或关系不大的学科(如生物学、心理学、语言学、社会科学等)都有可能用定量化和数学化加以描述和处理,从而使数学的应用范围大大扩展。它已初步应用于模糊控制、模糊识别、模糊聚类分析、模糊决策、模糊评判、系统理论、信息检索、医学、生物学等各个方面,并且在气象、结构力学、控制、心理学等方面已有具体的研究成果。模糊数学最重要的应用领域是计算机职能,它与新一代计算机的研制有密切的联系。 二、模糊计算

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用* 戴晓燕1 过仲阳1 李勤奋2 吴健平1 (1华东师范大学教育部地球信息科学实验室 上海 200062) (2上海市地质调查研究院 上海 200072) 摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 关键词 空间聚类 K-均值法 散度 1 前言 随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。 空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。 空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。 本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2 划分法 设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— *基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学 地理系硕士研究生,主要从事空间数 据挖掘的研究。 · 41 · 2003年第4期 上海地质 Shanghai Geology

数据挖掘研究的现状与发展趋势_郑继刚

数据挖掘研究的现状与发展趋势 郑继刚,王边疆 (保山学院数学系,云南保山678000) 影响其空间分布的因素之间的关系;预测型的模 型用来根据给定的一些属性预测某些属性,如分类模 型和回归模型等. 目前,主要在空间数据挖掘的体系结构和挖掘过 程做了大量研究,包括面向对象的空间数据库的数据 挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类 挖掘、挖掘空间数据的偏离和演变规则、基于多专题 地图的挖掘、交叉概化、基于时空数据的概化、并行数 据挖掘、统计分析与数据挖掘的协同和遥感影像的挖 掘等,主要采用了基于统计学和概率论、集合论、机器 学习、仿生物学、地球信息学的研究方法. 4.2多媒体数据挖掘 多媒体数据,包括图形、图像、文本、文档、超文 本、声音、视频和音频数据等,数据类型复杂.随着信 息技术的进步,人们所接触的数据形式越来越丰富, 多媒体数据的大量涌现,形成了很多海量的多媒体数 据库[8].这些数据大多是非结构化数据、异构数据, 特征向量通常是数十维甚至数百维,转化为结构数据 和降维成了多媒体数据挖掘的关键技术. 有研究者提出了多媒体数据挖掘的系统原型 MDMP,将多媒体数据的建模表示、存储和检索等多 媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联 规则挖掘、分类与聚类分析等挖掘方法,广泛地应用 于医学影像诊断分析、卫星图片分析、地下矿藏预测 等各种领域. 4.3时序数据挖掘 时序数据挖掘通过研究信息的时间特性,深入洞 悉事物进化的机制,揭示其内在规律(如波动的周期、 振幅、趋势的种类等),成为获得知识的有效途径.关 键问题是要是寻找一种合适的序列表示方式,基于点 距离和关键点是常用的算法,但都不能完整表示出序 列的动态属性.时序数据挖掘的主要技术有趋势分析 和相似搜索,在宏观的经济预测、市场营销、客流量分 析、太阳黑子数、月降水量、河流流量、股票价格波动 等众多领域得到了应用.

数据挖掘现状与前景

数据挖掘,这是个听起来既神秘,又具有诱惑性的词。就好像要去一片热带沙漠搜寻宝藏,宝藏的诱惑性很强,但是黄沙远处却看不透彻,不知此行是对是错,看到的光亮又是否只是虚幻的海市蜃楼。 所以很多学习数据挖掘的,或是想选择数据挖掘方向的人会在是否踏出第一脚时犹豫不决。 以下,我们就来分析看看数据挖掘的现状及前景。 首先看看百科中数据挖掘的定义:数据挖掘(Data Mining,DM)是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。 基于数据挖掘可能产生的巨大价值,我国的各大重点院校都针对数据挖掘开了专业课程以及研究课题,不仅如此,政府以及大型企业也开始重视这一领域,投资人力物力支持数据挖掘项目。 或许这样说还不够直观,那就就数字佐证。 据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。 国外如此,那中国呢? 随着我国信息化的发展,数据的积累及计算机的广泛应用,加上来自外资企业商业智能数据挖掘应用带来的竞争压力,商业智能及数据挖掘也逐渐在中国也形成了一个产业。随着成功案例的增多,不仅仅是金融保险电信等行业或是政府机构,中小企业也逐渐将商业智能应用于业务之中。 信息化时代数据的潜力不容小觑,IT部门一直是企业的核心,而数据挖掘技术更是得到了前所未有的重视和期待。目前我国数据挖掘、商业智能技术的人才培养体系还未健全,而企业对这方面的需求却一直在增长。数据知识发展为核心竞争力是现在及未来必然的形势。因此数据挖掘、商业智能行业的前景还是非常可观的。 所以,请坚定勇敢地踏出迈向数据挖掘的那一步吧,然后扎实地学好所需的知识理论及实践技巧,最后所收获到的,或许比你所期待的还多。

数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究 导读:本文以科学引文索引数据库(SCI)、工程索引数据库(EI)以及清华全文数据库(CNKI)中有关“数据挖掘”研究文章的统计数据为研究基础,对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展,并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。 关键字:数据挖掘 0 引言 近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据量与日俱增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运而生。 中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计,对数据挖掘在中国发展的现状及发展趋势进行分析和研究,通过分析有关论文的发表,对数据挖掘在中国的理论研究和实际应用提出建议。 1 数据挖掘的应用与研究发展 数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。数据挖掘是一门新兴的边缘学科,近年来引起了中国学术界和产业界的广泛关注。 数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review)提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。 数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或商业上经常发生的诈骗行为进行预测IBM公司

数据挖掘课程论文综述

海南大学 数据挖掘论文 题目:股票交易日线数据挖掘 学号:20100602310002 姓名: 专业:10信管 指导老师: 分数:

目录 目录 (2) 1. 数据挖掘目的 (3) 2.相关基础知识 (3) 2.1 股票基础知识 (3) 2.2 数据挖掘基础知识 (4) 2.2.2数据挖掘的任务 (5) 3.数据挖掘方案 (6) 3.1. 数据挖掘软件简介 (6) 3.2. 股票数据选择 (7) 3.3. 待验证的股票规律 (7) 4. 数据挖掘流 (8) 4.1数据挖掘流图 (8) 4.2规律验证 (9) 4.2.2规律2验证 (10) 4.2.3规律三验证 (12) 4.3主要节点说明 (14) 5.小结 (15)

1.数据挖掘目的 数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。 2.相关基础知识 2.1 股票基础知识 2.1.1 股票 是一种有价证券,是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型股票所代表的公司所有权是相等的,即“同股同权”。股票可以公开上市,也可以不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行为,例如无货沽空,可以造成金融市场的动荡。 2.1.2 开盘价 开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。 2.1.3 收盘价 收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。

空间信息多维可视化技术综述_芮小平

收稿日期:2003-01-04 基金项目:国家973基金(G2000077906)资助;中科院知识创新项目(CX020019)资助. 作者简介:芮小平,博士研究生,研究方向为“网络三维地理信息系统”,E -mail :ruix p @yahoo .com .cn ;赵扬,硕士研究生,研究方向为组建式地理信息系统,E -mail :davyonn et @https://www.doczj.com/doc/5b8781239.html,. 空间信息多维可视化技术综述 芮小平1,赵 扬3,杨崇俊2,张彦敏3 1 (北京交通大学交通运输学院,北京100044) 2(中国科学院 遥感应用研究所遥感科学重点实验室,北京100101) 3(中国矿业大学 (北京)资源开发工程系,北京100083) 摘 要:可视化技术的出现为分析和处理海量信息提供了新的手段.将空间信息多维可视化的实现方法分为基于2变量的多信息可视化、基于多变量的多维信息可视化和基于动画的多维信息可视化三类,并详细讨论了这三类方法的各 种实现算法. 关键词:可视化;空间;多维信息中图分类号:T P 391 文献标识码:A 文章编号:1000-1220(2004)09-1636-05 Survey on the Visualization of Multidimensional Spatial Information RU I Xia o-ping 1,ZHAO Ya ng 3,Y AM G Cho ng -jun 2,Z HAN G Ya n-min 3 1( School of Traff ic and Transportation ,Beijing Jiaoton g University ,Beijing 100044,China ) 2( The State Key Laboratory of Remote Sensing Information S ciences ,Institure of Remote Sensin g Applications , Ch ines e Acad my of Sciences ,Beijing 100101,Ch ina ) 3( Dep artmen t of Resou rce Develop ment En gineering ,China Un iverstiy of Mining & Technolog y Beijng ,Beijing 100083,China ) Abstract :T he v isualizatio n techno log ies give us new w ays to analy sis and pro cess massiv e infor matio n.This paper div ides visua lization technologies o f the multidimensional info rma tio n into th ree par ts :T ech niques ba sed o n 2-v ariate displays,multiva ria te visualization techniques,techniques based on anima tio n.The a utho r intr oduced kinds of v isuali zation alg o rithm s in this paper a nd these alg orithms indica te the resear ch sta te of visua liza tion o f spatial multidimensional infor matio n in recent y ea rs. Key words :v isualizatio n ;spa tial ;multidimensio nal info rma tion 1 引 言 科学计算可视化自20世纪80年代提出以来,迅速发展成为一个新兴的学科,其理论和技术对空间信息的表达和分析 产生了巨大的影响,这种影响可以归纳为两个方面:一方面,从技术层次来讲,可视化技术与GIS 技术的结合,促进了GIS 地学数据的图形表达;另一方面,从理论层次来讲,可视化不仅是通过计算机图形显示来表达数据,本质上是人们建立某种事物(或某人)在脑海中的意象,是人们对空间信息认知和交流的过程[1].可视化技术把人和机器以一种直觉而自然的方式统一起来,这无疑使人们在3维世界中,用以前不可想象的手段来获取信息和发挥自己的创造性.由于可视化技术在信息处理与分析方面具有不可比拟的优越性,它已经成为信息爆炸时代人们分析和驾驭信息的有力工具.与其它领域的信息相比,空间信息具有信息量大,情况复杂等特点,借助可视化技术可以帮助我们更加全面和准确的了解复杂的空间信 息并进一步分析空间变化规律. 多维性是空间现象的本质特征,同时也是虚拟G IS 管理空间信息一个的基本特点.空间多维信息的可视化为解释空间现象的本质提供了新的手段,它对复杂空间现象的理解起着越来越重要的作用.由于时间维和其它专题维的引入,使地球空间多维信息的表达方法体系得到了极大的提升,许多在传统可视化中不可想象的方法由于计算机图形学的发展变得可能. 2 多维信息可视化技术的分类 由于多维信息的复杂性,很难用简单的标准对现有多维信息可视化技术进行分类.本文根据可视化技术的目的、类型以及数据的维数,将多维信息可视化技术分为如下三类.2.1 基于2变量的多维可视化技术 这种方法由基本的2变量显示以及可同步观察这个2变  第25卷第9期 2004年9月 小型微型计算机系统M IN I -M I CRO SY ST EM S V o l.25No.9 Sep .2004

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。 关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势 Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decision tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining. Key words:data mining,algorithm of data mining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency 1引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(Data Mining,DM)技术应运而生[2]。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 江西理工大学

可视化空间数据挖掘研究综述

可视化空间数据挖掘研究综述 贾泽露1,2 刘耀林2 (1. 河南理工大学测绘与国土信息工程学院,焦作,454000;2. 武汉大学资源与环境科学学院,武汉,430079)摘要:空间数据挖掘针对的是更具有可视化要求的地理空间数据的知识发现过程,可视化能提供同用户对空间目标心理认知过程相适应的信息表现和分析环境,可视化与空间数据挖掘的结合是该领域研究发展的必然,并已成为一个研究热点。论文综述了空间数据挖掘和可视化的研究现状,重点阐述了空间数据挖掘中的可视化化技术及其应用,并对可视化空间数据挖掘的发展趋势进行了阐述。 关键词:数据挖掘;空间数据挖掘;数据可视化;信息可视化;GIS; 空间信息获取技术的飞速发展和各种应用的广泛深入,多分辨率、多时态空间信息大量涌现,以及与之紧密相关的非空间数据的日益丰富,对海量空间信息的综合应用和处理技术提出了新的挑战,要求越来越高。空间数据挖掘技术作为一种高效处理海量地学空间数据、提高地学分析自动化和智能化水平、解决地学领域“数据爆炸、知识贫乏”问题的有效手段,已发展成为空间信息处理的关键技术。然而,传统数据挖掘“黑箱”作业过程使得用户只能被动地接受挖掘结果。可视化技术能为数据挖掘提供直观的数据输入、输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了传统数据挖掘过程“黑箱”作业的缺点,同时也大大弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度[1]。空间数据挖掘中可视化技术已由数据的空间展现逐步发展成为表现数据内在复杂结构、关系和规律的技术,由静态空间关系的可视化发展到表示系统演变过程的可视化。可视化方法不仅用于数据的理解,而且用于空间知识的呈现。可视化与空间数据挖掘的结合己成为必然,并已形成了当前空间数据挖掘1与知识发现的一个新的研究热点——可视化空间数据挖掘(Visual Spatial Data Mining,VSDM)。VSDM技术将打破传统数据挖掘算法的“封闭性”,充分利用各式各样的数据可视化技术,以一种完全开放、互动的方式支持用户结合自身专业背景参与到数据挖掘的全过程中,从而提高数据挖掘的有效性和可靠性。本文将对空间数据挖掘、可视化的研究概况,以及可视化在空间数据挖掘中的应用进行概括性回顾总结,并对未来发展趋势进行探讨。 一、空间数据挖掘研究概述 1.1 空间数据挖掘的诞生及发展 1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,从事数据库、人工智能、数理统计和可视化等技术的学者们,首次出现了从数据库中发现知识(knowledge discovery in database,KDD)的概念,标志着数据挖掘技术的诞生[1]。此时的数据挖掘针对的 作者1简介:贾泽露(1977,6-),男,土家族,湖北巴东人,讲师,博士,主要从事空间数据挖掘、可视化、土地信息系统智能化及GIS理论、方法与应用的研究和教学工作。 作者2简介:刘耀林(1960,9- ),男,汉族,湖北黄冈人,教授,博士,博士生导师,武汉大学资源与环境科学学院院长,现从事地理信息系统的理论、方法和应用研究和教学工作。

数据挖掘文献综述

湘潭大学 本科生专业文献综述 题目: 数据挖掘文献综述 姓名: 林勇 学院: 信心工程学院学院 专业: 自动化 班级: 一班 学号: 2010550113 指导教师: 张莹

0前言 随着计算机技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。 1什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 1.1 数据挖掘的任务 数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值;后者指找到描述数据的可理解模式。根据发现知识的不同,我们可以将数据挖掘任务归纳为以下几类: (1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征.例如可以从某种疾病的症状中提取

数据挖掘分类算法研究综述终板

数据挖掘分类算法研究综述 程建华 (九江学院信息科学学院软件教研室九江332005 ) 摘要:随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。 关键词:数据挖掘;分类;软计算;算法 1引言 1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现(KDD,Knowledge DiscoveryDatabase)技术[1]。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了1995年,在美国计算机年会(ACM)上,提出了数据挖掘[2](DM,Data Mining)的概念,由于数据挖掘是KDD过程中最为关键的步骤,在实践应用中对数据挖掘和KDD这2个术语往往不加以区分。 基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。 2传统的数据挖掘分类方法 分类技术针对数据集构造分类器,从而对未知类别样本赋予类别标签。在其学习过程中和无监督的聚类相比,一般而言,分类技术假定存在具备环境知识和输入输出样本集知识的老师,但环境及其特性、模型参数等却是未知的。 2.1判定树的归纳分类 判定树是一个类似流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。由判定树可以很容易得到“IFTHEN”形式的分类规则。方法是沿着由根节点到树叶节点的路径,路径上的每个属性-值对形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。一条路径创建一个规则。 判定树归纳的基本算法是贪心算法,它是自顶向下递归的各个击破方式构造判定树。其中一种著名的判定树归纳算法是建立在推理系统和概念学习系统基础上的ID3算法。 2.2贝叶斯分类 贝叶斯分类是统计学的分类方法,基于贝叶斯公式即后验概率公式。朴素贝叶斯分类的分类过程是首先令每个数据样本用一个N维特征向量X={X1,X2,?X n}表示,其中X k是属性A k的值。所有的样本分为m类:C1,C2,?,C n。对于一个类别的标记未知的数据记录而言,若P(C i/X)>P(C j/X),1≤ j≤m,j≠i,也就是说,如果条件X下,数据记录属于C i类的概率大于属于其他类的概率的话,贝叶斯分类将把这条记录归类为C i类。 建立贝叶斯信念网络可以被分为两个阶段。第一阶段网络拓扑学习,即有向非循环图的——————————————————— 作者简介:程建华(1982-),女,汉族,江西九江,研究生,主要研究方向为数据挖掘、信息安全。

相关主题
文本预览
相关文档 最新文档