当前位置:文档之家› 高维复杂数据的子空间挖掘方法研究

高维复杂数据的子空间挖掘方法研究

高维复杂数据的子空间挖掘方法研究
高维复杂数据的子空间挖掘方法研究

2017年度广东省科学技术奖项目公示

项目名称高维复杂数据的子空间挖掘方法研究

主要完成单位单位1: 哈尔滨工业大学深圳研究生院单位2: 无

单位3: 无

主要完成人(职称、完成单位、工作单位)1. 叶允明

职称:教授

工作单位:哈尔滨工业大学深圳研究生院

完成单位:哈尔滨工业大学深圳研究生院

主要贡献:提出本项目的关键学术思想和研究思路,全面规划组织并研究了本项目的研究内容,对项目四个主要创新点均做出了贡献:

(1)提出了属性加权的子空间聚类方法,有效解决了高维数据的聚类问题。

(2)提出了基于分层子空间抽样的随机森林方法,减小了泛化误差界,提升了高维数据的分类性能。

(3)揭示了聚类问题中多模态子空间的规律,为关系型高维数据的子空间分类奠定了基础。

(4)建立了多模态子空间数据分类的关键技术,为解决复杂关系型数据的分类奠定了基础。

应用贡献:将项目成果应用于深圳出入境检验检疫局“智慧口岸”建设中的信息自动获取与智能信息服务、深圳市地税局、中油瑞飞信息技术有限公司等单位的互联网信息获取与挖掘服务等。

2. 李旭涛

职称:副教授

工作单位:哈尔滨工业大学深圳研究生院

完成单位:哈尔滨工业大学深圳研究生院

主要贡献:对本项目的主要创新点(1)(2)和(3)做出了贡献:

(1)提出了层次子空间聚类算法,有效解决了高维数据的多粒度子空间聚类问题。

(2)揭示了分层抽样子空间的规律,分析了其基本特性,明确了分层抽样随机森林算法的适用范围。

(3)提出了基于张量积的马尔科夫链,并基于其建立了多模态聚类模型,有效解决了复杂关系型数据的聚类问题;提出了基于全变分约束张量分解的聚类算法,解决高维多模态数据的子空间聚类问题。

3. 张海军

职称:副教授

工作单位:哈尔滨工业大学深圳研究生院

完成单位:哈尔滨工业大学深圳研究生院

主要贡献:对本项目的主要创新点(1)和(4)做出了贡献:(1)揭示了判别信息在高维数据子空间聚类中的作用,提出了结合簇内紧致性和簇间分离性的聚类优化目标函数。

(4)提出了面向多模态文本数据的子空间分析算法,通过多维度浅层语义分析提升了子空间分类的性能;揭示了高维多类标数据的层次特性,为了其分类模型的建立奠定了基础。

4. 吴庆耀

职称:无

工作单位:哈尔滨工业大学深圳研究生院

完成单位:哈尔滨工业大学深圳研究生院

主要贡献:对本项目的主要创新点(2)和(4)做出了贡献:(2)建立并实现了基于分层抽样的随机森林算法,验证了其在文本、图像、基因等数据分类的有效性和优越性;提出了基于聚类树的多类标分类模型。

(4)提出了基于马尔科夫链的复杂关系型数据的分类模型,有效的提升了分类性能。

5. 陈小军

职称:无

工作单位:哈尔滨工业大学深圳研究生院

完成单位:哈尔滨工业大学深圳研究生院

主要贡献:对本项目的主要创新点(1)做出了主要贡献:提了两个属性加权的聚类算法,即两层加权的子空间聚类算法和分组加权的子空间聚类算法,提升了高维数据的聚类性能。

6. 张晓峰

职称:副教授

工作单位:哈尔滨工业大学深圳研究生院

完成单位:哈尔滨工业大学深圳研究生院

主要贡献:对本项目的主要创新点(1)做出了主要贡献:提出了基于分布式数据的子空间聚类算法。

7. 黄晓辉

职称:无

工作单位:哈尔滨工业大学深圳研究生院

完成单位:哈尔滨工业大学深圳研究生院

主要贡献:对本项目的主要创新点(1)做出了主要贡献:建立了基于簇内紧致性和簇间分离性的聚类算法。

项目简介

聚类和分类是目前各行各业大数据挖掘所面临的两个基本任务。然而目前大数据时代中数据独有的超高维特性和复杂性给它们带来了重要挑战。首先,超高维度为聚类和分类带来了维度灾难挑战——即当在数学空间上额外增加一个维度,其体积会呈指数级增长;随着维度提高,空间的体积迅速提高,可用数据变得非常稀疏。其次,数据样本间关联关系的复杂性也给聚类和分类带来了另一大挑战。此外,除了样本间关系的复杂性,很多领域数据的维度具有多模态特性。尽管目前已有一些子空间聚类和分类算法被提出,但这些算法的不足以克服高维复杂数据所带来的这三个挑战。针对上述问题,本项目提出了系统的研究了高维复杂数据的子空间挖掘方法,取得了四方面的创新性突破:

(1)针对高维数据的聚类问题,提出了一系列子空间加权的聚类方法,包括双层子空间加权、分组子空间加权、层次子

空间聚类、基于簇内紧致性和簇间分离性子空间方法等,

有效的解决了不同情况的高维数据的聚类问题,获得了国

际领先的聚类精度,且具有很高的运行效率,适合大规模

数据聚类。

(2)针对高维数据的分类问题,提出了各种子空间学习方法,包括基于分层抽样的随机森林算法和基于层次树的多粒度

子空间分类方法,可有效的解决各种领域如文本、基因、

图像等分类问题,尤其在基于SNP序列的帕金森病例分类

上,不但获得了较高的分类精度,还判别出一些与帕金森

疾病密切项目的基因,对于该疾病的病理分析、治愈和制

药具有很好的借鉴意义。

(3)针对高维多模态关系型数据的聚类问题,提出了基于张量积的马尔科夫链,并基于其建立了多模态聚类模型,有效

解决了复杂关系型数据的聚类问题;提出了基于全变分约

束张量分解的聚类算法,解决高维多模态数据的子空间聚

类问题,聚类水平处于同期的国际领先地位。

(4)针对高维多模态关系型数据的分类问题,提出了多个分类模型,包括基于马尔科夫链的多实例多类标模型以及面向

文本的多维度的浅语义分类模型,其性能优于同期的最好

算法。

本申报项目的主要成果是来自于两个已完成的科研项目:(1)国家自然科学基金项目,“特定主题社会化媒体内容的动态识别关键技

术研究”,项目编号:61073195,资助经费:30 万元,项目负责人:叶允明,项目起止时间:2011年1月至2013年12月;(2)深圳市互联网产业发展专项资金项目(重点实验室提升计划),“基于云计算的互联网社会化媒体内容挖掘关键技术及应用”,项目编号:

CXB201005250024A,资助经费:100 万元,项目负责人:叶允明,项目起止时间:2010年10月至2012年9月。

基于子空间挖掘的相关基础研究成果,本课题组还针对粤港区域对互联网疫情信息获取与挖掘服务、网络涉税信息挖掘服务等应用的需求,研发了可面向垂直领域快速定制、精准可靠、简单易用的万维网大数据智能挖掘与信息服务系统,并将相关技术及系统应用到多个企事业单位,服务超过2.39亿人次,具有重大社会效益。

代表性论文专著目录论文1:Ye Yunming, Wu Qingyao, Huang Joshua Zhexue, Ng Michael K., Li Xutao. Stratified sampling for feature subspace selection in random forests for high dimensional data [J]. Pattern Recognition, 46(3):769-787, 2013.

论文2:Chen Xiaojun, Xu Xiaofei, Huang Joshua Zhexue, Ye Yunming. TW-k-Means: Automated two-level variable weighting clustering algorithm for multiview data [J]. IEEE Transactions on Knowledge and Data Engineering, 25(4):932 – 944, 2013.

论文3:Li Xutao, Ng Michael K., Ye Yunming. MultiComm: Finding community structure in multi-dimensional networks [J]. IEEE Transactions on Knowledge and Data Engineering, 26(4): 929-941, 2014.

论文4:Wu Qingyao, Ye Yunming, Zhang Haijun, Chow Tommy W. S., Ho Shen-Shyang. ML-TREE: A tree-structure-based approach to multilabel learning [J]. IEEE Transactions on Neural Networks and Learning Systems, 26(3): 430-443, 2015.

论文5:Huang Xiaohui, Ye Yunming, Zhang Haijun. Extensions of Kmeans-Type Algorithms: A New Clustering Framework by Integrating Intracluster Compactness and Intercluster Separation [J]. IEEE Transactions on Neural Networks and Learning Systems, 25(8): 1433-1446, 2014.

论文6:Zhang Haijun, Ho John K. L.,Wu Q. M. Jonathan,Ye Yunming. Multidimensional Latent Semantic Analysis Using Term Spatial Information [J]. IEEE Transactions on Cybernetics, 43(6): 1625-1640, 2013.

论文7:Zhang Haijun, Llorca Jaime, C. Davis Christopher, D. Milner Stuart. Nature-inspired self-organization, control and optimization in heterogeneous wireless networks [J]. IEEE Transactions on Mobile Computing, 11(7): 1207-1222, 2012.

论文8:Chen Xiaojun,Ye Yunming, Xu Xiaofei, Huang Joshua Zhexue.

A feature group weighting method for subspace clustering of high-dimensional data [J]. Pattern Recognition, 45(1): 434-446, 2012.

论文9:Wu Qingyao, Ye Yunming, Liu Yang, Ng Michael K. SNP Selection and classification of genome-wide SNP data using stratified

sampling random forests [J]. IEEE transactions on nanobioscience, 11(3): 216-227, 2012.

论文10: Zhang Xiaofeng, Cheung William K., Li C.H. Learning latent variable models from distributed and abstracted data [J]. Information Sciences, 181(14): 2964–2988, 2011.

知识产权名称专利1:叶允明. 基于增量Q-Learning的学习方法及系统. ZL 200810066627.1 中国

推广应用情况

本项目成果已被多个应用单位直接应用,取得了显著的社会效益和经济效益。例如,项目成果被应用于深圳出入境检验检疫局“智慧口岸”建设中的信息自动获取与智能信息服务、深圳市地税局、中油瑞飞信息技术有限公司等单位的互联网信息获取与挖掘服务。项目研究成果提升了我国对于高维复杂数据挖掘的研究水平和国际影响力。

第28卷第3期2005年6月 测绘与空间地理信息 G E O M A T I C S &S P A T I A LI N F O R M A T I O NT E C H N O L O G Y V o l .28,N o .3 J u n .,2005 收稿日期:2004-09-14 基金项目:国家重点基础研究发展规划(973)资助项目(2001C B 309404) 作者简介:汤海鹏(1979-),男,湖南沅江人,本科,主要从事信息化管理和信息化建设等方面的研究。 空间数据挖掘工具浅谈 汤海鹏1 ,毛克彪 2,3 ,覃志豪2,吴 毅 4 (1.公安部出入境管理局技术处,北京100741;2.中国农业科学院自然资源与农业区划研究所农业遥感实验室, 北京100081;3.中国科学院遥感所,北京100101;4.黑龙江乌苏里江制药有限公司,黑龙江哈尔滨150060) 摘要:数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以 用来做出预测。空间数据挖掘有十分广阔的应用范围和市场前景,目前已出现大量的数据挖掘工具用于企业决策、科学分析等各个领域。文中对2个数据挖掘工具进行讨论,介绍它们的功能、所使用的技术以及如何使用它们来进行数据挖掘。 关键词:数据挖掘;空间数据挖掘;数据立方体;知识库引擎 中图分类号:P 208 文献标识码:A 文章编号:1672-5867(2005)03-0004-02 AS u r v e y o f D a t a Mi n i n g T o o l s T A N GH a i -p e n g 1 ,M A OK e -b i a o 2,3 ,Q I NZ h i -h a o 2 ,W UY i 4 (1.B u r e a uo f E x i t a n dE n t r y A d m i n i s t r a t i o n ,M i n i s t r y o f P u b l i c S e c u r i t y ,B e i j i n g 100741,C h i n a ;2.T h e K e y L a b o r a t o r y o f R e m o t e S e n s i n g a n d D i g i t a l A g r i c u l t u r e ,C h i n a A c a d e m y o f A g r i c u l t u r e R e m o t e S e n s i n g L a b o r a t o r y ,B e i j i n g 100081,C h i n a ; 3.I n s t i t u t eo f R e m o t e S e n s i n g A p p l i c a t i o n s ,C h i n e s e A c a d e m y o f S c i e n c e s ,B e i j i n g 100101,C h i n a ; 4.H e i l o n g j i a n g Wu s u l i j i a n g P h a r m a c e u t i c a l C o .L t d .,H a r b i n 150060,C h i n a ) A b s t r a c t : B e c a u s e o f c o m m e r c i a l d e m a n d s a n dr e s e a r c hi n t e r e s t ,a l l k i n d s o f s p a t i a l d a t a m i n i n g s o f t w a r e t o o l s e m e r g e .I n o r d e r t o g e t u s e o f t h e d a t a m i n i n g t o o l s ,t w o o f t h e ma r e i n t r o d u c e d i n t h i s p a p e r a n d m a k e p r o s p e c t o f i n t e g r a t i o n o f G I S ,R S ,G P S a n d d a t a m i n -i n g .K e yw o r d s :d a t a m i n i n g ;s p a t i a l d a t a m i n i n g ;d a t a c u b e ;d a t a b a s e e n g i n e 0 引 言 随着数据获取手段(特别是对地观测技术)及数据库 技术的快速发展,科研机构、政府部门在过去的若干年里都积累了大量的数据,而且,目前这些数据仍保持迅猛的增长势头。如此大量的数据已远远超过传统的人工处理能力,怎样从大量数据中自动、快速、有效地提取模式和发现知识显得越来越重要。数据挖掘与知识发现作为一个新的研究领域和新的技术正方兴未艾,用于从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式[1~2],很好地满足了海量数据处理的需要。 具体应用中,数据挖掘工具很多。它们在功能和方法等方面差别很大。如何选择适合具体挖掘需求的工具,是进行挖掘工作必须考察的前提。选择某一工具时,应考虑数据类型,主要是考察工具能处理的数据:①关系 数据库的数据。包括数据仓库数据、文本文档、空间数据、 多媒体数据、W e b 数据等;②功能和方法。数据挖掘功能是数据挖掘工具(或系统)的核心,一些数据挖掘工具仅提供一种功能(如分类),另一些工具可能支持另外的挖掘功能(如描述、关联、分类、预测和聚类等);③其他考虑的方面如:系统问题、数据源、可伸缩性、可视化、数据挖掘查询语言和图形用户接口、工具和数据库或数据仓库系统等。 在众多的数据中,有近80%的数据可以通过空间关系表达。现在,通过卫星扫描地球,每天都能获得大量的关于地表的遥感图像。要从大量的数据中判读出每一个图片所潜藏的信息,就必然要用到数据挖掘技术。本文将通过介绍专业的航空遥感图像处理系统E r d a s 和D B -M i n e r 来阐述处理空间数据和关系数据的这一过程及这2种软件的特点。

GIS 技术的研究现状及未来发展趋势 摘要:GIS 是随着计算机技术发展而形成的一门新兴技术,其应用程度和范围也随之渗透、延伸,得到了人们的广泛关注。该文综述了地理信.息的发展现状,从多个角度分析当前 GIS 技术发展存在的不足,并在此基础上研究分析了 GIS 技术的未来发展趋势。 关键词:GIS 研究现状发展趋势 0 引言 随着计算机技术的飞速发展、空间技术的日新月异及计算机图形学理论的日渐完善, GIS(Geographic Information System技术也日趋成熟,并且逐渐被人们所认识和接受。近年来, GIS 被世界各国普遍重视,尤其是“数字地球”概念的提出,使其核心技术 GIS 更为各国政府所关注。目前,以管理空间数据见长的 GIS 已经在全球变化与监测、军事、资源管理、城市规划、土地管理、环境研究、农作物估产、灾害预测、交通管理、矿产资源评价、文物保护、湿地制图以及政府部门等许多领域发挥着越来越重要的作用。当前 GIS 正处于急剧发展和变化之中,研究和总结 GIS 技术发展,对进一步开展 GIS 研究工作具有重要的指导意义。因此,本文就目前 GIS 技术的研究现状及未来发展趋势进行总结和分析。 1 GIS 研究现状及其分析 1.1 GIS研究现状 世纪 90年代以来,由于计算机技术的不断突破以及其它相关理论和技术的完善, GIS 在全球得到了迅速的发展。在海量数据存储、处理、表达、显示及数据共享技术等方面都取得了显著的成效,其概括起来有以下几个方面 [1]:①硬件系统采用服务器 /客户机结构,初步形成了网络化、分布式、多媒体 GIS ; ②在 GIS 的设计中, 提出了采用“开放的 CIS 环境” 的概念, 最终以实现资源共享、数据共享为目标; ③高度重视数据标准化与数据质量的问题, 并已形成一些较为可行的数据标准; ④ 面向对象的数据库管理系统已经问世, 正在发展称之为“对象 --关系 DBMS (数据库

空间聚类的研究现状及其应用* 戴晓燕1 过仲阳1 李勤奋2 吴健平1 (1华东师范大学教育部地球信息科学实验室 上海 200062) (2上海市地质调查研究院 上海 200072) 摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 关键词 空间聚类 K-均值法 散度 1 前言 随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。 空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。 空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。 本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2 划分法 设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— *基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学 地理系硕士研究生,主要从事空间数 据挖掘的研究。 · 41 · 2003年第4期 上海地质 Shanghai Geology

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

第21卷第10期 系 统 仿 真 学 报? V ol. 21 No. 10 2009年5月 Journal of System Simulation May, 2009 ? 2933 ? 高维数据分类方法研究 田 江, 顾 宏 (大连理工大学电子与信息工程学院,大连 116023) 摘 要:在对高维度数据进行模式分类时,能否有效进行降维是一个关键问题。提出了一种结合高斯过程潜变量模型(GPLVM)和支持向量机(SVM)的阶梯跳跃降维分类框架方法,能有效的降低样本数据维数,同时提高分类器性能。利用GPLVM 实现数据的平滑映射,对输入样本进行非线性降维后,根据SVM 的分类校验结果进行下一步降维迭代操作;计算新的阶梯维数,根据反馈动态调整降维输入数据。利用该方法对UCI 上的数据集进行分类,仿真结果验证了方法的有效性。 关键词:高斯过程潜变量模型;支持向量机;模式分类;阶梯跳跃降维 中图分类号:TP18 文献标识码:A 文章编号:1004-731X (2009) 10-2933-03 Study on Classification Methods for High-dimensional Data TIAN Jiang, GU Hong (School of Electronic and Information Engineering, Dalian University of Technology, Dalian 116023, China) Abstract: Effective dimensionality reduction is a key issue in high-dimensional data classification. A new ladder jumping dimensional reduction classification framework was proposed which combined the Gaussian process latent variable model (GPLVM) and the Support Vector Machine (SVM). The data dimensions were reduced remarkably, while at the same time improving the performance of SVM classifiers. For the purpose of nonlinear low dimensional embedding of sample datasets, GPLVM provides a smooth probabilistic mapping from latent to data space. According to the feedback results of SVM, the renewed ladder dimension was calculated and the input data was adjusted dynamically. The proposed approach was applied to four benchmark problems, and the simulation results show its validity. Key words: GPLVM; SVM; pattern classification; ladder jumping dimension reduction 引 言模式分类是模式识别中的一项重要内容 ,也是处理许多其它问题的核心。用于模式分类的方法很多 ,传统的模式分类方法主要基于统计分析理论, 如 Bayesian 方法、Fisher 判别、K 近邻分类等。近年来复杂非线性高维数据分析、处理的需要则促进了神经网络、模糊推理及支持向量机等方法的研究与应用[1] 。其中支持向量机的理论基础是V apnik [2, 3] 等提出的统计学习理论,采用结构风险最小化准则 ,在最小化样本点误差的同时,缩小模型泛化误差的上界,即最小化模型的结构风险,从而提高了模型的泛化能力。支持向量机方法的分类性能受特征空间的选择影响较大,在很多应用领域中数据包含大量的特征,过高的特征维数使得训练及分类的速度变慢,同时也会使分类的正确率下降。 主成分分析(PCA)是目前广泛应用的一种降维方法,将多个变量化为少数几个互不相关的主成分,从而描述数据集的内部结构。高斯过程潜变量模型(GPLVM)[4-6]由Lawrence 于2004年提出,是一种新的无监督非线性数据降维方法,实现概率非线性的主成分分析。本文在GPLVM 的基础上,结合支持向量机提出了一种阶梯跳跃式降维的方法,对样本进行动态调整,支持向量机做为分类器迭代计算模型的性能评价标准和最后的分类结果。在UCI 标杆数据集上进行了 收稿日期:2008-01-02 修回日期:2008-07-23 作者简介:田江(1979-), 男, 河北唐山人, 博士生, 研究方向为数据挖掘等;顾宏(1961-), 辽宁大连人, 教授, 博导, 研究方向为数据挖掘, 移动商务等。 相关的仿真实验,实验结果表明了该方法可以获得最优的特征子集,有效的提高了分类的正确率,证明了方法的有效性。 1 高斯过程潜变量模型 高斯过程潜变量模型(GPLVM)[4-6]是一个完全概率非线性的实现主成分分析的潜变量模型。对主成分分析进行概率解释,写成一组具有线性协方差方程的高斯过程的积形式。 设d 维观测数据集记为: 11[,:,...,,:][:,,...,:,]T n d n d Y y y y y ×==∈? 设q 维潜变量数据集记为 11[,:,...,,:][:,,...,:,]T n q n q X x x x x ×==∈? 概率PCA [7]是一个简单的潜变量模型,给出了观测数据y 和潜变量x 之间的关系,它利用低维的潜变量来表示高维 观测数据,具体描述的是线性关系: ,:,:,:i i i y Wx η=+ (1) 其中d q W ×∈?是映射矩阵,噪声向量,:i η服从于均值为0,方差为2I σ的正态分布。 将潜变量同观测数据联系起来,假定各数据相互独立,令条件概率为: 2,:,:1 (|,)(|,)n i i i p Y X W N y Wx I σ==Π (2) 定义潜变量的高斯先验分布表示为: ,:1 ()(|0,)n i i p X N x I ==Π (3) ,:1(|)(|0,)n i i p Y W N y C ==Π (4)

可视化空间数据挖掘研究综述 贾泽露1,2 刘耀林2 (1. 河南理工大学测绘与国土信息工程学院,焦作,454000;2. 武汉大学资源与环境科学学院,武汉,430079)摘要:空间数据挖掘针对的是更具有可视化要求的地理空间数据的知识发现过程,可视化能提供同用户对空间目标心理认知过程相适应的信息表现和分析环境,可视化与空间数据挖掘的结合是该领域研究发展的必然,并已成为一个研究热点。论文综述了空间数据挖掘和可视化的研究现状,重点阐述了空间数据挖掘中的可视化化技术及其应用,并对可视化空间数据挖掘的发展趋势进行了阐述。 关键词:数据挖掘;空间数据挖掘;数据可视化;信息可视化;GIS; 空间信息获取技术的飞速发展和各种应用的广泛深入,多分辨率、多时态空间信息大量涌现,以及与之紧密相关的非空间数据的日益丰富,对海量空间信息的综合应用和处理技术提出了新的挑战,要求越来越高。空间数据挖掘技术作为一种高效处理海量地学空间数据、提高地学分析自动化和智能化水平、解决地学领域“数据爆炸、知识贫乏”问题的有效手段,已发展成为空间信息处理的关键技术。然而,传统数据挖掘“黑箱”作业过程使得用户只能被动地接受挖掘结果。可视化技术能为数据挖掘提供直观的数据输入、输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了传统数据挖掘过程“黑箱”作业的缺点,同时也大大弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度[1]。空间数据挖掘中可视化技术已由数据的空间展现逐步发展成为表现数据内在复杂结构、关系和规律的技术,由静态空间关系的可视化发展到表示系统演变过程的可视化。可视化方法不仅用于数据的理解,而且用于空间知识的呈现。可视化与空间数据挖掘的结合己成为必然,并已形成了当前空间数据挖掘1与知识发现的一个新的研究热点——可视化空间数据挖掘(Visual Spatial Data Mining,VSDM)。VSDM技术将打破传统数据挖掘算法的“封闭性”,充分利用各式各样的数据可视化技术,以一种完全开放、互动的方式支持用户结合自身专业背景参与到数据挖掘的全过程中,从而提高数据挖掘的有效性和可靠性。本文将对空间数据挖掘、可视化的研究概况,以及可视化在空间数据挖掘中的应用进行概括性回顾总结,并对未来发展趋势进行探讨。 一、空间数据挖掘研究概述 1.1 空间数据挖掘的诞生及发展 1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,从事数据库、人工智能、数理统计和可视化等技术的学者们,首次出现了从数据库中发现知识(knowledge discovery in database,KDD)的概念,标志着数据挖掘技术的诞生[1]。此时的数据挖掘针对的 作者1简介:贾泽露(1977,6-),男,土家族,湖北巴东人,讲师,博士,主要从事空间数据挖掘、可视化、土地信息系统智能化及GIS理论、方法与应用的研究和教学工作。 作者2简介:刘耀林(1960,9- ),男,汉族,湖北黄冈人,教授,博士,博士生导师,武汉大学资源与环境科学学院院长,现从事地理信息系统的理论、方法和应用研究和教学工作。

毕业论文文献综述 信息与计算科学 基于matlab的数据挖掘技术研究 数据挖掘是用于大规模数据处理的一种新的思维方式和技术手段,他是在现实生活中各种数据量呈指数级不断增长,以及以数据库(database)技术为核心的信息技术逐渐成熟的背景下产生的。数据挖掘可以帮助用户发现影藏在大型数据库中的规律和模式,它融合了人工智能(artificial intelligence)、统计(statistics)、机器学习(nachine learning)、模式识别(pattern recognition)和数据库等多种学科的理论、方法与技术,已经在商业、企业、政府、科研及体育等多种不同类型的组织机构和领域中获得了非常广泛的应用。即使在日常生活中,数据挖掘技术也已经潜移默化地参与到人们的生活质量改善过程中。 数据挖掘有很多种技术和计算方法,包括决策树方法(decision tree)、人工神经网络方法(artificial neural metwork,ANN)、聚类分析、模糊集合方法、遗传算法(genetic algorithm)、模拟退火算法(simulated annealing,SA)、进化式程序设计(evolutionary programming)等。这里主要介绍一下聚类分析、遗传算法和人工神经网络算法。 聚类分析也称无监督学习,或无教师学习,或无指导学习,因为和分类学习相比,聚类的样本没有标记,需要由聚类学习算法来自动确定。聚类分析是研究如何在没有训练的条件下把样本划分为若干。聚类(clustering)是对物理的或抽象的样本集合分组的过程。聚类分析有很多种目标,但都涉及把一个样本集合分组或分割为子集或簇(cluster)。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。聚类分析主要针对的数据类型包括区间标度变量、二值变量、标称变量、序数型变量、比例标度型变量以及由这些变量类型构成的复合类型。聚类算法应具有以下几个特点:1处理不同字段类型的能力;2可伸缩性;3处理高维数据的能力;4发现具有任意簇的形状的族类能力;5能够处理异常数据;6对数据顺序的不敏感性;7输入参数对领域知识的弱依赖性;8聚类结果的可解释性和实用性;9增加限制条件后的聚类分析能力。 基因算法起源于对生物系统进行的计算机模拟研究,是一种受生物进化启发,使用计算机模拟生物进化的学习方法。基因算法是模拟生物进化过程的计算模型,是自然遗传学与计算机科学互相结合、互相渗透而形成的新的计算方法。基因算法的最大优点是问题求解与初始条件无关,搜索最优解的能力极强。从数学的角度看,基因算法是一种概率型搜索算法:从工程学角度看,它是一种自适应的迭代寻优过程。基因算法需要完成两种数据转换,算法实施之前进行从表现型到基因型的转换,即将搜索空间中的参数或可行解转化成遗传空间中的染色体或个体,完成编码操作;在算法

2017年度广东省科学技术奖项目公示 项目名称高维复杂数据的子空间挖掘方法研究 主要完成单位单位1: 哈尔滨工业大学深圳研究生院单位2: 无 单位3: 无 主要完成人(职称、完成单位、工作单位)1. 叶允明 职称:教授 工作单位:哈尔滨工业大学深圳研究生院 完成单位:哈尔滨工业大学深圳研究生院 主要贡献:提出本项目的关键学术思想和研究思路,全面规划组织并研究了本项目的研究内容,对项目四个主要创新点均做出了贡献: (1)提出了属性加权的子空间聚类方法,有效解决了高维数据的聚类问题。 (2)提出了基于分层子空间抽样的随机森林方法,减小了泛化误差界,提升了高维数据的分类性能。 (3)揭示了聚类问题中多模态子空间的规律,为关系型高维数据的子空间分类奠定了基础。 (4)建立了多模态子空间数据分类的关键技术,为解决复杂关系型数据的分类奠定了基础。 应用贡献:将项目成果应用于深圳出入境检验检疫局“智慧口岸”建设中的信息自动获取与智能信息服务、深圳市地税局、中油瑞飞信息技术有限公司等单位的互联网信息获取与挖掘服务等。

2. 李旭涛 职称:副教授 工作单位:哈尔滨工业大学深圳研究生院 完成单位:哈尔滨工业大学深圳研究生院 主要贡献:对本项目的主要创新点(1)(2)和(3)做出了贡献: (1)提出了层次子空间聚类算法,有效解决了高维数据的多粒度子空间聚类问题。 (2)揭示了分层抽样子空间的规律,分析了其基本特性,明确了分层抽样随机森林算法的适用范围。 (3)提出了基于张量积的马尔科夫链,并基于其建立了多模态聚类模型,有效解决了复杂关系型数据的聚类问题;提出了基于全变分约束张量分解的聚类算法,解决高维多模态数据的子空间聚类问题。 3. 张海军 职称:副教授 工作单位:哈尔滨工业大学深圳研究生院 完成单位:哈尔滨工业大学深圳研究生院 主要贡献:对本项目的主要创新点(1)和(4)做出了贡献:(1)揭示了判别信息在高维数据子空间聚类中的作用,提出了结合簇内紧致性和簇间分离性的聚类优化目标函数。 (4)提出了面向多模态文本数据的子空间分析算法,通过多维度浅层语义分析提升了子空间分类的性能;揭示了高维多类标数据的层次特性,为了其分类模型的建立奠定了基础。 4. 吴庆耀

湘潭大学 本科生专业文献综述 题目: 数据挖掘文献综述 姓名: 林勇 学院: 信心工程学院学院 专业: 自动化 班级: 一班 学号: 2010550113 指导教师: 张莹

0前言 随着计算机技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。 1什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 1.1 数据挖掘的任务 数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值;后者指找到描述数据的可理解模式。根据发现知识的不同,我们可以将数据挖掘任务归纳为以下几类: (1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征.例如可以从某种疾病的症状中提取

数据挖掘分类算法研究综述 程建华 (九江学院信息科学学院软件教研室九江332005 ) 摘要:随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。 关键词:数据挖掘;分类;软计算;算法 1引言 1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现(KDD,Knowledge DiscoveryDatabase)技术[1]。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了1995年,在美国计算机年会(ACM)上,提出了数据挖掘[2](DM,Data Mining)的概念,由于数据挖掘是KDD过程中最为关键的步骤,在实践应用中对数据挖掘和KDD这2个术语往往不加以区分。 基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。 2传统的数据挖掘分类方法 分类技术针对数据集构造分类器,从而对未知类别样本赋予类别标签。在其学习过程中和无监督的聚类相比,一般而言,分类技术假定存在具备环境知识和输入输出样本集知识的老师,但环境及其特性、模型参数等却是未知的。 2.1判定树的归纳分类 判定树是一个类似流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。由判定树可以很容易得到“IFTHEN”形式的分类规则。方法是沿着由根节点到树叶节点的路径,路径上的每个属性-值对形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。一条路径创建一个规则。 判定树归纳的基本算法是贪心算法,它是自顶向下递归的各个击破方式构造判定树。其中一种著名的判定树归纳算法是建立在推理系统和概念学习系统基础上的ID3算法。 2.2贝叶斯分类 贝叶斯分类是统计学的分类方法,基于贝叶斯公式即后验概率公式。朴素贝叶斯分类的分类过程是首先令每个数据样本用一个N维特征向量X={X1,X2,?X n}表示,其中X k是属性A k的值。所有的样本分为m类:C1,C2,?,C n。对于一个类别的标记未知的数据记录而言,若P(C i/X)>P(C j/X),1≤ j≤m,j≠i,也就是说,如果条件X下,数据记录属于C i类的概率大于属于其他类的概率的话,贝叶斯分类将把这条记录归类为C i类。 建立贝叶斯信念网络可以被分为两个阶段。第一阶段网络拓扑学习,即有向非循环图的——————————————————— 作者简介:程建华(1982-),女,汉族,江西九江,研究生,主要研究方向为数据挖掘、信息安全。

空间数据挖掘主要方法 数据分析微信公众号datadw——关注你想了解的,分享你需要的。 1.空间分析方法 利用GIS的各种空间分析模型和空间操作对GIS数据库中的数据进行深加工,从而产生新的信息和知识。常用的空间分 析方法有综合属性数据分析、拓扑分析、缓冲区分析、距离分析、叠置分析、地形分析、趋势面分析、预测分析等,可发现目标在空间上的相连、相邻和共生等关联规则,或发现目标之间的最短路径、最优路径等辅助决策知识。 2.统计分析方法 统计分析一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性分析。统计方法有较强的理论基础,拥有大量成熟的算法。统计方法难以处理字符型数据,需要有领域知识和统计知识,一般由具有统计经验的领域专家来完成。 3.归纳学习方法 归纳学习方法是从大量的经验数据中归纳制取一般的规则和模式,其大部分算法来源于机器学习领域,归纳学习的算法很 多,如Michaski等的 AQ11,AQ15,洪家荣等的AE1,AE9,Hunt的CLS,Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的 C5.0决策树算法。 4.聚类与分类方法 聚类和分类方法按一定的距离或相似性系统将数据分成一系列相互区分的组。常用的经典聚类方法有 Kmean,Kmeriod,ISO DATA 等。分类和聚类都是对目标进行空间划分,划分的标准是类内差别最小,类间差别最大。分类和聚类的区别在于分类事先知道类别数和种类的典型特征,而聚类则事先不知道。 5.探测性的数据分析方法 李德仁、邸凯昌等提出了探测性的数据分析(简称EDA)。EDA采用动态统计图形和动态链接窗口技术将数据及统计特 征显示出来,可发现数据中非直观 的数据特征及异常数据。 EDA与空间分析相结合,构成探测性空间分析(exploratory spatial analysis,简称ESA)。EDA

大数据研究综述

————————————————————————————————作者:————————————————————————————————日期: ?

大数据研究综述 摘要:从大数据基本理论,大数据存储与分析处理技术和大数据应用研究三个角度说明当前研究热点,重点比较当前大数据处理工具的优缺点,并深入归纳总结了基于数据存储大数据处理技术,对未来研究进行展望。 关键词:大数据,综述,数据处理,数据挖掘 引言 现代社会提到大数据大家都知道这是近几年才形成的对于数据相关的新名词,在1980年,,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。在20 世纪 80年代我国已经有一些专家学者谈到了海量数据的加工和管理,但是由于计算机技术和网络技术的限制大数据未能引起足够的重视,它蕴藏的巨大信息资源也暂时隐藏了起来。随着云计算技术的发展,互联网的应用越来越广泛,以微博和博客为代表的新型社交网络的出现和快速发展,以及以智能手机、平板电脑为代表的新型移动设备的出现,计算机应用产生的数据量呈现了爆炸性增长的趋势。2012年末出版的《大数据时代》的作者英国牛津大学网络学院互联网研究所治理与监管专业教授维克托·尔耶·舍恩伯格在书的引言中说,大数据正在改变人们的生活以及理解世界的方式, 而更多的改变正蓄势待发。美国总统奥巴马的成功竞选及连任的背后都有大数据挖掘的支撑,美国政府认为,大数据是“未来的新石油”,并将对大数据的研究上升为国家意志,这对未来的科技与经济发展必将带来深远影响[1]。如今,大数据已成为一项业务上优先考虑的工作任务,因为它能够对全球整合经济时代的商务产生深远的影响。大数据的应用范围如此广泛,与大数据相关的很多问题都引起了专家和学者的重视。大数据最基本的问题-大数据的定义目前还没有一个统一的定论,但大数据作为一种基础性资源需要被处理才能显现其潜在的价值,那么如何更好地处理大数据这种基础性资源就显得特别重要,因为这些问题都关系到大数据核心价值的体现。为此,本文从大数据若干个版本的概念出发,调查分析了大数据的研究和应用现状,重点分析了当前主流的大数据处理工具和技术,最后预测了大数据未来

浅析空间数据挖掘主要方法 1.空间分析方法 https://www.doczj.com/doc/e917779624.html,/ 利用GIS的各种空间分析模型和空间操作对GIS数据库中的数据进行深加工,从而产生新的信息和知识。常用的空间分析方法有综合属性数据分析、拓扑分析、缓冲区分析、距离分析、叠置分析、地形分析、趋势面分析、预测分析等,可发现目标在空间上的相连、相邻和共生等关联规则,或发现目标之间的最短路径、最优路径等辅助决策知识。 2.统计分析方法 https://www.doczj.com/doc/e917779624.html, 统计分析一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性分析。统计方法有较强的理论基础,拥有大量成熟的算法。统计方法难以处理字符型数据,需要有领域知识和统计知识,一般由具有统计经验的领域专家来完成。 https://www.doczj.com/doc/e917779624.html,/bbs 3.归纳学习方法 归纳学习方法是从大量的经验数据中归纳制取一般的规则和模式,其大部分算法来源于机器学习领域,归纳学习的算法很多,如Michaski等的 AQ11,AQ15,洪家荣等的AE1,AE9,Hunt的CLS,Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的C5.0决策树算法。 4.聚类与分类方法 聚类和分类方法按一定的距离或相似性系统将数据分成一系列相互区分的组。常用的经典聚类方法有Kmean,Kmeriod,ISO DATA等。分类和聚类都是对目标进行空间划分,划分的标准是类内差别最小,类间差别最大。分类和聚类的区别在于分类事先知道类别数和种类的典型特征,而聚类则事先不知道。 5.探测性的数据分析方法 李德仁、邸凯昌等提出了探测性的数据分析(简称EDA)。EDA采用动态统计图形和动态链接窗口技术将数据及统计特征显示出来,可发现数据中非直观的数据特征及异常数据。 EDA与空间分析相结合,构成探测性空间分析(exploratory spatial analysis,简称ESA)。EDA和ESA技术在数据挖掘中用于选取与问题领域相关的数据子集,并可初步发现隐含在数据中的某些特征和规律。 https://www.doczj.com/doc/e917779624.html,/bbs 6.粗集方法

相关主题
文本预览
相关文档 最新文档