分布式数据挖掘
- 格式:ppt
- 大小:369.50 KB
- 文档页数:18
1791 数据挖掘的简单概述Ha do o p是一个分布式系统基础架构,它实现了一个分布式文件系统,具有极高的容错性,在因特网上是最受欢迎的搜索关键字的内容分类工具,能够解决许多具有伸缩性的问题,能提高文件搜索效率[1]。
而数据挖掘系统是在Hadoop平台建立的,因此,数据挖掘系统的发展与Hadoop 平台紧密结合。
数据挖掘主要是在大量数据中寻找有价值的信息技术,主要由以下三个阶段组成,数据准备阶段,需要对大量的信息进行清理,并对数据整合,同时还对数据格式进行转换;数据挖掘阶段,根据相应的智能算法对数据进行分析,然后形成一定的数据模式;结果评估阶段,主要根据挖掘出的数据模式的运行效果进行评判,对没有任何效果的评估模式全部排除。
2 数据挖掘的主要任务与具体计算方法2.1 数据挖掘基本任务分析数据挖掘的任务是由大数据发展的方向决定的,同时为数据挖掘工作提供了方向,由于数据挖掘以寻找数据模式为主,并且数据模式也是随着数据的应用领域不同而发生变化,因此,在数据挖掘期间,其任务主要分为描述性挖掘和预测性挖掘两种。
描述性挖掘任务主要根据数据的一般特征,对数据库中的数据进行概括、总结,然后寻找数据之间的关系和类型,最终形成固定的数据模式;对于预测性挖掘主要根据接触的数据做出相应的判断,并加入与之相对应的新的数据的模式[2]。
2.2 数据挖掘的具体计算方法数据聚类算法是对数据进行拆分合并同类项计算,也就是将数据项划分为多层次的子集,对具有相似特性的数据项进行归类,然后对同一个子集中的数据进行计算,该计算方法主要根据数据自身的特性来划分。
具体如下所示:在数据库B 中,所有数据的集合为未知数X ={X 1,X 2,X 3……X n },而在许多的X 中有一部分具有相似性,因而X i (i =1,2,3……n)。
其中对于一个整体集合X,被许多具有相似的X 组合分割成m 个子集,出现了许多的C 1,C 2,C 3……C n 。
基于分布式计算的时空数据挖掘技术研究一、引言随着信息技术的发展,数据的产生和存储量不断增长,数据挖掘也成为了科技领域中的热门话题。
由于“时空数据”与传统的数据存在很大的差异,如存储方式、特征、时序性等,因此时空数据的挖掘技术也逐渐受到了广泛的重视。
本文将针对基于分布式计算的时空数据挖掘技术进行探讨和研究。
二、时空数据的特点1. 存储方式不同传统的数据是以表格的形式存储的,而时空数据常常采用三维、四维的空间坐标系进行存储。
这样,时空数据可以准确表达不同位置和时间的信息。
2. 特征不同时空数据具有时间维度和空间维度的特点,同时还存在时空相互影响,以及时空信息不确定性和动态变化等复杂特征,这就给时空数据的挖掘带来了难度。
3. 时序性强时空数据通常是随着时间的变化而不断更新的,因此具有很强的时序性和动态性。
这就使得时空数据挖掘要求具有及时处理能力,所以需要采用基于分布式计算的技术。
三、时空数据挖掘的相关工作1. 时空数据预处理由于时空数据具有复杂的特征和大量的维数,可以使用多种预处理技术对其进行处理。
例如在标准化、降维、特征选择、异常检测等方面进行预处理可以使得挖掘结果更加准确和可靠。
2. 时空数据聚类时空数据聚类是指根据时空数据的特征将其分为一定数量的簇,以便进行分析和挖掘。
在分布式计算技术中,可以采用K-means算法和DBSCAN算法进行聚类。
3. 时空数据分类进行时空数据分类可以帮助用户更好地理解数据,找到数据之间的关联。
在时间序列分类中,将时序数据分为多个离散事件是一种常见的分类方式。
此外,还可以使用支持向量机、决策树等机器学习算法进行分类。
4. 时空关联分析时空数据挖掘的关联分析研究相对较少,大多数都借鉴传统数据的关联分析方法。
时空数据的关联分析不仅需要考虑空间关系、时间关系、属性关系等因素,还应考虑时空因素之间的关联,因此需要考虑基于时空关联规则的分析方法。
四、采用分布式计算技术的时空数据挖掘系统分布式计算是指将一项任务分解成多个子任务,分配给不同的计算节点来完成,并将所有的结果合并起来形成最终结果。