当前位置:文档之家› 基于MapReduce的大数据集样例选择

基于MapReduce的大数据集样例选择

目录

目录

第1章绪论 (1)

1.1 研究背景及意义 (1)

1.2国内外研究现状 (2)

1.2.1 样例选择的研究 (2)

1.2.2 MapReduce编程模型及应用研究 (5)

1.3 本文主要研究内容 (7)

1.4 本文组织 (8)

第2章基础知识 (9)

2.1 CNN算法 (9)

2.2 MapReduce编程模型 (9)

2.2.1 MapReduce工作原理 (10)

2.2.2 MapReduce工作机制 (11)

2.3 极端学习机(ELM) (13)

第3章基于MapReduce的大数据集样例选择 (17)

3.1 算法的基本思想及算法描述 (17)

3.2 具体实现 (19)

第4章实验和分析 (27)

4.1 实验环境 (27)

4.2 实验评估标准 (27)

4.3 实验数据集 (28)

4.4基于较小规模数据集的实验分析 (29)

4.5基于较大规模数据集的实验分析 (31)

第5章总结与展望 (33)

5.1 总结 (33)

5.2 展望 (33)

参考文献 (35)

致谢 (37)

III

第1章绪论

第1章绪论

1.1 研究背景及意义

在互联网上,每天有200万篇博客发布,这些文章相当于《时代》杂志刊发770年的总量;有86.4万小时的视频被上传到Youtube,相当于不间断播放电视98年;有2.5亿张照片上传到Facebook,堆在一起能有80个埃菲尔铁塔高。累积起来,互联网一天之内产生的数据总量可以装满1.68亿张DVD光盘。这些例子说明我们已经步入了“大数据时代”。

随着“大数据时代”的到来,许多问题也就随之而产生了,例如数据结构的多样性导致的存储问题,如何在面对不同的数据类型时通过分析技术找到其关联等问题。其中,最为突出的问题是大数据的“价值密度比较低”,也就是说数据的冗余度过高,许多无用的信息或者重复的信息也混合在这些大数据中。另外,数据中的噪音数据以及不完整数据都会影响对数据的分析。面对伴随大数据而逐渐凸显出来的众多问题,如何对这些大数据进行数据挖掘和数据分析则成为了目前人工智能领域的研究热点。

无论是从时间角度还是从空间角度来看,对大数据的分析是不现实和不可行的。因此,我们需要通过数据规约技术[1]对大数据进行精简压缩,其目的就是获得原始大数据集的一个精简的数据集合,并且对这个精简集合进行挖掘和分析后产生的结果与对原始数据进行相应的操作后基本一致。从空间上来看,可以从水平和垂直两个方向对数据进行压缩。垂直方向上,即对样例的属性进行约减,即所谓的特征选取,包括特征选择和提取,其中特征提取是从高维特征空间映射到低维特征空间,新的特征与旧的特征并不相同;而特征选择则是从高维特征空间选择一部分特征组成低维特征空间,并不改变每个特征本身。水平方向上,即对数据集进行样例选择,即从原始数据集中选择代表性样例,这也是本文将要研究的内容。

样例选择最终的目的是挑选出那些对分类有较大贡献的样例,尽量使得所选出的子数据集压缩比较大,由子数据集所训练出的分类器的精度较高、泛化能力较强,从而降低问题的复杂度。依据不同的划分标准,样例选择可以划分为不同的类型。本文依据选择的过程,划分为增量样例选择、减量样例选择和批量样例选择[2]。

同时,随着“大数据时代”的到来,Google发表了GFS[3]、MapReduce[4]和BigTable[5]

1

相关主题
文本预览
相关文档 最新文档