最新大数据与云计算研究报告

  • 格式:doc
  • 大小:1.38 MB
  • 文档页数:40

下载文档原格式

  / 5
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据与云计算研究报告(说明:此文为WORD文档,下载后可直接使用)

摘要:近年来,大数据和云计算已经成为社会各界关注的热点话题。秉承“按需服务”理念的“云计算(Cloudcomputing)”正高速发展,“数据即资源”的“大数据(bigdata)”时代已经来临[1]。大数据利用对数据处理的实时性、有效性提出了更高要求,需要根据大数据特点对传统的常规数据处理技术进行技术变革,形成适用于大数据收集、存储、管理、处理、分析、共享和可视化的技术。如何更好地管理和利用大数据已经成为普遍关注的话题。大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生。本文所提到的大数据包含着云计算,因为云计算是支撑大数据的平台。

关键词:大数据云计算数据分析数据挖掘

引言

在学术界,大数据这一概念的提出相对较早。2008年9月,《自然》杂志就推出了名为“大数据”(bigdata)的专刊。2011年5月,麦肯锡全球研究院发布了名为《大数据:创新、竞争和生产力的下一个前沿》(Bigdata:Thenextfrontierforinnovation,competition,andproductivity)的研究报告,指出大数据将成为企业的核心资产,对海量数据的有效利用将成为企业在竞争中取胜的最有力武器。2012年,联合国发布大数据政务白皮书,指出大数据可以使用极为丰富的数据资源来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。2012年3月29日,奥巴马政府发布了《大数据研究与发展计划倡议》,宣布启动对大数据的研发计划,标志着美国把大数据提高到国家战略层面,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。

大数据应用正在风靡全球,大数据精准营销成为企业掌舵者的口头禅,那么大数据真的是无懈可击吗?答案显然是否定的。随着互联网和移动设备的普及,大数据已经在我们的生活中无处不在,而有关大数据与隐私的问题也日益受到关注。毫无疑问,未来可以获得的个人数据量越多,其中的信息量就越大。只要拥有了足够多的数据,我们甚至可能发现有关于一个人的未来信息。另外市场是变化无常并且不可预期的,决策者的创造性思维并不能通过数据得以体现,相反,

大数据在压制创新。大数据搜集到的数据的真实性也有待检验。一个人获得的数据和事实越多,预测就越有意义,人的判断也就显得愈发重要。人类、数据集和算法的协同进化将最终决定“大数据”究竟是会创造新财富,还是会摧毁旧价值。

本文首先介绍了云计算的相关概念,云计算为大数据的诞生创造了物质基础,从而引出大数据的相关概念。通过大数据与云计算之间关系的比较,使读者对大数据与云计算有一个清晰的了解。文章介绍了大数据特征、作用以及对大数据分析的方法理论,对大数据的两种处理模式、处理流程以及关键技术进行了分析,提出MapReduce 与关系数据库融合技术,为未来大数据的工作提供了一个参考。

1云计算简介

正如维克托教授所说,大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。而发掘数据价值、征服数据海洋的“动力”就是云计算[2]。本章首先对云计算进行相关介绍。

1.1云计算的概念

由于云计算是由不同的企业和研究机构同步推进的技术,所以关于云计算的定义有很多,至今并没有一个公认的定义和标准。

结合国际20位专家的定义,IanFoster定义云计算为一个由规模经济驱动的大型分布式计算模型,在该模型中,抽象的、虚拟化的、动态可伸缩的并可管理的计算资源、存储资源、平台和服务构成了一

个资源池。资源池中的资源通过互联网,按需提供给池外的用户。

文献[3]归纳的云计算定义为:云是由易于使用的虚拟资源构成的一个巨大资源池,包括硬件资源、部署平台以及相应的服务。根据不同的负载,这些资源可以动态地重新配置,以达到一个最理想的资源使用状态。资源池中的资源是按需付费的,服务提供商通过服务等级协议(ServiceLevelAgreement,SLA)保证用户的服务质量。

综合其他资料,可以将云计算归纳为:云计算以虚拟化技术为核心,虚拟化技术将共享的硬件和软件资源抽象化成一个统一的资源池,通过互联网这个载体,向用户按需地提供所需的资源。其特点在于多用户共享、大数据处理与大数据存储[8]。

云计算严格地来说并不是一种真正新的技术,而是并行计算(ParallelComputing,PC)等计算模式的进一步演进。由于云计算的主要标准和方案是由企业推进的,也可以说云计算是分布式计算模型的商业实现。

1.2云计算部署及服务模式

根据云计算服务对象范围的不同,云计算有四种部署模式(如图1所示):私有云、社区云、公有云和混合云[10]。

私有云(Privatecloud):云计算出现之前,对于数据密集型或计算密集型任务,用户需要建立数据中心来提供服务,以满足其对数据存储、计算、通信能力的要求。用户需对数据中心进行运维和安全管理,对服务器上的数据和应用具有所有权和控制权。云计算出现后,