大数据的前世今生:大数据特征与发展历程
- 格式:pdf
- 大小:690.23 KB
- 文档页数:6
大数据的发展史在信息时代,大数据的概念被广泛提及,并逐渐成为经济和社会发展的重要驱动力。
作为一种新兴的数据处理和分析技术,大数据的发展经历了多年的演进和创新。
本文将回顾大数据的发展史,探讨其重要里程碑,并展望大数据的未来前景。
1. 早期信息处理自20世纪50年代计算机问世以来,大型机和小型机的出现为信息处理提供了基础。
然而,在那个时代,数据量相对较小,主要用于商业交易和科学计算。
随着信息技术的进步和互联网的普及,大数据开始蓬勃发展。
2. 大数据触发点1997年,英国科学家迈克尔·科尔本发表论文“大数据:概念与挑战”,首次正式提出了大数据的概念。
科尔本认为,大数据具有三个特点:数据量巨大、多样性高和处理速度快。
这一概念点燃了学术界和工业界对大数据的兴趣,推动了大数据技术的发展。
3. 大数据技术的崛起2003年,谷歌公司推出了一种名为“MapReduce”的分布式计算模型,为大数据处理提供了新的思路和方法。
该模型能够将大规模数据分割成小块,并在多台计算机上进行并行处理,大大缩短了数据处理时间。
此后,分布式存储系统Hadoop的诞生和NoSQL数据库的兴起进一步推动了大数据技术的发展。
4. 大数据应用的拓展2010年,IBM公司发布了“智能星球”计划,旨在将大数据技术应用于城市规划和交通管理。
此举标志着大数据应用从商业领域拓展到了公共服务领域。
随后,医疗、金融、制造等行业纷纷引入大数据技术,通过对数据的深入分析,挖掘出有价值的信息,为企业决策提供依据。
5. 大数据与人工智能的融合大数据与人工智能的结合是当前大数据发展的重要趋势。
人工智能技术的快速发展和大数据的海量信息相结合,使得机器能够更好地理解和应用数据。
通过机器学习、深度学习等技术,机器可以自动识别模式和规律,并根据数据做出智能决策,进一步提高数据处理的效率和准确性。
6. 太赫兹波段大数据时代的来临随着科技的进步,大数据时代将进一步向前迈进。
简述数据发展的历程及其特点数据发展的历程及其特点可以追溯到人类社会的起源。
从最早期的文字记录到如今数字化的大数据时代,数据的产生、收集、存储和分析已经发生了巨大的变化。
一、数据的历程1.文字记录阶段:人类最早的数据记录方式是通过刻画或书写来进行信息传递和保存。
最早的文字刻画来自于古埃及和古巴比伦等文明,而发明的活字印刷术使得大规模印刷成为可能。
这种记录方式能够记录大量信息,但由于存储和传播的限制,数据的获取和分析都十分困难。
2.电子计算机阶段:20世纪40年代,电子计算机的发明引领了数据处理的革命。
电子计算机不仅能够存储大量的数据,还能够高效地进行数据处理和分析。
这一时期的数据处理主要是围绕着电子计算机展开的,但数据的获取仍然受限于人工的收集和输入。
3.互联网时代:互联网的普及使得数据的获取和共享变得更加便捷。
从20世纪90年代开始,随着互联网的快速发展,数据的生成和传输量呈爆炸式增长。
人们可以通过电子邮件、网页浏览器等工具进行数据的传输和共享。
这个时代的特点是数据的规模庞大,但处理和分析的手段相对简单。
4.大数据时代:21世纪初,随着云计算和物联网等新兴技术的兴起,数据进入了爆发式增长的时代。
大数据的特点是数据量巨大、速度快、种类多样,需要借助先进的计算和分析手段来获取和利用数据。
大数据的出现也带来了数据隐私和安全等问题,对数据的处理和使用提出了新的挑战。
二、数据发展的特点1.数据量的增长:随着科技的进步和社交媒体的普及,数据量呈指数级增长。
根据国际数据公司(IDC)的预测,到2025年,全球数据总量将达到163ZB(1ZB等于10的21次方字节)。
数据量的增长使得数据处理和分析变得更加复杂和困难。
2.数据速度的加快:互联网、物联网和移动通信等技术的普及使得数据的传输速度大大加快。
人们可以通过各种设备和传感器实时采集和传输数据。
这对数据的处理和分析提出了更高的要求,要求能够实时处理大规模的数据流。
大数据技术的发展演变及其特点大数据技术的发展演变及其特点随着数字时代的到来,互联网的普及与技术的发展,大数据逐渐成为一个热门话题。
大数据技术的发展经历了多年的演变,其不断突破的特点也对社会、经济和科技产生了深远的影响。
20世纪90年代,互联网的普及使得大量的数据被产生和收集。
然而,由于当时计算机硬件的限制和数据分析技术的局限性,并未能充分挖掘数据的潜力。
在此之后,随着硬件技术的进一步发展,尤其是云计算的出现,大数据技术开始迅速发展起来。
在21世纪初期,大数据技术在云计算、机器学习和数据挖掘等领域有了重大突破。
这些技术的发展使得大数据得到了更全面和精确的处理和分析。
同时,随着社交网络、移动互联网和物联网的兴起,大量的数据不断产生,实时数据处理和分析成为一个重要的需求。
在大数据技术的发展过程中,分布式系统技术发挥了重要的作用。
分布式系统技术使得大规模数据的处理变得可能。
通过将大数据分割为多个小数据集,分布式系统可以同时处理这些小数据集,从而提高数据处理的效率。
同时,分布式系统还具备容错性和可伸缩性等特点,可以应对大规模数据处理的挑战。
此外,机器学习和人工智能技术的不断发展也极大地推动了大数据技术的进步。
机器学习技术通过分析大数据集中的模式和规律,可以为决策提供更准确的依据,并通过自动化的方式不断优化和改进模型。
人工智能技术则可以利用大数据中蕴藏的知识和信息,为生产、服务和决策提供智能化的支持。
大数据技术的特点主要体现在以下几个方面:首先,大数据技术具有高速处理能力。
随着物联网和移动互联网的快速发展,越来越多的实时数据需要实时处理和分析。
大数据技术能够利用分布式系统和实时处理技术,迅速处理大规模数据集,以满足对实时数据分析的需求。
其次,大数据技术具有高容错性和可伸缩性。
由于数据量的增长和业务需求的变化,数据处理和存储系统需要具备高容错性和可伸缩性。
大数据技术通过分布式系统和云计算等技术实现了对系统的高可靠性和可扩展性,确保数据处理的稳定性和可持续性。
大数据的前世今生:大数据特征与发展历程大数据的前世今生:大数据特征与发展历程1.引言在当今信息技术快速发展的时代,大数据已经成为了一个热门的话题。
作为一种新兴的技术和应用,大数据在各个领域中发挥了重要的作用。
本文将深入探讨大数据的特征及其发展历程。
2.大数据的特征2.1 数据量大大数据的最主要特征就是数据量大,远远超过了传统存储和处理方式的能力。
通过大数据技术,我们可以轻松处理海量的数据,从中发现隐藏的规律和趋势。
2.2 多样性大数据不仅包括结构化的数据,还包括非结构化和半结构化的数据。
这些数据来源于各种各样的渠道,如传感器、社交媒体、日志文件等。
多样性的数据需要适应不同的处理和分析方法。
2.3 高速度随着互联网的快速发展,数据的速度也大大加快。
大数据需要在短时间内进行处理和分析,以便及时获得有价值的信息。
2.4精确性大数据要求数据的精确性和准确性。
数据质量的好坏直接影响到大数据的分析结果和应用效果。
3.大数据的发展历程3.1 数据的快速增长随着互联网的兴起和智能设备的普及,数据的速度呈指数级增长。
这使得传统的数据处理方式面临着严峻的挑战。
3.2 数据存储技术的进步为了应对快速增长的数据量,各种新的数据存储技术不断涌现。
例如,分布式文件系统和列式数据库等技术的发展,使得大规模的数据存储和管理成为了可能。
3.3 数据分析技术的革新与传统的数据处理方式相比,大数据的分析技术更加高效和灵活。
例如,MapReduce和机器学习算法等技术的运用,使得我们能够从海量数据中获取有用的信息和洞察。
3.4 大数据的广泛应用随着大数据技术的不断成熟,大数据已经在各个领域中得到了广泛的应用。
例如,在金融、医疗、交通等领域,大数据技术可以帮助我们做出更准确的预测和决策。
4.本文档涉及附件在本文档中,涉及到一些相关的附件供参考。
这些附件通过提供实例、数据图表等形式,进一步展示大数据的特点和发展历程。
5.本文所涉及的法律名词及注释5.1 数据保护法数据保护法是指维护个人数据隐私的法律规定。
大数据的定义特征与发展历程
大数据是指海量、多样化和高速增长的数据,它具有以下几个基本特征:
1.海量:指数据量的增长超出了传统的处理能力,通常是指TB甚至PB级的数据量;
2.多样性:指数据源多,格式多,类型多;
3.高速增长:指数据增长速度之快,以每秒、每分钟或每天计算;
4.低价值:指数据本身价值低,只有当进行整合和分析后才能解锁出更高的价值。
大数据发展历程:
大数据概念最早提出于20世纪90年代,当时,收集保存海量数据的过程称为“数据挖掘”。
随着网络技术的发展,人们能够获取越来越海量的数据,收集所有数据的过程也变得越来越容易。
经过数十年的发展,大数据正在不断改变着社会经济的发展。
2003年,一篇名为《谷歌的新模式:革命性的大规模数据处理》的论文提出了“大数据”这一概念,将数据挖掘的概念拓宽,把大量数据的处理作为一种新的计算模式,把大数据作为一种重要的资源进行挖掘,强调了大数据处理技术的重要性。
2005年,Doug Cutting将Hadoop框架开源,Hadoop框架的出现为分布式计算提供了支持。
大数据的发展历程随着互联网的普及与快速发展,大数据越来越进入人们的视野,成为数据管理、应用、分析和决策的基础。
本文将简要介绍大数据的发展历程。
一、大数据的起源与发展初期大数据的起源可以追溯到20世纪50年代,当时世界各大国为了安全和国防目的而积累了大量的数据。
20世纪90年代,互联网的出现,开创了数据储存和处理的新篇章,数据量的爆炸式增长引发了人们对数据的分析和利用的需求,这标志着大数据的发展初期。
二、大数据技术与应用的兴起2000年后,随着云计算、物联网、移动互联网等新一代信息技术的快速发展,大数据处理技术得到了革新和提高,数据的获取、储存、传输、处理和分析比以前更为快捷和高效。
以Hadoop、Storm、Spark 等技术为代表的大数据处理平台成为主流,应用领域涵盖电子商务、金融、医疗、教育等各个领域。
大数据的应用日益广泛,迅速推动了经济社会的发展。
三、大数据时代的挑战与机遇随着移动互联网技术的发展,千万级别和亿级别以上的设备成为现实,大数据时代将在这个基础上形成。
在大数据的应用过程中,涉及到数据的质量、安全、隐私保护等方面的问题。
另外,在数据分析与处理过程中,涉及到不同样本的数据之间的关联和互动,算法的准确性和效率问题也需要解决。
这些问题都为我们提供了挑战,更展示了大数据时代的机遇。
四、大数据智能化的趋势随着大数据的发展,机器学习、深度学习等人工智能技术迅速成熟,这为大数据的智能化应用提供了新的机会。
人工智能的进化,将推动大数据的分析、管理和决策与人的关系进一步深化,为人类社会的科学发展和社会进步带来新的可能性和机遇。
五、未来展望未来的大数据将突破瓶颈,继续以惊人的速度迅猛发展。
在这个过程中,我们需不断学习和认识新的信息技术和一个不断适应变化的环境,我们要不断提高自己的能力并利用好每一个机遇。
结论:总之,大数据创造了便捷和效率,为各行各业提供了更多的可能性。
伴随着技术进步,大数据技术带来的潜在应用前景还更值得期待。
数据发展的历程及其特点一、数据起源数据起源于远古时代,人们通过计数、记录等方式进行信息管理。
最初的数据处理方式是手工处理,例如用石子、结绳等原始的方式进行计数和记录。
二、手工处理随着社会的进步和发展,数据处理方式也逐渐进化。
手工处理的方式虽然繁琐,但却是数据处理的基础。
在这个阶段,数据处理主要依靠人力和简单的工具完成,如算盘、计算器等。
数据处理效率低下,容易出现错误,但是为后续的数据处理奠定了基础。
三、电子化处理随着计算机技术的出现和发展,数据处理方式发生了革命性的变化。
电子化处理的方式大大提高了数据处理的速度和精度,同时也降低了人力成本。
在这个阶段,数据处理主要依靠计算机和相关的软件完成,如Excel、数据库等。
电子化处理使得数据处理更加高效、便捷和准确。
四、大数据时代随着互联网、移动设备等技术的快速发展,数据量呈爆炸式增长,我们进入了大数据时代。
大数据时代的特点是数据量大、种类多、速度快、价值高。
在这个阶段,数据处理主要依靠大规模的计算机集群和高效的算法,如Hadoop、Spark等。
大数据技术的应用范围广泛,包括金融、医疗、教育、电商等领域。
通过对大数据的分析和处理,可以挖掘出更多的信息和价值,帮助企业和政府做出更明智的决策。
五、人工智能应用人工智能技术的快速发展为数据处理带来了更多的可能性。
人工智能技术可以自动化地对大量数据进行分类、清洗、分析和利用。
同时,人工智能技术还可以通过机器学习和深度学习等技术对数据进行自动化学习和预测,为决策提供更加准确和可靠的依据。
人工智能技术的应用范围广泛,包括自然语言处理、图像识别、智能推荐等领域。
六、数据安全与隐私随着数据的不断增加和处理技术的不断提高,数据安全和隐私保护成为越来越重要的问题。
企业和政府需要采取一系列的安全措施来保护数据的安全和隐私,包括加密技术、访问控制、安全审计等。
同时,也需要制定相关的法律法规来规范数据的收集和使用,保障个人隐私和企业商业秘密的安全。
大数据的前世今生:大数据特征与发展历程大数据的前世今生:大数据特征与发展历程一、引言近年来,大数据成为了信息技术领域的热门话题,对于各个行业和领域的发展起到了重要的推动作用。
本文将从大数据的特征和发展历程两个方面进行详细探讨,以便更好地理解大数据的意义和应用。
二、大数据的特征⒈数据规模巨大大数据的最显著特征之一就是数据规模巨大,通常以TB、PB、EB甚至更大的容量来计量。
这种规模大大超过了传统数据库所能容纳和处理的范围,因此需要使用特殊的处理方法和技术来应对。
⒉数据类型多样大数据并非仅指结构化数据,还包括非结构化和半结构化数据,例如文本、图片、视频、音频等各种形式的数据。
这些数据类型的多样性也给数据的采集、存储和分析带来了新的挑战。
⒊数据速度快随着互联网和物联网的快速发展,数据的速度也越来越快。
例如社交媒体平台上每天发布的大量信息、传感器采集的实时数据等,都需要实时处理和分析,以便及时获得有价值的信息。
⒋数据价值密度低大数据中常常存在很多垃圾数据或无效数据,数据的价值密度相对较低。
因此,需要通过数据清洗、挖掘和分析等手段提高数据的价值密度,以便更好地支撑决策和创新。
三、大数据的发展历程⒈数据爆炸时代的到来20世纪90年代,随着互联网的普及和计算机存储技术的发展,海量数据的产生和积累开始逐渐成为现实。
大型互联网企业如谷歌、亚马逊等通过搜索引擎和电子商务平台大量收集和存储数据,为大数据的发展奠定了基础。
⒉云计算的兴起2006年,亚马逊推出了弹性云计算服务Amazon Web Services(AWS),为大数据的处理和分析提供了弹性和可扩展的计算资源。
随后,微软、谷歌等公司也相继推出云计算平台,推动了大数据技术和应用的进一步发展。
⒊大数据技术的突破随着大数据的快速增长,传统数据库和数据处理技术无法满足对大规模数据的需求。
因此,Hadoop、Spark等大数据处理框架被开发出来,通过分布式计算和存储技术,实现了对大规模数据的高效处理和分析。
介绍大数据的基本原理、发展历程和大数据的特征。
下载提示:该文档是本店铺精心编制而成的,希望大家下载后,能够帮助大家解决实际问题。
文档下载后可定制修改,请根据实际需要进行调整和使用,谢谢!本店铺为大家提供各种类型的实用资料,如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等,想了解不同资料格式和写法,敬请关注!Download tips: This document is carefully compiled by this editor. I hope that after you download it, it can help you solve practical problems. The document can be customized and modified after downloading, please adjust and use it according to actual needs, thank you! In addition, this shop provides you with various types of practical materials, such as educational essays, diary appreciation, sentence excerpts, ancient poems, classic articles, topic composition, work summary, word parsing, copy excerpts, other materials and so on, want to know different data formats and writing methods, please pay attention!大数据,顾名思义是指规模极大的数据集合。
大数据的发展历程大数据的发展历程是一个跨越了数十年的漫长旅程,它见证了从数据的初步收集到如今数据驱动决策的转变。
这个历程可以大致分为几个阶段:1. 早期数据收集与处理在计算机和信息技术的早期,数据的收集和处理非常有限。
数据主要来源于手工记录和简单的自动化系统。
这个阶段的数据量相对较小,处理速度慢,主要用于基本的统计分析。
2. 数据库和数据仓库的出现随着计算机技术的发展,数据库管理系统(DBMS)和数据仓库开始出现。
这些技术使得数据的存储、检索和分析变得更加高效。
企业开始利用这些工具来管理大量的数据,并从中提取有价值的信息。
3. 互联网的兴起与数据量的爆炸式增长20世纪90年代末,互联网的普及带来了数据量的爆炸式增长。
网页、社交媒体、在线交易等都成为了数据的重要来源。
这个阶段,数据的收集和分析开始变得更加复杂,需要更先进的技术和算法来处理。
4. 大数据技术的诞生21世纪初,随着数据量的不断增加,传统的数据处理技术已经无法满足需求。
这时,大数据技术应运而生,包括分布式存储系统(如Hadoop)、实时数据处理框架(如Apache Storm)和非传统数据库(如NoSQL数据库)。
这些技术的出现,使得处理大规模数据集成为可能。
5. 机器学习和人工智能的融合近年来,大数据与机器学习、人工智能技术的结合越来越紧密。
通过机器学习算法,可以从大量数据中自动学习和发现模式,而人工智能则进一步使得数据分析更加智能和自动化。
这不仅提高了数据处理的效率,也使得数据驱动的决策更加精准。
6. 数据治理和隐私保护随着大数据应用的广泛,数据治理和隐私保护成为了重要的议题。
企业和组织需要确保数据的安全、合规和道德使用。
数据治理框架和隐私保护法规的建立,对于保护个人隐私和数据安全至关重要。
7. 数据驱动的决策和业务模式如今,大数据已经成为许多企业和组织决策的核心。
通过分析数据,企业能够更好地理解市场趋势、消费者行为和业务流程,从而做出更加明智的决策。
大数据的前世今生:大数据特征与发展历程大数据(big data)是这样的数据集合:数据量增长速度极快,用常规的数据工具无法在一定的时间内进行采集、处理、存储和计算的数据集合。
大数据具有以下五大特征(4V+1O)的数据才称之为大数据,即:数据量大(Volume)。
第一个特征是数据量大,包括采集、存储和计算的量都非常大。
大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
类型繁多(Variety)。
第二个特征是种类和来源多样化。
包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
价值密度低(Value)。
第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。
随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
速度快时效高(Velocity)。
第四个特征数据增长速度快,处理速度也快,时效性要求高。
比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。
这是大数据区别于传统数据挖掘的显著特征。
数据是在线的(Online)。
数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。
现在我们所谈到的大数据不仅仅是大,更重要的是数据变的在线了,这是互联网高速发展背景下的特点。
比如,对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有意义。
如果是放在磁盘中而且是离线的,这些数据远远不如在线的商业价值大。
关于大数据特征方面,特别要强调的一点是数据是在线的,因为很多人认为数据量大就是大数据,往往忽略了大数据的在线特性。
数据只有在线,即数据在与产品用户或者客户产生连接的时候才有意义。
如某用户在使用某互联网应用时,其行为及时的传给数据使用方,数据使用方通过某种有效加工后(通过数据分析或者数据挖掘进行加工),进行该应用的推送内容的优化,把用户最想看到的内容推送给用户,也提升了用户的使用体验。
大数据发展过程的重大事件2005年Hadoop项目诞生。
Hadoop其最初只是雅虎公司用来解决网页搜索问题的一个项目,后来因其技术的高效性,被Apache Software Foundation公司引入并成为开源应用。
Hadoop本身不是一个产品,而是由多个软件产品组成的一个生态系统,这些软件产品共同实现全面功能和灵活的大数据分析。
从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务,以及利用一种叫做MapReduce技术的高性能并行数据处理服务。
这两项服务的共同目标是,提供一个使对结构化和复杂数据的快速、可靠分析变为现实的基础。
2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织计算社区联盟 (Computing Community Consortium),发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。
它使人们的思维不仅局限于数据处理的机器,并提出:大数据真正重要的是新用途和新见解,而非数据本身。
此组织可以说是最早提出大数据概念的机构。
2009年印度政府建立了用于身份识别管理的生物识别数据库,联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。
2009年中,美国政府通过启动网站的方式进一步开放了数据的大门,这个网站向公众提供各种各样的政府数据。
该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。
2009年,欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关系致力于改善在互联网上获取科学数据的简易性。
2010年2月,肯尼斯 库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据,无所不在的数据》。
库克尔在报告中提到:“世界上有着无法想象的巨量数字信息,并以极快的速度增长。
从经济界到科学界,从政府部门到艺术领域,很多方面都已经感受到了这种巨量信息的影响。
科学家和计算机工程师已经为这个现象创造了一个新词汇:“大数据”。
库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一。
2011年2月,IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目《危险边缘》“Jeopardy”上击败两名人类选手而夺冠。
后来纽约时报认为这一刻为一个“大数据计算的胜利。
”2011年5月,全球知名咨询公司麦肯锡(McKinsey&Company)肯锡全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,大数据开始备受关注,这也是专业机构第一次全方面的介绍和展望大数据。
报告指出,大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。
人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
报告还提到,“大数据”源于数据生产和收集的能力和速度的大幅提升——由于越来越多的人、设备和传感器通过数字网络连接起来,产生、传送、分享和访问数据的能力也得到彻底变革。
2011年12 月,工信部发布的物联网十二五规划上,把信息处理技术作为4 项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。
2012年1月份,瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(Big Data, Big Impact) 宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。
2012年3月,美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》,这一倡议标志着大数据已经成为重要的时代特征。
2012年3月22日,奥巴马政府宣布2亿美元投资大数据领域,是大数据技术从商业行为上升到国家科技战略的分水岭,在次日的电话会议中,政府对数据的定义“未来的新石油”,大数据技术领域的竞争,事关国家安全和未来。
并表示,国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力;国家数字主权体现对数据的占有和控制。
数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。
2012年4月,美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司。
鉴于美国经济持续低靡、股市持续震荡的大背景,Splunk首日的突出交易表现尤其令人们印象深刻,首日即暴涨了一倍多。
Splunk是一家领先的提供大数据监测和分析服务的软件提供商,成立于2003年。
Splunk成功上市促进了资本市场对大数据的关注,同时也促使IT厂商加快大数据布局。
2012年7月,联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。
这份白皮书举例说明在一个数据生态系统中,个人、公共部门和私人部门各自的角色、动机和需求:例如通过对价格关注和更好服务的渴望,个人提供数据和众包信息,并对隐私和退出权力提出需求;公共部门出于改善服务,提升效益的目的,提供了诸如统计数据、设备信息,健康指标,及税务和消费信息等,并对隐私和退出权力提出需求;私人部门出于提升客户认知和预测趋势目的,提供汇总数据、消费和使用信息,并对敏感数据所有权和商业模式更加关注。
白皮书还指出,人们如今可以使用的极大丰富的数据资源,包括旧数据和新数据,来对社会人口进行前所未有的实时分析。
联合国还以爱尔兰和美国的社交网络活跃度增长可以作为失业率上升的早期征兆为例,表明政府如果能合理分析所掌握的数据资源,将能“与数俱进”,快速应变。
2012年7月,为挖掘大数据的价值,阿里巴巴集团在管理层设立“首席数据官”一职,负责全面推进“数据分享平台”战略,并推出大型的数据分享平台——“聚石塔”,为天猫、淘宝平台上的电商及电商服务商等提供数据云服务。
随后,阿里巴巴董事局主席马云在2012年网商大会上发表演讲,称从2013年1月1日起将转型重塑平台、金融和数据三大业务。
马云强调:“假如我们有一个数据预报台,就像为企业装上了一个GPS和雷达,你们出海将会更有把握。
”因此,阿里巴巴集团希望通过分享和挖掘海量数据,为国家和中小企业提供价值。
此举是国内企业最早把大数据提升到企业管理层高度的一次重大里程碑。
阿里巴巴也是最早提出通过数据进行企业数据化运营的企业。
2014年4月,世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》。
报告认为,在未来几年中针对各种信息通信技术的政策甚至会显得更加重要。
在接下来将对数据保密和网络管制等议题展开积极讨论。
全球大数据产业的日趋活跃,技术演进和应用创新的加速发展,使各国政府逐渐认识到大数据在推动经济发展、改善公共服务,增进人民福祉,乃至保障国家安全方面的重大意义。
2014年5月,美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇、守护价值》。
报告鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这种进步的领域;同时,也需要相应的框架、结构与研究,来帮助保护美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。
大数据相关技术的发展大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处理和分析技术,从各种超大规模的数据中提取价值。
大数据技术不断涌现和发展,让我们处理海量数据更加容易、更加便宜和迅速,成为利用数据的好助手,甚至可以改变许多行业的商业模式,大数据技术的发展可以分为六大方向:(1)在大数据采集与预处理方向。
这方向最常见的问题是数据的多源和多样性,导致数据的质量存在差异,严重影响到数据的可用性。
针对这些问题,目前很多公司已经推出了多种数据清洗和质量控制工具(如IBM的Data Stage)。
(2)在大数据存储与管理方向。
这方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。
分布式文件系统和分布式数据库相关技术的发展正在有效的解决这些方面的问题。
在大数据存储和管理方向,尤其值得我们关注的是大数据索引和查询技术、实时及流式大数据存储与处理的发展。
(3)大数据计算模式方向。
由于大数据处理多样性的需求,目前出现了多种典型的计算模式,包括大数据查询分析计算(如Hive)、批处理计算(如Hadoop MapReduce)、流式计算(如Storm)、迭代计算(如HaLoop)、图计算(如Pregel)和内存计算(如Hana),而这些计算模式的混合计算模式将成为满足多样性大数据处理和应用需求的有效手段。