•大数据(big data),又称巨量数据集合,是指无法 在可承受的时间范围内用常规软件工具进行捕捉、管 企业内部数据的采集是对企业内部各种文档、视频、音频、邮件、图片等数据格式之间互不兼容的数据采集。
Map:把统计♠数目的任务分配给每个牌友分别计数。
理和处理的数据集合。 (4)背景数据的可视化
知识计算是从大数据中首先获得有价值的知识,并对其进行进一步深入的计算和分析的过程。 1 大数据可视化简介 互联网(社交、搜索、电商)、移动互联网(微博)、
MapReduce由Map和Reduce两部分用户程 序组成,利用框架在计算机集群上根据需求运行 多个程序实例来处理各个子任务,然后再对结果 进行归并输出。
大数据的相关技术
MapReduce
举例: “统计54张扑克牌中有多少张♠?” 最直观的做法:你自己从54张扑克牌中一张一张地检查并数出13张♠。 而MapReduce的做法及步骤如下: 1.给在座的所有牌友(比如4个人)尽可能的平均分配这54张牌; 2.让每个牌友数自己手中的牌有几张是♠,比如老张是3张,老李是5张,老 王是1张,老蒋是4张,然后每个牌友把♠的数目分别汇报给你; 3.你把所有牌友的♠数目加起来,得到最后的结论:一共13张♠。 这个例子告诉我们,MapReduce的两个主要功能是Map和Reduce。 Map:把统计♠数目的任务分配给每个牌友分别计数。 Reduce:每个牌友不需要把♠牌递给你,而是让他们把各自的♠数目告诉 你。
企业内部的经营交易信息主要包括联机交易数据和联机 分析数据,是结构化的、通过关系数据库进行管理和访 问的静态、历史数据。通过这些数据,我们能了解过去 发生了什么。
海量交互数据:
源于Facebook、Twitter、LinkedIn及其他来源的社交 媒体数据构成。它包括了呼叫详细记录CDR、设备和传 感器信息、GPS和地理定位映射数据、通过管理文件传 输Manage File Transfer协议传送的海量图像文件、We b文本和点击流数据、科学信息、电子邮件等等。可以告 诉我们未来会发生什么。