大数据时代读后感心得2000字以上

  • 格式:doc
  • 大小:16.50 KB
  • 文档页数:3

下载文档原格式

  / 3
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据时代读后感心得2000字以上

凡是过去,皆为序曲是大数据业者最喜欢引用的语句。大数据是现在的潮流,《大数据时代》被认为是了解大数据的初级读物。近期连续读了两遍,第二遍是为了写这篇读后感,总体而言,值得一看,但细节方面却需要讨论了。

维基百科对大数据的解释:Big data,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

有人说现在是读图时代,除去小说、心灵鸡汤以外,现在的畅销书基本都有图片,这本书是一个特例(书里唯一的图是出品方湛庐文化做的)

首先尝试解析一下作者的三大观点,这三大观点是大数据业者很喜欢引用的三句话:

1 不是随机样本,而是全体数据

我想所有人都能意识到对全体数据的分析优于对随机样本的分析,但在现实中我们经常拿不到全体数据:一是对象的特性:比如炸弹的威力,你不可能把所有炸弹都炸掉来得到全体数据;二是数据的收集方法,每一种方法都有适用的范围,不太可能包罗万象;三是数据分析的角度,战斗机只能统计到飞回来的飞机上的弹孔,而坠毁的则无法统计,沃德通过分析飞回来的战斗机得出来最易导致坠毁的薄

弱点;四是处理能力跟不上,就像以前的天气预报太离谱是因为来不及算那些数据。采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物,作者显然只关注了一部分原因。

从语言的理解上看,什么是全体数据,究竟是我们需要的所有数据,还是我们能收集到的所有数据,书中的很多商业案例中,处理的只是我们能收集到的所有数据,或者说是我们认为的全体数据。人对自然的认识总是有限的,存在主义认为世界没有终极的目标。书中举例Farecast使用了每一条航线整整一年的价格数据来进行预测,而整整一年就是一个采样,或者是我们需要的所有数据。

从历史的角度看,国外的托勒密建亚历大图书馆唯一的目的是收集全世界的书,实现世界知识总汇的梦想,国内的乾隆汇编四库全书,每个收集的过程都有主观因素在里面,而他们当时都认为可以收集全部的书籍,到最后,我们也没有得到那个梦中的全体。

2 不是精确性,而是混杂性

既然我们过去总是在抽样,那本身就是在一个置信水平下,有明确的容错度或者是偏差值。人类永远知道我们是在精确性受限的条件下工作。同时,作者本身也承认错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。那大数据的特征究竟是精确性还是混杂性?

由此衍生出一个问题,大数据的品质如何控制:一、本身就不要求精确,但是不精确到何种程度是需要定义的,否则就乱套了,换

个角度,如果定义了容错度,那符合条件的都是精确的(或者说我这句话还是停留在小数据时代?这里的逻辑我没有理顺)。就像品质管理大师克劳斯比提出过零缺陷理论,我一直觉得是一个伪命题,缺陷是一定存在的,就看如何界定了;二、大量非结构化数据的处理,譬如说对新闻的量化、情感的分析,目前对非SQL的应用还有巨大的进步空间。

一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。通过找出一个关联物并监控它,我们就能预测未来。这句话当然是很认同,但不意味着我们可以放弃精确性,只是说我们需要重新定义精确度。之于项目管理行业,如果一个项目出了严重的问题,我们相信,肯定是很多因素和过程环节中出了问题,我们也失去了很多次挽救的机会。而我们一味的容忍混杂性的话,结果显然是不能接受的。

3 不是因果关系,而是相关关系

这是本书对大数据理论的最大的贡献,也是最受争议的地方。连译者都有点看不下去了。

相关关系我实在是太熟了,打小就学的算命就是典型的不是因果关系,而是相关关系。算命其实是对趋向性的总结,在给定条件下,告诉你需要远离什么,接近什么,但不会告诉你为什么那样做。