大数据也有陷阱
- 格式:pdf
- 大小:745.93 KB
- 文档页数:1
统计陷阱读书笔记(摘抄为黑色字体,个人感悟为蓝色字体)译者的话20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言”—一说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。
相反,还往往对读者形成误导。
从1950年开始,越来越多的人开始注重数据的作用,但是,由于数据被一些机构和商家滥用,甚至是被不正确的利用,很有可能使人们形成错误观念,而达成这些机构和商家的目的。
协助行骗的工具有很多,包括:有偏的样本、刻意挑选的平均数、遗漏某些重要的数据、样本的误差、统计图、平面图、不匹配的资料、混淆相关关系与因果关系以及不正确地使用资料。
每一种工具从某种角度上都可以提高人们对某一数据的信服度,但也可以诱导人们信服错误的虚假的数据。
对“统计资料”应该“提出的五个问题”:“谁说的?”“如何知道的?”“是否遗漏了什么?’’“是否偷换了概念?’’"资料是否有意义?”通过寻找这5个问题的答案,读者能初步判断资料是否真实可信在遇到数据时,应该对数据保持一种怀疑的态度,可能看起来那么真实的数据也有可能是被故意歪曲真相所创造的。
所以对于数据可以提出五个问题来验证数据的可信度,同时在自己运用数据时也要求做到更加真实客观。
培根曾经说过:“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意艳着怀疑的态度开始,那么他必将获得肯定的结论。
”我想对数据资料的判断和接收也是如此。
对一个事情一个说法留有怀疑的态度,并为之去检验验证,那么最终得到的结论会有检验的结果作为依据去支撑它的正确性,但如果从一开始就肯定各种事物,那么最后也只能得到一个看似是肯定,实际上可能错误的结论。
有3种谎言:谎言,楷糕透顶的谎言和统计资料。
---Disraeli这句话体现统计资料被滥用后缺乏真实性,常常会引导大众产生错误观念。
绪言平均数、作用关系、趋势和图表与看上去的并不总是一致。
新闻前哨2015年第2期数据分析师在对阿里巴巴内衣销售数据进行分析后发现,购买大号内衣的女性往往更“败家”。
其根据是,65%B 罩杯的女性属于低消费顾客,而C 罩杯及以上的顾客大多属于中等消费或高消费买家。
这一结论是否成立姑且不论,但首先传递了一个信息,今天人们已经进入数据为王的时代,其中大数据似乎又是王中之王。
无论是商业网站还是搜索网站,人们的所搜所看所买都成为大数据的组成部分,无论之于商业,还是之于公共卫生,抑或国家安全,它们都是有用的信息。
有心人已经意识到,因为拥有大量未经充分研究的中产阶层,中国成为世界上最重要的数据市场之一。
研究这些数据,对社会各方面都是多赢。
当然,保护人们个人隐私的代价需要考虑。
2008年谷歌推出“谷歌流感趋势”(GFT)数据分析工具,谷歌的工程师根据这个工具的数据分析,预测了2009年H1N1流感将要暴发,甚至具体到特定的地区和州。
这一结论在流感暴发前发表在英国的《自然》杂志上。
后来,情况果真如此,这与美国疾病控制和预防中心(CDC)的预测完全一致,但时间上比CDC 早了近两周。
从2010年起,阿里巴巴利用其数据建立的信用记录,向小微企业提供融资,也取得了不错的效果。
这些结果表明,数据为王时代早就到来。
其实,这并不奇怪。
人类文明的三大支柱是材料(物质)、能量和信息,数据又是信息中的核心部分。
古希腊的毕达哥拉斯早就说过,“一切皆数”,尽管其所说的“数”与今天的数据有所不同,但在某些方面是相似的。
所以,在今天也就有了“一切皆信息”,也即数据为王。
不过,数据为王并不意味着大数据为王,或数据越多越好,还要看如何分析和利用数据,进而得出最契合实际的结论,并且有效利用这一结论。
因此,如果要承认阿里巴巴基于内衣销售的数据分析得出的女性胸越大越“败家”的结论,就需要有符合客观实际的解释,不幸的是,这一结论还处于见仁见智的阶段。
网友的各种分析就提供了佐证:一是“大胸都被有钱人娶了,所以才有能力败”;二是“说明青春期的营养状况确实会影响胸的大小”,“胸大的确实普遍嫁得好”;三是“胸大并不败家,集中在网上打折的时候买东西,只会旺家。
互联网经济中大数据的意义探究作者:杨丽荣来源:《商场现代化》2021年第13期摘要:时代不断发展,各种新的科学技术涌现出来,在改革领域发挥应用价值,推动社会持续进步。
互联网技术引领着时代前行,特别是大数据技术的应运而生,使社会经济呈现出新的发展面貌,同时互联网经济也呈现出持续发展的态势。
大数据技术的普遍应用,对于互联网经济而言带来了发展机遇,同时也需要认识到其中的隐患。
本论文着重于研究互联网经济中大数据的意义。
关键词:互联网技术;经济;大数据;意义一、引言互联网技术为适应应用领域的需要,发展速度不断加快,普及的范围也不断扩大,为形成大数据环境创造良好的条件。
在互联网经济发展中,互联网技术是重要的部分,从当前互联网经济的运行情况来看,只有将大数据技术的价值全面发挥出来,才能促使互联网经济实现持续增长。
处于当前的互联网时代,每时每刻都会有大量的数据信息产生,海量的数据形成大数据,互联网运行的过程中所产生的数据资源都蕴含在内部数据中,所以对于“大数据”概念大量界定,基于互联网发展展开,可以说,互联网进入高度发达状态的时候,大数据技术产生,从中可以认识到人类已经进入到信息大爆炸的时代。
二、互联网经济和大数据的相关概述虽然普通的计算机软件也具有数据提取功能,对数据进行存储、检索并实现信息共享,但是面对海量而复杂的数据集合,在合理的时间范围内就无法实现这些操作功能,大数据技术却能够做到,这就是大数据技术的与众不同之处。
现在,大数据技术已经在各个领域应用,人们的生产、生活以及日常的学习中都离不开大数据技术,可见其应用价值是非常大的。
大数据技术所具备的特点主要体现在四个方面:即有很大的数据体量、有多种数据类型、处理数据的速度快且价值密度相对比较低。
处于现在的网络信息环境中,互联网经济作为一种新的经济形式是基于互联网展开的各种经济活动。
互联网经济是充满时代感的经济形态,其运行离不开信息流、资金流和物流,主要是依靠网络实施经济活动。
如何避免大数据陷阱大数据陷阱通常是指在大数据应用过程中,由于数据的不准确、不完整或不当使用而导致的错误结果或负面影响。
要避免大数据陷阱,可以考虑以下几个方面:1.谨慎选择数据来源:在收集和使用大数据时,要谨慎选择数据来源,确保数据的准确性和可靠性。
同时,要注意数据的完整性和时效性,避免使用过时或残缺的数据。
2.强化数据治理:对于大数据应用,需要建立完善的数据治理机制,包括数据质量管理、数据安全管理和数据隐私保护等。
通过规范数据治理,可以确保数据的合规性和安全性。
3.避免过度依赖数据:虽然大数据可以提供很多有用的信息,但过度依赖数据可能会导致决策的僵化和失误。
因此,在决策时,要综合考虑各种因素,包括直觉、经验、市场调研等,以获得更全面的信息。
4.注意数据偏见:在大数据应用中,要注意数据偏见的问题。
由于数据通常是通过对大量样本的统计和分析得出的,因此可能会存在一定的偏差。
因此,在使用数据时,要注意检查数据的偏差情况,并尽可能进行校正。
5.建立监督机制:对于涉及到个人隐私、商业机密和国家安全等敏感信息的大数据应用,需要建立有效的监督机制,防止数据泄露和滥用。
同时,对于一些具有风险的大数据应用,可以建立风险评估和预警机制,及时发现和处理潜在的风险。
6.加强公众参与和透明度:在大数据应用过程中,要加强公众参与和透明度,让公众了解大数据的应用情况和结果,增加公众对大数据的信任度和支持度。
同时,鼓励公众对大数据应用提出意见和建议,促进大数据应用的不断完善和发展。
总之,要避免大数据陷阱,需要从多个方面入手,包括谨慎选择数据来源、强化数据治理、避免过度依赖数据、注意数据偏见、建立监督机制和加强公众参与和透明度等。
通过这些措施的实施,可以有效地减少大数据陷阱的发生,提高大数据应用的准确性和可靠性。
大数据背景下电信诈骗犯罪的特点及对策1. 大数据背景下电信诈骗犯罪的特点手段多样:电信诈骗犯罪分子利用各种手段进行诈骗,包括短信、电话、网络聊天等,难以防范。
跨地域性:电信诈骗犯罪分子可以利用网络技术,跨越地域进行作案,使得打击难度加大。
隐蔽性强:电信诈骗犯罪分子通常采用匿名或者虚假身份进行作案,很难被追踪和定位。
速度快:由于电信诈骗犯罪分子利用网络技术,信息传播速度快,受害者往往在短时间内就会受到损失。
影响广泛:电信诈骗犯罪不仅给个人用户带来损失,还可能对社会经济秩序造成严重影响。
技术门槛低:随着大数据技术的发展,电信诈骗犯罪的实施门槛逐渐降低,使得更多的人有可能参与其中。
预防困难:由于电信诈骗犯罪的手段多样、隐蔽性强等特点,给预防工作带来了很大困难。
1.1 电信诈骗犯罪的定义电信诈骗犯罪是指利用电话、短信、网络等通信手段,通过虚构事实或者隐瞒真相,诱使受害人产生错误认识并采取相应的行为,从而非法占有受害人财物的犯罪行为。
随着大数据技术的发展,电信诈骗犯罪呈现出更加隐蔽、高效和跨地域的特点,给社会治安带来了严重的威胁。
电信诈骗犯罪的主要手段包括:冒充公检法机关、金融机构、企事业单位等进行虚假诉讼、虚假贷款、虚假中奖等欺诈活动;利用社交软件、聊天工具等网络平台实施钓鱼网站、虚假投资理财、虚假招聘等诈骗行为;利用手机短信、彩信等方式发送含有病毒或恶意链接的信息,企图窃取用户信息或破坏手机系统。
为有效打击电信诈骗犯罪,政府、企业和社会各界需要共同努力,加强立法、执法、宣传教育等方面的工作,提高公众的防范意识和识别能力,切实保障人民群众的财产安全和社会稳定。
1.2 大数据背景下电信诈骗犯罪的特点数据量大:大数据技术的发展使得海量数据的收集、存储和处理成为可能,这为电信诈骗犯罪提供了丰富的信息来源。
通过对这些数据的分析,犯罪分子可以更准确地识别潜在的目标受害者,提高诈骗成功率。
数据实时性:大数据技术具有实时处理能力,可以实时监控网络上的信息流动,及时发现和追踪可疑行为。
基于大数据时代高校网络诈骗的防范对策研究作者:向想来源:《中国新通信》2021年第15期【摘要】当今大数据时代,人们的生活已经越来越离不开互联网。
作为新时代主力军的高校大学生,日常生活衣食住行亦是基本借助网络工具去完成。
但是任何事情都具有双面性,网络工具给大学生带来方便、快捷的同时,也给缺乏社会经验和安全意识的他们带来了灾难。
在这样的大环境下,高校逐渐轮为了网络诈骗的重灾区。
为了给学生创造安全和谐的校园环境,保障他们的切身利益,各级各部门必须重视校园网络诈骗问题,建立起“个人—学校—社会—政府”四位一体的高校网络诈骗联防体系,共同努力推动高校网络诈骗的预防和治理。
【关键词】大数据网络诈骗高校防范一、校园网络诈骗特征通过对吉首大学张家界学院近几年发生的校园网络诈骗案例分析研究,初步了解了此类案件的一般特征。
主要体现在以下几个方面:1.大学生易受骗性;2.诈骗主体具有很强的组织性;3.诈骗手段科技化程度高。
1.1学生的易受骗性当代大学生年龄普遍处于18-22岁之间,甚至还有部分同学未成年。
他们年纪小,社会经验不足,防范意识不强,容易成为诈骗者的猎物。
同时,刚从高中紧张、高强度的生活中脱离,进入到比较自由、独立的环境中,他们对一切事物都充满了新鲜感,想去尝试,很容易落入诈骗者精心设计的陷阱中。
再加上,大部分同学可以自由支配学费和生活费,脱离了家长和老师的监管,用钱无计划性,甚至出现一些不理性消费。
这种情况下,在校园内随处可见的借贷广告,无形中成为了诈骗者的帮凶,让更多的学生容易陷入网络诈骗的圈套。
1.2诈骗主体具有很强的组织性诈骗主体从来就不是一个人在战斗,他们是一个团体,一个集团,他们又严密的组织纪律。
每位成员“分工明确”,其中还不乏高学历、高技术人才。
他们在接受了严格“上岗培训”后,业务能力和反侦察能力极强。
通过由违法途径获取的一些个人信息,对大学生实施“精准诈骗”。
每完成一单,根据金额大小,实行累进制提成。
浅谈大数据在航空情报中的应用分析摘要:在今天的社会中,数据是一种很有价值的财富。
虽然中国民航航空情报大数据技术还处在发展初期,但其重要性不容忽视。
随着大数据规模的不断扩大与壮大,其对人们日常生活的影响也日益凸显,这就要求对航空情报大数据进行合理的分析。
关键词:大数据;航空情报;应用策略引言当前,这个新阶段,伴随着科技的快速发展,航空的经济和社会也快速发展。
这就使得人们对航路信息的精准检索与航空情报的实时变化的需求不断提高,航路的设计、布局、空间与分布也不断向更精确的高度靠拢。
一、大在航空情报管理工作中的应用(一)航空数据处理过程PANS-AM (Doc10066) 规定,航空情报管理必须包括收集、处理、质量控制和发布等4个过程,并且AIM时期对数据质量的要求更高,对航空情报数据的处理和质量控制与As时期相比更为系统和全面,比如需要在处理过程中增加对数据的核实和验证环节,需要应用逻辑、语义和比较检查等质量控制技术,过程越多越复杂,产生的过程性元数据就越多。
结合航空情报管理流程,可以得到航空数据处理的一般过程。
(二)大数据分析的程序化大数据分析有其自身的规则和操作方式。
第一步就是利用不同的感知工具,获得与时空等要素有关的多种数据。
第二步为数据提取,对海量数据进行筛选,筛选出有效的数据,并将无效数据和失效数据进行筛选。
第三步是对数据进行组织,对可用的数据进行分析,并对其进行组织。
第四步是对资料进行分析,找出资料间的关联性和规律性,然后再进行资料的发掘。
第五步是对数据进行解释,也就是根据顾客或者使用者的需求,以一种通俗易懂的方式将数据呈现出来,使其更好地发挥出数据的价值。
通过大数据,还可以实现对全年航空情报数据变化情况、某个机场全年修订情况、某项数据全年操作情况等的统计和分析。
总之,大数据是航空情报管理中一个非常重要的概念,深刻理解运用大数据在航空情报质量管理、生产运行以及产品和服务中的含义、内容和使用方法,对于提升航空情服务有重大意义。