谷歌流感趋势的启示:大数据分析中的陷阱
- 格式:pdf
- 大小:8.85 MB
- 文档页数:6
2020年最新公需科目《大数据》考试题(含答案) 一、填空题1.Hadp三种运行的模式.单机版 . 伪分布式和分布式。
二、单选题2.数据清洗的方法不包括( D)。
(单)A.缺失值处理B.噪声数据清除C.一致性检查D.重复数据记录处理3.下列关于大数据的分析理念的说法中,错误的是(D )。
(单选题)A.在数据基础上倾向于全体数据而不是抽样数据B.在分析方法上更注重相关分析而不是因果分析C.在分析效果上更追究效率而不是绝对精确D.在数据规模上强调相对数据而不是绝对数据4.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。
这体现了大数据分析理念中的(B )。
(单选题)A.在数据基础上倾向于全体数据而不是抽样数据B.在分析方法上更注重相关分析而不是因果分析C.在分析效果上更追究效率而不是绝对精确D.在数据规模上强调相对数据而不是绝对数据5.大数据时代,数据使用的关键是( D )。
(单选题) A.数据收集B.数据存储C.数据分析D.数据再利用三、多选题6.中央网络安全和信息化领导小组,是中国全面深化改革得以顺利进行.中国社会现代化转型得以顺利完成的压仓之石。
正确7.大数据的思维会把原来销售的概念变成服务的概念。
对8.根据周琦老师所讲,以下哪些属于数据挖掘的内容?ABC分A.补充与完善路网属性B.建立道路拥堵概率与拥堵趋势变化模型C.多维分析统计用户出行规律D.高德地图导航有躲避拥堵功能9.运用大数据进行大治理要做到()。
ABCD分A.用数据决策B.用数据管理C.用数据说话D.用数据创新10.国务院在哪一年印发了《促进大数据发展行动纲要》?AA.2015年B.2014年C.2016年D.2013年11.2008年以后,第()信息传输技术.传输2亿路信号。
得分.0分A.三代B.一代C.二代D.四代12.吴军博士认为未来二十年就是()为王的时代。
CA.文化B.工业C.数据D.农业13.云计算是信息技术发展和集成应用到新阶段产生的新技术。
基于流行病学的大数据分析与预测研究随着互联网的普及和技术的进步,大数据的概念已经深入人心。
而大数据的一大应用领域就是流行病学。
流行病学是一门研究疾病在人群中发生和传播规律的学科,而大数据则为流行病学研究提供了更加全面和精细的数据支持,同时也使得疾病的预测和监测更加有效可靠。
本文将从数据采集、处理分析和模型预测等方面,深入探讨基于流行病学的大数据分析与预测研究。
一、数据采集数据采集是大数据分析的第一步,也是非常关键的一步。
传统的疾病监测方式主要依靠医疗机构报告、患者自报和流行病学调查等方式,这些方法虽然可靠,但是存在数据缺乏、信息滞后、范围狭窄等问题。
而大数据技术则可以从多种渠道采集数据,包括社交媒体、搜索引擎、电子病历、健康监测设备等,从而获取更加丰富、实时、全面的数据。
举个例子,2018年美国流感疫情爆发期间,亚利桑那州立大学的研究团队便利用Twitter和Google Flu Trends等数据源来监测流感病例。
研究团队发现,在Twitter 上,社交圈越小的用户越容易感染流感,而在Google Flu Trends上,谷歌搜索中“流感”的频率与实际报告病例呈现高度相关。
这些大数据分析的成果不仅可以辅助传统的流行病学调查,而且还可以提供更加实时和全面的数据信息,为疾病预防和控制提供更加准确和有效的科学依据。
二、数据处理分析采集到的大数据需要经过处理和分析才能发挥价值。
好的数据处理过程能够减少不必要的误差和歧义,让数据更加准确和可靠。
同时,数据分析也需要科学、统计学和计算机科学等多学科的知识结合起来,形成完整的数据分析流程。
大数据处理和分析应用最广泛的方法是机器学习。
机器学习是一种通过算法和模型学习和模仿数据中潜在关系的方法,从而实现数据的分类、预测和优化处理。
例如,在流感研究中,机器学习可以用于识别流感症状、患者行为和社交网络等数据特征,进而预测疾病的传播和爆发趋势。
同时,机器学习还可以识别医疗数据中的模式和规律,从而优化医疗系统和提高病人的诊疗效果。
浅论国家大数据战略实施的背景和意义中共大兴安岭地委党校 165300大数据是一场关乎中国前途未来,涉及格局深刻调整的革命。
幸运的是,这场革命才刚刚开始,面对机遇与挑战,中国已经有了大思路、大举措。
那就是完善国家顶层设计,全面实施“国家大数据”战略。
2014年3月,“大数据”首次写进了政府工作报告,大数据正式作为一种新兴产业,得到了国家层面的大力支持。
2015年10月29日,党的十八届五中全会通过的“十三五”规规划建议提出,要“实施国家大数据战略,推进数据资源开放共享”。
大数据第一次写入党的全会决议,标志着大数据战略正式上升为一项国家战略。
1月17日,工信部与发改委联合发布的《信息产业发展指南》(下称指南)提出,“十三五”时期,中国的信息产业收入将达到26.2万亿。
同在1月17日,工信部印发了《大数据产业发展规划(2016-2020年)》。
一、实施大数据战略的背景大数据时代的到来,让“数据驱动”成为新的全球大趋势。
世界各国纷纷利用大数据提升国家治理能力,“得数据者得天下”已经成为全球的普遍共识。
美国是世界上最早对大数据技术革命做出战略反应的国家。
2012年3月,奥巴马政府宣布了“大数据研发计划”,并设立了2亿美元的启动资金,认为这事关美国的国家安全和未来竞争力。
迄今为止,美国在大数据方面实施了三轮政策,开放了50多个门类的政府数据确保商业创新。
为促进大数据相关研发,美国政府还在斯坦福、伯克利等大学开设全新的大数据课程,为大数据时代储备“数据科学家”。
欧盟正在力推《数据价值链战略计划》,用大数据改造传统治理模式,试图大幅降低公共部门成本,并促进经济增长和就业增长。
预计,到2020年大数据技术将为欧盟创造9570亿欧元GDP,(2016年中国gdp总量74.4万亿元,合10.1万亿欧元)增加就业人数380万。
日本颁布了“面向2020年的ICT(信息Information、通信Communication、技术Technology)综合战略”,积极谋划利用大数据改造国家治理体系,提升国家竞争力。
2020年最新公需科目《大数据》考试题(含答案)一、选择题1.内存够大,所以集群的瓶颈不可能是 a 和 d二、单选题2.大数据时代,数据使用的关键是( D )。
(单选题) A.数据收集B.数据存储C.数据分析D.数据再利用三、多选题3.阿兰·图灵在哪一年提出图灵测试的概念?CA.1952年B.1954年C.1950年D.1955年4.大数据的应用能够实现一场新的革命,提高综合管理水平的原因是 3分得分.■A.从柜台式管理走向全天候管理■B.从粗放化管理走向精细化管理■C.从被动反应走向主动预见型管理■D.从单兵作战走向联合共享型管理5.医疗健康数据的基本情况不包括以下哪项?A.诊疗数据B.个人健康管理数据■C.公共安全数据D.健康档案数据6.宁家骏委员指出,大数据要与“互联网+”医疗健康紧密结合起来,国家明确支持“互联网+”医疗.“互联网+”健康。
对7.国务院在哪一年印发了《促进大数据发展行动纲要》?AA.2015年B.2014年C.2016年D.2013年8.下列哪些国家已经将大数据上升为国家战略?■A.英国■B.日本■C.美国■D.法国9.吴军博士认为未来二十年就是()为王的时代。
CA.文化B.工业C.数据D.农业10.在网络爬虫的爬行策略中,应用最为基础的是(AB )。
A.深度优先遍历策略B.广度优先遍历策略C.高度优先遍历策略D.反向链接策略E.大站优先策略11.根据周琦老师所讲,大数据加速道路网络快速更新,高德()完成全国10万公里15万处更新。
A.2010年B.2006年C.2014年D.2008年12.大数据仅仅是指数据的体量大。
×正确错误13.大数据正快速发展为对数量巨大.来源分散.格式多样的数据进行采集.存储和关联分析,从中发现新知识.创造新价值.提升新能力的(B)。
A.新一代技术平台B.新一代信息技术和服务业态C.新一代服务业态D.新一代信息技术14.以下说法错误的是哪项?DA.大数据是一种思维方式B.大数据不仅仅是讲数据的体量大C.大数据会带来机器智能D.大数据的英文名称是large data15.农业部发布的《关于推进农业农村大数据发展的实施意见》提出,到2020年底前,实现农业农村历史资料的数据化.()。
我们的大数据时代(一)单选题(每题2分)1. 下列关于舍恩伯格对大数据特点的说法中,错误的是(D)A. 数据规模大B. 数据类型多样C. 数据处理速度快D. 数据价值密度高2. 下列关于大数据的分析理念的说法中,错误的是(D)A. 在数据基础上倾向于全体数据而不是抽样数据B. 在分析方法上更注重相关分析我不是因果分析C. 在分析效果上更追究效率而不是绝对精确D. 在数据规模上强调相对数据而不是绝对数据3. 万维网之父是(C)A. 彼得·德鲁克B. 舍恩伯格C. 蒂姆·伯纳斯—李D. 斯科特·布朗4. 下列关于普查的缺点的说法中,正确的是(A)。
A. 工作量较大,容易导致调查内容有限、产生重复和遗漏现象B. 误差不易被控制C. 对样本的依赖性比较强D. 评测结果不够稳定5.下列关于聚类挖掘技术的说法中,错误的是(B)。
A. 不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B. 要求同类数据的内容相似度尽可能小C. 要求不同类数据的内容相似度尽可能小D. 与分类挖掘技术相似的是,都是要对数据进行分类处理6. 智慧城市的构建,不包含(C)。
A. 数字城市B. 物联网C. 联网监控D. 云计算7.大数据的起源是(C)。
A. 金融B. 电信C. 互联网D. 公共管理8. 智慧城市的智慧之源是(C)。
A. 数字城市B. 物联网C. 大数据D. 云计算9. 假设一种基因同时导致两件事情,一是使人喜欢抽烟,二是使这个人和肺癌就是(A)关系,而吸烟和肺癌则是(A)关系。
A. 因果;相关B. 相关;因果C. 并列;相关D. 因果;并列10. 下列关于数据交易市场的说法中,错误的是(C)。
A. 数据交易市场是大数据产业发展到一定程度的产物B. 商业化的数据交易活动催生了多方参与的第三方数据交易市场C. 数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助D. 数据交易市场是大数据资源化的必然产物11. 下列关于计算机存储容量单位的说法中,错误的是(C)。
如何通过大数据分析预测市场趋势大数据分析在当今社会中扮演着越来越重要的角色。
通过收集和分析大量的数据,我们可以获取有关市场趋势的宝贵信息,从而为企业和投资者提供有力的决策依据。
本文将探讨如何通过大数据分析来预测市场趋势,并介绍一些成功的案例。
首先,大数据分析可以帮助我们识别和理解市场的潜在趋势。
通过收集和分析大量的市场数据,我们可以发现一些隐藏在数据背后的规律和趋势。
例如,通过分析过去几年的销售数据,我们可以发现某种产品在特定季节或特定地区的销售量会有所增加。
这种趋势的发现可以帮助企业调整生产和销售策略,以更好地满足市场需求。
其次,大数据分析可以帮助我们预测市场的未来走势。
通过收集和分析大量的相关数据,我们可以建立预测模型,从而预测市场的未来发展趋势。
例如,通过分析过去几年的股票交易数据和公司财务数据,我们可以预测某只股票未来的涨跌趋势。
这种预测可以帮助投资者做出明智的投资决策,从而获得更高的收益。
除了预测市场趋势,大数据分析还可以帮助我们发现市场中的机会和风险。
通过收集和分析大量的市场数据,我们可以发现一些市场中的新兴趋势和机会。
例如,通过分析互联网用户的搜索数据,我们可以发现某种新兴产品或服务的需求正在迅速增长。
这种发现可以帮助企业抓住市场机会,推出相应的产品或服务,从而获得竞争优势。
同时,大数据分析也可以帮助我们识别市场中的风险和挑战。
通过收集和分析大量的市场数据,我们可以发现一些市场中的潜在风险因素。
例如,通过分析宏观经济数据和行业数据,我们可以预测某个行业是否面临衰退的风险。
这种预测可以帮助企业及时调整战略,减少风险,保护企业的利益。
在实际应用中,大数据分析已经取得了一些成功的案例。
例如,亚马逊利用大数据分析来预测用户的购买偏好,从而提供个性化的推荐服务。
这种个性化推荐不仅提高了用户的购物体验,还帮助亚马逊提高了销售额。
另一个成功的案例是谷歌利用大数据分析来预测流感的传播趋势。
通过分析用户的搜索数据,谷歌可以提前发现流感的爆发地点和规模,从而帮助公共卫生部门采取及时的防控措施。
新闻前哨2015年第2期数据分析师在对阿里巴巴内衣销售数据进行分析后发现,购买大号内衣的女性往往更“败家”。
其根据是,65%B 罩杯的女性属于低消费顾客,而C 罩杯及以上的顾客大多属于中等消费或高消费买家。
这一结论是否成立姑且不论,但首先传递了一个信息,今天人们已经进入数据为王的时代,其中大数据似乎又是王中之王。
无论是商业网站还是搜索网站,人们的所搜所看所买都成为大数据的组成部分,无论之于商业,还是之于公共卫生,抑或国家安全,它们都是有用的信息。
有心人已经意识到,因为拥有大量未经充分研究的中产阶层,中国成为世界上最重要的数据市场之一。
研究这些数据,对社会各方面都是多赢。
当然,保护人们个人隐私的代价需要考虑。
2008年谷歌推出“谷歌流感趋势”(GFT)数据分析工具,谷歌的工程师根据这个工具的数据分析,预测了2009年H1N1流感将要暴发,甚至具体到特定的地区和州。
这一结论在流感暴发前发表在英国的《自然》杂志上。
后来,情况果真如此,这与美国疾病控制和预防中心(CDC)的预测完全一致,但时间上比CDC 早了近两周。
从2010年起,阿里巴巴利用其数据建立的信用记录,向小微企业提供融资,也取得了不错的效果。
这些结果表明,数据为王时代早就到来。
其实,这并不奇怪。
人类文明的三大支柱是材料(物质)、能量和信息,数据又是信息中的核心部分。
古希腊的毕达哥拉斯早就说过,“一切皆数”,尽管其所说的“数”与今天的数据有所不同,但在某些方面是相似的。
所以,在今天也就有了“一切皆信息”,也即数据为王。
不过,数据为王并不意味着大数据为王,或数据越多越好,还要看如何分析和利用数据,进而得出最契合实际的结论,并且有效利用这一结论。
因此,如果要承认阿里巴巴基于内衣销售的数据分析得出的女性胸越大越“败家”的结论,就需要有符合客观实际的解释,不幸的是,这一结论还处于见仁见智的阶段。
网友的各种分析就提供了佐证:一是“大胸都被有钱人娶了,所以才有能力败”;二是“说明青春期的营养状况确实会影响胸的大小”,“胸大的确实普遍嫁得好”;三是“胸大并不败家,集中在网上打折的时候买东西,只会旺家。
Success and Failure of Google Flu Trends 作者: 秦磊;谢邦昌
作者机构: 对外经济贸易大学统计学院;对外经济贸易大学大数据与风险管理研究中心;台北医学大学大数据研究中心及管理学院;中央财经大学统计学院;
出版物刊名: 统计研究
页码: 107-110页
年卷期: 2016年 第2期
主题词: 谷歌流感趋势;大数据;小数据;降维;回归预测
摘要:大数据时代下机遇与挑战并存,如何基于传统方法去处理大数据引人深思。
本文以谷歌流感趋势(GFT)为案例,介绍了大数据在疾病疫情监测方面的主要技术及相关成果,阐述了大数据在使用中的关键问题,并结合复杂的统计学工具给出了一些改进措施。
谷歌流感趋势的成功取决于相关关系的应用,其失误却来源于模型的构造、因果关系和相关关系的冲突等问题。
谷歌流感趋势案例的分析与启示对政府今后在大数据解决方案中有重要的理论和实践意义。
2020年最新公需科目《大数据》考试题(含答案)一、选择题1.内存够大,所以集群的瓶颈不可能是 a 和 d二、单选题2.大数据的起源是(C )。
(单选题)A.金融B.电信C.互联网D.公共管理3.根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是( C)。
(单选题)A.数据管理人员B.数据分析员C.研究科学家D.软件开发工程师4.支撑大数据业务的基础是( B)。
(单选题)A.数据科学B.数据应用C.数据硬件D.数据人才三、多选题5.下列关于大数据的说法中,错误的是(AD )。
A.大数据具有体量大.结构单一.时效性强的特征B.处理大数据需采用新型计算架构和智能算法等新技术C.大数据的应用注重相关分析而不是因果分析D.大数据的应用注重因果分析而不是相关分析E.大数据的目的在于发现新的知识与洞察并进行科学决策6.Web2.0强调(C)。
A.机构B.单位C.个人D.网站7.下列选项中,属于贵州发展大数据的先天优势的是()。
ABCDA.空气清新B.远离地震带C.气候凉爽D.电力资源充沛8.林雅华博士指出,网络时代的国家治理必须要借鉴互联网多元向度.扁平化.相互竞合的方式进行。
√正确错误9.大数据的思维会把原来销售的概念变成服务的概念。
√正确错误10.农业农村信息化业务应用深入发展,其业务应用主要表现在哪几个方面?A.农业信息资源开发利用水平提高B.农村电子商务蓬勃兴起C.农村综合信息服务平台发展迅速D.农村电子政务已经基本普及11.宁家骏委员指出,大数据要与“互联网+”医疗健康紧密结合起来,国家明确支持“互联网+”医疗.“互联网+”健康。
对12.大数据的思维会把原来销售的概念变成服务的概念。
对13.林雅华博士指出,网络时代的国家治理必须要借鉴互联网多元向度.扁平化.相互竞合的方式进行。
(判断题 1 分)■正确错误 49.2000 年,全国涉农网站超过 6000 家。
13个经典大数据应用案例
例子1:在09年流感爆发的时候,google通过对人们输入词条的分析,挖掘出了有效及时的指示标,比通过层层收集的官方数据惊人很多。
例子2:Farecast通过对于机票数据的趋势变化情况,提供票价预测的服务,目前公布准确度高达75%,现在被微软收购,整合在了bing的搜索中。
例子3:Xoom是从事跨境汇款业务的公司,处理过的一个案例是,单独看一笔交易是合法的,但是重新检查了所有的数据之后,发现犯罪集团正在进行咋骗。
例子4:hadoop分析VISA的数据,将原来需要一个月的时间缩短为13分钟。
例子5:亚马逊三分之一的销售额来自个性化推荐系统。
例子6:美国折扣零售商能够通过用户购买商品的历史,判断出是否怀孕。
例子7:UPS有6W辆车,通过对车俩损害的数据挖掘,能够及时的预测那些车辆需要维修,达到预警的目的。
例子8:日本通过研究驾驶员的坐姿数据,用来作为汽车防盗系统中。
例子9:UPS通过对于位置数据的分析,获取最佳行车路径。
例子10:IBM开发了一套复杂的预测模型,完成了电动汽车动力与电力供应系统的预测。
例子11:微软和谷歌以及百度等搜索引擎的拼写检查以及纠错提示,有效的利用的数据废气。
例子12:巴诺通过分析人们在阅读的时候的行为,得出人们往往会放弃长篇幅的非小说类书籍。
例子13:The-numbers通过对于历史电影相关的数据的相关关系,来预测电影票房。
摘自:中国大数据。
大数据导论理论考核一、选择题1下面关于数据的说法,错误的是:()[单选题]*A.数据的根本价值在于可以为人们找出答案B.数据的价值会因为不断使用而削减VC.数据的价值会因为不断重组而产生更大的价值D.目前阶段,数据的产生不以人的意志为转移2.第3次信息化浪潮的标志是:()[单选题]*A.个人计算机的普及B.互联网的普及C.云计算、大数据和物联网技术的普及VD.人工智能的普及3.物联网的发展最终导致了人类社会数据量的第三次跃升,使得数据产生方式进入了:()[单选题]*A.手工创建阶段B.运营式系统阶段C.用户原创内容阶段D.感知式系统阶段V4.英国的大数据发展战略是:()[单选题]*A.稳步实施"三步走"战略,打造面向未来的大雌创新生态B.通过发展创新性解决方案并应用于实践来促进大数据发展C.以大数据等技术为核心应对第四次工业革命D.紧抓大数据产业机遇,应对脱欧后的经济挑战V5.以下哪个不是大数据的"4V"特性:()[单选题]*A.数据量大8.数据类型繁多C.处理速度快D.价值密度高√6.早期的云计算产品AWS是由哪家企业提出的:()[单选题]*A.IBMB.微软C.亚马逊√D.谷歌7.云计算包括3种类型。
面向所有用户提供服务,只要是注册付费的用户都可以使用,这种云计算属于:()[单选题]*A.公有云V8.私有云C.混合云D.独立云8.云计算包括3种类型。
只为特定用户提供服务,比如大型企业出于安全考虑自建的云环境,只为企业内部提供服务,这种云计算属于:()[单选题]*A.公有云C.混合石D.独立云9.以下关于大数据、云计窗口物联网的区别,描述错误的是:()[单选题]*A.大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活B,云计算本质上旨在整合和优化各种IT资源并通过网络以服务的方式,廉价地提供给用户C.云计算旨在从海量数据中发现价值,服务于生产和生活VD.物联网的发展目标是实现物物相连,应用创新是物联网发展的核心10.以下关于机器学习,描述错误的是:()[单选题]*A.是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科11研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能C.机器学习强调三个关键词:算法、模型、训练VD.基于数据的机器学习是现代智能技术中的重要方法之一11.以下关于知识图谱,描述错误的是:()[单选题]*A.又称为科学知识图谱B,在图书情报界称为知识域可视化或知识领域映射地图C.知识图谱属于密码学研究范畴√D.知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域12.以下关于人机交互,描述错误的是:()[单选题]*A.人机交互是一门研究系统与用户之间的交互关系的学科13人机交互界面通常是指用户不可见的部分VC.系统可以是各种各样的机器,也可以是计算机化的系统和软件D.用户通过人机交互界面与系统交流,并进行操作13.以下关于计算机视觉,描述错误的是:()[单选题]*A.计算机视觉是一门研究如何使机器“看”的科学B.是指用摄影机和电脑代替人眼对目标进行识S!k跟踪和测量的机器视觉C.计算机视觉是一门综合性的学科D.语音识别属于计算机视觉的典型应用V14.关于大数据与区块链的联系,下面描述错误的是:()[单选题]*A.区块链使大数据极大降低信用成本B,区块链是构建大数据时代的信任基石C.区块链是促进大数据价值流通的管道D.区块链会提升大数据的信用成本√15.下面关于大数据安全问题,描述错误的是:()[单选题]*A.大数据的价值并不单纯地来源于它的用途,而更多地源自其二次利用16对大数据的收集、处理、保存不当,会加剧数据信息泄露的风险C.大数据成为国家之间博弈的新战场D.大数据对于国家安全没有产生影响√17.下面关于棱镜门事件描述错误的是:()[单选题]*A.棱镜计划(PR1SM)是一项由美国国家安全局(NSA)自2007年起开始实施的绝密电子监听计划B,在该计划中,美国国家安全局和联邦调查局利用平台和技术上的优势,开展全球范围内的监听活动C.该计划的目的是为了促进世界和平与发展VD.该计划对全世界重点地区、部门、公司甚至个人进行布控18.下面关于手机软件采集个人信息的描述错误的是:()[单选题]*A.在我们的日常生活中,部分手机APP往往会"私自窃密"B.有的APP在提供服务时,采取特殊方式来获得用户授权,这本质上仍属"未经同意"C.在微信朋友圈广泛传播的各种测试/」'程序是安全的,不会窃取用户个人信息VD.手机APP过度采集个人信息呈现普遍趋势,最突出的是在非必要的情况下获取位置信息和访问联系人权限19.下面描述错误的是:()[单选题]*A."探针盒子”就是一款自动收集用户隐私的产品B,许多顾客在使用WiFi之后会收到大量的广告信息,甚至自己的手机号码也会被当做信息进行多次买卖C.在免费上网的背后,其实也存在着不小的信息安全风险,或许一不小心,就落入了电脑黑客们设计的WiFi陷阱之中D.免费WIFI都是安全的,可以放心使用√20.下面关于机械思维的核心思想,描述错误的是:()[单选题]*A.世界变化的规律是确定的21世界变化的规律是无法确定的VC.规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚D.这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践20.我们在使用智能手机进行导航来避开城市拥堵路段时,体现了哪种大数据思维方式:()[单选题]*A.我为人人,人人为我VB.全样而非抽样C.效率而非精确D.相关而非因果21.谷歌采用搜索引擎大数据进行流感趋势预测,体现了哪种大数据思维方式:()[单选题]*A.我为人人,人人为我B.全样而非抽样√C.效率而非精确D.相关而非因果22."啤酒与尿布"的故事,体现了哪种大数据思维方式:()[单选题]*A.我为人人,人人为我B.全样而非抽样C.效率而mE精确D.相关而非因果√23.大数据的简单算法比小数据的复杂算法更有效,体现了哪种大数据思维方式:()[单选题]*A.以数据为中心√B.全样而非抽样C.效率而非精确D.相关而非因果24.迪士尼MagicBand手环,体现了哪种大数据思维方式:()[单选题]*A.我为人人,人人为我VB.全样而非抽样C.效率而非精确D.相关而非因果25.下面关于大数据伦理的描述,错误的是:()[单选题]*A.大数据伦理属于科技伦理的范畴B.大数据伦理问题是指由于大数据技术的产生和使用而引发的社会问题C.作为一种新的技术,大数据技术像其他所有技术一样,其本身是无所谓好坏的,而它的"善"与"恶"全然在于对大数据技术的使用者D.大数据技术本身就存在“善"和"恶"的区分√26.现在的互联网,基于大数据和人工智能的推荐应用越来越多,越来越深入,我们一直被"喂食着"经过智能化筛选推荐的信息,久而久之,会导致什么问题:()[单选题]*A、信息茧房问题√B、隐形偏差问题C、大数据杀熟问题D、隐私泄露问题27.下面哪一个不属于大数据伦理问题:()[单选题]*A.隐私泄露问题B,数据安全问题C.数字鸿沟问题D.数据冗余问题√28.下面关于政府数据孤岛描述错误的是:()[单选题]*A.有些政府部门错误地将数据资源等同于一般资源,认为占有就是财富,热衷于搜集,但不愿共享B.有些部门只盯着自己的数据服务系统,结果因为数据标准、系统接口等技术原因,无法与外单位、外部门联通C.有些地方,对大数据缺乏顶层设计,导致各条线、各部门固有的本位主义作祟,壁垒林立,数据无法流动D.即使涉及到工作机密、商业机密,政府也应该毫不保留地共享数据√29.关于推进数据共享开放的描述,错误的是:()[单选题]*A.要改变政府职能部门“数据孤岛"现象,立足于数据资源的共享互换,设定相对明确的数据标准,实现部门之间的数据对接与共享B.要使不同省区市之间的数据实现对接与共享,解决数据"画地为牢”的问题,实现数据共享共用C.在企业内部,破除“数据孤岛",推进数据融合D.不同企业之间,为了保护各自商业利益,不宜实现数据共享√30.下面关于数据权的描述,错误的是:()[单选题]*A.数据权的概念发起于英国,主要将其视为信息社会的一项基本公民权利B.数据权包括两个方面:数据主权和数据权利C.数据主权的主体是国家,是一个国家独立自主对本国数据进行管理和利用的权力D.数据主权的主体是公民,是相对应于公民数据采集义务而形成的对数据利用的权利V31.下面关于政府信息公开与政府数据开放的描述,错误的是:()[单选题]*A.政府信息公开与政府数据开放是一对既相互区别又相互联系的概念B.信息是没有经过任何加工与解读的原始记录,没有明确的含义,而数据则是经过加工处理并被赋予一定含义的VC.政府信息公开主要是为了对公众知情权的满足而出现的D.政府数据开放强调的是数据的再利用,公众可以分享数据利用创造的经济和社会价值32.关于公民的隐私权,下面描述错误的是:()[单选题]*A.修改权是隐私权利人具有的依法了解自身信息资料是否被行政主体利用的权利√B.支配权是隐私权利人的基本权利之一,隐私权利人对自己的个人信息的收集、储存、传播、使用、开放等享有支配权C.保障权是指公民有权要求政府在数据开放的过程中保障涉及其个人隐私的信息资料不被开放、不被滥用和不被泄露D.救济权是公民在自身的合法权益受到侵害时,按照法定程序采取法律手段维护自身权益的权利33.关于大数据交易在发展过程中遇到的问题,下面描述错误的是:()[单选题]*A.互联网数据马太效应显现B,市场信用体系缺失、监管有待加强C.大数据交易规则和标准缺乏D.数据质量评价与估值定价已经很完善V34.目前大数据交易市场上存在很多种定价机制,但是不包括以下哪项:()[单选题]*A.平台预定价B.自动计价C.拍卖式定价D.随机性定价V35.我国首家大数据交易所是:()[单选题]*A.贵阳大数据交易所√B•上海数据交易中心C.华东江苏大数据交易中心D.浙江大数据交易中心36.下面关于推荐系统的描述错误的是:()[单选题]*A.推荐系统是自动联系用户和物品的一种工具B,和搜索引擎相比,推荐系统通过研究用户的兴趣偏好,进行个性化计算C.推荐系统可发现用户的兴趣点,帮助用户从海量信息中去发掘自己潜在的需求D.推荐系统是一种只能通过专家进行人工推荐的系统V37.以下推荐方法中,哪一个是基于内容的推荐:()[单选题]*A.由资深的专业人士来进行物品的筛选和推荐B.基于统计信息进行推荐C.通过机器学习的方法去描述内容的特征,并基于内容的特征来发现与之相似的内容,D.对多种推荐算法进行有机组合,然后给出推荐结果38.以下哪项不属于大数据在城市管理中的应用:()[单选题]*A.智能交通B.环保监测C.城市规划D.比赛预测√39.以下哪项不属于大数据在零售领域的应用:()[单选题]*A.大数据征信VB.发现关联购物行为C.客户群体划分D.供应链管理40.数据的类型主要包括:()[多选题]*A.文本√B.图片√C.音频√D.酶√41.计算机系统中的数据组织形式主要有两种,分别是:()[多选题]*B.视频C.音频D.数据库√42.为了让数据变得可用,需要对数据进行三个步骤的处理,分别是:()[多选题]*A.数据清洗√B.数据抽样C.数据管理,D.数据分析√43.信息科技为大数据时代提供技术支撑,主要体现在哪三个方面:()[多选题]*A.存储设备容量不断增加VB∙CPU处理能力大幅提升VC.量子计算机全面普及D.网络带宽不断增加√44.人类社会的数据产生方式大致经历了哪三个阶段:()[多选题]*A.手工生产阶段45运营式系统阶段VC.用户原创内容阶段,D.感知式系统阶段,45.关于“大数据摩尔定律",以下说法正确的是:()[多选题]*A.人类社会产生的数据一直都在以每年50%的速度增长√B.人类社会的数据量大约每两年就增加T吾VC.人类在最近两年产生的数据量相当于之前产生的全部数据量之和VD.人类社会的数据量以每年10%的速度增长46.人类自古以来在科学研究上先后历经了哪几种范式:()[多选题]*A.实验科学√B.理论科学VC.计算科学VD.数据密集型科学√47.大数据将会对社会发展产生深远的影响,具体表现在以下哪几个方面:()[多选题]*A.大数据决策成为一种新的决策方式VB.大数据成为提升国家治理能力的新途径VC.大数据应用促进信息技术与各行业的深度融合VD.大数据开发推动新技术和新应用的不断涌现V48.大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。
国际大数据伦理研究现状与发展趋势发布时间:2021-04-26T11:21:21.507Z 来源:《文化研究》2021年5月下作者:徐瑀琨[导读] 本文采用CiteSpace软件对国际大数据伦理研究文献数据进行知识图谱的分析。
自从2009年以来,随着大数据的广泛应用引发了大量的伦理问题。
在2019年7月12日人民日报曾整版刊登了信息时代的伦理审视,对大数据带来的伦理问题挑战进行探讨。
贵州贵阳学院阳明学与黔学研究院徐瑀琨 550000摘要:本文采用CiteSpace软件对国际大数据伦理研究文献数据进行知识图谱的分析。
自从2009年以来,随着大数据的广泛应用引发了大量的伦理问题。
在2019年7月12日人民日报曾整版刊登了信息时代的伦理审视,对大数据带来的伦理问题挑战进行探讨。
由此可见,对大数据的伦理问题研究已经成为当前的一个热点,本文研究的是国际大数据伦理研究现状与发展趋势,主要是对国际重要的学术文献进行知识图谱的研究,指明当前发展的现状和未来发展的趋势。
同时大数据技术的应用,对于知识的探索和创新有着巨大的价值。
但给我们的生活和思维方式进行变革的同时也带来了一系列的伦理问题,这需要我们正确的思考与对待。
大数据对我们生活所带来不可控制的影响是不可忽视的一个方面,这些问题在未来我们也需要进行更加深入的探讨。
关键词:大数据;伦理;CiteSpace;知识图谱 1研究方法本文设置检索式为“TS=(ethic* OR moral* OR morality* OR dharma) AND TS=(big data*)”,设置搜索时间范围为2000年到2021年,文本格式为全文本格式。
在Web of Science核心数据库中搜索到大数据伦理的研究文献共572条,将此作为知识图谱分析的数据基础。
本文使用CiteSpace软件对大数据伦理研究文献进行分析,并结合文献计量学和内容分析的方法,从而揭示出大数据伦理研究的现状以及未来发展的趋势。
从“谷歌流感趋势”预测谈健康医疗大数据伦理李晓洁; 丛亚丽【期刊名称】《《医学与哲学》》【年(卷),期】2019(040)014【总页数】4页(P5-8)【关键词】信息流行病学; 医学伦理; 健康医疗大数据【作者】李晓洁; 丛亚丽【作者单位】北京大学医学人文学院北京 100191; 北京大学健康医疗大数据研究院北京 100191【正文语种】中文【中图分类】R-05流行病伴随了人类文明发展的各个阶段,近现代发生的大规模流行病事件,对人类社会造成了巨大的损失和恐慌。
对于流行病疫情的提早预测和早期控制是保障公共卫生的重要手段。
大数据为研究人类健康状况提供了新的方式。
传统对于流行病学的监控基于临床诊疗数据,在大数据时代,对于流行病学的健康基于互联网来源的数据,这些数据是人们在网络搜索中获取的。
从这个意义上说,不仅个体的身体状况能揭露医疗信息,利用网络搜索数据也可以进行医疗信息的探索。
“谷歌流感趋势”是该模式典型案例之一,其一登场,惊艳各方,但最终在各方批评之中匆匆退场。
但“谷歌流感趋势”是企业和政府部门合作,利用大数据预测流行病趋势的一次尝试和创新,对其进行探讨有助于反思健康医疗大数据发展中可能产生的伦理问题和挑战,对于当前和未来健康医疗大数据的发展都具有借鉴作用。
1 信息流行病学与“谷歌流感趋势”的诞生2002年,Eysenbach[1]首次提出信息流行病学概念,并在2009年进一步完善。
信息流行病学是研究电子媒介、互联网或者人群中的信息分布及影响因素的科学。
从20世纪90年代中期开始,就有研究表明网络上健康信息的可获得性,分布和质量会影响上网人群[2]。
早期对于流行病监测的方式,以全球公共卫生情报网(Global Public Health Intelligence Network)为代表,对于全球公共卫生新闻进行系统搜索、挖掘和过滤,并转化为关于疾病暴发的专业数据,经过卫生组织调查与核实,有选择地向普通受众和专业机构发布疾病方面的信息。
大数据及大数据应用经典案例分析一、引言随着互联网的快速发展和技术的不断进步,大数据已经成为当今信息时代的核心驱动力之一。
大数据的应用在各个领域都取得了巨大的成功,为企业和组织提供了更准确、更全面的数据支持,从而帮助他们做出更明智的决策。
本文将分析几个经典的大数据应用案例,以展示大数据在不同领域的重要作用。
二、电商领域的大数据应用案例分析1. 京东的个性化推荐系统京东是中国最大的综合性电商平台之一,其个性化推荐系统是一个典型的大数据应用案例。
通过收集用户的浏览历史、购买记录、搜索关键词等数据,京东能够分析用户的偏好和需求,并根据这些数据为用户推荐个性化的商品。
这不仅提升了用户的购物体验,还帮助京东提高了销售额。
2. 淘宝的反欺诈系统淘宝是中国最大的在线购物平台,每天都有数以百万计的交易发生。
为了保护用户的利益,淘宝开发了一套反欺诈系统,利用大数据分析技术来识别潜在的欺诈行为。
系统会根据用户的购买行为、交易记录、评价等数据进行分析,并通过机器学习算法来判断是否存在欺诈风险。
这种系统的应用大大减少了欺诈交易的发生,提升了用户的信任度。
三、金融领域的大数据应用案例分析1. 花旗银行的风险管理系统花旗银行是全球领先的金融机构之一,为了更好地管理风险,他们开发了一套基于大数据的风险管理系统。
该系统通过收集和分析大量的金融数据,包括市场数据、客户数据、交易数据等,来评估风险并制定相应的措施。
这种系统的应用使得花旗银行能够更准确地预测市场波动,降低风险,提高盈利能力。
2. 中国银行的信用评分系统中国银行作为中国最大的商业银行之一,拥有庞大的客户群体。
为了更好地评估客户的信用风险,中国银行开发了一套基于大数据的信用评分系统。
该系统通过分析客户的个人信息、财务状况、还款记录等数据,来评估客户的信用水平。
这种系统的应用使得中国银行能够更准确地判断客户的还款能力,提高贷款审批的效率。
四、医疗领域的大数据应用案例分析1. IBM Watson的医疗诊断系统IBM Watson是一款基于人工智能和大数据分析的医疗诊断系统,它能够通过分析大量的医疗文献、病例数据等来辅助医生进行诊断和治疗决策。
大数据时代读后感800字《大数据时代》读后感800字精选我们生活在大数据的时代,下面整理了《大数据时代》读后感,欢迎阅读!《大数据时代》读后感《大数据时代》这本书主要描述的是大数据时代到临人们生活、工作与思维各方面所遇到的重大变革。
引言提出了大数据将给生活、工作于思维带来重大的变革。
一个例子是20XX年H1N1流行病毒背景下谷歌通过检测检索词条,处理了4.5亿个不同的数据模型,通过预测并与20XX年、20XX年美国疾控中心记录的实际流感病例进行对比后,确定了45条检索词条组合,并将其用于一个特定的数学模型后,预测的结果与官方数据的相关系数高达97%。
按照传统的信息返回流程,通告新流感病毒病例将有一到两周的延迟。
对于飞速传播的疾病,信息滞后两周是致命的。
而谷歌运用大数据技术,以前所未有的方式,通过海量数据分析得出流感所传播的范围,为世界预测流感提供了一种更快捷的预测工具。
此外,我联想到原淘宝董事长马云通过大量数据分析得出20XX年经济疲弱,为其商家提前做好迎接经济危机提供了时间缓冲。
关于大数据在商业领域的应用, Farecast公司是一个成功的典型范例。
该公司由奥伦·埃齐奥尼创办,利用机票的销售数据来预测未来的机票价格,旨在帮助用户在购买机票方面做出预测,并对机票价格走势预测的可信度标示出来供消费者查考。
Farecast系统利用近十万亿条价格记录预测的准确度达75%,使得使用Farecast票价预测工具购买机票的旅客,平均每张机票节约50美元。
而处理如此多的数据离开了大数据技术将无法进行。
也正是由于我们进入了一个前所未有的信息化时代,人们拥有了如此多的数据,才提供给我们利用大数据的分析处理手段,创造新的价值。
也许有人以为我们大数据时代的还未来临。
其实大数据技术早已渗透到我们中间,它被应用在垃圾邮件的过滤,新浪微博技术平台,谷歌翻译以及输入文字的自动纠错等。
文中提出的一个观点是,预测是大数据的核心。
浅谈大数据时代下的利与弊大数据时代的到来可以说是社会发展的必然结果,是时代进步的产物,给人们的生活和工作带来了诸多的便利,例如近日频频使用的健康码无疑就是大数据应用案例的典型之一。
大数据使我们的生活变得更加高效、精准,但凡事都有两面性,从长远来看,大数据在为生产生活带来便利的同时,也让人不禁担心是否会存在信息安全隐患。
一:大数据的“利”预测从古至今,预测能力都是人们所向往的能力之一,而大数据预测则是大数据最核心的应用。
当今的大数据预测,就是对现已记录的历史数据进行分析利用,结合数学模型,预测未来从而推断出结果。
大数据预测的优势体现在它把一个非常困难的预测问题,转化为一个相对简单的描述问题,而这是传统小数据集根本无法企及的。
大数据预测将传统意义上的“预测”拓展成为“现测”。
相关性有人可能会问,有了大数据预测,是不是就能高枕无忧了?答案是否定的,能够引导人们做出决策的关键环节其实是在于能在大数据中提炼出“相关性”。
谷歌开发的名为“谷歌流感趋势”的工具,通过跟踪搜索关键词频率来判断全美地区的流感情况,当关键词(如温度计、流感症状、肌肉疼痛、胸闷等)搜索率飙升时,工具便会发出预警。
由此可见大数据分析,能够令看似不相干的事物相关性浮出水面。
事实往往是复杂的,大数据的相关性并不意味着两个事件具有因果联系,而具有因果联系的两件事从大数据本身来看有时也并不相关。
大数据时代,我们无需考虑现象背后的本质,只要发现相关性,就可以加速决策,创造巨大的经济或社会价值。
二:大数据的“弊”冗杂度高不可否认,大数据在数据记录、数据异常比较等方面具有很大的优势,比如打击刷单行为,但是,大数据并不是万能的,也存在很多局限性,大数据记录太多数据,不一定都是需要的,有时重要的信息只占很低比例,这就是质量低、利用效率低。
一旦只一味迷信大数据而没有认真地去分析和判断,往往把错误地把偶然现象当作规律来处理,这时如果投入分配大量的资源,教训就会接踵而至,所以有时我们也需要理性的判断,不能一味迷信。
为何大数据不是必然的好数据Facebook,谷歌或是IBM等一些技术公司,正忙于兜售“大数据”那足以改变世界的能力。
大数据源于移动设备,网页搜索,公民科学研究,以及网络传感器。
在此前都没有如此巨大且涵盖面如此之广的数据供应,这其中甚至能包括网购动态或癌症研究。
然而,谈到数据时一些科学家仍不免小心翼翼,因为更大并不意味着更好。
当信息从不同的资源上被截取时,通常会造成信息环境的缺失,从而导致不可靠的分析结果。
举例来说,从谷歌2008年启用谷歌流感趋势(Google Flu Trends,GFT)服务以来,其在精确预测流感等级上时常会遇到困难。
一个调研小组于本周五,在《自然》杂志的《政治论坛》版面发布了日志,详细说明了大数据工具的不足,以及它所拥有的巨大潜力。
谷歌所设计的流感数据整合器,根据谷歌搜索,与流感相关活动相匹配的内容,提供全球范围内流感情况的实时监控。
尽管有一些成就,但在过去两年中,GFT在美国有过高预测流感峰值的情况。
据来自于休斯顿大学,东北大学,哈佛大学的研究者所言,GFT在12-13季度对流感流行趋势的预测,做的同11-12季度一样糟,误差都超过了百分之五十。
此外,从2012年八月至2013年九月,在总共108周的时间里,GFT有100周的时间都过高估计了流感的流行。
《自然》杂志在2013年二月的新闻中报道,GFT预测类流感病例的求诊次数,比美国疾病控制预防中心(Centers for Disease Control and Prevention (CDC))基于若干实验室的检测报告所作出的预测数量要高出两倍。
(《科学美国人》是自然出版集团的子刊物)《自然》杂志报导,谷歌的软件所依靠的是“谷歌搜索引擎对于键入搜索栏的,与流感相关的搜索的数据挖掘记录,结合电脑建模。
”。
尽管这周为《政治论坛》撰稿的研究人员列举了许多GFT存在的瑕疵,但是《自然》杂志却指出GFT的整体工作”几乎与CDC自身的监控数据在时间上是匹配的-然而它比CDC所能传递数据的的时间要快上好几天。
谷歌流感趋势的启示:大数据分析中的陷阱*本文译自 ,“The Parable of Google Flu: Traps in Big Data Analysis ”,2013,343(3):1203~1205一文。
2013年2月,谷歌流感趋势(Google flu trends, GFT)成为新闻头条,但原因并非如谷歌高管们或者流感追踪系统开发者所愿。
《自然》(Nature )杂志发表文章指出,GFT 预测的流感样病例(influenza like illness, ILI)门诊比例超过了美国疾病控制和预防中心(the Cen-ters for Disease Control and Preven-tion, CDC)基于全美各实验室监测报告得出的预测结果的两倍多[1, 2]。
尽管开发GFT 的目的是预测CDC 报告,但还是出现了预测结果远远高于实际的问题。
鉴于GFT 通常被认为是大数据应用的典范[3, 4],那么我们能从这个错误中总结出作者:大卫·拉泽(David Lazer) 莱恩·肯尼迪(Ryan Kennedy) 盖瑞·金(Gary King) 亚历山德罗·维斯皮那尼(Alessandro Vespignani )译者:张志昌关键词:谷歌流感趋势 算法动力学什么经验教训呢?我们所要探讨的问题不仅仅限于GFT 。
对搜索或者社会媒体是否能预测某个未知参数x 的研究已经屡见不鲜 [5~7],并且常常与传统的方法和假设构成鲜明的对比。
虽然这些研究已经体现出搜索历史、社会媒体等数据的价值,但还远远没有达到可以取代传统方法或理论的地步[8]。
这里我们将探讨导致GFT 发生错误的两个原因——对大数据的浮夸和算法动力学,并从中总结经验教训,使我们能够在大数据时代更好地前进。
对大数据的浮夸“对大数据的浮夸”经常隐含这样一种假设, 即认为大数据是传统数据收集和分析方法的替代品,而不是传统方法的补充。
我们已经在很多地方断言,大数据中存在流感预测中的巨大误差在很大程度上是可以避免的,这为大数据的应用提供了经验教训。
着巨大的科学机遇[9~11]。
但是,数据量并不意味着我们可以忽略测量的基本问题、结构效度、可靠性以及数据间的依赖关系[12]。
大数据时代的核心挑战是,被广泛关注的大部分大数据并非是那些可生成适合科学分析的有效、可靠数据的设备的输出结果。
GFT的最初版本是一个特别的、有问题的大数据与小数据间的联姻。
从本质上讲,其所用的方法是从5000万个搜索词中寻找可拟合1152个数据点的最佳匹配[13]。
找到了与流感趋势匹配的检索词,但流感趋势和检索词在结构上不相关,因此无法用来预测流感发展趋势,这种可能性相当高。
实际上,GFT的开发者声称已经去除了与流感无关却与CDC的数据密切相关的季节性检索词,比如与高中篮球相关的数据[13]。
这本应当是对我们的警示,说明大数据可能会过拟合数量很少的案例。
在通常情况下数据分析都必须注意这一问题。
这种随心所欲地去除某些搜索词汇的方法在预测2009年非季节性甲型H1N1流感时失败了,根本没有预测到其流行[2,14]。
简而言之, GFT的最初版本功能部分是流感探测,部分是冬季探测。
GFT的工程师在2009年更新了算法,该模型一直沿用至今,只在2013年10月发布了几处更新[10, 15]。
尽管在2013年之前没有被广泛报道,但新的GFT已经在更加长的一段时间内一直在高估流感的流行情况。
在2011~2012年的流感季节里,GFT的预测结果与实际情况有非常大的差距。
从2011年8月份开始的108周时间内,GTF有100周的预测结果过高(见图1)。
这些误差不是随机分布的。
例如,上一周的预测误差会影响本周的预测结果(时间自相关),误差的方向和大小会随时间(季节性)而变化。
这些模式说明GFT忽略了值得考虑的信息,而这些信息是可以用传统的统计学方法提取的。
即使2009年对GFT进行了更新,把算法的比较值看作一个独立的流感监测器还是有问题的。
2010年的一项研究表明,GFT预测流感的准确度并不比利用已有的CDC数据(通常有2周的滞后)进行相当简单的前向投影所推测出的结果好[4]。
从那时起,GFT的比较值变得甚至更差,CDC滞后模型的效果要明显优于GFT(见图1)。
甚至用3周前的CDC数据来推测当前流感的流行情况,效果都比GFT的预测结果好(见补充材料(SM))。
在有大量的方法可以推测流感活动的情况下[16~19],是否意味着当前版本的GFT就没用了?当然不是。
通过把GFT与其他接近实时的健康数据相结合,可以获得更大的价值[2, 20]。
例如,将GFT07/01/1007/01/1107/01/12图1 GFT的过高估计。
对2012~2013年季节性流感的流行情况,GFT 的估计过高;对2011~2012年流感疫情的估计比实际情况高50%。
从2011年8月21日到2013年9月1日,GFT在为期108周的时间里有100周的预测结果都偏高。
上图:对流感样病例门诊数的估计结果。
“CDC 滞后模型”结合了滞后的CDC数据和52周的季节性变量。
“Google Flu + CDC”模型结合了GFT、滞后的CDC估计、GFT估计的滞后偏差以及52周的季节性变量;下图:偏差[以百分比表示,{(非CDC估计值-CDC估计值)/CDC估计值}]。
两种替代模型的偏差都要比单独使用GFT的偏差低;GFT在样本外期间的平均绝对偏差为0.486,CDC滞后模型的平均绝对偏差为0.311,GFT与CDC相结合的平均绝对偏差为0.232。
以上这些差异在P<0.05时有统计显著性。
见补充材料SM。
和CDC滞后数据相结合,同时动态校准GFT,我们可以显著改善GFT的性能或改善单独使用CDC 时的性能(见图1)。
这并不能替代对GFT的不断评估和改进,但是,通过整合信息,GFT就能修补自己,从而避免在“新闻头条”出丑。
算法动力学所有经验主义的研究都是以测量为基础的。
测量仪器是否可以真实地捕捉到我们感兴趣的理论结构?测量是否可以在不同的情景、不同的时间均能保持稳定性和可比性?测量的误差是否呈现系统性?至少,非常可能的情况是,由于算法动力学(algorithm dynam-ics)影响了谷歌搜索算法,使得GFT不能稳定反映流感的流行状况。
算法动力学是指算法的各种变化,这些变化一方面源自工程师为了改进商业服务而修改算法,另一方面源自用户使用服务过程中行为的改变。
谷歌搜索算法和用户行为的各种改变很有可能影响了GFT的预测追踪。
对GFT预测误差通常的解释归咎于上一流感季节媒体引起的用户恐慌[1,15]。
尽管这可能是其中一个原因,但这并不能解释为什么GFT在两年多的时间里过高地估计了流感的流行情况。
GFT 2009年的版本经受住了与流感相关的媒体恐慌的考验,包括2005~2006年甲型H5N1流感(禽流感)的爆发和2009年的甲型H1N1流感(猪流感)的流行。
因此,最有可能的“罪魁祸首”是谷歌搜索算法本身的改变。
谷歌搜索算法并不是一个静止的实体,谷歌公司不断地对搜索进行测试和改进。
例如,谷歌搜索的官方博客仅在2012年6月和7月就公布了86项修改(见补充材料SM)。
其搜索模式是谷歌公司各个部门的程序员和全球数百万用户所做的数以千计决策的结果。
重现GFT的原始算法有许多挑战。
GFT从来没有以文档的形式公布过所用的45个检索词,而且其所发布的例子明显带有误导性[14](见补充材料SM)。
谷歌提供了“Google Correlate”这项服务,允许用户辨识与给定时间序列相关联的搜索数据。
然而,这仅限于国家级数据,开发GFT利用的却是与地区级关联的数据[13]。
这项服务也不会返回GFT相关文献中所记录的任何样本检索词[13, 14]。
然而,利用Google Correlate对GFT时间序列相关的检索词和CDC数据的返回结果进行比较,就会发现一些有趣的差异。
特别是对流感治疗方案的搜索以及普通感冒与流感之间的区别方面的搜索,和GFT的误差有很强的关联(见补充材料SM)。
这表明了一种可能性,即对用户相关搜索行为改变的解释是“蓝队”动力学——服务提供者根据他们的商业模式对产生数据的算法(用户使用的数据)进行修改。
谷歌在2011年6月宣布,他们对搜索结果进行了修改,目的是为用户提供系统建议的其它搜索词,并在2012年2月再次宣布,当用户搜索包括发烧、咳嗽之类的体症时,系统会返回一些可能的诊断方法[21]。
前者对一般流感检索的响应是推荐流感治疗方法的搜索,而后者可以对流感与普通感冒区别方法相关搜索的增加做出解释。
我们给出了其它几个可能会影响GFT预测结果的修改(见补充材料SM)。
在提高对用户的服务质量过程中,谷歌也在改进数据生成的过程。
对搜索算法进行修改的目的大概是为了支持谷歌的商业模式,比如,一方面是快速地为用户提供有用的信息,另一方面是为了增加更多的广告收益。
通常基于其他人的搜索历史所推荐的搜索会增加某些特定搜索的相对数量。
在这种模式下,由于GFT使用了相对较为流行的搜索词,搜索算法的改进反而会对GFT的预测产生不利影响。
然而,奇怪的是,GFT所秉承的假设是某些特定词项的相对搜索数量与外部事件是静态相关的,但实际上搜索行为并非仅由外在因素决定,它同样受服务提供者的内在影响。
“蓝队”问题不仅存在于谷歌一家公司。
像推特(Twitter)和脸谱(Facebook)等这样的平台总是在重新设计。
对从这些平台上采集到的数据进行研究,即便是一年前的研究结果,能否在以后或者早期重现,是一个尚无答案的问题。
尽管这对于GFT而言似乎并不是问题,但是研究人员也应该意识到我们监控的系统存在被“红队”攻击的可能性。
当研究对象(在此案例中指Web搜索者)试图操控数据生成过程以达到他们的经济或政治目的的时候,“红队”动力学就起作用了。
推特网站上的拉票就是这种策略的一个明显的例子。
竞选机构和公司都意识到了新闻媒体在关注着推特,因此使用了各种各样的手段来确保自己的候选人或者产品呈现流行趋势[22,23]。
类似的,可以利用推特和脸谱来散布关于股票价格和市场的谣言。
讽刺的是,利用这些开源信息监测用户行为越是成功,就越会有人试图去操控那些信息。
透明度、粒度和全数据将GFT的故事作为案例进行研究具有重要意义。
当我们在大数据分析时代向前迈进时,可从这个案例中学到很多关键性的教训。
透明度和可重现性 在整个学术界对结果可重现的关切日益增长。
有关GFT的论文中的支撑材料并没有满足研究群体正在形成的新标准,既没有给出核心搜索词,也没有提供更大的搜索语料库。
考虑到隐私问题,谷歌不可能将其所有数据都对外界公开,否则这在道德上也是不被接受的。