数据洪流中的科学方法
- 格式:doc
- 大小:9.96 KB
- 文档页数:4
信息技术课程中的大数据分析基础介绍在当今数字化时代,数据正以前所未有的速度增长和积累,大数据分析已成为各个领域的关键工具。
在信息技术课程中,引入大数据分析基础的教学内容,对于培养学生的数据分析思维和能力具有重要意义。
大数据,顾名思义,是指规模极其庞大、复杂多样的数据集合。
这些数据的来源非常广泛,包括互联网、社交媒体、传感器、企业系统等等。
与传统数据相比,大数据不仅体量巨大,而且数据类型繁多,涵盖了结构化数据(如数据库中的表格数据)、半结构化数据(如XML、JSON 格式的数据)和非结构化数据(如文本、图像、音频、视频等)。
那么,为什么要在信息技术课程中学习大数据分析基础呢?首先,它能够帮助学生更好地理解和应对当今数字化社会中的数据洪流。
无论是在日常生活还是未来的工作中,学生都将不可避免地接触和处理大量的数据。
掌握大数据分析的基础知识,能让他们更有效地从数据中提取有价值的信息,做出明智的决策。
其次,大数据分析是一门跨学科的领域,它融合了数学、统计学、计算机科学等多个学科的知识和技能。
通过学习大数据分析基础,学生能够综合运用这些学科的知识,提高他们的综合素养和解决问题的能力。
再者,大数据分析在众多领域都有着广泛的应用,如医疗保健、金融、交通、教育等。
了解大数据分析的基本原理和方法,为学生未来在这些领域的发展打下坚实的基础。
在信息技术课程中,大数据分析基础的教学内容通常包括以下几个方面:数据收集是大数据分析的第一步。
学生需要了解如何从各种数据源获取数据,包括使用网络爬虫工具抓取网页数据、从数据库中提取数据、通过传感器收集实时数据等。
同时,还需要掌握数据清洗和预处理的方法,因为原始数据往往存在缺失值、噪声和错误,需要进行处理以提高数据质量。
数据存储也是重要的一环。
由于大数据的体量巨大,传统的数据库系统可能无法胜任,因此需要学习分布式存储系统,如 Hadoop 的HDFS(Hadoop 分布式文件系统)、NoSQL 数据库(如 MongoDB、Cassandra 等)。
大数据时代解读信息洪流信息洪流是指在大数据时代,海量、快速流动的信息产生和传输现象。
随着科技和互联网的发展,人们面临着前所未有的信息过载和信息混乱问题。
如何准确、高效地解读信息洪流,对于个人和社会都具有重要意义。
一、信息洪流的特点1.1 海量性大数据时代,信息源源不断地产生,以指尖作为核心的各种设备普及,网络的普及和持续深入,个人和企业都成为信息的创造者和传播者。
从社交媒体的微博、微信到新闻媒体的推送,大量信息涌入人们的视野,构成了庞大的信息洪流。
1.2 快速性在信息技术的驱动下,信息的传输速度大大加快。
新闻热点、社交事件等迅速被报道和传播,人们对信息的需求也变得迅速。
不同信息渠道、平台的竞争加剧了信息的快速传输,使信息洪流更加迅猛。
1.3 多样性信息洪流不仅海量快速,还具有多样化的特点。
信息的形式包括文字、图片、视频等多种媒介形式,内容覆盖了新闻、娱乐、教育、科技等各个领域。
人们从各个方面获取信息,形成多元化的信息洪流。
1.4 虚假性信息洪流中,虚假信息也层出不穷。
虚假信息会引发社会恐慌、误解和误导,严重破坏了信息传播的可信度。
善于辨别虚假信息,保持辨识能力,是解读信息洪流的重要一环。
二、解读大数据时代的信息洪流2.1 信息筛选与归纳在面对海量的信息洪流时,我们需要学会进行信息筛选与归纳。
首先,通过明确自己的信息需求,采取选择性阅读的方式,将注意力集中在自己感兴趣或有用的信息上。
其次,对于不同的信息来自不同的渠道,我们可以将信息进行整理和归类,形成信息的分类储备。
这样可以有效降低信息的冗杂性,提高信息处理的效率。
2.2 数据分析与挖掘大数据时代,数据分析和挖掘成为重要技能。
通过对信息洪流中的数据进行分析,可以发现其中的规律和趋势。
例如,通过分析社交媒体上的热点话题,可以了解社会民众的关注点和情感倾向;通过对搜索引擎的数据挖掘,可以得出人们对于某一概念的偏好和态度。
数据分析和挖掘有助于我们从信息洪流中提取有价值的知识和见解。
数据处理方法背景意义-回复【数据处理方法背景意义】在当今信息爆炸的时代,大数据已经成为推动社会进步和科技创新的关键要素。
海量的数据背后蕴含着巨大的价值,而如何挖掘这些价值,则依赖于高效、精准的数据处理方法。
本文将深入探讨数据处理方法的背景与意义,以及它在各个领域中的重要作用。
一、数据处理方法的背景1. 数据量激增:随着互联网、物联网、云计算等技术的发展,全球每天产生的数据量呈指数级增长,形成了所谓的大数据时代。
传统的数据存储和处理方式已无法满足这种海量、多源、异构数据的管理需求,这就催生了新的数据处理方法和技术的诞生和发展。
2. 数据价值认知提升:企业和科研机构逐渐意识到,通过有效的数据处理和分析,可以从看似杂乱无章的数据中提炼出有价值的信息和知识,用于指导决策、优化业务流程、创新商业模式,甚至预测未来趋势,从而带来显著的竞争优势。
3. 技术进步驱动:近年来,人工智能、机器学习、深度学习等前沿技术的发展,对数据处理提出了更高的要求,如实时性、智能化、高并发处理等,这进一步推动了数据处理方法的研究和革新。
二、数据处理方法的意义1. 提升数据利用效率:科学合理的数据处理方法可以提高数据的质量和可用性,减少冗余和错误,确保后续数据分析和挖掘的准确性,从而提升数据的利用效率。
2. 支持决策优化:通过对大量数据进行清洗、整合、分析,数据处理方法能够揭示出隐藏在数据背后的模式、规律和关联,为企业的战略规划、市场定位、产品开发、风险控制等提供有力的数据支持。
3. 推动科技进步:在科研领域,数据处理方法是实现科学研究成果的重要工具。
无论是探索宇宙奥秘的天文学研究,还是寻找新药物的生命科学实验,都需要借助复杂的数据处理技术来解读实验结果、验证理论模型。
4. 创新商业模式:在数字经济背景下,基于用户行为、消费习惯等大数据的精细化处理和分析,企业能够精准描绘用户画像,实现个性化推荐,创造新的商业价值和社会价值。
总结而言,数据处理方法不仅顺应了大数据时代的潮流,满足了各行各业对数据资源深度开发利用的需求,还在很大程度上推动了科技、经济乃至整个社会的进步。
封二人物Insidecover Characters弄潮数据“洪流”——记上海交通大学电子信息与电气工程学院计算机系讲席教授过敏意 张静怡这是一个大数据的时代。
一个人的消费行为、支付行为、娱乐行为、社交媒体行为,甚至行动轨迹等都在为大数据这座摩天大楼添砖加瓦。
大数据可以有多大?举一个简单的例子,2019年天猫“双11”开始后,仅14秒成交额就破了10亿元。
2018年天猫“双11”全天交易额为2135亿元,而2019年用了16小时31分就达到了这个数值。
第三方机构数据显示,淘宝A p p当天的日活跃用户比2018年同期增长9638万,达到4.76亿。
对日活过亿的淘宝来说,在类似“双11”这种特殊时刻面临的用户骤然上涨就是一个“突变型峰值”——扛不住的话,轻则响应缓慢,重则系统崩溃。
更重要的是,在大数据时代,不是只有“双11”才会遭遇“突变型峰值”。
春晚当天的实际登录量,可能是“双11”的十几倍;而12306,春运40天每天都是“双11”。
就连新冠肺炎疫情“众宅”期间,中国网民每天花在移动互联网上的时长都比2000年年初增加了21.5%。
截止到2020年6月,中国网民人数已达9.4亿,并且依然处于增长状态。
这意味着,在我国,“突变型峰值”的场景只可能增多,不会减少。
站在数据洪流中,如何应对日益增长的互联网服务应用需求,这也是摆在过敏意面前的重大课题。
云上的“双11”对于一家企业来说,当一台服务器的运算能力不足以满足运算需求时,就需要企业购置多台服务器,甚至演变成为一个具有多台服务器的数据中心。
但问题是,初期建设成本已经很高了,可中心要运营下去,消耗的电费以及维护支出,可能比建设成本还高,普通的中小型企业难以承担。
“云计算”就是为了解决这个问题出现的。
它本质上是一种提供资源的网络,打个比方,这里的“云”就像水、电、燃气一样,用户可以随时取用,不限量,但需要按照使用量付费,这时的使用成本当然远低于用户自己去建造一个“自来水厂”或“电站”。
开放科学环境下的数据隐私治理研究在开放科学的大潮中,数据隐私治理犹如一座坚固的堡垒,守护着科研人员的科研成果和公众的个人信息安全。
然而,这座堡垒在数据洪流的冲击下,面临着前所未有的挑战。
本文将探讨开放科学环境下的数据隐私治理研究,以及其对科研伦理和个人信息保护的深远影响。
一、开放科学环境下的数据隐私治理挑战1.数据共享与隐私保护的矛盾犹如冰与火,挑战着科研人员的智慧。
开放科学强调数据的共享与透明,以便于科研人员之间的交流与合作。
然而,数据的共享与隐私保护之间存在着矛盾。
如何在保障数据共享的同时,确保数据隐私的安全,成为开放科学环境下数据隐私治理的一大挑战。
2.数据隐私泄露犹如病毒,侵蚀着科研人员的科研成果和公众的个人信息安全。
在开放科学环境下,数据隐私泄露的风险不断增加。
一旦数据隐私泄露,不仅会损害科研人员的声誉,还会侵犯公众的个人信息权益。
因此,如何有效防范数据隐私泄露,成为开放科学环境下数据隐私治理的重要课题。
3.数据隐私治理法规与实践的脱节犹如断桥,阻碍了科研人员的前行。
尽管我国已出台了一系列数据隐私治理法规,但在实际操作中,仍存在诸多难题。
如何将法规转化为实践,指导科研人员开展数据隐私治理工作,成为开放科学环境下数据隐私治理的关键。
二、开放科学环境下的数据隐私治理策略1.构建数据隐私治理框架,犹如搭建一座桥梁,连接科研人员与数据隐私治理法规。
通过构建数据隐私治理框架,明确科研人员在数据隐私治理中的责任和义务,指导科研人员开展数据隐私治理工作。
2.强化数据隐私保护技术,犹如一道防火墙,隔离数据隐私泄露的风险。
科研人员应掌握数据加密、匿名化、去标识化等数据隐私保护技术,有效防范数据隐私泄露的风险。
3.培养科研人员的数据隐私治理意识,犹如播种一颗种子,培育数据隐私治理的土壤。
科研人员应树立正确的数据隐私治理观念,关注数据隐私保护,自觉遵守数据隐私治理法规。
三、开放科学环境下的数据隐私治理对科研伦理和个人信息保护的影响1.数据隐私治理有助于维护科研伦理,犹如一面镜子,映照出科研人员的职业道德。
大数据分析大数据大数据分析模型构建在当今数字化的时代,数据如同潮水般涌来,而大数据更是其中的洪流。
大数据不仅规模庞大,而且种类繁多、变化迅速。
对于企业和组织来说,如何从这海量的数据中挖掘出有价值的信息,成为了至关重要的问题。
这就需要我们深入理解大数据,掌握分析大数据的方法,并构建有效的大数据分析模型。
大数据,简单来说,就是那些规模极其巨大、复杂到传统数据处理软件无法在合理时间内进行捕捉、管理和处理的数据集合。
它的特点包括数据量大、数据类型多样、处理速度快以及价值密度低。
比如,我们日常在互联网上的各种活动,如购物、浏览网页、社交媒体互动等,都会产生大量的数据。
这些数据涵盖了文本、图像、音频、视频等多种类型。
那么,为什么要分析大数据呢?首先,大数据分析可以帮助企业更好地了解消费者的需求和行为。
通过对消费者的购买历史、浏览记录、评价等数据的分析,企业能够精准地把握市场趋势,推出更符合消费者需求的产品和服务。
其次,大数据分析有助于优化业务流程。
通过对企业内部运营数据的分析,可以发现流程中的瓶颈和问题,从而提高效率、降低成本。
再者,大数据分析能够为决策提供支持。
基于全面、准确的数据进行分析,能够减少决策的盲目性,提高决策的科学性和准确性。
接下来,让我们探讨一下大数据分析的方法。
常见的大数据分析方法包括数据挖掘、机器学习、统计分析等。
数据挖掘是从大量的数据中发现潜在的模式和关系。
它就像是在一座巨大的矿山中寻找珍贵的矿石,通过各种算法和技术,挖掘出隐藏在数据深处的有价值信息。
例如,关联规则挖掘可以发现不同商品之间的购买关联,从而为商家进行商品推荐提供依据。
机器学习则是让计算机通过数据自动学习和改进。
它可以对未来的情况进行预测,比如预测股票价格的走势、销售的趋势等。
常见的机器学习算法有决策树、神经网络、支持向量机等。
统计分析则是运用统计学的方法对数据进行描述、推断和预测。
通过均值、方差、标准差等统计量来描述数据的特征,通过假设检验、回归分析等来推断变量之间的关系。
数据因子分析报告你是否曾经听说过“数据因子分析报告”?这是一个在数据科学领域中经常使用的术语。
在这篇文章中,我们将详细介绍数据因子分析报告的概念、目的、使用方法以及为什么它对数据分析和业务决策如此重要。
引言在当今数字化的时代,我们面临着前所未有的数据洪流。
大量的数据被收集、存储和分析,用于洞察商业、社会和科学的方方面面。
然而,这个庞大的数据集往往非常复杂和难以理解。
因此,我们需要一种方法来提取数据中隐藏的模式和趋势,以便为决策制定者提供有用的信息。
这就是数据因子分析报告发挥作用的地方。
数据因子分析报告的概念数据因子分析报告是一种统计方法,用于理解数据集中的变量之间的关系。
通过将大量变量整合成较少的关键因子,该方法可以帮助我们更好地理解数据背后的结构和模式。
它通过将复杂的数据集转化为更简洁、更易解释的形式,为我们提供了深入分析数据的方法。
数据因子分析报告的目的数据因子分析报告的主要目的是降低数据的维度,并减少数据集的复杂性。
通过识别数据中的共性和相关性,数据因子分析报告能够帮助我们提取有意义的信息,从而更好地理解数据集。
此外,数据因子分析报告还可以帮助我们发现潜在的隐藏因素和关联。
通过减少噪音和去除不相关的变量,我们可以更好地聚焦于对业务有价值的关键因素。
数据因子分析报告的使用方法数据因子分析报告的使用方法有几个关键步骤:1.收集数据:首先,我们需要收集需要进行分析的数据。
这可以是来自不同来源的结构化或非结构化数据,例如调查数据、销售数据或网络数据等。
2.数据清洗:在进行因子分析之前,我们需要对数据进行清洗和预处理。
这包括填补缺失值、处理异常值和标准化数据等操作,以确保数据的一致性和准确性。
3.因子提取:通过使用合适的数学模型(如主成分分析或因子分析),我们可以提取出与原始数据相关联的关键因子。
这些因子代表了数据背后的共性和相关性,帮助我们理解数据的本质。
4.因子解释:一旦提取出关键因子,我们需要对它们进行解释和理解。
数据洪流:洞悉未来——大数据分析与预测实践一、引言在全球信息化的浪潮中,数据洪流源源不断地涌现,催生了大数据这一重要概念。
大数据,以其独特的价值挖掘和深度洞察力,已广泛渗透并深刻改变了众多领域。
世界各地都在积极拥抱大数据,借助新兴技术,应对挑战,致力于构建繁荣的数据生态系统。
这一全球趋势不仅驱动着经济社会的创新发展,也日益显现出对未来发展的重要引领作用。
1.1 数据洪流的定义与背景数据洪流,这一概念揭示了我们正置身于一个由无数数据点构建的现代世界。
随着科技的飞速发展,特别是云计算、人工智能以及5G 网络的兴起,数据的生成与传播速度达到了前所未有的高度。
这些数据不仅量大,而且种类繁多,从网页浏览记录、社交媒体互动,到物联网设备产生的实时数据,无一不包。
它们既包括易于分析的结构化数据,也包括需要深度挖掘的半结构化和非结构化数据,如文本、图片、音频和视频。
面对数据洪流,企业和组织面临着巨大的挑战,但也蕴含着无限机遇。
大数据分析成为了挖掘潜在价值的关键工具,通过机器学习和高级分析技术,可以揭示隐藏的模式、趋势和关联,从而驱动更精准的市场预测、个性化服务以及优化的业务决策。
同时,数据洪流也催生了新的行业,比如数据科学、数据安全和隐私保护,这些都成为数字化时代的核心议题。
因此,掌握数据管理和分析能力,理解并善用数据洪流,已成为个人和组织在21世纪竞争中不可或缺的能力。
1.2 大数据的概念与重要性大数据,这个概念超越了单纯的容量维度,更着重于数据的深度挖掘与利用。
在这个信息爆炸的时代,大数据犹如一座未开采的金矿,蕴含着无尽的潜力。
通过复杂的分析技术,我们可以从海量、多源、实时的数据洪流中揭示出深层次的见解和规律。
这些洞察不仅能够帮助企业精准定位市场需求,提高决策效率,还能助力机构优化资源配置,创新业务模式,甚至预见未来的行业走向。
在医疗领域,大数据使得个性化治疗和疾病预防成为可能;在教育中,它推动了教学方式的革新,实现了因材施教;在零售业,通过消费者行为分析,商家可以提供更精准的商品推荐;在交通管理上,大数据则有助于优化交通流量,减少拥堵。
一.信息爆炸的时代我最喜爱的作家之一是美国科幻及科普作家阿西莫夫(I.Asimov),他一生出版过约500本书恐怕比我一生将会发表的文章数还多。
我念中学时曾读过他的很多书,其中有一本叫作《数的趣谈》[注一],而那其中有篇文章叫做忘掉它!(ForgetIt!),我到现在还没忘掉。
阿西莫夫在那篇文章的开头引用了一本生物教科书的前言片断,大意是说我们的科学知识每隔一代就会增加五倍,以生物学为例,2000年的知识将是1900年的100倍。
这段话让阿西莫夫深感不安,甚至感到世界好象在我身边崩溃了。
为什么呢?因为在阿西莫夫看来,象他这样快速写作的科普作家,几乎是在职业性地追逐着科学的发展,可在一个信息爆炸的时代里,他有可能追得上形势吗?阿西莫夫在那篇文章中为自己的问题找到了答案。
不过,我们先不去看他的答案。
阿西莫夫那篇文章发表于1964年,在那之前的1961年,信息爆炸(informationexplosion)这一用语首次出现在了IBM公司的一则广告中。
自那以后,信息爆炸一直拨动着人们的心弦。
也许很多人都会产生与阿西莫夫同样的担忧:在一个信息爆炸的时代里,我有可能追得上形势吗?如果我们把阿西莫夫时代的信息爆炸比作常规爆炸,那么由互联网及信息数字化所带来的当代信息爆炸恐怕就是核爆炸了。
因为常规的信息爆炸只是书本知识的爆炸,而能在书本上占据一席之地的人毕竟是不多的。
但互联网时代几乎让每个人都拥有了发布信息的能力,由此带来信息爆炸无疑要惊人得多。
据一家美国研究机构统计[注二],截至2007年,人类拥有的数字化信息(文字和音像都算在内)约有225000亿亿比特(2.251021bits),约合15000亿亿个汉字,而且这一数字几乎每隔5年就增加一个数量级。
在这些信息中,约百分之七十是个人创造的。
以时下最流行的博客来说,其数量在过去几年里几乎每6个月就翻一番。
到2008年底,仅中国网民开设博客者就超过了1.6亿人[注三]。
二.谷歌的新思路信息爆炸尤其是互联网上的信息爆炸带来了一系列深刻的社会变化,也使越来越多的人对信息爆炸的前景进行着思考。
不过与阿西莫夫当年那种忧虑性的思考不同,当代的思考者中有很多人全心地拥抱着这个信息爆炸的新时代,且对其前景作出了与前人截然不同的设想。
2008年6月,美国的一位技术杂志主编发表了一篇标新立异的文章,题目为理论的终结:数据洪流让科学方法过时(TheEndofTheory:TheDataDelugeMakestheScientificMethodObsolete)。
这份杂志名为《连线》(Wired),是一份以探讨技术影响力为主题的杂志,创刊于1993年,订阅人数约在50万到100万之间。
而撰写那篇文章的主编名叫安德森(ChrisAnderson),是一位经验丰富的传媒人士,曾在《自然》(Nature)、《科学》(Science)及《经济学家》(TheEconomist)等著名刊物任职。
安德森担任主编期间,《连线》杂志曾多次获奖,而安德森本人也在2005年获得过一项年度最佳主编奖。
安德森这篇文章的观点标新立异不说,就连标题也相当耸人听闻,不仅预言科学理论将会终结,而且宣称科学方法将会过时。
他的这一奇异想法从何而来呢?我们来简单介绍一下他那篇文章的思路。
安德森的文章以著名统计学家博克斯(GeorgeBox)的一句引文作为开篇,那句引文是:所有模型都是错误的,但有些是有用的。
安德森提出,虽然人们长期以来一直在用模型比如宇宙学模型来解释现象,但最近这些年里,象谷歌(Google)这样扎根于信息时代最前沿的公司已经采用了新的思路。
安德森举了谷歌翻译及谷歌广告作为例子。
我们知道,常规的机器翻译是通过一系列静态的规则,比如字典及语法规则,来把握文章的内容。
但谷歌翻译另辟蹊径,借助数以亿计来自不同语言的语句之间的统计关联来做翻译。
这种翻译的最大特点是无需知道被翻译文字的含义,而只关心两种语言之间的统计关联。
类似地,使谷歌获得巨大利润的谷歌广告那些当你搜索东西时出现在结果右侧的小广告也是建立在统计关联之上的。
谷歌既不在乎你搜索的东西的含义,也不关心它所显示的广告是什么,它之所以列出那些广告,完全是因为统计关联表明它们与你搜索的东西有关。
谷歌这种全面依赖统计分析的新思路几乎体现在它的所有产品之中。
据说谷歌的研究主管诺维格(PeterNorvig)曾在2008年3月的一次技术会议上,将安德森文章开头所引的博克斯的话改成了所有模型都是错误的,没有它们你也能日益成功。
谷歌这种新思路给了安德森很大的启发。
他做出了一个大胆的预测:谷歌的新思路不仅适用于商业,而且会越来越多地渗透到科学上,并如他文章标题所说的那样,最终取代现有的科学方法。
在他看来,科学才是这种新思路的大目标(bigtarget)。
我们知道,科学研究的常规模式是从实验数据或观测数据中提出假设、模型或理论,然后用新的实验或观测来检验它们。
安德森认为这种模式在信息时代的数据洪流中将会过时,今后人们只需象谷歌那样直接从大量数据的统计关联中得出结论就行了。
用他的话说:关联就已足够,我们可以停止寻找模型。
按照安德森的设想,我们只需将大量数据扔进巨型计算机,让它运用统计算法去发现那些科学所无法发现的关联。
那些关联将取代因果关系,科学将摆脱模型和理论而继续前进。
如果安德森的设想成为现实,那么不仅今天的科学方法将成为历史,甚至连科学家起码是理论科学家这个职业也很可能会不复存在,因为我们所需要的将只是能建造和维护计算机的技术人员,以及懂得统计学原理的编程人员,我们将再也不需要理论。
这样的前景对科学家来说无疑是陌生的,但安德森认为这是信息时代带给我们的一种认识世界的全新方法,它展示了巨大的机会,科学家们不应墨守传统的科学方法,而应该自问:科学能从谷歌中学到什么?安德森对科学理论及科学方法的全面唱衰所带来的争议性是显而易见的。
他的文章一经发表,立刻遭到了很多人的批评,有人甚至迁怒于《连线》杂志(谁让安德森是主编呢?)。
比如卡内基梅隆大学(CarnegieMellowUniversity)的一位助理教授在看过安德森的文章后,把自己前不久接受《连线》杂志的采访称为是一个错误,而且是在试图打发等候室时间(waiting-roomtime)时所犯的错误,言下之意,哪怕是在等候室里无所事事的时候,也不值得为《连线》杂志浪费时间。
有意思的是,这位助理教授原本是物理学博士,目前则在统计系工作,如果安德森的观点能够成立,他的前景倒是蛮光明的。
当然,对更多的人来说,安德森的观点不过是一家之说,赞成也好,反对也罢,都可以平心静气地进行分析。
我们感兴趣的问题是:安德森的观点到底能不能成立?或者最低限度说,它有道理吗?在本文接下来的篇幅里,我们就来稍稍分析一下。
如我们在前面所介绍,安德森的立论在很大程度上借鉴了谷歌翻译及谷歌广告的思路,从某种意义上讲,他将这些谷歌技术当成了未来科学方法的范例。
既然如此,就让我们先以谷歌翻译为例考察一下,看看它是否有可能承载安德森赋予它们的重任。
三.统计方法与高级密码常言道:是骡子是马,拉出来遛遛。
考察谷歌翻译的最佳办法当然是检验它的翻译效果。
我们随便举几个例子。
其中最简单的例子是翻译安德森这篇文章的标题理论的终结:数据洪流让科学方法过时,谷歌翻译给出的结果是理论的终结:数据洪水滔天使废弃的科学方法。
这个例子虽然简单,却很清楚地体现了谷歌翻译的特点及缺陷。
如我们在上文中所说,谷歌翻译的特点是以统计关联而非语法为基础,上述译文的不通顺很清楚地显示了这一特点带来的缺陷。
谷歌翻译的这种缺陷在更长的句子中显得更为清楚,比如牛顿(IsaacNewton)的那段名言:我不知道我在别人眼里是怎样的,但对我自己来说我只不过象是一个在海边玩耍的男孩,因为时不时地找到一块比通常更光滑的卵石或更漂亮的贝壳而兴奋,却全然没有发现展现在我面前的伟大的真理海洋。
用谷歌翻译的结果是[注四]:我不知道我可能会出现的世界,而是为了自己,我似乎已经不仅就像一个男孩玩海上岸上,和挪用自己现在然后找到平滑卵石或比普通漂亮外壳,而大洋的真相躺在我面前的所有未被发现。
要看懂这种比绕口令还拗口的翻译是需要毅力的。
谷歌翻译能作为未来科学方法的范例吗?答案应该是不言而喻的。
安德森所举的谷歌技术的另一个例子,即谷歌广告,也具有非常显著的缺陷,事实上,利用谷歌广告乃至整个谷歌系统的缺陷来提升自己网站的广告效果早已是互联网上公开的秘密。
谷歌技术当然不无优越之处,比如它具有所谓的统计学习(statisticallearning)功能(细心的网民会注意到,不同时候用谷歌做同样的事情得到的结果通常会有一定的差异),但这种纯粹建立在统计关联之上的结果具有无可避免的模糊性,这种模糊性虽不足以妨碍商业上的成功,但它与科学理论之间的差距是巨大的,并且是本质性的。
如果我们稍稍深入地思考一下,就会发现谷歌的思路人们在其它场合也曾用过。
举个例子来说,密码学中有一种简单的密码叫做置换密码(substitutioncipher),它是通过对字母或其它文字单元进行置换来达到加密的目的。
破译这种密码的主要途径就是统计分析。
比如在英文中字母e是出现频率最高的,假如我们截获了一份经过字母置换加密的文件,我们就可以对文件中各符号的使用频率进行统计,其中使用频率最高的符号就很可能代表字母e。
对其它字母也可如法炮制,这种方法类似于谷歌翻译。
但密码学上的经验告诉我们,单纯使用统计方法是很难完全破译一份密码的,通常你会碰对一些字母或文字单元,就象谷歌翻译会碰对一些单词一样,但完整的破译往往需要辅以更仔细的分析和微调。
更重要的是,这种方法只能破译象置换密码那样初级的密码,对于更复杂的密码则完全无济于事。
科学家们对自然规律的研究在一定程度上好比是在破译大自然的密码,但这种密码显然不象置换密码那样简单,因而绝不可能通过单纯的统计分析来破译。
积累足够多有关行星运动的数据,我们也许能发现开普勒定律,但无论积累多少数据,我们也不可能依靠单纯的统计分析得到象爱因斯坦的广义相对论那样的理论。
事实上,单纯的统计分析至多能够知其然,却无法知其所以然,它甚至不能告诉我们行星的运动是不是因为一个看不见的精灵在推动。
科学是一项需要高度创造力的工作,科学上的很多成果,仅凭实验数据、发达的计算机和统计分析是永远也得不到的,这就好比用破译置换密码的方法永远也破译不了更高级的密码。
四.数据洪流中的灯塔谷歌新思路的另一个问题,是不可避免地受到大量无效信息的干扰。
这一点想必每位网民都有自己的切身体会,互联网既是信息库,也是垃圾场,数据洪流必然携带泥沙。
怎么办呢?让我们回过头来看看本文开头提到过的阿西莫夫为自己对信息时代的担忧找到的答案。