统计学和数据挖掘交叉学科
- 格式:doc
- 大小:35.00 KB
- 文档页数:4
应用统计学就业方向应用统计学是一门多领域交叉的学科,涵盖了数据分析、数据挖掘、机器学习等方面的知识和技能。
在当今数据驱动的社会中,应用统计学的就业前景非常广阔。
下面将对应用统计学的就业方向进行简要介绍。
1. 数据分析师数据分析师是应用统计学毕业生最常见的就业方向之一。
数据分析师利用统计学方法和工具分析和解释大量的数据,帮助企业做出合理的业务决策。
他们的工作范围涵盖市场调研、产品分析、用户行为分析等多个领域。
数据分析师需要具备扎实的统计学基础、良好的数据分析能力和沟通能力,熟悉常用的数据分析工具和编程语言,如Excel、Python、R等。
2. 金融风险分析师在金融领域,风险管理是一个非常重要的环节。
金融风险分析师利用统计学方法和模型,对金融市场进行风险评估、风险建模和风险监控。
他们需要掌握金融知识和统计学方法,熟悉常见的金融风险模型和统计软件,如VaR模型、C++、MATLAB等。
3. 健康统计学家健康统计学家是将统计学方法应用于医疗和健康领域的专业人士。
他们在流行病学、卫生规划、药物研发等方面发挥重要作用。
健康统计学家需要具备良好的统计学基础和医学知识,能够设计和分析医疗研究,并向决策者提供有关预防、治疗和健康政策的建议。
4. 数据工程师数据工程师是负责构建和维护大规模数据处理系统的专业人士。
他们需要具备扎实的数据处理和编程能力,熟悉分布式计算框架和数据库管理系统。
应用统计学毕业生因为具备统计学知识和数据分析技能,在数据工程领域也有很好的就业机会。
5. 市场营销分析师市场营销分析师通过统计分析和市场研究,帮助企业了解市场需求和消费者行为,为企业决策提供依据。
他们需要具备市场营销知识和统计分析技能,能够利用数据进行市场定位、产品定价、市场推广等方面的分析和决策。
6. 统计顾问统计顾问为企业和组织提供统计学方面的咨询服务,帮助他们解决数据分析和决策中的问题。
他们需要具备广泛的统计学知识和丰富的实践经验,能够理解客户需求,并提供相应的解决方案和建议。
数据科学方法及应用数据科学是一项涵盖统计学、机器学习、数据挖掘等多个领域的交叉学科,其研究目的是通过对数据进行分析、建模等手段,发现数据背后的规律和洞见,从而帮助决策者制定科学决策。
本文将从数据科学的方法和应用两个方面入手,分别介绍数据科学的基本方法和在不同领域的应用案例。
一、数据科学的方法1. 数据收集数据收集是数据科学的第一步,数据科学家需要在采集数据时注意数据来源的可靠性和数据质量的高低。
一般来说,数据收集可以通过调查问卷、网络爬虫、传感器等多种方式进行。
在收集数据时,还需要注意数据的时效性和完整性,以确保统计结果的准确性。
2. 数据清洗数据清洗是数据科学中非常重要的一步,它可以帮助数据科学家去除冗余数据、修正错误数据、填补缺失数据等,从而提高数据的质量和可用性。
在数据清洗过程中,需要运用到数据处理技术,如数据规约、数据转换、数据集成等。
3. 数据分析数据分析是数据科学最核心的环节,它可以通过统计分析、机器学习等方法,从数据中发现隐藏的规律和知识。
一般来说,数据分析可以分为描述性分析、诊断性分析、预测性分析等多个层次。
在数据分析过程中,还需要运用到数据可视化技术,如散点图、条形图、饼图等。
4. 数据建模数据建模是数据科学中非常重要的一步,它可以帮助数据科学家运用数学模型对数据进行预测和决策。
在数据建模过程中,需要运用到数学建模技术,如回归分析、时间序列分析、聚类分析等。
二、数据科学的应用1. 金融领域数据科学在金融领域的应用非常广泛,可以帮助金融机构预测股市走势、识别欺诈交易、评估信用风险等。
例如,银行可以通过数据科学的方法来评估客户的信用风险,从而决定是否给予客户贷款。
2. 医疗领域数据科学在医疗领域的应用也非常广泛,可以帮助医疗机构预测疾病发展趋势、制定医疗方案、优化医疗资源分配等。
例如,医院可以通过数据科学的方法来分析患者的病历数据,从而预测患者的治疗效果和康复时间。
3. 零售领域数据科学在零售领域的应用也非常广泛,可以帮助零售商预测消费者购买行为、优化促销策略、提高客户满意度等。
人工智能期末试题及答案完整版XX学校2012-2013学年度第二学期期末试卷考试课程:《人工智能》考核类型:考试A卷考试形式:开卷出卷考试专业:______ 考试班级:______一、单项选择题(每小题2分,共10分)1.首次提出“人工智能”是在哪一年?(D)A。
1946 B。
1960 C。
1916 D。
19562.人工智能应用研究的两个最重要最广泛领域是哪两个?(B)A。
专家系统、自动规划 B。
专家系统、机器研究C。
机器研究、智能控制 D。
机器研究、自然语言理解3.下列哪个不是知识表示法?(A)A。
计算机表示法 B。
“与/或”图表示法C。
状态空间表示法 D。
产生式规则表示法4.下列关于不确定性知识的描述错误的是哪个?(C)A。
不确定性知识是不可以精确表示的B。
专家知识通常属于不确定性知识C。
不确定性知识是经过处理过的知识D。
不确定性知识的事实与结论的关系不是简单的“是”或“不是”。
5.下图是一个迷宫,S是入口,Sg是出口,把入口作为初始节点,出口作为目标节点,通道作为分支,画出从入口S出发,寻找出口Sg的状态树。
根据深度优先搜索方法搜索的路径是哪个?(C)A。
s0-s4-s5-s6-s9-sg B。
s0-s4-s1-s2-s3-s6-s9-sgC。
s0-s4-s1-s2-s3-s5-s6-s8-s9-sg D。
s0-s4-s7-s5-s6-s9-sg二、填空题(每空2分,共20分)1.目前人工智能的主要学派有三家:符号主义、进化主义和连接主义。
2.问题的状态空间包含三种说明的集合,初始状态集合S、操作符集合F以及目标状态集合G。
3.启发式搜索中,利用一些线索来帮助足迹选择搜索方向,这些线索称为启发式(Heuristic)信息。
4.计算智能是人工智能研究的新内容,涉及神经计算、模糊计算和进化计算等。
5.不确定性推理主要有两种不确定性,即关于结论的不确定性和关于证据的不确定性。
三、名称解释(每词4分,共20分)1.人工智能:人工智能(Artificial Intelligence),英文缩写为AI。
数据科学与大数据技术考研方向随着信息化时代的到来,数据科学和大数据技术日益受到重视,成为当今社会发展的重要驱动力。
考研生选择数据科学与大数据技术方向,将迎来广阔的就业前景和发展机遇。
数据科学考研方向数据科学是一门利用统计学、机器学习、数据挖掘等技术来解决实际问题的交叉学科。
在考研阶段,学生将系统学习数据处理、数据分析、数据可视化等相关知识,掌握数据科学的基本理论和方法。
数据科学考研方向的学生将深入研究数据特征提取、数据预处理、特征选择等技术,为实际问题的解决提供数据支持。
就业前景数据科学在互联网、金融、医疗等领域有着广泛的应用,毕业生可从事数据分析师、数据工程师、业务分析师等工作。
随着大数据技术的不断发展,数据科学领域的需求将会继续增长,优秀的数据科学研究生将会受到社会的高度重视。
大数据技术考研方向大数据技术是处理和分析海量数据的技术手段,包括分布式计算、数据存储、数据处理等方面的技术。
考研生选择大数据技术方向,需要掌握分布式计算框架如Hadoop、Spark,精通数据存储及管理技术等知识,为企业处理大规模数据提供技术支持。
就业前景随着各行各业对数据处理能力的需求不断增大,大数据技术的应用场景也越来越广泛。
大数据技术考研方向的学生毕业后可以从事大数据工程师、数据架构师等职位,为企业提供高效的数据处理解决方案,促进企业数据资产的价值挖掘与应用。
总结数据科学与大数据技术方向是当下热门的考研方向,拥有广阔的发展前景和就业机会。
通过系统的学习和实践,数据科学和大数据技术考研生将会成为未来数据处理领域的专家与领军人才。
希望有志于此方向的考生能够抓住机会,不断学习,不断进步,为实现自己的求学和事业目标努力奋斗!。
大数据时代,统计学方法有多大的效果?知乎精选【HanHsiao的回答(18票)】:谢Y。
统计学习是一种方法,方法的好坏取决于人的使用。
数据挖掘是众多学科与统计学交叉产生的一门新兴学科。
数据挖掘与统计学的共同特征共同的目标。
两者都包含了大量的数学模型,都试图通过对数据的描述,建立模型找出数据之间的关系,从而解决商业问题。
共用模型。
包括线性回归、logistic回归、聚类、时间序列、主成分分析等。
数据挖掘与统计学的不同之处思想不一样。
数据挖掘偏向计算机学科,所关注的某些领域和统计学家所关注的有很大不同。
不一定要有精确的理论支撑,只要是有用的,能够解决问题的方式,都可以用来处理数据。
而统计学是一门比较保守的学科,所沿用的模型一定要强调有理论依据(数学原理或经济学理论)。
处理数据量不一样。
统计学通常使用样本数据,通过对样本数据的估计来估算总体变量。
数据挖掘使用的往往是总体数据,这也在过去的年代生产力和技术限制所致。
数据挖掘由于采用了数据库原理和计算机技术,它可以处理海量数据。
发现的知识方式不一样。
数据挖掘的本质是很偶然的发现非预期但很有价值的知识和信息。
这说明数据挖掘过程本质上是实验性的。
而统计学强调确定性分析。
确定性分析着眼于寻找一个最适合的模型——建立一个推荐模型,这个模型也许不能很好的解释观测到的数据。
以上。
【艾迪的回答(13票)】:首先,数据量的增加,有助于减小数据的误差,如抽样误差等,能够极大地提高各类分析的精准度,这是大数据对于统计学的直接影响之一。
尽管当今的”大数据“潮流使得我们获得了海量的数据,但掌握这些海量的数据本身并无意义。
真正的意义体现在对于含有信息的数据进行专业化的处理。
要对大数据进行处理,即在样本几乎等于总体的情况下,以目前的分析方法以及分析设备成本较高,耗时较长。
相比之下,统计学的抽样方法似乎显得更加”经济实惠“。
在实际的运用中,统计学能够以较低的成本,较少的数据,对数据进行精确度相对较高的的分析,这是大数据分析所无法替代的。
统计学中的人工智能应用与数据挖掘人工智能(Artificial Intelligence,简称AI)作为一门交叉学科,与统计学的结合越来越深入。
在统计学领域,人工智能的应用已经成为了一种趋势。
本文将探讨统计学中人工智能的应用以及与之相关的数据挖掘技术。
一、人工智能在统计学中的重要性人工智能在统计学中扮演着重要的角色。
传统的统计学方法依赖于人工分析和推断,但是随着大数据时代的到来,数据量的增加以及数据复杂性的提高,传统方法已经无法胜任对大规模数据进行分析和挖掘的任务。
而人工智能能够通过机器学习、深度学习等技术,从数据中发现模式、建立模型,以及进行预测和决策。
二、数据挖掘在统计学中的应用1.数据预处理数据预处理是数据挖掘的第一步,也是十分关键的一步。
它包括数据清洗、数据集成、数据变换和数据规约等过程。
人工智能技术能够自动化地处理数据,并减少人工错误和主观干扰,使数据更加准确和标准化。
2.模式识别与分类模式识别是数据挖掘中的关键任务之一。
通过训练模型,人工智能可以识别出大量数据中的特定模式,并进行分类。
例如,在医疗领域中,人工智能可以对疾病进行分类诊断,提供准确的医疗建议。
3.聚类与关联分析聚类与关联分析是数据挖掘中常用的技术。
通过聚类,可以将数据划分为若干个具有相似特征的类别,为进一步的分析提供基础。
而关联分析则可以发现数据中的关联规则,从而帮助人们了解数据之间的关联性。
4.预测与决策人工智能在统计学中的另一个重要应用是预测与决策。
通过分析大量的历史数据,人工智能可以建立预测模型,对未来的情况进行预测。
这种能力在金融、市场预测等领域尤为重要,能够提供决策支持和风险评估。
三、人工智能与统计学的结合带来的挑战人工智能与统计学的结合无疑给数据分析和挖掘带来了许多好处,但也带来了挑战。
首先是数据质量问题,低质量的数据会影响人工智能模型的准确性和效果。
其次是模型解释性问题,与传统的统计学方法相比,人工智能模型通常难以解释其内部的机理和推理过程。
DOI:10.16660/ki.1674-098X.2018.12.226数据挖掘课程教学改革探索来鹏(南京信息工程大学数学与统计学院 江苏南京 210044)摘 要:数据挖掘课程是统计学与计算机科学等多个学科交叉融合的课程,对其的学习掌握有助于提高学生处理海量数据和分析问题、解决问题的能力,增强学生的市场竞争力,满足大数据时代下对数据分析人才的需求。
文章结合作者多年的数据挖掘课程教学,从教学改革意义,教学现状出发,从理论教学和实践教学方面展开教学改革探索,给出一些教学改革建议。
关键词:数据挖掘 案例分析 实践教学中图分类号:G642 文献标识码:A 文章编号:1674-098X(2018)04(c)-0226-02 Abstract: The course of data mining is an intersection course which includes statistics, computer science, and soon. It is helpful to improve the students' ability to deal with mass data and solve problems, enhance their marketcompetitiveness and meet the needs of data analysis talents in the era of large data. Combined with the author's years of data mining course teaching, generated from the significance of teaching reform and the present teaching situation, this paper explores the teaching reform from the aspects of theoretical and practical teaching, and gives some teaching reform suggestions.Key Words: Data mining; Case analysis; Practice teaching随着计算机技术的飞速发展和大数据时代的到来,人们可以便捷快速地搜集到海量数据信息,对其的深度挖掘和合理有效运用是政府部门、企事业单位当前的迫切需求。
《数据挖掘研究现状及发展趋势》篇一一、引言数据挖掘(Data Mining)是一门综合了统计学、机器学习、数据库技术等多个学科的交叉学科,它旨在从大量数据中提取有价值的信息和知识。
随着信息技术的快速发展,数据挖掘技术已经成为了许多领域的重要研究课题。
本文将探讨数据挖掘的当前研究现状以及其未来的发展趋势。
二、数据挖掘的研究现状1. 国内外研究现状国内在数据挖掘领域的研究起步较晚,但近年来发展迅速。
国内学者在数据挖掘算法、应用领域等方面取得了许多重要成果。
同时,政府和企业对数据挖掘的重视程度不断提高,推动了相关领域的发展。
国外在数据挖掘领域的研究起步较早,已经形成了较为完善的理论体系和实际应用。
许多国际知名的学术会议和期刊都设有数据挖掘专区,为研究者提供了交流和学习的平台。
2. 主要研究方向目前,数据挖掘的主要研究方向包括分类、聚类、关联规则挖掘、时序分析等。
分类和聚类是数据挖掘中最常用的两种方法,用于对数据进行分类和分组。
关联规则挖掘则是从大量数据中找出项集之间的关联关系。
时序分析则主要用于对时间序列数据进行预测和分析。
此外,还有一些新兴的研究方向,如深度学习在数据挖掘中的应用等。
三、数据挖掘的应用领域数据挖掘的应用领域非常广泛,包括金融、医疗、电商、物流等众多领域。
在金融领域,数据挖掘可以用于风险评估、欺诈检测等;在医疗领域,可以用于疾病诊断、患者管理等方面;在电商和物流领域,可以用于推荐系统、路线规划等。
此外,数据挖掘还可以应用于能源、农业等领域。
四、数据挖掘的发展趋势1. 技术发展随着技术的不断发展,数据挖掘将更加注重人工智能和机器学习技术的应用。
深度学习等新兴技术将进一步推动数据挖掘的发展,使其能够处理更加复杂的数据和提取更加有价值的信息。
同时,随着云计算和大数据技术的发展,数据挖掘将更加注重数据的实时性和高效性。
2. 跨学科融合未来,数据挖掘将更加注重跨学科融合。
与统计学、机器学习、数据库技术等学科的交叉融合将更加紧密,形成更加完善的理论体系和实际应用。
教育部第一批大数据管理与应用专业全文共四篇示例,供读者参考第一篇示例:随着信息化和数字化的深入发展,大数据技术在各行各业的应用越来越广泛,也催生了大数据管理与应用专业的兴起。
为了满足社会对大数据人才的需求,教育部在最近推出了第一批大数据管理与应用专业。
这些专业的设立将为培养专业人才、推动大数据产业发展提供积极的支持。
本文将就教育部第一批大数据管理与应用专业进行详细介绍。
教育部第一批大数据管理与应用专业是在当前大数据技术和产业发展的背景下设立的。
大数据管理与应用专业旨在培养适应大数据技术发展和产业需求的高级复合型专业人才。
专业课程设置广泛,内容涵盖了统计学、数据挖掘、数据分析、大数据管理与应用等领域,注重理论与实践的结合,注重培养学生的数据分析和处理能力。
通过系统学习大数据管理与应用专业的理论知识和实践技能,学生将具备运用大数据技术解决实际问题的能力,适应大数据产业发展的需求。
教育部第一批大数据管理与应用专业的培养目标主要包括:培养具有扎实的大数据专业知识和技能,具有跨学科背景和国际视野的高级专业人才;培养具备较强的分析和解决问题的能力,能够在大数据管理与应用领域从事相关工作;培养具备创新和实践能力,能够在大数据管理与应用领域应用新技术、新方法解决实际问题的高级专业人才。
通过培养目标的设定,教育部第一批大数据管理与应用专业旨在为学生提供全方面、多层次的大数据管理与应用专业人才培养。
教育部第一批大数据管理与应用专业将充分借鉴国内外大数据管理与应用领域的先进理念和技术手段,注重培养学生的实际操作能力。
在教学过程中,将重视课程内容与行业需求的结合,引入国内外优秀大数据案例和企业实践,开设实践教学环节,鼓励学生积极参与各类实践和创新项目。
大数据管理与应用专业还将鼓励学生积极参与科研学术活动,培养学生的科研兴趣和创新能力,为学生今后的发展奠定坚实基础。
教育部第一批大数据管理与应用专业的设置将为大数据管理与应用领域的人才培养提供更加全面的支持。
统计学和数据挖掘:交叉学科摘要:统计学和数据挖掘有很多共同点,但与此同时它们也有很多差异。
本文讨论了两门学科的性质,重点论述它们的异同。
关键词:统计学知识发现1.简介统计学和数据挖掘有着共同的目标:发现数据中的结构。
事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。
这是一个不切合实际的看法。
因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。
统计学和数据挖掘研究目标的重迭自然导致了迷惑。
事实上,有时候还导致了反感。
统计学有着正统的理论基础(尤其是经过本世纪的发展),而现在又出现了一个新的学科,有新的主人,而且声称要解决统计学家们以前认为是他们领域的问题。
这必然会引起关注。
更多的是因为这门新学科有着一个吸引人的名字,势必会引发大家的兴趣和好奇。
把“数据挖掘”这个术语所潜在的承诺和“统计学”作比较的话,统计的最初含义是“陈述事实”,以及找出枯燥的大量数据背后的有意义的信息。
当然,统计学的现代的含义已经有很大不同的事实。
而且,这门新学科同商业有特殊的关联(尽管它还有科学及其它方面的应用)。
本文的目的是逐个考察这两门学科的性质,区分它们的异同,并关注与数据挖掘相关联的一些难题。
首先,我们注意到“数据挖掘”对统计学家来说并不陌生。
例如,Everitt定义它为:“仅仅是考察大量的数据驱动的模型,从中发现最适合的”。
统计学家因而会忽略对数据进行特别的分析,因为他们知道太细致的研究却难以发现明显的结构。
尽管如此,事实上大量的数据可能包含不可预测的但很有价值的结构。
而这恰恰引起了注意,也是当前数据挖掘的任务。
2.统计学的性质试图为统计学下一个太宽泛的定义是没有意义的。
尽管可能做到,但会引来很多异议。
相反,我要关注统计学不同于数据挖掘的特性。
差异之一同上节中最后一段提到的相关,即统计学是一门比较保守的学科,目前有一种趋势是越来越精确。
当然,这本身并不是坏事,只有越精确才能避免错误,发现真理。
但是如果过度的话则是有害的。
这个保守的观点源于统计学是数学的分支这样一个看法,我是不同意这个观点的(参见【15】,【9】,【14】,【2】,【3】)尽管统计学确实以数学为基础(正如物理和工程也以数学为基础,但没有被认为是数学的分支),但它同其它学科还有紧密的联系。
数学背景和追求精确加强了这样一个趋势:在采用一个方法之前先要证明,而不是象计算机科学和机器学习那样注重经验。
这就意味着有时候和统计学家关注同一问题的其它领域的研究者提出一个很明显有用的方法,但它却不能被证明(或还不能被证明)。
统计杂志倾向于发表经过数学证明的方法而不是一些特殊方法。
数据挖掘作为几门学科的综合,已经从机器学习那里继承了实验的态度。
这并不意味着数据挖掘工作者不注重精确,而只是说明如果方法不能产生结果的话就会被放弃。
正是统计文献显示了(或夸大了)统计的数学精确性。
同时还显示了其对推理的侧重。
尽管统计学的一些分支也侧重于描述,但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下如何去推断总体。
当然这也常常是数据挖掘所关注的。
下面我们会提到数据挖掘的一个特定属性就是要处理的是一个大数据集。
这就意味着,由于可行性的原因,我们常常得到的只是一个样本,但是需要描述样本取自的那个大数据集。
然而,数据挖掘问题常常可以得到数据总体,例如关于一个公司的所有职工数据,数据库中的所有客户资料,去年的所有业务。
在这种情形下,推断就没有价值了(例如,年度业务的平均值),因为观测到的值也就是估计参数。
这就意味着,建立的统计模型可能会利用一系列概率表述(例如,一些参数接近于0,则会从模型中剔除掉),但当总体数据可以获得的话,在数据挖掘中则变得毫无意义。
在这里,我们可以很方便的应用评估函数:针对数据的足够的表述。
事实是,常常所关注的是模型是否合适而不是它的可行性,在很多情形下,使得模型的发现很容易。
例如,在寻找规则时常常会利用吻合度的单纯特性(例如,应用分支定理)。
但当我们应用概率陈述时则不会得到这些特性。
统计学和数据挖掘部分交迭的第三个特性是在现代统计学中起核心作用的“模型”。
或许“模型”这个术语更多的含义是变化。
一方面,统计学模型是基于分析变量间的联系,但另一方面这些模型关于数据的总体描述确实没有道理的。
关于信用卡业务的回归模型可能会把收入作为一个独立的变量,因为一般认为高收入会导致大的业务。
这可能是一个理论模型(尽管基于一个不牢靠的理论)。
与此相反,只需在一些可能具有解释意义的变量基础上进行逐步的搜索,从而获得一个有很大预测价值的模型,尽管不能作出合理的解释。
(通过数据挖掘去发现一个模型的时候,常常关注的就是后者)。
还有其它方法可以区分统计模型,但在这里我将不作探讨。
对此可参见【10】。
这里我想关注的是,现代统计学是以模型为主的。
而计算,模型选择条件是次要的,只是如何建立一个好的模型。
但在数据挖掘中,却不完全是如此。
在数据挖掘中,准则起了核心的作用。
(当然在统计学中有一些以准则为中心的独立的特例。
Gifi的关于学校的非线性多变量分析就是其中之一。
例如,Gifi说,在本书中我们持这样的观点,给定一些最常用的MV A(多变量分析)问题,既可以从模型出发也可以技术出发。
正如我们已经在1.1节所看到的基于模型的经典的多变量统计分析,……然而,在很多情形下,模型的选择并不都是显而易见的,选择一个合适的模型是不可能的,最合适的计算方法也是不可行的。
在这种情形下,我们从另外一个角度出发,应用设计的一系列技术来回答MV A问题,暂不考虑模型和最优判别的选择。
相对于统计学而言,准则在数据挖掘中起着更为核心的作用并不奇怪,数据挖掘所继承的学科如计算机科学及相关学科也是如此。
数据集的规模常常意味着传统的统计学准则不适合数据挖掘问题,不得不重新设计。
部分地,当数据点被逐一应用以更新估计量,适应性和连续性的准则常常是必须的。
尽管一些统计学的准则已经得到发展,但更多的应用是机器学习。
(正如“学习”所示的那样)很多情况下,数据挖掘的本质是很偶然的发现非预期但很有价值的信息。
这说明数据挖掘过程本质上是实验性的。
这和确定性的分析是不同的。
(实际上,一个人是不能完全确定一个理论的,只能提供证据和不确定的证据。
)确定性分析着眼于最适合的模型-建立一个推荐模型,这个模型也许不能很好的解释观测到的数据。
很多,或许是大部分统计分析提出的是确定性的分析。
然而,实验性的数据分析对于统计学并不是新生事务,或许这是统计学家应该考虑作为统计学的另一个基石,而这已经是数据挖掘的基石。
所有这些都是正确的,但事实上,数据挖掘所遇到的数据集按统计标准来看都是巨大的。
在这种情况下,统计工具可能会失效:百万个偶然因素可能就会使其失效。
(【11】中包含例子)如果数据挖掘的主要目的是发现,那它就不关心统计学领域中的在回答一个特定的问题之前,如何很好的搜集数据,例如实验设计和调查设计。
数据挖掘本质上假想数据已经被搜集好,关注的只是如何发现其中的秘密。
3.数据挖掘的性质由于统计学基础的建立在计算机的发明和发展之前,所以常用的统计学工具包含很多可以手工实现的方法。
因此,对于很多统计学家来说,1000个数据就已经是很大的了。
但这个“大”对于英国大的信用卡公司每年350,000,000笔业务或AT&T每天200,000,000个长途呼叫来说相差太远了。
很明显,面对这么多的数据,则需要设计不同于那些“原则上可以用手工实现”的方法。
这意味这计算机(正是计算机使得大数据可能实现)对于数据的分析和处理是关键的。
分析者直接处理数据将变得不可行。
相反,计算机在分析者和数据之间起到了必要的过滤的作用。
这也是数据挖掘特别注重准则的另一原因。
尽管有必要,把分析者和数据分离开很明显导致了一些关联任务。
这里就有一个真正的危险:非预期的模式可能会误导分析者,这一点我下面会讨论。
我不认为在现代统计中计算机不是一个重要的工具。
它们确实是,并不是因为数据的规模。
对数据的精确分析方法如bootstrap方法、随机测试,迭代估计方法以及比较适合的复杂的模型正是有了计算机才是可能的。
计算机已经使得传统统计模型的视野大大的扩展了,还促进了新工具的飞速发展。
下面来关注一下歪曲数据的非预期的模式出现的可能性。
这和数据质量相关。
所有数据分析的结论依赖于数据质量。
GIGO的意思是垃圾进,垃圾出,它的引用到处可见。
一个数据分析者,无论他多聪明,也不可能从垃圾中发现宝石。
对于大的数据集,尤其是要发现精细的小型或偏离常规的模型的时候,这个问题尤其突出。
当一个人在寻找百万分之一的模型的时候,第二个小数位的偏离就会起作用。
一个经验丰富的人对于此类最常见的问题会比较警觉,但出错的可能性太多了。
此类问题可能在两个层次上产生。
第一个是微观层次,即个人记录。
例如,特殊的属性可能丢失或输错了。
我知道一个案例,由于挖掘者不知道,丢失的数据被记录为99而作为真实的数据处理。
第二个是宏观层次,整个数据集被一些选择机制所歪曲。
交通事故为此提供了一个好的示例。
越严重的、致命的事故,其记录越精确,但小的或没有伤害的事故的记录却没有那么精确。
事实上,很高比例的数据根本没有记录。
这就造成了一个歪曲的映象-可能会导致错误的结论。
统计学很少会关注实时分析,然而数据挖掘问题常常需要这些。
例如,银行事务每天都会发生,没有人能等三个月得到一个可能的欺诈的分析。
类似的问题发生在总体随时间变化的情形。
我的研究组有明确的例子显示银行债务的申请随时间、竞争环境、经济波动而变化。
至此,我们已经论述了数据分析的问题,说明了数据挖掘和统计学的差异,尽管有一定的重迭。
但是,数据挖掘者也不可持完全非统计的观点。
首先来看一个例子:获得数据的问题。
统计学家往往把数据看成一个按变量交叉分类的平面表,存储于计算机等待分析。
如果数据量较小,可以读到内存,但在许多数据挖掘问题中这是不可能的。
更糟糕的是,大量的数据常常分布在不同的计算机上。
或许极端的是,数据分布在全球互联网上。
此类问题使得获得一个简单的样本不大可能。
(先不管分析“整个数据集”的可能性,如果数据是不断变化的这一概念可能是不存在的,例如电话呼叫)当描述数据挖掘技术的时候,我发现依据以建立模型还是模式发现为目的可以很方便的区分两类常见的工具。
我已经提到了模型概念在统计学中的核心作用。
在建立模型的时候,尽量要概括所有的数据,以及识别、描述分布的形状。
这样的“全”模型的例子如对一系列数据的聚类分析,回归预测模型,以及基于树的分类法则。
相反,在模式发现中,则是尽量识别小的(但不一定不重要)偏差,发现行为的异常模式。
例如EEG轨迹中的零星波形、信用卡使用中的异常消费模式,以及不同于其它特征的对象。