数据挖掘作业
- 格式:docx
- 大小:154.81 KB
- 文档页数:10
大连理工大学22春“计算机科学与技术”《数据挖掘》作业考核题库高频考点版(参考答案)一.综合考核(共50题)1.逗号分隔数值的存储格式叫做csv格式,csv格式一般用来表示二维数据。
()A.正确B.错误参考答案:A2.以下关于Python组合数据类型描述错误的是()。
A.序列类型可以通过序号访问元素,元素之间不存在先后关系B.组合数据类型可以分为3类序列类型、集合类型和映射类型C.Python组合数据类型能够将多个同类型或者不同类型的数据组织起来,通过单一的表示使数据操作更有序、更容易D.Python中字符串、元组和列表都是序列类型参考答案:A3.函数用于从控制台输入数据,print函数用于将数据输出到控制台显示。
()A.正确B.错误参考答案:A4.函数的名称可以任意字符组合形成的。
()A.正确B.错误参考答案:BA.正确B.错误参考答案:A6.Python中的注释是为了让计算机更能理解程序表达的意思。
()A.正确B.错误参考答案:B7.程序设计语言中保留字也称为关键字,指被语言内部定义并保留使用的标识符。
()A.正确B.错误参考答案:A8.下面不能用来作为变量名称的是()。
A.listB._1abC.notD.a1b2参考答案:C9.以下那个关键字不是异常处理语句的关键字()。
A.elifB.exceptC.tryD.finally参考答案:A组合数据类型可以分为三类:序列类型、集合类型和映射类型。
()A.正确B.错误参考答案:A11.Python文件的后缀名是()。
A.pyB.pdfC.pngD.pyl参考答案:A12.定义和使用函数的主要原因是函数执行速度更快。
()A.正确B.错误参考答案:B13.下列选项不属于函数的作用的是()。
A.复用代码B.降低编程复杂度C.提高代码的执行速度D.增强代码的可读性参考答案:C14.以下关于Python组合数据类型描述错误的是()。
A.序列类型可以通过序号访问元素,元素之间不存在先后关系B.组合数据类型可以分为3类:序列类型、集合类型和映射类型C.Python组合数据类型能够将多个同类型或者不同类型的数据组织起来,通过单一的表示使数据操参考答案:A15.以下选项对Python文件操作描述错误的是()。
《数据挖掘》作业第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:(B )A、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?(D )A、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B )A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题(1)什么是数据挖掘?答:数据挖掘是指从大量数据中提取或“挖掘”知识。
第5章关联分析5.1 列举关联规则在不同领域中应用的实例。
5.2 给出如下几种类型的关联规则的例子,并说明它们是否是有价值的。
(a)高支持度和高置信度的规则; (b)高支持度和低置信度的规则; (c)低支持度和低置信度的规则; (d)低支持度和高置信度的规则。
5.3 数据集如表5-14所示:(a) 把每一个事务作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。
(b) 利用(a)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。
置信度是一个对称的度量吗?(c) 把每一个用户购买的所有商品作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。
(d) 利用(b)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。
置信度是一个对称的度量吗?5.4 关联规则是否满足传递性和对称性的性质?举例说明。
5.5 Apriori 算法使用先验性质剪枝,试讨论如下类似的性质 (a) 证明频繁项集的所有非空子集也是频繁的(b) 证明项集s 的任何非空子集s ’的支持度不小于s 的支持度(c) 给定频繁项集l 和它的子集s ,证明规则“s’→(l – s’)”的置信度不高于s →(l – s)的置信度,其中s’是s 的子集(d) Apriori 算法的一个变形是采用划分方法将数据集D 中的事务分为n 个不相交的子数据集。
证明D 中的任何一个频繁项集至少在D 的某一个子数据集中是频繁的。
5.6 考虑如下的频繁3-项集:{1, 2, 3},{1, 2, 4},{1, 2, 5},{1, 3, 4},{1, 3, 5},{2, 3, 4},{2, 3, 5},{3, 4, 5}。
(a)根据Apriori 算法的候选项集生成方法,写出利用频繁3-项集生成的所有候选4-项集。
(b)写出经过剪枝后的所有候选4-项集5.7 一个数据库有5个事务,如表5-15所示。
数据分析与挖掘习题第一章作业1.1什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一个骗局吗?数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database, KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。
数据挖掘可以与用户或知识库交互。
并非所有的信息发现任务都被视为数据挖掘。
例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。
虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。
尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。
一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。
但是为什么Data Mining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,Data Mining有下列几项特性:1.处理大量实际数据更强势,且无须太专业的统计背景去使用Data Mining的工具2.数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,Data Mining 的工具更符合企业需求;3. 纯就理论的基础点来看,Data Mining和统计分析有应用上的差别,毕竟Data Mining 目的是方便企业终端用户使用而非给统计学家检测用的。
(c) 解释数据库技术发展如何导致数据挖掘近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。
数据挖掘作业HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】1、给出K D D的定义和处理过程。
KDD的定义是:从大量数据中提取出可信的、新颖的、有用的且可以被人理解的模式的高级处理过程。
因此,KDD是一个高级的处理过程,它从数据集中识别出以模式形式表示的知识。
这里的“模式”可以看成知识的雏形,经过验证、完善后形成知识:“高级的处理过程”是指一个多步骤的处理过程,多步骤之间相互影响反复调整,形成一种螺旋式上升的过程。
KDD的全过程有五个步骤:1、数据选择:确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据;2、数据预处理:一般可能包括消除噪声、推到技术却只数据、消除重复记录、完成数据类型转换等;3、数据转换:其主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数;4、数据挖掘:这一阶段包括确定挖掘任务/目的、选择挖掘方法、实施数据挖掘;5、模式解释/评价:数据挖掘阶段发现出来的模式,经过用户或机器的评价,可能存在冗余或无关的模式,需要剔除;也有可能模式不满足用户的要求,需要退回到整个发现阶段之前,重新进行KDD过程。
2、阐述数据挖掘产生的背景和意义。
数据挖掘产生的背景:随着信息科技的进步以及电子化时代的到来,人们以更快捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量以指数方式增长。
据粗略估计,一个中等规模企业每天要产生100MB以上的商业数据。
而电信、银行、大型零售业每天产生的数据量以TB来计算。
人们搜集的数据越来越多,剧增的数据背后隐藏着许多重要的信息,人们希望对其进行更高层次的分析,以便更好的利用这些数据。
先前的数据库系统可以高效的实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系与规则,无法根据现有的数据来预测未来的发展趋势。
缺乏挖掘数据背后隐藏的知识的手段。
数据挖掘大作业例子1. 超市购物数据挖掘呀!想想看,如果把超市里每个顾客的购买记录都分析一遍,那岂不是能发现很多有趣的事情?比如说,为啥周五晚上大家都爱买啤酒和薯片呢,是不是都打算周末在家看剧呀!2. 社交媒体情感分析这个大作业超有意思哦!就像你能从大家发的文字里看出他们今天是开心还是难过,那简直就像有了读心术一样神奇!比如看到一堆人突然都在发伤感的话,难道是发生了什么大事情?3. 电商用户行为挖掘也很棒呀!通过分析用户在网上的浏览、购买行为,就能知道他们喜欢什么、不喜欢什么,这难道不是很厉害吗?就像你知道了朋友的喜好,能给他推荐最适合的礼物一样!4. 交通流量数据分析呢!想象一下,了解每个路口的车流量变化,是不是就能更好地规划交通啦?难道这不像是给城市的交通装上了一双明亮的眼睛?5. 医疗数据挖掘更是不得了!能从大量的病例中找到疾病的规律,这简直是在拯救生命啊!难道这不是一件超级伟大的事情吗?比如说能发现某种疾病在特定人群中更容易出现。
6. 金融交易数据挖掘也超重要的呀!可以知道哪些交易有风险,哪些投资更靠谱,那不就像有个聪明的理财顾问在身边吗!就好比能及时发现异常的资金流动。
7. 天气数据与出行的结合挖掘也很有趣呀!根据天气情况来预测大家的出行选择,真是太神奇了吧!难道不是像有了天气预报和出行指南合二为一?8. 音乐喜好数据挖掘呢!搞清楚大家都喜欢听什么类型的音乐,从而能更好地推荐歌曲,这不是能让人更开心地享受音乐吗!好比为每个人定制了专属的音乐播放列表。
9. 电影票房数据挖掘呀!通过分析票房数据就能知道观众最爱看的电影类型,这不是超厉害的嘛!就像知道了大家心里最期待的电影是什么样的。
我觉得数据挖掘真的太有魅力了,可以从各种看似普通的数据中发现那么多有价值的东西,真是让人惊叹不已啊!。
数据挖掘期末大作业1.数据挖掘的发展趋势是什么?大数据环境下如何进行数据挖掘。
对于数据挖掘的发展趋势,可以从以下几个方面进行阐述:(1)数据挖掘语言的标准化描述:标准的数据?挖掘语言将有助于数据挖掘的系统化开发。
改进?多个数据挖掘系统和功能间的互操作,促进其在企?业和社会中的使用。
?(2)寻求数据挖掘过程中的可视化方法:可视?化要求已经成为数据挖掘系统中必不可少的技术。
?可以在发现知识的过程中进行很好的人机交互。
?数据的可视化起到了推动人们主动进行知识发现的?作用。
?(3)与特定数据存储类型的适应问题:根据不?同的数据存储类型的特点,进行针对性的研究是目?前流行以及将来一段时间必须面对的问题。
?(4)网络与分布式环境下的KDD问题:随着?Internet的不断发展,网络资源日渐丰富,这就需要?分散的技术人员各自独立地处理分离数据库的工作?方式应是可协作的。
因此,考虑适应分布式与网?络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。
?(5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业?等领域。
由于数据挖掘在处理特定应用问题时存在?局限性,因此,目前的研究趋势是开发针对于特定应?用的数据挖掘系统。
?(6)数据挖掘与数据库系统和Web数据库系?统的集成:数据库系统和Web数据库已经成为信息?处理系统的主流。
2. 从一个3输入、2输出的系统中获取了10条历史数据,另外,最后条数据是系统的输入,不知道其对应的输出。
请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。
首先,打开SQL SERVER 2005数据库软件,然后在界面上右键单击树形图中的“数据库”标签,在弹出的快捷菜单中选择“新建数据库”命令,并命名数据库的名称为YxqDatabase,单击确定,如下图所示。
然后,在新建的数据库YxqDatabas中,根据题目要求新建表,相应的表属性见下图所示。
数据挖掘课后习题数据挖掘作业1——6第一章绪论1)数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。
1、关系数据库2、数据仓库3、事务数据库4、高级数据库系统和数据库应用如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是 Web 数据信息。
实际生活的例子:①电信行业中利用数据挖掘技术进行客户行为分析, 包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。
③市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。
2)给出一个例子,说明数据挖掘对商务的成功是至关重要的。
该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?以一个百货公司为例,它可以应用数据挖掘来帮助其进行目标市场营销。
运用数据挖掘功能例如关联规则挖掘,百货公司可以根据销售记录挖掘出强关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时,很有可能去购买的,从而促使百货公司进行目标市场营销。
数据查询处理主要用于数据或信息检索,没有发现关联规则的方法.同样地,简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据。
第二章数据仓库和OLAP技术1)简述数据立方体的概念、多维数据模型上的OLAP操作。
●数据立方体数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个维度.数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据。
●多维数据模型上的OLAP操作a)上卷(roll—up):汇总数据通过一个维的概念分层向上攀升或者通过维规约b)下卷(drill—down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现c)切片和切块(slice and dice)投影和选择操作d)转轴(pivot)立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列2)OLAP多维分析如何辅助决策?举例说明。
南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-2一、单选题共20题,40分1、( )用替代的、较小的数据表示形式替换原数据。
A维归约B数量归约C离散D聚集【南开】答案是:B2、只有非零值才重要的二元属性被称作( )。
A计数属性B离散属性C非对称的二元属性D对称属性【南开】答案是:C3、职位可以按顺序枚举,对于教师有:助教、讲师、副教授、教授。
职位属性是( )。
A标称属性B序数属性C数值属性D二元属性【南开】答案是:B4、( )去掉数据中的噪声,这类技术包括分箱、回归和聚类。
A光滑B聚集C规范化D属性构造【南开】答案是:A5、在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为( )。
A基于类的排序方案B基于规则的排序方案C基于度量的排序方案D基于规格的排序方案【南开】答案是:B6、分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
如:4-分位数是( )个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。
A1B2C3D4【南开】答案是:C7、决策树学习:决策树算法对数据处理过程中,将数据按( )结构分成若干分枝形成决策树,从根到树叶的每条路径创建一个规则。
A树状B网状C星形D雪花形【南开】答案是:A8、以下属于可伸缩聚类算法的是( )。
ACUREBDENCLUECCLIQUEDOPOSSUM【南开】答案是:A9、( )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。
AMIN(单链)BMAX(全链)C组平均DWard方法【南开】答案是:C10、如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为( )。
A无序规则B穷举规则C互斥规则D有序规则【南开】答案是:C11、( )是KDD。
A数据挖掘与知识发现B领域知识发现C文档知识发现D动态知识发现【南开】答案是:A12、在有关数据仓库测试,下列说法不正确的是( )。
数据挖掘作业答案第二章数据准备5.推出在[-1,1]区间上的数据的最小-最大标准化公式。
解:标准化相当于按比例缩放,假如将在[minA,maxA]间的属性A的值v映射到区间[new_minA,new_maxA],根据同比关系得:(v-minA)/(v’-new_minA)=(maxA-minA)/(new_maxA-new_minA)化简得:v’=(v-minA)* (new_maxA-new_minA)/ (maxA-minA)+ new_minA6.已知一维数据集X={-5.0 , 23.0 , 17.6 , 7.23 , 1.11},用下述方法对其进行标准化:a) 在[-1,1]区间进行小数缩放。
解:X’={-0.050 ,0.230 ,0.176 ,0.0723 ,0.0111}b) 在[0,1]区间进行最小-最大标准化。
解:X’={0 , 1 , 0.807 ,0.437 ,0.218 }c) 在[-1,1]区间进行最小-最大标准化。
解:X’={-1 , 1 , 0.614 , -0.126 , 0.564}d) 标准差标准化。
解:mean=8.788 sd=11.523X’={-1.197 , 1.233 , 0.765 , -0.135 , -0.666}e) 比较上述标准化的结果,并讨论不同技术的优缺点。
解:小数缩放标准化粒度过大(以10为倍数),但计算简单;最小-最大值标准化需要搜索整个数据集确定最小最大数值,而且最小最大值的专家估算可能会导致标准化值的无意识的集中。
标准差标准化对距离测量非常效,但会把初始值转化成了未被认可的形式。
8.已知一个带有丢失值的四维样本。
X1={0,1,1,2}X2={2,1,*,1}X3={1,*,*,-1}X4={*,2,1,*}如果所有属性的定义域是[0,1,2],在丢失值被认为是“无关紧要的值”并且都被所给的定义域的所有可行值替换的情况下,“人工”样本的数量是多少?解:X1 “人工”样本的数量为 1X2 “人工”样本的数量为 3X3 “人工”样本的数量为9X4 “人工”样本的数量为9所以“人工”样本的数量为1×3×9×9=24310.数据库中不同病人的子女数以矢量形式给出:C={3,1,0,2,7,3,6,4,-2,0,0,10,15,6}a)应用标准统计参数——均值和方差,找出C中的异常点:mean=3.9286 sd=4.4153在3个标准差下的阈值:阈值=均值±3*标准差=3.928±3*4.4153=[-9.318,17.174]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,17.174]C中的异常点有:-2b)在2个标准差下的阈值:阈值=均值±2*标准差=3.928±2*4.4153=[-4.903,12.758]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,12.758]C中的异常点有:-2, 1511.已知的三维样本数据集X:X=[{1,2,0},{3,1,4},{2,1,5},{0,1,6},{2,4,3},{4,4,2},{5,2,1},{7,7,7},{0,0,0},{3,3,3}]。
数据挖掘第二讲习题作业4月8号交作业第二讲数据预处理习题:1、将下列属性分类成二元的、离散的或连续的,并将它们分类成定性的(标称的或序数的),或定量的(区间的或比率的)。
某些情况下可能有多种解释,因此如果你认为存在二义性,简略地给出你的理由例如:年龄。
回答:离散的,定量的、比率的。
a奥运会上授予的铜牌、银牌和金牌b 衣服的尺寸大小c用每立方厘米克表示的物质密度d班级学生人数e教室的门牌号注:二元的、离散的或连续的的分类与后者不同,是根据值的个数来描述的,离散属性表示有有限或无限可数个值,可能是分类的也可能是数值的;二元属性是离散属性的特殊情况,只有两个值;连续属性是取实数值的属性。
2、已知一维数据集X={-5.0,23.0,17.6,7.23,1.11}用下属方法对其进行标准化a在[-1,1]区间进行小数缩放b在[0,1]区间进行最小-最大标准化c标准差标准化。
比较上述标准化结果,并讨论不同技术的优缺点5、下面是一个超市某种商品连续24个月的销售数据(百元):21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17分别使用等宽、等频、和自定义区间方法对数据分箱(注:箱数与区间视数据情况,自己确定),做出各种分箱方法得到的直方图。
6、对上提中分箱后的数据采用平均值,边界值或中值等方法进行平滑。
注:对上述三种分箱后的结果,分别选用某种平滑方法即可。
7、用等宽分箱技术对排序后的数据集D=(0,0,2,2,2,4,8,8,8,12,12,12,12,15,15,16,16,16,16,21,21,21,25,25,25,25,25,28,28,29,34,34,34,34,37,37,44,44,44,58,58,58,58,58,63,63,66,66,66,69,74,74,74,78,78)进行离散化,使得每箱宽度不大于5,形成概念分层。
Weka数据挖掘期末大作业是一个非常重要的任务。
它涉及到许多数据挖掘技术,可以帮助学生们了解数据挖掘的核心概念,以及如何应用这些技术来解决实际问题。
首先,学生需要了解Weka数据挖掘工具,包括其特点和功能。
Weka是一个开源的数据挖掘工具,它提供了各种有用的算法,可以帮助学生们进行数据分析,比如分类、聚类和关联分析。
Weka还有一个灵活的用户界面,可以让学生们轻松地查看和编辑数据。
其次,学生还需要了解如何通过Weka来完成期末大作业。
学生可以使用Weka的GUI工具,轻松地训练和评估机器学习模型。
另外,学生还可以使用Weka的API,在Java或其他编程语言中编写自己的算法。
第三,学生还需要考虑如何将实际问题转换为可以在Weka中解决的问题。
这要求学生们了解数据挖掘的基本概念,如数据预处理、特征选择、模型训练和评估。
最后,期末大作业还需要学生提交一份报告,说明他们在数据挖掘中学到的内容。
报告中需要包括算法的细节,以及实验结果分析,以便说明学生们是如何使用Weka解决实际问题的。
总之,Weka数据挖掘期末大作业是一个很重要的任务,可以帮助学生们更好地理解数据挖掘技术,以及如何将其应用于实际问题。
大工21春《数据挖掘》在线作业3试卷总分:100 得分:100一、单选题 (共 10 道试题,共 50 分)1.下面变量名称命名合法的是:()<-A.->_tempStr<-B.->is<-C.->2018python<-D.->123Python【-参考.选择-】:A2.下面不能用来作为变量名称的是:()<-A.->list<-B.->_1ab<-C.->not<-D.->a1b2【-参考.选择-】:C3.下列标识符中哪个是不合法的?()<-A.->40temp<-B.->tempStr<-C.->list<-D.->_124【-参考.选择-】:A4.遍历循环for语句中,不可以遍历的结构是()<-A.->字符串<-B.->元组<-C.->数字类型<-D.->字典【-参考.选择-】:C5.python中内置了round函数来进行小数的四舍五入操作,请选择round(3.1415923, 4)对应的结果:()<-A.->3.142<-B.->3.14<-C.->3.1416<-D.->3.0【-参考.选择-】:C6.以下选项中描述错误的是:()<-A.->Python是解释性语言<-B.->Python是跨平台语言<-C.->Python是脚本语言。
大工19秋《数据挖掘》在线作业2试卷总分:100 得分:100一、单选题 (共 10 道试题,共 50 分)1.程序语句len(str('3.1415')) 的输出结果为()A.7B.6C.5D.4答案:B2.关于Python中异常处理,以下描述错误的是()A.编程语言中的异常和错误完全是相同的概念B.程序异常发生后经过异常处理,程序可以继续执行C.异常语句可以与else和finally关键字配合使用D.Python通过try、except等关键字提供异常处理功能答案:A3.以下那个关键字不是异常处理语句的关键字()A.tryB.finallyC.exceptD.elif答案:D4.以下选项中不是Python关键字的是()A.whileB.inC.exceptD.do答案:D5.以下选项中用来捕获特定类型异常的关键字是()A.whileB.passC.exceptD.do答案:C6.以下不属于Python的关键字的是()A.returnB.markC.globalD.del答案:B7.Python中定义函数的关键字是()A.functionB.defuncC.defineD.def答案:D8.以下选项对Python文件操作描述错误的是()A.文件使用结束后要用close()方法关闭,释放文件的使用授权B.当文件以文本方式打开时,读写会按照字节流方式进行C.Python能通过内置的open()函数打开一个文件进行操作D.Python能以文本和二进制两种方式处理文件答案:B9.下列不是Python对文件进行读操作的方法是()A.readtextB.readlinesC.readlineD.read答案:A10.Python中操作集合时,可以使用哪个函数来对集合进行增加元素的操作()A.putB.popC.appendD.add答案:D二、判断题 (共 10 道试题,共 50 分)11.函数的名称可以任意字符组合形成的。
您的本次作业分数为:100分单选题1.下列几种数据挖掘功能中,()被广泛的用于购物篮分析。
∙ A 关联分析∙ B 分类和预测∙ C 聚类分析∙ D 演变分析单选题2.以下哪个指标不是表示对象间的相似度和相异度?∙ A Euclidean距离∙ B Manhattan距离∙ C Eula距离∙ D Minkowski距离单选题3.进行数据规范化的目的是()。
∙ A 去掉数据中的噪声∙ B 对数据进行汇总和聚集∙ C 使用概念分层,用高层次概念替换低层次“原始”数据∙ D 将属性按比例缩放,使之落入一个小的特定区间单选题4.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?∙ A 数据清理∙ B 数据集成∙ C 数据变换∙ D 数据归约单选题5.下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能。
∙ A 选择任务相关的数据∙ B 选择要挖掘的知识类型∙ C 模式的兴趣度度量∙ D 模式的可视化表示单选题6.下列几种数据挖掘功能中,()被广泛的用于购物篮分析。
∙ A 关联分析∙ B 分类和预测∙ C 聚类分析∙ D 演变分析单选题7.哪种数据变换的方法将数据沿概念分层向上汇总?∙ A 平滑∙ B 聚集∙ C 数据概化∙ D 规范化单选题8.下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性?∙ A 空间填充曲线∙ B 散点图矩阵∙ C 平行坐标∙ D 圆弓分割单选题9.下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析。
∙ A 关联分析∙ B 分类和预测∙ C 聚类分析∙ D 演变分析单选题10.存放最低层汇总的方体称为()。
∙ A 顶点方体∙ B 方体的格∙ C 基本方体∙ D 维单选题11.规则:age(X,”19-25”) ∧buys(X, “popcorn”) => buys(X, “coke”)是一个()。
∙ A 单维关联规则∙ B 多维关联规则∙ C 混合维关联规则∙ D 不是一个关联规则单选题12.置信度(confidence)是衡量兴趣度度量()的指标。
1、给出K D D的定义和处理过程。
KDD的定义是:从大量数据中提取出可信的、新颖的、有用的且可以被人理解的模式的高级处理过程。
因此,KDD是一个高级的处理过程,它从数据集中识别出以模式形式表示的知识。
这里的“模式”可以看成知识的雏形,经过验证、完善后形成知识:“高级的处理过程”是指一个多步骤的处理过程,多步骤之间相互影响反复调整,形成一种螺旋式上升的过程。
KDD的全过程有五个步骤:1、数据选择:确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据;2、数据预处理:一般可能包括消除噪声、推到技术却只数据、消除重复记录、完成数据类型转换等;3、数据转换:其主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数;4、数据挖掘:这一阶段包括确定挖掘任务/目的、选择挖掘方法、实施数据挖掘;5、模式解释/评价:数据挖掘阶段发现出来的模式,经过用户或机器的评价,可能存在冗余或无关的模式,需要剔除;也有可能模式不满足用户的要求,需要退回到整个发现阶段之前,重新进行KDD过程。
2、阐述数据挖掘产生的背景和意义。
?数据挖掘产生的背景:随着信息科技的进步以及电子化时代的到来,人们以更快捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量以指数方式增长。
据粗略估计,一个中等规模企业每天要产生100MB以上的商业数据。
而电信、银行、大型零售业每天产生的数据量以TB来计算。
人们搜集的数据越来越多,剧增的数据背后隐藏着许多重要的信息,人们希望对其进行更高层次的分析,以便更好的利用这些数据。
先前的数据库系统可以高效的实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系与规则,无法根据现有的数据来预测未来的发展趋势。
缺乏挖掘数据背后隐藏的知识的手段。
导致了“数据爆炸但知识贫乏”的现象。
于是人们开始提出“要学会选择、提取、抛弃信息”,并且开始考虑:如何才能不被信息淹没?如何从中及时发现有用的知识、提高信息利用率?如何从浩瀚如烟海的资料中选择性的搜集他们认为有用的信息?这给我们带来了另一些头头疼的问题:第一是信息过量,难以消化;第二是信息真假难以辨别;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理?面对这一挑战,面对数量很大而有意义的信息很难得到的状况面对大量繁杂而分散的数据资源,随着计算机数据仓库技术的不断成熟,从数据中发现知识(Knowledge?Discovery?in?Database)及其核心技术——数据挖掘(Data?Mining)便应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘的意义:数据挖掘之所以被称为未来信息处理的骨干技术之一,主要在于它正以一种全新的概念改变着人类利用数据的方式。
在20世纪,数据库技术取得了重大的成果并且得到了广泛的应用。
但是,数据库技术作为一种基本的信息储存和管理方式,仍然是以联机事务处理为核心应用,缺少对决策、分析、预测等高级功能的支持机制。
众所周知,随着硬盘存储容量及的激增以及磁盘阵列的普及,数据库容量增长迅速,数据仓库以及Web等新型数据源出现,联机分析处理、决策支持以及分类、聚类等复杂应用成为必然。
面对这样的挑战,数据挖掘和知识发现技术应运而生,并显现出强大的生命力。
数据挖掘和知识发现使数据处理技术进入了一个更加高级的阶段。
它不仅能对过去的数据进行查询,而且能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地作出决策、预测未来的发展趋势等等。
通过数据挖掘,有价值的知识、规则或更高层次的信息就能够从数据库的相关数据集合中抽取出来,从而使大型数据库作为一个丰富、可靠的资源为知识的提取服务。
3、给出一种关联规则的算法描述,并举例说明。
Apriori算法描述:Apriori算法由Agrawal等人于1993年提出,是最有影响的挖掘布尔关联规则频繁项集的算法,它通过使用递推的方法生成所有频繁项目集。
基本思想是将关联规则挖掘算法的设计分解为两步:(1)找到所有频繁项集,含有?k?个项的频繁项集称为?k-项集。
Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。
首先,出频繁?1-项集的集合。
该集合记作L1。
L1用于找频繁?2-项集的集合L2,而L2用于找L3,如下去,直到不能找到频繁k-项集。
找出每个Lk都需要一次数据库扫描。
为提高频繁项集层产生的效率,算法使用Apriori性质用于压缩搜索空间。
(2)使用第一步中找到的频繁项集产生关联规则。
从算法的基本思想可知,Apriori算法的核心和关键在第一步。
而第一步的关键是如何将Apriori性质用于算法,利用Lk?-?1找Lk。
这也是一个由连接和剪枝组成的两步过程:(1)连接步:为找Lk,通过Lk?-1与自己连接产生候选k-项集的集合。
该候选项集的集合记作Ck。
设l1和l2是Lk?-?1中的项集。
记号li[j]表示li的第j项(例如,l1[k-2]表示l1的倒数第3项)。
为方便计,假定事务或项集中的项按字典次序排序。
执行连接Lk?-??1?Lk?-??1;其中,Lk?-?1的元素是可连接的,如果它们前(k-2)项相同;即Lk?-?1的元素l1和l2是可连接的,如果(l1[1]?=?l2[1])?∧?(l1[2]?=?l2[2])?∧?...?∧?(l1?[k-2]?=?l2?[k-2])?∧?(l1?[k-1]?<?l2?[k-1])。
条件(l1[k-1]?<?l2[k-1])是简单地保证不产生重复。
连接l1和l2产生的结果项集是l1[1]?l1[2]...?l1?[k-1]?l2[k-1]。
(2)剪枝步:Ck是Lk的超集;即,它的成员可以是,也可以不是频繁的,但所有的频繁k-项集都包含在Ck中。
扫描数据库,确定Ck中每个候选的计数,从而确定Lk(即,根据定义,计数值不小于最小支持度计数的所有候选是频繁的,从而属于Lk)。
然而,Ck可能很大,这样所涉及的计算量就很大。
为压缩Ck,可以用以下办法使用Apriori 性质:任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集。
因此,如果一个候选k-项集的(k-1)-子集不在Lk?-?1中,则该候选也不可能是频繁的,从而可以由Ck中删除。
Apriori算法举例:如有如下数据每一行表示一条交易,共有9行,既9笔交易,左边表示交易ID,右边表示商品名称。
最小支持度是22%,那么每件商品至少要出现9*22%=2次才算频繁。
第一次扫描数据库,使得在每条交易中,按商品名称递增排序。
第二次扫描数据,找频繁项集为1的元素有:左边表示商品名称,右边表示出现的次数,都大于阈值2。
在此基础上找频繁项集是2的元素,方法是两两任意组合,第三次扫描数据得到它们出现的次数:此时就有规律性了,在频繁项集为K的元素上找频繁项集为K+1的元素的方法是:在频繁项集为K的项目(每行记录)中,假如共有N行,两两组合,满足两两中前K-1个元素相同,只后一个元素要求前一条记录的商品名称小于后一条记录的商品名称,这样是为了避免重复组合,求它们的并集得到长度为K+1的准频繁项集,那么最多共有Apriori算法种可能的组合,有:想想如果N很大的话,Apriori算法是一个多么庞大的数字,这时就要用到Apriori 的核心了:如果K+1个元素构成频繁项集,那么它的任意K个元素的子集也是频繁项集。
然后将每组K+1个元素的所有长度为K的子集,有Apriori算法中组合,在频繁项集为K的项集中匹配,没有找到则删除,用第一条记录{I1,I2,I3}它的长度为2的频繁项集有:Apriori算法分别是:{I1,I2},{I1,I3},{I2,I3}种情况,幸好这三种情况在频繁项集为2的项集中都找到了。
通过这步过滤,得到的依旧是准频繁项集,它们是:此时第四次扫描数据库,得到真正长度为3的频繁项集是:因为{I1,I2,I4}只出现了1次,小于最小支持度2,删除。
就这个例子而言,它的最大频繁项集只有3,就是{I1,I2,I3}和{I1,I2,I5}。
4、给出一种聚类算法描述,并举例说明。
k-means 算法是一种属于划分方法的聚类算法,通常采用欧氏距离作为2 个样本相似程度的评价指标,其基本思想是:随机选取数据集中的k 个点作为初始聚类中心,根据数据集中的各个样本到k 个中心的距离将其归到距离最小的类中,然后计算所有归到各个类中的样本的平均值,更新每个类中心,直到平方误差准则函数稳定在最小值。
算法步骤:1.为每个聚类确定一个初始聚类中心,这样就有K?个初始聚类中心。
??2.将样本集中的样本按照最小距离原则分配到最邻近聚类???3.使用每个聚类中的样本均值作为新的聚类中心。
?4.重复步骤2.3步直到聚类中心不再变化。
k-means算法举例:数据对象集合S见下表,作为一个聚类分析的二维样本,要求的簇的数量k=2。
(1)选择 , 为初始的簇中心,即 , (2)对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。
对 : 显然,故将 分配给 对于 : 因为,所以将 分配给 对于: 因为,所以将 分配给 更新,得到新簇 和 计算平方误差准则,单个方差为总体平均方差是: (3)计算新的簇的中心。
重复(2)和(3),得到O 1分配给C 1;O 2分配给C 2,O 3分配给C 2 ,O 4分配给C 2,O 5分配给C 1。
更新,得到新簇 和 。
中心为, 。
单个方差分别为总体平均误差是: 由上可以看出,第一次迭代后,总体平均误差值52.25~25.65,显着减小。
由于在两次迭代中,簇中心不变,所以停止迭代过程,算法停止。
5、 给出一种分类的算法描述,并举例说明。
决策树算法是数据挖掘领域的核心分类算法之一,其中ID3算法是最为经典的决策树算法。
ID3算法理论清晰、使用简单、学习能力较强,且构造的决策树平均深度较小,分类速度较快,特别适合处理大规模的学习问题,目前已得到广泛应用。
在ID3决策树归纳方法中,通常是使用信息增益方法来帮助确定生成每个节点时所应采用的合适属性。
这样就可以选择具有最高信息增益(熵减少的程度最大)的属性最为当前节点的测试属性,以便对之后划分的训练样本子集进行分类所需要的信息最小,也就是说,利用该属性进行当前(节点所含)样本集合划分,将会使()10,2O 20,0O ()110,2M O ==()220,0M O ==3O ()13, 2.5dM O ==()23, 1.5d M O ==()()2313,,d M O d M O ≤3O 2C 4O ()14,dM O ==()24,5MO ==()()2414,,d M O d M O ≤4O 5O ()15,5d M O ==()25,d M O ==()()1525,,d M O d M O ≤5O 1C {}115,C O O ={}2234,,C O O O =()())(()222210022052225E ⎡⎤⎤⎡=-+-+-+-=⎣⎣⎦⎦122527.2552.25E E E =+=+=()()()()2,5.2222,2501=++=M {}115,C O O ={}2234,,C O O O =()2,5.21=M ()2 2.17,0M =()())(()222210 2.522 2.552212.5E ⎡⎤⎤⎡=-+-+-+-=⎣⎣⎦⎦得所产生的样本子集中的“不同类别的混合程度”降为最低。