数据采集课后习题答案--马明建
- 格式:ppt
- 大小:556.50 KB
- 文档页数:51
教师的数据技能题库和答案
一、选择题
1.1 单选题
1. 数据挖据的目的是从大量的数据中发现有价值的信息和知识。
以下哪项不是数据挖掘的主要任务?
- A. 分类
- B. 预测
- C. 聚类
- D. 文本挖掘
1.2 多选题
2. 以下哪些工具可以用于数据可视化?
- A. Tableau
- B. Python(matplotlib库)
- C. R语言
- D. Microsoft Excel
二、填空题
3. 在Python中,用于数据分析的常用库有____、____和____。
4. Excel中的“透视表”功能可以用来实现____。
三、判断题
5. 数据清洗是数据挖掘过程中的一个重要步骤,其主要目的是
减少数据中的噪声和不一致性。
___对错
6. 在进行数据挖掘时,我们需要保证数据的质量和完整性,因此,对数据进行清洗和预处理是非常必要的。
___对错
四、简答题
7. 简述数据挖掘的主要任务。
8. 简述数据预处理的主要步骤。
9. 简述如何使用Python进行数据可视化。
五、案例分析题
10. 给定一个学生成绩的数据集,请简述如何使用数据挖掘技术来发现有价值的信息和知识。
1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。
它用表组织数据,采用ER数据模型。
相似:它们都为数据挖掘提供了源数据,都是数据的组合。
1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。
答:特征化是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。
最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。
关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。
例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。
这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。
这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。
数据挖掘智慧树知到课后章节答案2023年下山东建筑大学山东建筑大学第一章测试1.下列属于大数据时代特征的是:答案:非结构化数据越来越多;数据类型越来越复杂;大人群产生了大量数据2.对数据挖掘内涵描述正确的是答案:数据挖掘的对象一般是大量的不完整的数据;挖掘的结果可以是出乎意料的规则和内容3.聚类分析是预测型的数据挖掘,而关联分析是描述型的。
答案:错4.描述“性别”的属性是二元分类属性。
答案:对5.下列是分类型属性的是:答案:信用等级:3(级别为1-5,数值越高信用级别越高);邮政编码:250101 6.区间属性可以计算两个属性之间的倍数。
答案:错7.具有有限个值的属性才是离散属性。
答案:错8.定量属性可以取整数值。
答案:对9.关于连续属性与离散属性,下列说法正确的是:答案:连续属性的比率不一定有意义;连续属性有无限个取值10.连续属性可以进行离散转化成离散属性。
答案:对第二章测试1.和数据库中的数据一样,数据仓库中的数据也可以进行修改和删除。
答案:错2.以下哪项是元数据的包含的内容?答案:数据的更新频率;数据所做的转换;数据元素的含义;数据的来源3.事实表中存储的是维度。
答案:错4.数据仓库的数据是面向主题的,主题与业务系统中的数据库是一一对应的。
答案:错5.下列哪项不是OLAP多维分析操作?答案:透视6.维的层次越高,数据的粒度越大。
答案:对7.在OLAP多维分析操作中,旋转操作不改变数据,只是改变了数据集的展示方位。
答案:对8.星型模型不能表达维度的层次。
答案:对9.OLTP系统中的数据是数据仓库数据的主要来源。
答案:对10.数据仓库中不存储早期细节的数据。
答案:错第三章测试1.Mondrian中Schema是以XML文件的形式定义的。
Cube由维度构建出来的多维空间,是一系列Dimension Measure的集合区域,它们共用一个事实表。
答案:对2.维度表是事实表的一部分。
答案:错3.事实表是维表的一部分。
数据采集与处理技术1-8章课后习题答案马明建第三版第一章为绪论1.1数据采集系统的任务:答:数据采集的任务就是采集传感器输出的模拟信号并转换成计算机能识别的数字信号,然后送入计算机进行相应的计算和处理,得出所需数据。
同时,将计算得到的数据进行显示或打印,以便实现对某些物理量的监视,其总一部分数据还将被生产过程中的计算机控制系统用来控制某些物理量。
(p15)1.2数据采集系统主要实现哪些基本功能?.答:数据采集系统主要实现以下9个方面的基本功能:数据采集;模拟信号处理;数字信不,治疗;开关信号处理;二次数据计算;屏幕显示;数据存储;打印输出;人机接触。
(第15页)1.3简述数据采集系统的基本结构形式,并比较其特点。
答:数据采集系统有两种基本结构形式:一种是微机数据采集系统,另一种是分布式数据采集系统。
微型计算机数据采集系统的特点是:系统结构简单,技术容易实现,满足中小规模数据采集要求;对环境要求不高;价格低廉,系统成本低;可座位集散型数据采集系统的一个基本组成部分;其相关模板和软件都比较齐全,容易构成西欧它能够,便于使用与维修。
分布式数据采集系统的主要特点是:系统适应性强;系统可靠性高;系统具有良好的实时性;对系统硬件要求低;特别适合在恶劣环境下工作。
(第16页)1.4数据采集系统的软件功能模块是如何划分的?各部分都完成哪些功能?答:数据采集系统软件功能模块一般由以下部分组成:(1)模拟信号采集和处理程序。
其主要功能是对模拟量输入信号进行采集、比例变换、滤波处理和二次数据计算,并将数据存储在磁盘中。
(2)数字信号采集与处理程序。
其功能是对数字输入信号进行采集及码制之间的转换。
(3)脉冲信号处理程序。
其功能是对输入的脉冲信号进行电平高低判断和计数。
(4)开关信号处理程序。
其功能是判断开关信号输入状态的变化。
如果发生变化,则执行相应的处理程序。
(5)运行参数设置程序。
其功能是对数据采集系统的运行参数进行设置。
1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。
它用表组织数据,采用ER数据模型。
相似:它们都为数据挖掘提供了源数据,都是数据的组合。
1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。
答:特征化是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。
最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。
关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。
例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。
这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。
这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。
第4章数据采集与清洗习题答案1)请阐述数据采集有哪些方法?(1)系统日志采集许多公司的平台每天会产生大量的日志(一般为流式数据,如搜索引擎的pv,查询等),处理这些日志需要特定的日志系统。
因此日志采集系统的主要工作就是收集业务日志数据供离线和在线的分析系统使用。
这种大数据采集方式可以高效地收集、聚合和移动大量的日志数据,并且能提供可靠的容错性能。
高可用性、高可靠性和可扩展性是日志采集系统的基本特征。
目前常用的开源日志采集平台包含有:Apache Flume、Fluentd、Logstash、Chukwa、Scribe以及Splunk Forwarder等。
这些采集平台大部分采用的是分布式架构,以满足大规模日志采集的需要。
具体的日志采集平台在下一节会介绍。
(2)网络数据采集网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。
目前网络数据采集采用的技术基本上是利用垂直搜索引擎技术的网络蜘蛛(或数据采集机器人)、分词系统、任务与索引系统等技术进行综合运用而完成,并且随着互联网技术的发展和网络海量信息的增长,对信息的获取与分拣会成为一种越来越大的需求。
目前常用的网页爬虫系统有Apache Nutch、Crawler4j、Scrapy等框架。
由于采用多个系统并行抓取数据,这种方式能充分利用机器的计算资源和存储能力,大大提高系统抓取数据的能力,同时大大降低了开发人员的开发速率,使得开发人员可以很快的完成一个数据系统的开发。
(3)数据库采集数据库采集是将实时产生的数据以记录的形式直接写入到企业的数据库中,然后使用特定的数据处理系统进行进一步分析。
目前比较常见的数据库采集主要有MySQL、Oracle、Redis、Bennyunn以及MongoDB等。
这种方法通常在采集端部署大量数据库,并对如何在这些数据库之间进行负载均衡和分片进行深入的思考和设计。
习题参考答案第1章绪论1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。
答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。
数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。
实际生活的例子:①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。
1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。
该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。
随着各个电子商务网站的建立,企业纷纷地从“产品导向”转向“客户导向”,如何在保持现有的客户同时吸引更多的客户、如何在客户群中发现潜在价值,一直都是电子商务企业重要任务。
但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中挖掘潜在的价值。
而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等,从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。
1.3 假定你是Big-University 的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。
1.3 数据采集与编码一、选择题1.模拟信号是()A.以连续变化的物理量存在B.可以直接存储在计算机中C.不易受干扰而导致失真D.通过数字流来传输2.是国际通用的信息交换标准代码。
()A.数值编码B.Unicode编码C.汉字编码D.ASCII字符编码3.近期“汉语盘点2023”年度字词揭晓,“振”当选2023年国内年度汉字,在GB2312编码方案中,存储一个“振”字需要占用()空间。
A.2B B.1B C.2b D.1KB4.在信息社会背景下,开展调查的过程中,收集的数据一定要具有()。
A.完整性B.可用性C.真实性D.多样性5.下列将二进制数(10011)2转换成十进制数的算式中,正确的是()A.1×24+1×23+1×22+0×21+0×20B.1×24+0×23+0×22+1×21+1×20C.1×24+0×23+1×22+1×21+0×20D.1×24+1×23+0×22+0×21+1×206.下列有关信息编码的说法,正确的是()A.根据GB2312标准,“芯片”两个字的内码共占2个字节B.计算机存储一个ASCII码时,占用1个字节,最高位为“1”C.已知字母“F”的ASCII码值为46H,则字母“G”的ASCII码值为71DD.某7位二进制数的最高位和最低位都为1,则转换为十进制数后的值大于657.以下会出现错误的是()A.“浙江”.encode()B.‘浙江’.decode()C.‘’‘浙江’’’.encode().decode()D.以上都不会错误8.使用UltraEdit软件观察字符“hz2017杭州第十区”的内码,部分界面如图所示。
下列说法正确的是()A.字符“h”的内码占两个字节B.字符“杭”的十六进制码是“BA BC”C.字符“2”的二进制码是“00110011”D.字符串共有11个字节9.下列关于编码的说法,不正确的是()A.ASCII码的最大值十进制表示为127B.信息编码的本质是信息形式转换的过程C.相同像素大小的两幅图像,分别由黑白像素和256种颜色像素组成,其容量大小之比为1:4D.一段时长10秒、采样频率为24KHz、量化位数为16位、双声道立体声的W A VE格式音频需要的磁盘存储空间约为938KB10.下列关于进制与信息编码的说法,不正确...的是()A.8位二进制数能表示的颜色数最多为256种B.对声音模拟信号采样时提高采样频率能提高保真度C.在二进制数末尾增加一位,其值会变成原数的2倍D.某十六进制数的末位为4,对应的十进制数一定是4的倍数11.下列有关图像说法正确的是()A.将图像分解成一个一个大小相同的像素属于量化B.用数值表示图像各像素的颜色信息属于采样C.任意放大矢量图都不会丢失细节或影响清晰度D.常见的图像格式有BMP、JPEG、Wave、PNG等12.一个十进制的奇数转换为二进制之后,其最后一位(最右边的位)必然是()。
数据挖掘概念与技术(原书第 3 版)第三章课后习题及解答3.7 习题3.1 数据质量可以从多方面评估,包括准确性、完整性和一致性问题。
对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。
提出数据质量的两个其他尺度。
答:数据的质量依赖于数据的应用。
准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有80%是可以用的,就是质量比较好的数据,而对于需要一家家拜访的销售而言,有错误地址的数据,质量就很差了。
一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,就会影响。
数据质量的另外三个尺度是时效性,可解释性,可信性。
3.2 在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。
讨论处理这一问题的方法。
答:对于有缺失值的元组,当前有 6 种处理的方法:(1 )忽略元组:当缺少类标号时通常这么做(假定挖掘任务涉及分类)。
除非元组有多个属性缺少值,否则该方法不是很有效。
当每个属性缺失值的百分比变化很大时,它的性能特别差。
采用忽略元组,你不能使用该元组的剩余属性值。
这些数据可能对手头的任务是有利的。
(2 )人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。
(3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“unknown”或- )替换。
如果缺失值都用“ unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“ unknown”。
因此,尽管该方法简单,但是并不十分可靠。
(4)使用属性的中心度量(如均值或中位数)填充缺失值:第 2 章讨论了中心趋势度量,它们指示数据分布的“中间”值。
对于正常的(对称的)数据分布,可以使用均值,而倾斜分布的数据则应使用中位数。
(5 )使用与给定元组属同一类的所有样本的属性均值或中位数(6 )使用最可能的值填充缺水值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。