数据仓库与数据挖掘技术-试题答案
- 格式:docx
- 大小:779.26 KB
- 文档页数:7
数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年1.非频繁项集的超集有可能是频繁的。
参考答案:错误2.决策树中不包含以下哪种节点。
参考答案:外部节点(external node)3.数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。
数据源可能涉及多个数据库、数据立方体或一般文件。
参考答案:正确4.数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。
参考答案:正确5.若属性income的平均值和标准差分别为32000元和17000元,则使用z-score规范化后,65600元被转换为:参考答案:1.9766.朴素贝叶斯算法能够解决特征之间有相关性的问题。
参考答案:错误7.OLAP技术的核心是:参考答案:多维分析8.假定某属性的最小与最大值分别为8000元和14000元。
要将其映射到区间[0.0,1.0],按照最小-最大规范化方法对属性进行变换,属性值12600将变换为:参考答案:0.7679.后验概率P(H|X)表示条件X下H的概率。
参考答案:正确10.只要有两个频繁3项集,就一定能够生成一个候选4项集。
参考答案:错误11.先验概率是根据历史资料或主观估计的方法得到的概率。
参考答案:正确12.公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。
现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:参考答案:0.71413.数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。
参考答案:正确14.数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。
参考答案:正确15.假设吸烟的本科生比例为15%,而吸烟的研究生占23%。
如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?参考答案:0.27716.决策树构建之后,为了避免过度拟合,需要对树进行剪枝。
Group 4 Chapter1-3CH11.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用来决策分析。
2.从数据库发展到数据仓库的原因是什么?答:①数据太多,信息贫乏。
②异构环境数据的转换和共享。
③利用数据进行事务处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同答:数据库(DB)数据仓库(DW)面向应用面向主题数据是详细的数据是综合的和历史的保持当前数据保存过去和现在的数据数据是可更新的数据不更新对数据操作是重复的对数据的操作是启发式的操作需求是事先可知的操作需求是临时决定的一个操作存取一个记录一个操作存取一个集合数据非冗余数据时常冗余操作比较频繁操作相对不频繁查询基本是原始数据查询基本是经过加工的数据事务处理需要的是当前数据决策分析需要过去和现在的数据很少有复杂的计算有很多复杂的计算支持事务处理支持决策分析4. 答:Oltp 联机事务处理,就是我们通常所说的关系型数据库,记录了实时的增删改查数据。
Olap 联机分析处理,是数据仓库的核心,是对oltp的历史数据进行加工,分析处理,用于处理商业智能,决策支持等重要的决策信息。
5.答:oltp是用户数据可以立即传送到计算中心进行处理,并在很短时间内给出处理结果。
它主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。
事务处理量大,要求多个并行处理,事务处理内容比较简单切重复率高。
大量的数据操作主要涉及的是一些增删改查询等操作,每次操作的数据量不打且多为当前的数据。
Oltp处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。
6.答:1.oltp 是明细的数据,olap 是汇总数据2.oltp 记录实时的数据,olap 包含2-3年历史数据3.oltp 可以进行增删改查操作,olap 只支持查询,但周期性刷新。
4.oltp一次性处理的数据量少,olap一次处理的数据量大5.oltp对响应时间要求高,olap响应时间合理6.oltp面向应用,事务驱动,olap面向分析,分析驱动7. 数据库中数据字典包括哪些内容?P4-5答:数据字典是指对中举的数据项、数据结构、数据流、数据存储、和处理过程8.元数据的定义是什么?P5答:元数据为关于数据的数据(data about data)。
(完整word版)数据挖掘题⽬及答案⼀、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么?数据仓库是⼀个⾯向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,⽤于⽀持管理决策。
特点:1、⾯向主题操作型数据库的数据组织⾯向事务处理任务,各个业务系统之间各⾃分离,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织的。
2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加⼯、汇总和整理得到的,必须消除源数据中的不⼀致性,以保证数据仓库内的信息是关于整个企业的⼀致的全局信息。
3、相对稳定的数据仓库的数据主要供企业决策分析之⽤,⼀旦某个数据进⼊数据仓库以后,⼀般情况下将被长期保留,也就是数据仓库中⼀般有⼤量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化数据仓库中的数据通常包含历史信息,系统记录了企业从过去某⼀时点(如开始应⽤数据仓库的时点)到⽬前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
所谓基于数据库的知识发现(KDD)是指从⼤量数据中提取有效的、新颖的、潜在有⽤的、最终可被理解的模式的⾮平凡过程。
数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可⽤的信息⼆、数据库有4笔交易。
设minsup=60%,minconf=80%。
TID DATE ITEMS_BOUGHTT100 3/5/2009 {A, C, S, L}T200 3/5/2009 {D, A, C, E, B}T300 4/5/2010 {A, B, C}T400 4/5/2010 {C, A, B, E}使⽤Apriori算法找出频繁项集,列出所有关联规则。
解:已知最⼩⽀持度为60%,最⼩置信度为80%1)第⼀步,对事务数据库进⾏⼀次扫描,计算出D中所包含的每个项⽬出现的次数,⽣成候选1-项集的集合C1。
数据仓库与数据挖掘技术复习资料一、单项选择题1. 数据挖掘技术包括三个主要的部份 ( C )A.数据、模型、技术C.数据、建模能力、算法与技术2.关于基本数据的元数据是指: ( D B.算法、技术、领域知识D.建模能力、算法与技术、领域知识)A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。
3. 关于 OLAP 和 OLTP 的说法,下列不正确的是: ( A)A.OLAP 事务量大,但事务内容比较简单且重复率高B.OLAP 的最终数据来源与 OLTP 不一样C.OLTP 面对的是决策人员和高层管理人员D.OLTP 以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? ( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 会萃D. 估计遗漏值6. 在 ID3 算法中信息增益是指(A.信息的溢出程度C.熵增加的程度最大D )B.信息的增加效益D.熵减少的程度最大7. 以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8. 以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻觅最佳决策树是 NP 彻底问题9. 假设收入属性的最小与最大分别是 10000 和 90000,现在想把当前值 30000 映射到区间[0,1], 若采用最大-最小数据规范方法,计算结果是( A )A. 0.25B. 0.375 D. 0.510. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离? ( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12. 设 X={1,2,3}是频繁项集,则可由X 产生( C )个关联规则。
第一章作业1.数据库及数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。
(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。
(3)数据仓库的数据是大量数据库的集成。
(4)对数据库的操作比较明确,操作数量较小。
对数据仓库操作不明确,操作数据量大。
2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。
如何将大量的数据转化为辅助决策信息成为了研究热点。
(2)异构环境数据的转换和共享。
随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。
(3)利用数据进行事物处理转变为利用数据支持决策。
3.举例说明数据库及数据仓库的不同。
比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。
但是要对这些独立数据库进行决策分析就很复杂了。
因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。
4.( ,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
(,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
5.是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
6.7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。
8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。
9.元数据不仅仅是数据仓库的字典,而且还是数据仓库本身功能的说明数据,是整个数据仓库的核心。
数据字典是关于数据库中数据的描述,而不是数据本身,数据字典是数据库的元数据。
10 .数据仓库的定义是什么?答:(1)对数据仓库的定义:数据仓库是面向主题的,集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。
第四章作业1.数据仓库的需求分析的任务是什么?P67需求分析的任务是通过详细调查现实世界要处理的对象(企业、部门用户等),充分了解源系统工作概况,明确用户的各种需求,为设计数据仓库服务。
概括地说,需求分析要明确用那些数据经过分析来实现用户的决策支持需求。
2.数据仓库系统需要确定的问题有哪些?P67、、(1)确定主题域a)明确对于决策分析最有价值的主题领域有哪些b)每个主题域的商业维度是那些?每个维度的粒度层次有哪些?c)制定决策的商业分区是什么?d)不同地区需要哪些信息来制定决策?e)对那个区域提供特定的商品和服务?(2)支持决策的数据来源a)那些源数据与商品的主题有关?b)在已有的报表和在线查询(OLTP)中得到什么样的信息?c)提供决策支持的细节程度是怎么样的?(3)数据仓库的成功标准和关键性指标a)衡量数据仓库成功的标准是什么?b)有哪些关键的性能指标?如何监控?c)对数据仓库的期望是什么?d)对数据仓库的预期用途有哪些?e)对计划中的数据仓库的考虑要点是什么?(4)数据量与更新频率a)数据仓库的总数据量有多少?b)决策支持所需的数据更新频率是多少?时间间隔是多长?c)每种决策分析与不同时间的标准对比如何?d)数据仓库中的信息需求的时间界限是什么?3.实现决策支持所需要的数据包括哪些内容?P68(1)源数据(2)数据转换(3)数据存储(4)决策分析4.概念:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,叫做概念模型。
特点:(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。
(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。
(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。
(4)易于向数据仓库的数据模型(星型模型)转换。
5.用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接;若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。
数据仓库与数据挖掘教程(第2版)课后习题答案第七章第七章作业1.信息论的基本原理是什么?一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。
信息论把通信过程看做是在随机干扰的环境中传递信息的过程。
在这个通信模型中,信息源和干扰(噪声)都被理解为某种随机过程或随机序列。
在进行实际的通信之前,收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息,也不可能判断信源会处于什么样的状态。
这种情形就称为信宿对于信源状态具有不确定性,而且这种不确定性是存在于通信之前的,因而又叫做先验不确定性。
在通信后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者被减少。
如果干扰很小,不会对传递的信息产生任何可察觉的影响,信源发出的信息能够被信宿全部收到,在这种情况下,信宿的先验不确定性就会被完全消除。
但是,在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全。
因此,先验不确定性不能全部被消除, 只能部分地消除。
换句话说,通信结束之后,信宿仍具有一定程度的不确定性。
这就是后验不确定性。
2.学习信道模型是什么?学习信道模型是信息模型应用于机器学习和数据挖掘的具体化。
学习信道模型的信源是实体的类别,采用简单“是”、“非”两类,令实体类别U 的值域为{u1,u2},U 取u1表示取“是”类中任一例子,取u2表示取“非”类中任一例子。
信宿是实体的特征(属性)取值。
实体中某个特征属性V ,他的值域为{v1,v2……vq}。
3.为什么机器学习和数据挖掘的分类问题可以利用信息论原理?信息论原理是数据挖掘的理论基础之一。
一般用于分类问题,即从大量数据中获取分类知识。
具体来说,就是在已知各实例的类别的数据中,找出确定类别的关键的条件属性。
求关键属性的方法,即先计算各条件属性的信息量,再从中选出信息量最大的属性,信息量的计算是利用信息论原理中的公式。
4自信息:单个消息ui 发出前的不确定性(随机性)称为自信息。
第二章作业1.画出数据仓库的结构图,说明各部分内容。
P18当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分数据量大。
随着时间的推移,有数据仓库的时间控制机制转为历史数据,轻度综合数据是从当前基本数据中提取出来的,最高一层是高度综合数据层,这一层的数据十分精炼,是一种准决策数据。
2.说明数据仓库结构图中包含轻度综合层与高度综合数据层的作用。
这些数据为什么不是临时计算出来的。
P18-19数据仓库除了存储按主题组织起来的当前详细数据外,还需要存储综合数据,这是为了适应决策需求而增加的。
在数据库中需要得到综合数据时,采用数据立方体的方法对详细数据进行综合。
在数据仓库中并不采取临时计算的方式得到综合数据,而在用户提出需要综合数据之前,就预先将可能的综合数据利用数据立方体计算好,存入综合数据层中,这种综合数据层在用户查询时,能迅速提供给用户。
3.说明数据集市与数据仓库的区别和联系。
P20联系:数据集市是一种更小,更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径。
数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。
区别:(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。
而数据集市是按照某一特定部门的数据模型建立的。
(2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。
(3)数据集市的数据组织一般采用星型模型。
4.1、规模是小的2、特定的应用3、面向部门4、由业务部门定义,设计和开发5、由业务部门管理和维护6、快速实现7、购买较便宜8、投资快速回收9、更详细的、预先存在的数据仓库的摘要子集10、可升级到完整的数据仓库5.独立型数据集市直接从操作型环境获取数据,从属型数据集市从企业级数据仓库获取数据,带有从属型数据集市的体系结构。
6.原因:仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。
一、填空题(15分)1。
数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。
2。
元数据是描述数据仓库内数据的结构和建立方法的数据。
根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。
3。
OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。
4。
基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。
5。
ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。
二、多项选择题(10分)6。
在数据挖掘的分析方法中,直接数据挖掘包括(ACD)A 分类B 关联C 估值D 预言7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A 数据抽取B 数据转换C 数据加载D 数据稽核8.数据分类的评价准则包括( ABCD )A 精确度B 查全率和查准率C F-MeasureD 几何均值9。
层次聚类方法包括( BC )A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法10。
贝叶斯网络由两部分组成,分别是( A D )A 网络结构B 先验概率C 后验概率D 条件概率表三、计算题(30分)11。
一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min=40%,conf min=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。
(15分)解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1—候选C1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:至此,所有频繁集都被找到,算法结束,所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3〉 conf minconfidence({花生酱}→{面包})=(3/5)/(4/5)=3/4〉 conf min所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。
数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理?数据预处理主要包括哪些工作(需要对数据进行哪些方面预处理)?(1)现实世界的数据是杂乱的,数据多了什么问题会出现。
数据库极易受到噪音数据(包含错误或孤立点)、遗漏数据(有些感兴趣的属性缺少属性值或仅包含聚集数据)和不一致数据(在编码或者命名上存在差异)的侵扰,因为数据库太大,常常多达几G或更多。
进行数据预处理,提高数据质量,从而提高挖掘结果质量。
(2)数据预处理主要包括:数据清理:去除数据中的噪音、纠正不一致;数据集成:将数据由多个源合并成一致的数据存储,如数据仓库或数据方;数据交换:规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性;数据归约:通过聚集、删除冗余特征或聚类等方法来压缩数据。
数据离散化:属于数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要。
2. 什么叫有监督学习?什么叫无监督学习?) 是通过发现数据属性和类别属性之间的关联模式,并通监督学习(Supervised learning或归纳过利用这些模式来预测未知数据实例的类别属性。
监督学习又称为分类Classification。
学习Inductive Learning无监督学习(Unsupervised learning)即聚类技术。
在一些应用中,数据的类别属性是缺失的,用户希望通过浏览数据来发现其的某些内在结构。
聚类就是发现这种内在结构的技术。
3.什么是数据仓库的星形模式?它与雪花模式有何不同?雪花模式与星形模式不同在于:雪花模式的维表可能是规范化形式,以便减少冗余。
这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。
然而,与巨大的事实表相比,这种空间的节省可以忽略。
此外,由于执行查询更多的连接操作,雪花结构可能降低浏览的性能。
这样系统的性能可能受影响。
因此,在数据仓库设计中,雪花模式不如星形模式流行。
二、写出伪代码三答:(1)所有频繁项集为:[E,K,O] [K,M] [K,Y] (2) 关联规则:[O]->[E,K] 1.0[E,O] -> [K] 1.0[K,O] -> [E] 1.01.0[M] -> [K][Y] -> [K] 1.0答:a)决策树表示一种树型结构,它由它的分来对该类型对象依靠属性进行分类。
《数据仓库与数据挖掘试题》一、判断题(每小题1分,计30分,答题时每5个答案写在一起)1.数据库作为数据资源用于管理业务中的信息分析处理。
(X)2.数据库的查询不是指对记录级数据的查询,而是指对分析要求的查询。
(X)3.关系数据库是二维数据(平面),多维数据库是空间立体数据。
(v)4.数据进入数据仓库之前,必须经过加工与集成。
(V)5.OLAP使用的是当前数据;OLTP使用的是历史数据。
(V)6.对数据仓库操作不明确,操作数据量少。
(X)7.数据集市实现难度超过数据仓库。
(X)8.OLAP使用的数据经常更新;OLTP使用的数据不更新,但周期性刷新。
(X)9.数据集市可升级到完整的数据仓库。
(V)10.数据库中存放的数据基本上是保存当前综合数据。
(X)11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。
(V)12.OLAP支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持。
(V)13.OLTP的事务处理量大,处理内容比较简单但重复率高。
(V)14.数据仓库的用户有两类:信息使用者和探索者。
(V)15.对数据库的操作比较明确,操作数据量大。
(X)16.数据库用于事务处理,数据仓库用于决策分析。
(V)17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。
(V)18.OLAP一次处理的数据量大;OLTP一次性处理的数据量小。
(V)19.OLTP每次操作的数据量不大且多为当前的数据。
(V )20.数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。
(V)21.随着业务的变化,数据仓库中的数据会随时更新。
(X)22.数据集市的规模比数据仓库更大。
(X)23.数据集市具有更详细的、预先存储在数据仓库的数据。
(V)24.不同维值的组合及其对应的度量值构成了不同的查询和分析。
(V)25.OLAP使用细节性数据,OLTP使用综合性数据。
(X)26.数据集市由企业管理和维护。
数据仓库与数据挖掘I.选择题,为每个问题选择最合适的答案(10×2%=20%)1.数据仓库上的业务处理称作_B_。
A.联机事务处理B.联机分析处理C.联机输入处理D.联机查询处理2.在自然演化体系结构中,关于导致数据缺乏可信性的原因的说法哪个不正确?DA.数据无时基B.抽取程序的算法有差异C.抽取的层次不同D.缺乏集成性3.下面哪项关于OLTP与OLAP访问特点的说法是不正确的。
AA.OLTP和OLAP对于响应时间的要求都高B.OLTP访问频率高,OLAP访问频率低C.OLAP访问大量的历史,执行大量统计操作D.OLTP数据处理具有并发性4.下面关于数据仓库中数据的说法错误的是?A.数据越详细,粒度越小,层次级别就越高。
B.在估计直接存储设备数时,如数据超过1000万行必须强制采取双重粒度级。
C.数据仓库大部分分析是针对被压缩的、存取效率高的轻度级数据进行的。
D.数据分割便于数据的重构、重组和恢复,以提高创建索引和顺序扫描的效率。
5.下面关于数据仓库的数据存储方式的说法哪个是不正确的?FE.虚拟存储方式中,数据仓库的数据仍然在源数据中。
F.星型模式下的维表规范化的,而雪花模式下的不需要规范化G.在查询效率方面,星型模式效率更高H.在事实星座模式中有多个事实表,且它们共享相同的维表6.下面关于星型模型的说法哪个是不正确的?I.有一个包含大量数据的事实表J.有一组小的附属表,称为维表,每维一个。
K.事实表的每个字段都是事实度量字段L.事实中每条元组都含有指向各个维表的外键和一些相应的度量数据。
7.下面关于数据仓库的数据追加的说法哪个是不正确的?CA.时标法需要为记录数据增加一个时间标志。
B.前后映像文件方法需要扫描整个数据库,占用较多资源,对性能有较大影响C.DELTA不需要扫描整个数据库,效率较高,应用普遍D.日志文件法也不需要扫描整个数据库,是固有机制。
8.假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采用最大-最小数据规范方法,计算结果是多少?BA.0.25B.0.375C.0.125D.0.59.下面关于维的概念哪个是不正确的? CA.维是人们观察数据的特定角度。
复习内容填空题(每空1分)第1章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理(OLTP)和联机分析处理。
4、多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立数据集市、依赖型数据集市和操作型数据存储和逻辑型数据集市和实时数据仓库。
8、操作型数据存储(ODS)实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
P159、“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、数据挖掘的分析方法可以分为直接数据挖掘和间接数据挖掘两类。
第2章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL 过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
数据仓库与数据挖掘(山东联盟)知到章节测试答案智慧树2023年最新济南大学绪论单元测试1.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
()参考答案:对第一章测试1.图挖掘技术在社会网络分析中扮演了重要的角色。
()参考答案:对2.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
( )参考答案:对3.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。
()参考答案:对4.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )参考答案:预测建模5.以下哪些学科和数据挖掘有密切联系?( )参考答案:统计;人工智能第二章测试1.下面哪个不属于数据的属性类型:( )参考答案:相异2.在上题中,属于定量的属性类型是:( )参考答案:区间3.只有非零值才重要的二元属性被称作:( )参考答案:非对称的二元属性4.以下哪种方法不属于特征选择的标准方法: ( )参考答案:抽样5.离群点可以是合法的数据对象或者值。
()参考答案:对第三章测试1.下面哪些属于可视化高维数据技术 ( )参考答案:矩阵;Chernoff脸;平行坐标系;星形坐标2.下面哪种不属于数据预处理的方法? ( )参考答案:估计遗漏值3.联机分析处理包括以下哪些基本分析功能? ( )参考答案:切片;切块;转轴4.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。
参考答案:统计方法5.离散属性总是具有有限个值。
()参考答案:错第四章测试1.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. ( )参考答案:错2.数据仓库中间层OLAP服务器只能采用关系型OLAP ()错3.下面列出的条目中,哪些是数据仓库的基本特征: ( )参考答案:数据仓库的数据是反映历史变化的;数据仓库是面向主题的;数据仓库的数据是相对稳定的4.以下各项均是针对数据仓库的不同说法,你认为正确的有()。
《数据仓库与数据挖掘试题》一、判断题(每小题1分,计30分,答题时每5个答案写在一起)1.数据库作为数据资源用于管理业务中的信息分析处理。
(X)2.数据库的查询不是指对记录级数据的查询,而是指对分析要求的查询。
(X)3.关系数据库是二维数据(平面),多维数据库是空间立体数据。
(v)4.数据进入数据仓库之前,必须经过加工与集成。
(V)5.OLAP使用的是当前数据;OLTP使用的是历史数据。
(V)6.对数据仓库操作不明确,操作数据量少。
(X)7.数据集市实现难度超过数据仓库。
(X)8.OLAP使用的数据经常更新;OLTP使用的数据不更新,但周期性刷新。
(X)9.数据集市可升级到完整的数据仓库。
(V)10.数据库中存放的数据基本上是保存当前综合数据。
(X)11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。
(V)12.OLAP支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持。
(V)13.OLTP的事务处理量大,处理内容比较简单但重复率高。
(V)14.数据仓库的用户有两类:信息使用者和探索者。
(V)15.对数据库的操作比较明确,操作数据量大。
(X)16.数据库用于事务处理,数据仓库用于决策分析。
(V)17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。
(V)18.OLAP一次处理的数据量大;OLTP一次性处理的数据量小。
(V)19.OLTP每次操作的数据量不大且多为当前的数据。
(V )20.数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。
(V)21.随着业务的变化,数据仓库中的数据会随时更新。
(X)22.数据集市的规模比数据仓库更大。
(X)23.数据集市具有更详细的、预先存储在数据仓库的数据。
(V)24.不同维值的组合及其对应的度量值构成了不同的查询和分析。
(V)25.OLAP使用细节性数据,OLTP使用综合性数据。
(X)26.数据集市由企业管理和维护。
《数据仓库与数据挖掘》试题与答案整理2013级智能系高飙1.名词解释5x4(1)主题主题(Subject):宏观分析领域所涉及的分析对象。
是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。
面向主题的数据组织方式:在较高的层次上对分析对象的数据的一个完整、一致的描述。
(2)事实(P联机分析)事实是数值度量的;存储一个多维数据,表达期望分析的主题(目的、感兴趣的事情、事件或者指标等);具有一定的粒度,粒度的大小与维层次相关;一个事实中通常包含一个或者多个度量一个事实的两个组件:数字型指标、聚集函数(3)数据归约(P数据预处理)在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减数据归约的方法:1数据立方体聚集:聚集操作作用于立方体中的数据2减少数据维度(维归约):可以检测并删除不相关、弱相关或者冗余的属性或维3数据压缩:使用编码机制压缩数据集4数值压缩:用替代的、较小的数据表示替换或估计数据5数据离散化以及概念层次的建立:属性的原始值用区间值或较高层的概念予以替换(4)兴趣度(P数据挖掘)一个数据挖掘系统的挖掘结果可能会产生成千上万个模式,但是并不是所有的模式都有意义。
兴趣度度量用于将不感兴趣的模式从知识中分开。
他们可以用于指导挖掘过程,或在挖掘之后,评估发现的模式。
不同类型的数据需要不同的兴趣度量。
兴趣度的度量:一个模式是否感兴趣,取决于它是否容易被用户所理解,是否有效可信,是否潜在有用,是否新颖等兴趣度的度量:客观的度量: 从模式的角度出发,基于模式结构的某些统计的结果,如:支持度(support)、置信度(confidence)等。
主观的度量:从用户的角度出发,对模式的信任程度,如:新颖性、可操作性等。
(5)数据分区(片)(P数据仓库设计)把逻辑上统一的数据分割成较小的、可以独立管理的物理单元(分片)进行存储。
可按时间、按地区、按业务类型进行数据分片(6)数据挖掘数据挖掘是识别数据中有效的、新颖的、潜在有用的和最终可被理解的模式(Pattern)的非平凡过程。
?
(1)现实世界的数据是杂乱的,数据多了什么问题会浮现。
数据库极易受到噪音数据(包含错误或者孤立点)、遗漏数据(有些感兴趣的属性缺少属性值或者仅包含会萃数据)和不一致数据(在编码或者命名上存在差异)的侵扰,因为数据库太大,往往多达几G 或者更多。
进行数据预处理,提高数据质量,从而提高挖掘结果质量。
(2)数据预处理主要包括:数据清理:去除数据中的噪音、纠正不一致;数据集成:将数据由多个源合并成一致的数据存储,如数据仓库或者数据方;数据交换:规范化或者会萃可以改进涉及距离度量的挖掘算法精度和有效性;数据归约:通过会萃、删除冗余特征或者聚类等方法来压缩数据。
数据离散化:属于数据归约的一部份,通过概念分层和数据的离散化来规约数据,对数字型数据特殊重要。
监督学习 (Supervised learning) 是通过发现数据属性和类别属性之间的关联模式,并通过利用这些模式来预测未知数据实例的类别属性。
监督学习又称为分类Classification 或者归纳学习Inductive Learning。
无监督学习(Unsupervised learning)即聚类技术。
在一些应用中,数据的类别属性是缺失的,用户希翼通过浏览数据来发现其的某些内在结构。
聚类就是发现这种内在结构的技术。
雪花模式与星形模式不同在于:雪花模式的维表可能是规范化形式,以便减少冗余。
这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。
然而,与巨大的事实表相比,这种空间的节省可以忽略。
此外,由于执行查询更多的连接操作,雪花结构可能降低浏览的性能。
这样系统的性能可能受影响。
因此,在数据仓库设计中,雪花模式不如星形模式流行。
三
答: (1)所有频繁项集为: [E,K,O] [K,M] [K,Y] (2) 关联规则:
[O]->[E,K] 1.0
[E,O] -> [K] 1.0
[K,O] -> [E] 1.0
[M] -> [K] 1.0
[Y] -> [K] 1.0
答:
a) 决策树表示一种树型结构,它由它的分来对该类型对象依靠属性进行分类。
每一个决策
树可以依靠对源数据库的分割进行数据测试。
这个过程以递归的方式对树进行修剪。
当不能再分割时,递归完成。
因此决策树不会无限循环。
b) 0
c) size
d) Children,SIN,class
public class BayesClassifier
{
private TrainingDataManager tdm;//训练集管理器
private String trainnigDataPath;//训练集路径
private static double zoomFactor = 10.0f;
/**
* 默认的构造器,初始化训练集
*/
public BayesClassifier()
{
tdm =new TrainingDataManager();
}
/**
* 计算给定的文本属性向量X 在给定的分类Cj 中的类条件概率* <code>ClassConditionalProbability</code>连乘值
* @param X 给定的文本属性向量
* @param Cj 给定的类别
* @return 分类条件概率连乘值,即<br>
*/
float calcProd(String[] X, String Cj)
{
float ret = 1.0F;
// 类条件概率连乘
for (int i = 0; i <X.length; i++)
{
String Xi = X[i];
ret *=ClassConditionalProbability.calculatePxc(Xi, Cj)*zoomFactor;
}
// 再乘以先验概率
ret *= PriorProbability.calculatePc(Cj);
return ret;
}
/**
* 去掉停用词
* @param text 给定的文本
* @return 去停用词后结果
*/
public String[] DropStopWords(String[] oldWords)
{
Vector<String> v1 =new Vector<String>();
for(int i=0;i<oldWords.length;++i)
{
if(StopWordsHandler.IsStopWord(oldWords[i])=alse)
{//不是停用词
v1.add(oldWords[i]);
}
}
String[] newWords = new String[v1.size()];
v1.toArray(newWords);
return newWords;
}
/**
* 对给定的文本进行分类
* @param text 给定的文本
* @return 分类结果
*/
@SuppressWarnings("unchecked")
public String classify(String text)
{
String[] terms = null;
terms= ChineseSpliter.split(text, " ").split(" ") /中文分词处理(分词后结果可能还包含有停用词)
terms = DropStopWords(terms) /去掉停用词,以免影响分类
String[] Classes = tdm.getTraningClassifications() /分类
float probility = 0.0F;
List<ClassifyResult> crs = new ArrayList<ClassifyResult>();//分类结果
for (int i = 0; i <Classes.length; i++)
{
String Ci = Classes[i];//第i 个分类
probility = calcProd(terms, Ci);//计算给定的文本属性向量terms 在给定的分类Ci 中的分类条件概率
//保存分类结果
ClassifyResult cr = new ClassifyResult();
cr.classification = Ci;//分类
cr.probility = probility;//关键字在分类的条件概率
System.out.println("In process .");
System.out.println(Ci + ":" + probility);
crs.add(cr);
}
//对最后概率结果进行排序
java.util.Collections.sort(crs,new Comparator()
{
public int compare(final Object o1,final Object o2)
{
final ClassifyResult m1 = (ClassifyResult) o1;
final ClassifyResult m2 = (ClassifyResult) o2;
final double ret = m1.probility - m2.probility;
if (ret < 0)
{
return 1;
}
else
{
return - 1;
}
}
});
//返回概率最大的分类
return crs.get(0).classification;
}
}
(1)最临近分类是基于要求的或者懒散的学习法。
因为它存放所有训练样本,并且直至新的样本需要分类时才建立分类。
begin
初始化 n x n 距离矩阵 D,初始化混淆矩阵 C,设置 t=0 , TotAcc = 0 , NumIterations 为要迭代次数。
计算所有输入样本和存储在 D 矩阵中的距离。
For t=1 to NumIterations do
Set c = 0 , Ntotal=0
将输入样本划分为 k 个同等大小的分组
For fold=1 to k do
指定第 fold 个样本进行测试,并且使用原来训练样本。
设置 Ntest 为要测试样本数量。
Set Ntotal = Ntotal+Ntest
For i = 1 to Ntest do
基于样本计算距离确定 k 个最邻近训练样本。
确定在 k 个最邻近样本中最频繁的分类标记。
在 w 为真并且对于预测测试样本分类标记为时,对混淆矩阵 C 进行递增 1 存储为。
如果,则在混淆矩阵对角线上加 1,否则在非对角线上加 1。
当为混淆矩阵对角线元素时,使用
确定分类器的精确度。
计算 . 最后计算
end。