华南理工大学数据挖掘第一章
- 格式:docx
- 大小:50.01 KB
- 文档页数:4
华南理工大学计算机科学与工程学院2012—2013学年度第二学期期末考试《数据仓库与数据挖掘技术》试卷(假的)专业:计算机科学与技术年级:2010 姓名:学号:注意事项:1. 本试卷共四大题,满分100分,考试时间120分钟;2. 所有答案请直接答在试卷上;题号一二三四总分得分一.填空题(每空1分,共20分)1.数据仓库的特征包括_面向主题________、___集成_________、__时变_________和非易失性。
2.数据仓库的三种数据模式包括_星形模式_、__雪花形模式__________、___事实星座形模式________。
3.仓库数据库服务器、_LOAP服务器________、__前端客户__________为数据仓库的多层结构。
4. OLAP技术多维分析过程中,多维分析操作包括 __上卷___、__下钻____、___切片____、__切块__________、__转轴_________等。
5. 知识发现过程的主要步骤有:数据清理、__数据集成__________、__数据选择___、数据交换、_数据挖掘________、___模式评估_________、__知识表示_______。
6. 数据仓库的视图的分类有:自顶向下视图、_数据源视图________、数据仓库视图、_商务视图_________。
二.简答题(每题6分,共42分)1.简述处理空缺值的方法。
1、忽略该记录2、手工填写空缺值3、使用默认值4、使用属性平均值5、使用同类样本平均值6、使用最可能的值2.挖掘的知识类型。
1、概念/类描述:特征化和区分2、挖掘频繁模式、关联和相关3、分类和预测4、聚类分析5、离群点分析6、演变分析3.何为OLTP与OLAP及他们的主要区别。
联机事务处理OLTP (on-line transaction processing);联机分析处理OLAP (on-line analytical processing);OLTP和OLAP的区别:用户和系统的面向性:OLTP面向顾客,而OLAP面向市场;数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据;数据库设计:OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计,而OLAP系统通常采用星形和雪花模型;视图:OLTP系统主要关注一个企业或部门内部的当前数据,而OLAP 系统主要关注汇总的统一的数据;访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作,尽管许多可能是复杂的查询。
数据挖掘概念与技术(第三版)课后答案——第⼀章1.1 什么是数据挖掘?在你的回答中,强调以下问题:(a)它是⼜⼀种⼴告宣传吗?(b)它是⼀种从数据库、统计学、机器学习和模式识别发展⽽来的技术的简单转换或应⽤吗?(c)我们提出了⼀种观点,说数据挖掘是数据库技术进化的结果。
你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这⼀观点吗?针对统计学和模式识别领域,做相同的事。
(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。
答:数据挖掘不是⼀种⼴告宣传,它是⼀个应⽤驱动的领域,数据挖掘吸纳了诸如统计学习、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、⾼性能计算和许多应⽤领域的⼤量技术。
它是从⼤量数据中挖掘有趣模式和知识的过程。
数据源:包括数据库、数据仓库、Web、其他信息存储库或动态的流⼊系统的数据等。
当其被看作知识发现过程时,其基本步骤主要有:1. 数据清理:清楚噪声和删除不⼀致数据;2. 数据集成:多种数据源可以组合在⼀起;3. 数据选择:从数据库中提取与分析任务相关的数据;4. 数据变换:通过汇总或者聚集操作,把数据变换和统⼀成适合挖掘的形式;5. 数据挖掘:使⽤智能⽅法或者数据挖掘算法提取数据模式;6. 模式评估:根据某种兴趣度量,识别代表知识的真正有趣的模式。
7. 知识表⽰:使⽤可视化和知识表⽰技术,向⽤户提供挖掘的知识。
1.2 数据仓库与数据库有什么不同?它们有哪些相似之处?答:不同:数据仓库是多个异构数据源在单个站点以统⼀的模式组织的存储,以⽀持管理决策。
数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。
数据库系统也称数据库管理系统,由⼀组内部相关的数据(称作数据库)和⼀组管理和存取数据的软件程序组成,是⾯向操作型的数据库,是组成数据仓库的源数据。
它⽤表组织数据,采⽤ER数据模型。
相似:它们都为数据挖掘提供了源数据,都是数据的组合。
华南理工大学《数据挖掘》复习资料【英文缩写】BI(商务智能): Business IntelligenceOLAP(联机分析处理): Online Analytical Processing OLTP(联机事务处理): Online Transaction Processing ETL(提取/变换/装入): Extraction/Transformation/LoadingKDD(数据中的知识发现):Knowledge Discovery in DatabasesLecture 1.【知识发现的主要过程】(1)数据清理(消除噪声和不一致的数据)(2)数据集成(多种数据源可以组合在一起)(3)数据选择(从数据库中提取与分析任务相关的数据)(4)数据变换(数据变换或同意成适合挖掘的形式,如通过汇总或聚集操作)(5)数据挖掘(基本步骤,使用只能方法提取数据模式)(6)模式评估(根据某种兴趣度度量,识别表示只是的真正有趣的模式)(7)知识表示(使用可视化和只是表示技术,向用户提供挖掘的知识)【挖掘的知识类型】(1)概念描述:特征划与区分(概化、摘要、以及对比数据特征)(2)关联(相关性或者因果关系)(3)分类与预测:对类或概念构造模型或函数以便对未来数据进行预测(4)聚类分析:类标识符是未知的,把数据分成不同的新类,使得同一个类中的元素具有极大的相似性,不同类元素的相似性极小。
(5)趋势与偏差分析:序列模式挖掘(6)孤立点分析:孤立点,不符合该类数据的通用行为的数据,不是噪声或异常。
【数据挖掘在互联网、移动互联网的应用】(1)Web用法挖掘(Web日志挖掘):在分布式信息环境下捕获用户访问模式(2)权威Web页面分析:根据Web页面的重要性、影响和主题,帮助对Web页面定秩(3)自动Web页面聚类和分类:给予页面的内容,以多维的方式对Web页面分组和安排(4)Web社区分析:识别隐藏的Web社会网络和社团,并观察它们的演变Lecture 2.【为什么需要数据预处理】现实世界中的数据很“脏”,具有以下特性:(1)不完整的: 缺少属性值, 感兴趣的属性缺少属性值, 或仅包含聚集数据(2)含噪声的: 包含错误或存在孤立点(3)不一致的: 在名称或代码之间存在着差异数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。
第一章1.数据发掘定义:从大批的、不完好的、有噪声的、模糊的、随机的数据中,提取隐含在此中的、人们早先不知道的、但又是潜伏实用的信息和知识的过程。
2.不可以在原数据库上做决议而要建筑数据库房的原由:传统数据库的办理方式和决议剖析中的数据需求不相当,主要表此刻:⑴决议办理的系统响应问题⑵决议数据需求的问题⑶决议数据操作的问题3.数据库房的定义W.H.Inmon 的定义:数据库房是一个面向主题的、集成的、非易失的且随时间变化的数据会合,用来支持管理人员的决议。
公认的数据库房看法基本上采纳了W.H.Inmon 的定义:数据库房是面向主题的、集成的、不行更新的(稳固性)随时间不停变化(不一样时间)的数据会合,用以支持经营管理中的决议拟订过程。
4.数据库房与数据发掘的关系:⑴数据库房系统的数据能够作为数据发掘的数据源。
数据库房系统能够知够数据发掘技术对数据环境的要求,能够直接作为数据发掘的数据源。
⑵数据发掘的数据源不必定一定是数据库房系统。
数据发掘的数据源不必定一定是数据库房,可以是任何数据文件或格式,但一定早先进行数据预办理,办理成适合数据发掘的数据。
5.数据发掘的功能—— 7 个方面:⑴看法描绘:对某类对象的内涵进行描绘,并归纳这种对象的有关特点。
①特点性描绘②差异性描绘⑵关系剖析:若两个或多个变量间存在着某种规律性,就称为关系。
关系剖析的目的就是找出数据中隐蔽的关系网。
⑶分类与展望①分类②展望⑷聚类剖析:客观的按被办理对象的特点分类,将有相同特点的对象归为一类。
⑸趋向剖析:趋向剖析——时间序列剖析,从相当长的时间的发展中发现规律和趋向。
⑹孤立点剖析:孤立点:数据库中包含的一些与数据的一般行为或模型不一致的数据。
⑺偏差剖析:偏差剖析——比较剖析,是对差异和极端特例的描绘,揭露事物偏离惯例的异样现象。
6.数据发掘常用技术:⑴数据发掘算法是数据发掘技术的一部分⑵数据发掘技术用于履行数据发掘功能。
⑶一个特定的数据发掘功能只合用于给定的领域。
第一章
为什么要提出数据挖掘?
面临的挑战:
●数据太多,信息太少
●难以发掘潜在的规则
●难以交互分析了解各种组合
●难以追溯历史数据成为孤岛
●随着数据量的增大,难度越来越大
解决的问题:
●数据挖掘找出潜在规则,辅助决策
●OLAP、数据分析提供了更及时、更丰富的信息
●报表系统提供了最基本的信息
应用:
●市场分析与管理
●风险分析与管理
●欺诈检测与异常模式检测
●文本挖掘(news group, email, documents),Web 挖掘
●流数据挖掘
●生物信息学与生物数据分析
什么是数据挖掘?
从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。
⏹非平凡(的过程):有一定的智能性、自动性(仅仅给出所有数据之和不能
算做一个发现过程)。
⏹有效性:所发现的模式对新的数据仍保持一定的可信度。
⏹潜在有用性:所发现的模式将来有实际的效用。
⏹新颖性:所发现的模式应该是新的。
⏹最终可理解性:能被用户理解,如:简洁性
⏹有趣性:有效性、新颖性、潜在有用性、最终可理解性的综合
数据挖掘过程:
数据清洗:消除噪音和不一致数据
数据集成:多种数据源可以组合在一起
数据选择:从数据库中提取与分析任务相关的数据
数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作
数据挖掘:基本步骤,使用智能方法提取数据模式
模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的知识
知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识
数据挖掘: 哪些数据类型?
关系数据库、数据仓库、事务数据库、空间数据、工程设计数据、超文本或多媒体数据、时间相关的数据、流数据和万维网
数据挖掘的功能
一般功能
●描述性的数据挖掘
●预测性的数据挖掘
数据挖掘可以挖掘哪些模式?
⏹概念/类描述: 特性化和区分(定性与对比)
概念描述(concept description):对含有大量数据的数据集合进行概述性的
总结并获得简明、准确的描述。
特征化:目标类数据的一般特征或特征的汇总。
(归类)
区分:将目标类数据对象的一般特征与一个或多个对比类对象的一般特征的
汇总描述
⏹关联分析
关联规则挖掘:发现大量数据中项集之间有趣的关联
基本表示形式:前提条件⇒结论[支持度, 置信度]
buys(x, “diapers”) ⇒buys(x, “beers”) [0.5%, 66%]
major(x, “CS”) takes(x, “DB”) ⇒grade(x, “A”) [1%, 75%]
⏹分类和预测
分类过程:找出描述和区分数据类或概念的模型(或函数),以便能够使用
模型预测类标号未知的对象类
预测: 多用于连续的数值数据
⏹聚类分析
聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类
是未知的,故此,这是一个“无指导的学习”(unsupervised learning)过程
⏹孤立点分析
与数据的一般行为或模式不一致。
多数为噪声或异常数据,常被剔除。
⏹趋势和演变分析
对随时间变化的数据对象的变化规律和演化趋势进行建模分析。
(时序数
据库)
方法:
趋势和偏差: 回归分析
序列模式匹配:周期性分析
基于类似性的分析
数据挖掘系统分类
Top-10 数据挖掘算法
⏹#1: C4.5 (61 votes)
⏹#2: K-Means (60 votes)
⏹#3: SVM (58 votes)
⏹#4: Apriori (52 votes)
⏹#5: EM (48 votes)
⏹#6: PageRank (46 votes)
⏹#7: AdaBoost (45 votes)
⏹#7: kNN (45 votes)
⏹#7: Naive Bayes (45 votes)
⏹#10: CART (34 votes)
数据挖掘的主要问题
1、数据挖掘技术和用户交互问题
a)挖掘数据库中不同类型的知识
b)多个抽象层的交互知识挖掘
c)结合背景知识
d)数据挖掘查询语言和特定的数据挖掘
e)数据挖掘结果的表示和可视化
f)处理噪声和不完全数据
g)模式评估即兴趣度问题
2、关于数据库类型的多样性问题
a)关系的和复杂的数据类型的处理
b)从异构数据库和全球信息系统挖掘信息
3、性能问题
a)数据挖掘算法的有效性和可伸缩性
b)并行、分布和增量数据挖掘算法
总结
数据库技术已经从原始的数据处理,发展到开发具有查询和事务处理能力的数据库管理系统。
进一步的发展导致越来越需要有效的数据分析和数据理解工具。
这种需求是各种应用收集的数据爆炸性增长的必然结果;这些应用包括商务和管理、行政管理、科学和工程、环境控制。
数据挖掘是从大量数据中发现有趣模式,这些数据可以存放在数据库、数据仓库或其它信息存储中。
这是一个年青的跨学科领域,源于诸如数据库系统、数据仓库、统计、机器学习、数据可视频化、信息提取和高性能计算。
其它有贡献的领域包括神经网络、模式识别、空间数据分析、图象数据库、信号处理和一些应用领域,包括商务、经济和生物信息学。
知识发现过程包括数据清理、数据集成、数据变换、数据挖掘、模式评估和知识表示。
数据模式可以从不同类型的数据库挖掘;如关系数据库,数据仓库,事务的、对象-关系的和面向对象的数据库。
有趣的数据模式也可以从其它类型的信息存储中提取,包括空间的、时间相关的、文本的、多媒体的和遗产数据库,以及万维网。
数据仓库是一种数据的长期存储,这些数据来自多数据源,是有组织的,以便支持管理决策。
这些数据在一种一致的模式下存放,并且通常是汇总的。
数据仓库提供一些数据分析能力,称作OLAP(联机分析处理)。
数据挖掘功能包括发现概念/类描述、关联、分类、预测、聚类、趋势分析、偏差分析和类似性分析。
特征和区分是数据汇总的形式。
模式提供知识,如果它易于被人理解、在某种程度上对于测试数据是有效的、潜在有用的、新颖的,或者它验证了用户关注的某种预感。
模式兴趣度度量,无论是客观的还是主观的,都可以用来指导发现过程。
数据挖掘系统可以根据所挖掘的数据库类型、所挖掘的知识类型、或所使用的技术加以分类。
大型数据库中有效的数据挖掘对于研究者和开发者提出了大量需求和巨大的挑战。
问题涉及数据挖掘技术、用户交互、性能和可规模性、以及大量不同数据类型的处理。
其它问题包括数据挖掘的应用开发和它们的社会影响。