当前位置:文档之家› 数据挖掘作业

数据挖掘作业

数据挖掘作业
数据挖掘作业

《数据挖掘》作业

第一章引言

一、填空题

(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示

(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习

(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘

(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据

二、单选题

(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:B

A、所涉及的算法的复杂性;

B、所涉及的数据量;

C、计算结果的表现形式;

D、是否使用了人工智能技术

(2)孤立点挖掘适用于下列哪种场合?D

A、目标市场分析

B、购物篮分析

C、模式识别

D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析

A. 关联分析

B.分类和预测

C.聚类分析

D. 演变分析

(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能

A、选择任务相关的数据

B、选择要挖掘的知识类型

C、模式的兴趣度度量

D、模式的可视化表示

(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析

A、关联分析

B、分类和预测

C、聚类分析

D、演变分析

(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是(B )

A.关联分析

B.分类和预测

C. 演变分析

D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )

A.关联分析

B.分类和预测

C.聚类分析

D. 孤立点分析

E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )

A.关联分析

B.分类和预测

C. 孤立点分析

D. 演变分析

E. 概念描述

三、简答题

(1)什么是数据挖掘?

答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

(2)一个典型的数据挖掘系统应该包括哪些组成部分?

答:一个典型的数据挖掘系统应该包括以下部分:

数据库、数据仓库或其他信息库

数据库或数据仓库服务器

知识库

数据挖掘引擎

模式评估模块

图形用户界面

(3)请简述不同历史时代数据库技术的演化。

答:1960年代和以前:研究文件系统。

1970年代:出现层次数据库和网状数据库。

1980年代早期:关系数据模型, 关系数据库管理系统(RDBMS)的实现

1980年代后期:出现各种高级数据库系统(如:扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等。

1990年代:研究的重点转移到数据挖掘, 数据仓库, 多媒体数据库和网络数据库。

2000年代:人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML 数据库和整合的信息系统。

(4)请列举数据挖掘应用常见的数据源。

(或者说,我们都在什么样的数据上进行数据挖掘)

答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。

(5)什么是模式兴趣度的客观度量和主观度量?

答:客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如:支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如:出乎意料的、新颖的、可行动的等等。

(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?

答:一个模式是有趣的,如果(1) 它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?

答:根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。

第二章数据仓库和数据挖掘的OLAP技术

一、填空题

一、(1)数据仓库的多维数据模型可以有三种不同的形式,分别是:星形模式、雪花模式

和事实星座模式

(2)给定基本方体,方体的物化有三种选择:不物化、部分物化和全物化

(3)著名的数据仓库系统设计师W. H. Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:面向主题、数据集成、随时间而变化和数据不易丢失

(4)在数据访问模式上,数据仓库以事务操作为主,而日常应用数据库则以只读查询为主。

(5)数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:分布的、代数的和整体的

(6)关于数据仓库的设计,四种不同的视图必须考虑,分别是:自顶向下视图、数据源视图、数据仓库视图、商务查询视图

(7)OLAP服务器的类型主要包括:关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)

和混合OLAP服务器(HOLAP)

(8)求和函数sum()是一个分布的的函数。

(9)方体计算的主要挑战是海量数据和有限的内存和时间之间的矛盾。

二、单选题

(1)下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作B

A、上卷(roll-up)

B、选择(select)

C、切片(slice)

D、转轴(pivot) (2)以下哪个范围是数据仓库的数据库规模的一个合理范围D

A、1-100M

B、100M-10G

C、10-1000G

D、100GB-数TB (3)存放最低层汇总的方体称为:C

A、顶点方体

B、方体的格

C、基本方体

D、维

(4)哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?A

A、上卷

B、下钻

C、切块

D、转轴

(5)平均值函数avg()属于哪种类型的度量?B

A、分布的

B、代数的

C、整体的

D、混合的

三、多选题

(1)OLAP系统和OLTP系统的主要区别包括( ABD )。

A、OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据;

B、在数据的存取上,OLTP系统比OLAP系统有着更多的写操作;

C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多;

D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据。

(2)从结构的角度看,数据仓库模型包括以下几类:ABC

A、企业仓库

B、数据集市

C、虚拟仓库

D、信息仓库

(3)数据仓库的三层架构主要包括以下哪三部分?BCD

A、数据源

B、数据仓库服务器

C、OLAP服务器

D、前端工具

(4)以下哪些是数据仓库的主要应用?ACD

A、信息处理

B、互联网搜索

C、分析处理

D、数据挖掘

四、简答题

(1)为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。

答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:

(1)提高两个系统的性能

操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处

理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为

复杂的OLAP查询, 多维视图,汇总等OLAP功能提供了优化。

(2)两者有着不同的功能

操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访

问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著

降低OLAP的性能。

(3)两者有着不同的数据

数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。

(2)为什么说数据仓库具有随时间而变化的特征?

答:(1)数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息(比如过去5-10 年)。

(2)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。

(3)试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法?

答:因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。

(4)请简述几种典型的多维数据的OLAP操作

答:典型的OLAP操作包括以下几种

上卷:通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集;

下钻:上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以通过沿维的概念分层向下或引入新的维来实现;

切片:在给定的数据立方体的一个维上进行选择,导致一个子方;

切块:通过对两个或多个维执行选择,定义子方;

转轴:转动数据的视角,提供数据的替代表示;

钻过:执行涉及多个事实表的查询;

钻透:使用关系SQL机制,钻到数据立方体的底层,到后端关系表

(5)为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?

答:(1)尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的,操作数据库的更新操作不会出现在数据仓库环境下。

(2)数据仓库不需要事务处理,恢复,和并发控制等机制。

(3)数据仓库只需要两种数据访问:数据的初始转载和数据访问(读操作)。

(6)假定Big_University的数据仓库包含如下4个维:student, course, semester和instructor;2个度量:count和avg_grade。在最低得到概念层(例如,对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。在较高的概念层,avg_grade存放给定组合的平均成绩。

(a)为数据仓库画出雪花模式图。

(b)由基本方体[student, course, semester, instructor]开始,为列出Big_University每个学

生的CS课程的平均成绩,应当使用哪些OLAP操作(如,由学期上卷到学年)。

(c)如果每维有5层(包括all),如student < major < status < university < all,该数据

方包含多少方体(包含基本方体和顶点方体)?

(7)在数据仓库中,元数据的主要用途包括哪些?

答:在数据仓库中,元数据的主要用途包括:

(1)用作目录,帮助决策支持系统分析者对数据仓库的内容定义

(2)作为数据仓库和操作性数据库之间进行数据转换时的映射标准

(3)用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。

(8)数据仓库后端工具和程序包括哪些?

答:数据仓库后端工具主要指的是用来装入和刷新数据的工具,包括:

(1) 数据提取:从多个外部的异构数据源收集数据

(2) 数据清理:检测数据种的错误并作可能的订正

(3) 数据变换:将数据由历史或主机的格式转化为数据仓库的格式

(4) 装载:排序、汇总、合并、计算视图,检查完整性,并建立索引和分区

(5) 刷新:将数据源的更新传播到数据仓库中

五、计算题

(1)假定基本立方体有三个维A ,B ,C ,其单元数如下:|A|=100,000,|B|=10,000,|C|=1,000,假定分块将每维分成10部分

a. 请指出方体中内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序;

b. 分别求这两个次序下计算二维平面所需要的内存空间的大小。

答:a. 内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序分别如下图所示:

ABC

BC AC AB A

B

C all 内存空间需求最小的块计算次序ABC BC

AC

AB

A B

C

all

内存空间需求最大的块计算次序 b. 这两个次序下计算二维平面所需要的内存空间的大小:

内存空间需求最小的次序:10,000×1,000(用于整个BC 平面)+(100,000/10)×1,000(用于AC 平面的一行)+(100,000/10)×(10,000/10)(用于AB 平面的一格)=30,000,000 内存空间需求量最大的块计算次序:

100,000×10,000(用于整个AB 平面)+100,000×(1,000/10)(用于AC 平面的一行)+(10,000/10)×(1,000/10)=1,010,100,000

第三章 数据预处理

一、填空题

(1)进行数据预处理时所使用的主要方法包括:数据清理、数据集成、数据变换、数据规约

(2)处理噪声数据的方法主要包括:分箱、聚类、计算机和人工检查结合、回归

(3)模式集成的主要问题包括:整合不同数据源中的元数据 和 实体识别问题

(4)数据概化是指:沿概念分层向上概化

(5)数据压缩可分为:有损压缩和无损压缩两种类型。

(6)进行数值归约时,三种常用的有参方法是:线性回归方法,多元回归,对数线性模型(7)数据离散度的最常用度量是五数概括、中间四分位数区间、标准差

二、单选题

(1)数据归约的目的是( C )

A、填补数据种的空缺值

B、集成多个数据源的数据

C、得到数据集的压缩表示

D、规范化数据

(2)下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?A

A.数据清理

B.数据集成

C.数据变换

D.数据归约

(3)进行数据规范化的目的是( D )

A.去掉数据中的噪声

B.对数据进行汇总和聚集

C.使用概念分层,用高层次概念替换低层次“原始”数据

D.将属性按比例缩放,使之落入一个小的特定区间

(4)数据的噪声是指(C )

A、孤立点

B、空缺值

C、测量变量中的随即错误或偏差

D、数据变换引起的错误

(5)那种数据变换的方法将数据沿概念分层向上汇总 C

A、平滑

B、聚集

C、数据概化

D、规范化

(6)( B )通过将属性域划分为区间,从而减少给定连续值的个数。

A.概念分层

B.离散化

C.分箱

D. 直方图

三、多选题

(1)下面哪些问题是我们进行数据预处理的原因?ABC

A.数据中的空缺值

B.噪声数据

C.数据中的不一致性

D.数据中的概念分层

(2)下面的度量中,哪些是数据离散度的度量?BD

A.中位数

B.标准差

C.模

D.中间四分位数区间

(3)数据清理的目的是处理数据中的(ABC )

A、空缺值

B、噪声数据

C、不一致数据

D、敏感数据

(4)下列哪些是数据变换可能涉及的内容?BD

A、数据压缩

B、数据概化

C、维归约

D、规范化

(5)以下哪些原因可能引起空缺值ACD

A、设备异常

B、命名规则的不一致

C、与其他已有数据不一致而被删除

D、在输入时,有些数据因为得不到重视而没有被输入

四、简答题

(1)常用的数值属性概念分层的方法有哪些?

答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。

(2)典型的生成分类数据的概念分层的方法有哪些?

答:典型的生成分类数据的概念分层的方法包括:

(1)由用户或专家在模式级显示的说明属性的部分序;

(2)通过显示数据分组说明分层结构的一部分。

(3)说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。

(4)对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性。

(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。

答:处理空缺值的方法有:

(1)忽略元组。当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。

(2)人工填写空缺值。这种方法工作量大,可行性低

(3)使用一个全局变量填充空缺值:比如使用unknown或-∞

(4)使用属性的平均值填充空缺值

(5)使用与给定元组属同一类的所有样本的平均值

(6)使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样的基于推断的方法

(4)常见的数据归约策略包括哪些?

答:数据归约策略包括:

(1)数据立方体聚集

(2)维归约

(3)数据压缩

(4)数值归约

(5)离散化和概念分层产生

第四章数据挖掘原语、语言和系统结构

一、填空题

(1)概念分层有四种类型,分别是:模式分层,集合分组分层,操作导出的分层,基于规则的分层

(2)常用的四种兴趣度的客观度量是:简单性、确定性、实用性、新颖性

(3)同时满足最小置信度临界值和最小支持度临界值的关联规则称为强关联规则。

二、单选题

(1)以下DMQL片断:C

mine associations as buyingHabits

matching P(X : customer, W) ∧ Q(X, Y) => buys (X, Z)

所指定的挖掘知识类型是:

A、特征化

B、区分

C、关联

D、分类

(2)以下哪种数据挖掘系统与数据库/数据仓库系统集成方式将会使数据挖掘系统达到最好的性能?D

A、不耦合

B、松散耦合

C、半紧密耦合

D、紧密耦合

三、多选题

(1)以下哪些OLAP操作是和概念分层紧密相关的?AC

A、上卷

B、切片

C、下钻

D、切块

四、简答题

(1)定义数据挖掘任务的原语,主要应该包括哪些部分?

答:一个定义数据挖掘任务的原语主要应该包括以下部分的说明:

说明数据库的部分或用户感兴趣的数据集;

要挖掘的知识类型;

用于指导挖掘的背景知识;

模式评估、兴趣度量;

如何显示发现的知识。

(2)为什么需要数据挖掘原语和语言来指导数据挖掘?

答:如果不使用数据挖掘原语和语言来指导数据挖掘

(1)会产生大量模式(重新把知识淹没)

(2)会涵盖所有数据,使得挖掘效率低下

(3)大部分有价值的模式集可能被忽略

(4)挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性——令人不感兴趣。

(3)描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。

答:不耦合:DM系统不利用DB/DW系统的任何功能。这种集成结构简单,但是没有利用数据库的功能意味着信息分析处理借助第三方工具,这使得系统的构建和集成变得很困难。

松散耦合:DM系统将使用DB/DW系统的某些功能。这种集成结构简单地利用DB/DW提供的数据查询功能,没有使用DB/DW的后台优化,算法大部分是基于内存的,性能和可扩展性差。

半紧密耦合:除了将DM系统连接到一个DB/DW系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)可以在DB/DW系统中实现。如此一来,一些中间的挖掘结果可以在DB/DW上实现计算或有效的即时计算,性能会有较大提高。

紧密耦合:DM系统平滑的集成到DB/DW系统中。数据挖掘子系统被视为信息挖掘子系统的一部分,数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。这种结构提供了一个统一的信息处理平台,功能、性能等方面都会达到一个高水平。

(4)数据挖掘的GUI可能包含哪些部分?

答:数据挖掘的GUI可能包含以下部分:

(1)数据收集和数据查询编辑

(2)发现模式的表示

(3)分层结构说明和操纵

(4)数据挖掘原语的操作

(5)交互的多层挖掘

(6)其他各种信息

第五章概念描述:特征化与比较

一、填空题

(1)概念描述由特征化和区分组成。

(2)一般来说,进行类比较的过程应该包括以下几个步骤:数据收集、维相关分析、同步概化、导出比较的表示

(3)从数据分析的角度看,数据挖掘可以分为两类:描述性挖掘和预测性挖掘

(4)属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。可采用的度量包括:信息增益、Gini索引、不确定性和相关系数

(5)数据离散度的最常用度量包括:五数概括、中间四分位数区间、标准差

二、单选题

(1)类比较的过程中,我们在哪个步骤得到主目标类关系/方体和主对比类关系/方体?C

A、数据收集

B、维相关分析

C、同步概化

D、导出比较的表示

(2)哪种图形显示方法常用于描述两个变量间的依赖模式?D

A、直方图

B、分位数图

C、散布图

D、LOESS曲线

(3)哪种图形显示方法常用于确定两个量化的变量之间看上去是否有联系、模式或者趋势?C

A、直方图

B、分位数图

C、散布图

D、LOESS曲线

(4)哪种图形显示方法用于显示所有的数据,允许用户评估总的情况和不寻常情况的出现?B

A、直方图

B、分位数图

C、散布图

D、LOESS曲线

(5)中心趋势度量模(mode)是指B

A、算术平均值

B、数据集中出现频率最高的值

C、最大值

D、最小值

三、多选题

(1)下面哪些是常用的数据概化方法?BD

A、离散化

B、数据立方体(OLAP技术)

C、判定归纳树

D、面向属性的归纳

(2)使用数据立方体方法进行数据概化的优点包括:ABD

A、数据概化的一种有效实现

B、可以计算各种不同的度量值

C、受数据类型和度量类型的约束比较少

D、概化和特征分析通过一系列的数据立方体操作完成,简单高效

(3)以下哪些是属于中心趋势的度量AD

A、平均值

B、标准差

C、五数概括

D、中位数

四、简答题

(1)简述类比较的过程。

答:类比较的过程一般包括以下四个步骤:

(1)数据收集

通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对

比类;

(2)维相关分析

使用属性相关分析方法,使我们的任务中仅包含强相关的维;

(3)同步概化

同步的在目标类和对比类上进行概化,得到主目标类关系/方体和主对比类关系/

方体;

(4)导出比较的表示

用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间

的比较。

(2)简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。

答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的技术值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。

使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;

使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。

(3)简述概念描述的属性相关分析的基本步骤。

答:(1)数据收集:通过查询处理,收集目标类和对比类的数据;

(2)使用保守的AOI进行预相关分析:这一步识别属性和维的集合,选择的相关性度量用于他们;

(3)使用选定的相关分析度量删除不相关和弱相关属性:使用选定的相关分析度量,评估候选关系中的每个属性;

(4)使用AOI产生概念描述:使用一组不太保守的属性概化临界值进行AOI。(4)简要叙述概念描述和OLAP之间的主要区别。

答:两者的主要区别有:

(1)概念描述可以处理复杂数据类型的属性及其聚集,而实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),

表现为一种简单的数据分析模型。

(2)OLAP是一个由用户控制的过程,而概念描述是一个更加自动化的过程。(5)为什么进行属性相关分析?

答:数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程,这使得这个过程中需要有很多用户干预。用户必须告诉系统哪些维或属性应当包含在类分析中。如果选择的属性太少,则造成挖掘的描述结果不正确;属性太多,浪费计算、淹没知识。通过属性相关分析,可以更容易地发现属性之间的相关性,滤掉统计上不相关或弱相关的属性,保留对手头数据挖掘任务最相关的属性。

(6)简述进行概念描述时,面向数据库的方法和机器学习的主要区别。

答:面向数据库的方法指的是面向大型数据库的概念描述的概化方法,使用基于数据立方体的方法或面向属性的归纳的方法。机器学习使用示例学习的范例,在概念集或标定训练样本集上进行,通过检验这些集合在学习中导出关于描述类的假定。

(7)什么是概念描述的增量挖掘?

答:增量挖掘根据数据库中新增的数据△DB来修正挖掘的结果,而不是重新从修正过的数据库中进行挖掘而得到结果。

第六章大型数据库中的关联规则挖掘

一、填空题

(1)关联规则挖掘中,两个主要的兴趣度度量是:支持度和置信度

(2)Aprior算法包括连接和剪枝两个基本步骤

(3)项集的频率是指包含项集的事务数

(4)大型数据库中的关联规则挖掘包含两个过程:找出所有频繁项集、由频繁项集产生强关联规则

(5)根据规则中所处理的值类型,关联规则可分为:布尔关联规则、量化关联规则

(6)Apriori性质是指:频繁项集的所有非空子集也必须是频繁的

(7)挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法:量化属性的静态离散化、量化关联规则、基于距离的关联规则

(8)对于频繁项集挖掘,在挖掘过程中使用的约束包括以下五种类型:反单调的、单调的、简洁的、可转变的、不可转变的

(9)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集

二、单选题

(1)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析。

A、关联分析

B、分类和预测

C、聚类分析

D、演变分析(2)支持度(support)是衡量兴趣度度量( A )的指标。

A、实用性

B、确定性 C.、简洁性D、新颖性

(3)置信度(confidence)是衡量兴趣度度量( B )的指标。

A、简洁性

B、确定性 C.、实用性D、新颖性

(4)根据关联分析中所处理的值类型,可以将关联规则分类为:( B )

A、布尔关联规则和量化关联规则

B、单维关联规则和多维关联规则

C、单层关联规则和多层关联规则

D、简答关联规则和复杂关联规则

(5)规则:age(X,”19-25”) ∧buys(X, “popcorn”) => buys(X, “coke”)是一个C

A、单维关联规则

B、多维关联规则

C、混合维关联规则

D、不是一个关联规则

三、多选题

(1)根据关联分析中所涉及的抽象层,可以将关联规则分类为:(BD )

A、布尔关联规则

B、单层关联规则

C、多维关联规则

D、多层关联规则(2)根据关联分析中所涉及的数据维,可以将关联规则分类为:(BC )

A、布尔关联规则

B、单维关联规则

C、多维关联规则

D、多层关联规则(3)Apriori算法所面临的主要的挑战包括:ABD

A、会消耗大量的内存

B、会产生大量的候选项集

C、对候选项集的支持度计算非常繁琐

D、要对数据进行多次扫描

四、简答题

(1)对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?

答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:

逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;

层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;

层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。它是上述两个极端策略的折中。

(2)给出一个例子,表明强关联规则中的项可能实际上是负相关的。

答:例如教材《数据挖掘:概念与技术》中例6.6和表6.4。

(3)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。

答:对所有层都使用一致的最小支持度,优点在于:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索;缺点在于:最小支持度值设置困难,如果设置太高,将丢掉出现在较低抽象层中有意义的关联规则,如果设置太低,会在较高层产生太多的无兴趣的规则。

(4)什么是简洁性约束?

答:一个约束被称为简洁的,如果我们可以列出并仅仅列出所有确保满足该约束的集合。利用简洁性约束,我们可以在计数前进行剪枝,从而避免产生-测试方式的过大开销。

第七章分类和预测

一、填空题

(1)通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性(2)防止分类中的过分适应的两种方法分别是:先剪枝和后剪枝

二、单选题

(1)下面哪种分类方法是属于神经网络学习算法?( C )

A、判定树归纳

B、贝叶斯分类

C、后向传播分类

D、基于案例的推理(2)下面哪种分类方法是属于统计学的分类方法?(B )

A、判定树归纳

B、贝叶斯分类

C、后向传播分类

D、基于案例的推理(3)下列哪个描述是正确的?( C )

A、分类和聚类都是有指导的学习C、分类是有指导的学习,聚类是无指导的学习

B、分类和聚类都是无指导的学习D、分类是无指导的学习,聚类是有指导的学习

三、简答题

(1)简述判定树分类的主要步骤。

答:首先是生成判定树。分为2个步骤:

(1)归纳生成判定树。开始时,所有的训练样本都在根节点,然后递归的通过选定的离散值属性,来划分样本,直至满足停止条件。

(2)树剪枝。许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝

接下来在判定树的使用中,对于某一未知样本,通过将样本的属性值与判定树相比

较来判断其类别归属。

(2)在判定树归纳中,为什么树剪枝是有用的?

答:当判定树创建时,由于数据中的噪声和孤立点,许多分枝反应的是训练数据中的异常。剪枝方法处理这种过分适应数据的问题。通常,这种方法使用统计度量,剪去最不可靠的分枝,这将导致较快的分类,提高树独立于测试数据正确分类的可靠性。

(3)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。

答:朴素贝叶斯分类被称为“朴素”的原因是计算元组的类条件出现概率时,做了类

条件独立的朴素假定。贝叶斯分类的主要思想参考教材《数据挖掘:概念与技术》7.4.2小节。

(4)请简述判定树归纳算法的基本策略。

答:

1.树以代表训练样本的单个节点开始

2.如果样本都在同一个类,则该节点成为树叶,并用该类标记

3.否则,算法使用基于熵的度量——信息增益作为指导信息,选择能够最好的将

样本分类的属性;该属性成为节点的“测试”或“判定”属性。(使用分类属性)

4.对测试属性每个已知的值,创建一个分支,并以此划分样本

5.算法使用同样的过程,递归的形成每个划分上的样本判定树。一旦一个属性出

现在一个节点上,就不在该节点的任何子节点上出现

6.递归划分步骤停止的条件有:(1)给定节点的所有样本属于同一类(2)没有剩

余属性可以用来进一步划分样本——使用多数表决(3)没有剩余的样本

(5)对分类和预测方法进行比较和评估的标准都有哪些?

答:(1)导出分类法后,再使用训练数据评估分类法,这种方法可能错误的导致乐观的估计。

(2)保持方法:给定数据随机划分为两个集合:训练集(2/3)和测试集(1/3)。训练集导出分类法,测试集对其准确性进行评估。随机子选样是保持方法的一个变形,将保持方法重复k次,然后取准确率的平均值。

(3)k-折交叉确认:初始数据被划分为k个不相交的,大小大致相同的子集S1,S2…

Sk。进行k次训练和测试,第i次时,以Si做测试集,其他做训练集。准确率为k次迭代正确分类数除以初始数据集样本总数。

(6)简述数据分类的两步过程。

答:第一步,建立一个模型,描述预定数据类集和概念集。训练数据集由为建立模型而被分析的数据元组形成,其中每个元组属于一个预定义的类,由一个类标号属性确定。学习模型可以用分类规则、判定树或数学公式的形式提供。

第二步,使用模型,对将来的或未知的对象进行分类。模型在使用之前,要先评估模型的预测准确率。对每个测试样本,将已知的类标号和该样本的学习模型类预测比较。模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比。测试集要独立于训练样本集,否则会出现“过分适应数据”的情况。

(7)简述后向传播分类的优缺点。

答:优点

(1)预测精度总的来说较高

(2)健壮性好,训练样本中包含错误时也可正常工作

(3)输出可能是离散值、连续值或者是离散或量化属性的向量值

(4)对目标进行分类较快

缺点

(1)训练(学习)时间长

(2)蕴涵在学习的权中的符号含义很难理解

(3)很难跟专业领域知识相整合

四、算法题

(1)使用判定树归纳算法,根据顾客年龄age(分为3个年龄段:<18,18...23,>23),收入income(取值为high,medium,low),是否为student(取值为yes和no),信用

credit_rating等级(取值为fair和excellent)来判定用户是否会购买PC Game,即构建判定树buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益

对age<18的顾客:Gain(income)=0.022,Gain(student)=0.162,Gain(credit_rating)=0.323

对age>23的顾客:Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155

请根据以上结果绘制出判定树buys_PCGame,来判定用户是否会购买PC Game。

判定树buys_PCGame如下所示:

第八章聚类分析

一、填空题

(1)在数据挖掘中,常用的聚类算法包括:划分方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。

(2)聚类分析常作为一个独立的工具来获得数据分布的情况

(3)一个好的聚类分析方法会产生高质量的聚类,具有两个特征:高类内相似度、低类间相似度

(4)许多基于内存的聚类算法所常用的两种数据结构是数据矩阵、相异度矩阵

(5)基于网格的聚类方法的优点是:处理数度快

(6)孤立点产生的主要原因包括:度量或执行错误、数据变异的结果

(7)在基于统计的孤立点检测中,常用于不一致性检验的参数包括:数据分布、分布参数、预期的孤立点数

二、单选题

(1)下面那种数据挖掘方法可以用来检测孤立点?C

A.概念描述

B.分类和预测

C.聚类分析

D.演变分析

(2)以下哪个指标不是表示对象间的相似度和相异度 C

A、Euclidean距离

B、Manhattan距离

C、Eula距离

D、Minkowski距离(3)以下哪种聚类方法可以发现任意形状的聚类?C

A、划分的方法

B、基于模型的方法

C、基于密度的方法

D、层次的方法

三、简答题

(1)数据挖掘对聚类分析有哪些要求?

答:(1)可扩展性:大多数来自于机器学习和统计学领域的聚类算法只在处理数百条数据时能表现出高效率

(2)能够处理不同的数据类型

(3)发现任意形状聚类的能力

(4)最小化用于决定输入参数的领域知识

(5)能够处理噪声数据

(6)对于输入数据的顺序不敏感:同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果

(7)能够高效地处理高维数据

(8)支持基于约束的聚类

(9)可解释性和可用性:聚类要和特定的语义解释和应用相联系

(2)简述基于划分的聚类方法。划分的准则是什么?

答:给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,并且k<=n。每个簇至少包含一个对象,每个对象或元组属于且仅属于一个簇。划分的准则是同一个聚类中的对象尽可能地接近或相关,不同聚类中的对象尽可能地远离或不同。

(3)列举孤立点挖掘的常见应用。

答:孤立点挖掘的常见应用有

(1)信用卡欺诈检测

(2)移动电话欺诈检测

(3)客户划分

(4)医疗分析(异常)

(4)简单地描述如何计算由如下类型的变量描述的对象间的相异度:

a) 不对称的二元变量

b) 标称变量

c) 比例标度型(ratio-scaled )变量

d) 数值型的变量

答:a) 不对称的二元变量中,变量的两个状态的重要性是不同的。基于不对称的二元变量的相似度称为非恒定的相似度,可以使用Jaccard 系数评估它们的相异度:

b) 有两种方法。

方法一:简单匹配方法。设m 为匹配的数目,即对象i 和j 取值相同的变量的数目 (也可加上权重),i ,j 之间的相异度可由下式计算:

方法二:对M 个标称状态中的每个状态创建一个新的二元变量,并用M 个非对称的二元变量来编码标称变量。对于每一个元组中的变量,只有相应值的二元变量取1,其他二元变量取0。这样一来,就可以使用不对称二元变量的计算方法计算对象间的相异度了。

c)

如果采用与区间标度变量同样的方法,标度可能被扭曲,效果往往不好。可以对比例标度型变量进行对数变化之后进行与区间标度变量的相似处理,或者将比例标度型变量看作连续的序数型数据,将其秩作为区间标度的值来对待。

d) 数值型变量在可选的标准化后直接使用Manhattan 距离或Euclidean 距离来计算相异度。

(5)给出一个特定的聚类方法如何被综合使用的例子,例如,什么情况下一个聚类算法被用作另一个算法的预处理步骤。

答:例如,在网页结构化信息抽取的应用中,首先根据页面结构对网页进行聚类,然后在不同的网页聚类分组中挖掘共性的模板。

第九章 电子商务与数据挖掘

一、填空题

(1)Web 数据挖掘通常包括 内容挖掘、结构挖掘、使用挖掘 三种形式。

(2)进行Web Usage Mining 主要是通过对系统日志信息的数据挖掘,常用的数据源包括: Web 服务器日志、Error Logs 和 Cookies 。

二、简答题

(1)列举WEB 日志的字段。

答:常用的WEB 日志的字段包括以下:

1)远程主机的地址

2)浏览者的email 地址或者其他唯一标识符

3)记录浏览者进行身份验证时提供的名字

4)请求的时间

5)服务器收到的请求类型

6)状态代码,显示请求是否成功 c b a c b j i d +++=),(p m p j i d -=),(

7)发送给客户端的总字节数

(2)跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?

答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括:

电子商务提供海量的数据:

“点击流”(Clickstreams)将会产生电子商务挖掘的大量数据;

丰富的记录信息:

良好的WEB站点设计将有助于获得丰富的关于商品、分类、访客等等信息;

干净的数据:

从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合;

研究成果容易转化:

在电子商务中,很多知识发现都可以进行直接应用;

投资收益容易衡量:

所有数据都是电子化的,可以非常方便的生成各种报表和计算各种收益。

(3)列举WEB使用挖掘(Web Usage Mining)的应用。

答:通过WEB使用挖掘,可以(1)提高站点质量(2)改善WEB缓存,缓解网络交通,提高性能(3)在电子商务中还可捕捉到大量的采购过程的细节,为更加深入的分析提供了可能。

(4)基于Web日志的用户访问模式挖掘有什么缺点?

答:基于Web日志的用户访问模式挖掘的缺点有:

(1)WEB日志提供的数据非常有限,即使使用的是扩展日志格式。

(2)WEB日志的设计目的是分析WEB服务器的运行状况,而不是挖掘电子商务的交易数据和点击流。虽然Web日志中给出了被访问页面的URL,但是

这并不等于知道了该URL所指向的网页内容。

(3)随着互联网上的动态内容越来越多,基于WEB日志的分析与挖掘越来越困难。

(4)重构session十分困难。由于HTTP是无状态的,因此通过Web日志重构session只能依赖于假设与推断,而且用于假设与推断的数据也少得可怜。

(5)一些对数据挖掘很重要的商业相关事件无法由Web日志来决定,例如,购物车中物品数量的增减,网页上的促销信息,失败的关键字检索等等。

(6)Web日志中的内容无法映射到业务逻辑数据库。

(5)电子商务中进行数据挖掘有哪些难点?

答:电子商务中进行数据挖掘的难点有:

(1)爬虫/机器人访问的过滤。

(2)大量数据的处理

(3)分析前的数据变换

(4)提供市场级的决策支持

数据挖掘实验报告

《数据挖掘》Weka实验报告 姓名_学号_ 指导教师 开课学期2015 至2016 学年 2 学期完成日期2015年6月12日

1.实验目的 基于https://www.doczj.com/doc/0f11450553.html,/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采用Weka平台,数据使用来自https://www.doczj.com/doc/0f11450553.html,/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29,主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size (均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁),Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1-10,分类中2代表良性,4代表恶性。通过实验,希望能找出患乳腺癌客户各指标的分布情况。 该数据的数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度;

数据挖掘习题题

数据挖掘复习题 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD? (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法? (D) A变量代换 B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,

数据挖掘期末大作业任务

数据挖掘期末大作业 1.数据挖掘的发展趋势是什么?大数据环境下如何进行数据挖掘。 对于数据挖掘的发展趋势,可以从以下几个方面进行阐述: (1)数据挖掘语言的标准化描述:标准的数据 挖掘语言将有助于数据挖掘的系统化开发。改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。 (2)寻求数据挖掘过程中的可视化方法:可视 化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。 (3)与特定数据存储类型的适应问题:根据不 同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。 (4)网络与分布式环境下的KDD问题:随着 Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。 (5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业等 领域。由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。 (6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处 理系统的主流。 2. 从一个3输入、2输出的系统中获取了10条历史数据,另外,最后条数据是系统的输 入,不知道其对应的输出。请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。 首先,打开SQL SERVER 2005数据库软件,然后在界面上右键单击树形图中的“数据库”标签,在弹出的快捷菜单中选择“新建数据库”命令,并命名数据库的名称为YxqDatabase,单击确定,如下图所示。 然后,在新建的数据库YxqDatabas中,根据题目要求新建表,相应的表属性见下图所示。

北邮模式识别课堂作业答案(参考)

第一次课堂作业 1.人在识别事物时是否可以避免错识 2.如果错识不可避免,那么你是否怀疑你所看到的、听到的、嗅 到的到底是真是的,还是虚假的 3.如果不是,那么你依靠的是什么呢用学术语言该如何表示。 4.我们是以统计学为基础分析模式识别问题,采用的是错误概率 评价分类器性能。如果不采用统计学,你是否能想到还有什么合理地分类 器性能评价指标来替代错误率 1.知觉的特性为选择性、整体性、理解性、恒常性。错觉是错误的知觉,是在特定条件下产生的对客观事物歪曲的知觉。认知是一个过程,需要大脑的参与.人的认知并不神秘,也符合一定的规律,也会产生错误 2.不是 3.辨别事物的最基本方法是计算 . 从不同事物所具有的不同属性为出发点认识事物. 一种是对事物的属性进行度量,属于定量的表示方法(向量表示法 )。另一种则是对事务所包含的成分进行分析,称为定性的描述(结构性描述方法)。 4.风险 第二次课堂作业 作为学生,你需要判断今天的课是否点名。结合该问题(或者其它你熟悉的识别问题,如”天气预报”),说明: 先验概率、后验概率和类条件概率 按照最小错误率如何决策 按照最小风险如何决策 ωi为老师点名的事件,x为判断老师点名的概率 1.先验概率: 指根据以往经验和分析得到的该老师点名的概率,即为先验概率 P(ωi ) 后验概率: 在收到某个消息之后,接收端所了解到的该消息发送的概率称为后验概率。 在上过课之后,了解到的老师点名的概率为后验概率P(ωi|x) 类条件概率:在老师点名这个事件发生的条件下,学生判断老师点名的概率p(x| ωi ) 2. 如果P(ω1|X)>P(ω2|X),则X归为ω1类别 如果P(ω1|X)≤P(ω2|X),则X归为ω2类别 3.1)计算出后验概率 已知P(ωi)和P(X|ωi),i=1,…,c,获得观测到的特征向量X 根据贝叶斯公式计算 j=1,…,x

数据挖掘作业

1、给出K D D的定义和处理过程。 KDD的定义是:从大量数据中提取出可信的、新颖的、有用的且可以被人理解的模式的高级处理过程。因此,KDD是一个高级的处理过程,它从数据集中识别出以模式形式表示的知识。这里的“模式”可以看成知识的雏形,经过验证、完善后形成知识:“高级的处理过程”是指一个多步骤的处理过程,多步骤之间相互影响反复调整,形成一种螺旋式上升的过程。 KDD的全过程有五个步骤:1、数据选择:确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据;2、数据预处理:一般可能包括消除噪声、推到技术却只数据、消除重复记录、完成数据类型转换等;3、数据转换:其主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数;4、数据挖掘:这一阶段包括确定挖掘任务/目的、选择挖掘方法、实施数据挖掘;5、模式解释/评价:数据挖掘阶段发现出来的模式,经过用户或机器的评价,可能存在冗余或无关的模式,需要剔除;也有可能模式不满足用户的要求,需要退回到整个发现阶段之前,重新进行KDD过程。 2、阐述数据挖掘产生的背景和意义。 ?数据挖掘产生的背景:随着信息科技的进步以及电子化时代的到来,人们以更快捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量以指数方式增长。据粗略估计,一个中等规模企业每天要产生100MB以上的商业数据。而电信、银行、大型零售业每天产生的数据量以TB来计算。人们搜集的数据越来越多,剧增的数据背后隐藏着许多重要的信息,人们希望对其进行更高层次的分析,以便更好的利用这些数据。先前的数据库系统可以高效的实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系与规则,无法根据现有的数据来预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段。导致了“数据爆炸但知识贫乏”的现象。于是人们开始提出“要学会选择、提取、抛弃信息”,并且开始考虑:如何才能不被信息淹没?如何从中及时发现有用的知识、提高信息利用率?如何从浩瀚如烟海的资料中选择性的搜集他们认为有用的信息?这给我们带来了另一些头头疼的问题:第一是信息过量,难以消化;第二是信息真假难以辨别;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理?

数据挖掘作业

《数据挖掘》作业 第一章引言 一、填空题 (1)数据库中的知识挖掘(KDD)包括以下七个步骤:、、、、、和 (2)数据挖掘的性能问题主要包括:、和 (3)当前的数据挖掘研究中,最主要的三个研究方向是:、和 (4)在万维网(WWW)上应用的数据挖掘技术常被称为: (5)孤立点是指: 二、单选题 (1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于: A、所涉及的算法的复杂性; B、所涉及的数据量; C、计算结果的表现形式; D、是否使用了人工智能技术 (2)孤立点挖掘适用于下列哪种场合? A、目标市场分析 B、购物篮分析 C、模式识别 D、信用卡欺诈检测(3)下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析 A. 关联分析 B.分类和预测 C.聚类分析 D. 演变分析 (4)下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能 A、选择任务相关的数据 B、选择要挖掘的知识类型 C、模式的兴趣度度量 D、模式的可视化表示 (5)下列几种数据挖掘功能中,()被广泛的用于购物篮分析 A、关联分析 B、分类和预测 C、聚类分析 D、演变分析 (6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是() A.关联分析 B.分类和预测 C. 演变分析 D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是() A.关联分析 B.分类和预测 C.聚类分析 D. 孤立点分析 E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是() A.关联分析 B.分类和预测 C. 孤立点分析 D. 演变分析 E. 概念描述 三、简答题 (1)什么是数据挖掘? (2)一个典型的数据挖掘系统应该包括哪些组成部分? (3)请简述不同历史时代数据库技术的演化。 (4)请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘)(5)什么是模式兴趣度的客观度量和主观度量? (6)在哪些情况下,我们认为所挖掘出来的模式是有趣的? (7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?

大学数据挖掘期末考试题

第 - 1 - 页 共 4 页 数据挖掘试卷 课程代码: C0204413 课程: 数据挖掘A 卷 一、判断题(每题1分,10分) 1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。( ) 2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。( ) 3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。( ) 4. 当两个点之间的邻近度取它们之间距离的平方时,Ward 方法与组平均非常相似。( ) 5. DBSCAN 是相对抗噪声的,并且能够处理任意形状和大小的簇。( ) 6. 属性的性质不必与用来度量他的值的性质相同。( ) 7. 全链对噪声点和离群点很敏感。( ) 8. 对于非对称的属性,只有非零值才是重要的。( ) 9. K 均值可以很好的处理不同密度的数据。( ) 10. 单链技术擅长处理椭圆形状的簇。( ) 二、选择题(每题2分,30分) 1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。 A.MIN(单链) B.MAX(全链) C.组平均 D.Ward 方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C 关联规则分析 D 聚类 4.关于K 均值和DBSCAN 的比较,以下说法不正确的是( ) A.K 均值丢弃被它识别为噪声的对象,而DBSCAN 一般聚类所有对象。 B.K 均值使用簇的基于原型的概念,DBSCAN 使用基于密度的概念。 C.K 均值很难处理非球形的簇和不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇 D.K 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN 会合并有重叠的簇 5.下列关于Ward ’s Method 说法错误的是:( )

数据挖掘作业

一:用R语言编程实现P56页19题 以19(2)为例编写R语言程序,其他小题程序类似1.余弦相似度 > x=c(0,1,0,1) > y=c(1,0,1,0) > xy=sum(x*y) > x1=sqrt(sum(x^2)) > y1=sqrt(sum(y^2)) > c=xy/(x1*y1) > c [1] 0 2.相关性 > x=c(0,1,0,1) > y=c(1,0,1,0) > xbar=mean(x) > ybar=mean(y) > len=length(x) > sx=sqrt((1/(len-1))*sum((x-xbar)^2)) > sy=sqrt((1/(len-1))*sum((y-ybar)^2)) > sxy=(1/(len-1))*sum((x-xbar)*(y-ybar)) > corrxy=sxy/(sx*sy) > corrxy

3.欧几里得距离 > x=c(0,1,0,1) > y=c(1,0,1,0) > dxy=sqrt(sum((x-y)^2)) > dxy [1] 2 4.Jaccard系数 > x=c(0,1,0,1) > y=c(1,0,1,0) > f00=f01=f10=f11=0 > len=length(x) > j=1 > while(j

数据挖掘大作业

1.音乐分类的数据集 在这个题目中,使用了SVM分类器和贝叶斯分类器,并通过sklearn库中的GridSearchCV方法对SVM分类模型的参数进行调优,使最终的正确率提高了5个百分点左右。但仍没有文档中的论文达到的分类正确率高,因为论文中的分类器的设计使专一对音乐音调分类的,其中设计到神经网络和深度学习的一些方法。而我使用的分类器使对大部分分类问题都有效的方法。下面是对数据集的一个简单的介绍: 数据标签 第3-14列:YES or NO 第15列:共16个取值('D', 'G#', 'D#', 'Bb', 'Db', 'F#', 'Eb', 'F', 'C#', 'Ab', 'B', 'C', 'A#', 'A', 'G', 'E') 第16列:共5个取值(1,2,3,4,5) 第17列:共102个类别('C#M', 'F_m', 'D_m', 'D_d7', 'G#m', 'D_m6', 'C_m6', 'C_d7', 'F_M', 'D_M', 'BbM7', 'F#d', 'C#d', 'E_d', 'F_d7', 'F#d7', 'G_m', 'C#d7', 'AbM', 'EbM', 'D#d', 'Bbm6', 'G_M7', 'F#m6', 'Dbd', 'B_m6', 'G#M', 'D_m7', 'B_M', 'F#M7', 'Bbm', 'A#d', 'D#d7', 'Abd', 'G_M', 'F#M4', 'E_M', 'A_M4', 'E_m7', 'D#M', 'C_M7', 'A_m6', 'Dbm', 'A#d7', 'F#M', 'C#m7', 'F_m7', 'C_M', 'C#M4', 'F_M6', 'A_M', 'G_m6', 'D_M4', 'F_M7', 'B_M7', 'E_M4', 'E_m6', 'A_m4', 'G#d', 'C_m7', 'C_M6', 'Abm', 'F_m6', 'G_m7', 'F_d', 'Bbd', 'G_M4', 'B_d', 'A_M7', 'E_m', 'C#M7', 'DbM', 'EbM7', 'C#d6', 'F#m', 'G_M6', 'G_d', 'Dbd7', 'B_m7', 'DbM7', 'D_M6', 'D#d6', 'G#d7', 'A_m7', 'B_d7', 'B_M4', 'A_d', 'A_m', 'C_d6', 'D#m', 'C_M4', 'A_M6', 'BbM', 'C#m', 'D_M7', 'E_M7', 'F_M4', 'F#m7', 'Dbm7', 'B_m', 'C_m', 'Ebd') 这是一个多分类问题 1.1数据读取与训练集和测试集分离

数据挖掘作业

数据挖掘作业The document was prepared on January 2, 2021

1、给出K D D的定义和处理过程。 KDD的定义是:从大量数据中提取出可信的、新颖的、有用的且可以被人理解的模式的高级处理过程。因此,KDD是一个高级的处理过程,它从数据集中识别出以模式形式表示的知识。这里的“模式”可以看成知识的雏形,经过验证、完善后形成知识:“高级的处理过程”是指一个多步骤的处理过程,多步骤之间相互影响反复调整,形成一种螺旋式上升的过程。 KDD的全过程有五个步骤:1、数据选择:确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据;2、数据预处理:一般可能包括消除噪声、推到技术却只数据、消除重复记录、完成数据类型转换等;3、数据转换:其主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数;4、数据挖掘:这一阶段包括确定挖掘任务/目的、选择挖掘方法、实施数据挖掘;5、模式解释/评价:数据挖掘阶段发现出来的模式,经过用户或机器的评价,可能存在冗余或无关的模式,需要剔除;也有可能模式不满足用户的要求,需要退回到整个发现阶段之前,重新进行KDD过程。 2、阐述数据挖掘产生的背景和意义。 数据挖掘产生的背景:随着信息科技的进步以及电子化时代的到来,人们以更快捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量以指数方式增长。据粗略估计,一个中等规模企业每天要产生100MB以上的商业数据。而电信、银行、大型零售业每天产生的数据量以TB来计算。人们搜集的数据越来越多,剧增的数据背后隐藏着许多重要的信息,人们希望对其进行更高层次的分析,以便更好的利用这些数据。先前的数据库系统可以高效的实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系与规则,无法根据现有的数据来预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段。导致了“数据爆炸但知识贫乏”的现象。于是人们开始提出“要学会选择、提取、抛弃信息”,并且开始考虑:如何才能不被信息淹没如何从中及时发现有用的知识、提高信息利用率如何从浩瀚如烟海的资料中选择性的搜集他们认为有用的信息这给我们带来了另一些头头疼的问题:第一是信息过量,难以消

期末大作业

期末大作业 数据挖掘和基于数据的决策是目前非常重要的研究领域,是从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的特殊过程。在商业上,数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析技术,可用于分析企业数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。 本次作业要求完成一个相亲配对程序,让相亲者更容易找到自己的意中人。查阅相关文献,以python为工具实现K-近邻算法,从而完成一个基本版的相亲配对系统,在此基础上深入研究聚类算法(K-近邻算法为其中一种),讨论各种聚类思路及算法优劣,完成相应的研究论文。 基本的设计思路提示如下:利用附件datingTestSet.txt文档中提供的三种属性(前三列,其中第1列为对方每年出差/旅行的公里数,第2列为对方玩游戏消耗时间的百分比,第3列为对方每周消费的冷饮公升数)作为测度是否和对方匹配的标准。附件文件第4列表示了你遇到此类人产生的好恶情感,其中largeDoses表示对你极有吸引力,smallDoses表示对你吸引力一般,didntLike 表示是你不喜欢的类型。利用此文件提供的数据,以K-近邻算法为工具,进行数据挖掘,发现你的喜好标准,对新的未标定的待匹配方(即只有前三行数据)给出第4行的好恶情感标签(即largeDoses、smallDoses或didntLike)。 具体要求如下: 1.查找文献,理解完整的K-近邻算法;

2.使用python语言编程实现K-近邻算法,解决相亲配对这一明确的应用问题; 3.撰写的研究论文要有关于聚类算法的详细叙述,论文中的算法应该与程序实 现的算法相印证。 大作业要求: 1.自己设计解决方案,简易的解决方案得分较低,完整的解决方案,即使部分 完成,得分也会较高; 2.作业上交形式为电子版文件。所有文件打包为一个文件,以“学号+姓名” 的方式命名; 3.算法的python源程序(py文件); 4.对此问题进行研究得到的研究性论文,论文包括前言(简介),算法部分(算 法流程图为核心),程序设计部分(程序流程图为核心),实验结果和分析,小结等内容(doc文件); 5.论文必须有规范的发表论文格式,包括题目、作者、单位、摘要、关键字、 正文及参考文献; 6.附有少量参考资料。 字数:论文部分字数限于2000±300,太多太少均扣分。 上交期限:19周周日,由学习委员收齐统一上交。 抄袭0分!

北邮数据挖掘作业

北京邮电大学 2015-2016学年第1学期实验报告 课程名称:数据仓库与数据挖掘 实验名称:文本的分类 实验完成人: 姓名:学号: 日期: 2015 年 12 月

实验一:文本的分类 1.实验目的 1. 了解一些数据挖掘的常用算法,掌握部分算法; 2. 掌握数据预处理的方法,对训练集数据进行预处理; 3. 利用学习的文本分类器,对未知文本进行分类判别; 4. 掌握评价分类器性能的评估方法。 2.实验分工 数据准备、预处理、LDA主题模型特征提取实现、SVM算法都由范树全独立完成。 3.实验环境 ●操作系统:win7 64bit 、Ubuntu-14.04-trusty ●开发环境:java IDE eclipse 、Python IDLE 4.主要设计思想 4.1实验工具介绍 1.Scrapy 0.25 所谓网络爬虫,就是一个抓取特定网站网页的HTML数据的程序。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样。 Scrapy是一个基于Twisted,纯Python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用Twisted这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。 2.JGibbLDA-v.1.0 jGibbLDA是java版本的LDA实现,它使用Gibbs采样来进行快速参数估计和推断。LDA 是一种由基于概率模型的聚类算法。该算法能够对训练数据中的关键项集之于类簇的概率参数拟合模型,进而利用该参数模型实施聚类和分类等操作。 3.ICTCLAS50 中科院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统ICTCLAS,该系统有中文分词,词性标注,未登录次识别等功能。 4.libSVM-3.20 libSVM是台湾大学林智仁教授等开发设计的一个简单、易用和快速有效的SVM模式识

第一次作业题目

第一次作业 1、假设所分析的数据包括属性age,它在数据元组中的值(以递增序)为13 ,15 ,16 ,16 ,19 ,20 ,20 ,21 ,22 ,22 ,25 ,25 ,25 ,25 ,30 ,33 ,33 ,35 ,35 ,35 ,35 ,36 ,40 ,45 ,46 ,52,70。 a. 该数据的均值是多少?中位数是什么? b. 该数据的众数是什么?讨论数据的模态(即二模、三模等)。 c. 该数据的中列数是多少? d. 你能(粗略地)找出该数据的第一个四分位数(1Q )和第三个四分位数(3Q ) 吗? e. 给出该数据的五数概括。 f. 绘制该数据的盒图。 g. 分位数-分位数图与分位数图有何不同? 2、在数据分析中,重要的选择相似性度量。然而,不存在广泛接受的主观相似性度量,结果可能因所用的相似性度量而异。虽然如此,在进行某种变换后,看来似乎不同的相似性度量可能等价。 假设我们有如下二维数据集: 1A 2A 1X 1.5 1.7 2X 2 1.9 3X 1.6 1.8 4X 1.2 1.5 5X 1.5 1.0 a. 把该数据看做二维数据点。给定一个新的数据点x=(1.4,1.6) 作为查询点,使用欧几里得距离、曼哈顿距离、上确界距离和余弦相似性,基于查询点的相似性对数据库的点排位。 b. 规格化该数据集,使得每个数据点的范数等于1。在变换后的数据上使

用欧几里得距离对诸数据点排位。 3、使用如下方法规范化如下数组: 200,300,400,600,1000 a.令min=0,max=1,最小—最大规范化。 b.z分数规范化。 c.z分数规范化,使用均值绝对偏差而不是标准差。 d.小数定标规范化。 4、假设12个销售价格记录已经排序,如下所示: 5,10,11,13,15,35,50,55,72,92,204,215 使用如下各方法将它们划分成三个箱。 a.等频(等深)划分。 b.等宽划分。 c.聚类。

大工20秋《数据挖掘》大作业题目及要求

网络教育学院 《数据挖掘》课程大作业 题目: Knn算法原理以及python实现 第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。 《数据挖掘是计算机专业一门重要的专业课。本课程是大数据背景下现代统计数据分析不可缺少的重要工具。通过本课程的学习,培养学生的数据分析技能,熟悉和掌握大数据信息提取与结果分析,培养适应社会数据分析岗位需求的专业人才。课程的重点教学内容为:网络爬虫与数据抽取、数据分析与挖掘算法-关联规则、数据分析与挖掘算法-分类与预测、数据分析与挖掘算法-聚类等。课程任务主要是让学生在学习期间掌握数据挖掘理论以及如何用数据挖掘来解决实际问题,了解某个数据挖掘解决方案对特定问题是否切实可行,学生能够借助软件工具进行具体数据的挖掘分析。本课程为计算机相关专业的基础课程,其内容涵盖了数据挖掘的相关知识。课程在阐述Python理论知识基础上,增加了数据分析和处理等知识内容,从而使学生加深对数据挖掘的理解。课程安排内容难易适中,学生可以通过实际项目加深对数据挖掘系统结构的整体流程了解。 第二大题:完成下面一项大作业题目。 2020秋《数据挖掘》课程大作业 注意:从以下5个题目中任选其一作答。 题目一:Knn算法原理以及python实现

要求:文档用使用word撰写即可。 主要内容必须包括: (1)算法介绍。 (2)算法流程。 (3)python实现算法以及预测。 (4)整个word文件名为 [姓名奥鹏卡号学习中心](如 戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )答: 一、knn算法介绍 1. 介绍 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。 2. 核心概括 主要的思想是计算待分类样本与训练样本之间的差异性,并将差异按照由小到大排序,选出前面K个差异最小的类别,并统计在K个中类别出现次数最多的类别为最相似的类,最终将待分类样本分到最相似的训练样本的类中。与投票(Vote)的机制类似。 二、knn算法流程 1. 准备数据,对数据进行预处理 2. 选用合适的数据结构存储训练数据和测试元组

数据挖掘离线作业

浙江大学远程教育学院 《数据挖掘》课程作业 姓名:学号: 年级:学习中心:————————————————————————————— 第一章引言 一、填空题 (1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据交换、数据挖掘、模式评估和知识表示 (2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理 (3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习 (4)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据 二、简答题 (1)什么是数据挖掘? 答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。 (2)一个典型的数据挖掘系统应该包括哪些组成部分? 答:一个典型的数据挖掘系统应该包括以下部分:1、数据库、数据仓库或其他信息库,2、数据库或数据仓库服务器,3、知识库,4、数据挖掘引擎,5、模式评估魔磕,6图形用户界面。 (3)Web挖掘包括哪些步骤? 答:数据清理:(这个可能要占用过程60%的工作量)、数据集成、将数据存入数据仓库、建立数据立方体、选择用来进行数据挖掘的数据、数据挖掘(选择适当的算法来找到感兴趣的模式)、展现挖掘结果、将模式或者知识应用或者存入知识库。 (4)请列举数据挖掘应用常见的数据源。 (或者说,我们都在什么样的数据上进行数据挖掘) 答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象——关系数据库、异种数据库和遗产数据库、文本数据库和万维网等。

电子商务概论第一次作业(DOC)

电子商务概论作业 一、填空 1、从传统商务到电子商务的形成大约经历了三个阶段:(20世纪60年代至90年代—基于EDI的电子商务)、(20世纪90年代以后—基于因特网的电子商务)和(2000年以来—E概念电子商务) 2、电子商务的组成包括:(网络)、(企业)、(顾客)、(网上银行)、配送中心、(CA 认证中心)、管理机构等。 3、按照交易对象分类,电子商务可分为:(B2B即business to business,2是to的谐音,即企业与企业之间通过互联网进行产品、服务及信息的交换。像阿里巴巴是中国乃至世界上这一行业的领军者。)、(B2C即business to customer,即商家对消费者。在中国几乎两分天下的卓越网和当当网都是实力很雄厚的。现在好象有个京东商城也颇具发展潜力。)、(C2C即customer to customer,即个人对个人的交易行为。家喻户晓的淘宝目前在中国是最有名气的了。另外腾讯依靠自己的海量注册用户也夺得了一定的市场份额。即拍拍网. )、(B2G即business to government,即企业对政府的交易行为。包括电子采购,电子通关,电子报税等。政府采购网)。 4、开放系统互联参考模型OSI/RM模型共分7层,从下往上分别是:(物理层)、数据链路层、(网络层)、传输层、会话层、表示层和(应用层)。 5、传输介质可分为有线和无线两大类。有限介质包括(双绞线)、(同轴电缆)、(光纤) 等。具有相同网络协议的计算机才能进行信息的沟通与交流。 6、使用TCP/IP协议的因特网提供的主要服务有:(电子邮件)、(文件传送)、远(程 登录)、网络文件系统、电视会议系统和万维网。 二、简答 1、电子商务: 首先将电子商务划分为广义和狭义的电子商务。广义的电子商务定义为,使用各种电子工具从事商务活动;狭义电子商务定义为,主要利用Internet从事商务或活动。无论是广义的还是狭义的电子商务的概念,电子商务都涵盖了两个方面:一是离不开互联网这个平台,没有了网络,就称不上为电子商务;二是通过互联网完成的是一种商务活动。 狭义上讲,电子商务(Electronic Commerce,简称EC)是指:通过使用互联网等电子工具(这些工具包括电报、电话、广播、电视、传真、计算机、计算机网络、移动通信等)在全球范围内进行的商务贸易活动。是以计算机网络为基础所进行的各种商务活动,包括商品和服务的提供者、广告商、消费者、中介商等有关各方行为的总和。人们一般理解的电子商务是指狭义上的电子商务。 电子商务是以信息网络技术为手段,以商品交换为中心的商务活动;也可理解为在互联网(Internet)、企业内部网(Intranet)和增值网(VAN,Value Added Network)上以电子

数据仓库与数据挖掘试题

武汉大学计算机学院 2014级研究生“数据仓库和数据挖掘”课程期末考试试题 要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。每张答题纸都要写上姓名和学号。 一、单项选择题(每小题2分,共20分) 1. 下面列出的条目中,()不是数据仓库的基本特征。B A.数据仓库是面向主题的 B.数据仓库是面向事务的 C.数据仓库的数据是相对稳定的 D.数据仓库的数据是反映历史变化的 2. 数据仓库是随着时间变化的,下面的描述不正确的是()。 A.数据仓库随时间的变化不断增加新的数据内容 B.捕捉到的新数据会覆盖原来的快照 C.数据仓库随事件变化不断删去旧的数据内容C D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合 3. 以下关于数据仓库设计的说法中()是错误的。A A.数据仓库项目的需求很难把握,所以不可能从用户的需求出发来进行数据仓库的设计,只能从数据出发进行设计 B.在进行数据仓库主题数据模型设计时,应该按面向部门业务应用的方式来设计数据模型 C.在进行数据仓库主题数据模型设计时要强调数据的集成性 D.在进行数据仓库概念模型设计时,需要设计实体关系图,给出数据表的划分,并给出每个属性的定义域 4. 以下关于OLAP的描述中()是错误的。A A.一个多维数组可以表示为(维1,维2,…,维n) B.维的一个取值称为该维的一个维成员 C.OLAP是联机分析处理 D.OLAP是数据仓库进行分析决策的基础 5. 多维数据模型中,下列()模式不属于多维模式。D A.星型模式 B.雪花模式 C.星座模式 D.网型模式 6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是()。C A.频繁项集?频繁闭项集?最大频繁项集 B.频繁项集?最大频繁项集?频繁闭项集 C.最大频繁项集?频繁闭项集?频繁项集 D.频繁闭项集?频繁项集?最大频繁项集

数据挖掘习题及解答-完美版

Data Mining Take Home Exam 学号: xxxx 姓名: xxx (1)计算整个数据集的Gini指标值。 (2)计算属性性别的Gini指标值 (3)计算使用多路划分属性车型的Gini指标值 (4)计算使用多路划分属性衬衣尺码的Gini指标值 (5)下面哪个属性更好,性别、车型还是衬衣尺码为什么 (3)

/20+{1-(1/8)^2-(7/8)^2}*8/20=26/160 = /4)^2-(2/4)^2}*4/20]*2=8/2 5+6/35= (5) 比较上面各属性的Gini值大小可知,车型划分Gini值最小,即使用车型属性更好。 2. ( (1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。(3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。答:(1)由上表计数可得{e}的支持度为8/10=;{b,d}的支持度为2/10=;{b,d,e} 的支持度为2/10=。 (2)c[{b,d}→{e}]=2/8=; c[{e}→{b,d}]=8/2=4。 (3)同理可得:{e}的支持度为4/5=,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=。

(4)c[{b,d}→{e}]=5/4=,c[{e}→{b,d}]=4/5=。 3. (20分)以下是多元回归分析的部分R输出结果。 > ls1=lm(y~x1+x2) > anova(ls1) Df Sum Sq Mean Sq F value Pr(>F) x1 1 *** x2 1 ** Residuals 7 > ls2<-lm(y~x2+x1) > anova(ls2) Df Sum Sq Mean Sq F value Pr(>F) x2 1 ** x1 1 *** Residuals 7 (1)用F检验来检验以下假设(α = H0: β1 = 0 H a: β1≠ 0 计算检验统计量;是否拒绝零假设,为什么 (2)用F检验来检验以下假设(α = H0: β2 = 0 H a: β2≠ 0 计算检验统计量;是否拒绝零假设,为什么 (3)用F检验来检验以下假设(α = H0: β1 = β2 = 0 H a: β1和β2 并不都等于零 计算检验统计量;是否拒绝零假设,为什么 解:(1)根据第一个输出结果F=>F(2,7)=,p<,所以可以拒绝原假设,即得到不等于0。 (2)同理,在α=的条件下,F=>F(2,7)=,p<,即拒绝原假设,得到不等于0。(3)F={(+)/2}/(7)=>F=(2,7)=,即拒绝原假设,得到和并不都等于0。 4. (20分)考虑下面20个观测值: [1] [6] [11] [16]

数据挖掘作业(第5章)

第5章关联分析 5.1 列举关联规则在不同领域中应用的实例。 5.2 给出如下几种类型的关联规则的例子,并说明它们是否是有价值的。 (a)高支持度和高置信度的规则; (b)高支持度和低置信度的规则; (c)低支持度和低置信度的规则; (d)低支持度和高置信度的规则。 5.3 数据集如表5-14所示: (a) 把每一个事务作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。 (b) 利用(a)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。置信度是一个对称的度量吗? (c) 把每一个用户购买的所有商品作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。 (d) 利用(b)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。置信度是一个对称的度量吗? 5.4 关联规则是否满足传递性和对称性的性质?举例说明。 5.5 Apriori 算法使用先验性质剪枝,试讨论如下类似的性质 (a) 证明频繁项集的所有非空子集也是频繁的 (b) 证明项集s 的任何非空子集s ’的支持度不小于s 的支持度 (c) 给定频繁项集l 和它的子集s ,证明规则“s’→(l – s’)”的置信度不高于s →(l – s)的置信度,其中s’是s 的子集 (d) Apriori 算法的一个变形是采用划分方法将数据集D 中的事务分为n 个不相交的子数据集。证明D 中的任何一个频繁项集至少在D 的某一个子数据集中是频繁的。 5.6 考虑如下的频繁3-项集:{1, 2, 3},{1, 2, 4},{1, 2, 5}, {1, 3, 4},{1, 3, 5},{2, 3, 4},{2, 3, 5},{3, 4, 5}。 (a)根据Apriori 算法的候选项集生成方法,写出利用频繁3-项集生成的所有候选4-项集。 (b)写出经过剪枝后的所有候选4-项集 5.7 一个数据库有5个事务,如表5-15所示。设min_sup=60%,min_conf = 80%。

相关主题
文本预览
相关文档 最新文档