数据挖掘第二章作业
- 格式:docx
- 大小:16.90 KB
- 文档页数:2
数据挖掘作业21. 引言数据挖掘是一种从大量数据中发现、提取和分析有用信息的过程。
本文旨在探讨数据挖掘作业2的相关内容,包括数据集选择、数据预处理、特征选择和模型建立等。
2. 数据集选择在数据挖掘作业2中,我们选择了一个涉及电子商务的数据集。
该数据集包含了用户的购买记录、产品信息、用户评价等多个维度的数据。
通过对该数据集的挖掘,我们希望能够发现用户的购买偏好、产品的销售趋势等有价值的信息。
3. 数据预处理在进行数据挖掘之前,我们需要对数据进行预处理,以确保数据的质量和可用性。
首先,我们对数据进行清洗,去除缺失值和异常值。
然后,我们对数据进行归一化处理,以消除不同特征之间的量纲差异。
最后,我们对数据进行采样,以减少计算复杂度并保持数据的代表性。
4. 特征选择特征选择是数据挖掘的重要步骤,旨在从原始特征中选择出最具有预测能力的特征。
在数据挖掘作业2中,我们采用了信息增益和相关系数等方法来评估特征的重要性,并选择出了与目标变量相关性较高的特征。
此外,我们还进行了特征的降维处理,以减少特征空间的维度。
5. 模型建立在数据挖掘作业2中,我们选择了决策树算法作为模型建立的方法。
决策树是一种基于树状结构的分类模型,通过对特征进行逐步划分,最终得到一个可以对新样本进行分类的模型。
我们使用了ID3算法来构建决策树模型,并通过交叉验证的方法对模型进行评估和调优。
6. 模型评估为了评估模型的性能,我们采用了准确率、召回率、F1值等指标来衡量模型的分类效果。
此外,我们还使用了混淆矩阵来展示模型的分类结果,并计算了ROC曲线下的面积(AUC)来评估模型的整体性能。
7. 结果分析通过对数据挖掘作业2的实验和分析,我们得到了一些有价值的结论。
首先,我们发现用户对某一类产品的购买意愿与其评价的积极程度呈正相关关系。
其次,我们发现某些产品的销售量与其价格呈负相关关系,即价格越高,销售量越低。
最后,我们通过决策树模型对用户的购买行为进行了预测,并取得了较好的分类效果。
1.1什么是数据挖掘?(a)它是一种广告宣传吗?(d)它是一种从数据库、统计学、机器学和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出一种观点,说数据挖掘是数据库进化的结果,你认为数据挖掘也是机器学习研究进化的结果吗?你能结合该学科的发展历史提出这一观点吗?针对统计学和模式知识领域做相同的事(d)当把数据挖掘看做知识点发现过程时,描述数据挖掘所涉及的步骤答:数据挖掘比较简单的定义是:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息和知识的过程。
数据挖掘不是一种广告宣传,而是由于大量数据的可用性以及把这些数据变为有用的信息的迫切需要,使得数据挖掘变得更加有必要。
因此,数据挖掘可以被看作是信息技术的自然演变的结果。
数据挖掘不是一种从数据库、统计学和机器学习发展的技术的简单转换,而是来自多学科,例如数据库技术、统计学,机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成。
数据库技术开始于数据收集和数据库创建机制的发展,导致了用于数据管理的有效机制,包括数据存储和检索,查询和事务处理的发展。
提供查询和事务处理的大量的数据库系统最终自然地导致了对数据分析和理解的需要。
因此,出于这种必要性,数据挖掘开始了其发展。
当把数据挖掘看作知识发现过程时,涉及步骤如下:数据清理,一个删除或消除噪声和不一致的数据的过程;数据集成,多种数据源可以组合在一起;数据选择,从数据库中提取与分析任务相关的数据;数据变换,数据变换或同意成适合挖掘的形式,如通过汇总或聚集操作;数据挖掘,基本步骤,使用智能方法提取数据模式;模式评估,根据某种兴趣度度量,识别表示知识的真正有趣的模式;知识表示,使用可视化和知识表示技术,向用户提供挖掘的知识1.3定义下列数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。
《数据挖掘》作业第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:(B )A、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?(D )A、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B )A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题(1)什么是数据挖掘?答:数据挖掘是指从大量数据中提取或“挖掘”知识。
由于数据库系统所获数据量的迅速膨胀(已达 或 数量级),从而导致了现实世界数据库中常常包含许多含有噪声、不完整( )、甚至是不一致( )的数据。
显然对数据挖掘所涉及的数据对象必须进行预处理。
那么如何对数据进行预处理以改善数据质量,并最终达到完善最终的数据挖掘结果之目的呢?数据预处理主要包括:数据清洗( )、数据集成( )、数据转换( )和数据消减( )。
本章将介绍这四种数据预处理的基本处理方法。
数据预处理是数据挖掘(知识发现)过程中的一个重要步骤,尤其是在对包含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的目的。
例如:对于一个负责进行公司销售数据分析的商场主管,他会仔细检查公司数据库或数据仓库内容,精心挑选与挖掘任务相关数据对象的描述特征或数据仓库的维度( ),这包括:商品类型、价格、销售量等,但这时他或许会发现有数据库中有几条记录的一些特征值没有被记录下来;甚至数据库中的数据记录还存在着一些错误、不寻常( )、甚至是不一致情况,对于这样的数据对象进行数据挖掘,显然就首先必须进行数据的预处理,然后才能进行正式的数据挖掘工作。
所谓噪声数据是指数据中存在着错误、或异常(偏离期望值)的数据;不完整( )数据是指感兴趣的属性没有值;而不一致数据则是指数据内涵出现不一致情况(如:作为关键字的同一部门编码出现不同值)。
而数据清洗是指消除数据中所存在的噪声以及纠正其不一致的错误;数据集成则是指将来自多个数据源的数据合并到一起构成一个完整的数据集;数据转换是指将一种格式的数据转换为另一种格式的数据;最后数据消减是指通过删除冗余特征或聚类消除多余数据。
不完整、有噪声和不一致对大规模现实世界的数据库来讲是非常普遍的情况。
不完整数据的产生有以下几个原因:( )有些属性的内容有时没有,如:参与销售事务数据中的顾客信息;( )有些数据当时被认为是不必要的;( )由于误解或检测设备失灵导致相关数据没有记录下来;( )与其它记录内容不一致而被删除;( )历史记录或对数据的修改被忽略了。
第一章1.6(1)数据特征化是目标类数据的一般特性或特征的汇总。
例如,在某商店花费1000元以上的顾客特征的汇总描述是:年龄在40—50岁、有工作和很好的信誉等级。
(2)数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,高平均分数的学生的一般特点,可与低平均分数的学生的一般特点进行比较.由此产生的可能是一个相当普遍的描述,如平均分高达75%的学生是大四的计算机科学专业的学生,而平均分低于65%的学生则不是.(3)关联和相关分析是指在给定的频繁项集中寻找相关联的规则.例如,一个数据挖掘系统可能会发现这样的规则:专业(X,“计算机科学”)=〉拥有(X,”个人电脑“)[support= 12%,confidence = 98%],其中X是一个变量,代表一个学生,该规则表明,98%的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人电脑的可能性是98%。
12%的支持度意味着所研究的所有事务的12%显示属于计算机科学专业的学生都会拥有个人电脑。
(4)分类和预测的不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用的数据,而且往往是数值,数据集的预测。
它们的相似之处是它们都是为预测工具:分类是用于预测的数据和预测对象的类标签,预测通常用于预测缺失值的数值数据。
例如:某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别,此时用到的则是分类;当研究某只股票的价格走势时,会根据股票的历史价格来预测股票的未来价格,此时用到的则是预测。
(5)聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。
聚类还便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。
例如:世界上有很多种鸟,我们可以根据鸟之间的相似性,聚集成n类,其中n可以认为规定. (6)数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。
一、填空题1、属性的数据性质包括: 、 、 和 四个性质。
2、根据属性所具有的数值性质不同可将属性分为 和 。
3、根据属性值的个数不同可将属性分为 和 。
4、根据属性的数值性质可将属性分为四种属性类型: 、 、 和 。
5、非对称的属性是指只有出现 才是重要的属性。
6、数据集的一般特性包括 、 和 。
7、数据集的维度是数据集中的对象具有的 。
8、稀疏数据集是指该数据集的数据对象的大部分属性上的值都为 。
9、记录数据分为 、 和 三大类。
10、数据集的类型有 和 两类。
11、基于图形的数据分为 和 。
12、常见的有序数据有: 、 、 和 。
13、空间数据的一个重要特点是 ,即物理上靠近的对象趋向于在其他方面也相似。
14、抽样方法有 、 和 。
15、抽样偏倚是指 。
16、特征选择过程可以看作由四部分组成: 、 、 和 。
17、特征加权是指 。
权值越大,特征越重要,它在模型中所起的作用越重要。
18、特征创建是指 ,更有效地捕获数据集中的重要信息。
19、三种创建新属性的方法是: 、 和 。
20、将连续属性变换成分类属性过程称为 。
21、将连续和离散属性变换成一个或多个二元属性的过程称为 。
22、连续属性离散化方法分为 和 方法,它们的区别在于 。
23、非监督离散化分为 、 和 。
24、设有属性:成绩{优秀、良好、中等、及格、不及格},甲、乙两位同学的成绩分别为优秀和及格,则这两位同学的成绩相似度为 ,相异度为 。
25、设有属性:邮政编码,则545005,545006这两个邮政编码相似度为 ,相异度为 。
26、设有连续属性:成绩,其相异度用d 表示,min_,max_d d 分别表示最小和最大相异度,相似度由min_1max_min_d d s d d-=--定义。
甲、乙两位同学的成绩分别为80和60,则这两位同学的成绩相似度为 ,相异度为 。
27、数据集中任何两个对象之间的距离构成的矩阵称为 。
28、设有二元向量:()(),1,0,0,0,0,0,0,0,0,00,0,0,0,0,0,1,0,0,1x y ==,则它们的简单匹配系数为,杰卡德系数为。
第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。
数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。
8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。
18.说明统计学与数据挖掘的不同。
答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。
19.说明数据仓库与数据挖掘的区别与联系。
答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据仓库与数据挖掘都是决策支持新技术。
但它们有着完全不同的辅助决策方式。
在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。
它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。
数据仓库和数据挖掘的结合对支持决策会起更大的作用。
数据挖掘作业2数据挖掘作业2:文本分类与情感分析一、引言数据挖掘是从大量的数据中发现隐藏在其中的有价值信息的过程。
文本分类和情感分析是数据挖掘中的两个重要任务。
本文将介绍文本分类和情感分析的基本概念、方法和应用,并结合实际案例进行详细说明。
二、文本分类1. 概念文本分类是将大量的文本按照一定的标准进行分类的过程。
其目标是通过自动化方法将文本划分到预定义的类别中。
2. 方法(1)特征提取:从文本中提取有用的特征信息。
常用的特征提取方法包括词袋模型、TF-IDF、词嵌入等。
(2)特征选择:选择对分类任务有用的特征。
常用的特征选择方法包括信息增益、卡方检验、互信息等。
(3)分类器构建:选择合适的分类器进行文本分类。
常用的分类器包括朴素贝叶斯、支持向量机、决策树等。
(4)模型评估:使用评估指标对分类模型进行评估,如准确率、精确率、召回率、F1值等。
3. 应用文本分类在各个领域都有广泛的应用,如垃圾邮件过滤、新闻分类、情感分析等。
三、情感分析1. 概念情感分析是对文本中的情感进行识别和分类的过程。
其目标是判断文本中的情感倾向,如正面、负面或中性。
2. 方法(1)情感词典:使用情感词典对文本中的词进行情感打分,然后根据打分结果进行情感分类。
(2)机器学习:使用机器学习方法构建情感分类模型,常用的方法包括朴素贝叶斯、支持向量机、深度学习等。
(3)深度学习:使用深度神经网络进行情感分析,如卷积神经网络、循环神经网络等。
3. 应用情感分析在社交媒体监测、产品评论分析、舆情分析等方面具有重要的应用价值。
四、实例分析:电影评论情感分析为了进一步说明文本分类和情感分析的应用,我们以电影评论情感分析为例进行实例分析。
1. 数据收集从互联网上收集了一批电影评论数据,包括评论文本和对应的情感标签(正面、负面或中性)。
2. 数据预处理对收集到的电影评论数据进行预处理,包括去除停用词、标点符号和数字,对文本进行分词等。
3. 特征提取使用词袋模型对预处理后的文本进行特征提取,得到每个评论的特征向量表示。
数据挖掘——探索数据的奥秘智慧树知到课后章节答案2023年下青岛工学院青岛工学院第一章测试1.数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
()A:对 B:错答案:对2.下面哪些是时空数据的应用()。
A:气象学家使用人造卫星和雷达观察飓风 B:从多媒体数据库中发现有趣的模式 C:机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆 D:动物学家把遥感设备安装在野生动物身上,以便分析生态行为答案:气象学家使用人造卫星和雷达观察飓风;机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆;动物学家把遥感设备安装在野生动物身上,以便分析生态行为3.数据挖掘生命周期的数据理解阶段,起于原始数据收集,止于熟悉数据、识别数据质量问题。
()A:对 B:错答案:错4.以下关于数据挖掘规律的描述中,不正确的是()。
A:业务知识是数据挖掘过程每一步的中心 B:对所有领域的每个数据挖掘问题,总有模式可循。
C:数据准备超过数据挖掘过程的3/4 D:给定应用的正确模型只能通过实验发现答案:数据准备超过数据挖掘过程的3/45.关于数据挖掘生命周期的部署阶段,说法正确的是()。
A:部署阶段要完成模型的创建 B:执行部署步骤的通常是数据分析师 C:部署通常是数据挖掘项目的终点 D:建立模型的目的不能仅仅是增加对数据的了解答案:部署阶段要完成模型的创建6.“8,000”和“10,000”表示:()。
A:数据 B:信息 C:知识 D:智慧答案:数据7.“8,000米是飞机飞行最大高度”与“10,000米的高山”表示:()。
A:数据 B:知识 C:信息 D:智慧答案:信息8.“飞机无法飞过高山”表示:()。
A:知识 B:智慧 C:数据 D:信息答案:知识9.数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。
第一章作业1.数据库与数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。
(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。
(3)数据仓库的数据是大量数据库的集成。
(4)对数据库的操作比较明确,操作数量较小。
对数据仓库操作不明确,操作数据量大。
2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。
如何将大量的数据转化为辅助决策信息成为了研究热点。
(2)异构环境数据的转换和共享。
随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。
(3)利用数据进行事物处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同。
比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。
但是要对这些独立数据库进行决策分析就很复杂了。
因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。
4.OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
5.OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
6.OLTP OLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。
8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。
数据仓库与数据挖掘智慧树知到课后章节答案2023年下济南大学济南大学绪论单元测试1.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
()A:错 B:对答案:对第一章测试1.图挖掘技术在社会网络分析中扮演了重要的角色。
()A:对 B:错答案:对2.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
( )A:对 B:错答案:对3.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。
()A:对 B:错答案:对4.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )A:建模描述B:根据内容检索C:寻找模式和规则D:预测建模答案:预测建模5.以下哪些学科和数据挖掘有密切联系?( )A:计算机组成原理B:矿产挖掘C:统计D:人工智能答案:统计;人工智能第二章测试1.下面哪个不属于数据的属性类型:( )A:区间B:序数C:相异D:标称答案:相异2.在上题中,属于定量的属性类型是:( )A:序数B:区间C:相异D:标称答案:区间3.只有非零值才重要的二元属性被称作:( )A:计数属性B:对称属性C:离散属性D:非对称的二元属性答案:非对称的二元属性4.以下哪种方法不属于特征选择的标准方法: ( )A:嵌入B:包装C:过滤D:抽样答案:抽样5.离群点可以是合法的数据对象或者值。
()答案:对第三章测试1.下面哪些属于可视化高维数据技术 ( )A:星形坐标B:平行坐标系C:矩阵D:Chernoff脸E:散布图答案:星形坐标;平行坐标系;矩阵;Chernoff脸2.下面哪种不属于数据预处理的方法? ( )A:聚集B:离散化C:变量代换D:估计遗漏值答案:估计遗漏值3.联机分析处理包括以下哪些基本分析功能? ( )A:转轴B:聚类D:分类E:切片答案:转轴;切块;切片4.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。
数据仓库与数据挖掘第一章课后习题一:填空题1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。
2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。
3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。
4)元数据是“关于数据的数据”。
根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。
5)数据处理通常分为两大类:联机事务处理和联机事务分析6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。
7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。
8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。
9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。
10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。
二:简答题1)什么是数据仓库?数据仓库的特点主要有哪些?数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用2)简述数据挖掘的技术定义。
从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。
3)什么是业务元数据?业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据4)简述数据挖掘与传统分析方法的区别。
本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。
数据挖掘第二章作业
2.
a)用AM和PM表示的时间
离散的、定量的、区间的。
b)根据曝光表测出的亮度
离散的、定量的、比率的。
c)根据人的判断测出的亮度
连续的、定性的、序数的。
d)按度测出的0和360之间的角度
离散的、定量的、比率的。
(可以是连续的,因为按度测出的角度值可以是实数值得属性)
e)奥运会上授予的铜牌、银牌、和金牌
离散的、定量的、比率的。
f)海拔高度
连续的、定量的、比率的。
g)医院中的病人数
离散的、定量的、比率的。
h)书的ISBN号(查找网上的格式)
离散的、定性的、标称的。
i)用如下值表示的透光能力:不透明、半透明、透明
离散的、定性的、序数的。
j)军衔
离散的、定性的、序数的。
K)到校园中心的距离
连续的、定量的、比率的。
l)用每立方厘米克表示的物质密度
连续的、定量的、比率的。
m)外套寄存号码
离散的、定性的、标称的。
14.
用欧几里得度量来对这些大象进行比较或分组。
因为第一所有的属性测出的值都是数值性质的,并且根据取值规模的不同有很大的取值范围;其次同一对象的不同属性之间是没有什么关系的,所以不用相关性度量;再者在本题中每个对象的量值是重要的,而余弦相似度不考虑数据对象的量值;最后将属性值标准化成平均数为0,标准差为1后再应用欧几里得距离是适当的方法。
16.
a)如果出现在一个文档中,tf’ij=tfij*log(m);
如果出现在每个文档中,tf’ij=0;
b)这个标准化反应了如果一个词出现在每一个文档中,那么就不能通过这个词来区分不同的文档,如果这个词出现的很少,那么就可以通过这个词来区分不同的文档。
18.
a)x=010*******
y=010*******
汉明距离=3;
f01=1; f10=2; f11=2;
Jaccard相似度=2/(1+2+2)=0.4;
b)汉明距离更相似于简单匹配系数,因为简单匹配系数=1—汉明距离/所有位数;Jaccard相似度更相似于余弦度量,因为他们都忽略了0-0匹配。
c)用Jaccard相似度更合适。
因为我们想要知道两个个体有多少基因是共享的。
d)用汉明距离更适合。
因为两个同物种的基因相同的部分很多,所以如果要比较则更关注于基因不同的部分,因此汉明距离更适合。