数据挖掘知识点归纳
- 格式:docx
- 大小:29.69 KB
- 文档页数:9
1、数据库与数据仓库的对比数据库 数据仓库面向应用 面向主题数据是详细的 数据是综合和历史的保持当前数据 保存过去和现在的数据数据是可更新的 数据不更新对数据的操作是重复的 对数据的操作是启发式的操作需求是事先可知的 操作需求是临时决定的一个操作存取一个记录 一个操作存取一个集合数据非冗余 数据时常冗余操作比较频繁 操作相对不频繁查询基本是原始数据 查询基本是经过加工的数据事务处理需要的是当前数据 决策分析需要过去和现在的数据很少有复杂的计算 有很多复杂的计算支持事务处理 支持决策分析2、OLTP与OLAP,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁联机事物处理(On Line Transaction Processing的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLTP OLAP数据库数据 数据仓库数据细节性数据 综合性数据当前数据 历史数据经常更新 不更新,但周期刷新对响应时间要求高 响应时间合理用户数量大用户数量相对较小面向操作人员,支持日常操作 面向决策人员,支持决策需要面向应用,事务驱动面向分析,分析驱动3、数据字典和元数据:数据字典:是数据库中各类数据描述的集合,它在数据库设计中具有很重要的地位。
由:数据项;数据结构;数据流;数据存储;处理过程5部分组成。
元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据 :(1) 关于数据源的元数据(2) 关于抽取和转换的元数据(3) 关于最终用户的元数据4、数据从数据库到知识的流程:DB-->DW-->OLAP-->DM-->KDD-->DSS-->AI5、数据挖掘的含义:知识发现(KDD):从数据中发现有用知识的整个过程。
数据挖掘(DM):KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。
数据挖掘基础一、数据挖掘的概念和基本流程数据挖掘是指从大量数据中提取出有价值的信息和知识的过程,是一种自动化的发现模式和规律的方法。
其基本流程包括:数据预处理、特征选择、建立模型、模型评估和应用。
二、数据预处理1. 数据清洗:去除重复值、缺失值和异常值等。
2. 数据集成:将多个数据源中的数据合并成一个整体。
3. 数据变换:对原始数据进行转换,如归一化、离散化等。
4. 数据规约:对原始数据进行压缩,如抽样等。
三、特征选择特征选择是指从原始特征中选取一部分对分类或回归有用的特征。
其目的是减少维度,提高模型效率和精度。
四、建立模型建立模型是指根据已选取的特征,使用各种算法构建分类或回归模型。
常用算法包括决策树、神经网络、支持向量机等。
五、模型评估模型评估是指通过交叉验证等方法对建立好的模型进行评估,以确定其预测效果是否良好。
六、应用应用是指将建立好的模型应用到实际问题中,进行预测和决策。
七、数据挖掘的应用领域1. 金融:如信用评估、风险管理等。
2. 医疗:如疾病预测、药物研发等。
3. 零售业:如销售预测、客户细分等。
4. 航空航天:如飞机维修优化、航班调度等。
5. 电信业:如用户行为分析、网络优化等。
八、数据挖掘的常用算法1. 决策树算法:通过对数据进行分类和回归,构建决策树模型,可用于分类和预测。
2. 神经网络算法:通过模拟人类神经系统,构建神经网络模型,可用于分类和预测。
3. 支持向量机算法:通过寻找最大间隔超平面,构建支持向量机模型,可用于分类和回归。
4. 聚类算法:将数据分成若干个类别,常见的聚类算法包括K-Means 和层次聚类等。
5. 关联规则挖掘算法:通过寻找频繁项集和关联规则,发现数据中隐藏的关联关系。
九、数据挖掘的发展趋势1. 大数据时代:随着数据量的增加,数据挖掘将更加重要。
2. 人工智能:机器学习和深度学习等技术将广泛应用于数据挖掘中。
3. 可视化分析:通过可视化技术,更好地呈现和理解数据。
知识点一数据仓库1.数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。
2.数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
3.数据仓库围绕主题组织4.数据仓库基于历史数据提供消息,是汇总的。
5.数据仓库用称作数据立方体的多维数据结构建模,每一个维对应于模式中的一个或者一组属性,每一个单元存放某种聚集的度量值6.数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据7.提供提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理,允许在不同的抽象层提供数据,这种操作适合不同的用户角度8.OLAP例子包括下钻和上卷,允许用户在不同的汇总级别上观察数据9.多维数据挖掘又叫做探索式多维数据挖掘OLAP风格在多维空间进行数据挖掘,允许在各种粒度进行多维组合探查,因此更有可能代表知识的有趣模式。
知识点二可以挖掘什么数据1.大量的数据挖掘功能,包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析2.数据挖掘功能用于指定数据挖掘任务发现的模式,分为描述性和预测性3.描述性挖掘任务刻画目标数据中数据的一般性质4.预测性挖掘任务在当前数据上进行归纳,以便做出预测5.数据可以与类或概念相关联6.用汇总、简洁、精确的表达描述类和概念,称为类/概念描述7.描述的方法有数据特征化(针对目标类)、数据区分(针对对比类)、数据特征化和区分8.数据特征化用来查询用户指定的数据,上卷操作用来执行用户控制的、沿着指定维的数据汇总。
面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必与用户交互。
形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。
结果描述可以用广义关系或者规则(也叫特征规则)提供。
9.用规则表示的区分描述叫做区分规则。
10.数据频繁出现的模式叫做频繁模式,类型包括频繁项集、频繁子项集(又叫频繁序列)、频繁子结构。
数据挖掘:是从大量数据中发现有趣(非平庸的、隐含的、先前未知、潜在实用)模式,这些数据可以存放在数据库,数据仓库或者其他信息存储中。
挖掘流程:(1)学习应用域(2)目标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类) (6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展示(9)使用挖掘的知识概念/类描述:一种数据泛化形式,用汇总的、简洁的和精确的方法描述各个类和概念,通过 (1) 数据特征化:目标类数据的普通特性或者特征的汇总; (2) 数据区分:将目标类数据的普通特性与一个或者多个可比较类进行比较; (3)数据特征化和比较来得到。
关联分析:发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起浮现的条件,通常要满足最小支持度阈值和最小置信度阈值。
分类:找出能够描述和区分数据类或者概念的模型,以便能够使用模型预测类标号未知的对象类,导出的模型是基于训练集的分析。
导出模型的算法:决策树、神经网络、贝叶斯、(遗传、粗糙集、含糊集)。
预测:建立连续值函数模型,预测空缺的或者不知道的数值数据集。
孤立点:与数据的普通行为或者模型不一致的数据对象。
聚类:分析数据对象,而不考虑已知的类标记。
训练数据中不提供类标记,对象根据最大化类内的相似性和最小化类间的原则进行聚类或者分组,从而产生类标号。
第二章数据仓库数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。
从一个或者多个数据源采集信息,存放在一个一致的模式下,并且通常驻留在单个站点。
数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。
面向主题:排除无用数据,提供特定主题的简明视图。
集成的:多个异构数据源。
时变的:从历史角度提供信息,隐含时间信息。
非易失的:和操作数据的分离,只提供初始装入和访问。
联机事务处理OLTP:主要任务是执行联机事务和查询处理。
联系分析处理OLAP:数据仓库系统在数据分析和决策方面为用户或者‘知识工人’提供服务。
知识点归纳数据挖掘中的聚类分析与分类算法数据挖掘中的聚类分析与分类算法数据挖掘是指从大量数据中自动发现有用的模式、关系或规律的过程。
在数据挖掘过程中,聚类分析和分类算法是两个常用且重要的技术。
本文将对这两个知识点进行归纳总结。
一、聚类分析聚类分析是将一组无标签的数据对象进行分组或聚类的数据挖掘技术。
其目标是通过对象之间的相似性将它们划分为若干个簇,使得同一簇内的对象相似度高,不同簇之间的相似度低。
聚类分析广泛应用于市场分割、社交网络分析、图像处理等领域。
常用的聚类算法有以下几种:1. K-means算法:K-means是一种基于距离度量的聚类算法。
它通过逐步迭代,将数据集分为K个簇,使得每个数据对象与本簇内的其他对象的相似度最高。
2. 层次聚类算法:层次聚类算法是一种通过计算不同类别之间的相似性,并逐步合并相似度高的类别的方式进行数据聚类的方法。
Hierarchical Agglomerative Clustering(HAC)是层次聚类的一种常见算法。
3. 密度聚类算法:密度聚类算法是一种通过计算对象的密度来确定簇的方法,常见的算法有DBSCAN和OPTICS算法。
这类算法可以有效地发现具有不同密度分布的聚类。
二、分类算法分类算法是将带有标签的数据集按照类别或标签进行划分的数据挖掘技术。
通过学习已有数据集的特征和类别标签,分类算法能够对新的未标记数据进行分类预测。
分类算法广泛应用于垃圾邮件过滤、文本分类、风险评估等领域。
常用的分类算法有以下几种:1. 决策树算法:决策树算法是一种基于树形结构的分类算法。
它通过对数据集进行递归分割,使得每个子节点具有最佳的纯度或信息增益,从而实现对数据的分类。
2. 朴素贝叶斯算法:朴素贝叶斯算法是一种基于条件概率的分类算法。
它假设特征之间相互独立,并通过计算条件概率来进行分类预测。
3. 支持向量机算法:支持向量机算法是一种通过寻找最优分割超平面将数据划分为不同类别的算法。
数据挖掘导论知识点总结数据挖掘是一门综合性的学科,它涵盖了大量的知识点和技术。
在本文中,我将对数据挖掘的导论知识点进行总结,包括数据挖掘的定义、历史、主要任务、技术和应用等方面。
一、数据挖掘的定义数据挖掘是从大量的数据中发掘出有价值的信息和知识的过程。
它是一种将数据转换为有意义的模式和规律的过程,从而帮助人们进行决策和预测的技术。
数据挖掘能够帮助我们从海量的数据中找到潜在的关联、规律和趋势,从而为决策者提供更准确和具有实际意义的信息。
二、数据挖掘的历史数据挖掘的概念最早可追溯到20世纪60年代,当时统计学家和计算机科学家开始尝试使用计算机技术来处理和分析大量的数据。
随着计算机硬件和软件技术的不断发展,数据挖掘逐渐成为一门独立的学科,并得到了广泛应用。
三、数据挖掘的主要任务数据挖掘的主要任务包括分类、聚类、关联规则挖掘、异常检测和预测等。
分类是将数据划分为多个类别的过程,其目的是帮助我们将数据进行分组和识别。
聚类是将数据划分为多个簇的过程,其目的是发现数据中的潜在模式和规律。
关联规则挖掘是发现数据中的关联规则和频繁项集的过程,其目的是发现数据中的潜在关联和趋势。
异常检测是发现数据中的异常值和异常模式的过程,其目的是发现数据中的异常现象。
预测是使用数据挖掘技术对未来进行预测的过程,其目的是帮助我们做出更准确的决策。
四、数据挖掘的技术数据挖掘的技术包括统计分析、机器学习、人工智能、数据库技术和数据可视化等。
统计分析是数据挖掘的基础技术,它包括描述统计、推断统计和假设检验等方法。
机器学习是一种使用算法和模型来识别数据模式和规律的技术,常见的机器学习算法包括决策树、神经网络、支持向量机和朴素贝叶斯等。
人工智能是数据挖掘的前沿技术,它包括自然语言处理、图像识别和智能决策等方面。
数据库技术是数据挖掘的技术基础,包括数据存储、数据检索和数据管理等技术。
数据可视化是数据挖掘的重要技术,它能够帮助我们将数据呈现为可视化的图表和图形,从而更直观地理解数据。
知识点归纳数据挖掘中的关联规则挖掘与异常检测知识点归纳数据挖掘中的关联规则挖掘与异常检测数据挖掘是一门涉及大数据分析和处理的学科,旨在从大量的数据中发现隐藏的模式、关联和趋势。
关联规则挖掘和异常检测是数据挖掘中的两个重要任务。
本文将对这两个知识点进行归纳和讨论。
一、关联规则挖掘关联规则挖掘是指在大规模数据集中寻找项集之间的相关性。
在关联规则挖掘中,项集是一个或多个项目的集合。
关联规则则是指在一个项集中出现的某个项目,能够关联到另一个项集中的其他项目。
关联规则挖掘的典型应用包括超市购物篮分析、推荐系统和生物信息学等。
它不仅可以帮助企业了解产品之间的关联性,还可以为用户提供个性化的推荐服务。
关联规则挖掘的常用算法有Apriori算法、FP-Growth算法等。
Apriori算法是一种基于候选生成和剪枝的经典算法。
它通过迭代发现频繁项集,然后生成关联规则。
FP-Growth算法是一种基于频繁模式树的算法,它通过构建一棵FP树来加速频繁项集的发现过程。
二、异常检测异常检测是指在数据集中寻找与其他样本不同的异常样本。
在异常检测中,异常样本通常被认为是不符合预期或规范的数据点,它们具有与其他样本不同的统计特性。
异常检测在许多领域中都有广泛的应用,如欺诈检测、网络入侵检测和工业生产中的故障检测等。
通过及时发现和处理异常,可以提高系统的安全性和可靠性。
异常检测的常用算法有基于统计方法的Z-Score算法、基于距离的KNN算法和基于聚类的LOF算法等。
Z-Score算法通过计算数据点与其均值之间的差异来判断是否为异常值。
KNN算法通过计算数据点与其最近邻之间的距离来确定是否为异常值。
LOF算法则通过计算数据点与其周围邻域之间的密度差异来判断是否为异常值。
三、关联规则挖掘与异常检测的联系尽管关联规则挖掘和异常检测是两个独立的任务,但它们在某些应用场景中可以相互协作。
首先,在关联规则挖掘中,异常样本可能作为离群项出现。
数据挖掘与机器学习复习资料数据挖掘和机器学习是当今信息技术领域中极为重要的两个分支,它们在处理和分析大量数据、发现隐藏模式、做出预测和决策等方面发挥着关键作用。
对于学习者来说,掌握这两个领域的知识至关重要。
以下是为大家整理的一份关于数据挖掘与机器学习的复习资料。
一、数据挖掘概述数据挖掘,简单来说,就是从大量的数据中提取出有用的信息和知识的过程。
它不仅仅是数据的收集和存储,更重要的是通过一系列的技术和方法,对数据进行深入分析和挖掘,以发现潜在的规律和趋势。
数据挖掘的主要任务包括数据分类、聚类、关联规则挖掘、异常检测等。
在数据分类中,我们根据已知的类别标签,将新的数据划分到相应的类别中。
聚类则是将数据按照相似性进行分组,而无需事先知道类别信息。
关联规则挖掘用于发现数据中不同属性之间的关联关系,例如购买了商品 A 的顾客往往也会购买商品 B。
异常检测则是识别出与大多数数据不同的异常值。
数据挖掘的过程通常包括数据准备、数据探索、模型建立、模型评估和模型部署等阶段。
在数据准备阶段,需要对原始数据进行清理、转换和集成,以确保数据的质量和一致性。
数据探索阶段则通过可视化和统计分析等方法,对数据的特征和分布有一个初步的了解。
模型建立阶段选择合适的算法和模型,并使用训练数据进行训练。
模型评估通过使用测试数据来评估模型的性能,如准确率、召回率、F1 值等。
最后,将性能良好的模型部署到实际应用中。
二、机器学习基础机器学习是让计算机通过数据自动学习和改进的一种方法。
它可以分为监督学习、无监督学习和强化学习三大类。
监督学习是在有标记的数据集上进行学习,常见的算法包括线性回归、逻辑回归、决策树、支持向量机等。
线性回归用于预测连续值,逻辑回归用于分类问题,决策树可以生成易于理解的规则,支持向量机在处理高维数据和非线性问题上有较好的表现。
无监督学习是在无标记的数据集中寻找模式和结构,例如聚类算法(如 KMeans 聚类、层次聚类)和主成分分析(PCA)等。
第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理.4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP 实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发"的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则.10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
第二章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据.2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
数据挖掘与大数据分析数据挖掘与大数据分析是当今信息时代中非常重要的研究领域,它们在各个行业中都发挥着重要作用。
以下是关于这两个知识点的详细介绍:1.数据挖掘:–定义:数据挖掘是指从大量的数据中提取有价值的信息和知识的过程。
–目的:通过分析大量数据,发现数据之间的规律性、关联性和模式,从而为决策提供支持。
–方法:包括统计分析、机器学习、人工智能、模式识别等技术。
–应用领域:市场营销、金融、医疗、教育、社交网络等。
2.大数据分析:–定义:大数据分析是指对海量数据进行挖掘和分析,以获取有价值的信息和知识。
–特点:数据量庞大、数据类型多样、数据处理速度快。
–工具和技术:包括Hadoop、Spark、NoSQL数据库、数据挖掘算法等。
–应用领域:互联网、金融、零售、政府、医疗等。
3.数据挖掘与大数据分析的差异:–数据挖掘更注重从数据中提取有价值的知识,而大数据分析更注重对海量数据进行处理和分析。
–数据挖掘的方法和技术相对较为成熟,而大数据分析随着数据量的增加和数据类型的多样化,技术和工具也在不断发展和更新。
4.数据挖掘与大数据分析的相似之处:–都是从大量数据中提取有价值的信息和知识。
–都需要使用到计算机科学、统计学、机器学习等相关知识。
–都可以为各个行业提供决策支持和优化解决方案。
5.数据挖掘与大数据分析的发展趋势:–人工智能和机器学习的进一步发展,将使得数据挖掘与大数据分析更加智能化和自动化。
–大数据技术的不断创新,将推动数据挖掘与大数据分析在更多领域中的应用。
–数据安全和隐私保护将成为数据挖掘与大数据分析发展的重要关注点。
希望以上内容能够帮助您了解数据挖掘与大数据分析的相关知识点。
习题及方法:1.习题:数据挖掘的主要目的是什么?解题方法:数据挖掘的主要目的是从大量的数据中发现有价值的信息和知识,通过分析数据之间的规律性、关联性和模式,为决策提供支持。
2.习题:大数据分析与传统数据分析的主要区别是什么?解题方法:大数据分析与传统数据分析的主要区别在于数据量的大小和数据类型的多样性。
知识点一数据仓库1.数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。
2.数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
3.数据仓库围绕主题组织4.数据仓库基于历史数据提供消息,是汇总的。
5.数据仓库用称作数据立方体的多维数据结构建模,每一个维对应于模式中的一个或者一组属性,每一个单元存放某种聚集的度量值6.数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据7.提供提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理,允许在不同的抽象层提供数据,这种操作适合不同的用户角度8.OLAP例子包括下钻和上卷,允许用户在不同的汇总级别上观察数据9.多维数据挖掘又叫做探索式多维数据挖掘OLAP风格在多维空间进行数据挖掘,允许在各种粒度进行多维组合探查,因此更有可能代表知识的有趣模式。
知识点二可以挖掘什么数据1.大量的数据挖掘功能,包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析2.数据挖掘功能用于指定数据挖掘任务发现的模式,分为描述性和预测性3.描述性挖掘任务刻画目标数据中数据的一般性质4.预测性挖掘任务在当前数据上进行归纳,以便做出预测5.数据可以与类或概念相关联6.用汇总、简洁、精确的表达描述类和概念,称为类/概念描述7.描述的方法有数据特征化(针对目标类)、数据区分(针对对比类)、数据特征化和区分8.数据特征化用来查询用户指定的数据,上卷操作用来执行用户控制的、沿着指定维的数据汇总。
面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必与用户交互。
形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。
结果描述可以用广义关系或者规则(也叫特征规则)提供。
9.用规则表示的区分描述叫做区分规则。
10.数据频繁出现的模式叫做频繁模式,类型包括频繁项集、频繁子项集(又叫频繁序列)、频繁子结构。
11.频繁项集一般指频繁地在事务数据中一起出现的商品的集合12.频繁子序列就是一个频繁序列模式13.子结构涉及不同的结构,可以与项集和子项集一起出现14.挖掘频繁模式导致发现数据中有趣的关联和相关性15.包含单个谓词的关联规则称作单维关联规则。
多个谓词的关联规则叫做多维关联规则。
16.如果不能同时满足最小支持度阈值和最小置信度阈值是无趣的关联规则。
17.频繁模式挖掘的基础是频繁项集挖掘18.分类找出描述和区分数据类或概念的模型或者函数来预测类标号未知对象的类标号。
19.导出模型是基于训练数据集的分析,预测类标号未知对象的类标号。
形式有分类规则、决策树、数学公式或者神经网络20.决策树类似流程图的树结构,每一个结点代表一个属性上的测试,每一个分支代表测试的一个结果,树叶代表类或者类分布。
21.分类时,神经网络类似于神经处理单元,单元之间加权连接。
构造分类模型的方法还有朴素贝叶斯分类、支持向量机、K最近邻分类。
22.分类预测类别(离散的、无序的)标号,回归建立连续值函数模型来预测缺失的、难以获得的数据数据值23.术语预测指数值预测和类标号预测24.回归也包含基于可用数据的分布趋势识别25.相关分析在分类和回归之前进行,试图识别与分类和回归过程显著相关的属性26.聚类分析数据对象,产生数据组群的类标号,原则是最大类内相似性、最小化类间相似性。
所形成的每一个簇看做一个对象集,可以导出规则。
聚类便于分类法的形成,将观测组织成分层结构,把类似的事件组织在一起27.离群点指与数据的一般行为或模型不一致的数据对象,视为噪声或者异常舍弃。
离群点数据分析也叫离群点分析或异常挖掘,用统计监测或者距离度量、基于密度方法识别28.有趣的模式指易于被人理解、在某种确信度上对于新的或检验数据是有效的、潜在有用的、新颖的模式。
有趣的模式代表知识。
29.模式兴趣的度量包括客观度量和反映特特定用户需要和兴趣的主观度量。
客观度量基于所发现模式的结构和关于它们的统计量,比如规则的支持度、规则的置信度、分类规则的准确率与覆盖率。
主观度量基于用户对数据的信念,比如是出乎意料、提供重要信息(也叫可行动的)30.根据用户提供的约束和兴趣度度量对搜索聚焦,对某些任务而言能够保证算法的完全性31.模式兴趣度量根据模式的兴趣度对所发现的模式进行排位,可以通过减去模式空间中不满足预先设定的兴趣度约束的子集来指导和约束发现过程。
知识点三数据对象与数据属性1.数据集由数据对象组成,一个对象代表一个实体。
2.数据对象用属性描述,又叫样本、实例、数据点或对象。
存放在数据库中的数据对象叫做数据元组。
3.属性是一个数据字段,表示数据对象的一个特征,也叫维、特征、变量。
用来描述一个给定对象的一组属性叫做属性向量(或者特征向量)。
涉及一个属性的叫做单变量、两个属性的叫做双变量4.一个属性的类型由该属性可能具有的值的集合决定,分为标称的、二元的、序数的、数值的5.标称属性的值是一些符号或者事物的名称,每一个值代表某种类别、编码或者状态,被看做是分类或者枚举的,不必具有有意义的序6.二元属性是一种标称属性,又叫布尔属性,只有两个状态:0或者1,0代表不出现,1代表出现。
如果两种状态具体同等价值并且携带相同的权重,那二元属性是对称的。
7.序数属性可能的值之间具有有意义的序或秩评定,相继之间的差是未知的,通常用于等级评定调查。
8.数值属性用整数或者实数值表示,可以是区间标度或者比率标度的。
区间标度属性用相同的单位尺度度量,有序,可以为负、零、正,允许比较和度量评估值之间的值。
比率标度是具有固定零点的数值属性,可以说一个数是另一个数的倍数9.机器学习领域开发的分类算法通常把属性分为离散的、连续的。
离散属性具有有限或者无限可数个值,可以用或者不用整数表示。
连续属性值一般用浮点变量表示,实数值用有限位数字表示。
知识点四数据的基本描述统计1.中心趋势度量数据分布的中部或者中心位置,包括均值、中位数、众数、中列数2.数据的分散度量包括极差、四分位数、四分位数极差、五数概括和和盒图、方差和标准差3.图形可视化审视数据,包括条图、饼图、线图4.为了抵消少数极端值的影响,使用截尾均值来高低极端值后的均值。
5.具有一个、两个、三个众数的数据集合叫做单峰、双峰、三峰6.在具有完全对称的数据分布的单峰频率曲线图中,均值、中位数和众数都是相同的中心值7.分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
8.识别可疑的离群点挑选落在第三个四分位数之上或者第一个四分位数之下至少1.5*IQR (四分数极差)处的值。
9.五数概括包括中位值、四分位数Q1、四分位数Q3、最小和最大观测值组成盒图。
知识点五度量数据的相似性和相异性1.簇是数据对象的集合,使得每一个簇中的元素互相相似,与其他簇中的对象相异。
2.两种数据结构:数据矩阵(存放数据对象)和相异性矩阵(存放数据对象对的相异性值)3.邻近性指相异性和相似性4.数据矩阵也叫二模矩阵,相异矩阵只包含一种实体,称为单模矩阵5.欧几里得距离和曼哈顿距离满足:非负性、同一性、对称性、三角不等式,满足条件的测度叫做度量。
6.上确界距离是两个对象的最大值差知识点六数据预处理概述1.数据质量包括准备性、完整性、一致性、时效性、可信性、可解释性。
质量基于数据的应用目的。
2.数据预处理的主要任务数据清理、数据集成、数据归约、数据变换3.数据清理是为了填补缺失的值、光滑噪声数据、识别和删除离群点、纠正数据的不一致性。
这是一个两步的迭代的过程,分为偏差检测和数据变换4.数据集成涉及集成多个文件、数据库、数据立方体,整合成一致的数据存储。
语义异种性的解决、元数据、相关分析、元组重复检测和数据冲突检测都有助于数据的集成。
5.数据归约得到数据集的简化表示,使信息内容的损失最小化。
策略包括维归约和数值归约、数据压缩。
维归约中减少所考虑的随机变量或者维的个数,方法包括小波变换、主成分分析、属性子集选择和属性创建。
数值归约归约中,使用参数模型和非参数模型,用较小的表示取代数据。
数据压缩指按照比例映射到一个较小的区间。
不损失任何信息代表是无损的。
6.属性的原始值被区间或者叫高层的概念所取代可以采用离散化和概念分层产生的方法,使得数据在多个抽象层上进行。
数据变换包括规范化、数据离散化、概念分层产生7.冗余数据的删除既是数据清理也是数据归约8.填补缺失值的方法有忽略元组、人工填写、使用一个全局变量、使用属性的中心度量(中位数或者均值)、使用给定元组属性的同一类的所有样本的属性均值或者中位数、使用最可能的值(使用回归或者贝叶斯推理得到)9.噪声是被测量的变量的随机误差或者方差10.识别噪声的方法有基本统计描述技术和数据可视化方法11.数据光滑技术有分箱、回归、离群点分析12.分箱通过考察数据的近邻来光滑有序数据值,这些有序的值被分配到一些桶或箱中。
13.分箱考察近邻的值,它是局部光滑14.对于用箱均值光滑,所有值都被替换成均值;用箱中位数光滑,每一个数都替换成中位数;用箱边界光滑,每一个数字都替换成最近的边界值,宽度越大代表光滑效果越好15.数据变换指数据被变换或者统一成适合挖掘的形式,策略包括光滑、属性构造、聚集、离散化、由标称数据产生概念分层。
16.光滑指去掉数据中的噪声,技术包括分箱、回归、聚类;属性构造通过已知属性产生新的属性添加到属性集中;聚类对数据的汇总和聚集;概念分层将属性泛化到较高的概念层17.离散化技术根据如何离散化加以分类,比如自顶向下的分类或者离散化。
使用类信息叫做监督的离散化。
18.离散化和概念分层也是数据归约的形式,原始数据被曲建或者标签取代。
19.用较小的单位表示属性将导致该属性有较大值域,因此倾向于使这样的属性具有较大的影响或者较高的权重20.规范化或标准化的目的是避免对度量单位选择的依赖性,规范化数据试图赋予所有属性相等的权重。
方法有最小-最大规范化、z分数规范化和按小数定标规范化21.最小-最大规范化:(v-minA)/(maxA-minA)(new_maxA-new_minA)+new_minAz分数规范化:(v-均值)/方差按小数定标规范化:全部除以一个数字22.分箱是一种基于指定的箱个数的自顶向下的分裂技术。
分箱不使用类信息,是一种非监督的离散化技术,对用户指定的箱个数敏感,容易受离群点的影响23.直方图是一种非监督的离散化方法,将属性A的值划分为不相交的区间,叫做桶或者箱。
直方图分析算法可以递归地用于每一个分区,自动地产生多级概念分层,直到达到一个预先设定的概念层数,过程终止。
对每一层使用最小区间长度来控制递归。
24.聚类将属性A划分为簇或组来离散化属性A。
采用自顶向下的划分策略或组自底向上的合并策略产生概念分层,其中每一个簇形成的概念分层的一个结点。