第6章离群点挖掘分析
- 格式:ppt
- 大小:1.47 MB
- 文档页数:42
第一章下列属于数据挖掘任务的是()根据性别划分公司的顾客计算公司的总销售额预测一对骰子的结果利用历史记录预测公司的未来股价可以在不同维度合并数据,从而形成数据立方体的是()数据库数据源数据仓库数据库系统目的是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果的是()数据清洗数据集成数据变换数据归约下述四种方法哪一种不是常见的分类方法()决策树支持向量K-Means(聚类)朴素贝叶斯分类下列任务中,属于数据挖掘技术在商务智能方面应用的是()欺诈检测垃圾邮件识别根据因特网的搜索引擎查找特定的Web页面定向营销异常检测的应用包括()网络攻击预测某股票的未来价格计算公司的总销售额根据性别划分公司顾客将原始数据进行集成、变换、维度规约、数值规约是哪个步骤的任务()频繁模式挖掘分类和预测数据预处理数据流挖掘KDD是(数据挖掘与知识发现)下列有关离群点的分析错误的是()一般情况下离群点会被当作噪声而丢弃离群点即是噪声数据在某些特殊应用中离群点有特殊的意义信用卡在不常消费地区突然消费大量金额的现象属于离群点分析范畴下列关于模式识别的相关说法中错误的是()模式识别的本质是抽象出不同事物中的模式并由此对事物进行分类医疗诊断属于模式识别的研究内容之一手机的指纹解锁技术不属于模式识别的应用自然语言理解也包含模式识别问题()不属于数据挖掘的应用领域。
商务智能信息识别搜索引擎医疗诊断目前数据分析和数据挖掘面临的挑战性问题不包括()数据类型的多样化高维度数据离群点数据分析与挖掘结果可视化常见的机器学习方法有监督学习、无监督学习、半监督学习数据挖掘是从大规模的数据中抽取或挖掘出感兴趣的知识或模式的过程或方法。
频繁模式是指数据集中频繁出现的模式离群点是指全局或者局部范围内偏离一般水平的观测对象联机分析处理是数据仓库的主要应用分类是指通过建立模型预测离散标签,回归是通过建立连续值模型推断新的数据的某个数值型属性。
离群点检测(异常检测)是找出其行为不同于预期对象的过程,这种对象称为离群点或异常。
离群点和噪声有区别,噪声是观测变量的随机误差和方差,而离群点的产生机制和其他数据的产生机制就有根本的区别。
全局离群点:通过找到其中一种合适的偏离度量方式,将离群点检测划为不同的类别;全局离群点是情景离群点的特例,因为考虑整个数据集为一个情境。
情境离群点:又称为条件离群点,即在特定条件下它可能是离群点,但是在其他条件下可能又是合理的点。
比如夏天的28℃和冬天的28℃等。
集体离群点:个体数据可能不是离群点,但是这些对象作为整体显著偏移整个数据集就成为了集体离群点。
离群点检测目前遇到的挑战•正常数据和离群点的有效建模本身就是个挑战;•离群点检测高度依赖于应用类型使得不可能开发出通用的离群点检测方法,比如针对性的相似性、距离度量机制等;•数据质量实际上往往很差,噪声充斥在数据中,影响离群点和正常点之间的差别,缺失的数据也可能“掩盖”住离群点,影响检测到有效性;•检测离群点的方法需要可解释性;离群点检测方法1. 监督方法训练可识别离群点的分类器;但是监督方法检测离群点目前遇到几个困难:1.两个类别(正常和离群)的数据量很不平衡,缺乏足够的离群点样本可能会限制所构建分类器的能力;2.许多应用中,捕获尽可能多的离群点(灵敏度和召回率)比把正常对象误当做离群点更重要。
由于与其他样本相比离群点很稀少,所以离群点检测的监督方法必须注意如何训练和如何解释分类率。
One-class model,一分类模型考虑到数据集严重不平衡的问题,构建一个仅描述正常类的分类器,不属于正常类的任何样本都被视为离群点。
比如SVM决策边界以外的都可以视为离群点。
2.无监督方法正常对象在其中一种程度上是“聚类”的,正常对象之间具有高度的相似性,但是离群点将远离正常对象的组群。
但是遇到前文所述的集体离群点时,正常数据是发散的,而离群点反而是聚类的,这种情形下更适合监督方法进行检测。
第一章引论1什么是数据挖掘?数据挖掘更正确的命名为“从数据中挖掘知识”,是数据中的知识发现(KDD的同义词。
数据挖掘是从大量数据中挖掘有趣模式和知识的过程,数据源包括数据库、数据仓库、web、其他信息存储库或动态的流入系统的数据。
2、知识发现的过程是什么?知识发现的过程为:(1)数据清理(消除噪声和删除不一致的数据)(2)数据集成(多种数据源可以组合在一起)(3)数据选择(从数据库中提取与分析任务相关的数据)(4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)(5)数据挖掘(基本步骤,使用智能方法提取数据模式)(6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)(7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)3、什么类型的数据可以挖掘?数据挖掘可以作用于任何类型的数据,数据的最基本形式是数据库数据、数据仓库数据、事务数据。
也可以用于数据流、有序/序列数据、图或网络数据、空间数据、文本数据、多媒体数据和万维网。
(1)数据库数据由一组内部相关的数据和一组管理和存储数据的软件程序组成。
关系数据库是表的汇集,每个表被赋予一个唯一的名字,含有一组属性(列或字段),并且通常存放大量元组(记录或行)。
每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。
通常为关系数据库构建语义数据模型,如实体-联系(ER数据模型。
(2)数据仓库数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。
数据存储从历史的角度提供信息,并且通常是汇总的。
数据仓库用称作数据立方体的多维数据结构建模。
每个维对应于模式中的一个或一组属性,每个单元存放某种聚集度量值(3)事务数据每个记录代表一个事务4、什么类型的模式可以挖掘?数据挖掘功能用于指定数据挖掘任务发现的模式,一般而言,这些任务可以分为两类:描述性和预测性。
描述性挖掘任务刻画目标数据中数据的一般性质,预测性挖掘任务在当前数据上进行归纳,以便进行预测。