第6章离群点挖掘分析

格式：ppt
大小：1.47 MB
文档页数：42

下载文档原格式

挖掘建模之离群点检测

Python数据分析与挖掘实战
第5章挖掘建模之离群点检测
2020-10-15
目录
1
分类与预测
2
聚类分析
3
关联规则
4
时序模式
5
离群点检测
6
小结
2
离群点检测
l 就餐饮企业而言，经常会碰到这样的问题： • 如何根据客户的消费记录检测是否为异常刷卡消费？ • 如何检测是否有异常订单？
l 这一类异点检测方法
x
1
x 2
e 2 2 x R
2
10
离群点检测——基于模型的离群点检测方法
11
离群点检测——基于模型的离群点检测方法
（2）混合模型的离群点检测 l 混合是一种特殊的统计模型，它使用若干统计分布对数据建模。每一个
分布对应一个簇，而每个分布的参数提供对应簇的描述，通常用中心和发散描述。 l 混合模型将数据看作从不同的概率分布得到的观测值的集合。概率分布可以是任何分布，但是通常是多元正态的，因为这种类型的分布不难理解，容易从数学上进行处理，并且已经证明在许多情况下都能产生好的结果。这种类型的分布可以对椭圆簇建模。
基于密度基于聚类
考虑数据集可能存在不同密度区域这一事实，从基于密度的观点分析，离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。
给出了对象是离群点的定量度量，并且即使数据具有不同的区域也能够很好的处理；大数据集不适用；参数选择是困难的。
一种是利用聚类检测离群点的方法是丢弃远离其他簇的小簇；另一种更系统的方法，首先聚类所有对象，然后评估对象属于簇的程度（离群点得分）。
基于聚类技术来发现离群点可能是高度有效的；聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。

第六章空间确定性插值

确定性插值法
局部插值法：反距离加权插值法、局部多项式法、径向基函数法
精确性插值法:反距离加权插值法、径向基函数法
非精确插值法：全局多项式法、局部多项式法
统计插值法：简单克立格法、普通克立格法、泛克立格法、指示克立格法、概率克立格法、析取克里格法、协同克里格法
二、空间确定性插值之反距离加权插值法
中数(Median)：分配到某个多边形单元的值是这个单元与其相邻单元的值计算出的中值。
一、探索性数据分析之寻找全局和局部离群值
Voronoi多边形的计算方法
标准差(Standard deviation):分配到某个多边形单元的值是该样点与相邻多边形样点值的标准差
四分位间隔(Interquantile range)::是该单元与其相邻单元值的第三四分位数减去第一四分位数的差
二、空间确定性插值之全局多项式插值法
优缺点:
优点：原理容易理解整个区域上函数唯一，能得到全局光滑连续的表面、充分反映宏观趋势。适用情况：（1）当研究区域表面变化缓慢；（2 ）研究全局性趋势时缺点: 高次多项式系数物理意义不明显容易受极值点的影响，尤其是在边沿地带不能提供内插区域的局部特征
第六章空间确定性插值
1、检查数据分布
一、探索性数据 2、寻找全局和局部离群值分析——掌握 3、全局趋势分析
4、检测空间自相关及方向变异
1、插值定义及分类 2、反距离加权插值法
二、空间确定性 3、全局多项式插值法插值——掌握 4、局部多项式插值法
5、径向基函数插值法 6、交叉验证和验证
二、空间确定性插值之插值定义及分类
半变异函数云图
协方差函数云图
一、探索性数据分析之寻找全局和局部离群值

数据挖掘第12章--离群点检测：离群点和离群点分析

示例：“今天的温度为280C。这是一个异常（离群点）吗？”如果是多伦多的
冬天，则这是一个离群点；如果是多伦多的夏天，则这是正常的一般地，在情境离群点检测中，所考虑数据对象的属性划分为两组：
情境属性：数据对象的情境属性定义对象的情境
行为属性：定义对象的特征，并用来评估对象关于它所处的情境是否是离群点
可理解性
在许多应用中，用户可能不仅要检测离群点，而且要知道被检测到的点为何是离
群点。 7 8
离群点检测方法
监督方法半监督方法无监督方法统计学方法
基于邻近性方法
基于聚类方法
8
8
谢
谢
关
注
欢
迎
指
导
离群点检测的挑战正常对象和离群点的有效建模正常数据与异常数据离群点乊间的边界通常并不清晰在离群点检测中处理噪声低质量的数据和噪声的存在给离群点检测带来了巨大的挑战针对应用的离群点检测离群点检测高度依赖亍应用类型使得不可能开发通用的离群点检测方法可理解性谢谢谢谢关关
数据挖掘与商务智能
范勤勤物流研究中心
6
8
离群点检测的挑战
正常对象和离群点的有效建模
离群点检测的质量高度依赖于正常（非离群点）对象和离群点的建模
正常数据与异常数据（离群点）之间的边界通常并不清晰
针对应用的离群点检测
离群点检测高度依赖于应用类型，使得不可能开发通用的离群点检测方法
在离群点检பைடு நூலகம்中处理噪声
低质量的数据和噪声的存在给离群点检测带来了巨大的挑战
第十二章离群点检测
1
离群点和离群点分析
什么是离群点？
什么是离群点？
假定使用一个给定的统计过程来产生数据对象集，离群点是一个数据对象，它显著不同于其他数据对象，好像它是被不同的机制产生的一样。

离群点挖掘

第6章离群点挖掘
2022/9/22
主要内容
离群点挖掘的概述离群点数据挖掘方法简介
✓ 基于统计的方法 ✓ 基于距离的方法 ✓ 基于密度的方法 ✓ 基于聚类的方法
什么是离群点(Outlier)？
Hawkins的定义：离群点是在数据集中偏离大部分数据的数据，使人怀疑这些数据的偏离并非由随机因素产生，而是产生于完全不同的机制。
间区域内,则测定过程处于
限制状态，生产过程或样 x
本分析结果有效；
μ+3σ
(2)假如此点超出上、下警告 μ+2σ
线，但仍在上、下限制线 μ 之间的区域内，提示质量
起先变劣，可能存在“失 μ-2σ
控”倾向,应进行初步检查 μ-3σ
，并实行相应的校正措施
；
t
(3)若此点落在上、下限制线之外，表示生产或测定过程“失控"，生产的是废品
c
N(0,1)的α
1
0.3173
1.5
0.1336
2
0.0455
2.5
0.0124
3
0.0027
3.5
0.0005
4
0.0001
定义
定义设属性x 取自具有均值0 和标准差1 的高斯分布。假如属性值x 满足： P(|x|≥c)=α，其中c 是一个选定的常量，则x以概率1-α为离群点。
为了运用该定义，须要指定α值。从不寻常的值 (对象)预示来自不同的值的观点来说，α表示我们错误地将来自给定分布的值分类为离群点的概率。从离群点是N(0,1)分布的稀有值的：
dista(x ny,c)e
OF1(kx), yN(x,k) |N(x,k)|
这里 N(x, k) 是不包含x的k-最近邻的集合， N (x ,k ) { y|disx t,y a ) n k d ce is(x t)a y , n x }ce(

参考答案of数据挖掘

第一章下列属于数据挖掘任务的是（）根据性别划分公司的顾客计算公司的总销售额预测一对骰子的结果利用历史记录预测公司的未来股价可以在不同维度合并数据，从而形成数据立方体的是（）数据库数据源数据仓库数据库系统目的是缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果的是（）数据清洗数据集成数据变换数据归约下述四种方法哪一种不是常见的分类方法（）决策树支持向量K-Means（聚类）朴素贝叶斯分类下列任务中，属于数据挖掘技术在商务智能方面应用的是（）欺诈检测垃圾邮件识别根据因特网的搜索引擎查找特定的Web页面定向营销异常检测的应用包括（）网络攻击预测某股票的未来价格计算公司的总销售额根据性别划分公司顾客将原始数据进行集成、变换、维度规约、数值规约是哪个步骤的任务（）频繁模式挖掘分类和预测数据预处理数据流挖掘KDD是（数据挖掘与知识发现）下列有关离群点的分析错误的是（）一般情况下离群点会被当作噪声而丢弃离群点即是噪声数据在某些特殊应用中离群点有特殊的意义信用卡在不常消费地区突然消费大量金额的现象属于离群点分析范畴下列关于模式识别的相关说法中错误的是（）模式识别的本质是抽象出不同事物中的模式并由此对事物进行分类医疗诊断属于模式识别的研究内容之一手机的指纹解锁技术不属于模式识别的应用自然语言理解也包含模式识别问题（）不属于数据挖掘的应用领域。

商务智能信息识别搜索引擎医疗诊断目前数据分析和数据挖掘面临的挑战性问题不包括（）数据类型的多样化高维度数据离群点数据分析与挖掘结果可视化常见的机器学习方法有监督学习、无监督学习、半监督学习数据挖掘是从大规模的数据中抽取或挖掘出感兴趣的知识或模式的过程或方法。

频繁模式是指数据集中频繁出现的模式离群点是指全局或者局部范围内偏离一般水平的观测对象联机分析处理是数据仓库的主要应用分类是指通过建立模型预测离散标签，回归是通过建立连续值模型推断新的数据的某个数值型属性。

数据挖掘之5——离群点检测

离群点检测（异常检测）是找出其行为不同于预期对象的过程，这种对象称为离群点或异常。

离群点和噪声有区别，噪声是观测变量的随机误差和方差，而离群点的产生机制和其他数据的产生机制就有根本的区别。

全局离群点：通过找到其中一种合适的偏离度量方式，将离群点检测划为不同的类别；全局离群点是情景离群点的特例，因为考虑整个数据集为一个情境。

情境离群点：又称为条件离群点，即在特定条件下它可能是离群点，但是在其他条件下可能又是合理的点。

比如夏天的28℃和冬天的28℃等。

集体离群点：个体数据可能不是离群点，但是这些对象作为整体显著偏移整个数据集就成为了集体离群点。

离群点检测目前遇到的挑战•正常数据和离群点的有效建模本身就是个挑战；•离群点检测高度依赖于应用类型使得不可能开发出通用的离群点检测方法，比如针对性的相似性、距离度量机制等；•数据质量实际上往往很差，噪声充斥在数据中，影响离群点和正常点之间的差别，缺失的数据也可能“掩盖”住离群点，影响检测到有效性；•检测离群点的方法需要可解释性；离群点检测方法1. 监督方法训练可识别离群点的分类器；但是监督方法检测离群点目前遇到几个困难：1.两个类别（正常和离群）的数据量很不平衡，缺乏足够的离群点样本可能会限制所构建分类器的能力；2.许多应用中，捕获尽可能多的离群点（灵敏度和召回率）比把正常对象误当做离群点更重要。

由于与其他样本相比离群点很稀少，所以离群点检测的监督方法必须注意如何训练和如何解释分类率。

One-class model，一分类模型考虑到数据集严重不平衡的问题，构建一个仅描述正常类的分类器，不属于正常类的任何样本都被视为离群点。

比如SVM决策边界以外的都可以视为离群点。

2.无监督方法正常对象在其中一种程度上是“聚类”的，正常对象之间具有高度的相似性，但是离群点将远离正常对象的组群。

但是遇到前文所述的集体离群点时，正常数据是发散的，而离群点反而是聚类的，这种情形下更适合监督方法进行检测。

第6章离群点挖掘ppt课件

u
u
u
3/41
2018/10/31
6.1 概述 (2)

离群点的特殊意义和实用价值
现有数据挖掘研究大多集中于发现适用于大部分数据的常规模式,在许多应用领域中，离群点通常作为噪音而忽略，许多数据挖掘算法试图降低或消除离群点的影响。而在有些应用领域识别离群点是许多工作的基础和前提，离群点会带给我们新的视角。如在欺诈检测中，离群点可能意味欺诈行为的发生，在入侵检测中离群点可能意味入侵行为的发生。

一张信用卡出现明显的高额消费也许是因为是盗用的卡。
8/41
2018/10/31
6.1 概述 (7)

离群点与众不同但具有相对性：
高与矮，疯子与常人。

类似术语： Outlier mining， Exception mining:异常挖掘、离群挖掘、例外挖掘和稀有事件挖掘。
9/41
2018/10/31
2018/10/31

6/41
6.1 概述 (5)

离群点挖掘中需要处理的几个问题
离群点与众不同，但具有相对性。可以通过定义对象的偏离程度来给对象打分——离群因子(Outlier Factor)或离群值得分(Outlier Score)，即都为离群点的情况下，也还有分高和分低的区别。正常点的数量远远超过离群点的数量，离群点的数量在大规模数据集中所占的比例较低，小于5%甚至1%.

4/41
2018/10/31
6.1 概述 (3)

离群点检测的应用领域

电信、保险、银行中的欺诈检测与风险分析发现电子商务中的犯罪行为灾害气象预报税务局分析不同团体交所得税的记录，发现异常模型和趋势海关、民航等安检部门推断哪些人可能有嫌疑海关报关中的价格隐瞒营销定制：分析花费较小和较高顾客的消费行为医学研究中发现医疗方案或药品所产生的异常反应计算机中的入侵检测应用异常检测到文本编辑器，可有效减少文字输入的错误 ……

数据挖掘原理与实践习题及参考答案

1.2 给出一个例子，说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖掘功能？它们能够由数据查询处理或简单的统计分析来实现吗？答：例如，数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。随着各个电子商务网站的建立，企业纷纷地从“产品导向”转向“客户导向” ，如何在保持现有的客户同时吸引更多的客户、如何在客户群中发现潜在价值，一直都是电子商务企业重要任务。但是，传统的数据分析处理，如数据查询处理或简单的统计分析，只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作，却无法从现有的大量数据中挖掘潜在的价值。而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多种方法，对数据库中庞大的数据进行挖掘分析，然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等，从而使电子商务更好地进行客户关系管理，提高客户的忠诚度和满意度。 1.3 假定你是 Big-University 的软件工程师，任务是设计一个数据挖掘系统，分析学校课程数据库。该数据库包括如下信息：每个学生的姓名、地址和状态(例如，本科生或研究生)、所修课程，以及他们的 GPA。描述你要选取的结构，该结构的每个成分的作用是什么？答：任务目的是分析课程数据库，那么首先需要有包含信息的关系型数据库系统，以便查找、提取每个属性的值；在取得数据后，需要有特征选择模块，通过特征选择，找出要分析的属性；接下来需要一个数据挖掘算法，或者数据挖掘软件，它应该包含像分类、聚类、关联分析这样的分析模块，对选择出来的特征值进行分析处理；在得到结果后，可以用可视化软件进行显示。 1.4 假定你作为一个数据挖掘顾问，受雇于一家因特网搜索引擎公司。通过特定的例子说明，数据挖掘可以为公司提供哪些帮助，如何使用聚类、分类、关联规则挖掘和离群点检测等技术为企业服务。答： (1) 使用聚类发现互联网中的不同群体，用于网络社区发现；

离群点分析 ppt课件

1.4 离群点检测遇到的困难
第一，在时间序列样本中发现离群点一般比较困难，因为这些离群点可能会隐藏在趋势、季节性或者其他变化中；第二，对于维度为非数值型的样本，在检测过程中需要多加考虑，比如对维度进行预处理等；第三，针对多维数据，离群点的异常特征可能是多维度的组合，而不是单一维度就能体现的。
2.1.1 不和谐检验
不和谐检验需要检查两个假设：工作假设和备择假设。工作假设H，假设n个对象的整个数据集来自一个初始的分布模型F，即：
不和谐检验就是检查对象关于分布F是否显著地大（或小）。如果某样本点的某个统计量相对于数据分布的是显著性概率充分小，那么我们则认为该样本点是不和谐的，工作假设被拒绝，此时备用假设被采用，它声明该样本点来自于另一个分布模型。如果某个样本点不符合工作假设，那么我们认为它是离群点。如果它符合某个备择假设，那么它就是符合这一备择假设分布
阈值=均值±2×标准差则在[4.5 ,13.7]区间以外的数据都是潜在的离群点，将最大值取整为13。所以年龄为14的孩子可能是个例外。而且由均值可知，此地的孩子普遍上学较晚.教育部门以后可据此作一些政策上的改进。
2.1.2 基于统计分布的离群点检测的优缺点
优点建立在非常标准的统计学原理之上，当数据和检验的类型十分充分时，检验十分有效。
与DB (p, d)离群点一样，DS离群点使用同样的距离公式，如绝对距离或欧式距离，但不根据pct和dmin来判定孤立点，而是先计算数据对象两两之间的距离，再计算每个对象与其他对象的距离之和。
设M为用户期望的孤立点个数，则距离之和最大的前M个对象即为要挖掘的孤立点，这样可消除用户设置参数pct和dmin的需要。
1）在样本空间中，至少存在k个对象q，使得d(p,q)<= d(p,o)；

大数据知识点梳理

第一章引论1什么是数据挖掘？数据挖掘更正确的命名为“从数据中挖掘知识”，是数据中的知识发现（KDD的同义词。

数据挖掘是从大量数据中挖掘有趣模式和知识的过程，数据源包括数据库、数据仓库、web、其他信息存储库或动态的流入系统的数据。

2、知识发现的过程是什么？知识发现的过程为：（1）数据清理（消除噪声和删除不一致的数据）（2）数据集成（多种数据源可以组合在一起）（3）数据选择（从数据库中提取与分析任务相关的数据）（4）数据变换（通过汇总或聚集操作，把数据变换和统一成适合挖掘的形式）（5）数据挖掘（基本步骤，使用智能方法提取数据模式）（6）模式评估（根据某种兴趣度度量，识别代表知识的真正有趣的模式）（7）知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）3、什么类型的数据可以挖掘？数据挖掘可以作用于任何类型的数据，数据的最基本形式是数据库数据、数据仓库数据、事务数据。

也可以用于数据流、有序/序列数据、图或网络数据、空间数据、文本数据、多媒体数据和万维网。

（1）数据库数据由一组内部相关的数据和一组管理和存储数据的软件程序组成。

关系数据库是表的汇集，每个表被赋予一个唯一的名字，含有一组属性（列或字段），并且通常存放大量元组（记录或行）。

每个元组代表一个对象，被唯一的关键字标识，并被一组属性值描述。

通常为关系数据库构建语义数据模型，如实体-联系（ER数据模型。

（2）数据仓库数据仓库是一个从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上。

数据存储从历史的角度提供信息，并且通常是汇总的。

数据仓库用称作数据立方体的多维数据结构建模。

每个维对应于模式中的一个或一组属性，每个单元存放某种聚集度量值（3）事务数据每个记录代表一个事务4、什么类型的模式可以挖掘？数据挖掘功能用于指定数据挖掘任务发现的模式，一般而言，这些任务可以分为两类：描述性和预测性。

描述性挖掘任务刻画目标数据中数据的一般性质，预测性挖掘任务在当前数据上进行归纳，以便进行预测。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

5/41
2018/10/13
6.1 概述 (4)

(1)定义在一个数据集中什么数据是不一致或离群的数据； (2)找出所定义的离群点的有效挖掘方法。离群点挖掘问题可以概括为如何度量数据偏离的程度和有效发现离群点的问题。

离群点挖掘问题由两个子问题构成：
为什么会出现离群点？
测量、输入错误或系统运行错误所致数据内在特性所决定客体的异常行为所致由于离群点产生的机制是不确定的，离群点挖掘算法检测出的“离群点”是否真正对应实际的异常行为，不是由离群点挖掘算法来说明、解释的，只能由领域专家来解释，离群点挖掘算法只能为用户提供可疑的数据，以便用户引起特别的注意并最后确定是否真正的异常。对于异常数据的处理方式也取决于应用，并由领域专家决策。

一张信用卡出现明显的高额消费也许是因为是盗用的卡。
8/41
2018/10/13
6.1 概述 (7)

离群点与众不同但具有相对性：
高与矮，疯子与常人。

类似术语： Outlier mining， Exception mining:异常挖掘、离群挖掘、例外挖掘和稀有事件挖掘。
9/41
2018/10/13
2/41 2018/10/13
6.1 概述 (1)

什么是离群点(Outlier)？
Hawkins的定义：离群点是在数据集中偏离大部分数据的数据，使人怀疑这些数据的偏离并非由随机因素产生，而是产生于完全不同的机制。 Weisberg的定义：离群点是与数据集中其余部分不服从相同统计模型的数据。 Samuels的定义：离群点是足够地不同于数据集中其余部分的数据。 Porkess的定义：离群点是远离数据集中其余部分的数据
商务数据挖掘与应用案例分析
0/41
2018/10/13
第6章离群点挖掘
6.1 概述>> 6.2 基于相对密度的离群点检测方法>> 6.3 基于聚类的离群点检测方法>> 6.4 离群点检测方法的评估>>
1/41
2018/10/13
开篇案例——保险欺诈检验
随着保险业的蓬勃发展，保险欺诈现象也越来越严重。有关统计数据显示，国际上某些险种因被欺诈而导致的赔款支出最高可达保险费收入的50％。从所发生的保险欺诈案例看，手段无所不用且花样翻新，有的虚构或者伪造索赔，人寿保险中常见的是移花接木、冒名顶替，或者自演自导一幕幕自残的苦肉计，更恶劣的还有杀亲骗保者，财产保Байду номын сангаас中，诸如故意沉船、故意纵火等骗赔伎俩，五花八门。愈演愈烈的保险欺诈违法犯罪活动，不仅极大地损害了保险合同当事人的合法权益，而且还严重扰乱了保险市场的正常秩序。一方面他对保险公司的财产构成了直接的侵犯；另一方面，保险公司面对保险欺诈不得不提高保费，这样，诚实的投保人成为最大的损失者，这将会严重阻碍保险业的发展。在人寿保险业务中，一份保单就是一个事务。保险公司在接受保险前，往往需要记录投保人详尽的信息，有时还要到医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平、索赔次数等等。我们主要想通过数据挖掘找出行为异常的客户记录。我们主要关注购买人的年龄、工作单位、健康状况、工资水平的信息和购买后的索赔情况，可以认为保单号、单位代号、单位名称是一些无关信息。这种人寿保险公司通过分析客户信息识别保险中的欺诈特征就是离群点检测方法研究的问题。数据挖掘中的多数方法都会将异常数据视为噪音或异常而丢弃。而离群点检验在激增的客户信息和业务数据中寻找异常数据，并进行更深层次的分析。这些异常数据与数据的一般行为或模型不一致，发生的概率非常小。但在保险欺诈检验中，小概率事件可能比正常发生的事件更有意义。因此，通过离群点检验将客户信息进行细致的分类挖掘，寻找欺诈的一般特征，并建立客户分析预测模型，对具有欺诈特征的客户群体实施相应的措施，以提高公司的反欺诈能力。

4/41
2018/10/13
6.1 概述 (3)

离群点检测的应用领域

电信、保险、银行中的欺诈检测与风险分析发现电子商务中的犯罪行为灾害气象预报税务局分析不同团体交所得税的记录，发现异常模型和趋势海关、民航等安检部门推断哪些人可能有嫌疑海关报关中的价格隐瞒营销定制：分析花费较小和较高顾客的消费行为医学研究中发现医疗方案或药品所产生的异常反应计算机中的入侵检测应用异常检测到文本编辑器，可有效减少文字输入的错误 ……
6.2 基于相对密度的离群点检测 (1)
(1)用于定义离群点的属性个数
一个对象只有单个属性一个对象具有多个属性：
(1) 全局观点和局部观点

(2) 点的离群程度

(3) 离群点的数量及时效性

7/41
2018/10/13
6.1 概述 (6)

离群点实例
一个人的年龄为-999就可能是由于程序处理缺省数据设置默认值所造成的；一个公司的高层管理人员的工资明显高于普通员工的工资可能成为离群点但却是合理的数据(如平安保险公司2007年 5位高管税后收入超过了1000万元)；一部住宅电话的话费由每月200元以内增加到数千元可能就因为被盗打或其它特殊原因所致；

3/41
2018/10/13
6.1 概述 (2)

离群点的特殊意义和实用价值
现有数据挖掘研究大多集中于发现适用于大部分数据的常规模式,在许多应用领域中，离群点通常作为噪音而忽略，许多数据挖掘算法试图降低或消除离群点的影响。而在有些应用领域识别离群点是许多工作的基础和前提，离群点会带给我们新的视角。如在欺诈检测中，离群点可能意味欺诈行为的发生，在入侵检测中离群点可能意味入侵行为的发生。
2018/10/13

6/41
6.1 概述 (5)

离群点挖掘中需要处理的几个问题
离群点与众不同，但具有相对性。可以通过定义对象的偏离程度来给对象打分——离群因子(Outlier Factor)或离群值得分(Outlier Score)，即都为离群点的情况下，也还有分高和分低的区别。正常点的数量远远超过离群点的数量，离群点的数量在大规模数据集中所占的比例较低，小于5%甚至1%.

第6章离群点挖掘分析

合集下载

挖掘建模之离群点检测

第六章空间确定性插值

数据挖掘第12章--离群点检测：离群点和离群点分析

离群点挖掘

参考答案of数据挖掘

数据挖掘之5——离群点检测

第6章离群点挖掘ppt课件

数据挖掘原理与实践习题及参考答案

离群点分析 ppt课件

大数据知识点梳理

文档推荐

最新文档

第6章离群点挖掘分析

合集下载

挖掘建模之离群点检测

第六章 空间确定性插值

数据挖掘 第12章--离群点检测：离群点和离群点分析

离群点挖掘

参考答案of数据挖掘

数据挖掘之5——离群点检测

第6章离群点挖掘ppt课件

数据挖掘原理与实践习题及参考答案

离群点分析 ppt课件

大数据知识点梳理

文档推荐

最新文档

第六章空间确定性插值

数据挖掘第12章--离群点检测：离群点和离群点分析