非参数判别分类方法
- 格式:ppt
- 大小:874.00 KB
- 文档页数:17
⾮参数检验⽅法⾮参数检验的推断⽅法不涉及样本所属总体的分布形式,也不会使⽤均值、⽅差等统计量,⾮参数检验是通过研究样本数据的顺序和分布的性质来构成理论基础,下⾯介绍⼀些⾮参数检验经常使⽤的样本数据信息:1.顺序:将样本数据按照升序排列,可以得到X1≤X2≤X3≤Xi....≤Xn,其中Xi为第i个顺序量。
2.秩将样本数据按照升序排列,可以得到X1≤X2≤X3≤Xi....≤Xn,Ri为Xi在这⼀列数据中的位置,称为秩,R1,R2,R3...Rn为样本数据的秩统计量3.结如果样本数据中存在相同的值,那么在排序时就会出现秩相同的情况,这样的情况称为结,结的取值是对应的秩的均值。
注意是秩的均值⽽不是数据本⾝的均值。
⾮参数检验的统计理论都是根据上述概念计算⽽来,此外,和参数检验⼀样,当我们得到分析数据的时候,最先做的⼯作还是先通过图表和⼀些描述性统计量对数据整体进⾏探索性分析,掌握数据⼤致分布情况、有⽆极端值等,为后续正确选择分析⽅法打下基础。
================================================ ====⾮参数检验主要应⽤在以下场合:1.不满⾜参数检验的条件,且⽆适当的变换⽅法进⾏变换2.分布类型⽆法获知的⼩样本数据3.⼀端或两端存在不确定值,如>10004.有序分类变量求各等级之间的强度差别更进⼀步来讲,⾮参数检验可以做以下分析:⼀、单样本总体分布检验⼆、两独⽴样本差异性检验三、两配对样本差异性检验四、多个独⽴样本差异性检验五、多个相关样本差异性检验可以看出,以上应⽤除了第⼀点之外,其他都有对应的参数检验⽅法,这就要根据样本数据的实际情况来进⾏选择了:适合使⽤参数检验的优先使⽤参数检验,否则使⽤⾮参数检验。
================================================ =下⾯我们分别介绍⼀下上述应⽤对应的⾮参数检验⽅法⼀、单样本总体分布检验单样本总体分布检验主要⽤来检验某样本所在总体分布和某⼀理论分布是否存在显著差异,主要涉及的⾮参数检验⽅法有:1.卡⽅检验卡⽅检验可以检验样本数据是否符合某⼀期望分布或理论分布,这在卡⽅检验中有所介绍,在此不再多说2.⼆项分布检验⼆项分布检验主要⽤来检验样本数据是否符合某个指定的⼆项分布,该检验只适合⼆分类变量样本。
第三章非参数判别分类方法学习指南:前一章重点学习的贝叶斯决策具有理论指导的意义,同时也指明了根据统计参数分类决策的方法。
沿这条路走就要设法获取样本统计分布的资料,要知道先验概率,类分布概率密度函数等。
然而在样本数不足条件下要获取准确的统计分析也是困难的。
这样一来人们考虑走另一条道路,即根据训练样本集提供的信息,直接进行分类器设计。
这种方法绕过统计分布状况的分析,绕过参数估计这一环,而企图对特征空间实行划分,称为非参数判别分类法,即不依赖统计参数的分类法。
这是当前模式识别中主要使用的方法,并且涉及到人工神经元网络与统计学习理论等多方面,是本门课最核心的章节之一。
非参数判别分类方法的核心是由训练样本集提供的信息直接确定决策域的划分方法。
这里最重要的概念是分类器设计用一种训练与学习的过程来实现。
机器自动识别事物的能力通过训练学习过程来实现,其性能通过学习过程来提高,这是模式识别、人工神经元网络中最核心的内容。
学习这一章要进一步体会模式识别中以确定准则函数并实现优化的计算框架。
由于决策域的分界面是用数学式子来描述的,如线性函数,或各种非线性函数等。
因此确定分界面方程,包括选择函数类型与确定最佳参数两个部分。
一般说来选择函数类型是由设计者确定的,但其参数的确定则是通过一个学习过程来实现的,是一个叠代实现优化的过程。
因此本章从最简单的函数类型讲起,再扩展到非线性函数。
学习的重点要放在线性判别函数的基本内容上,然后再注意如何扩展到非线性函数的应用上去。
该章的学习最好通过概念的反复推敲与思考,以加深对重要概念的理解,另一方面通过实验,亲自体验设计模式识别系统的完整过程,对学习才会更加真切。
学习目的(1) 通过本章学习掌握模式识别中最重要的非参数判别分类法的原理(2) 掌握机器自学习的原理,自学习功能已不仅在模式识别中应用,目前经常用机器学习这个词以涉及更为广泛的内容。
(3) 学习线性分类器的三种典型算法,这三种算法各自形成体系,分别形成了传统模式识别、人工神经元网络以及统计学习理论(4) 用近邻法进行分类(5) 通过相应数学工具的运用进一步提高运用数学的本领本章重点(1) 非参数判别分类器的基本原理,与参数判别分类方法的比较(2) 线性分类器的三种典型方法——以Fisher准则为代表的传统模式识别方法,以感知准则函数为代表的机器自学习方法,以及支持向量机代表的统计学习理论。
常见的几种非参数检验方法非参数检验是一种不需要对数据进行假设检验的统计方法,它不需要满足正态分布等前提条件,因此被广泛应用于实际数据分析中。
在本文中,我们将介绍常见的几种非参数检验方法。
一、Wilcoxon符号秩检验Wilcoxon符号秩检验是一种用于比较两个相关样本之间差异的非参数检验方法。
它基于样本差异的符号和秩来计算统计量,并通过查表或使用软件进行显著性判断。
二、Mann-Whitney U检验Mann-Whitney U检验是一种用于比较两个独立样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
三、Kruskal-Wallis H检验Kruskal-Wallis H检验是一种用于比较多个独立样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
四、Friedman秩和检验Friedman秩和检验是一种用于比较多个相关样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
五、符号检验符号检验是一种用于比较两个相关样本之间差异的非参数检验方法。
它基于样本差异的符号来计算统计量,并通过查表或使用软件进行显著性判断。
六、秩相关检验秩相关检验是一种用于比较两个相关样本之间关系的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
七、分布拟合检验分布拟合检验是一种用于检验数据是否符合某个特定分布的非参数检验方法。
它基于样本数据与理论分布之间的差异来计算统计量,并通过查表或使用软件进行显著性判断。
八、重复测量ANOVA重复测量ANOVA是一种用于比较多个相关样本之间差异的非参数检验方法。
它基于样本方差和均值来计算统计量,并通过查表或使用软件进行显著性判断。
九、Bootstrap法Bootstrap法是一种用于估计总体参数和构建置信区间的非参数方法。
它基于自助重采样技术来生成大量虚拟样本,以此估计总体参数和构建置信区间。
第十二章 非参数判别分析与非参数聚类第一节 非参数判别分析一、引言关于判别分析的一般概念我们在多元统计分析中已经详细的讨论,在那里我们采用了距离判别、贝叶斯判别和典型判别法。
这些判别法都需要估计总体的参数,而贝叶斯判别时,我们还指定了总体服从正态分布。
在非参数统计中,不对变量的分布做任何假设,这里主要有两种方法,BAYES 方法和近邻方法进行非参数判别分析。
设有M 个类,用Y 记一具体的对象所属的类,Y 可能的取值为M ,,2,1 。
设有了n 个经过明确判定的样本,第i 个样本的指标为i X ,所属的类为),,2,1(n i Y i =,,n 个样本记()()(){},,,,,,,221n n n Y Y Y Z X X X 1 =,常称为“训练样本”。
这一名称的来由使因为日后进行的判别工作依赖,因此可以说它们“训练了”人们如何取进行判别。
非参数方法是基于组概率密度函数的非参数估计。
每组的非参数密度估计核产生的分类准则采用核方法或k 最近邻方法。
马氏距离或欧氏距离用来确定样品的接近程度。
二、核方法 1、Bayes 方法概念设有M 个总体M G G ,,1 分别具有概率分布密度)(),(1x f x f M ,出现M 个总体的先验概率分别为M p p ,,1 ,0>=i p ,11=++M p p 。
贝叶斯判别的规则将样品判给)()()|(000x f P x f p x G P j j k k k ∑=最大的类,即如果)(max )(1x f p x f p j j Mj l l ≤≤=,判l G Y ∈2、Bayes 方法和密度函数估计的联系在非参数判别中,通常M j x f j ,,3,2,1),( =完全未知,有时k p p ,,1 未知。
一个直观的想法是直接估计M j x f j ,,3,2,1),( =和M p p ,,1 ,然后将得到的估计代入判别规则中进行计算。
具体的步骤是:如果已知某事物可分为M 个总体:1G …2G ,M G ,该事物的特性P 个指标描述,在进行分析之前,已观察到在各个总体的样本。