判别分析的基本基础学习知识原理
- 格式:doc
- 大小:955.01 KB
- 文档页数:17
SPSS判别分析方法案例分析一、教学内容本节课的教学内容选自人教版小学数学五年级下册第五章《数据的处理》中的“SPSS判别分析方法案例分析”。
本节课的主要内容包括:1. 了解判别分析的概念和意义;2. 学习判别分析的基本步骤;3. 通过案例分析,掌握SPSS判别分析方法的操作和使用。
二、教学目标1. 了解判别分析的概念和意义,能说出判别分析的基本步骤。
2. 学会使用SPSS进行判别分析,并解释分析结果。
3. 通过对案例的分析,培养学生的数据分析能力和问题解决能力。
三、教学难点与重点重点:1. 判别分析的基本步骤;2. SPSS判别分析方法的操作和使用。
难点:1. 判别分析的数学原理;2. 对SPSS判别分析结果的理解和解释。
四、教具与学具准备教具:多媒体教学设备、黑板、粉笔学具:学生电脑、SPSS软件、案例分析资料五、教学过程1. 实践情景引入:通过一个简单的案例,让学生感受判别分析在实际生活中的应用。
2. 讲解判别分析的概念和意义,介绍判别分析的基本步骤。
3. 操作演示:使用SPSS进行判别分析,让学生跟随操作,熟悉软件的使用。
4. 案例分析:让学生分组进行案例分析,锻炼学生的数据分析能力。
5. 随堂练习:设计一些相关的练习题,让学生巩固所学知识。
6. 作业布置:布置一些相关的作业,让学生进一步巩固所学知识。
六、板书设计板书设计如下:判别分析概念:什么是判别分析?意义:为什么进行判别分析?步骤:1. 收集数据2. 选择变量3. 建立判别函数4. 进行判别5. 解释结果七、作业设计1. 请简述判别分析的概念和意义。
答案:判别分析是一种统计方法,用于根据已知的数据特征,建立判别函数,对新的数据进行分类。
2. 请列出判别分析的基本步骤。
答案:判别分析的基本步骤包括:收集数据、选择变量、建立判别函数、进行判别、解释结果。
3. 请使用SPSS进行一次判别分析,并将分析结果解释。
答案:由于此作业需要使用软件进行操作,具体的操作步骤和分析结果需要学生在电脑上进行实际操作后得出。
判别分析的原理
判别分析是一种统计方法和机器学习算法,用于解决分类问题。
其原理是将数据样本划分为不同的类别,并通过计算样本特征与类别之间的关联性,对未知样本进行分类。
对于给定的训练样本和其类别标签,判别分析通过计算样本特征与类别之间的统计关系来构建分类模型。
它假设不同类别的样本在特征空间上具有不同的概率分布,并通过最小化错误率或最大化分类准确率来找到最佳的分类边界。
常用的判别分析方法包括线性判别分析(LDA)和二次判别
分析(QDA)。
线性判别分析假设各类别样本的协方差相等,并通过计算类别之间的最佳线性判别边界将样本投影到低维空间中进行分类。
二次判别分析则放宽了协方差相等的假设,通过计算类别之间的最佳二次判别边界对样本进行分类。
判别分析可以采用监督学习的方法进行模型训练,然后使用该模型对新样本进行分类预测。
在实际应用中,判别分析广泛用于模式识别、图像处理、生物信息学等领域。
它具有较高的分类准确率和灵活性,并且可以对多类别问题进行有效处理。
总之,判别分析是一种基于样本特征与类别之间统计关系的分类方法,通过构建分类模型来实现对未知样本的分类预测。
线性判别分析(LDA)说明:本⽂为个⼈随笔记录,⽬的在于简单了解LDA的原理,为后⾯详细分析打下基础。
⼀、LDA的原理LDA的全称是Linear Discriminant Analysis(线性判别分析),是⼀种supervised learning。
LDA的原理:将带上标签的数据(点),通过投影的⽅法,投影到维度更低的空间中,使得投影后的点,会形成按类别区分,⼀簇⼀簇的情况,相同类别的点,将会在投影后的空间中更接近。
因为LDA是⼀种线性分类器。
对于K-分类的⼀个分类问题,会有K个线性函数:当满⾜条件:对于所有的j,都有Yk > Yj,的时候,我们就说x属于类别k。
上式实际上就是⼀种投影,是将⼀个⾼维的点投影到⼀条⾼维的直线上,LDA最求的⽬标是,给出⼀个标注了类别的数据集,投影到了⼀条直线之后,能够使得点尽量的按类别区分开,当k=2即⼆分类问题的时候,如下图所⽰:上图提供了两种⽅式,哪⼀种投影⽅式更好呢?从图上可以直观的看出右边的⽐左边的投影后分类的效果好,因此右边的投影⽅式是⼀种更好地降维⽅式。
LDA分类的⼀个⽬标是使得不同类别之间的距离越远越好,同⼀类别之中的距离越近越好。
⼆、LDA算法流程输⼊:数据集 D = {(x1, y1), (x1, y1), ... ,(x m, y m)},任意样本x i为n维向量,y i∈{C1, C2, ... , Ck},共k个类别。
现在要将其降维到d维;输出:降维后的数据集D'。
(1)计算类内散度矩阵 S B;(2)计算类间散度矩阵 S W;(3)将 S B和 S W代⼊上⾯公式计算得到特征值λ和特征向量 w,取前⾯⼏个最⼤的特征值向量λ'与特征向量相乘得到降维转换矩阵λ'w;(4)将原来的数据与转换矩阵相乘得到降维后的数据 (λ'w)T x ;三、LDA优缺点分析LDA算法既可以⽤来降维,⼜可以⽤来分类,但是⽬前来说,主要还是⽤于降维。
狄利克雷判别法和阿贝尔判别法是数学分析中常用的两种判别法。
它们主要用于判断无穷级数的收敛性或发散性,是处理级数问题时的重要工具。
本文将分别介绍这两种判别法的原理和应用,帮助读者更好地理解和掌握这两种方法。
一、狄利克雷判别法1. 狄利克雷判别法的基本原理狄利克雷判别法是判断无穷级数收敛性的一种方法,主要适用于交错级数或者交替级数。
该判别法的基本原理是:若无穷级数\(\sum_{n=1}^{\infty} a_n b_n\)满足以下两个条件:1)\(a_n\)严格单调趋于0,即\(a_1 \geq a_2 \geq a_3 \geq \ldots \geq 0\)且\(\lim_{n \to \infty} a_n = 0\);2)\(b_n\)的部分和\(S_n = b_1 + b_2 + \ldots + b_n\)有界,即存在常数\(M\)使得对任意正整数\(n\)都有\(|S_1| \leq M\)。
2. 狄利克雷判别法的应用以交错调和级数\(\sum_{n=1}^{\infty} (-1)^{n+1}/n\)为例,根据狄利克雷判别法,可以将\(a_n = 1/n\),\(b_n = (-1)^{n+1}\),显然\(a_n\)严格单调趋于0,\(b_n\)的部分和\(S_n = 1 - 1/2 + 1/3 - 1/4 + \ldots\)是交错有界数列,因此根据狄利克雷判别法,该级数收敛。
二、阿贝尔判别法1. 阿贝尔判别法的基本原理阿贝尔判别法是判断无穷级数收敛性的另一种方法,主要适用于幂级数。
该判别法的基本原理是:若幂级数\(\sum_{n=0}^{\infty} a_nx^n\)满足以下两个条件:1)\(a_n\)是一个关于\(n\)的数列,且有界,即存在常数\(M\)使得对任意正整数\(n\)都有\(|a_n| \leq M\);2)对于固定的\(x\),幂级数的部分和\(S_n = a_0 + a_1 x + \ldots + a_n x^n\)是有界的。
多元统计分析Mu1tivariateS⅛atisticaIAna1ysis一、课程基本信息学时:40学分:2.5考核方式:闭卷考试,平时成绩占30%,期末考试成绩占70%。
中文简介:随着电子计算机的普及和软件的发展,信息储存手段以及数据信息的成倍增长,多元分析的方法己广泛运用自然科学和社会科学的各个领域。
国内国外实际应用中卓有成效的成果,已证明了多元分析方法是处理多维数据不可缺少的重要工具,并日益显示出无比的魅力。
多元分析是现代统计学中重要而活跃的学科。
二、教学目的与要求《多元统计》为专业必修的技术课程。
通过本课程的学习,使学生系统地了解多元统计分析的基本概念和基本原理,掌握一些常用的多元统计思想和统计方法,学会处理常见的多元统计问题。
三、教学方法与手段1、教学方法(一)课堂讲授本课程是一门应用性较强的专业理论基础课程,每章在讲述理论的同时注意相应典型问题背景,尽量联系生产生活中的实际例子,重视模型的建立,每章内容结束后借助案例分析帮助理解模型的建立和方法的应用,重视培养学生解决实际问题的能力和应用计算机求解的计算能力。
精心设计多媒体电子教案,充分、恰当使用多媒体教学手段,算法步骤呈现出直观、形象、动态的特点,帮助学生更好地理解课程内容,利用课件呈现足够的案例及其建模、分析求解过程,开阔了学生的思路。
(二)课外作业课外作业的内容选择基于对基本理论的理解和熟练相关算法,培养建模能力和分析计算能力,平均每次完成课后2~4道题习题。
(三)考试考试采用闭卷的形式,考试范围应涵盖所有讲授内容,主要考查学生对基本概念,基本理论的理解,相关计算掌握程度,建模能力及综合运用能力。
题型由选择题和填空题计算题构成。
总评成绩:平时成绩(课外作业情况)占30%期末闭卷考试占70%2、教学手段在教学中采用多种教学手段。
(1)多媒体课件:本课程已制作了相应的多媒体演示课件,与传统板书相结合进行讲授。
(2)教学网站:目前校外有很多优秀的程序设计网站,可以指定学生在相关网站注册学习,既增加学生兴趣又可以提高学生在课外自主学习能力。
第六章 判别分析§6.1 什么是判别分析判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。
在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。
例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。
总之,在实际问题中需要判别的问题几乎到处可见。
判别分析与聚类分析不同。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。
正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
判别分析内容很丰富,方法很多。
判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。
判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。
判别分析报告1. 简介判别分析(Discriminant Analysis)是一种常用的统计分析方法,用于判别或分类数据。
它通过将样本分到已知类别中,寻找最佳的判别函数或线性组合,以区分不同类别的样本。
判别分析在许多领域都有广泛的应用,例如医学诊断、市场分析、客户分类等。
本篇报告将介绍判别分析的基本原理、应用场景以及实施步骤,帮助读者了解和运用该方法。
2. 基本原理判别分析的基本原理是通过计算样本的特征,将其划分到事先设定好的不同类别中。
具体来说,判别分析假设每个类别都服从多元正态分布,然后利用已知的类别信息,通过构建判别函数或线性组合,使得同一类别的样本尽可能接近,不同类别的样本尽可能远离。
判别分析有两种常见的方法:线性判别分析(Linear Discriminant Analysis,简称LDA)和二次判别分析(Quadratic Discriminant Analysis,简称QDA)。
其中,LDA假设各类别的协方差矩阵相等,而QDA不做此假设,每个类别的协方差矩阵可以各不相同。
3. 应用场景判别分析可以应用于多种场景,下面列举几个常见的应用场景:3.1 医学诊断在医学领域,判别分析广泛应用于疾病的诊断。
通过分析患者的一系列指标(如血压、血糖、尿液检查结果等),可以建立判别函数,将患者分为正常人群和患病人群。
这有助于医生更准确地判断患者的病情,并采取相应的治疗措施。
3.2 市场分析在市场营销中,判别分析可以帮助企业分析客户群体,以便更好地制定销售策略。
通过分析客户的性别、年龄、购买记录等信息,可以将客户分为不同的类别,从而有针对性地推荐产品、制定优惠政策等。
3.3 信用评估在银行和金融机构中,判别分析可用于评估客户的信用风险。
通过分析客户的个人资料、财务状况等信息,可以将客户划分为低风险和高风险群体。
这有助于银行更准确地决策是否给予贷款或信用额度,并制定相应的利率和还款策略。
4. 实施步骤进行判别分析的一般步骤如下:1.数据准备:收集样本数据,确定类别信息,对数据进行预处理(如去除缺失值、处理异常值等)。
数据分析知识:数据分析中的判别分析方法判别分析是一种统计分析方法,用于确定一个或多个自变量对于分类变量的影响程度。
它主要用于识别和定量分析不同群体之间的差异,从而帮助人们做出正确的判断和决策。
判别分析方法在许多不同领域都有着广泛的应用,包括市场营销、医学、社会科学等。
在进行判别分析之前,首先需要明确分类变量和自变量的关系。
分类变量是研究对象的属性,例如不同的产品类型、疾病种类、用户群体等;自变量则是用来解释分类变量的因素,可包括多种属性或指标。
判别分析的目标是通过自变量来识别分类变量的不同群体,并且量化它们的差异程度。
判别分析的基本原理是利用自变量对不同分类变量进行分类和区分。
在进行判别分析时,需要建立一个判别函数,用来预测或计算分类变量的概率。
这个判别函数可以是线性的,也可以是非线性的,具体的形式取决于研究对象和数据特点。
判别函数的建立需要借助统计模型和算法,例如线性判别分析(LDA)、逻辑回归、支持向量机等。
这些方法都是在不同的数学理论和假设基础上发展起来的,具有各自的适用场景和特点。
在实际应用中,判别分析可以帮助人们识别和解释分类变量的差异。
举个例子,假如我们想要研究不同用户群体对于某个产品的偏好程度,我们可以收集用户的属性信息(如年龄、性别、收入等)作为自变量,产品的满意度(比如评分或者购买意愿)作为分类变量。
通过判别分析,我们可以分析出不同群体之间的偏好差异,找出对产品偏好影响最大的因素,从而为产品营销和推广提供科学依据。
在医学领域,判别分析也有着重要的应用价值。
例如,我们可以利用病人的临床指标(如血压、血糖、血脂等)作为自变量,疾病的种类(如高血压、糖尿病、心血管疾病等)作为分类变量,通过判别分析来识别不同疾病之间的特征和差异,帮助医生进行疾病诊断和治疗。
在社会科学领域,判别分析也常常用于对不同人群的心理特征和行为模式进行分类和分析。
比如,通过收集人们的性格特征、消费行为、社交习惯等自变量,可以对他们进行分类并识别出不同群体之间的差异,从而更好地理解和预测人的行为和决策。
数据分析知识:数据分析中的线性判别分析数据分析中,线性判别分析是一种常见的分类方法。
它的主要目的是通过在不同类别间寻找最大化变量方差的线性组合来提取有意义的特征,并对数据进行分类。
线性判别分析在实际应用中非常有用,例如在医学诊断、金融风险评估和生物计量学等领域。
一、简要介绍线性判别分析线性判别分析是一种有监督的数据挖掘技术,在分类问题中常用。
整个过程包括两个主要的部分:特征提取和分类器。
特征提取的任务是从原始数据中提取有意义的特征,用以区分不同类别的样本。
而分类器则是将已知类别的样本分成预先定义的类别。
在实际应用中,线性判别分析通常用于二分类问题。
其基本思想是,在不同类别(即两个不同样本)之间寻找一个最优的超平面,使得在该平面上不同类别的样本能够被清晰地分开。
也就是说,在分类平面上,同类样本尽可能地被压缩到一起,而不同类别的样本尽可能地被分开。
二、分类器在线性判别分析中的应用在进行线性判别分析时,一般都会用到一个分类器。
分类器可以对已知类别的样本进行分类,并对新的未知样本进行预测。
常用的分类器有:最近邻分类器、支持向量机、朴素贝叶斯分类器和决策树等。
其中,最近邻分类器是一种较为简单的分类器,其原理是对未知样本进行分类时,找到离该样本最近的一个或几个已知样本,并将该样本划归到该已知样本所属的类别。
而支持向量机则是一种复杂且有效的分类器。
它采用最大间隔的思想,在将不同类别分开的同时,尽可能地避免分类器过拟合的情况。
朴素贝叶斯分类器则是一种基于贝叶斯定理的分类器,它假设不同变量之间相互独立,并通过给定类别的样本来估算样本中各个特征的概率分布。
最后,决策树则是一种可视化的分类器,它通过一系列的条件分支,将样本划分为不同的类别。
三、特征提取在线性判别分析中的应用特征提取是在原始数据基础上提取可识别和易于分类的特征过程。
在线性判别分析中,常用到的特征提取方法有:主成分分析、线性判别分析和奇异值分解等。
其中,主成分分析(Principal Component Analysis, PCA)是一种常见的数据降维方法。
数据分析知识:数据分析中的判别分析方法数据分析中的判别分析方法数据分析是计算机科学领域的一个重要分支,随着互联网和大数据时代的到来,数据分析得到了越来越广泛的应用。
判别分析方法是数据分析中的一种常见方法,本文将对判别分析方法做进一步的介绍和分析。
一、判别分析的概念和应用判别分析方法是指将数据按照某种标准分成不同的类别或群组,从而对事物进行认识、分析和判断的一种方法。
判别分析广泛应用于各个领域,如生物学、医学、社会科学等,尤其在人工智能、机器学习等领域,是一个热门话题。
判别分析法的最主要的目的是让我们可以用特定的方法,合理地对某些事物进行分类和判别。
例如,我们可以根据一些属性,对客户进行不同的分类,如购买能力、消费需求等。
二、判别分析的方法和步骤1.数据预处理数据预处理是判别分析的第一步,包括数据清理、数据集成、数据变换和数据规约等。
这一步的目的是去除数据中的异常或错误,减少冗余和重复信息,提高数据的质量和可靠性。
2.特征提取特征提取是指从原始数据中提取有价值的特征,用于判别分类。
例如,通过分析个人的收入、年龄、教育程度等属性,可以提取出客户群体的特征,从而进行分类和判别。
3.判别模型训练建立数据模型是判别分析的核心环节,通过训练模型,让计算机可以自动识别不同的数据类别,提高分类的准确性和效率。
4.模型评价和优化模型评价是指对判别模型进行评估和优化,以达到更好的分类效果。
常用的评价方法包括准确率、召回率和F1值等。
三、判别分析的模型和分类方法判别分析的模型包括贝叶斯判别分析(Bayesian Discriminant Analysis)、线性判别分析(Linear Discriminant Analysis)、二次判别分析(Quadratic Discriminant Analysis)等。
其中,贝叶斯判别分析是基于统计学原理的判别分析方法,可以通过先验概率和条件概率,对数据进行分类和判别。
贝叶斯模型是一种基于概率的模型,特别适用于大规模数据和高维数据的分类和判别。
几种多元统计分析方法及其在生活中的应用一、本文概述随着大数据时代的到来,多元统计分析方法在各个领域中的应用日益广泛,其重要性和价值逐渐凸显。
本文旨在深入探讨几种主流的多元统计分析方法,包括主成分分析(PCA)、因子分析(FA)、聚类分析(CA)以及判别分析(DA)等,并阐述这些方法在生活实践中的具体应用。
我们将对每种多元统计分析方法进行详细介绍,包括其基本原理、实施步骤以及优缺点等方面。
通过这些基础知识的普及,为读者提供一个清晰的方法论框架,为后续的实际应用打下坚实基础。
我们将结合生活中的实际案例,详细阐述多元统计分析方法的应用场景。
这些案例可能涉及市场营销、医学诊断、社会调查、金融分析等多个领域,旨在展示多元统计分析方法在解决实际问题中的强大威力。
我们将对多元统计分析方法在生活中的应用前景进行展望,分析未来可能的发展趋势和挑战。
本文还将提出一些针对性的建议,以期推动多元统计分析方法在实践中的更广泛应用和发展。
通过本文的阐述,我们希望能够为读者提供一个全面、深入的多元统计分析方法及其在生活中的应用指南,为相关领域的研究和实践提供有益的参考。
二、多元统计分析方法介绍多元统计分析是一种在多个变量间寻找规律性的统计分析方法,其核心在于通过提取多个变量的信息,揭示出这些变量间的内在结构和相互关系。
以下是几种常见的多元统计分析方法及其特点。
多元回归分析:这种方法主要研究多个自变量对因变量的影响,旨在构建自变量与因变量之间的数学模型,并预测因变量的未来趋势。
多元回归分析可以帮助我们理解各个自变量对因变量的影响程度,以及这些影响是否显著。
主成分分析(PCA):PCA是一种降维技术,它通过正交变换将原始变量转换为线性无关的新变量,即主成分。
这些主成分按照其方差大小排序,前几个主成分通常可以代表原始数据的大部分信息。
PCA在数据压缩、特征提取和可视化等方面有广泛应用。
因子分析:因子分析通过提取公共因子来简化数据集,这些公共因子可以解释原始变量间的相关性。
判别分析的基本原理和模型一、判别分析概述 (一)什么是判别分析判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。
所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。
常用的有,距离准则、Fisher 准则、贝叶斯准则等。
判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。
判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法 (一)距离判别法1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i 类的重心距离最近,就认为它来自第i 类。
因此,距离判别法又称为最邻近方法(nearest neighbor method )。
距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别两组距离判别的基本原理。
设有两组总体B A G G 和,相应抽出样品个数为21,n n ,n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211ΛΛMΛΛΛΛ该总体的样本指标平均值为:()()()A x A x A x p Λ21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211ΛΛMΛΛΛΛ该总体的样本指标平均值为:()()()B x B x B x p Λ21,现任取一个新样品X ,实测指标数值为X =(p x x x ,,,21Λ),要求判断X 属于哪一类?首先计算样品X 与A G 、B G 两类的距离,分别记为()A G X D ,、()B G X D ,,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。
判别准则写为:A G X ∈,如果()A G X D ,<()B G X D ,, B G X ∈,如果()A G X D ,>()B G X D ,,X 待判,如果()A G X D ,=()B G X D ,。
其中,距离D 的定义很多,根据不同情况区别选用。
如果样品的各个变量之间互不相关或相关很小时,可选用欧氏距离。
采用欧氏距离时,()A G X D ,=∑=-pA x x 12))((ααα()B G X D ,=∑=-pB x x 12))((ααα然后比较()A G X D ,和()B G X D ,的大小,按照距离最近准则判别归类。
但实际应用中,考虑到判别分析常涉及到多个变量,且变量之间可能相关,故多用马氏距离。
马氏距离公式为:()()()()()A AA A X X S X X G X d -'-=-12,()()()()()B BB B X X S X X G X d -'-=-12, 其中()A X 、()B X 、A S 、B S 分别是A G 、B G 的均值和协方差阵。
这时的判别准则分两种情况给出: (1)当A S =B S =S 时()()A B G X d G X d ,,22-=()()()()()()()()AAABBBX X S X X X X S X X -'---'---11=()()()()()()B A B A X X S X X X -'⎥⎦⎤⎢⎣⎡+--1212令()()()B A X X X +=21,同时记()=X W 2)),(),((22A B G X d G X d - 则()()()()()BAX X SX X X W --=-1所以判别准则写成:A G X ∈,如果()0>X W ,B G X ∈,如果()0<X W ,X 待判,如果()0=X W 。
该规则取决于()X W 的值,因此()X W 被称为判别函数,也可以写成:()()X X X W -=α,其中()()()B A X X S -=-1α。
()X W 被称为线性判别函数。
作为特例,当1=p 时,两个总体的分布分别是()21,σμN 和()22,σμN ,判别函数为()()2122112μμσμμ-⎪⎭⎫ ⎝⎛+-=X X W或()()2122112x x s x x X X W -⎪⎭⎫ ⎝⎛+-=(使用样本资料代替总体参数时)不妨设21μμ<,这时()X W 的符号取决于μ>X 或μ<X 。
μ<X 时,判A G X ∈;μ>X 时,判B G X ∈。
两组距离判别法,简单容易理解,判别准则也是合理的,但是有时也会出现错判。
如下图6.1,如果X 来自A G ,但却落入2D ,被错判为B G 组,错判的概率为图中阴影的面积,记为)1/2(P ,类似有)2/1(P ,显然)1/2(P =)2/1(P =)2(121σμμ-Φ-。
图6.1当两总体靠的比较近时,即两总体的均值差异较小的时候,无论用何种判别方法,错判的概率都比较大,这时的判别分析也是没有意义的。
因此只有当两总体的均值有显著差异时,进行判别分析才有意义,为此,要对两总体的均值差异性进行检验,对此在下文中叙述。
(2)当A S ≠B S 时按照距离最近准则,类似地有:A G X ∈,如果()A G X D ,〈()B G X D ,, B G X ∈,如果()A G X D ,〉()B G X D ,,X待判,如果()A G X D ,=()B G X D ,。
仍然用=)(X W ()B G X d,2()A G X d ,2-()()()()B BB X X S X X -'-=-1()()()()A A A X X S X X -'---1作为判别函数,此时的判别函数是X 的二次函数。
(3)关于两组判别分析的检验由于判别分析是假设两组样品是取自不同总体,如果两个总体的均值向量在统计上差异不显著,则进行判别分析意义不大。
所以,两组判别分析的检验,实际就是要经验两个正态总体的均值向量是否相等,为此,检验的统计量为:()()()1,~2122122121--+-++--+=p n n p F Tpn n p n n F其中:()()()⎪⎪⎭⎫ ⎝⎛-+'⎪⎪⎭⎫ ⎝⎛-+-+=-)()()()(2212112121212B X A X n n n n S B X A X n n n n n n T B A S S S +=给定检验水平,查F 分布表使{}αα=>F F ,可得出αF ,再由样本值计算F ,若αF F >,则否定原假设,认为两个总体的均值向量在统计上差异显著,否则两个总体的均值向量在统计上差异不显著。
3、多个总体的距离判别法类似两个总体的讨论推广到多个总体。
设有k 个总体k G G Λ1,相应抽出样品个数为k n n Λ1n n n k =++)(1Λ,每个样品观测p 个指标得观测数据如下,总体1G 的样本数据为:()()()()()()()()()111111111111212222111211p n n n p p x x x x x x x x x ΛΛMΛΛΛΛ该总体的样本指标平均值为: ()()()11,121p x x x ΛM总体k G 的样本数据为:()()()()()()()()()k x k x k x k x k x k x k x k x k x p n n n p p 222212222111211ΛΛMΛΛΛΛ该总体的样本指标平均值为: ()()()k x k x k x p Λ21,它们的样本均值和协方差阵分别为: ()Λ1X ()k X 、Λ1S k S 。
一般的,记总体的样本指标平均值为:=)(i X (()()()i x i x i x p Λ21,),k i Λ2,1=。
(1)当Λ=1S S S k ==时 此时()()()()()i i i i X X S X X G X d-'-=-12,,k i Λ2,1=判别函数为())],(),([2122i j ij G X d G X d X W -=()j i j i X X S X X X -⎪⎪⎭⎫ ⎝⎛+-=212,k j i Λ2,1,= 相应的判别准则为:i G X ∈, 当()0>X W ij 时,对于一切i j ≠ 待判, 若有一个()0=X W ij (2)当Λ1S k S 不相等时 此时判别函数为()()()()()()()()()i i i j j j ji X X S X X X X S X X X W -'---'-=--11相应的判别准则为:i G X ∈, 当()0>X W ij 时,对于一切i j ≠ 待判, 若有一个()0=X W ij (二)费舍判别法费舍判别法是1936年提出来的,该方法对总体分布未提出什么特定的要求。
1.基本思想费舍判别法是基于统计上的费舍准则,即判别的结果应该使两组间区别最大,使每组内部离散性最小。
在费舍准则意义下,确定线性判别函数:p p x c x c x c y +++=Λ2211其中p c c c Λ21,为待求的判别函数的系数。
判别函数的系数的确定原则是使两组间区别最大,使每组内部离散性最小。
有了判别函数后,对于一个新的样品,将p 个指标的具体数值代入判别式中求出y 值,然后与判别临界值进行比较,并判别其应属于哪一组。
2.两组判别分析 (1)方法原理设有两组总体B A G G 和,相应抽出样品个数为21,n n n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211ΛΛMΛΛΛΛ第1个总体的样本指标平均值为:()()()A x A x A x p Λ21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211ΛΛMΛΛΛΛ第2个总体的样本指标平均值为:()()()B x B x B x p Λ21,根据判别函数,用()()∑==pk kkA x c A y 1表示A G组样品的重心,以()()∑==pk k k B x c B y 1表示B G 组样品的重心。