第六章 判别分析
- 格式:ppt
- 大小:723.50 KB
- 文档页数:28
判别分析导言判别分析是统计学中一种常用的数据分析方法,用于区分不同群体或类别之间的差异。
它通过寻找最佳的分类边界,帮助我们预测或判定未知样本的分类。
判别分析常用于模式识别、数据挖掘、生物学、医学等领域。
本文将介绍判别分析的基本概念、应用领域和算法。
一、判别分析的基本概念判别分析旨在通过构造合适的判别函数,将不同群体或类别的样本区分开来。
判别函数的建立是判别分析的核心任务,而判别函数的类型通常根据问题的特点来选择。
常见的判别函数有线性判别函数、二次判别函数、贝叶斯判别函数等。
判别分析的目标是使得样本在不同类别的判别函数值有较大差异。
二、判别分析的应用领域1. 模式识别判别分析在模式识别中的应用非常广泛。
通过判别分析,我们可以建立能够识别不同模式的模型。
例如,在人脸识别任务中,我们可以使用判别分析来建立一个分类器,能够将不同人脸的图像正确分类。
2. 数据挖掘在数据挖掘领域,判别分析可以帮助我们发现变量之间的关系,并进行预测。
通过对已有数据进行判别分析,我们可以预测未知样本的分类。
例如,在市场营销中,通过对消费者进行判别分析,我们可以预测消费者的购买行为,从而制定更精准的营销策略。
3. 生物学和医学判别分析在生物学和医学领域中也有广泛的应用。
例如,在癌症诊断中,通过对患者的临床数据进行判别分析,我们可以建立一个分类器,能够判断该患者是否患有癌症。
三、判别分析的算法判别分析的算法根据问题的特点和要求选择。
下面介绍两种常见的判别分析算法:1. 线性判别分析(LDA)线性判别分析是一种常见且简单的判别分析算法。
它的核心思想是通过将高维数据映射到低维空间中,使得不同类别的样本在投影空间中有较大的差异。
在LDA算法中,我们需要计算类内散度矩阵和类间散度矩阵,并求解其特征值和特征向量,从而确定投影向量。
2. 二次判别分析(QDA)二次判别分析是一种更为复杂的判别分析算法。
它假设不同类别的样本的协方差矩阵不相等,即每个类别内部的变化程度不同。
第六章 判别分析§6.1 什么是判别分析判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。
在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。
例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。
总之,在实际问题中需要判别的问题几乎到处可见。
判别分析与聚类分析不同。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。
正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
判别分析内容很丰富,方法很多。
判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。
判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。