应用统计学判别分析
- 格式:pdf
- 大小:6.15 MB
- 文档页数:43
统计学习理论中的判别分析一、引言统计学习理论是机器学习领域的重要理论之一,在实际应用中广泛使用。
判别分析作为统计学习理论的重要组成部分,被用于解决分类问题、回归问题以及降维问题。
本文将介绍统计学习理论中的判别分析的概念、原理和实际应用。
二、判别分析的定义判别分析,即Discriminant Analysis,是指利用统计学习的方法,通过对已知类别的样本进行学习建模,从而对未知样本进行分类、回归或降维的过程。
判别分析的目标是找到一个决策边界,使得同一类别内的样本尽量相似,不同类别之间的样本尽量不相似。
三、判别分析的原理判别分析的原理建立在统计学和概率论基础之上。
常见的判别分析方法包括线性判别分析(Linear Discriminant Analysis, LDA)、二次判别分析(Quadratic Discriminant Analysis, QDA)和支持向量机(Support Vector Machines, SVM)等。
1. 线性判别分析(LDA)线性判别分析是一种经典的判别分析方法,它通过寻找一个投影方向,使得同一类别内样本的投影尽量接近,而不同类别之间的样本的投影尽量远离。
LDA主要包含以下几个步骤:(1)计算各个类别的均值向量和协方差矩阵;(2)计算类间散度矩阵和类内散度矩阵;(3)计算投影方向的特征值和特征向量;(4)选择前k个特征值对应的特征向量作为投影方向。
2. 二次判别分析(QDA)二次判别分析是线性判别分析的一种推广,它假设不同类别的样本具有不同的协方差矩阵,而不仅仅是相同的协方差矩阵。
因此,QDA在处理非线性分类问题时更具优势。
QDA的步骤与LDA类似,只是在计算投影方向时考虑到了协方差矩阵的差异。
3. 支持向量机(SVM)支持向量机是一种非常强大的判别分析方法,它通过寻找一个超平面将样本进行划分,并且最大化分类边界与最近样本点之间的距离。
SVM可以处理非线性分类问题,并且具有良好的泛化性能。
可编辑修改精选全文完整版实验报告5判别分析(设计性实验)(Discriminant analysis)实验原理:判别分析是判别样品所属类型的一种统计方法。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数目,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
本实验要求学生应用距离判别准则(即,对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类),对两总体和多总体情形下分别进行判别分析。
实验中需注意协方差矩阵相等时,选取线性判别函数;协方差矩阵不相等时,应选取二次判别函数。
实验题目一:为了检测潜在的血友病A携带者,下表中给出了两组数据:(t11a8)其中x1=log10(AHF activity),x2=log10(AHF antigen)。
下表给出了五个新的观测,试对这些观测判别归类;(t11b8)实验要求:(1)分别检验两组数据是否大致满足二元正态性;(2)分别计算两组数据的协方差矩阵,是否可以认为两者近似相等?(3)对训练样本和新观测合并作散点图,不同的类用不同颜色标识;(4)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(5)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(6)比较方法(4)和方法(5)的误判率。
实验题目二:某商学研究生院的招生官员利用指标――大学期间平均成绩GPA和研究生管理能力考试GMAT的成绩,将申请者分为三类:接受,不接受,待定。
下表中给出了三类申请者的GPA与GMAT成绩:(t11a6)GPA (x1)GMAT(x2)接受GPA(x1)GMAT(x2)不接受GPA(x1)GMAT(x2)待定2.96 596 1 2.54 446 2 2.86 494 33.14 473 1 2.43 425 2 2.85 496 3 3.22 482 1 2.2 474 2 3.14 419 3 3.29 527 1 2.36 531 2 3.28 371 3 3.69 505 1 2.57 542 2 2.89 447 3 3.46 693 1 2.35 406 2 3.15 313 3 3.03 626 1 2.51 412 2 3.5 402 3 3.19 663 1 2.51 458 2 2.89 485 3 3.63 447 1 2.36 399 2 2.8 444 33.59 588 1 2.36 482 2 3.13 416 33.3 563 1 2.66 420 2 3.01 471 33.4 553 1 2.68 414 2 2.79 490 33.5 572 1 2.48 533 2 2.89 431 33.78 591 1 2.46 509 2 2.91 446 33.44 692 1 2.63 504 2 2.75 546 33.48 528 1 2.44 336 2 2.73 467 33.47 552 1 2.13 408 2 3.12 463 33.35 520 1 2.41 469 2 3.08 440 33.39 543 1 2.55 538 2 3.03 419 33.28 523 1 2.31 505 2 3 509 33.21 530 1 2.41 489 2 3.03 438 33.58 564 1 2.19 411 2 3.05 399 33.33 565 1 2.35 321 2 2.85 483 33.4 431 1 2.6 394 2 3.01 453 33.38 605 1 2.55 528 2 3.03 414 33.26 664 1 2.72 399 2 3.04 446 33.6 609 1 2.85 381 23.37 559 1 2.9 384 23.8 521 13.76 646 13.24 467 1实验要求:(1)对上表中的数据作散点图,不同的类用不同的颜色标识;(2)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(3)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(4)比较方法(2)和方法(3)的误判率;(5)现有一新申请者的GPA为3.21,GMAT成绩为497。