判别分析
- 格式:wps
- 大小:209.55 KB
- 文档页数:8
统计学中的判别分析判别分析是统计学中一种常见的分析方法,旨在通过将样本数据归类到一个或多个已知的类别中,来识别和描述不同类别之间的差异。
它在很多领域中都有广泛的应用,例如医学、市场调研、金融等。
本文将介绍判别分析的基本原理、常见的判别分析方法以及其在实际应用中的一些例子。
一、判别分析的原理判别分析的目标是构建一个判别函数,通过输入变量的值来判别或预测样本所属的类别。
它的核心思想是通过最大化类别间的差异和最小化类别内部的差异,来建立一个有效的分类模型。
判别分析的基本原理可以用以下步骤来描述:1. 收集样本数据,包括已知类别的样本和它们的属性值。
2. 对每个样本计算各个属性的平均值和方差。
3. 计算类别内部散布矩阵和类别间散布矩阵。
4. 根据散布矩阵计算特征值和特征向量。
5. 选择最具判别能力的特征值和特征向量作为判别函数的基础。
二、判别分析的方法判别分析有多种方法可以选择,常见的包括线性判别分析(Linear Discriminant Analysis,简称LDA)和二次判别分析(Quadratic Discriminant Analysis,简称QDA)。
1. 线性判别分析(LDA)线性判别分析假设每个类别的样本数据满足多元正态分布,并且各个类别的协方差矩阵相等。
它通过计算最佳投影方向,将多维属性值降低到一维或两维来实现分类。
LDA在分类问题中被广泛应用,并且在特征选择和降维方面也有一定的效果。
2. 二次判别分析(QDA)二次判别分析不同于LDA,它允许每个类别具有不同的协方差矩阵。
QDA通常适用于样本数据的协方差矩阵不相等或不满足多元正态分布的情况。
与LDA相比,QDA在处理非线性问题时可能更有优势。
三、判别分析的应用实例判别分析在多个领域中都有广泛的应用,下面列举了一些实际的例子。
1. 医学领域在医学中,判别分析可以帮助诊断疾病或判断病情。
例如,可以利用病人的临床数据(如血压、血糖等指标)进行判别分析,来预测是否患有某种疾病,或者判断疾病的严重程度。
关于判别分析的理解判别分析⼜称“分辨法”,是在分类确定的条件下,根据某⼀研究对象的各种特征值判别其类型归属问题的⼀种多变量统计分析⽅法。
其基本原理是按照⼀定的判别准则,建⽴⼀个或多个判别函数,⽤研究对象的⼤量资料确定判别函数中的待定系数,并计算判别指标。
据此即可确定某⼀样本属于何类。
当得到⼀个新的样品数据,要确定该样品属于已知类型中哪⼀类,这类问题属于判别分析问题。
判别分析,是⼀种统计判别和分组技术,就⼀定数量样本的⼀个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量信息所属的样本进⾏判别分组。
要解决的问题:已知某种事物有⼏种类型,现在从各种类型中各取⼀个样本,由这些样本设计出⼀套标准,使得从这种事物中任取⼀个样本,可以按这套标准判别它的类型。
分类:根据判别中的组数,可以分为两组判别分析和多组判别分析;根据判别函数的形式,可以分为线性判别和⾮线性判别;根据判别式处理变量的⽅法不同,可以分为逐步判别、序贯判别等;根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。
判别分析通常都要设法建⽴⼀个判别函数,然后利⽤此函数来进⾏批判,判别函数主要有两种,即线性判别函数(Linear Discriminant Function)和典则判别函数(Canonical Discriminate Function)。
线性判别函数是指对于总体,如果各组样品互相对⽴,且服从多元正态分布,就可建⽴线性判别函数。
典则判别函数是原始⾃变量的线性组合,通过建⽴少量的典则变量可以⽐较⽅便地描述各类之间的关系,例如可以⽤画散点图和平⾯区域图直观地表⽰各类之间的相对关系等。
建⽴判别函数的⽅法⼀般由四种:全模型法、向前选择法、向后选择法和逐步选择法。
1)全模型法是指将⽤户指定的全部变量作为判别函数的⾃变量,⽽不管该变量是否对研究对象显著或对判别函数的贡献⼤⼩。
此⽅法适⽤于对研究对象的各变量有全⾯认识的情况。
判别分析的原理
判别分析是一种统计方法和机器学习算法,用于解决分类问题。
其原理是将数据样本划分为不同的类别,并通过计算样本特征与类别之间的关联性,对未知样本进行分类。
对于给定的训练样本和其类别标签,判别分析通过计算样本特征与类别之间的统计关系来构建分类模型。
它假设不同类别的样本在特征空间上具有不同的概率分布,并通过最小化错误率或最大化分类准确率来找到最佳的分类边界。
常用的判别分析方法包括线性判别分析(LDA)和二次判别
分析(QDA)。
线性判别分析假设各类别样本的协方差相等,并通过计算类别之间的最佳线性判别边界将样本投影到低维空间中进行分类。
二次判别分析则放宽了协方差相等的假设,通过计算类别之间的最佳二次判别边界对样本进行分类。
判别分析可以采用监督学习的方法进行模型训练,然后使用该模型对新样本进行分类预测。
在实际应用中,判别分析广泛用于模式识别、图像处理、生物信息学等领域。
它具有较高的分类准确率和灵活性,并且可以对多类别问题进行有效处理。
总之,判别分析是一种基于样本特征与类别之间统计关系的分类方法,通过构建分类模型来实现对未知样本的分类预测。
判别分析方法及其应用效果评估判别分析方法是一种常用的统计分析方法,用于确定分类系统中哪些变量最能有效地区分不同的组别。
它基于一组预测变量(或称为自变量)的输入值,以及一组已知类别(或称为因变量)的输出值,通过构建分类模型来判断新样本属于哪个组别。
本文将介绍判别分析方法的基本原理、常见的判别分析方法及其应用效果评估。
## 一、判别分析方法的基本原理判别分析方法基于贝叶斯决策理论,旨在通过最小化错判率来实现最优分类。
假设有K个已知的类别,以及p个预测变量。
判别分析方法假设预测变量满足多元正态分布,并利用已知类别的样本数据估计每个类别的均值向量和协方差矩阵。
根据这些参数,可以建立判别函数来判断新样本的分类。
判别函数的形式根据具体的判别分析方法而定。
常见的判别分析方法有线性判别分析(LDA)、二次判别分析(QDA)和最近邻判别分析(KNN)等。
这些方法使用不同的数学模型和算法来构建判别函数,具有不同的优势和适用范围。
## 二、常见的判别分析方法及其特点### 1. 线性判别分析(LDA)线性判别分析是一种最常用的判别分析方法。
它假设各类别的协方差矩阵相等,即样本来自同一多元正态分布。
LDA通过计算类别间散布矩阵和类别内散布矩阵的比值来确定最优的判别函数。
LDA的优点是计算简单、效果稳定,并且不受样本数量和维度的限制。
然而,它对样本的分布假设要求较高,如果样本不满足多元正态分布,LDA可能会出现较大偏差。
### 2. 二次判别分析(QDA)二次判别分析是一种放宽了协方差矩阵相等假设的判别分析方法。
QDA假设每个类别的协方差矩阵各不相同,通过计算类别间散布矩阵和类别内散布矩阵的比值来确定最优的判别函数。
相比于LDA,QDA更加灵活,可以适应更加复杂的数据分布。
然而,由于需要估计更多的参数,QDA的计算复杂度较高,并且对样本数量和维度的要求较高。
### 3. 最近邻判别分析(KNN)最近邻判别分析是一种基于样本距离的判别分析方法。
判别分析实验报告判别分析实验报告一、引言判别分析是一种常用的统计分析方法,广泛应用于数据挖掘、模式识别、生物信息学等领域。
本实验旨在通过对一个真实数据集的分析,探讨判别分析在实际问题中的应用效果。
二、数据集介绍本实验使用的数据集是一份关于肿瘤患者的临床数据,包括患者的年龄、性别、肿瘤大小、转移情况等多个变量。
我们的目标是根据这些变量,建立一个判别模型,能够准确地预测患者是否患有恶性肿瘤。
三、数据预处理在进行判别分析之前,我们首先对数据进行预处理。
这包括数据清洗、缺失值处理、异常值检测等步骤。
通过对数据的观察和分析,我们发现有部分数据存在缺失值,需要进行处理。
我们选择使用均值替代缺失值的方法进行处理,并对替代后的数据进行了异常值检测。
四、判别模型建立在本实验中,我们选择了线性判别分析(LDA)作为判别模型的建立方法。
LDA 是一种经典的判别分析方法,通过将数据投影到低维空间中,使得不同类别的样本在投影后的空间中能够更好地区分开来。
我们使用Python中的scikit-learn 库来实现LDA算法。
五、模型评估为了评估建立的判别模型的性能,我们将数据集划分为训练集和测试集。
使用训练集对模型进行训练,并使用测试集进行模型的评估。
我们选择了准确率、精确率、召回率和F1值等指标来评估模型的性能。
经过多次实验和交叉验证,我们得到了一个较为稳定的模型,并对其性能进行了详细的分析和解释。
六、结果与讨论经过模型评估,我们得到了一个在测试集上准确率为85%的判别模型。
该模型在预测恶性肿瘤时具有较高的精确率和召回率,说明了其在实际应用中的可行性和有效性。
但同时我们也发现,该模型在预测良性肿瘤时存在一定的误判率,可能需要进一步优化和改进。
七、结论本实验通过对一个真实数据集的判别分析,验证了判别分析方法在预测恶性肿瘤的应用效果。
通过建立判别模型,并对其性能进行评估,我们得到了一个在测试集上具有较高准确率的模型。
然而,我们也发现了该模型在预测良性肿瘤时存在一定的误判率,需要进一步的改进和优化。
判别分析与聚类分析判别分析与聚类分析是数据分析领域中常用的两种分析方法。
它们都在大量数据的基础上通过统计方法进行数据分类和归纳,从而帮助分析师或决策者提取有用信息并作出相应决策。
一、判别分析:判别分析是一种有监督学习的方法,常用于分类问题。
它通过寻找最佳的分类边界,将不同类别的样本数据分开。
判别分析可以帮助我们理解和解释不同变量之间的关系,并利用这些关系进行预测和决策。
判别分析的基本原理是根据已知分类的数据样本,建立一个判别函数,用来判断未知样本属于哪个分类。
常见的判别分析方法包括线性判别分析(LDA)和二次判别分析(QDA)。
线性判别分析假设各类别样本的协方差矩阵相同,而二次判别分析则放宽了这个假设。
判别分析的应用广泛,比如在医学领域可以通过患者的各种特征数据(如生理指标、疾病症状等)来预测患者是否患有某种疾病;在金融领域可以用来判断客户是否会违约等。
二、聚类分析:聚类分析是一种无监督学习的方法,常用于对数据进行分类和归纳。
相对于判别分析,聚类分析不需要预先知道样本的分类,而是根据数据之间的相似性进行聚类。
聚类分析的基本思想是将具有相似特征的个体归为一类,不同类别之间的个体则具有明显的差异。
聚类分析可以帮助我们发现数据中的潜在结构,识别相似的群组,并进一步进行深入分析。
常见的聚类分析方法包括层次聚类分析(HCA)和k-means聚类分析等。
层次聚类分析基于样本间的相似性,通过逐步合并或分割样本来构建聚类树。
而k-means聚类分析则是通过设定k个初始聚类中心,迭代更新样本的分类,直至达到最优状态。
聚类分析在市场细分、社交网络分析、图像处理等领域具有广泛应用。
例如,可以将客户按照他们的消费喜好进行分组,以便为不同群体提供有针对性的营销活动。
总结:判别分析和聚类分析是两种常用的数据分析方法。
判别分析适用于已知分类的问题,通过建立判别函数对未知样本进行分类;聚类分析适用于未知分类的问题,通过数据的相似性进行样本聚类。
第19章判别分析判别分析是一种多变量统计分析方法,用于确定两个或多个已知类别的样本在一组变量上的差异程度,从而将未知样本分到合适的类别。
在实际应用中,判别分析具有广泛的应用场景,如医学诊断、金融风险评估、图像识别等领域。
判别分析的目标是确定一个判别函数,该函数可以将样本正确地分类到已知的类别中。
判别分析主要通过以下几个步骤来实现:1.数据准备:首先需要收集并准备训练样本,这些样本包括已知类别的观测值和相关变量的测量值。
2.变量选择:在判别分析中,需要选择与类别之间具有显著差异的变量。
常用的方法包括t检验和方差分析等。
3.建立判别函数模型:判别函数模型是用来将样本正确分类的函数。
常见的判别函数模型包括线性判别函数、二次判别函数、多项式判别函数等。
4.模型评估和选择:需要对模型进行评估和选择,以确保模型的稳定性和准确性。
常见的评估指标包括准确率、召回率、精确率等。
5.判别函数应用:通过判别函数,可以将未知样本分类到合适的类别中,从而实现对未知观测值的预测。
判别分析有几个重要的假设前提:首先,假设样本来自正态分布;其次,假设各个类别的协方差矩阵相等;最后,假设各个类别的先验概率相等。
判别分析的优点在于可以通过变量选择来减少数据的维度,提高判别函数的准确性;同时,判别分析对异常值的鲁棒性较好,不会对判别结果产生较大影响。
然而,判别分析也存在一些限制,如对数据分布的假设较为严格,对样本大小要求较高。
在实际应用中,判别分析可以用于多个领域。
例如,在医学诊断中,可以利用判别分析将病人分为患病和健康两类,从而提供更准确的诊断结果;在金融风险评估中,可以通过判别分析将客户分为高风险和低风险,以便制定相应的风险管理策略;在图像识别中,可以利用判别分析将图像分为不同类别,实现图像的自动分类和识别。
总而言之,判别分析是一种多变量统计分析方法,通过确定样本在一组变量上的差异程度来实现对未知样本的分类。
在实际应用中,判别分析具有广泛的应用场景,可以用于医学诊断、金融风险评估、图像识别等领域。
第六章 判别分析§6.1 什么是判别分析判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。
在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。
例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。
总之,在实际问题中需要判别的问题几乎到处可见。
判别分析与聚类分析不同。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。
正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
判别分析容很丰富,方法很多。
判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。
判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。
输出结果4—1未加权案例N 百分比有效150 100.0排除的缺失或越界组代码0 .0 至少一个缺失判别变量0 .0 缺失或越界组代码还有至少一个缺失判别变量0 .0 合计0 .0合计150 100.0y 均值标准差有效的N(列表状态)未加权的已加权的1 Sepal.Length 5.006 .3525 50 50.000 Sepal.Width 3.428 .3791 50 50.000 Petal.Length 1.462 .1737 50 50.000 Petal.Width .246 .1054 50 50.0002 Sepal.Length 5.936 .5162 50 50.000 Sepal.Width 2.770 .3138 50 50.000 Petal.Length 4.260 .4699 50 50.000 Petal.Width 1.326 .1978 50 50.0003 Sepal.Length 6.588 .6359 50 50.000 Sepal.Width 2.974 .3225 50 50.000 Petal.Length 5.552 .5519 50 50.000 Petal.Width 2.026 .2747 50 50.000合计Sepal.Length 5.843 .8281 150 150.000Sepal.Width 3.057 .4359 150 150.000Petal.Length 3.758 1.7653 150 150.000Petal.Width 1.199 .7622 150 150.000组均值的均等性的检验Wilks 的LambdaF df1 df2 Sig.Sepal.Length .381 119.265 2 147 .000 Sepal.Width .599 49.160 2 147 .000 Petal.Length .059 1180.161 2 147 .000 Petal.Width .071 960.007 2 147 .000输出结果4—2协方差矩阵的均等性的箱式检验y 秩对数行列式1 4 -13.0672 4 -10.8743 4 -8.927 汇聚的组内 4 -9.959打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。
箱的M 146.663F 近似。
7.045 df1 20 df2 77566.751 Sig. .000对相等总体协方差矩阵的零假设进行检验。
输出结果4—3典型判别式函数摘要特征值函数特征值方差的% 累积% 正则相关性1 32.192a99.1 99.1 .9852 .285a.9 100.0 .471a. 分析中使用了前2 个典型判别式函数。
函数检验Wilks 的Lambda卡方df Sig.1 到2 .023 546.115 8 .0002 .778 36.5303 .000 输出结果4—4函数1 2 Sepal.Length -.427 .012 Sepal.Width -.521 .735 Petal.Length .947 -.401 Petal.Width .575 .581函数1 2 Petal.Length .706*.168 Sepal.Width -.119 .864* Petal.Width .633 .737* Sepal.Length .223 .311*判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。
*. 每个变量和任意判别式函数间最大的绝对相关性函数1 2 Sepal.Length -.829 .024 Sepal.Width -1.534 2.165 Petal.Length 2.201 -.932 Petal.Width 2.810 2.839 (常量) -2.105 -6.661非标准化系数y 函数1 21 -7.608 .2152 1.825 -.7283 5.783 .513在组均值处评估的非标准化典型判别式函数输出结果4—5分类统计量分类处理摘要已处理的150已排除的缺失或越界组代码0 至少一个缺失判别变量0用于输出中150组的先验概率y 先验用于分析的案例未加权的已加权的1 .333 50 50.0002 .333 50 50.0003 .333 50 50.000合计 1.000 150 150.000分类函数系数y1 2 3 Sepal.Length 23.544 15.698 12.446 Sepal.Width 23.588 7.073 3.685 Petal.Length -16.431 5.211 12.767 Petal.Width -17.398 6.434 21.079 (常量) -86.308 -72.853 -104.368Fisher 的线性判别式函数y 预测组成员合计1 2 3初始计数1 50 0 0 502 0 48 2 503 0 1 49 50 %1 100.0 .0 .0 100.02 .0 96.0 4.0 100.03 .0 2.0 98.0 100.0交叉验证b 计数1 50 0 0 502 0 48 2 503 0 1 49 50 %1 100.0 .0 .0 100.02 .0 96.0 4.0 100.03 .0 2.0 98.0 100.0a. 已对初始分组案例中的98.0% 个进行了正确分类。
b. 仅对分析中的案例进行交叉验证。
在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。
c. 已对交叉验证分组案例中的98.0% 个进行了正确分类。
输出结果4—6分类结果ay 预测组成员 合计1 2 3初始 计数 1 50 0 0 502 0 473 503 0 1 49 50% 1 100.0 .0 .0 100.02 .0 94.0 6.0 100.03 .0 2.0 98.0 100.0a. 已对初始分组案例中的 97.3% 个进行了正确分类。
分析:输出结果4-1分析的是各组的描述统计量和对各组均值是否相等的检验,第1张表反映的是有效样本量及变量缺失的情况。
第2张表示各组变量的描述统计分析。
第3张表示对各组均值是否相等的检验。
由第3张表可以看出,在0.01的显著水平上我们拒绝变量萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal length)和花瓣宽(petal width)在三组的均值相等的假设,即认为变量萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal length)和花瓣宽(petal width)在三组的均值是有显著的差异。
输出结果4-2是对各组协方差矩阵是否相等的Box’s M检验。
第1张表反映协方差矩阵的秩和行列式的对数值。
由行列式值可以看出,协方差矩阵不是病态矩阵。
第2张表示对各总体协方差矩阵是否相等的统计检验。
由F值及其显著水平,我们在0.05的显著水平下拒绝原假设(原假设假定各总体协方差阵相等)。
因此,在分类(Classify)选项中的协方差矩阵可以考虑采用Separate groups,以检验采用Within groups和Separate groups 两种协方差所得出的结果是否存在显著差异,如果存在显著差异,就应该采用Separate groups协方差矩阵,反之,就采用Within groups协方差矩阵。
输出结果4-3分析的是典型的判别函数。
第1张表反映判别函数的特征根、解释方差的比例和典型相关系数。
第一判别函数解释了99.1%的方差,第二判别式函数解释了0.9%的方差,两个判别函数解释了全部的方案。
第2张表示对两个判别函数的显著性检验。
由Wilke’Lambda检验,认为两个判别函数在0.05的显著性水平上是显著的。
输出结果4-4显示的是判别函数、判别载荷和各组的重心。
第1张表示标准化的班别函数,表示为:Y1=-0.427Sepal.Length’-0.521Sepal.Width’+0.947Petal.Length’+0.0575Petal.Width’Y2=0.012 Sepal.Length’+ 0.735Sepal.Width’-0.401 Petal.Length’+ 0.581Petal.Width’这里=表示标准化变量,标准化变量的系数也就是前面讲的判别权重。
第2张表示结构矩阵,即判别载荷。
由判别权重和判别载荷可以看出,那些解释变量对判别函数的贡献较大,第3张表是非标准化的判别函数,表示为:Y1= -2.105-0.829Sepal.Length’-1.534 Sepal.Width’+2.201 Petal.Length’ +2.810 Petal.Width’Y2=-6.661+0.02 Sepal.Length’ + 2.165Sepal.Width’- 0.932Petal.Length’ + 2.839Petal.Width’我们可以根据这个判别函数计算每个观测的判别Z得分、第4张表示反映判别函数在各组的重心,根据结果,判别函数在y=1这一组的重心为(),在y=2这一组的重心为(),在y=3这一组的重心为(),这样,我们就可以根据每个观测的判别Z得分对观测进行分类。
输出结果4-5是分类的统计结果。
第1张表概括了分类过程,说明了150各观测都参与分类。
第2张表说明各组的先验概率,我们在Classify选项中选择的是所有组的先验概率相等。
第3张表使各组的分类函数(区别于判别函数),也称费歇线性判别函数,由表中的结果可以说明:y=1这一组的分类函数是F1=Sepal.Length’ Sepal.Width’Petal.Length’ Petal.Width’Y=2这组的分类函数是F2=Sepal.Length’ Sepal.Width’Petal.Length’ Petal.Width’Y=3这组的分类函数是F3 =Sepal.Length’ Sepal.Width’Petal.Length’ Petal.Width’我们可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。
第4张表示分类矩阵表。
Predicted Group Membership 表示预测的所属关系,Original表示原始数据的所属组关系,Cross-validated表示交叉验证的所属组关系,这里交叉验证是采用“留一个在外”的原则,即每个观测是通过出来这个观测以外的其他观测推导出来的判别函数来分类的。
由第4张表可以看出,通过判别函数预测,由147各观测是分类正确的,其中,y=1组50个观测全部被判对,y=2组50个观测48个观测被判对,y=3组50个观测49个观测被判对。