判别分析与Logistic回归的模拟比较_张初兵
- 格式:pdf
- 大小:244.52 KB
- 文档页数:7
二分类响应变量下判别分析与Logistic回归比较董小刚; 刘新蕊【期刊名称】《《长春工业大学学报(自然科学版)》》【年(卷),期】2019(040)005【总页数】5页(P441-445)【关键词】线性判别分析; Logistic回归; 修正模型【作者】董小刚; 刘新蕊【作者单位】长春工业大学数学与统计学院吉林长春 130012【正文语种】中文【中图分类】O212.10 引言在日常生活及科学研究中,经常会遇到将问题的结果用类别表示的情况。
在研究此分类问题时,最常用的方法是线性判别分析与Logistic回归。
这两种方法简单实用,易于计算,应用广泛。
两种方法理论基础的差异使得它们各有优势,Logistic回归在给出具体分类的同时,还能描述影响分类结果的因素,而判别分析则仅对样本进行分类。
线性判别分析对数据进行了特殊假设,它假设响应变量类间相互独立,同类样本服从多元正态分布,且具有相同的类内协方差阵。
这两种方法都具有很高的实用价值,如张晓东等[1]通过判别分析探讨了肺癌细胞核的有关体视学参数在肺癌诊断分型方面的意义;易尚辉等[2]对因大肠癌而住院的病历按治愈和未愈分两组进行了非条件多因素Logistic回归分析;王浩等[3]基于Logistic回归探讨了进展期胃癌淋巴结的转移规律;张立军等[4]以我国沪市 A 股上市公司为研究对象,利用判别分析研究上市公司财务危机预警;张成虎等[5]基于个人消费信贷数据,建立了个人信用评分的线性判别模型;朱燕波等[6]对 18 805例中国成年人建立Logistic回归,分析了中医体质类型与超重和肥胖的关系;李洪等[7]基于Logistic回归构建了北京市水库湿地演变的驱动因子指标体系;杨秀玮等[8]探讨了Bayes判别分析应用于输卵管妊娠早期诊断中的临床效果。
因此,对两种方法的拟合效果进行比较是有意义的。
将研究对象分为两类,称为二分类问题。
鉴于二分类问题的代表性和广泛性,文中主要讨论二分类问题,此方法也可以推广到多分类的情况。
数据分析知识:数据分析中的判别分析方法判别分析(Discriminant Analysis)是一种经典的统计分析方法,常用于解决分类问题。
通过对已知分类的数据进行学习,再对未知数据进行分类。
判别分析方法的主要目标是确定一个或多个变量的线性组合,这个线性组合在不同类别中能够最大化差异,最小化类内差异。
这篇文章将介绍判别分析的基本概念、方法和应用,并对判别分析和其他分类方法进行比较。
一、判别分析的基本概念1.1判别分析的基本思想判别分析的基本思想是找到一个或多个线性组合,使得不同类别之间的差异最大化,同一类别内的差异最小化。
这个线性组合可以被用来将数据投影到一个低维空间,从而实现分类。
比如,对于二分类问题,找到一条直线将两类数据分开。
1.2判别分析的应用场景判别分析广泛应用于生物医学、社会科学、市场营销等领域。
比如,利用判别分析对患者进行分类,预测其疾病的风险;对消费者进行分类,预测其购买行为等。
1.3判别分析的假设判别分析方法通常有一些假设,比如多元正态性、同方差性和无相关性等。
如果这些假设不成立,可能会影响判别分析的结果。
二、判别分析的方法2.1线性判别分析(LDA)线性判别分析是判别分析中最常用的方法之一。
它通过找到一个或多个线性组合,使得不同类别之间的差异最大化,同一类别内的差异最小化。
在实际应用中,常常利用LDA来降维,然后使用简单的分类器进行分类。
2.2二次判别分析(QDA)二次判别分析是判别分析的一种扩展,它允许类别内的协方差不相等。
相比于LDA,QDA的分类边界更加灵活,但是通常需要更多的参数。
2.3特征抽取判别分析通常需要找到一个或多个变量的线性组合,这些变量通常被称为特征。
特征抽取是判别分析的一个重要步骤,它可以通过一些算法比如主成分分析(PCA)来实现。
特征抽取的目标是尽可能多地保留原始数据的信息,在降低维度的同时尽可能减少信息损失。
三、判别分析的应用3.1医学领域在医学领域,判别分析被广泛应用于疾病诊断、治疗方案选择等方面。
logit替代方法逻辑斯蒂回归(Logistic Regression)是一种二分类的机器学习算法,主要用于预测一个事物属于其中一类的概率。
在一些情况下,我们可能需要找到替代Logit回归的方法。
下面将介绍几种常见的替代方法。
1. 线性判别分析(Linear Discriminant Analysis)线性判别分析是一种经典的分类方法,它试图找到一个线性判别函数,能够最大程度地将不同类别的样本分开。
和Logit回归一样,线性判别分析也是基于线性预测函数的。
它的一个优点是,当类别分布假设满足时,它可以通过最小化类别内离散度和最大化类别间距离的方式,得到一个最优的线性判别函数。
2. 支持向量机(Support Vector Machine)支持向量机是一种强大的分类器,它试图找到一个最优的超平面,将不同类别的样本分开。
支持向量机可以通过选择合适的核函数,将数据从低维映射到高维空间,从而使得在高维空间中是线性可分的。
相比Logit回归,支持向量机不仅可以处理线性可分的情况,还可以处理非线性可分的情况。
3. 决策树(Decision Tree)决策树是一种基于树结构的分类器,它通过一系列的二分判定,将样本逐步分成不同的类别。
决策树具有可解释性强的优点,它可以通过分支节点的判定条件,直观地解释分类的原因。
相对于Logit回归,决策树对于非线性关系的建模能力更强。
4. 随机森林(Random Forest)随机森林是基于决策树的一种集成学习方法,它通过构建多个决策树,并对它们的结果进行整合,从而提高了分类的准确性和鲁棒性。
相比于单个决策树,随机森林能够处理更复杂的分类问题,并且具有良好的抗噪能力。
5. 神经网络(Neural Network)神经网络是一种强大的机器学习模型,它模拟了生物神经元之间的连接和信息传递过程。
神经网络通过多个神经元层之间的连接,将输入映射到输出。
相比Logit回归,神经网络能够建模更复杂的非线性关系,并且具有更好的泛化能力。
logitboost及其在判别分析中的应用富春枫;荀鹏程;赵杨;陈峰【摘要】目的介绍一种基于机器学习的分类方法-logitBoost在判别分析中的应用.方法结合实例和模拟数据介绍了logitBoost的思想,原理,方法和步骤,就模型的拟合效果与Fisher线性判别、二次判别、logistic回归判别进行了比较,并探讨了"logitBoost判别"的优势及其在医学领域中的应用前景等问题.结果与传统方法相比,logitBoost判别在实例以及模拟数据的应用中,均显现出较好的或相似的模型预测效果.结论当传统的判别分析条件得不到满足,或判别效果不佳时,logitBoost能够达到良好的预测效果,在医学领域的判别分析中有较好的应用前景.【期刊名称】《中国卫生统计》【年(卷),期】2006(023)002【总页数】3页(P98-100)【关键词】logitBoost;判别分析;预测;机器学习;弃一法交叉验证【作者】富春枫;荀鹏程;赵杨;陈峰【作者单位】南京医科大学流行病与卫生统计学系,210029;南京医科大学流行病与卫生统计学系,210029;南京医科大学流行病与卫生统计学系,210029;南京医科大学流行病与卫生统计学系,210029【正文语种】中文【中图分类】医药卫生【文献来源】https:///academic-journal-cn_chinese-journal-health-statistics_thesis/0201213500113.html· 98 .中国卫生统计 2006 年 4 月第 23 卷第 2 期 logitboost 及其在判别分析中的应用*南京医科大学流行病与卫生统计学系(210029)富春枫荀鹏程赵杨陈峰△【提要】目的介绍一种基于机器学习的分类方法 -logitBoost在判别分析中的应用。
方法结合实例和模拟数据介绍了logltBoost 的思想,原理,方法和步骤,就模型的拟合效果与Fisher 线性判别、二次判别、logistlc回归判别进行了比较,并探讨了“logitBoost 判别”的优势及其在医学领域中的应用前景等问题。
判别分析和Logistic 回归的比较研究与应用摘要:Logistic 回归和判别分析是分类中常用的方法。
比较和分析这2种方法的差异以及其各自的特点,可以为更好的应用提供参考。
本文从两个模型的基本原理出发,详细讲述了模型的构造和求解过程,最后,将两个方法应用到同一实例中,结果表明,两者在分类时都能取得较好效果,但是Logistic 回归具有更强的鲁棒性,能够一定程度抵抗异常点的干扰,分类准确率略高于线性判别分析。
关键词:判别分析;Logistic 回归;比较与应用1 引言在多元统计分析中,判别分析(Discriminant Analysis)和逻辑回归(Logistic Regression)是常用的两个模型。
在统计学中, 常用的分类方法是判别分析和Logistic 回归 。
这两种方法简单实用, 很多统计软件可以完成有关的计算, 它们应用很广,特别是医学生物学领域和经济管理等研究领域。
在医学生物学领域中, Biometrics, Biometrical Journal 等学术刊物每年都刊登很多判别分析或 Logistic 回归应用的论文[1]。
本文针对二分类问题, 对比了Logistic 回归和线性判别分析在具体实例上的分类效果,评判指标为总错分率。
模拟结果表明,Logistic 回归具有更强的鲁棒性,能够一定程度的抵抗噪点,在结果上略优于判别分析。
2 判别分析的原理以Fisher 线性判别分析为例,考虑二分类问题:对于数据集{,},1,2,,i i x y i n =⋅⋅⋅,x 是特征向量,y 是样本的标签。
我们期待找到一组分类规则,能够根据特征集将不同样本准确的分类到对应的标签类。
2.1 主要思想为了方便描述,假设特征集合是二维的,数据集中的样本在二维平面表示如图1所示。
单独看横坐标或者纵坐标,我们很难找到某种规则将两类样本分开。
但是从图中,可以很直观的看出,如果将每个点投影到一条直线上,这些映射点将在目标直线上聚集分布,很容易进行分类。
Logistic回归模型在判别分析中的应用
任康;李刚
【期刊名称】《统计与信息论坛》
【年(卷),期】2007(022)006
【摘要】介绍Logistic回归模型用于判别的方法,利用给出的某期间华北地区和长江中下游降水年变化为判别对象,以这种判别方法确定界于两个地区中间地带的一些观测站属于何种年变化型,并且与传统用的最大概率法做了比较,发现Logistic的效果要比最大概率法好.
【总页数】3页(P71-73)
【作者】任康;李刚
【作者单位】南京信息工程大学,数理学院,江苏,南京,210044;南京信息工程大学,数理学院,江苏,南京,210044
【正文语种】中文
【中图分类】C812;P426.6
【相关文献】
1.逐步回归与判别分析的应用研究--在乳腺疾病建模中的应用 [J], 吉国力;陈舒婷;张延坤;李健;陈承祺
2.应用Logistic回归模型评价超声弹性成像在乳腺结节鉴别诊断中的应用价值 [J], 常莹;杨敬春;冷振鹏
3.加权Logistic回归模型在斑岩铜矿预测中的应用——以中—哈边境扎尔—玛萨吾尔成矿带为例 [J], 努丽曼古·阿不都克力木;张晓帆;陈川;徐仕琪;赵同阳
4.调研数据要积极而准确地应用统计分析兼对《判别分析在杉木人工林间伐中的应用》一文商榷 [J], 丁思统;王倩;金苏蓉
5.Logistic回归模型在不典型浸润性导管癌诊断中的应用 [J], 李静;吴国柱;王芳;冯德喜;梁丹艳
因版权原因,仅展示原文概要,查看原文内容请购买。
竭诚为您提供优质文档/双击可除多元统计分析学习心得篇一:多元统计分析学习心得总结多元统计分析学习总结多元统计分析方法现在已经广泛的应用社会科学和自然科学的许多领域中。
通过对多元统计一个学期的学习,基本掌握了一些可以运用在学习、生活跟实践中的方法比如多元统计分析中最常见的九种方法:回归分析、时间序列分析、方差分析、判别分析、逻辑回归、联列表与相合性分析、因子分析、聚类分析和联合分析,基本掌握了运用spss软件来分析数据从而找到分析问题中存在的疑问。
当然了通过短短的一个学期的学习学习很多的方法并且把所有的方法尽然掌握不切实际,但是在生活中运用最多的基本上掌握的很熟练,而且在上机操作的过程中有老师的指点迷津也让自己很快的能够把握问题的实质,如何分析所得到的实验结果,如何与实际生活中所遇到的问题进行比对,然后得到的结果是不是跟实际有很大的出入等。
每次的上机操作的都会有一份相应的报告要提交,大多数情况下都是在老师帮助与指导下完成,自己独立完成的部分相对较少,虽然如此但是收获还是很多,在老师指导下完成一边,自己然后再把整个过程再重复一遍这样就能把所学的温习一遍,不至于跟老师走一遍就完事儿,最后什么都没有掌握,遇到问题也不会分析的局面,所以通过自己的不断练习与操作能够不断熟悉掌握多元统计的方法。
篇二:多元统计分析心得多元统计分析读书心得聚类分析聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。
聚类分析也叫分类分析(classificationanalysis)或数值分类(numericaltaxonomy)。
聚类分析方法认为,在所研究的统计总体中,各样品或指标(变量)之间存在着程度不同的相似性(亲琉关系),因此可以根据一批样品的多个观测指标,具休找到一些能够度量其相似程度的统计量,并依据这些统计量完成事物的分类。
机器学习笔记04(LogisticRegression)Logistic Regression思路:1、逻辑回归 vs 线性回归(Logistics Regression VS Linear Regression )2、⽣成模型 vs 判别模型(Generative Model VS Discriminative Model)3、逻辑回归 vs 深度学习(Logistics Regression VS Deep Learning)前⾯已经学过 Regression ,其建⽴的 model 是 Linear model,现在与Logistics Regression对⽐学习。
此节与上节内容联系⽐较紧密,可回头复习⼀下。
1、逻辑回归 vs 线性回归(Logistics Regression VS Linear Regression ) 什么是逻辑回归:逻辑回归是解决分类问题的⼀种算法它与linear regression 形式上有点像(本质上是在线性模型外⾯“裹”⼀个sigmoid激活函数,来表⽰概率的函数)它是⼀种判别模型,与前⾯说的⽣成模型不同它是深度学习的基础1)model 不同model 对⽐:2)Loss Function 不同回顾我们线性回归的Loss函数中是跟训练数据(x1,y^1)中的y^1的差值平⽅和,那么逻辑回归是否也要建⽴与y^的联系呢。
下⾯就要开始拼凑了!Loss function对⽐:为什么不是⽤平⽅差?3)step 3 是类似的先算左边(红⾊框)的偏导,再算右边红⾊框的偏导,再整理式⼦:对⽐:2、⽣成模型 vs 判别模型(Generative Model VS Discriminative Model)两种不同的model,得到的 w,b 的参数不同。
但⼀般来说,判别模型表现得会⽐⽣成模型好,为什么?举例 ⽣成模型是基于假想的概率模型的,如果样本不平衡的话,计算出来的概率是会有误差的 但是⽣成模型也有优点: 1、样本量少的时候表现⽐判别模型好,因为它能⾃⼰脑补出⼀个假想模型 2、噪声对它影响较⼩,因为它没有过分依赖数据,它是按照⾃⼰假想模型⾛的3、逻辑回归 vs 深度学习(Logistics Regression VS Deep Learning)逻辑回归是解决分类问题的,实际中的问题⼤多是多分类的问题,多分类问题会⽤到softmax 以下⾯三分类问题为例:逻辑回归是有它的局限性的,这时候就需要深度学习了!举例:我们要⽤逻辑回归⽅法分类出下⾯的红点与蓝点,是需要⽤特征⼯程的⽅法的,⽽特征⼯程是需要我们⼈为地去建⽴⼀个特征函数去把这些点转化,实际上是⽐较难的,或者说⽐较费⼯夫的。
第25卷第1期Vol .25 No .1统计与信息论坛Statistics &Information Fo rum2010年1月Jan .,2010收稿日期:2009-10-15;修复日期:2009-11-25基金项目:国家社会科学基金项目《基于数据挖掘技术的中国保险公司偿付能力研究》(07CT J002);教育部新世纪优秀人才支持计划《我国保险公司风险的监管量化技术及监管机制研究》(N CET -08-0909)作者简介:张初兵(1984-),男,安徽六安人,博士生,研究方向:营销管理、金融工程;高 康(1987-),男,河北鹿泉人,硕士生,研究方向:应用统计;杨贵军(1970-),男,黑龙江哈尔滨人,统计学博士,教授,研究方向:应用统计。
【统计理论与方法】判别分析与Logistic 回归的模拟比较张初兵1,2a,高 康2b ,杨贵军2b(1.天津大学管理学院,天津300072;2.天津财经大学a .商学院,b .中国经济统计研究中心,天津300222)摘要:利用随机模拟方法,研究判别分析和Logistic 回归分类的回判正确率。
模拟结果显示,Logistic 回归的回判正确率优于判别分析。
随着随机误差的增大,Logistic 回归与判别分析的回判正确率差异逐渐减小。
随机误差超过一定界限,Logistic 回归的回判正确率低于判别分析。
在随机模拟的基础上,引入修正L ogistic 回归分类,模拟结果显示,修正Logistic 回归分类略优于Lo gistic 回归。
关键词:判别分析;L ogistic 回归;误判率;回判正确率中图分类号:F224.7:O212.1 文献标志码:A 文章编号:1007-3116(2010)01-0019-07一、引 言在研究实际问题时,经常遇到分类问题。
在很多情况下,为了研究目的,将研究对象分为两类,称为二分类问题。
例如,为了研究保险公司破产原因,将所有保险公司分为两类,破产保险公司作为一类,正常运营保险公司作为另一类。
通过这两类保险公司数据的对比,可以归纳出保险公司破产的影响因素以及分类方法,对当前运营保险公司破产可能性进行分析。
鉴于二分类问题的代表性和广泛性,本文主要讨论二分类问题。
本文的研究方法可以推广到多分类问题。
在统计学中,常用的分类方法是判别分析和Logistic 回归。
这两种方法简单实用,很多统计软件可以完成有关的计算,它们应用很广,特别是医学生物学领域和经济管理等研究领域。
在医学生物学领域中,Biometrics ,Biometrical Journal 等学术刊物每年都刊登很多判别分析或Logistic 回归应用的论文。
在国内学术刊物中,这两种方法的应用也很多。
白玉峰等借助于判别分析对心血管功能进行定量的判别与预测[1]。
张晓东、申洪利用判别分析探讨肺癌细胞核的有关体视学参数在肺癌诊断分型方面的意义[2]。
易尚辉等对因大肠癌而住院的病历按治愈和未愈分两组进行非条件多因素Logistic 回归分析[3]。
王浩等通过Logistic 回归探讨进展期胃癌淋巴结的转移规律[4]。
在经济管理领域,Zavg ren 利用判别分析和Lo -gistic 回归对保险公司破产原因进行分析,量化保险公司倒闭前5年的公司金融问题信号,作为金融风险概率显著性的评价方法[5]。
Lee 、Hy un 和Urrutia 利用Logistic 模型预测非寿险公司偿付能力,并检测显著影响非寿险公司偿付能力的因素[6]。
Dimi -tras 等和Ganderton 等对判别分析和Logistic 预测商务失败的效果进行了评价[7-8]。
张玲等利用多元判别分析和神经网络对我国上市公司财务困境进行预警分析[9]。
张立军等以我国沪市A 股上市公司为研究对象,利用判别分析研究上市公司财务危机预警[10]。
张成虎等基于个人消费信贷数据,建立19个人信用评分的线性判别模型[11]。
熊熊等利用判别分析对商业银行监管和监控指标进行了研究[12]。
蔡秋萍建立了北京、上海和江苏三省市上市公司分区域、分行业的Logistic财务预警模型[13]。
在上述应用中,判别分析和Logistic回归为解决实际问题提供了有价值信息。
两种方法的统计理论基础并不完全相同。
判别分析基于观测值与两个不同类别之间距离差异进行分类,距离包括欧氏距离和马氏距离等。
Logistic回归采用极大似然估计方法估计模型参数,依据回归函数值对观测数据进行分类。
Logistic回归不仅给出具体的分类算法,还能描述影响分类结果的影响因素。
本文主要研究两种方法的回判正确率。
分类方法对全部观测值进行分类,其中分类结果正确的观测点所占比例为回判正确率。
对于相同样本,判别分析和Logistic回归的回判正确率并不总是一样,有时差异很大。
很多应用例子显示,Logistic回归比判别分析稳健,回判正确率也优于判别分析,但并没有相关理论结果的证明。
本文给出的模拟结果显示,在有些情况下,判别分析的回判正确率优于Logistic回归。
BarNiv和Hershbarger的研究显示,当样本渐进正态分布,判别分析优于Logistic回归[14]。
这增加了方法选择的难度。
有些文献通过比较两种方法的回判正确率,最终选择误判率低的方法。
在很多应用中,Logistic回归的回判正确率低于判别分析,直接采用Logistic回归进行分类。
很少有文献对两种方法的误判率进行模拟比较,以及为降低回判正确率而对方法进行改进。
本文针对二分类问题,利用统计模拟方法对Logistic回归和判别分析的误判率进行比较。
在此基础上,利用判别分析改进Logistic回归的误判率。
模拟结果显示,新方法的误判率优于Logistic回归和判别分析。
二、判别分析与Logistic回归的符号和表示 用R1和R2表示两个互不相交的总体,R1∩R2=。
记总体R1和R2的均值向量为μ1和μ2,协方差阵为∑1和∑2。
Ψ=R1∪R2表示两个总体的并集,包含全部的研究对象。
二分类问题就是研究如何将样本数据划分为R1和R2。
判别分析是最简单最直观的分类方法。
利用样本构造判别函数,根据观测点与总体R1和R2的距离,将其归属于距离“最短”的总体。
对于判别分析,距离的定义非常重要。
在统计理论中,常用的是马氏距离。
令x1,x2∈R1,则x1和x2的马氏距离定义为d(x1,x2)=(x1-x2)T∑-11(x1-x2)。
定义x1∈Ψ与总体R1的马氏距离为d(x1,R1)= (x1-μ1)T∑-11(x1-μ1)。
本文讨论判别分析的距离是指马氏距离。
当∑1=∑2=∑时,对于任意x∈Ψ,根据判别分析的统计思想,有R1={x|d(x,R1)≤d(x,R2)}和R2={x|d(x,R1)>d(x,R2)}。
于是,判别函数定义为w(x)=d2(x,R2)-d2(x, R1)=2(x-μ)T∑-1(μ1-μ2),其中μ=(μ1+μ2)/2。
判别准则为R1={x|w(x)≥0}R2={x|w(x)<0}(1)当∑1≠∑2时,式(1)中的判别函数为w(x)=(x-μ2)T∑-12(x-μ2)-(x-μ1)T∑-11(x-μ1)。
在实际应用中,总体均值和总体协方差阵一般是未知的,需要用样本均值与样本协方差阵来代替。
有关判别分析的细节请参考张润楚、王学仁、王松桂、张尧庭和方开泰的相关研究成果[15-17]。
Logistic回归模型的响应变量Y是二分类变量,取值为1和0。
常用的Logistic回归模型为lnP(Y=1)1-P(Y=1)=β0+β1X1+…+βp X p+ε其中X1,…,X p为回归模型的解释变量。
误差项ε的分布与Y的分布有关。
本文假定Y和ε都服从伯努利分布。
Logistic回归参数主要使用最大似然估计。
令容量为n的样本Y1,…,Y n,则似然函数为L(Y1,…,Y n)=∏ni=1P(Y i=1)Y i(1-P(Y i =1))1-Y i对数似然函数为ln(L(Y1,…,Y n))=∑ni=1[Y i ln(P(Y i=1))+(1-Y i)ln(1-P(Y i=1))]=∑ni=1(Y i(β0+β1X i1+…+βp X ip))-∑ni=1ln(1+eβ0+β1X i1+…+βp X ip)其中X i1,…,X ip是与Y i相对应解释变量的观测值。
将对数似然函数分别对β0,β1,…,βp求偏导数,并令偏导数为0,得到似然方程。
似然方程的解β0,β1,20统计与信息论坛…,βp为回归参数β0,β1,…,βp的估计值。
通常似然方程是非线性的,很难得到方程的精确解,一般采用New ton-Raphso n迭代法求得近似解。
对于任意x=(x1,…,x p)∈Ψ,计算发生概率P(y=1|x)=[ex p(β0+β1x1+…+βp x p)]/[1+exp(β0+β1x1+…+βp x p)],选择0.5作为分割点,则R1={x|P(y=1|x)≥0.5}R2={x|P(y=1|x)<0.5}(2)有关Logistic回归的细节参见Agrest的研究成果[18]。
三、判别分析和Logistic回归的模拟比较 为了挑选分类方法,通常将样本分为两个部分,训练样本和测试样本。
训练样本用于构造分类模型,测试样本用于检验分类模型的误判率。
一般情况下,分类模型对训练样本的回判正确率低,对测试样本分类的误判率也低。
实际应用中,有时也将全部样本作为训练样本,构建模型,计算模型对训练样本分类的回判正确率,回判正确率最低的模型是最优的。
目前,统计模拟方法已经被用于很多统计问题的研究中,Yang和Yang、Liu与Zhang的研究成果就是其中的一部分[19-20]。
本文利用统计模拟方法对判别分析和Logistic回归的回判正确率进行评价。
(一)判别分析和Logistic回归比较的模拟方法为了生成随机数,定义函数f(X1,…,X p)=b0 +b1X1+…+b p X p+ε,其中b0,b1,…,b p是函数系数,已知的,由标准正态分布随机数代替。
ε服从均值为0、方差为σ2的正态分布,记为ε~N(0,σ2)。
X1,…,X p是标准正态分布所生成的随机数。
容量为n的样本生成过程如下。
首先,生成p+1个标准正态分布的随机数,依次令b0,b1,…,b p等于这p+1个数。
其次,生成n组正态分布随机数x i1,…,x ip(i=1,…,n),n个服从N(0,σ2)的随机数赋给ε1,…,εn。
计算函数值f i(x i1,…,x ip)=b0+ b1x i1+…+b p x ip+εi,并计算函数值的中位数,记为Median(f)。
最后,对于i=1,…,n,令y i=1,f i(x i1,…,x ip)≥M edian(f) 0,f i(x i1,…,x ip)<M edian(f)则y i,x i1,…,x ip(i=1,…,n)即为所分析的样本数据。