基于Logistic回归的剩男剩女牵手成功要素分析
- 格式:doc
- 大小:25.00 KB
- 文档页数:5
逻辑斯蒂回归基本原理最近在研究逻辑斯蒂回归,发现了一些有趣的原理,今天来和大家聊聊。
你知道吗?生活中有很多情况就像是逻辑斯蒂回归的实例呢。
就像我们预测一个人会不会买某件商品。
假设我们考虑两个因素,一个是这个人的收入,另一个是这个商品是不是很流行。
一般来说,收入高的人可能更有能力买东西,流行的东西也更容易被购买。
但这个关系又不是绝对的,不是说收入高就肯定会买,流行就所有人都会买。
逻辑斯蒂回归的基本原理其实就是想找到一种数学上的关系,来描述这种可能性。
从专业角度来说,逻辑斯蒂回归是一种广义的线性回归模型,它的响应变量(我们要预测的结果,例如会不会买东西,1代表会,0代表不会)是一种分类变量。
我们把输入的各种特征(像前面说的收入和商品流行程度等)通过特定的函数计算,这个函数就像是一个魔法变换器。
打个比方吧,这个过程就好比是把各种乱七八糟的食材(输入特征)放进一个神奇的搅拌机(逻辑斯蒂函数),最后得出一个蛋糕(预测的结果:买或者不买)。
这个搅拌机的运作原理是特殊的,它要保证最后产出的结果在0到1之间,这个数值就表示会买这个商品的概率。
有意思的是,这个模型是怎么达到对结果良好预测的呢?这就要说到模型中的系数了。
就像刚刚那个例子里,收入和商品流行程度对购买结果的影响程度是不一样的,这个影响程度就是通过系数来体现的。
不一样的系数就像是烹饪里不同食材放的量不一样,某个食材(特征)多放点(系数大),可能对最后的蛋糕(结果)影响就大一些。
老实说,我一开始也不明白为什么不直接用线性回归就好了。
后来才知道,线性回归得到的结果可能是任意实数,但我们这里预测的是某个事件发生的概率,概率只能在0到1之间,所以这就是逻辑斯蒂回归存在的意义之一。
实际应用案例超级多,就比如说银行会根据客户的收入、信用记录这些资料(特征),采用逻辑斯蒂回归来预测这个客户会不会违约(一种分类结果)。
这样银行就可以提前做好应对措施,降低风险。
在应用逻辑斯蒂回归的时候也有一些注意事项。
消,得到没有意义的OR哦!
松哥统计说
模型就是一场婚姻,一场幸福的婚姻就是X能够理解Y,能够最大程度的解释Y;X你可以有三种个性(老大、老二和老三),但是为了你的心上人,你不能真实的展现自我的本性,你要看,她到底喜欢你的那种个性,然后X做出适当的调整与让步,最终构建和谐幸福的模型。
婚姻不是1+1=2,婚姻是0.5+0.5=1哦!
关于老大如何变为老二:
(1)可以根据自己的专业习惯,比如上面所说的年龄,常见是10岁一组;还可以未成年、成年和老年,那就变成三组了,当然得看你研究的疾病。
(2)专业不能定,有人用了per 1 sd,即每增加一个标准差,疾病发生的风险,怎么做的呢,简单!就是将原始数据标准化后带入模型!
(3)松哥还见过per 4 unit,即每增加4个unit,那怎么实现的呢,简单!原始变量除以4后带入模型!
关于如何老二变老三:
(1)这个比老大变老二要简单的多,之间将老二当成无序多分类即可;
(2)这步的技术含量在于,设置谁为对比,原则是一据专业,二尝试,不管咋滴得到的结果要好解释!
上述心得同样适用于COX回归,为啥呢,因为COX回归的结果变量也是二分类哦,只不过加了时间项。
基于 Logistic 回归模型分析大学生就业影响因素、数据分析文中的数据采集自山东财经大学燕山校区统计学院统计0801、统计 0802共 62名毕业生,包括他们的就业、学习、思想 和基本情况,数据来自于统计学院学生工作办公室,因此,数据 真实可信。
基本情况包括学生的学号、姓名、性别、班级和户籍性质。
学习情况中有学生大学四年平均绩点和英语等级成绩情况。
思想 情况包括学生的政治面貌状况以及大学期间是否担任班内职务 状况。
数据中的户籍性质分为城市户籍和农村户籍。
英语水平分 为未过六级和过六级两种情况。
此外,还需要特别说明的是,两 个班共有毕业生 79 人,本文所研究的就业状况中不包括考取研 究生以及出国深造的学生, 这样,除去考取研究生和出国深造的 毕业生 17人以外,实际有效样本量是 62 人。
本案例中所采用的 数据的基本特征如表 1 所示:从表 l 可以看出,研究中的山东财经大学 12 届统计学 62 名 毕业生中,成功找到工作的有 34 名,占到所调查总数的 54.8%。
性别方面,女生毕业生比例达到 67.7 ,男女生的比例有着显著 的区别,这也符合经济类院校的特点。
61.3%的学生都是城市户 口。
学习成绩用毕业生大学四年的平均绩点表示,平均绩点在2.8 到3.7 之间的占到 41.9%,平均绩点介于这个水平的可以认口 号、为是学习成绩较优秀的毕业生。
有45.2%的学生通过了大学生英语六级考试,有24.2%的毕业生是党员身份,大约20%的毕业生在大学期间担任过一定班级职务。
二、大学生是否就业的Logistic 回归模型在因变量是分类变量时,通常采用Logistic 回归分析来研究分类因变量与一组解释变量之间的关系。
本文中将就业与否作为模型的因变量,其取值有两种可能,是和否。
本文从六个方面探讨毕业生就业的影响元素:学业成绩、是否是党员、性别、英语等级、籍贯、是否担任过班内职务,这六个元素便是模型的自变量。
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。
比较常用的情形是分析危险因素与是否发生某疾病相关联。
例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。
自变量既可以是连续变量,也可以为分类变量。
通过Logistic 回归分析,就可以大致了解胃癌的危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。
多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1.Logistic回归的用法一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic 回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。
2.用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。
Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。
如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就表示,男性发生胃癌的风险是女性的1.7倍。
这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。
如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。
撇开了参照组,相对危险度就没有意义了。
Logistic 回归原理解析临床评价中心:白文静2006-1-9内容序论之序—相关与回归概述非条件Logistic回归条件Logistic回归分析步骤应用及注意一、序论之序—变量间的联系相关与回归、关联eg1、身高与体重?eg2、肺癌与吸烟?eg3、啤酒与尿布?相关:两个变量或者多个变量之间是否存在关系和关系的密切程度;回归:研究变量之间联系的形式;关联:要寻找出各项目(Item)之间相互的关联性,从资料库中寻找出现频率较高的样型(Pattern),然後再利用這些样型分析出关联规则,解释变量间的关系。
一、序论之序—变量间的联系且方差相等;平均数在一条直线上,即线性。
7654321x拟合值真实值一、序论之序—变量间的联系;22110i Ki K i i i X B X B X B B Y ε++…+++=多元线性回归模型假定现实需求医学数据的复杂、多样—连续型和离散型数据;医学研究中疾病的复杂性—一种疾病可能有多种致病因素或与多种危险因素有关;疾病转归的影响因素也可能多种多样;临床治疗结局的综合性;一、序论之序—变量间的联系应对方法:二、概述参数估计最大似然估计法;假设检验(似然比检验;ROC)利用最大似然估计得到一套回归系数;计算得到对数似然度lnL( );假定第K个变量不存在,重新得到和lnL ( );计算统计量αββˆβˆ)(ˆk −β)(ˆk −β[]{})ˆ(ln ˆln 2)(2ββχL L k −−=−0:0=k H β0:n 20==βββ…==k H三、非条件Logistic 回归26例冠心病病人和28例对照者进行病例−对照研究data disease;input y x freq;cards ;1 1 101 0 20 1 400 0 80;proc logistic data=disease;model y=x;weight freq ;run ;三、非条件Logistic 回归SAS 程序再现三、非条件Logistic 回归)]1/(/[]p 1/p [p p −′−′)(2χ2χ-比数比(OR )如果发病率或死亡率不高,例如<<10%,则比数比可以近似估计相对危险度(RR)因为上述数据是四格表资料,如果用也可以分析行变量和列变量间的独立性,即疾病和暴露是否有联系。
[转载]logistic回归模型总结logistic回归模型是最成熟也是应用最广泛的分类模型,通过学习和实践拟通过从入门、进阶到高级的过程对其进行总结,以便加深自己的理解也为对此有兴趣者提供学习的便利。
一、有关logistic的基本概念logistic回归主要用来预测离散因变量与一组解释变量之间的关系最常用的是二值型logistic。
即因变量的取值只包含两个类别例如:好、坏;发生、不发生;常用Y=1或Y=0表示 X表示解释变量则P(Y=1|X)表示在X的条件下Y=1的概率,logistic回归的数学表达式为:log(p/1-p)=A+BX =L其中p/1-p称为优势比(ODDS)即发生与不发生的概率之比可以根据上式反求出P(Y=1|X)=1/(1+e^-L)根据样本资料可以通过最大似然估计计算出模型的参数然后根据求出的模型进行预测下面介绍logistic回归在SAS中的实现以及输出结果的解释二、logistic回归模型初步SAS中logistic回归输出结果主要包括预测模型的评价以及模型的参数预测模型的评价与多元线性回归模型的评价类似主要从以下几个层次进行(1)模型的整体拟合优度主要评价预测值与观测值之间的总体一致性。
可以通过以下两个指标来进行检验1、Hosmer-Lemeshowz指标HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。
在SAS中这个指标可以用LACKFIT选项进行调用2、AIC和SC指标即池雷准则和施瓦茨准则与线性回归类似AIC和SC越小说明模型拟合的越好(2)从整体上看解释变量对因变量有无解释作用相当于多元回归中的F检验在logistic回归中可以通过似然比(likelihood ratio test)进行检验(3)解释变量解释在多大程度上解释了因变量与线性回归中的R^2作用类似在logistic回归中可以通过Rsquare和C统计量进行度量在SAS中通过RSQ来调用Rsquare,C统计量自动输出(4) 模型评价指标汇总说明:在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是HL统计量。
有序logistic回归结果解读有序logistic回归是一种应用广泛的统计学方法,用于对有序分类目标变量进行预测和解释。
它将单个或多个预测因素与有序分类目标变量之间的关系建模,并提供了一个概率框架来解释各个类别之间的相对顺序。
要理解有序logistic回归的结果,首先需要了解模型的基本原理和背后的数学假设。
有序logistic回归是基于logistic回归的扩展,其目标变量是有序的而不是二元的。
在有序logistic回归中,我们假设每个类别对应一个隐变量,该隐变量满足logistic分布的形式。
然后,根据各个类别的隐变量取值确定目标变量的类别。
在解读有序logistic回归结果时,常见的方法是分析系数的大小、方向和统计显著性,以及对模型进行预测和评估。
首先,我们可以通过系数的大小和方向来了解各个预测因素对目标变量的影响。
系数的大小表示单位变化对目标变量的影响程度,正系数意味着随着预测因素的增加,目标变量的类别也会增加,负系数则表示随着预测因素的增加,目标变量的类别会减少。
系数的方向可以提供预测因素对目标变量类别的相对顺序信息。
其次,我们可以通过系数的统计显著性来判断预测因素是否对目标变量的类别有显著影响。
统计显著性可以通过检验系数的t统计量或p值来进行判断。
如果系数的p值小于设定的显著性水平(通常为0.05),则可以认为该系数是显著的,即对目标变量的类别有显著影响。
另外,有序logistic回归还提供了预测和评估模型的能力。
我们可以使用模型的预测能力来进行一些实际问题的预测,比如预测客户的购买意愿或预测学生的学习成绩。
同时,可以使用一些常见的评估指标,如准确率、召回率、F1值等来评估模型的整体性能和优劣。
总结来说,有序logistic回归结果的解释需要考虑系数的大小、方向和统计显著性,通过这些因素可以判断预测因素对目标变量的影响和重要性。
另外,还可以利用有序logistic回归进行预测和评估模型的性能。
基于Logistic回归的剩男剩女牵手成功要素分析
摘要:收集整理目前热播的电视相亲节目《非诚勿扰》的200
位剩男的相关数据,采用logistic回归方法对其建模,分析剩男剩女牵手成功,与年龄,出场顺序,仪表长相,工作,经济基础,车,房,婚史等因素的关系。
结果表明仪表长相对单身青年牵手成功的影响最大,其次是有车、有房。
abstract: collecting and finishing the relevant data of 200 men left in the show of “you are the one”, this paper used logistic regression method for modeling, analyzed the relationship between successful pairing of men and women left and the age, order, appearance, work, economic foundation,cars, house, marital history and other factors of men left. the results show that the effect of appearance is the most important one, then is the car, and house.
关键词: logistic回归;剩男剩女
key words: logistic regression;men and women left
中图分类号:c32 文献标识码:a 文章编号:1006-4311(2013)12-0272-02
0 引言
在竞争越来越激烈激烈的当今中国,伴随着各种思潮的冲刷,社会上出现一种突出的现象:剩男剩女越来越多。
此时电视相亲节目一时间热起来,收视率飙升,影响剩男剩女牵手成功并走入婚姻殿
堂重要因素是什么?这个问题的研究对于当今的婚恋问题具有极
其重要的影响而且具有重要的现实意义。
剩男剩女牵手成功是诸多因素综合考虑的结果,且各要素间存在相互关联,多因素分析方法中的二项logistic回归就特别适合研究剩男剩女牵手成功与否的二分类变量与其它影响要素变量间的
关系。
本文收集热播的电视节目《非诚勿扰》上200位男嘉宾的事实情况为分析背景,采用二项logistic回归建模分析。
1 剩男剩女牵手成功的指标体系建立
依据剩男剩女择偶标准,主要是从年龄、学历、经济、长相、是否有房有车等等来综合考虑,所以构建8个择偶指标:年龄x1,参加节目的男嘉宾都是参加工作的,按照“三十而立”,我们规定的年龄段分为“30岁以下组”,“30岁以上组”,分别用“1;0”表示;出场顺序x2,前3名(1,2,3)定义为靠前,后两名(-1,-2)定义为靠后;长相x3,以第一轮女嘉宾灭灯的盏数来定义。
长相较好是第一轮女嘉宾的灭灯数的是2盏(含2盏)灯以下,长相一般则是其灭了3盏灯或者3盏以上的;学历x4,由于上场的男嘉宾有的是没有介绍学历只说了工作或者有的只是说了学历没说工作,所以综合考虑就把工作和学历放在一起来进行分析,将学历本科以下或工作一般的为一组,将学历本科以上或有很好工作的为一组,分别用“0;1”表示;经济基础x5,据《百姓周刊》和《人民生活日报》报道,现在一般的二线城市或一线城市中月薪4000是一个标准,所以本文就以4000为标准来分析,4000元以下,4000元以上,
分别用“0;1”表示;车x6;房x7,”有”,“无”,分别用“1;0”表示;婚史x8,“有”,“无”,分别用“0;1”。
本文选取热播的电视节目《非诚勿扰》上200位男嘉宾的事实情况为分析背景,按照8个指标,统计数据如表1。
2 剩男剩女牵手成功的二项logistic回归分析
将表1中200组数据,输入到spss11.5中,进行二项logistic 模型分析。
由多重共线性检验可以看出,所有的自变量的方差膨胀因子都小于2,不存在多重共线性,故对所有的变量进行分析。
-2ll反映了在模型包括了所有自变量后的误差,用于处理因变量无法解释的变动部分的显著性问题,因此适合用于检验logistic
回归的显著性[1-2]。
当-2ll的实际显著性水平大于给定的显著性水平α时,因变量的变动中无法解释的部分是不显著的,也即回归方程的拟合程度越好[3-4]。
由表知-2ll的实际显著性水平大于给定的0.05,所以回归方程的拟合度好。
hl拟合优度检验统计量对应的χ2值为6.627,自由度为8,p值为0.577,统计不显著。
因此,我们不能拒绝关于模型数据很好的假设,也即该模型很好地拟合了数据。
如表5所示,logistic模型在5%的显著性水平下,年龄x1、长相x3、学历x4、经济基础x5、车x6、房x7对单身男女牵手成功有显著影响;另外在10%的显著性水平x8是否有婚史这个变量通过wald检验,而x2出场顺序这个变量是不显著的,说明这个变量不
是单身青年顺利牵手的显著性原因。
长相优秀的单身青年牵手成功的概率发生比是长相一般的男士
的10.652倍,长相x3对牵手成功影响最大,说明当今女性青年对男性的外在最重视,仪表这个变量或许包括气质,“是否来电”。
有车的的单身男性青年牵手成功的概率发生比是没有车的5.948倍,车x6对男士牵手成功很重要,有车的男士更能获得单身女性的青睐。
有房x7对男士牵手成功也很重要,仅次于车x6,有房的单身男性青年牵手成功的概率发生比是没有房的4.974倍,有房的男士更能获得单身女生的喜爱。
是否有婚史这个变量对单身男士成功牵手显著在10%的显著性水平下才显著,说明它对剩男剩女成功牵手影响不大,不是主要考虑因素。
从表6可以看出,在牵手失败的48人中,logistic回归模型预测正确的有23人,预测准确率47.9%,在牵手成功的152个人中,logistic回归模型预测正确的有139人,预测准确率91.4%,logistic回归模型预测平均准确率为81.0%,预测效果较好。
3 结论
本文对《非诚勿扰》的200位男嘉宾的8个指标数据,建立logistic回归模型,结果表明:5%的显著性水平下,年龄x1、长相x3、学历x4、经济基础x5、车x6、房x7对单身男女牵手成功有显著影响;另外在10%的显著性水平x8是否有婚史通过wald检
验。
长相x3对单身青年牵手成功的影响最大,其次分别为车x6、房x7。
如果男士英俊潇洒,有车有房,就会大大提高男士牵手成功的几率。
如感觉仪表长相不够帅气,就努力工作赚钱,买房买车,同样会找到满意的对象牵手成功。
参考文献:
[1]李心愉,袁诚.应用经济统计学.北京:北京大学出版社,1999.
[2]王吉利.统计教学案例[m].北京:中国统计出版社,2004.
[3]罗伯特.s.平狄克,l.卢宾费尔德.计量经济模型于经济预测(4)[j].北京:机械工业出版社,1999.
[4]吴喜之,统计学:从数据到结论[m].中国统计出版社,2006.。