第十讲定类或定序因变量回归分析_408009601精编版
- 格式:ppt
- 大小:560.50 KB
- 文档页数:31
因变量是定性变量的回归分析—L o g i s t i c回归分析This model paper was revised by the Standardization Office on December 10, 2020因变量是定性变量的回归分析—Logistic 回归分析一、 从多元线性回归到Logistic 回归例 这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.sav). 其中: 年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量“观点”则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量。
从这张图可以看出什么呢从这张图又可以看出什么呢这里观点是因变量, 只有两个值;所以可以把它看作成功概率为p 的Bernoulli 试验的结果.但是和单纯的Bernoulli 试验不同,这里的概率p 为年龄和性别的函数. 必须应用Logistic 回归。
二、 多元线性回归不能应用于定性因变量的原因首先,多元线性回归中使用定性因变量严重违反本身假设条件,即:因变量只能取两个值时,对于任何给定的自变量值,e 本身也只能取两个值。
这必然会违背线性回归中关于误差项e 的假设条件。
其次,线性概率概型及其问题:由于因变量只有两个值;所以可以把它看作成功概率p ,取值范围必然限制在0—1的区间中,然而线性回归方程不能做到。
另外概率发生的情况也不是线性的。
三、 Logistic 函数Logistic 的概率函数定义为:我们将多元线性组合表示为:于是,Logistic 概率函数表示为:经过变形,可得到线性函数:这里, 事件发生概率=P (y=1)事件不发生概率=1-P (y=0) 发生比:Ω=-=pp odds 1)( 对数发生比:)(log )1(ln )log(p it p p odds =⎥⎦⎤⎢⎣⎡-= 这样,就可将logistic 曲线线性化为:从P 到logit P 经历了两个步骤变换过程:第一步:将p 转换成发生比,其值域为0到无穷第二步:将发生比换成对数发生比,其值域科为[]∞+∞-经过转换, 将P →logit P,在将其作为回归因变量来解释就不再有任何值域方面的限制了,即可线性化!四、 Logistic 回归系数的意义以logit P 方程的线性表达式来解释回归系数,即:在logistic 回归的实际研究中,通常不是报告自变量对P 的作用,而是报告自变量对logit P 的作用。
线性回归分析一、变量间的两类关系在现实世界的许多问题中,普遍存在着变量之间的关系.一般来说,变量之间的关系分为确定性与非确定性两类.确定性关系是指变量间的关系是完全已知、可以用函数关系来描述的,例如电学中的欧姆定律 V IR =等.而非确定性关系是指变量间有关系,但不是确切的函数关系,例如人的年龄和血压之间的关系,一般来讲,人的年龄大一些,血压就高一些,但这两者间的关系不是确定的函数关系.再如人的身高与体重,农作物的亩产量与施肥量之间等等都属于非确定性关系.这种不呈现确定性关系的变量间关系又称为相关关系.回归分析是研究相关关系的一种数学工具,也是一种最常用的统计方法.本书只讨论简单的一元线性回归分析.变量本身也可分为两类,若一个变量是人力可以控制的、非随机的,称为控制变量或可控变量,另一类变量是随机的、且随着控制变量的变化而变化,则这个变量称为随机变量或不可控变量.控制变量与随机变量之间的关系称为回归关系,若两个变量都是随机的,则它们之间的关系称作是相关关系.两者的差别在于把自变量当作控制变量还是随机变量,这就是回归与相关的不同之处.但在解决实际时常常把不可控的自变量当作可控变量处理.一般对自变量不加区分.二、一元线性回归模型设变量Y 与x 之间具有相关关系,其中x 为可控变量,作为自变量;Y 为随机变量,作为因变量(也称响应变量).当x 固定时,Y 是一个随机变量,因此有一个分布,如果该分布的期望存在,其期望值应为x 的函数,记为()x μ,称之为Y 关于x 的回归函数,()x μ就是我们要寻找的相关关系的表达式.当()x μ为关于x 的线性函数时,称为线性回归,否则称为非线性回归.进行回归分析时首先是回归函数()x μ形式的选择,这需要通过专业知识、实际经验和具体的观测才能确定,当只有一个自变量时,通常可采用画散点图的方法进行选择.请看下例:例1 在某种产品表面进行腐蚀刻线试验,得到腐蚀深度Y 与腐蚀时间X 对应得一组数据,如表9-4所示.一般地,对于x 取定一组不完全相同的值12,,,n x x x ,设i Y 为在对应(1,2,,)i x i n =处Y 的观测结果,称1122(,),(,),,(,)n n x Y x Y x Y ,是一个样本,相应地,称1122(,),(,),,(,)n n x y x y x y 为样本观测值.一般以表格给出我们把每一数对(,)i i x y 看作直角坐标系中的一个点,在图上画出这n 个点,称该图为散点图.例1的散点图见图9-1.腐蚀时间腐蚀深度图9-1 腐蚀深度及腐蚀深度的散点图从散点图我们发现11个点基本上在一条直线附近,这说明两个变量有一个线性关系,即()x a bx μ=+,记y轴方向上的误差为ε,进一步假定2~(0,)N εσ,这里2,,a b σ均为与x 无关的常数.则上述假设可写为2~(0,)Y a bx N εεσ=++⎧⎨⎩ 2,,a b σ为常数 (2.1) 我们称(2.1)为一元线性回归模型.研究一元线性回归模型的主要内容有:参数估计、显著性检验、预测与控制等.三、回归系数的最小二乘估计取x 的n 个不完全相等的值12,,,n x x x ,得到一组独立观测样本1122(,),(,),,(,)n n x Y x Y x Y ,在模型(2.1)下,可得如下数据结构2~(0,)i i i iY a bx N εεσ=++⎧⎨⎩且相互立 通常采用最小二乘法估计,a b ,记各次拟合误差的平方和为21(,)()ni i i Q a b Y a bx ==--∑寻找,a b ,使(,)Q a b 达到最小,即,ˆˆ(,)min (,)a bQ ab Q a b = (2.2) 这样得到的ˆˆ,ab 称为,a b 的最小二乘估计,可通过对(,)Q a b 求偏导数并令它们等于0求出,即112()02()0ni i i ni i i i QY a bx a Q Y a bx x b==∂⎧=---=⎪∂⎪⎨∂⎪=---=⎪∂⎩∑∑ (2.3) 这组方程称为正规方程组,经过整理可得112111()()()n n i ii i n n ni i i i i i i na x b Y x a x b x Y=====⎧+=⎪⎪⎨⎪+=⎪⎩∑∑∑∑∑ (2.4)记 111111()()()()nnnnnxy i i i i i i i i i i i i i L x x Y Y x Y nx Y x Y x Y n ======--=-=-∑∑∑∑∑2222211111()()n n nnxx i iii i i i i L x x x nx x x n =====-=-=-∑∑∑∑2222211111()()n n nnyy i i i i i i i i L Y Y Y nY Y Y n =====-=-=-∑∑∑∑解(2.4)可得ˆˆˆxy xxb L L a Y bx⎧=⎪⎨=-⎪⎩ (2.5)称方程ˆˆˆya bx =+为线性回归方程,其图形称为回归直线.除了估计回归系数,a b 外,还需估计未知参数2σ.注意到2σ反映出观测误差的大小,样本中有关2σ的信息可由回归方程的残差ˆˆˆi i i i ie Y Y Y a bx =-=-- 来体现,称222111ˆˆˆ()()nnne i i i i ii i i S e Y Y Y a bx =====-=--∑∑∑ 为残差平方和.可以证明:22~(2)e S n χ- (2.6)于是2()2e S E n σ=-,这说明 2ˆ2e S n σ=-是2σ的一个无偏估计.为便于计算,通常将e S 作如下分解:2211ˆˆ()[()]n ne i i i ii i S Y Y Y Y Y Y ===-=---∑∑ 21ˆ[()]ni ii Y Y b x x ==---∑ 222111ˆˆ()2()()()()n n ni i ii i i i Y Y b Y Y x x b x x ====----+-∑∑∑2ˆˆˆ2()yy xy xx yy xyL bL b L L bL =-+=- 即ˆe yy xyS L bL =- (2.7) 例2 求例1中Y 关于x 的回归方程,并求2σ的无偏估计2ˆσ. 解 经计算得12922.723952.721258.72xx xy yy L L L ===45.45x = 19.45y =代入得ˆˆˆ0.306 5.551xyxxL b a y bx L ===-=于是 回归直线为ˆ 5.5510.306yx =+ 2σ的估计值为211ˆˆ() 5.5222e yy xy S L bL n n σ==-=-- . 四、线性假设的显著性检验从以上求回归直线的过程可以看出,对任意给出的n 对观测数据(,)(1,2,,)i i x y i n =,不管Y 与x 是否真的有线性关系,都可以求出Y 对x 的回归直线,但这样给出的回归直线不一定有意义.要判断回归直线是否有意义,就必须对回归方程是线性的假设作显著性检验.注意到在线性回归方程()()E Y x a bx μ==+中,如果0b =,则表示Y 不依赖x 而变化,那么这时求出的回归方程就没有意义,称回归方程不显著;如果0b ≠,那么当x 变化时,()E Y 随x 的变化而线性变化,这时称回归方程是显著的.因此,对回归方程是否有意义作判断 就是要作如下的显著性检验:01:0:0H b H b =↔≠ (2.8)考虑b 的最小二乘估计ˆb,可以证明2ˆ~(,)xxb N b L σ 又由(2.6)式,知2222ˆ(2)~(2)eS n n σχσσ-=-且ˆb 与eS 相互独立,故统计量t =~(2)t n =- (2.9) 在0H 为真时,检验统计量可取~(2)t t n =- (2.10)在水平α下,检验的拒绝域为2:(2)W t t n α=≥- (2.11)该检验称为t 检验.当拒绝0H 时,回归方程是显著的,表明回归方程有意义.反之,就认为回归方程是不显著的.由于若~(2)t t n -,有2~(1,2)tF n -,因此检验统计量也可以取22ˆˆˆ(2)xyxx e bL b F L S n σ==-仿照方差分析的做法,数据总的偏差平方和记为21()nT i yy i S Y Y L ==-=∑称 21ˆˆ()nR i xy i S Y Y bL ==-=∑ 为回归平方和,由(2.7)式,平方和有分解式 T R e S S S =+.利用上述记号,则在0H 为真时,检验统计量~(1,2)(2)Re S F F n S n =-- (2.12)在水平α下,检验的拒绝域为:(1,2)W F F n α≥- (2.13)该检验称为F 检验,显然它与t 检验是等价的.利用(2.9)式,我们还可得到参数b 的置信度为1α-的置信区间:22ˆˆˆˆ(2),(2)b n b n αα⎛⎫--+- ⎪ ⎪⎝⎭(2.14) 另外,评价回归方程好坏的有一个常用指标:回归决定系数(复行列式系数),定义如下:222T/S xyxy xxRxx yyyyl l l S R l l l ===,显然,201R ≤≤,回归决定系数越接近1,说明回归方程拟合得越好。
第二章 回归分析 (补充教材)回归分析是研究变量之间相关关系的一种统计推断法。
例如,人的血压y 与年龄x 有关,这里x 是一个普通变量,y 是随机变量。
Y 与x 之间的相依关系f(x)受随机误差ε的干扰使之不能完全确定,故可设有:ε+=)(x f y )'11.2(-式中f(x)称作回归函数,ε为随机误差或随机干扰,它是一个分布与x 无关的随机变量,我们常假定它是均值为0的正态变量。
为估计未知的回归函数f(x),我们通过n 次独立观测,得x 与y 的n 对实测数据(x i ,y i )i=1,……,n ,对f(x)作估计。
实际中常遇到的是多个自变量的情形。
例如 在考察某化学反应时,发现反应速度y 与催化剂用量x 1,反应温度x 2,所加压力x 3等等多种因素有关。
这里x 1,x 2,……都是可控制的普通变量,y 是随机变量,y 与诸x i 间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:ε+=),,,(21k x x x f y )"11.2(-这里ε是不可观察的随机误差,它是分布与x 1,……,x k 无关的随机变量,一般设其均值为0,这里的多元函数f(x 1,……,x k )称为回归函数,为了估计未知的回归函数,同样可作n 次独立观察,基于观测值去估计f(x 1,……,x k )。
以下的讨论中我们总称自变量x 1,x 2,……,x k 为控制变量,y 为响应变量,不难想象,如对回归函数f(x 1,……,x k )的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y 和控制变量x 1,x 2,……,x k 呈现线性相关关系的情形,即假定f(x 1,……,x k )=b 0+b 1x 1+……+b k x k 。
并称由它确定的模型 )11.2('-(k=1)及)11.2(''-为线性回归模型,对于线性回归模型,估计回归函数f(x 1,……,x k )就转化为估计系数b 0、b i (i=1,……,k) 。
因变量是定性变量的回归分析—L o g i s t i c回归分析TYYGROUP system office room 【TYYUA16H-TYY-TYYYUA8Q8-因变量是定性变量的回归分析—Logistic 回归分析一、 从多元线性回归到Logistic 回归例 这是200个不同年龄和性别的人对某项服务产品的认可的数据.其中: 年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量“观点”则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量。
从这张图可以看出什么呢?从这张图又可以看出什么呢?这里观点是因变量, 只有两个值;所以可以把它看作成功概率为p 的Bernoulli 试验的结果.但是和单纯的Bernoulli 试验不同,这里的概率p 为年龄和性别的函数. 必须应用Logistic 回归。
二、 多元线性回归不能应用于定性因变量的原因首先,多元线性回归中使用定性因变量严重违反本身假设条件,即:因变量只能取两个值时,对于任何给定的自变量值,e 本身也只能取两个值。
这必然会违背线性回归中关于误差项e 的假设条件。
其次,线性概率概型及其问题:由于因变量只有两个值;所以可以把它看作成功概率p ,取值范围必然限制在0—1的区间中,然而线性回归方程不能做到。
另外概率发生的情况也不是线性的。
三、 Logistic 函数Logistic 的概率函数定义为:我们将多元线性组合表示为:于是,Logistic 概率函数表示为:经过变形,可得到线性函数:这里, 事件发生概率=P (y=1)事件不发生概率=1-P (y=0) 发生比:Ω=-=pp odds 1)( 对数发生比:)(log )1(ln )log(p it p p odds =⎥⎦⎤⎢⎣⎡-= 这样,就可将logistic 曲线线性化为:从P 到logit P 经历了两个步骤变换过程:第一步:将p 转换成发生比,其值域为0到无穷第二步:将发生比换成对数发生比,其值域科为[]∞+∞-经过转换, 将P →logit P,在将其作为回归因变量来解释就不再有任何值域方面的限制了,即可线性化!四、 Logistic 回归系数的意义以logit P 方程的线性表达式来解释回归系数,即:在logistic 回归的实际研究中,通常不是报告自变量对P 的作用,而是报告自变量对logit P 的作用。