列联表的对数线性模型
- 格式:doc
- 大小:26.50 KB
- 文档页数:8
第5章列联表分析与对数线性模型实验5-1 列联表分析一、列联表若总体中的个体可按两个属性A与B分类,A有r个等级,B有c个等级,从总体中抽取大小为N的样本,每种属性的样本数如下表所示:称上表为r×c列联表。
当r=2=c时,称上表为2×2列联表或四格表。
本节仅涉及四格表检验。
例1 对肺癌患者和对照组的调查结果:问是否患肺癌与是否吸烟独立与否?例2 1976年至1977年美国佛罗里达州29个区的凶杀案件中凶手的肤色和是否被判死刑的326个犯人的情况如下,问是否存在种族歧视与审判不公?二、实验内容数据来源:wushujiance.sav某防疫站观察当地一个污水排放口在高温和低温季节中伤寒病菌检出情况。
其中高温和低温季节各观测12次,数据有24个观测样本,有两个属性变量degree 和test,degree有1(高温季节)和2(低温季节)两个等级;test有1(+)和2(-)两个等级。
问:两个季节的伤寒菌检出率有无差别?数据如下图所示:意为:Degree1(高温) 2(低温) 合计 test1(检出)17 8 2(没有检出) 115 16合计121224设A :高温季节;A :低温季节;B :检出;B :没有检出。
记)|(1A B P p =,2p =)|(A B P 此处欲检验0H :21p p =1H ↔:21p p ≠检验统计量:Pearson 卡方统计量=21212211222112)(++++-=n n n n n n n n n χ~)(12χ (渐进)称此检验为卡方检验。
此外,可以证明:卡方检验等价于独立性检验(A 属性与B 属性独立),即:0H :21p p =1H ↔:21p p ≠等价于0H :j i ij p p p ⋅⋅=1H ↔:j i ij p p p ••≠,.2,1,=j i其中nn p ij ij =,nn p i i +•=,n n p j j +•=,.2,1,=j i实验过程:(1)打开数据文件;(2)分析->描述统计->交叉表;相依系数:其数值在0~1之间,但不能达到1,是行变量和列变量相关性的度量指标。
对数线性模型对于分类数据的分析,最简单也是最广泛使用的是卡方检验,但卡方检验在处理分类数据时,有两个局限:1.卡方检验只能简单描述变量间的相关关系,而无法分析出具体的因果关系或变量间相互作用(效应)大小2.卡方检验通常用于2*2列联表,而对于高维列联表,则无法系统的评价变量间的关系,而对数线性模型则是分析高维列联表的常用方法。
基于以上问题,我们除了可以使用Logistic模型之外,还可以使用对数线性模型进行分析。
对数线性模型的结构类似于方差分析,思想也和方差分析一样,不同的是方差分析用于连续变量,而对数线性模型用于分类变量。
在方差分析中,观测值y 的变异由各因素的主效应、各因素之间的交互效应、随机误差三者之和组成。
而对于分类变量也可以采用这种方法进行分解,只不过此时的观测值y为频数而不是实际的观测值,最终观测值变异的组成也不是相加关系,而是乘积关系。
以两个分类变量α、β为例:M ij代表第i行第j列的频数αi代表变量α的主效应βj代表变量β的主效应(αβ)ij代表变量αβ的交互作用εij代表随机误差分类数据的频数分布一般分为多项式分布、二项式分布、泊松分布,取值在0—+∞之间,因此等式两边都取其对数ln,这样可以使期望频数取值在-∞—+∞,这就是所谓的对数线性模型。
模型的独立参数和自由度:独立参数个数=分类数-限制条件数数据提供的信息量=列联表中网格的数量模型自由度=信息量-独立参数个数对数线性模型的一个假设前提是:每个分类变量各水平的效应之和等于0====================================== ==== ===对数线性模型的统计检验:对数线性模型的假设检验都是基于Pearson卡方检验和似然比卡方检验L2,当样本规模较大时,这两个统计值很接近,但似然比卡方更加稳健1.对模型的整体检验也就是拟合优度检验,两种卡方的零假设是:检验模型的频数估计与观测频数无差异,也就是拟合度良好2.分层效应检验类似于逐步回归的筛选自变量,分层效应检验就是逐步筛选交互作用,每剔除一种交互作用,就检验一次,主要是:某一阶及更高阶所有交互作用项的集体检验,检验是否显著表明这一阶及更高阶中是否至少有一项分类的效应是有意义的。
列联表的对数线性模型理堑/壁窭对数线性模型■孙凤一,问题的提出我们在进行属性数据处理时,常常运用列联表反映变量之间的联合分布.当列联表中包含个变时,被称作二维列联表;列联表中包含二个变量时,则被称作二维列联表.__维或高维列联表亦可称作多维列联表.无论是简单的列联表还足复杂的列联表,其中所自'频数之间分布的关联都町以分解为两种效应:一种反映了变量自身的频数分布影响,称之为卞效应;另一种反映变量之间关联所产牛的效应,称之为交互效应.对于两个属性变节构成的频数列联表是一张二维列联表,其主效应有两个,交效应只有一个.当变最数增加时,交互的维数就会增加,相当于多张=维列联表;同样当变鼍中的分类数增加时,每一张■维列联表也会变大.但是不论变_早=数怎样增加或变最中的分类数怎样增加,仍然町以将整个频数分布分解为主效臆和交互效应,只不过两类效麻各自的项数有所增加而已,尤其是交钉效应的项数会增加得更快.常规频数表统计方法通常只分析I埘个变量之间的联系,如受教育程度与生活满意度的列联表,我们以直接从列联表的分布中读取主效应和交互效应.然而,进行多个变世的属性分析时,常规统汁力法就尢法把握变量之间的关系了在实际研究中,研究者通常采用一次H分析两个变量之问的交且表,经过多个两交互分析,氽图}=I}拼接成多个分类变量之I1_lJ复杂关系的帑体.尽管这种做法d土能得到?些信息,然而止如多个简单同IJ]并能代替多元回归一样,这种缺乏综合性的分析方式足不可能以多个个另IJ分析叠加出整怵的多尤联系的.特别足由于整个频数分布被分成多张二维交互表,只能大致分析每一张二维交互表的主效幢祠】交且效应,更多变量之i'nI的联合交互效应(或岛阶交q作)将无法分析,然而,正是联合交1f.效嘘才真正反映变世之川的关联.IJ(】g—linear模犁是一种有效处理列联丧信息I的统汁t万法,令文运用耍例埘该方法的由此uJ推算:譬,和俭怯及常用F1J=点(2)的模型形式作一讨论.IH二,L.gliar模型式(2)意味着任何单元格中的预期l诎立性检验频数是由之相关的边际次数决定的.首先以一个例子来理解议.logli一倘若HO为真,则表中的条件次数应是模型的基本要素.表1是英国19721预期次数(1),但表中的实际次数却是f.年的职业流动表,其中行变黄为父亲的这里我们把全部的"f-F"相加起来,取平职业,列变量为儿子的职业.通过职业流方和,以避免正负值相互抵f肖的问题.×动表我们町以J,解一个社会职业上下流越大,原似设正确的可能性越小,也即在动的渠道是甭通畅,这也是考察礼会运I总体中RC越uf能是相关的,反之1行机制足否正常的重要指标..I则反是.我们以R表示行变量(父亲的职2.1oglinear模型的参数估计业),C表示列变量(儿子的职).R的以组频数作为因变错,行和列的分下标为i,j:1,2…I;C的下标为j'j_l,2J类作虚拟自变龟所建立的回归模型即为…J.通常R代表解释变请,C代表结果jxII数线性回归模型,亦称泊松回力'程:1变量.c.代表第i行第J列的观察频数FlIlog(Fii)13o+13Rt+13R+.''+B4c4代表预期频数.所谓预期次数足指存总埘数线性模型有一套专用符号系j体If1两个变情没有关系的前提下,表l统,上式可以表示为:中每单元格所应有的次数10g(F?)=h+h,"++(3)独性检验统汁量为X2,对于二变其中Fii代表预期频数,i=1,2,……,节总体来随,原假没是R-L.iC不相关;;j=1,2,……J.是总均值,是行边缘备择假设足R与C相关,公式如下:l(r0wmargina1)效应,是列边缘(∞l一一,,umnmargina1)效应,"是行列交互作x''(1)用,交可作用反映的是行与列之间的相自由度df_(I-1I)fJ一11关.其巾f是实际7欠数,F是预期次数.{如何反映行边缘效应和列边缘效应{倘若R与c确实是不相关的,则由.个l及其交互作用呢?首先需要对变量进行i 随机样本中所得的条件次数,理应显示『虚拟化处理n对于对数线性模型,常常采Rc足不相关的;也就是说F和F.用0总合限制,办称为方差编码,如B1十所占的比例膻该相同,而I.12l和F所占p2=O,则p1-B2.如:的比例也卡H同n邮:∑.hill-∑,.∑,∑.lIl:oF::—;f+.n{"有(卜1)个参数;有卜1个参:岛:!数;,有(I一1)x(J-1)个参数f+-nf.z这样我ffJ就可以运用(3)I毫一——j:兰些堕查……——式仙汁"变,列变量交_———十]—_『T—_一F]作用对分组频数的影响.———_r-]—_『—厂—]…i]丽fI:州_,j_姒H.lJ.IJ々!i238Il59『59I36f13l505从表2可以发现,I一0g一2r『J铷f34If456J313I】9622f1328linear模与线性回归模:}领"引.j").61}60j有很大的不川,突出表现为fjif术i261i499l【们l33i26875649g2234776"iI'-I冈变IIHI运:农I1I1l;Ii6uI"}'】甜~止互二叵『]亘工j_互工:工:堕曼r果变量,这意味着结果变贳和数据来坪于李沛~(20o01J《社会研究的统计应用》,社会科学文献解释变同时出现在loglin—df版社,I)32522缱纠楗镶表2英国1972年职业流动方差编码分组频率父职业子职业I{lR2R3R4ClC2C3C4jll1lJIJUl【JUlJ34l2l0l0(JlOl1O3373l00l0lO002614l0(】OllO00645l—1一l—l—JlO0015912l0O00l0045622Ol00Ol005lO320Ol0Ol0fJ49942OO0l0l009852—l—l一l—l0l005913l000O0l03l3230l0000l0l06l3300l0()Ol0959430O0l(】0l02l153一l—l一l—l0【】lO36l4l000O00ll96240l00O00l6023400lO000l93544OO0I00Ol23454一1—I一l—l000ll315ll0nll—1—l22250OO0—l—l—1一1433500lf】—l—l一ll3345000l—l—l—l—ll6955一l一l一l—l—l—l一1—l ear模型中,这就使得研究者能够从模型参数推断出■者之问的关系;Loglinear 模型经常包含许多参数,研究者可将其分为有意义和无意义的参数,在实际应用中,大量有意义的参数都是变量有交互作用的参数.如何解释参数的影响作用呢?我们需要借助发生比率来反映.发生比率是指交]彳去同两行}l'不㈣列的比率之比如层白领之子和_尢技术监领之子成为上层[j领或无技术蓝领之发生比率是:0-暑=2?.6836/935fI/…如果单就交互表言,横向或纵向可分比受制r行列合汁之分布,不其町比性.如表1单看代上层白领的流入率,会发现其很多来自蓝领背景;但从行合计可看到,这是由于父代蓝领远多f白领之故.以上的发生比是运用观察值计算出来的,而理沦或模型的发,卜比则需耍用交互作用参数箅出,例如0={l_:一:cpfl】:+44"一『4:一r)(4)程(4)是饱和模型,即观察频数与期望频数完全一样,观察和理论的发尘比相等.们对非饱干『I模噩!』言,沦的发生比有着更蕈耍的作用.可以说,对数线性分析的主要用途在于检验和清除经验发牛比中的杂音.除饱和模型外,还有许多非饱和模型.这里介绍常见的几种:(1)独模型由假定交互作用为0得到:Log(Fi.)=+.+(5)即当衍变量列变量独立时,类别频数只取决于行合汁与列_△计的分布(■者的乘积).(2)准独立模型(quasi—independence) Log(1',i.J=+."+."+8(6)其中{j是埘角线各类的参数.我们观察表2的英田职业流动数据,可以发现对角线的单元格的数值是比较大的,这数值反映了"继承"的特点,人们希将这种特征分离出束,进一步讨论其中所包含的信息,因此假定除了丰对角线以外的行变量和硎变摄是独立的,我们称其为准独立模3.参数估计与拟台优废枪验l,oglinear模型的参数估汁足非线性模,这类模犁进行参数估汁的最好力法足檄大似然估计运用极大似然估汁法的核心是需要lr解样奉的分布特征我们这里时论的列联表建模,主要集中在二:J_!j!分布,泊松分布和多项式分布23统计%决策,;理论{…一2006年第12期(总第227期)埘数线性模型的统汁检验包括两种主要检验:(1)埘于假设模的整休检验;(2)单个参数估计的检验.对于假设模型的整体拟合优度检验包括对数似然比f÷力'和皮尔逊卡方检验.对数似然比卡方检验崽想是指对数线性模型常以饱和模型的对数似然比为基准,计算埘数似然比,衡量非饱和模型的拟合优度(或劣度).加入用Is表示饱和模础的似然,IIr表示非饱和模型的似然,那么对数似然比卡方就足:lJ(F=-21.g():2(∑∑Fiilog(F=-21Fii(1i7(p)og()=2(l((p)L.i;Ij=IU 当交叉表的数据不稀疏(审格少HT-均组频最好不小于7),这个统汁量符合卡方分布.自由度是交叉表的分组数减参数数目.如此定义的对数似然比,反映模型与数据的差距,当然越小越好.单个参数估汁的检验,有单项效应检验和单个参数估汁的检验.项敏应检验反映的足如果从模型中撤销…个效应以后时似然比的影响,称为偏关联检验(to.slsofPARTIAIassocia—tions)埘r单个参数估计的榆验我们用标准正态分布检验z.(作者单位/清华大学社会学系)(责任编辑/李友平)。