对数线性模型
- 格式:doc
- 大小:169.50 KB
- 文档页数:5
实验报告——线性模型与对数模型举例分析、实验目的本实验的目的在于研究GNP 与货币是否有关系,若有关系有怎样的数量关系,用哪种模型来描述二者之间关系较为合适。
下面根据GNP/货币供给数据,得到的回归结果(Y=GNP ,X= 货币供给):年GNP( 10亿美元)M 2 年GNP(10 亿美元)M 2 1973 1359.3 861.0 1981 3052.6 1795.5 1974 1472.8 908.519823166.0 1954.0 1975 1598.4 1023.2 1983 3405.7 2185.2 1976 1782.8 1163.7 1984 3772.2 2363.61977 1990.51286.71985 4014.9 2562.61978 2249.7 1389.0 1986 4240.3 2807.7 1979 2508.2 1500.2 1987 4526.7 2901.0 1980 2732.0 1633.1 平均值2791.47 1755.70模型截距斜率2r0.9926双对数0.5531 0.9882t=(3.1652 )41.889对数- 线性 6.8616 0.00057 0.9493 增长模型)t= (100.05 )15.597线性- 对数-16329.0 2584.8 0.9832t= ( -23.494 )27.549线性101.20 1.5323 0.9915 LIV 模型)t= (1.369 )38.867a. 解释每个模型斜率的意义。
1. 双对数模型中斜率0.9882表示,货币供给每提高1个百分点,GNP 平均增加约0.98 个百分点。
2. 对数―线性模型中的斜率0.00057 表示,货币供给每增加1(10 亿)美元,GNP 将以0.057% 的速度增长。
3. 线性―对数模型中的斜率2584.8 表示,货币供给每提高1 个百分点,GNP 将增加25.848(10 亿)美元。
列联表的对数线性模型理堑/壁窭对数线性模型■孙凤一,问题的提出我们在进行属性数据处理时,常常运用列联表反映变量之间的联合分布.当列联表中包含个变时,被称作二维列联表;列联表中包含二个变量时,则被称作二维列联表.__维或高维列联表亦可称作多维列联表.无论是简单的列联表还足复杂的列联表,其中所自'频数之间分布的关联都町以分解为两种效应:一种反映了变量自身的频数分布影响,称之为卞效应;另一种反映变量之间关联所产牛的效应,称之为交互效应.对于两个属性变节构成的频数列联表是一张二维列联表,其主效应有两个,交效应只有一个.当变最数增加时,交互的维数就会增加,相当于多张=维列联表;同样当变鼍中的分类数增加时,每一张■维列联表也会变大.但是不论变_早=数怎样增加或变最中的分类数怎样增加,仍然町以将整个频数分布分解为主效臆和交互效应,只不过两类效麻各自的项数有所增加而已,尤其是交钉效应的项数会增加得更快.常规频数表统计方法通常只分析I埘个变量之间的联系,如受教育程度与生活满意度的列联表,我们以直接从列联表的分布中读取主效应和交互效应.然而,进行多个变世的属性分析时,常规统汁力法就尢法把握变量之间的关系了在实际研究中,研究者通常采用一次H分析两个变量之问的交且表,经过多个两交互分析,氽图}=I}拼接成多个分类变量之I1_lJ复杂关系的帑体.尽管这种做法d土能得到?些信息,然而止如多个简单同IJ]并能代替多元回归一样,这种缺乏综合性的分析方式足不可能以多个个另IJ分析叠加出整怵的多尤联系的.特别足由于整个频数分布被分成多张二维交互表,只能大致分析每一张二维交互表的主效幢祠】交且效应,更多变量之i'nI的联合交互效应(或岛阶交q作)将无法分析,然而,正是联合交1f.效嘘才真正反映变世之川的关联.IJ(】g—linear模犁是一种有效处理列联丧信息I的统汁t万法,令文运用耍例埘该方法的由此uJ推算:譬,和俭怯及常用F1J=点(2)的模型形式作一讨论.IH二,L.gliar模型式(2)意味着任何单元格中的预期l诎立性检验频数是由之相关的边际次数决定的.首先以一个例子来理解议.logli一倘若HO为真,则表中的条件次数应是模型的基本要素.表1是英国19721预期次数(1),但表中的实际次数却是f.年的职业流动表,其中行变黄为父亲的这里我们把全部的"f-F"相加起来,取平职业,列变量为儿子的职业.通过职业流方和,以避免正负值相互抵f肖的问题.×动表我们町以J,解一个社会职业上下流越大,原似设正确的可能性越小,也即在动的渠道是甭通畅,这也是考察礼会运I总体中RC越uf能是相关的,反之1行机制足否正常的重要指标..I则反是.我们以R表示行变量(父亲的职2.1oglinear模型的参数估计业),C表示列变量(儿子的职).R的以组频数作为因变错,行和列的分下标为i,j:1,2…I;C的下标为j'j_l,2J类作虚拟自变龟所建立的回归模型即为…J.通常R代表解释变请,C代表结果jxII数线性回归模型,亦称泊松回力'程:1变量.c.代表第i行第J列的观察频数FlIlog(Fii)13o+13Rt+13R+.''+B4c4代表预期频数.所谓预期次数足指存总埘数线性模型有一套专用符号系j体If1两个变情没有关系的前提下,表l统,上式可以表示为:中每单元格所应有的次数10g(F?)=h+h,"++(3)独性检验统汁量为X2,对于二变其中Fii代表预期频数,i=1,2,……,节总体来随,原假没是R-L.iC不相关;;j=1,2,……J.是总均值,是行边缘备择假设足R与C相关,公式如下:l(r0wmargina1)效应,是列边缘(∞l一一,,umnmargina1)效应,"是行列交互作x''(1)用,交可作用反映的是行与列之间的相自由度df_(I-1I)fJ一11关.其巾f是实际7欠数,F是预期次数.{如何反映行边缘效应和列边缘效应{倘若R与c确实是不相关的,则由.个l及其交互作用呢?首先需要对变量进行i 随机样本中所得的条件次数,理应显示『虚拟化处理n对于对数线性模型,常常采Rc足不相关的;也就是说F和F.用0总合限制,办称为方差编码,如B1十所占的比例膻该相同,而I.12l和F所占p2=O,则p1-B2.如:的比例也卡H同n邮:∑.hill-∑,.∑,∑.lIl:oF::—;f+.n{"有(卜1)个参数;有卜1个参:岛:!数;,有(I一1)x(J-1)个参数f+-nf.z这样我ffJ就可以运用(3)I毫一——j:兰些堕查……——式仙汁"变,列变量交_———十]—_『T—_一F]作用对分组频数的影响.———_r-]—_『—厂—]…i]丽fI:州_,j_姒H.lJ.IJ々!i238Il59『59I36f13l505从表2可以发现,I一0g一2r『J铷f34If456J313I】9622f1328linear模与线性回归模:}领"引.j").61}60j有很大的不川,突出表现为fjif术i261i499l【们l33i26875649g2234776"iI'-I冈变IIHI运:农I1I1l;Ii6uI"}'】甜~止互二叵『]亘工j_互工:工:堕曼r果变量,这意味着结果变贳和数据来坪于李沛~(20o01J《社会研究的统计应用》,社会科学文献解释变同时出现在loglin—df版社,I)32522缱纠楗镶表2英国1972年职业流动方差编码分组频率父职业子职业I{lR2R3R4ClC2C3C4jll1lJIJUl【JUlJ34l2l0l0(JlOl1O3373l00l0lO002614l0(】OllO00645l—1一l—l—JlO0015912l0O00l0045622Ol00Ol005lO320Ol0Ol0fJ49942OO0l0l009852—l—l一l—l0l005913l000O0l03l3230l0000l0l06l3300l0()Ol0959430O0l(】0l02l153一l—l一l—l0【】lO36l4l000O00ll96240l00O00l6023400lO000l93544OO0I00Ol23454一1—I一l—l000ll315ll0nll—1—l22250OO0—l—l—1一1433500lf】—l—l一ll3345000l—l—l—l—ll6955一l一l一l—l—l—l一1—l ear模型中,这就使得研究者能够从模型参数推断出■者之问的关系;Loglinear 模型经常包含许多参数,研究者可将其分为有意义和无意义的参数,在实际应用中,大量有意义的参数都是变量有交互作用的参数.如何解释参数的影响作用呢?我们需要借助发生比率来反映.发生比率是指交]彳去同两行}l'不㈣列的比率之比如层白领之子和_尢技术监领之子成为上层[j领或无技术蓝领之发生比率是:0-暑=2?.6836/935fI/…如果单就交互表言,横向或纵向可分比受制r行列合汁之分布,不其町比性.如表1单看代上层白领的流入率,会发现其很多来自蓝领背景;但从行合计可看到,这是由于父代蓝领远多f白领之故.以上的发生比是运用观察值计算出来的,而理沦或模型的发,卜比则需耍用交互作用参数箅出,例如0={l_:一:cpfl】:+44"一『4:一r)(4)程(4)是饱和模型,即观察频数与期望频数完全一样,观察和理论的发尘比相等.们对非饱干『I模噩!』言,沦的发生比有着更蕈耍的作用.可以说,对数线性分析的主要用途在于检验和清除经验发牛比中的杂音.除饱和模型外,还有许多非饱和模型.这里介绍常见的几种:(1)独模型由假定交互作用为0得到:Log(Fi.)=+.+(5)即当衍变量列变量独立时,类别频数只取决于行合汁与列_△计的分布(■者的乘积).(2)准独立模型(quasi—independence) Log(1',i.J=+."+."+8(6)其中{j是埘角线各类的参数.我们观察表2的英田职业流动数据,可以发现对角线的单元格的数值是比较大的,这数值反映了"继承"的特点,人们希将这种特征分离出束,进一步讨论其中所包含的信息,因此假定除了丰对角线以外的行变量和硎变摄是独立的,我们称其为准独立模3.参数估计与拟台优废枪验l,oglinear模型的参数估汁足非线性模,这类模犁进行参数估汁的最好力法足檄大似然估计运用极大似然估汁法的核心是需要lr解样奉的分布特征我们这里时论的列联表建模,主要集中在二:J_!j!分布,泊松分布和多项式分布23统计%决策,;理论{…一2006年第12期(总第227期)埘数线性模型的统汁检验包括两种主要检验:(1)埘于假设模的整休检验;(2)单个参数估计的检验.对于假设模型的整体拟合优度检验包括对数似然比f÷力'和皮尔逊卡方检验.对数似然比卡方检验崽想是指对数线性模型常以饱和模型的对数似然比为基准,计算埘数似然比,衡量非饱和模型的拟合优度(或劣度).加入用Is表示饱和模础的似然,IIr表示非饱和模型的似然,那么对数似然比卡方就足:lJ(F=-21.g():2(∑∑Fiilog(F=-21Fii(1i7(p)og()=2(l((p)L.i;Ij=IU 当交叉表的数据不稀疏(审格少HT-均组频最好不小于7),这个统汁量符合卡方分布.自由度是交叉表的分组数减参数数目.如此定义的对数似然比,反映模型与数据的差距,当然越小越好.单个参数估汁的检验,有单项效应检验和单个参数估汁的检验.项敏应检验反映的足如果从模型中撤销…个效应以后时似然比的影响,称为偏关联检验(to.slsofPARTIAIassocia—tions)埘r单个参数估计的榆验我们用标准正态分布检验z.(作者单位/清华大学社会学系)(责任编辑/李友平)。
第5章列联表分析与对数线性模型实验5-1 列联表分析一、列联表若总体中的个体可按两个属性A与B分类,A有r个等级,B有c个等级,从总体中抽取大小为N的样本,每种属性的样本数如下表所示:称上表为r×c列联表。
当r=2=c时,称上表为2×2列联表或四格表。
本节仅涉及四格表检验。
例1 对肺癌患者和对照组的调查结果:问是否患肺癌与是否吸烟独立与否?例2 1976年至1977年美国佛罗里达州29个区的凶杀案件中凶手的肤色和是否被判死刑的326个犯人的情况如下,问是否存在种族歧视与审判不公?二、实验内容数据来源:wushujiance.sav某防疫站观察当地一个污水排放口在高温和低温季节中伤寒病菌检出情况。
其中高温和低温季节各观测12次,数据有24个观测样本,有两个属性变量degree 和test,degree有1(高温季节)和2(低温季节)两个等级;test有1(+)和2(-)两个等级。
问:两个季节的伤寒菌检出率有无差别?数据如下图所示:意为:Degree1(高温) 2(低温) 合计 test1(检出)17 8 2(没有检出) 115 16合计121224设A :高温季节;A :低温季节;B :检出;B :没有检出。
记)|(1A B P p =,2p =)|(A B P 此处欲检验0H :21p p =1H ↔:21p p ≠检验统计量:Pearson 卡方统计量=21212211222112)(++++-=n n n n n n n n n χ~)(12χ (渐进)称此检验为卡方检验。
此外,可以证明:卡方检验等价于独立性检验(A 属性与B 属性独立),即:0H :21p p =1H ↔:21p p ≠等价于0H :j i ij p p p ⋅⋅=1H ↔:j i ij p p p ••≠,.2,1,=j i其中nn p ij ij =,nn p i i +•=,n n p j j +•=,.2,1,=j i实验过程:(1)打开数据文件;(2)分析->描述统计->交叉表;相依系数:其数值在0~1之间,但不能达到1,是行变量和列变量相关性的度量指标。
对数线性模型,SPSS ,R
数据来源:《非参数统计(第二版)》 吴喜之 中国统计出版社 181页例9.4
下表是对三种品牌的洗衣机的需要的问卷调查结果,进行分析。
品牌因素间不完全独立
地域因素、城乡因素、品牌因素间相互独立地域因素、城乡因素、:H :H 10
SPSS:
一、数据的准备阶段 1、建立数据文件
2、将“人数”加权:数据-加权个案
二、列联分析
从上图中可以看到:在城市居住,且住在南方的居民购买大容量洗衣机的人数最少,购买中等容量的居中,购买小容量的最多;而住在北方的居民购买大容量洗衣机的人数居中,购买中等容量的最少,购买小容量的还是最多。
从上图中可以看到:在农村居住,且住在南方的居民购买大容量洗衣机的人数最多,购买中等容量与购买小容量的基本持平;而住在北方的居民购买大容量洗衣机的人数同样最多,购买中等容量的与购买小容量的基本持平。
从上表输出结果中可以看出,城市分组中,双侧检验P值为0.527,>α=0.05,因此在5%的显著性水平下不能拒绝原假设,即认为地域和品牌不完全独立;同样,在农村分组中,双侧检验P值为0.424,>α=0.05,因此在5%的显著性水平下不能拒绝原假设,即认为地域和品牌不完全独立。
三、对数线性模型的建立
四、模型的检验
通过消除残差趋势的Q-Q图可以看出,各点均在0附近波动,且分布较均匀,说明模型拟合较好。
R:
> x=read.table("G:/a.txt",header=T)
> xt=xtabs(Count~.,x)
> loglin(xt,list(1,2,3))
2 iterations: deviation 0
$lrt
[1] 26.56823
$pearson
[1] 27.29357
$df
[1] 7
$margin
$margin[[1]]
[1] "Capacity"
$margin[[2]]
[1] "Area"
$margin[[3]]
[1] "Location"
> a=loglin(xt,list(1:2,c(1,3))) 2 iterations: deviation 0
> a$df
[1] 3
> a$lrt
[1] 1.099333
> pchisq(a$lrt,a$df,low=F) [1] 0.777235
> a$pear
[1] 1.099896
> pchisq(a$pear,a$df,low=F) [1] 0.7770992。