当前位置:文档之家› 多层线性模型学习报告

多层线性模型学习报告

多层线性模型学习报告
多层线性模型学习报告

MLM作业

多层线性模型 摘要 在社会科学研究中,调查得来的数据往往具有层次结构(嵌套结构)的特点。在层次结构数据中,不仅有描述个体的变量,而且有个体组成的更高一层的变量。如研究学生的学术成绩,要考虑学生的社会经济地位(SES)即个体水平的变量,同时可能还要考虑不同学校间学生/老师比例的差异对学生学术成绩的影响也就是学校层次的预测变量。这种数据带来了很多跨级(多层)的研究问题,为了解决这些问题,出现了一种新的数据分析方法——多层线性模型。本文第一部分介绍多层线性模型以及多层模型的类型。第二部分传统统计技术的局限性及多层线性模型的优势。第三部分说明多层线性模型的基本原理以及两个应用(直接来自篇文献)。第四部分是总结和拓展。 1、多层线性模型以及多层模型的类型 多水平、多层次的数据结构普遍存在,如学生嵌套于班级,班级有嵌套与学校。传统的线性模型,如方差分析和回归分析,只能涉及一层数据的问题进行分析,不能综合多层数据问题。在实际研究中,更令人感兴趣的是学生一层的变量与班级一层的变量之间的交互作用,比如,学生之间的个体差异在不同班级之间可能是相同的、也可能是不同的。学生数据层中,不同变量之间的关系可能因班级的不同而不同。因此,学生层的差异可以解释为班级层的变量。另一种类型的两层嵌套数据来自纵向研究数据,多层(多水平)数据指的是观测数据在单位上具有嵌套的关系。比如在教育研究中,学生镶嵌于班级,在此,学生代表了数据结构的第一层,而班级代表了数据结构的第二层。对于第一层的学生数据,研究者可以提出一系列的研究问题,也可以针对第二层的班级又提出一系列的研究问题。在教育研究中,更为重要和令人感兴趣的正是关于学生层的变量与班级层变量之间的交互作用问题。比如,学生之间的个体差异在不同班级之间可能是相同的,也可能是不同的;在学生层数据中,不同变量之间的关系也可能因班级的不同而不同,这些学生层的差异可以解释为班级层的变量的函数。 多层线性模型由Lindley等于1972年提出,是用于分析具有嵌套结构数据的一种统计分析技术。作为传统方差分析模型的有效拓展。20多年来,该方法在社会科学领域获得了广泛应用。多层线性模型又称分层线性模型或多水平模型,当数据存在于不同层级时,先以第一层级的变量建立回归方程,然后把该方程中的截距和斜率作为因变量,使用第二层数据中的变量作为自变量,再建立两个新的方程。通过这种处理,可以探索不同层面变量对因变量的影响。由于它把第一层回归方程中的截距和斜率作为第二层回归方程中的随机变量,所以这种做法也被称作“回归的回归”。 接下来将简要地说明在多层次的研究中,已经被广泛使用过的多层次模型。 (1)跨层次直接效果模型是检测在较低层次(如个人层次)的结果变量上,较高层次(如单位层次)白变量的主效果,或同时分析较高层次与较低层次的主效果,Hall(1994)称之为混合因子模型。例如,Siebert,Silver发现,团队层次的授权气氛(team-1evel empowerment climate)与员工层次的心理授权相关,且心理授权中介于团队层次的授权气氛与个人层次的工作满意度及工作绩效。 (2)跨层次调节模型是检测两个较低层次构念之间的关系如何校较高层次的

(完整版)多层线性模型介绍

多层线性模型: HLM(hierarchical linear model)计量模型,为解决传统统计方法如回归分析在处理多层嵌套数据时的局限而产生的,是目前国际上较前沿的一套社会科学数据分析的理论和方法,优势体现两个方面:一是解决了数据嵌套问题;二是为追踪研究或重复测量研究引入了新方法。 传统的线性模型,例如,ANOV A或者回归分析,只能对涉及某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析,而多层线性模型对解决这些问题提供了有效的统计方法。多层线性模型的参数估计方法与进行两次回归的方法在概念上是相似的, 但二者的统计估计和验证方法却是不同的, 并且多层线性模型的参数估计方法更为稳定。因此多层模型的应用范围也相当广泛,与传统的用于处理多元重复测量数据的方法相比,该模型具有对数据资料要求低、能够明确表示个体在第一层次的变化情况、可以通过定义第一层次和第二层次的随机变异解释个体随时间的复杂变化情况、可以考虑更高一层次的变量对于个体增长的影响等特点。 多层线性模型( multilevel model ) 由Lindley 等于1972 年提出,是用于分析具有嵌套结构数据的一种统计分析技术。作为传统方差分析模型的有效扩展Korendijk 等和Duncan 等众多的研究者对多层线性模型进行了广泛研究。20 多年来,该方法在社会科学领域获得了广泛应用。近年来,有研究者提出使用多层线性模型进行面板研究,并且已在社会科学领域取得较大进展。 面板研究中多层线性模型的应用优势: 由上述分析可知,在面板研究中,传统的数据分析方法会遇到很多难以克服的困难,而多层线性模型可以很好地处理上述问题。近年来,越来越多的面板研究开始采用多层线性模型的分析方法,显示出多层线性模型在面板研究中的独特优势。 首先,多层线性模型通过考察个体水平在不同时间点的差异,明确表达出个体在层次一的变化情况,因而对于数据的解释(个体随时间的增长趋势)是在个体与重复观测交互作用基础上的解释,即不仅包含不同观测时点的差异,也包含个体之间存在的差异。 其次,多层线性模型可在最大似然或限制性最大似然估计的基础上处理缺失

多层线性模型的解读:原理与应用

多层线性模型的解读:原理与应用 浙江师范大学心理研究所陈海德 Chenhaide351@https://www.doczj.com/doc/4b6232986.html, 一、多层数据结构的普遍性 多水平、多层次的数据结构普遍存在,如学生嵌套于班级,班级有嵌套与学校。 传统的线性模型,如方差分析和回归分析,只能涉及一层数据的问题进行分析,不能综合多层数据问题。在实际研究中,更令人感兴趣的是学生一层的变量与班级一层的变量之间的交互作用,比如,学生之间的个体差异在不同班级之间可能是相同的、也可能是不同的。学生数据层中,不同变量之间的关系可能因班级的不同而不同。因此,学生层的差异可以解释为班级层的变量。 另一种类型的两层嵌套数据来自纵向研究数据,不同时间观测数据形成了数据结构的第一层,而被试之间的个体差异形成了第二层。可以探索个体在发展趋势上的差异。 二、传统技术处理多层数据结构的局限 如果把变量分解到个体水平,在个体水平上分析。但是我们知道这些学生是来自同一班级的,不符合观察独立原则。导致个体间随机误差相互独立的假设不能满足。 如果把个体变量集中到较高水平,在较高水平上进行分析。这样丢弃了组内信息,而组内变异可能占了大部分。 三、原理 ☆水平1(学生)的模型与传统的回归模型类似,所不同的是回归方程的截距和斜率不再是一个常数,而是水平2变量水平不同(不同的班级),其回归方程的截距和斜率也不同的,是一个随机变量。如,每个班级的回归方程的截距和斜率都直接依赖于班级教师教学方法。 ☆多层线性模型分为“随机截距模型”和“随机截距和随机斜率模型”。“随机截距模型”假定因变量的截距随着群体的不同而不同,但各群体的回归斜率是固定,因此不同层次因素之间缺乏互动。“随机截距和随机斜率模型”假定截距和回归斜率都因群体而异,允许不同层次因素之间的互动。 参数估计方法有:迭代广义最小二乘法、限制性的广义最小二乘估计、马尔科夫链蒙特卡罗法。这些方法代替了传统的最小二乘法估计,更为稳定和精确。比如,当第二层的某单位只有少量的被试,或不同组样本量不同时,多层线性模型进行了加权估计、迭代计算。 四、应用 1 用于类似组织管理、学校教育等具有多层数据结构的领域研究。 2 用于个体重复测量数据的追踪研究。测量层面作为第一水平,个体层面作为第二水平 3 用于做文献综述,即对众多研究成果进行定量综合。探讨不同研究中进行的处理、研究方法、被试特征和背景上的差异与效应之间的关系。 4 充分利用多层模型较为高级的统计估计方法来改善单层回归的估计和分析。 五、优势 1 由于多层线性模型建立在更合理的假设之上,考虑到了来自不同层次的随机误差和变量信息,因此能提供更加准确的标准误估计、更有效的区间估计和假设检验。 2 多层线性模型可以计算任何水平上测量的协方差,如可以通过计算不同水平变异在总变异中占的比率来确定不同水平对因变量的影响程度,例如研究者可以探讨班级和学生的其他特征对因变量变异的作用到底有多大。还可以分析不同水平上变量之间的交互作用。 3 可以发现所得回归方程中,截距和斜率之间的相关关系,以便更好地解释自变量和因变量之间变化的规律。

多层线性模型的解读:原理与应用

多层线性模型的解读:原理与应用 多层线性模型的解读:原理与应用浙江师范大学心理研究所陈海德Chenhaide351@ 一、多层数据结构的普遍性多水平、多层次的数据结构普遍存在,如学生嵌套于班级,班级有嵌套与学校。传统的线性模型,如方差分析和回归分析,只能涉及一层数据的问题进行分析,不能综合多层数据问题。在实际研究中,更令人感兴趣的是学生一层的变量与班级一层的变量之间的交互作用,比如,学生之间的个体差异在不同班级之间可能是相同的、也可能是不同的。学生数据层中,不同变量之间的关系可能因班级的不同而不同。因此,学生层的差异可以解释为班级层的变量。另一种类型的两层嵌套数据来自纵向研究数据,不同时间观测数据形成了数据结构的第一层,而被试之间的个体差异形成

了第二层。可以探索个体在发展趋势上的差异。二、传统技术处理多层数据结构的局限如果把变量分解到个体水平,在个体水平上分析。但是我们知道这些学生是来自同一班级的,不符合观察独立原则。导致个体间随机误差相互独立的假设不能满足。如果把个体变量集中到较高水平,在较高水平上进行分析。这样丢弃了组内信息,而组内变异可能占了大部分。三、原理☆水平1的模型与传统的回归模型类似,所不同的是回归方程的截距和斜率不再是一个常数,而是水平2变量水平不同,其回归方程的截距和斜率也不同的,是一个随机变量。如,每个班级的回归方程的截距和斜率都直接依赖于班级教师教学方法。☆多层线性模型分为“随机截距模型”和“随机截距和随机斜率模型”。“随机截距模型”假定因变量的截距随着群体的不同而不同,但各群体的回归斜率是固定,因此不同层次因素之间缺乏互动。“随机截距和随机斜率模

HLM多层线性模型讲义

R-practice session 7 CS&SS 560 Marijtje van Duijn Winter 2006 The commands used in this session are available as R syntax file (Session7.R) at the website. Data input and preparation We continue with the data used in Snijders & Bosker. For a description see Example 4.1 (p. 46). Download the data file SBbookR2.csv from the class website. Also get the file session7.r and execute the commands under data preparation (also used in practice session 4). Modeling heteroscedasticity at level 1 We will first estimate the models as specified in table 8.1. >model8.11ML<-lme(testscore~ IQc+sesc+gender+meanIQc, random=~1+IQc| +schoolNR, data= datasb7,method="ML") >model8.12ML<-lme(testscore~ IQc+sesc+gender+meanIQc, random = ~1+IQc| +schoolNR, data=datasb7, weights=varIdent(form=~1|gender), method="ML") Although it is immediately clear that the second model in table 8.1 is not an improvement of the first model: >anova(model8.12ML,model8.11ML) we will check that it is the exact same model, although differently parameterized. For almost all of the variance components this is clear from >VarCorr(model8.12ML) and remember that the covariance between the intercept and the IQ slope variance can be computed by multiplying the reported correlation by the standard deviations. We now have to check that the -1.21 covariance of the gender effect is retrieved in the lme model calculation. The estimated variance for girls is 36.30 (38.72- 2*1.21) from table 8.1 This number is obtained in our analysis by multiplying 38.72 by 0.968^2. Check that this indeed correct. Note that the weights command does not work with lmer(). I?m pretty sure it must be possible to specify an equivalent model, but I have not found out how (yet).

多层线性分析模型

多层线性分析模型: 集体层面结构的类型: 集体层面结构的类型是很重要的,因为结构的类型体现了结构的性质,而结构的性质会影响其组合方式和测量方法。Kozlowski和Klein(2000)[2]认为,集体层面的结构可分为3种:整体(global)结构、共享(shared)结构和生成(configural)结构。 整体结构是那些相对客观的、容易观察到的、源自于集体层面的集体的特征。整体结构没有低层面的对应物,所以它不依赖于个体的知觉、经验、行为或个体的交互作用而存在。团队大小就是一个整体结构,它不依赖于个体的特点和交互作用,但它会影响团队内成员的工作。(我认为如“团队绩效”这种整体变量就属于这种类型,属于直接测量)共享结构是集体成员的共享(共同具有的)特征,只有当集体内的个体共享相似知觉时它才存在。共享结构来自于集体成员个体的经验、认知和行为,并且在集体成员中发挥某种作用。共享结构假设结构在不同层面上的有相似的表现,在不同层面上有相似的内容、意义和结构,是以突现(emergence)中的“组合”(composition)方式结合而成的。James等(1974)就认为,个体可以产生对环境的知觉以形成某种心理气氛,但只有当这些知觉被共享时才会形成某种组织气氛。因此,当研究者探讨共享结构时,需要阐明个体特征的组内一致性或可信性,以及集体成员之间的交互作用过程。(本人认为我们课题同属于这种心理感知,个体层面属于个人心理感知,集体层面属于团队成员的一致感知。属于团队层面和个体层面在测量结构上相似,我认为我们课题的研究应该采用此种结构。) 生成结构则描绘了集体中个体特征的排列方式或组合模式。尽管生成结构(configural)与共享结构一样也产生于个体特征,但不同的是生成结构并没有假设集体中个体成员之间的相似性结合,个体在生成结构中的地位和作用是不同的。共享结构假设单位成员有某种相似知觉,而生成结构中个体的特征却不是同质的,它体现了个体特征在集体层面上的另一种结合方式:个体特征以间断、复杂而非线形的突现中的“合成”(compilation)方式结合为集体特征。因此,生成结构在不同层面的组织上存在质的不同,但功能是等同的。如,一个足球队中每个队员承担不同的角色,从而产生了整个团队的绩效这种与每个队员绩效不同的概念。有两种类型的生成结构:描述性(descriptive)结构和潜在(latent)结构;描述性生成结构是那些外显的、可观察到的特征(如集体的性别多样性);而潜在的生成结构则是指那些假设的、无法观察到的集体特征(如集体的价值观念)。当研究者研究生成结构时,他们需要深入说明的是:不同功能的个体是如何聚合成为集体现象,以及不同个体在集体结构中的地位是什么。(属于集体层面和个人层面测量结构不相似的类型)。 整体结构是一个层面上的现象。而共享结构和生成结构则来自于低层面,但却在高层面上体现。共享结构和生成结构来自于集体成员的特征、行为或认知,而成员的这些特征的交互作用形成了集体层面的结构。共享结构和生成结构代表了跨层面的集体特征;共享结构在各个层面上的功能和组织都是相似的;而生成结构在各个层面上的功能是等价的,但组织上却是不同的。 个体层面上的变量如何构成集体层面上的结构: Chan(1998)[7]总结了5种构成模型: 相加模型(additive)(即个体元素之和或平均数)、 直接一致模型(direct consensus)(直接一致模型取决于组内的一致性,因为只有存在一致性,集体结构才会存在。作为气氛来讲,尽管个体会产生对工作环境的心理解释,但这些知觉如果不被共享和认可的话也不会成为组织气氛。所以这时应该计算组内一致性以便验证组织气氛的存在。本研究采用的方法)、

Practice session3HLM多层线性模型讲义

R-practice session 3 CS&SS 560 Marijtje van Duijn Winter 2006 The commands used in this session are available as R syntax file (Session3.R) at the website. Data input and preparation We continue with the data used in Snijders & Bosker. For a description see Example 4.1 (p. 46). The data are the same as in the previous session, except for the treatment of the variable IQc. This variable is the grandmean centered IQ. Then the same procedure is followed as before, resulting in two variables, a centered and an uncentered one, measuring IQ in deviation to its school mean Go the file practice session3.r and execute the commands under data preparation. One other new variable will be produced, called z2, that is the deviation of the (school variable) groupsize with respect to the overall mean groupsize (equal to 23.1, approximately). Note that the groupsize can be larger than the number of students per school in the dataset due to …missing? pupils. Comparing (nested) models and estimating a random slope model Make sure the library nlme is attached. First we will give a command to format the output a little nicer, restricting the number of decimal places. >options(digits=5) This seems to be the best choice, although R does not always “obey” this command. If you like, play around a bit with other choices for the number of digits. In the same options command you can decide to turn of the use of stars to signal significance – in the eyes of many statisticians a despicable practice >options(show.signif.stars=FALSE) We will first estimate the models from Tables 4.2, 4.4, and 4.5 again. Check that we are now reproducing the output in the tables, and look at the …funny? p-values. >model.4.2<-lme(testscore~1+IQc, data=datasb, random=~1|schoolNR, +method="ML") >summary(model.4.2) >VarCorr(model.4.2) >model.4.4<-lme(testscore~1+IQc+meanIQc, data=datasb, +random=~1|schoolNR, method="ML")

相关主题
文本预览
相关文档 最新文档