当前位置:文档之家› 多层线性模型作业--

多层线性模型作业--

多层线性模型作业--
多层线性模型作业--

多层线性模型

摘要

在社会科学研究中,调查得来的数据往往具有层次结构(嵌套结构)的特点。在层次结构数据中,不仅有描述个体的变量,而且有个体组成的更高一层的变量。如研究学生的学术成绩,要考虑学生的社会经济地位(SES)即个体水平的变量,同时可能还要考虑不同学校间学生/老师比例的差异对学生学术成绩的影响也就是学校层次的预测变量。这种数据带来了很多跨级(多层)的研究问题,为了解决这些问题,出现了一种新的数据分析方法——多层线性模型。本文第一部分介绍多层线性模型以及多层模型的类型。第二部分传统统计技术的局限性及多层线性模型的优势。第三部分说明多层线性模型的基本原理以及两个应用(直接来自篇文献)。第四部分是总结和拓展。

1、多层线性模型以及多层模型的类型

多水平、多层次的数据结构普遍存在,如学生嵌套于班级,班级有嵌套与学校。传统的线性模型,如方差分析和回归分析,只能涉及一层数据的问题进行分析,不能综合多层数据问题。在实际研究中,更令人感兴趣的是学生一层的变量与班级一层的变量之间的交互作用,比如,学生之间的个体差异在不同班级之间可能是相同的、也可能是不同的。学生数据层中,不同变量之间的关系可能因班级的不同而不同。因此,学生层的差异可以解释为班级层的变量。另一种类型的两层嵌套数据来自纵向研究数据,多层(多水平)数据指的是观测数据在单位上具有嵌套的关系。比如在教育研究中,学生镶嵌于班级,在此,学生代表了数据结构的第一层,而班级代表了数据结构的第二层。对于第一层的学生数据,研究者可以提出一系列的研究问题,也可以针对第二层的班级又提出一系列的研究问题。在教育研究中,更为重要和令人感兴趣的正是关于学生层的变量与班级层变量之间的交互作用问题。比如,学生之间的个体差异在不同班级之间可能是相同的,也可能是不同的;在学生层数据中,不同变量之间的关系也可能因班级的不同而不同,这些学生层的差异可以解释为班级层的变量的函数。

多层线性模型由Lindley等于1972年提出,是用于分析具有嵌套结构数据的一种统计分析技术。作为传统方差分析模型的有效拓展。20多年来,该方法在社会科学领域获得了广泛应用。多层线性模型又称分层线性模型或多水平模型,当数据存在于不同层级时,先以第一层级的变量建立回归方程,然后把该方程中的截距和斜率作为因变量,使用第二层数据中的变量作为自变量,再建立两个新的方程。通过这种处理,可以探索不同层面变量对因变量的影响。由于它把第一层回归方程中的截距和斜率作为第二层回归方程中的随机变量,所以这种做法也被称作“回归的回归”。

接下来将简要地说明在多层次的研究中,已经被广泛使用过的多层次模型。

(1)跨层次直接效果模型是检测在较低层次(如个人层次)的结果变量上,较高层次(如单位层次)白变量的主效果,或同时分析较高层次与较低层次的主效果,Hall(1994)称之为混合因子模型。例如,Siebert,Silver发现,团队层次的授权气氛(team-1evel empowerment climate)与员工层次的心理授权相关,且心理授权中介于团队层次的授权气氛与个人层次的工作满意度及工作绩效。

(2)跨层次调节模型是检测两个较低层次构念之间的关系如何校较高层次的

构念调节,或是检测较高层次的构念与较低层次的结果变量之间的关系如何被另一个较低层次的构念调节。例如,Hofmann,Morgeson和Gerras(2003)检验了团队层次的安全气氛对个人层次的领导者部属交换与员工的安全公民角色定义之间关系的调节效果,结果发现,当正面的安全气氛存在时,领导者部届交换与安全公民角色定义之间的相关性更高。

(3)跨层次青蛙池塘模型是说明较低层次的个人在较高次中的相对位置对较低层次的结果变量有何影响。同样的一只青蛙,假若池塘很大,这只青蛙看起来可能会很小;若池塘很小,这只青蛙看起来就可能很大。例如,假设我们要检测薪的高低与工作满意度之间的关系,个人的工作满意度可能就会取决于其相对于群体中同事平均薪资水准。

(4)一致的多层次模型是说明构念以及连接构念问的关系是可被概化到不同组织的实休上的。在这种模型中,两个或两个以上变量之间的关系能同时存在于个人、群体及组织等多个层次中。Wiechmann(2004)检验一个多重目标绩效模型在个人和团队层次上的一致性,结果发现79%的假设在个人与团队层次皆成立,支持他们所提出的关系可同时存在于不同层次的多层次模型。

2、传统统计技术的局限性及多层线性模型的优势

牵扯到两层数据或者三层数据时就不能用传统的统计方法来解决了。因为传统的统计技术在以下三个方面存在着局限性:

第一个是方差齐性和随机误差独立性假设问题。

传统线性模型的基本假设是线性、正态、方差齐性及独立性,后两条假设在嵌套性的取样中往往不能成立。因为同组的个体比不同组的个体之间更加接近和相似;而且不同组的抽样可能是独立的,但是同组内的抽样在很多变量上可能取值相似。在关于发展趋势的纵向研究中,因变量随时间的推移而发生有规律的增减变化,方差也容易发生相应的增减,使方差齐性假设受到威胁。在上述情况下,采用传统统计技术可能导致不合理的、甚至是错误的结论。但是多层线性模型不要求研究对象个体内观测值相互独立,也不受限制性假设的制约。

第二个是缺失值和测量间隔不一致的问题。

比如在纵向研究中,需要对同一观测对象做多次追踪观测,那么很容易出现样本的流逝。传统的统计手段是删除存在缺失值的观测对象或对缺失值进行拟合,前者会造成信息的浪费,后者会降低研究的精确程度而多层相性模型允许确实值得存在,在建立第一层回归模型时能够最大程度的利用现有样本的信息。另外,传统的统计技术还要求所有被观测对象在相同的时间间隔接受观测,在操作上有很多限制。多层相性模型不但允许不同时间间隔的测量,还允许不同观测对象采用不同的观测时间表,使研究者有了更大的便利和灵活性。

第三个是处理研究假设的问题。

传统统计手段的功能主要局限于比较各次观测结果间差异的显著性或前期观测结果对后期观测结果的预测成都,而多层线性模型允许研究者在不同数据层面上提出不同假设。例如是否存在着显著的增长或下降趋势?不同类型个体的变化速率是否一致?哪些因素可以预测不同类型个体在变化速率上的差异?不同类型个体在变化速率上的差异是否得到了足够的解释等等,还可以建立多个发展模型,通过拟合度检验选出最吻合观测数据的理论假设。

基于以上嵌套数据的特点和传统统计技术的局限性,诞生了多层线性模型,它是目前国际上较前沿的一套社会科学数据分析的理论和方法。

3、多层线性模型的基本原理及应用举例

3.1多层线性模型原理

通过定义不同水平(层)的模型,将随机变异分解为两个部分,其一是第一水平个体间差异带来的误差,另一个是第二水平班级的差异带来的误差。可以假设第一水平个体间的测量误差相互独立,第二水平班级带来的误差在不同班级之间相互独立。多水平分析法同时考虑到不同水平的变异。他的基本形式包括三个公式:

(1)Y ij=β0j+β1j X ij+εij

(2)β0j=γ00+γ01W1j+μoj

(3)β1j=γ10+γ11 W1jμ1j

下标“0”表示截距,下标“1”表示斜率。β0j表示与第二层单位j有关的第一层的截矩。γ00表示截矩,所有第二层单位的总体平均数。γ01表示回归斜率。W1j表示第二层第一个预测变量。μoj表示残差或随机项。β1j表示与第二层单位j有关的第一层的斜率。γ10表示截矩,所有第二层单位在第一层的斜率的总体平均数。γ11表示回归斜率。μ1j表示残差或随机项。

有时研究者只是感兴趣于把方程分解为有个体差异造成的部分和有组间差异造成的部分。这时,使用这种在第一层和第二层都没有预测变量的零模型就够了。通过零模型,我们可以确定Y中的总体变异有多大比例是由于第二层或者是说组间差异造成的,就要计算一个跨级相关(ICC):组间方差/(组间方差+组内方差)。当icc很小时,群体平均数就必须以多个群体成员的回答来估计。另外,HLM亦可使用卡方检验来检测组间方差时候具有统计上的显著性。研究中的有些问题不一定要用到多层线性模型,那么我们怎样来判断呢?这时我们可以先构建一个零模型,运用方差成分分析,当组间方差具有统计上的显著性时,即将个别聚合到群体是可行的,说明有必要使用多层线性模型。

那么这时说明需要在模型中加入新的变量来解释这种显著性的差异。这时我们往第一层中加入新的预测变量,这就是随机效应模型,如果这时通过卡方检验发现第二层的残差μoj和μ1j比较显著,则表示在第二次层可能存在群体层次的因子。

那么我们继续往模型中加入新的变量。这时我们往第二层加入预测变量,这就是完整模型。完整模型解释了Y的总体变异是怎样受第一层和第二层的因素影响的。

3.2应用举例一

层线性模型在横断面研究和纵向研究中都有应用,下面以纵向研究中的一个应用为例:为探索一种新药物对自闭症儿童的治疗作用,对120名自闭症儿童进行了研究,其中64名儿童未接受药物治疗,56名儿童接受了药物治疗。以自闭症儿童适应功能测验0得分为观测指标对上述儿童进行了4次追踪,每次追踪间隔5个月,以反映自闭症儿童适应能力的改善情况。研究者期望了解药物治疗的作用以及治疗开始前的症状严重程度对疗效的影响。这里,每次追踪间隔五个月下的适应

功能测验得分为第一层数据,以不依时间变化的个体特征或所接受的处理为第二层数据(治疗方法和治疗前症状严重程度)。首先建立两个spss的数据文件,利用hlm5软件生成数据结构。

然后建立随机效应模型。在这个模型的第二层方程中不包含任何自变量,因为此处我们的着眼点是仅仅确定第二层的变异。所以该模型的作用是描述全体观测对象的变化趋势,并就是否需要进一步引入第二层解释变量作出决定。

第一层的方程是: 适应功能测验分数=β0+β1 (观测时间)+ε

第二层的方程是:

β0=γ00+μ0

β1=γ10+μ 1

第一层方程中“β0”是方程的截距,其含义是最后一次适应功能测验的平均分。“β1”是回归系数,其含义是适应功能得分的变化速率。“观测时间”表示自变量,ε代表残差,表示测量值Y(适应功能得分)不能被自变量X(观测时间)所解释的部分。在SPSS数据文件中,对于/测量时间0变量,分别用-3,-2, -1,0代表四次测量,这样做的目的是令方程(5)的截距B0正好等于最后一次适应功能测验的平均分。经过HLM5软件进行参数估计,结果见表1:

结果表示最近一次测量中所有儿童的适应功能平均分数是13.28。每隔5个月,自闭症儿童的适应功能分数平均增长1.53分,T检验结果说明增长趋势显著。方程(6)(7)中的残差变异都显著,说明无论是当前适应功能得分还是变化速率,都存在较大的个体间差异,需要引入第二层变量才能得到更好的解释。

为了更充分地解释方程(1)中当前分数和变化速率上的个体差异,引入两个第二层变量:是否接受了药物治疗以及治疗开始前的症状严重程度。这种在两层中都包含自变量的模型叫完整模型。

第一层的方程是: 适应功能测验分数=β0+β1(观测时间)+ε

第二层的方程是:

β0=γ00+γ01+ γ02+ μ0

β1=γ10+γ11+ γ12+ μ1

对于“治疗方法”变量,用0代表未接受治疗,1代表接受药物治疗。另外,考虑到“严重程度”变量的分值是1到7,不存在“严重程度”等于0的被试,为后面解释上的便利,在第二层方程中对“严重程度”变量进行了中心化。经过HLM5软

件进行参数估计,结果见表2:

与β0相关的固定效应提供了以下信息:未接受药物治疗的最低严重程度的自闭症儿童当前适应功能得分平均是11.04分;药物治疗对当前得分有显著影响,治疗组得分比未治疗组高出4.65分;初始症状严重程度对被试当前得分有显著影响,初始症状严重程度每升高1级会导致当前得分下降0.55分。与β1相关的固定效应提供了以下信息:未接受药物治疗的最低严重程度的自闭症儿童适应功能变化趋势是每5个月升高0.99分;药物治疗对适应功能增长速度有显著的积极影响,可以使增速提高1.08分;初始症状严重程度对适应功能增长速度无显著影响。

随机效应的分析表明,由于完整模型中增加了两个自变量,截距的方差从随机效应模型中的20.09下降到现在的14.28,说明两个新增自变量解释掉随机效应模型截距29%的方差;斜率的方差从随机效应模型中的1.08下降到现在的0.78,说明两个新增自变量解释掉随机效应模型斜率28%的方差。

从随机效应的显著性检验结果来看,剩余的未被解释的方差仍然显著,还需要考虑引入新的自变量以增加模型的解释力度。

3.3应用举例二

下面我们以一项关于初中学生欺负行为的研究为例,来对多层线性模型的应用原理进行阐述。该研究通过问卷法、同伴提名法收集了2641名初中生的各方面有关资料,而这些学生是隶属于51个班级的。我们现在把着眼点放在两个学生水平的变量上,一是结果变量$$学生受欺负的状况(VIC),二是预测变量$$学生的害羞度(SHY)。班级水平的变量我们在此仅仅考虑班级中男生的比例(MALE)、班级中平均的坏学生的人数(BADC)、老师对欺负者的态度(BULT)、老师对学生的严厉程度(HARSHC)。可以看到,在此学生为第一层的单元,班级为第二层的单元;其中SHY是第一层的预测变量,MALE、BADC、BULT、HARSHC是第二层

的预测变量。

研究的问题是:

(1)MALE和BADC对截距有显著的预测作用吗?即考察MALE高的班级与MALE低的班级在学生受欺负的状况上是否不同(控制BADC),以及坏学生多的班级与坏学生少的班级在学生受欺负状况上是否不同(控制MALE)。

(2)BULT和HARSHC对班级内的斜率有显著的预测作用吗?即考察BULT高的班级与BULT低的班级在学生的SHY与受欺负状况之间的相关强度上是否不同(控制HARSHC),以及老师对学生是否严厉对学生的SHY与受欺负状况之间的相关强度上是否不同。

(3)用MALE、BADC、BULT、HARSHC作为预测变量能够解释多少截距和斜率上的变异?即组间平均数的变异及组间回归的变异。(4)在考虑MALE、BADC、BULT、HARSHC之后,特定的班级对截距和斜率的影响之间的关系是什么?即组平均数与回归之间的协方差。

我们就上述问题提出的假设是:(1)班级内坏学生的多少、男生比例的高低对学生受欺负状况并无影响。(2)老师对欺负者的态度、老师对学生的严厉程度,对SHY与学生受欺负状况的关系没有影响。(3)没有需要进行解释的残差。(4)斜率的残余变异为0。

这样,水平1的模型对每个学生而言就会有两个系数:截距和SHY斜率,其模型如下:

VIC=β0+β1(SHY)+r

即,学生的受欺负状况=班级的平均分+SHY在班级内的效应+学生的独特性(残差)。

在水平2,对班级差异的确定如下:

β0=γ00+μ0

即,班级平均分=所有班级的总平均分+班级的独特性(与平均数的差异);

β1=γ10+μ 1

即,SHY的组内效应=所有班级的SHY平均效应+SHY独特的组效应;

Var(u0)=τ0

即,组间平均数的变异;

Var(u1)=τ 1

即,组间回归的变异;

Cov(u0,u1)= τ

即,组平均数与回归之间的协方差;

对班级之间的差异的解释如下:

β0=γ00+γ01(BDC)+γ02(MALE)+u0

即,BADC高的班级比BADC低的班级在学生受欺负状况上要严重吗?男生比例高的班级的受欺负状况与男生比例低的班级的不同吗?

β1=γ10+γ11(BULT)+ γ12(HARSHC)+u1

即,老师对欺负者的态度的不同使学生本身的SHY和受欺负状况之间的关系强度上不同吗(此时控制HARSHC)?学生水平的SHY与受欺负状况之间的相关会由于老师对学生的严厉程度的不同而不同吗(此时控制BULT)?

对残差变异的解释如下:

Var(u0)= τ0

Var(u1)= τ 1

即,在控制了这些预测变量后,班级之间还有方差吗?

应该注意到,截距和斜率模型的建构都受到随机的残差的影响。其假设是,截距和斜率不仅是随机变量MALE、BADC或BULT、HARSHC的函数,而且也是独特的班级效应的函数。上述多层线性模型通过统计软件HLM运算所得结果如下表(表1):

可以看到,所有预测变量都对结果变量VIC的变异有显著的解释作用。班级平均的坏学生人数(BADC)对截距有正向影响。在控制了BADC的效应后,男生比例高的班级内,学生受欺负状况也严重些。所以假设1被拒绝。从斜率来看,BULT 越高的班级,其斜率就越小。HARSHC越高的班级,其斜率也越小。所以假设2被拒绝。

同时,从表2可以看到,就平均受欺负状况而言,各班级之间没有显著差异,表明无需进一步探讨截距上可能有助于解释残余变异的班级水平的变量。假设3得到支持。对水平2的残差u1的估计(01263,p=.000)表明,对水平2单元的SHY斜率而言,存在明显的差异,表明还需要进一步研究来探讨斜率上可能有助于解释残余变异的班级水平的变量。假设4被拒绝。

4、总结与延伸

HLM的应用主要起三种作用:首先是改善对个体单元内效应的估计,比如,通过借助在其它班级中存在的相似的估计,可以对单个班级的回归模型提出更好的估计。其次是形成和检验关于跨水平效应的假设,比如,不同的班级规模如何对班级内的社会经济地位与学习成绩之间的关系产生影响。第三是分离各水平内的方差和协方差成分,比如把学生水平的一系列变量的相关分解为班级水平的组内和组间成分。因此,多层线性模型这种技术对分析多层数据结构来讲是很重要的。

我们已讨论过线性阶层模型的二阶层分析,而将二阶层模型扩充的方法之一就是增加另一个阶层。例如,假若我们所收集的样本数据是每个个人被包含在不同的团队中,而这些团队又被包含在不同的组织中,即会呈现一个三阶层的数据结构。HLM软件亦可以进行三阶层.

MLM作业

多层线性模型 摘要 在社会科学研究中,调查得来的数据往往具有层次结构(嵌套结构)的特点。在层次结构数据中,不仅有描述个体的变量,而且有个体组成的更高一层的变量。如研究学生的学术成绩,要考虑学生的社会经济地位(SES)即个体水平的变量,同时可能还要考虑不同学校间学生/老师比例的差异对学生学术成绩的影响也就是学校层次的预测变量。这种数据带来了很多跨级(多层)的研究问题,为了解决这些问题,出现了一种新的数据分析方法——多层线性模型。本文第一部分介绍多层线性模型以及多层模型的类型。第二部分传统统计技术的局限性及多层线性模型的优势。第三部分说明多层线性模型的基本原理以及两个应用(直接来自篇文献)。第四部分是总结和拓展。 1、多层线性模型以及多层模型的类型 多水平、多层次的数据结构普遍存在,如学生嵌套于班级,班级有嵌套与学校。传统的线性模型,如方差分析和回归分析,只能涉及一层数据的问题进行分析,不能综合多层数据问题。在实际研究中,更令人感兴趣的是学生一层的变量与班级一层的变量之间的交互作用,比如,学生之间的个体差异在不同班级之间可能是相同的、也可能是不同的。学生数据层中,不同变量之间的关系可能因班级的不同而不同。因此,学生层的差异可以解释为班级层的变量。另一种类型的两层嵌套数据来自纵向研究数据,多层(多水平)数据指的是观测数据在单位上具有嵌套的关系。比如在教育研究中,学生镶嵌于班级,在此,学生代表了数据结构的第一层,而班级代表了数据结构的第二层。对于第一层的学生数据,研究者可以提出一系列的研究问题,也可以针对第二层的班级又提出一系列的研究问题。在教育研究中,更为重要和令人感兴趣的正是关于学生层的变量与班级层变量之间的交互作用问题。比如,学生之间的个体差异在不同班级之间可能是相同的,也可能是不同的;在学生层数据中,不同变量之间的关系也可能因班级的不同而不同,这些学生层的差异可以解释为班级层的变量的函数。 多层线性模型由Lindley等于1972年提出,是用于分析具有嵌套结构数据的一种统计分析技术。作为传统方差分析模型的有效拓展。20多年来,该方法在社会科学领域获得了广泛应用。多层线性模型又称分层线性模型或多水平模型,当数据存在于不同层级时,先以第一层级的变量建立回归方程,然后把该方程中的截距和斜率作为因变量,使用第二层数据中的变量作为自变量,再建立两个新的方程。通过这种处理,可以探索不同层面变量对因变量的影响。由于它把第一层回归方程中的截距和斜率作为第二层回归方程中的随机变量,所以这种做法也被称作“回归的回归”。 接下来将简要地说明在多层次的研究中,已经被广泛使用过的多层次模型。 (1)跨层次直接效果模型是检测在较低层次(如个人层次)的结果变量上,较高层次(如单位层次)白变量的主效果,或同时分析较高层次与较低层次的主效果,Hall(1994)称之为混合因子模型。例如,Siebert,Silver发现,团队层次的授权气氛(team-1evel empowerment climate)与员工层次的心理授权相关,且心理授权中介于团队层次的授权气氛与个人层次的工作满意度及工作绩效。 (2)跨层次调节模型是检测两个较低层次构念之间的关系如何校较高层次的

(完整版)多层线性模型介绍

多层线性模型: HLM(hierarchical linear model)计量模型,为解决传统统计方法如回归分析在处理多层嵌套数据时的局限而产生的,是目前国际上较前沿的一套社会科学数据分析的理论和方法,优势体现两个方面:一是解决了数据嵌套问题;二是为追踪研究或重复测量研究引入了新方法。 传统的线性模型,例如,ANOV A或者回归分析,只能对涉及某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析,而多层线性模型对解决这些问题提供了有效的统计方法。多层线性模型的参数估计方法与进行两次回归的方法在概念上是相似的, 但二者的统计估计和验证方法却是不同的, 并且多层线性模型的参数估计方法更为稳定。因此多层模型的应用范围也相当广泛,与传统的用于处理多元重复测量数据的方法相比,该模型具有对数据资料要求低、能够明确表示个体在第一层次的变化情况、可以通过定义第一层次和第二层次的随机变异解释个体随时间的复杂变化情况、可以考虑更高一层次的变量对于个体增长的影响等特点。 多层线性模型( multilevel model ) 由Lindley 等于1972 年提出,是用于分析具有嵌套结构数据的一种统计分析技术。作为传统方差分析模型的有效扩展Korendijk 等和Duncan 等众多的研究者对多层线性模型进行了广泛研究。20 多年来,该方法在社会科学领域获得了广泛应用。近年来,有研究者提出使用多层线性模型进行面板研究,并且已在社会科学领域取得较大进展。 面板研究中多层线性模型的应用优势: 由上述分析可知,在面板研究中,传统的数据分析方法会遇到很多难以克服的困难,而多层线性模型可以很好地处理上述问题。近年来,越来越多的面板研究开始采用多层线性模型的分析方法,显示出多层线性模型在面板研究中的独特优势。 首先,多层线性模型通过考察个体水平在不同时间点的差异,明确表达出个体在层次一的变化情况,因而对于数据的解释(个体随时间的增长趋势)是在个体与重复观测交互作用基础上的解释,即不仅包含不同观测时点的差异,也包含个体之间存在的差异。 其次,多层线性模型可在最大似然或限制性最大似然估计的基础上处理缺失

多层线性模型的解读:原理与应用

多层线性模型的解读:原理与应用 浙江师范大学心理研究所陈海德 Chenhaide351@https://www.doczj.com/doc/464808500.html, 一、多层数据结构的普遍性 多水平、多层次的数据结构普遍存在,如学生嵌套于班级,班级有嵌套与学校。 传统的线性模型,如方差分析和回归分析,只能涉及一层数据的问题进行分析,不能综合多层数据问题。在实际研究中,更令人感兴趣的是学生一层的变量与班级一层的变量之间的交互作用,比如,学生之间的个体差异在不同班级之间可能是相同的、也可能是不同的。学生数据层中,不同变量之间的关系可能因班级的不同而不同。因此,学生层的差异可以解释为班级层的变量。 另一种类型的两层嵌套数据来自纵向研究数据,不同时间观测数据形成了数据结构的第一层,而被试之间的个体差异形成了第二层。可以探索个体在发展趋势上的差异。 二、传统技术处理多层数据结构的局限 如果把变量分解到个体水平,在个体水平上分析。但是我们知道这些学生是来自同一班级的,不符合观察独立原则。导致个体间随机误差相互独立的假设不能满足。 如果把个体变量集中到较高水平,在较高水平上进行分析。这样丢弃了组内信息,而组内变异可能占了大部分。 三、原理 ☆水平1(学生)的模型与传统的回归模型类似,所不同的是回归方程的截距和斜率不再是一个常数,而是水平2变量水平不同(不同的班级),其回归方程的截距和斜率也不同的,是一个随机变量。如,每个班级的回归方程的截距和斜率都直接依赖于班级教师教学方法。 ☆多层线性模型分为“随机截距模型”和“随机截距和随机斜率模型”。“随机截距模型”假定因变量的截距随着群体的不同而不同,但各群体的回归斜率是固定,因此不同层次因素之间缺乏互动。“随机截距和随机斜率模型”假定截距和回归斜率都因群体而异,允许不同层次因素之间的互动。 参数估计方法有:迭代广义最小二乘法、限制性的广义最小二乘估计、马尔科夫链蒙特卡罗法。这些方法代替了传统的最小二乘法估计,更为稳定和精确。比如,当第二层的某单位只有少量的被试,或不同组样本量不同时,多层线性模型进行了加权估计、迭代计算。 四、应用 1 用于类似组织管理、学校教育等具有多层数据结构的领域研究。 2 用于个体重复测量数据的追踪研究。测量层面作为第一水平,个体层面作为第二水平 3 用于做文献综述,即对众多研究成果进行定量综合。探讨不同研究中进行的处理、研究方法、被试特征和背景上的差异与效应之间的关系。 4 充分利用多层模型较为高级的统计估计方法来改善单层回归的估计和分析。 五、优势 1 由于多层线性模型建立在更合理的假设之上,考虑到了来自不同层次的随机误差和变量信息,因此能提供更加准确的标准误估计、更有效的区间估计和假设检验。 2 多层线性模型可以计算任何水平上测量的协方差,如可以通过计算不同水平变异在总变异中占的比率来确定不同水平对因变量的影响程度,例如研究者可以探讨班级和学生的其他特征对因变量变异的作用到底有多大。还可以分析不同水平上变量之间的交互作用。 3 可以发现所得回归方程中,截距和斜率之间的相关关系,以便更好地解释自变量和因变量之间变化的规律。

多层线性模型的解读:原理与应用

多层线性模型的解读:原理与应用 多层线性模型的解读:原理与应用浙江师范大学心理研究所陈海德Chenhaide351@ 一、多层数据结构的普遍性多水平、多层次的数据结构普遍存在,如学生嵌套于班级,班级有嵌套与学校。传统的线性模型,如方差分析和回归分析,只能涉及一层数据的问题进行分析,不能综合多层数据问题。在实际研究中,更令人感兴趣的是学生一层的变量与班级一层的变量之间的交互作用,比如,学生之间的个体差异在不同班级之间可能是相同的、也可能是不同的。学生数据层中,不同变量之间的关系可能因班级的不同而不同。因此,学生层的差异可以解释为班级层的变量。另一种类型的两层嵌套数据来自纵向研究数据,不同时间观测数据形成了数据结构的第一层,而被试之间的个体差异形成

了第二层。可以探索个体在发展趋势上的差异。二、传统技术处理多层数据结构的局限如果把变量分解到个体水平,在个体水平上分析。但是我们知道这些学生是来自同一班级的,不符合观察独立原则。导致个体间随机误差相互独立的假设不能满足。如果把个体变量集中到较高水平,在较高水平上进行分析。这样丢弃了组内信息,而组内变异可能占了大部分。三、原理☆水平1的模型与传统的回归模型类似,所不同的是回归方程的截距和斜率不再是一个常数,而是水平2变量水平不同,其回归方程的截距和斜率也不同的,是一个随机变量。如,每个班级的回归方程的截距和斜率都直接依赖于班级教师教学方法。☆多层线性模型分为“随机截距模型”和“随机截距和随机斜率模型”。“随机截距模型”假定因变量的截距随着群体的不同而不同,但各群体的回归斜率是固定,因此不同层次因素之间缺乏互动。“随机截距和随机斜率模

HLM多层线性模型讲义

R-practice session 7 CS&SS 560 Marijtje van Duijn Winter 2006 The commands used in this session are available as R syntax file (Session7.R) at the website. Data input and preparation We continue with the data used in Snijders & Bosker. For a description see Example 4.1 (p. 46). Download the data file SBbookR2.csv from the class website. Also get the file session7.r and execute the commands under data preparation (also used in practice session 4). Modeling heteroscedasticity at level 1 We will first estimate the models as specified in table 8.1. >model8.11ML<-lme(testscore~ IQc+sesc+gender+meanIQc, random=~1+IQc| +schoolNR, data= datasb7,method="ML") >model8.12ML<-lme(testscore~ IQc+sesc+gender+meanIQc, random = ~1+IQc| +schoolNR, data=datasb7, weights=varIdent(form=~1|gender), method="ML") Although it is immediately clear that the second model in table 8.1 is not an improvement of the first model: >anova(model8.12ML,model8.11ML) we will check that it is the exact same model, although differently parameterized. For almost all of the variance components this is clear from >VarCorr(model8.12ML) and remember that the covariance between the intercept and the IQ slope variance can be computed by multiplying the reported correlation by the standard deviations. We now have to check that the -1.21 covariance of the gender effect is retrieved in the lme model calculation. The estimated variance for girls is 36.30 (38.72- 2*1.21) from table 8.1 This number is obtained in our analysis by multiplying 38.72 by 0.968^2. Check that this indeed correct. Note that the weights command does not work with lmer(). I?m pretty sure it must be possible to specify an equivalent model, but I have not found out how (yet).

多层线性分析模型

多层线性分析模型: 集体层面结构的类型: 集体层面结构的类型是很重要的,因为结构的类型体现了结构的性质,而结构的性质会影响其组合方式和测量方法。Kozlowski和Klein(2000)[2]认为,集体层面的结构可分为3种:整体(global)结构、共享(shared)结构和生成(configural)结构。 整体结构是那些相对客观的、容易观察到的、源自于集体层面的集体的特征。整体结构没有低层面的对应物,所以它不依赖于个体的知觉、经验、行为或个体的交互作用而存在。团队大小就是一个整体结构,它不依赖于个体的特点和交互作用,但它会影响团队内成员的工作。(我认为如“团队绩效”这种整体变量就属于这种类型,属于直接测量)共享结构是集体成员的共享(共同具有的)特征,只有当集体内的个体共享相似知觉时它才存在。共享结构来自于集体成员个体的经验、认知和行为,并且在集体成员中发挥某种作用。共享结构假设结构在不同层面上的有相似的表现,在不同层面上有相似的内容、意义和结构,是以突现(emergence)中的“组合”(composition)方式结合而成的。James等(1974)就认为,个体可以产生对环境的知觉以形成某种心理气氛,但只有当这些知觉被共享时才会形成某种组织气氛。因此,当研究者探讨共享结构时,需要阐明个体特征的组内一致性或可信性,以及集体成员之间的交互作用过程。(本人认为我们课题同属于这种心理感知,个体层面属于个人心理感知,集体层面属于团队成员的一致感知。属于团队层面和个体层面在测量结构上相似,我认为我们课题的研究应该采用此种结构。) 生成结构则描绘了集体中个体特征的排列方式或组合模式。尽管生成结构(configural)与共享结构一样也产生于个体特征,但不同的是生成结构并没有假设集体中个体成员之间的相似性结合,个体在生成结构中的地位和作用是不同的。共享结构假设单位成员有某种相似知觉,而生成结构中个体的特征却不是同质的,它体现了个体特征在集体层面上的另一种结合方式:个体特征以间断、复杂而非线形的突现中的“合成”(compilation)方式结合为集体特征。因此,生成结构在不同层面的组织上存在质的不同,但功能是等同的。如,一个足球队中每个队员承担不同的角色,从而产生了整个团队的绩效这种与每个队员绩效不同的概念。有两种类型的生成结构:描述性(descriptive)结构和潜在(latent)结构;描述性生成结构是那些外显的、可观察到的特征(如集体的性别多样性);而潜在的生成结构则是指那些假设的、无法观察到的集体特征(如集体的价值观念)。当研究者研究生成结构时,他们需要深入说明的是:不同功能的个体是如何聚合成为集体现象,以及不同个体在集体结构中的地位是什么。(属于集体层面和个人层面测量结构不相似的类型)。 整体结构是一个层面上的现象。而共享结构和生成结构则来自于低层面,但却在高层面上体现。共享结构和生成结构来自于集体成员的特征、行为或认知,而成员的这些特征的交互作用形成了集体层面的结构。共享结构和生成结构代表了跨层面的集体特征;共享结构在各个层面上的功能和组织都是相似的;而生成结构在各个层面上的功能是等价的,但组织上却是不同的。 个体层面上的变量如何构成集体层面上的结构: Chan(1998)[7]总结了5种构成模型: 相加模型(additive)(即个体元素之和或平均数)、 直接一致模型(direct consensus)(直接一致模型取决于组内的一致性,因为只有存在一致性,集体结构才会存在。作为气氛来讲,尽管个体会产生对工作环境的心理解释,但这些知觉如果不被共享和认可的话也不会成为组织气氛。所以这时应该计算组内一致性以便验证组织气氛的存在。本研究采用的方法)、

Practice session3HLM多层线性模型讲义

R-practice session 3 CS&SS 560 Marijtje van Duijn Winter 2006 The commands used in this session are available as R syntax file (Session3.R) at the website. Data input and preparation We continue with the data used in Snijders & Bosker. For a description see Example 4.1 (p. 46). The data are the same as in the previous session, except for the treatment of the variable IQc. This variable is the grandmean centered IQ. Then the same procedure is followed as before, resulting in two variables, a centered and an uncentered one, measuring IQ in deviation to its school mean Go the file practice session3.r and execute the commands under data preparation. One other new variable will be produced, called z2, that is the deviation of the (school variable) groupsize with respect to the overall mean groupsize (equal to 23.1, approximately). Note that the groupsize can be larger than the number of students per school in the dataset due to …missing? pupils. Comparing (nested) models and estimating a random slope model Make sure the library nlme is attached. First we will give a command to format the output a little nicer, restricting the number of decimal places. >options(digits=5) This seems to be the best choice, although R does not always “obey” this command. If you like, play around a bit with other choices for the number of digits. In the same options command you can decide to turn of the use of stars to signal significance – in the eyes of many statisticians a despicable practice >options(show.signif.stars=FALSE) We will first estimate the models from Tables 4.2, 4.4, and 4.5 again. Check that we are now reproducing the output in the tables, and look at the …funny? p-values. >model.4.2<-lme(testscore~1+IQc, data=datasb, random=~1|schoolNR, +method="ML") >summary(model.4.2) >VarCorr(model.4.2) >model.4.4<-lme(testscore~1+IQc+meanIQc, data=datasb, +random=~1|schoolNR, method="ML")

相关主题
文本预览
相关文档 最新文档