多层线性模型作业--
- 格式:doc
- 大小:177.50 KB
- 文档页数:8
(完整版)多层线性模型介绍多层线性模型:HLM(hierarchical linear model)计量模型,为解决传统统计方法如回归分析在处理多层嵌套数据时的局限而产生的,是目前国际上较前沿的一套社会科学数据分析的理论和方法,优势体现两个方面:一是解决了数据嵌套问题;二是为追踪研究或重复测量研究引入了新方法。
传统的线性模型,例如,ANOV A或者回归分析,只能对涉及某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析,而多层线性模型对解决这些问题提供了有效的统计方法。
多层线性模型的参数估计方法与进行两次回归的方法在概念上是相似的, 但二者的统计估计和验证方法却是不同的, 并且多层线性模型的参数估计方法更为稳定。
因此多层模型的应用范围也相当广泛,与传统的用于处理多元重复测量数据的方法相比,该模型具有对数据资料要求低、能够明确表示个体在第一层次的变化情况、可以通过定义第一层次和第二层次的随机变异解释个体随时间的复杂变化情况、可以考虑更高一层次的变量对于个体增长的影响等特点。
多层线性模型( multilevel model ) 由Lindley 等于1972 年提出,是用于分析具有嵌套结构数据的一种统计分析技术。
作为传统方差分析模型的有效扩展Korendijk 等和Duncan 等众多的研究者对多层线性模型进行了广泛研究。
20 多年来,该方法在社会科学领域获得了广泛应用。
近年来,有研究者提出使用多层线性模型进行面板研究,并且已在社会科学领域取得较大进展。
面板研究中多层线性模型的应用优势:由上述分析可知,在面板研究中,传统的数据分析方法会遇到很多难以克服的困难,而多层线性模型可以很好地处理上述问题。
近年来,越来越多的面板研究开始采用多层线性模型的分析方法,显示出多层线性模型在面板研究中的独特优势。
首先,多层线性模型通过考察个体水平在不同时间点的差异,明确表达出个体在层次一的变化情况,因而对于数据的解释(个体随时间的增长趋势)是在个体与重复观测交互作用基础上的解释,即不仅包含不同观测时点的差异,也包含个体之间存在的差异。
多层线性分析模型:集体层面结构的类型:集体层面结构的类型是很重要的,因为结构的类型体现了结构的性质,而结构的性质会影响其组合方式和测量方法。
Kozlowski和Klein(2000)[2]认为,集体层面的结构可分为3种:整体(global)结构、共享(shared)结构和生成(configural)结构。
整体结构是那些相对客观的、容易观察到的、源自于集体层面的集体的特征。
整体结构没有低层面的对应物,所以它不依赖于个体的知觉、经验、行为或个体的交互作用而存在。
团队大小就是一个整体结构,它不依赖于个体的特点和交互作用,但它会影响团队内成员的工作。
(我认为如“团队绩效”这种整体变量就属于这种类型,属于直接测量)共享结构是集体成员的共享(共同具有的)特征,只有当集体内的个体共享相似知觉时它才存在。
共享结构来自于集体成员个体的经验、认知和行为,并且在集体成员中发挥某种作用。
共享结构假设结构在不同层面上的有相似的表现,在不同层面上有相似的内容、意义和结构,是以突现(emergence)中的“组合”(composition)方式结合而成的。
James等(1974)就认为,个体可以产生对环境的知觉以形成某种心理气氛,但只有当这些知觉被共享时才会形成某种组织气氛。
因此,当研究者探讨共享结构时,需要阐明个体特征的组内一致性或可信性,以及集体成员之间的交互作用过程。
(本人认为我们课题同属于这种心理感知,个体层面属于个人心理感知,集体层面属于团队成员的一致感知。
属于团队层面和个体层面在测量结构上相似,我认为我们课题的研究应该采用此种结构。
)生成结构则描绘了集体中个体特征的排列方式或组合模式。
尽管生成结构(configural)与共享结构一样也产生于个体特征,但不同的是生成结构并没有假设集体中个体成员之间的相似性结合,个体在生成结构中的地位和作用是不同的。
共享结构假设单位成员有某种相似知觉,而生成结构中个体的特征却不是同质的,它体现了个体特征在集体层面上的另一种结合方式:个体特征以间断、复杂而非线形的突现中的“合成”(compilation)方式结合为集体特征。
HLM多层线性模型教程HLM(Hierarchical Linear Modeling)是一种多层线性模型,常用于分析层级结构的数据。
相比于传统的线性模型,HLM能够更好地处理多层数据的结构,并考虑到不同层级之间的相关性。
HLM模型由两个部分组成:固定效应和随机效应。
固定效应表示不同的自变量对因变量的影响,而随机效应则表示不同层级之间的方差和协方差。
通过区分这两种效应,HLM能够更准确地估计模型参数。
首先,我们来看一下HLM的基本模型。
假设我们有一个层级结构的数据集,其中个体(比如学生)位于组(比如班级)之中。
我们可以建立以下的多层线性模型:Level 1: Y = β0 + β1*X + rLevel 2: β0 = γ00 + u0β1=γ10+u1在Level 1中,Y表示因变量(比如学生成绩),X表示一个或多个自变量(比如学生的背景信息),β0和β1表示固定效应,r表示误差项。
在Level 2中,β0和β1被分解为γ00和γ10(固定效应)以及u0和u1(随机效应)。
通过HLM模型,我们可以估计出固定效应和随机效应的值。
HLM模型的建模过程主要包括以下几个步骤:1.数据准备:将多层数据按照层级结构整理,确保每个样本都有相应的层级信息。
2.模型设定:根据研究问题和数据特点,确定模型的层级结构、因变量、自变量以及需要考虑的随机效应。
3. 模型估计:使用统计软件(如HLM软件)进行模型估计。
HLM模型的估计通常使用迭代加权最小二乘(Iterative Weighted Least Squares, IWLS)方法。
4.参数解释和效应分析:根据估计结果,解释固定效应和随机效应的含义,并进行效应分析。
在解释HLM模型的结果时,需要特别注意几点。
首先,固定效应代表在不同层级上,自变量对因变量的影响。
例如,在学生的层级上,自变量X对学生成绩Y的影响是β1、其次,随机效应代表不同层级之间的方差和协方差。
HLM多层线性模型教程:[1]认识多层线性模型••|•浏览:111•|•更新:2014-03-01 09:431.在社会科学研究进行取样时,样本往往来自于不同的层级和单位,由此得到的数据带来了很多跨级(多层)。
多层线性模型又叫做“多层分析(multilevel analysis)”或者是“分层线性模型(hierarchical liner modeling)”。
2.在社会科学中,多层线性的结构非常具有普遍性,如以下图列出四种常见的情况3.拿两层举例子,假如说现在我们考察学生自我效能感对学生成绩的影响,在204.所学校中抽取了1000名学生,那么很有可能的情况就是有些学校学生的自我效能感平均值较高,而这就有可能是因为学校为贵族学校,学生的经济水平很高。
而也可能有民工学校,经济水平较低,自我效能感普遍较低。
那么这就存在一种情况就是学生的成绩受到学生个体的自我效能感影响,而每个学校的自我效能感可能与整个学校的整体经济水平有关。
那么这就是学生嵌套在学校之间的例子。
5.多层线性模型的基本公式6.拿上面的例子我们可以写出对于这个案例的多层线性模型。
第一层:学生成绩=β0+β1*学生自我效能感+r第二层:β0=γ00+γ01*学校社会经济生活水平+μ1β1=γ10+γ11*学校社会经济生活水平+μ27.那么对于这样一类的多层线性的数据,我们该如何进行数据处理呢,小编将持续为大家呈现与讲解。
原delta数据工作室HLM多层线性模型教程:[3]认识HLM6.0界面••|•浏览:186•|•更新:2014-03-04 09:44•••••••分步阅读采用HLM6.0分析多层线性模型能够非常直观的建立方程式,每层变量清晰明了,使用界面友好简洁。
下面我将为大家介绍HLM 6.0的主界面,并告诉大家各界面的主要功能。
工具/原料•HLM6.0方法/步骤1.我们打开HLM的主界面,最上面的工具栏就是我们用到的主要菜单,首先file下面我们可以创建新的hlm/mdtm文件(hlm中最重要的文件),如以下图,假如我们已经建立好了HLM的MDM文件,那么我们在下次打开的时候需要选择"make new mdm from old mdm files",HLM不能直接打开之前的文件,可以从之前的MDM文件中运行。
多层线性模型摘要在社会科学研究中,调查得来的数据往往具有层次结构(嵌套结构)的特点。
在层次结构数据中,不仅有描述个体的变量,而且有个体组成的更高一层的变量。
如研究学生的学术成绩,要考虑学生的社会经济地位(SES)即个体水平的变量,同时可能还要考虑不同学校间学生/老师比例的差异对学生学术成绩的影响也就是学校层次的预测变量。
这种数据带来了很多跨级(多层)的研究问题,为了解决这些问题,出现了一种新的数据分析方法——多层线性模型。
本文第一部分介绍多层线性模型以及多层模型的类型。
第二部分传统统计技术的局限性及多层线性模型的优势。
第三部分说明多层线性模型的基本原理以及两个应用(直接来自篇文献)。
第四部分是总结和拓展。
1、多层线性模型以及多层模型的类型多水平、多层次的数据结构普遍存在,如学生嵌套于班级,班级有嵌套与学校。
传统的线性模型,如方差分析和回归分析,只能涉及一层数据的问题进行分析,不能综合多层数据问题。
在实际研究中,更令人感兴趣的是学生一层的变量与班级一层的变量之间的交互作用,比如,学生之间的个体差异在不同班级之间可能是相同的、也可能是不同的。
学生数据层中,不同变量之间的关系可能因班级的不同而不同。
因此,学生层的差异可以解释为班级层的变量。
另一种类型的两层嵌套数据来自纵向研究数据,多层(多水平)数据指的是观测数据在单位上具有嵌套的关系。
比如在教育研究中,学生镶嵌于班级,在此,学生代表了数据结构的第一层,而班级代表了数据结构的第二层。
对于第一层的学生数据,研究者可以提出一系列的研究问题,也可以针对第二层的班级又提出一系列的研究问题。
在教育研究中,更为重要和令人感兴趣的正是关于学生层的变量与班级层变量之间的交互作用问题。
比如,学生之间的个体差异在不同班级之间可能是相同的,也可能是不同的;在学生层数据中,不同变量之间的关系也可能因班级的不同而不同,这些学生层的差异可以解释为班级层的变量的函数。
多层线性模型由Lindley等于1972年提出,是用于分析具有嵌套结构数据的一种统计分析技术。
作为传统方差分析模型的有效拓展。
20多年来,该方法在社会科学领域获得了广泛应用。
多层线性模型又称分层线性模型或多水平模型,当数据存在于不同层级时,先以第一层级的变量建立回归方程,然后把该方程中的截距和斜率作为因变量,使用第二层数据中的变量作为自变量,再建立两个新的方程。
通过这种处理,可以探索不同层面变量对因变量的影响。
由于它把第一层回归方程中的截距和斜率作为第二层回归方程中的随机变量,所以这种做法也被称作“回归的回归”。
接下来将简要地说明在多层次的研究中,已经被广泛使用过的多层次模型。
(1)跨层次直接效果模型是检测在较低层次(如个人层次)的结果变量上,较高层次(如单位层次)白变量的主效果,或同时分析较高层次与较低层次的主效果,Hall(1994)称之为混合因子模型。
例如,Siebert,Silver发现,团队层次的授权气氛(team-1evel empowerment climate)与员工层次的心理授权相关,且心理授权中介于团队层次的授权气氛与个人层次的工作满意度及工作绩效。
(2)跨层次调节模型是检测两个较低层次构念之间的关系如何校较高层次的构念调节,或是检测较高层次的构念与较低层次的结果变量之间的关系如何被另一个较低层次的构念调节。
例如,Hofmann,Morgeson和Gerras(2003)检验了团队层次的安全气氛对个人层次的领导者部属交换与员工的安全公民角色定义之间关系的调节效果,结果发现,当正面的安全气氛存在时,领导者部届交换与安全公民角色定义之间的相关性更高。
(3)跨层次青蛙池塘模型是说明较低层次的个人在较高次中的相对位置对较低层次的结果变量有何影响。
同样的一只青蛙,假若池塘很大,这只青蛙看起来可能会很小;若池塘很小,这只青蛙看起来就可能很大。
例如,假设我们要检测薪的高低与工作满意度之间的关系,个人的工作满意度可能就会取决于其相对于群体中同事平均薪资水准。
(4)一致的多层次模型是说明构念以及连接构念问的关系是可被概化到不同组织的实休上的。
在这种模型中,两个或两个以上变量之间的关系能同时存在于个人、群体及组织等多个层次中。
Wiechmann(2004)检验一个多重目标绩效模型在个人和团队层次上的一致性,结果发现79%的假设在个人与团队层次皆成立,支持他们所提出的关系可同时存在于不同层次的多层次模型。
2、传统统计技术的局限性及多层线性模型的优势牵扯到两层数据或者三层数据时就不能用传统的统计方法来解决了。
因为传统的统计技术在以下三个方面存在着局限性:第一个是方差齐性和随机误差独立性假设问题。
传统线性模型的基本假设是线性、正态、方差齐性及独立性,后两条假设在嵌套性的取样中往往不能成立。
因为同组的个体比不同组的个体之间更加接近和相似;而且不同组的抽样可能是独立的,但是同组内的抽样在很多变量上可能取值相似。
在关于发展趋势的纵向研究中,因变量随时间的推移而发生有规律的增减变化,方差也容易发生相应的增减,使方差齐性假设受到威胁。
在上述情况下,采用传统统计技术可能导致不合理的、甚至是错误的结论。
但是多层线性模型不要求研究对象个体内观测值相互独立,也不受限制性假设的制约。
第二个是缺失值和测量间隔不一致的问题。
比如在纵向研究中,需要对同一观测对象做多次追踪观测,那么很容易出现样本的流逝。
传统的统计手段是删除存在缺失值的观测对象或对缺失值进行拟合,前者会造成信息的浪费,后者会降低研究的精确程度而多层相性模型允许确实值得存在,在建立第一层回归模型时能够最大程度的利用现有样本的信息。
另外,传统的统计技术还要求所有被观测对象在相同的时间间隔接受观测,在操作上有很多限制。
多层相性模型不但允许不同时间间隔的测量,还允许不同观测对象采用不同的观测时间表,使研究者有了更大的便利和灵活性。
第三个是处理研究假设的问题。
传统统计手段的功能主要局限于比较各次观测结果间差异的显著性或前期观测结果对后期观测结果的预测成都,而多层线性模型允许研究者在不同数据层面上提出不同假设。
例如是否存在着显著的增长或下降趋势?不同类型个体的变化速率是否一致?哪些因素可以预测不同类型个体在变化速率上的差异?不同类型个体在变化速率上的差异是否得到了足够的解释等等,还可以建立多个发展模型,通过拟合度检验选出最吻合观测数据的理论假设。
基于以上嵌套数据的特点和传统统计技术的局限性,诞生了多层线性模型,它是目前国际上较前沿的一套社会科学数据分析的理论和方法。
3、多层线性模型的基本原理及应用举例3.1多层线性模型原理通过定义不同水平(层)的模型,将随机变异分解为两个部分,其一是第一水平个体间差异带来的误差,另一个是第二水平班级的差异带来的误差。
可以假设第一水平个体间的测量误差相互独立,第二水平班级带来的误差在不同班级之间相互独立。
多水平分析法同时考虑到不同水平的变异。
他的基本形式包括三个公式:(1)Y ij=β0j+β1j X ij+εij(2)β0j=γ00+γ01W1j+μoj(3)β1j=γ10+γ11 W1jμ1j下标“0”表示截距,下标“1”表示斜率。
β0j表示与第二层单位j有关的第一层的截矩。
γ00表示截矩,所有第二层单位的总体平均数。
γ01表示回归斜率。
W1j表示第二层第一个预测变量。
μoj表示残差或随机项。
β1j表示与第二层单位j有关的第一层的斜率。
γ10表示截矩,所有第二层单位在第一层的斜率的总体平均数。
γ11表示回归斜率。
μ1j表示残差或随机项。
有时研究者只是感兴趣于把方程分解为有个体差异造成的部分和有组间差异造成的部分。
这时,使用这种在第一层和第二层都没有预测变量的零模型就够了。
通过零模型,我们可以确定Y中的总体变异有多大比例是由于第二层或者是说组间差异造成的,就要计算一个跨级相关(ICC):组间方差/(组间方差+组内方差)。
当icc很小时,群体平均数就必须以多个群体成员的回答来估计。
另外,HLM亦可使用卡方检验来检测组间方差时候具有统计上的显著性。
研究中的有些问题不一定要用到多层线性模型,那么我们怎样来判断呢?这时我们可以先构建一个零模型,运用方差成分分析,当组间方差具有统计上的显著性时,即将个别聚合到群体是可行的,说明有必要使用多层线性模型。
那么这时说明需要在模型中加入新的变量来解释这种显著性的差异。
这时我们往第一层中加入新的预测变量,这就是随机效应模型,如果这时通过卡方检验发现第二层的残差μoj和μ1j比较显著,则表示在第二次层可能存在群体层次的因子。
那么我们继续往模型中加入新的变量。
这时我们往第二层加入预测变量,这就是完整模型。
完整模型解释了Y的总体变异是怎样受第一层和第二层的因素影响的。
3.2应用举例一层线性模型在横断面研究和纵向研究中都有应用,下面以纵向研究中的一个应用为例:为探索一种新药物对自闭症儿童的治疗作用,对120名自闭症儿童进行了研究,其中64名儿童未接受药物治疗,56名儿童接受了药物治疗。
以自闭症儿童适应功能测验0得分为观测指标对上述儿童进行了4次追踪,每次追踪间隔5个月,以反映自闭症儿童适应能力的改善情况。
研究者期望了解药物治疗的作用以及治疗开始前的症状严重程度对疗效的影响。
这里,每次追踪间隔五个月下的适应功能测验得分为第一层数据,以不依时间变化的个体特征或所接受的处理为第二层数据(治疗方法和治疗前症状严重程度)。
首先建立两个spss的数据文件,利用hlm5软件生成数据结构。
然后建立随机效应模型。
在这个模型的第二层方程中不包含任何自变量,因为此处我们的着眼点是仅仅确定第二层的变异。
所以该模型的作用是描述全体观测对象的变化趋势,并就是否需要进一步引入第二层解释变量作出决定。
第一层的方程是: 适应功能测验分数=β0+β1 (观测时间)+ε第二层的方程是:β0=γ00+μ0β1=γ10+μ 1第一层方程中“β0”是方程的截距,其含义是最后一次适应功能测验的平均分。
“β1”是回归系数,其含义是适应功能得分的变化速率。
“观测时间”表示自变量,ε代表残差,表示测量值Y(适应功能得分)不能被自变量X(观测时间)所解释的部分。
在SPSS数据文件中,对于/测量时间0变量,分别用-3,-2, -1,0代表四次测量,这样做的目的是令方程(5)的截距B0正好等于最后一次适应功能测验的平均分。
经过HLM5软件进行参数估计,结果见表1:结果表示最近一次测量中所有儿童的适应功能平均分数是13.28。
每隔5个月,自闭症儿童的适应功能分数平均增长1.53分,T检验结果说明增长趋势显著。
方程(6)(7)中的残差变异都显著,说明无论是当前适应功能得分还是变化速率,都存在较大的个体间差异,需要引入第二层变量才能得到更好的解释。