多层线性模型介绍
- 格式:docx
- 大小:17.24 KB
- 文档页数:3
hlm模型的概念和原理
HLM模型(Hierarchical Linear Model,分层线性模型)是一种用于分析多层数据结构的统计方法,可以用于研究个体差异、群体差异以及群体与个体相互作用等方面的问题。
在社会科学、心理学、医学等领域得到广泛应用。
HLM的原理是基于线性模型的,但它将数据分为多个层次,并对每个层次的变量进行单独分析和建模。
HLM可以解决一些传统线性模型无法解决的问题,例如在研究个体差异时,传统线性模型只能考虑个体内差异,而HLM可以同时考虑个体内和个体间的差异。
在具体实现上,HLM模型涉及到两个重要的专业术语,分别是‘固定效应’和‘随机效应’。
固定效应是指做HLM模型时,不涉及group 干扰时的影响关系研究;随机效应可指在group层面时的影响关系情况。
如果完全不考虑group,即不考虑‘聚集性’问题,那么直接使用线性回归即可,并不需要使用HLM模型;而HLM模型就是处理‘聚集性’问题的一种进阶方法。
如果说使用HLM模型,并且在分析时只考虑个体效应不需要考虑group层面的效应,即只有固定效应项并无随机效应项;如果说使用HLM模型,并且在分析时考虑个体效应的同时还考虑group层面的效应,即包括固定效应项和随机效应项。
多层线性模型:HLM(hierarchical linear model)计量模型,为解决传统统计方法如回归分析在处理多层嵌套数据时的局限而产生的,是目前国际上较前沿的一套社会科学数据分析的理论和方法,优势体现两个方面:一是解决了数据嵌套问题;二是为追踪研究或重复测量研究引入了新方法。
传统的线性模型,例如,ANOV A或者回归分析,只能对涉及某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析,而多层线性模型对解决这些问题提供了有效的统计方法。
多层线性模型的参数估计方法与进行两次回归的方法在概念上是相似的, 但二者的统计估计和验证方法却是不同的, 并且多层线性模型的参数估计方法更为稳定。
因此多层模型的应用范围也相当广泛,与传统的用于处理多元重复测量数据的方法相比,该模型具有对数据资料要求低、能够明确表示个体在第一层次的变化情况、可以通过定义第一层次和第二层次的随机变异解释个体随时间的复杂变化情况、可以考虑更高一层次的变量对于个体增长的影响等特点。
多层线性模型( multilevel model ) 由Lindley 等于1972 年提出,是用于分析具有嵌套结构数据的一种统计分析技术。
作为传统方差分析模型的有效扩展Korendijk 等和Duncan 等众多的研究者对多层线性模型进行了广泛研究。
20 多年来,该方法在社会科学领域获得了广泛应用。
近年来,有研究者提出使用多层线性模型进行面板研究,并且已在社会科学领域取得较大进展。
面板研究中多层线性模型的应用优势:由上述分析可知,在面板研究中,传统的数据分析方法会遇到很多难以克服的困难,而多层线性模型可以很好地处理上述问题。
近年来,越来越多的面板研究开始采用多层线性模型的分析方法,显示出多层线性模型在面板研究中的独特优势。
首先,多层线性模型通过考察个体水平在不同时间点的差异,明确表达出个体在层次一的变化情况,因而对于数据的解释(个体随时间的增长趋势)是在个体与重复观测交互作用基础上的解释,即不仅包含不同观测时点的差异,也包含个体之间存在的差异。
(完整版)多层线性模型介绍多层线性模型:HLM(hierarchical linear model)计量模型,为解决传统统计方法如回归分析在处理多层嵌套数据时的局限而产生的,是目前国际上较前沿的一套社会科学数据分析的理论和方法,优势体现两个方面:一是解决了数据嵌套问题;二是为追踪研究或重复测量研究引入了新方法。
传统的线性模型,例如,ANOV A或者回归分析,只能对涉及某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析,而多层线性模型对解决这些问题提供了有效的统计方法。
多层线性模型的参数估计方法与进行两次回归的方法在概念上是相似的, 但二者的统计估计和验证方法却是不同的, 并且多层线性模型的参数估计方法更为稳定。
因此多层模型的应用范围也相当广泛,与传统的用于处理多元重复测量数据的方法相比,该模型具有对数据资料要求低、能够明确表示个体在第一层次的变化情况、可以通过定义第一层次和第二层次的随机变异解释个体随时间的复杂变化情况、可以考虑更高一层次的变量对于个体增长的影响等特点。
多层线性模型( multilevel model ) 由Lindley 等于1972 年提出,是用于分析具有嵌套结构数据的一种统计分析技术。
作为传统方差分析模型的有效扩展Korendijk 等和Duncan 等众多的研究者对多层线性模型进行了广泛研究。
20 多年来,该方法在社会科学领域获得了广泛应用。
近年来,有研究者提出使用多层线性模型进行面板研究,并且已在社会科学领域取得较大进展。
面板研究中多层线性模型的应用优势:由上述分析可知,在面板研究中,传统的数据分析方法会遇到很多难以克服的困难,而多层线性模型可以很好地处理上述问题。
近年来,越来越多的面板研究开始采用多层线性模型的分析方法,显示出多层线性模型在面板研究中的独特优势。
首先,多层线性模型通过考察个体水平在不同时间点的差异,明确表达出个体在层次一的变化情况,因而对于数据的解释(个体随时间的增长趋势)是在个体与重复观测交互作用基础上的解释,即不仅包含不同观测时点的差异,也包含个体之间存在的差异。
统计学中的多层次建模与分析方法多层次建模与分析是统计学中一个重要的研究领域,它主要用于处理多层次数据,也称为分层数据或层次化数据。
在许多实际问题中,我们会遇到数据存在多层次结构的情况,例如学生在班级中,班级在学校中,学校在地区中的成绩评估,或者员工在部门中,部门在公司中的工作绩效评估等。
在这些情况下,单纯使用传统的单层次统计方法可能无法充分考虑到多层次数据的特点和关系,因此需要使用多层次建模与分析方法来进行研究和分析。
多层次建模与分析方法的基本原理是将数据划分为不同层次,在每个层次上建立适当的模型,并且通过层次之间的联系来推断和解释结果。
下面将介绍一些常用的多层次建模与分析方法。
1. 多层线性模型(Multilevel Linear Models,简称MLM):MLM是多层次分析中最常用的方法之一。
它基于随机效应模型,将观测单元(个体)分类为不同的层次,并通过考虑层次之间的方差和协方差关系来建模。
MLM可以用于解释和预测层次性数据,例如测量学生的成绩差异时,可以考虑班级和学校的影响。
2. 多层Logistic回归模型(Multilevel Logistic Regression Models):该方法在研究二分类或多分类问题时非常有用。
它将随机效应模型应用于逻辑回归模型,用于描述不同层次上的概率差异。
例如,研究不同学校学生的大学录取率时,可以使用多层Logistic回归模型考虑学校和个体因素的影响。
3. 多层生存分析模型(Multilevel Survival Analysis Models):多层生存分析模型是在研究生存数据(例如生命表数据)时常用的方法。
该方法可以考虑不同层次上的时间变化和随机效应,并用于推断不同层次上的生存率和风险。
例如,在研究医院的患者生存时间时,可以考虑医院间的差异和个体特征的影响。
4. 多层次协变量分析(Multilevel Covariate Analysis):该方法用于分析多变量之间的关系,并考虑不同层次上的协变量。
多层线性模型:
HLM(hierarchical linear model)计量模型,为解决传统统计方法如回归分析在处理多层嵌套数据时的局限而产生的,是目前国际上较前沿的一套社会科学数据分析的理论和方法,优势体现两个方面:一是解决了数据嵌套问题;二是为追踪研究或重复测量研究引入了新方法。
传统的线性模型,例如,ANOV A或者回归分析,只能对涉及某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析,而多层线性模型对解决这些问题提供了有效的统计方法。
多层线性模型的参数估计方法与进行两次回归的方法在概念上是相似的, 但二者的统计估计和验证方法却是不同的, 并且多层线性模型的参数估计方法更为稳定。
因此多层模型的应用范围也相当广泛,与传统的用于处理多元重复测量数据的方法相比,该模型具有对数据资料要求低、能够明确表示个体在第一层次的变化情况、可以通过定义第一层次和第二层次的随机变异解释个体随时间的复杂变化情况、可以考虑更高一层次的变量对于个体增长的影响等特点。
多层线性模型( multilevel model ) 由Lindley 等于1972 年提出,是用于分析具有嵌套结构数据的一种统计分析技术。
作为传统方差分析模型的有效扩展Korendijk 等和Duncan 等众多的研究者对多层线性模型进行了广泛研究。
20 多年来,该方法在社会科学领域获得了广泛应用。
近年来,有研究者提出使用多层线性模型进行面板研究,并且已在社会科学领域取得较大进展。
面板研究中多层线性模型的应用优势:
由上述分析可知,在面板研究中,传统的数据分析方法会遇到很多难以克服的困难,而多层线性模型可以很好地处理上述问题。
近年来,越来越多的面板研究开始采用多层线性模型的分析方法,显示出多层线性模型在面板研究中的独特优势。
首先,多层线性模型通过考察个体水平在不同时间点的差异,明确表达出个体在层次一的变化情况,因而对于数据的解释(个体随时间的增长趋势)是在个体与重复观测交互作用基础上的解释,即不仅包含不同观测时点的差异,也包含个体之间存在的差异。
其次,多层线性模型可在最大似然或限制性最大似然估计的基础上处理缺失
值,因此对原始数据的要求相对较低,不需要去除那些带有缺失值的研究对象,也不需要弥补缺失的观测值。
另外,多层线性模型既能处理各研究对象重复观测次数不等的问题,也能处理重复观测间隔时间不等的问题。
再次,多层线性模型可以定义重复观测变量之间的复杂协方差结构,对不同协方差结构进行显著性检验,通过定义数据不同层次的随机差异解释个体随时间变化的复杂情况。
例如就个体间差异而言,模型假设研究对象在不同时间的观测值相关是由于非测量因素产生的个体间异质性引起的,因此在模型中设定随机回归系数,如用随机截距反映个体结果测量值的不同初始水平,用时间变量的随机斜率反映个体结果观测随时间的不同变化率,从而引入个体特定效应来处理个体间异质性问题。
从个体内差异角度出发,则可以在构建模型之初通过设定一个适当的残差方差/ 协方差结构来处理数据的序列相关问题。
最后,多层线性模型既不要求研究对象个体内的观测值相互独立,也不受某些限制性假设的制约。
跨层次研究模型的构建
在处理不同层次变量之间关系时,传统采用散记和合计的方法,但会产生两个问题: 违反回归的独立性假设、产生合计误差。
多层线性回归模型(HLM)是专门用于分析不同层次变量之间关系的工具,其可以估计各层次的效果,以及各层次所能够解释的变异量,同时可以解决散记和合计过程中造成的误差问题。
本研究中涉及区域和企业两个层面的变量,构建了多层回归模型。
第一个层次是企业层面的变量,包括R&D 投入、创新绩效等; 第二个层次是区域层面的变量,包括基础设施环境、制度环境、文化环境、人力资源环境。
顾乃华
计量模型和经验分析结果
检验前面的假说涉及省和市两个层面的数据,而且市是嵌套在省之中。
对于多层嵌套数据,传统的回归方法通常有两种处理方法:一是将省、市变量看做是同一水平的变量,直接在市层面对数据进行分析。
这种方法的问题是:假设同一省份内的城市间相互独立是不合理的,对不同省份的城市样本和同一省份的城市样本作同一假设也是不合理的。
另一种处理方法是将市层面的数据直接合并为省层面的数据,然后在省层面进行分析。
这样做的缺陷在于丢失了省内城市个体间
差异的信息,而在实际中,这一部分的变异有可能占总变异中很大的一部分。
上述两种方法有可能得到不同的结果,对结果的解释也可能不一致,但它们都没有考虑到数据间分层的特点。
这种忽略有可能对数据结果做出不合理的甚至是错误的解释,这是传统回归分析方法在分析具有分层特点数据时的必然局限(张雷等,2003)。
传统的线性回归模型假设变量间存在直线关系,变量总体上服从正态分布、方差齐性、个体间随机误差相互独立。
前两个假设对于分层数据较易保证,但方差齐性尤其是个体间随机误差相互独立的假设却很难满足。
就本文而言,即不同省份的城市数据可以假设相互独立,但是同一省份的城市由于受到相同省层面变量的影响,很难保证相互独立。
为了克服传统回归方法处理多层嵌套数据的局限,本文选择多层线性模型进行假设检验。
多层线性模型在回归省、市两层嵌套数据时,假设地级市个体间的测量误差相互独立,省层面带来的误差在不同省份之间相互独立,进而将误差分解为两部分:一部分是地级市个体间差异带来的误差;另一是因隶属不同的省而带来的误差。
结合本文的研究主题,应用多层线性模型较传统的回归方法至少有如下三个方面优势:第一,可形成和检验关于跨水平效应的假设,也就是省级层面的变量如何对市层面的城市化与服务业发展之间的关系产生影响;第二,它能够借助在其他省中存在的相似的估计,改善对市级层面城市化作用于服务业发展回归模型的估计结果;第三,可以分离各水平内的方差和协方差成分,如把市层面一系列变量的相关成分分解为省层面的组内和组间成分。
当然由于多层线性模型本身以及对应处理软件的局限,它不能像其他计量经济模型那样提供非常多样化的稳健性检验指标,为克服这一局限,本文在量化指标时,尽量选择样本期的均值,从而克服因使用特定年度数据产生的偏差。
计量模型和变量定义
根据假设检验需要,我们选择两层次模型。
使用的样本数据包括中国大陆23个省份(剔除4个直辖市以及所辖市较少的海南、青海、西藏和新疆)、252个地级市(缺少部分样本是因为数据缺失)。
第一层(L1)为地级市样本数据,被解释变量为服务业发展。