地理加权回归模型的多重共线性诊断方法
- 格式:pdf
- 大小:824.33 KB
- 文档页数:4
多重共线性的检验方法
多重共线性(multicollinearity)是指在回归模型中,自变量之间存在高度相关或线性相关的情况。
由于存在多重共线性,导致模型的解释能力降低,预测结果不可靠。
因此,需要对回归模型中自变量之间的关系进行检验和分析。
下面介绍几种多重共线性的检验方法。
1. 相关系数矩阵法。
计算自变量之间的相关系数矩阵,判断是否存在较高的相关系数。
相关系数矩阵主要分为Pearson 相关系数和Spearman 相关系数,其中Pearson 相关系数适用于连续变量之间的关系,Spearman 相关系数适用于序数类或等距类别的变量之间的关系。
2. 变量膨胀因子(VIF)法。
VIF 是判断某个自变量对其他自变量的回归系数影响的程度。
如果某个自变量的VIF 值超过10,就表示需要对其进行检验和分析。
3. 特征值检验法。
通过计算相关系数矩阵的特征值和特征向量,判断模型是否存在多重共线性。
如果某个特征值较小,就表示存在多重共线性。
4. 条件数检验法。
条件数是相邻特征值之比的平方根。
如果条件数大于30,就表示模型存在多重共线性。
综上所述,多重共线性的检验方法有多种,不同的检验方法可以互相验证,得到更加准确的判断结果。
在实际应用中,可以根据具体情况选择合适的方法进行多重共线性的检验。
多重共线性的诊断方法和解决方法综述-计量经济学论文-经济学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——摘要:多元线性回归模型的经典假定之一是解释变量之间不存在线性关系。
但在实际应用中,多元线性回归模型中的解释变量之间往往存在近似的线性关系,如果仍然用最小二乘法估计模型,会造成分析结果不准确甚至严重偏离变量间本来的依存关系。
为此,首先总结了多重共线性的检验方法,然后探讨了多重共线性常用的修正方法,最后结合实例演绎了逐步回归法和主成分回归法的具体应用,为现实经济问题中多重共线性的检验与处理提供一定借鉴。
关键词:多重共线性; 诊断; 补救措施; 逐步回归法; 主成分回归;Abstract:There being no linear relationship among interpretation variables is one of the classical assumptions in multiple linear regression model.However,in the practical application,there is often an approximate linear relation.If we still use the method ofordinary least squares to estimate the model,the result may become incorrect and even far from the original relationship among the variables.Therefore,the paper first summarizes the test methods of Multicollinearity.And then,the paper summarizes the commom correction methods of multicollinearity.Finally,the application of stepwise regression and principal component regression is deduced by using an example.The research will provide some reference for the test and treatment of multicollinearity in real economic problems.Keyword:multicollinearity; diagnosis; remedial measures; stepwise regression; principal component regression;多重共线性是指模型中解释变量间存在相关关系。
使用地理用加权模型探索空间异质性的R包地理加权模型(GW model)包括的功能有:地理加权汇总统计(GW summary statistics),地理加权主成分分析(GW principal comp-onents analysis,即GW PCA),地理加权回归(GW regression),地理加权判别分析(GW discriminant analysis),其中一些功能有基本和稳健形式之分。
The GWmodel package comes with five example data sets, these are: (i) Georgia, (ii)LondonHP, (iii) USelect, (iv) DubVoter, and (v) EWHP.运用GW model的一个重要元素就是空间加权函数,空间加权函数量化(或套)观察到的变量之间的空间关系或空间相关性。
空间目标及其位置临近关系的确定。
六个核函数的介绍:Global Model(均值核函数):Gaussian(高斯核函数):Exponential:Box-car(盒状核函数):Bi-square(二次核函数):Tri-cude(立方体和函数):一、GW汇总统计(DubVoter)GW汇总统计(GW summary statistics)包括基本的GW 汇总统计和稳健的GW 汇总统计.基本的GW 汇总统计包括GW 均值, GW 标准差, GW measure of skew和GW 皮尔逊相关系数.稳健的GW 汇总统计包括GW 中位数, GW 四分位间距和GW quantile imbalance(GW不平衡分位数)GW 标准差反映一个数据的离散程度。
GW四分位数间距可反映变异程度的大小。
由这两幅图可以看出在中部和西部四分位数间距和标准差值比较大,第一幅图比第二幅图更显著一些。
这两幅图是用不同的核函数说明自变量LARent和因变量GenEl2004之间的相关关系,两幅图都表明出现最高的相关性的地方是中部和西南部,且都表明LARen越高,投票人数越少。
多重共线性的判断与修正一、多重共线性的判断1. 综合统计检验法LS Y C X1 X2 对模型进行OLS, 得到参数估计表(1) 当2,R F 很大,而回归系数的t 检验值小于临界值时,可判定该模型存在多重共线性。
(2) 当完全共线性存在时,模型的OLS 无法进行,Eviews 会提示:矩阵的逆(1()T X X -)不存在。
2. 简单相关系数检验法LS Y C X1 X2 对模型进行OLS, 得到参数估计表中的2R .点击:Quick/Group Statistics/Correlation在对话框中输入:X1 X2 , 点击OK, 即可得到简单相关系数矩阵检验:若存在 i j x x r 接近于1, 或 22,i j x x r R >,则说明,i j x x 之间存在着严重的相关性。
3. 辅助回归法(方差扩大因子法)设 121112...(1)(1)...j j k Xj X X X j X j Xk V ααααα-+=+++-+++++ (j ) LS Xj X1 X2…Xk 对(j) 进行OLS, 得到参数估计表检验:若表中 (2,1)F F k n k α>--+, 则可确定存在多重共线性。
或者(方差扩大因子法):计算211j jVIF R =-, (2j R 为以上方程的可决系数), 若10j VIF ≥, 则可确定存在多重共线性。
4. 逐步回归法1) 首先计算被解释变量对每个解释变量的回归方程,得到基本回归方程:LS Y C Xi OLS ,得到基本回归方程(i), i = 1,2,…,k2) 从这些基本回归方程中选出最合理的方程, 即,2R 取值最大,且t 检验显著。
比方说,0j Y Xj ββ=+3) 在这个选出的方程中增加新的解释变量, 再进行OLS 分析:LS Y C Xj Xi ( i= 1,2,…,j-1, j+1,…k)判断: 如果新加入的解释变量对2R 改进最大, 且每个系数又是t 统计显著,则保留这个新的解释变量。
基于时空地理加权回归模型的中国肺结核发病情况及影响因素研究赵明扬;周乾宇;王荣荣;王宗熹;何雯倩;张文森;张恒榛;田卓旸;吴柯;王碧瑶;孙长青【期刊名称】《中国全科医学》【年(卷),期】2023(26)5【摘要】背景现有针对肺结核发病影响因素的研究大多是独立的时间或空间回归分析,研究结果存在局限性。
目的探索中国肺结核分布的时间和空间异质性,并分析肺结核发病情况与气象和空气质量因素在时间和空间上的相关关系,为制订相应结核病防控措施提供科学参考。
方法使用2016—2018年全国分地区肺结核分月统计数据,将肺结核发病率作为因变量,将气象和空气质量因素作为自变量,在预先进行多重共线性和空间自相关检验后,分别构建普通最小二乘(OLS)模型、地理加权回归(GWR)模型、时空地理加权回归(GTWR)模型,评估并比较模型优度,选取最优模型以描述肺结核发病情况。
分别绘制各变量拟合系数的核密度分布图和时空分布图,以描述拟合系数的时空特异性。
结果我国肺结核总发病率在逐年下降,且空间分布较为集中。
GTWR模型的R2值均比OLS和GWR模型要高,同时GTWR模型的修正后的赤池信息量(AICc)值均比OLS和GWR模型要小,表明GTWR模型能更好地解释自变量对肺结核发病情况的影响。
各变量核密度图结果显示,风速的增加对大多数城市的肺结核发病呈现显著的保护作用;湿度及空气污染物浓度的增加将显著增加肺结核发病率,且在不同城市的影响程度不同。
结论气象和空气质量因素对肺结核发病情况具有显著影响,且该影响存在时空特异性,对于不同地区的不同影响因素,应制订针对性的疾病预防措施。
【总页数】8页(P583-590)【作者】赵明扬;周乾宇;王荣荣;王宗熹;何雯倩;张文森;张恒榛;田卓旸;吴柯;王碧瑶;孙长青【作者单位】郑州大学公共卫生学院社会医学与卫生事业管理学教研室;郑州大学护理与健康学院社区护理教研室【正文语种】中文【中图分类】R52【相关文献】1.基于地理加权回归模型的能源“金三角”地区植被时空演变及主导因素分析2.基于时空地理加权回归模型的中国碳排放驱动因素实证研究3.基于时空地理加权回归模型的浙江省碳排放时空格局及驱动因素分析4.财政分权与中国省际劳动力市场一体化——基于时空地理加权回归模型的实证检验因版权原因,仅展示原文概要,查看原文内容请购买。
第35卷 第9期2021年9月Vol.35 No.9Sep.,2021中国土地科学China Land Science doi: 10.11994/zgtdkx.20210903.093613中国耕地非粮化空间格局分异及驱动机制陈 浮1,2,刘俊娜1,常媛媛1,张 琦1,于昊辰1,张绍良2(1.中国矿业大学公共管理学院,江苏 徐州 221116;2.中国矿业大学环境与测绘学院,江苏 徐州 221008)摘要:研究目的:摸清耕地非粮化的总体态势,揭示非粮化空间分异及驱动机制,为国家粮食安全和耕地保护政策调整提供科学依据。
研究方法:空间自相关分析法、多重共线性诊断与多元回归分析方法。
研究结果:(1)2018年耕地非粮化面积约为54.47×106 hm 2,占耕地总面积的32.29%;(2)非粮化面积主要集中于中南部和北部,但高非粮化率主要集中于新疆、贵州和东南沿海。
非粮化面积与非粮化率呈现显著不同的空间集聚特征;(3)农业实际利用外资额、城乡居民可支配收入比、农业机械总动力、乡村劳动力、土地流转面积与非粮化面积对数呈显著性正相关关系,共同驱动了全国非粮化的空间格局。
但不同尺度、不同区域耕地非粮化驱动因子的空间异质性显著。
研究结论:受经济、社会、政策和资源配置等多重因素影响,中国不同尺度下非粮化时空格局差异悬殊、驱动因子空间异质性显著。
今后应科学设定非粮化底线、优化农业资源配置、推进农业差别化补贴,严控非粮化无序增长、稳固国家粮食安全的基石。
关键词:非粮化;耕地保护;空间自相关;多元线性回归模型;驱动因素中图分类号:F301.21文献标志码:A文章编号:1001-8158(2021)09-0033-11收稿日期:2021-06-18;修稿日期:2021-08-16基金项目:国家科技支撑计划项目(2015BAD06B02);中国工程院重大咨询研究项目(2021NXZD3)。
第一作者:陈浮(1974-),男,江苏射阳人,研究员,博士生导师。
多重共线性的四种检验方法1. 协方差矩阵检验协方差矩阵检验是通过计算变量之间的协方差来检测变量之间是否存在多重共线性的一种方法。
当变量之间的协方差较大时,可以推断出变量之间存在多重共线性的可能。
另外,协方差矩阵检验还可以用来检测变量之间的相关性,以及变量之间的线性关系。
2. 因子分析检验因子分析检验是一种检验多重共线性的方法,它检验变量之间是否存在共同的共线性因子。
它通过对变量之间的相关性进行分析,以及对变量的因子负载度进行检验,来确定变量之间是否存在多重共线性。
因子分析检验可以帮助研究者识别变量之间的共同共线性因子,从而更好地理解数据的结构。
3. 相关系数检验相关系数检验是一种检验多重共线性的方法,它可以检测自变量之间的相关性。
它通过计算自变量之间的相关系数来检验,如果相关系数的绝对值较大,则可以认为存在多重共线性。
此外,相关系数检验还可以检测自变量与因变量之间的相关性,如果自变量与因变量之间的相关系数较大,则可以认为存在多重共线性。
方差分析检验:方差分析检验是一种检验多重共线性的有效方法,它可以用来检测自变量之间的关系。
它的思想是,如果自变量之间存在多重共线性,那么它们的方差应该会受到影响,而且这种影响会反映在回归系数上。
因此,方差分析检验的基本思想是,如果自变量之间存在多重共线性,那么它们的方差应该会受到影响,而且这种影响会反映在回归系数上。
为了检验这一点,可以使用方差分析检验,它可以用来检测自变量之间是否存在多重共线性。
5. 回归分析检验回归分析检验是一种用于检测多重共线性的方法,它可以用来确定变量之间是否存在多重共线性。
回归分析检验是通过比较模型的R-平方值和调整后的R-平方值来确定多重共线性存在的程度。
如果调整后的R-平方值明显低于R-平方值,则表明多重共线性存在。
另外,可以通过观察模型的拟合度来检测多重共线性。
如果拟合度较低,则可能存在多重共线性。
检验多重共线性的方法多重共线性是指在多元回归模型中,自变量之间存在高度相关性,导致模型中的自变量之间互相冗余。
多重共线性会影响回归模型的稳定性和解释能力,降低模型的准确性和可靠性。
因此,检验多重共线性是进行多元回归分析中必不可少的一步。
本文将介绍常用的检验多重共线性的方法。
首先,我们可以通过计算自变量之间的相关系数矩阵来初步判断是否存在多重共线性。
相关系数矩阵包含了自变量之间的两两相关系数,如果相关系数高于0.7或者-0.7,就说明存在较强的线性相关性。
这种初步判断方法虽然简单,但并不可靠,因为它只是衡量了两两变量之间的线性相关关系,不能反映出多个变量的综合影响。
其次,我们可以利用方差膨胀因子(VIF)来检验多重共线性。
VIF是用来衡量自变量之间相关性的指标,计算方法是对每个自变量回归于其他自变量,得到残差平方和,并计算得到VIF值。
一般来说,VIF值大于10就表明存在较强的多重共线性。
但需要注意的是,VIF值受样本量的影响,样本量较小时,即使存在较强的相关性也不一定导致VIF值大于10。
此外,我们还可以利用特征值方法检验多重共线性。
特征值方法将相关系数矩阵进行特征值分解,得到矩阵的特征值和特征向量。
如果存在较强的多重共线性,那么相关系数矩阵的特征值将会非常小。
一般来说,特征值小于1表示存在多重共线性。
不过,特征值方法对于大样本量的数据集较为适用,对于小样本量的数据集可能会出现较大的误差。
除了上述方法,还可以通过偏回归系数的标准误差来检验多重共线性。
当自变量之间存在多重共线性时,偏回归系数的标准误差将会变得非常大,说明对自变量的估计不够精确。
通过计算偏回归系数的标准误差,我们可以判断自变量之间是否存在多重共线性。
此外,还可以通过将自变量进行逐步回归来检验多重共线性。
逐步回归是指将自变量逐个加入回归模型,根据自变量的显著性和增加的解释方差决定是否保留。
如果在逐步回归过程中,自变量的系数发生了剧烈变化或者不再显著,说明存在多重共线性。
试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。
1、概念多重共线性是指自变量之间存在线性相关关。
倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。
2、特征3、产生原因产生多重相关性的原因主要包括四方面。
一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。
但多数研究者认为共线性本质上是由于样本数据不足引起的。
4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。
①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。
③对重要自变量的回归系数进行t 检验,其结果不显著。
特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。
④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。
⑤重要自变量的回归系数置信区别明显过大。
⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。
(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。
共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。
方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。
对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。
GWR-CIVDP多重共线性诊断方法研究张雷雨;杨毅;梁霄;赵毅【摘要】使用地理加权回归模型进行回归分析时,设计矩阵可能存在多重共线性,从而导致估计结果不准确甚至严重偏离实际情况.因此,在探讨全局模型多重共线性诊断方法的基础上,重新构建了地理加权回归模型的条件指标—方差分解比公式;并以加拿大卡尔加里地区的房价数据为例,通过实验验证了该方法对于诊断地理加权回归模型多重共线性问题的有效性.【期刊名称】《地理空间信息》【年(卷),期】2018(016)007【总页数】4页(P117-119,122)【关键词】地理加权回归模型;多重共线性;条件指标—方差分解比;奇异值分解【作者】张雷雨;杨毅;梁霄;赵毅【作者单位】连云港职业技术学院,江苏连云港 222006;淮海工学院测绘工程学院,江苏连云港 222005;上海华测导航技术股份有限公司,上海 201702;上海华测导航技术股份有限公司,上海 201702【正文语种】中文【中图分类】P208地理加权回归(GWR)是近年来较为成熟的一种空间分析和建模方法,其在普通线性回归模型的基础上加入空间结构,用以探测空间关系的非平稳性,使得回归结果更加可信,已被广泛应用于社会经济学、城市地理学、气象学、森林学等多个领域。
而在实际回归分析中,设计矩阵间常存在多重共线性,从而导致模型的参数估计不准确,误差增大,模型稳健性降低,因此诊断GWR模型设计矩阵间是否存在多重共线性是一个迫切需要解决的问题。
到目前为止,国内外学者已提出了多种多重共线性诊断方法[1-5],但大多应用于多元线性回归模型等全局回归模型,鲜有应用到GWR模型等局部回归模型的。
本文介绍了常用的适用于全局回归模型的多重共线性诊断方法,并指出条件指标—方差分解比(CIVDP)法不仅能判定多重共线性的个数,还能确定多重共线性存在于哪些数据列中。
由于全局模型的多重共线性诊断方法不能直接用于局部模型[6],因此本文参照全局模型的CIVDP法,重新构建了GWR模型的设计矩阵和CIVDP公式。