地理加权回归模型介绍

  • 格式:docx
  • 大小:427.47 KB
  • 文档页数:7

下载文档原格式

  / 7
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章地理加权回归模型介绍

3.1 基本模型

在地学空间分析中,n组观测数据通常是在n个不同地理位置上获取的样本数据,全局空间回归模型就是假定回归参数与样本数据的地理位置无关,或者说在整个空间研究区域内保持稳定一致,那么在n个不同地理位置上获取的样本数据,就等同于在同一地理位置上获取的n个样本数据,其回归模型与最小二乘法回归模型相同,采用最小二乘估计得到的回归参数户既是该点的最优无偏估计,也是研究区域内所有点上的最优无偏估计。而在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型,得到的回归参数估计将是回归参数在整个研究区域内的平均值,不能反映回归参数的真实空间特征。为了解决这一问题,国外有些学者提出了空间变参数回归模型(Spatially Varying-Coeffi Cient Regression Model)(Fosterand Gorr,1986; Gorrand Olligschlaeger,1994),将数据的空间结构嵌入回归模型中,使回归参数变成观测点地理位置的函数。Fortheringham等(Brunsdonetal,1996;Fortheringham et al,1997;Brunsdon et al,1998)在空间变系数回归模型基础上利用局部光滑思想,提出了地理加权回归模型(Geographieally Weighted Regression Model-GWR)。

地理加权回归模型(GWR)是对普通线性回归模型(OLR)的扩展,将样点数据

的地理位置嵌入到回归参数之中,即:

式中:(u i,v i)为第i个样点的坐标(如经纬度);βk(u i,v i)是第i个样点的

第k个回归参数;εi是第i个样点的随机误差。为了表述方便,我们将上式简写为:

若β1k=β2k=⋯=βnk,则地理加权回归模型(GWR)就退变为普通线性回归模

型(OLR)。

Fotheringham et al依据“接近位置i的观察数据比那些离i位置远一些的数据对的

估计有更多的影响”(Fotheringham et al,1996)的思想,利用加权最小二乘法来估计参数,得

其中:

β̂是β的估计值,n是空间样点数,k是自变量的个数,W in是对位置i刻画模型时赋予数据点n的权重。

由于地理加权回归模型中的回归参数在每个数据采样点上都是不同的,因此其未知参数的个数为n×(P + l),远远大于观测个数n,这样就不能直接利用参数回归估计方法估计其中的未知参数,而一些非参数光滑方法为拟合该模型提供了一个可行的思路。Foste & Gorr(1986)和Gorr & Olligsehiaeger(1994)利用广义阻尼负反馈(generalized damped negative feedback)方法估计未知参数在各地理位置的值,这种估计方法只是在很直观的意义上考虑数据的空间结构,加之估计方法较为复杂,很难对估计量作深入的统计推断方面的研究。Brunsdon等(1996)在局部多项式光滑思想上提出了偏差和方差折衷(Bias-Variance Trade-off)的解题思路:假设回归参数为一连续表面,位置相邻的回归参数非常相似,在估计采样点i的回归参数时,以采样点i及其邻域采样点上的观测值构成局域子样,建立全局线性回归模型,然后采用最小二乘方法得到回归参数估计β̂ik(k=0,1,2,…,p)。对于另一个采样点,i+1采用另一个相应的局域子样来估计,以此类推。由于在回归分析过程中,以其它采样点上的观测值来估计i点上的回归参数,因此得到的i点上的参数估计不可避免存在偏差,即参数估计为有偏估计。显然,参与回归估计的子样规模越大,参数估计的偏差就越大,参与回归估计的子样规模越小,参数估计的偏差就越小。从降低偏差这一角度考虑因尽量减少子样规模,但子样规模的减少必然导致回归参数估计值的方差增加,精度降低。

3.2 空间权函数的选择

空间权重矩阵是地理加权回归模型(GWR)的核心(Brunsdonetal, 2000),空间权函数的选取对地理加权回归模型(GWR)的参数估计影响很大。

(1)距离阈值法

距离阈值法是最简单的空间权函数,它的关键是选取合适的距离阈值D,然后将数据点j与回归点i之间的距离d ij与其进行比较,若大于该阈值则权重为0,否则为1,即

这种权重函数的实质就是一个移动窗口,计算虽然简单,但其缺点为函数不连续,因此在地理加权回归模型的参数估计中不宜采用。

(2)距离反比法

Tobler(1970)地理学第一定律认为空间相近的地物比相远的地物具有更强的相关性,因此在估计回归点i的参数时,应对回归点的邻域给予更多的关注。根据这种思路,人们自然想到用距离来衡量这种空间关系:

这里a为合适的常数,当a取值为1或2时,对应的是距离倒数和距离倒数的平方。这种方法简洁明了,但对于回归点本身也是样本数据点的情况,就会出现回归点观测值权重无穷大的情况,若要从样本数据中剔除却又会大大降低参数估计精度,所以距离反比法在地理加权回归模型参数估计中也不宜直接采用,需要对其进行修正。

(3)高斯(Gauss)函数法

高斯(Gauss)函数法就是表示w ij与d ij之间的连续单调递减函数,可以克服上述空间权函数不连续的缺点。其函数形式如下:

图3.1 Gauss空间权函数

式中是描述权重与距离之间函数关系的非负衰减参数,称之为带宽(Bandwidth)。带宽越大,权重随距离增加衰减的越慢,带宽越小,权重随距离增加衰减的越快。

(3) bi-square 函数法

在实际中,往往会将对回归参数估计几乎没有影响的数据点截掉,不予计算,并以有限高斯函数来代替高斯函数,最常采用的便是bi-square函数(Bmndonetal,1997;Fotheringham et al, 1998):