目录地理加权回归模型GWR 地理加权回归模型案例 地理加权回归模型结果解读 地理加权回归用什么 地理加权回归是干嘛的
需要。1、描述
执行“地理加权回归 (GWR)”,这是一种用于建模空间变化关系的线性回归的局部形式。
2、一图读懂GWR
GWR 为局部回归模型。系数可以变化。
3、使用
GWR 为数据集中的各要素构建了一个独立的方程,用于将各目标要素的带宽范围内的要素的因变量和解释变量进行合并。带宽的形状和范围取决于用户输入的核类型、带宽方法、距离以及相邻要素数等参数,但也存在一条限制:如果相邻要素的数目超过 1000,则仅将最相邻的 1000 个要素合并到各个局部方程中。
GWR 通常被要求用于处理包含数百个要素的数据集,以便获得最佳结果, GWR 不适用于小型数据集。而且,此不能用于处理多点数据备厅。
注:GWR 会生成各种输出。右键单击结果窗口中的消息条目,然后选择视图,将显示 GWR 的执行汇总报告。
此外,GWR 也会生成一个输出要素类和一个包含了执行汇总报告诊断值的表。会自动将此仿蠢隐表以输出要素类名加上 _supp 作为后缀的形式进行命名。输出要素类会自动添加至内容列表中,并会对模型残差应用热/冷渲染方案。在解释 GWR 结果中提供了有关各输出的完整说明。_supp 文件的创建位置始终与输出要素类相同,除非输出要素类被创建在一个要素数据集内。当输出要素类位于要素数据集内时,_supp 表则会创建在该要素数据集所在的地理数据库中。
建议您使用投影数据。这一点在距离成为分析的一部分时尤其重要,因为在您针对核类型选择固定时,会对 GWR 使用投影数据。建议您使用投影坐标系(而非地理坐标系)对数据进行投影。
由 GWR 执行的某些计算会利用多个 CPU 以提高性能,并会自动使用多达 8 条线程/CPU 进行处理。
应该始终从普通最小二乘法 (OLS) 回归开始回归分析。首先获得一个正确指定的 OLS 模型,然后使用同样的解释变量运行 GWR(不包括表示不同空间组织的任何“哑元”解释变量)。
因变量和解释变量应该是包含各种值的数值型字段。线性回归方法(如 GWR)不适于预测二进制结果(例如,因变量的所有值不是 1 就是 0)。
如果在 GWR 模型中包含名目数据或分类数据,则需谨慎操作。在类别出现空间聚类的地方,存在局部多重共线性的风险。GWR 输出中包含的条件数指明了局部共线性何时会导致问题(条件数小于零、大于 30 或设置为“空”)。存在局部多重共线性的结果是不稳定的。
请勿使用人工解释变量来表示 GWR 模型中的不同空间组织(例如,向城镇中心外的人口普查区赋予值 1,而向其他区域赋予值 0)。由于 GWR 允许解释变量系数发生变化,这些空间组织解释变量并不必要,并且如果包含了这些变量,则会产生局部多重共线性问题。
要更好地了解解释变量系数当中的区域变化,请检查由 GWR 创建的可选栅格系数表面。将在系数栅格工作空间中创建这些栅格表面。对于面数据,您可以对输出要素类中的每个系数字段使用渐变色彩或由冷色到暖色的渲染以检查整个研究区域的更改。
通过提供预测位置要素类(通常,此要素类与输入要素类相同)、预测解释变量和输出预测要素类,您可以使用 GWR 进行预测。在用来校正回归模型的字段(解释变量字段的输入值)与用来预测的字段(预测解释变量字段的输入值)之间必须是一对一的对应关系。这些变量的顺序必须相同。例如,假设您当前正针对交通事故构建一个有关速度限制、道路条件、车道数量以及汽车数量的函数。通过创建一个具有修正后的速度限制和道路条件的新变量,您可以预测更改速度限制或改善道路状况可能对交通事故产生的影响。现有变量将用于校正回归模型,并用作解释变量的参数。修正的变量将用于预测,并可作为预测解释变量。
如果提供了预测位置要素类,但未指定预测解释变量,则仅使用各位置的已计算系数创建输出预测要素类(不进行任何预测)。
如果回归模型缺少关键解释变量,则会导致回归模型的指定错误。如果回归残差的空间自相关具有统计学上的显著性,或者在一个或多个解释变量的系数档卜当中发生了非期望的空间变化,则表明错误指定了您的模型。您应该尽一切努力(例如,通过 OLS 残差分析和 GWR 系数变化分析)来查找这些丢失的关键变量,以便在模型中包含这些变量。
时刻关注解释变量的不稳定性是否会出现问题。例如,假设您正将特殊植物种类的密度构建为若干变量(包括 ASPECT)的函数。如果发现在整个研究区域中 ASPECT 变量的系数发生了更改,则可能要查看是否有缺少关键解释变量的迹象(例如,可能存在大量竞争植被)。应该尽一切努力将所有关键解释变量包含到回归模型中。
为带宽方法参数选择 AICc(更正后的 Akaike 信息准则)或 CV(交叉验证)时,GWR 将查找最佳距离(对于固定核)或最佳相邻要素的数目(对于自适应核)。但是,局部多重共线性问题将会阻止 AICc 和 CV 带宽方法解析最佳距离/相邻要素的数目。如果出现表示模型设计存在严重问题的错误,则请尝试指定特殊距离或相邻要素的数目, 然后检查输出要素类中的条件数,以查看哪些要素与局部共线性问题相关联。
严重模型设计错误或用于表明局部方程未包含足够多相邻要素的错误,通常表示回归存在全局或局部多重共线性问题。要确定出现问题的位置,请使用 OLS 运行模型,然后检查每个解释变量的 VIF 值。如果某些 VIF 值较大(例如,大于 7.5),则全局多重共线性会阻止 GWR 解决问题。但是,更有可能是局部多重共线性所导致的问题。请尝试为各解释变量创建一个专题地图。如果在地图上出现相同值的空间聚类,考虑将这些变量从模型中移除,或将这些变量与其他解释变量合并以便加大值的变化性。例如,如果要对房屋价格进行建模且具有卧室和浴室两个变量,则可能需要将其合并以加大值的变化性,或将其表示为浴室/卧室的建筑面积。在构造 GWR 模型时,要避免使用空间组织哑元变量、空间聚类名目或数值变量或者几乎不可能具有值的变量。
GWR 是一种线性模型,其前提条件与 OLS 相同。要确保正确指定您的 GWR 模型,请参阅回归分析基础知识中的回归模型失效方式部分。
这和我们今天说的地理加权回归 Geographical Weighted Regression (GWR)有什么关系呢?
因为传统的线伍型性回归,是地理加权回归的基础——孩子她妈。
什么?你问我孩子他爸是谁?
“回归”一词对于数学不好的同学来说可能有点抽象,其实就是线性回归最朴素的样子——一条线去拟合一群点。
“地理加权”四个大字,体现的是GWR算法与传统线性乱蔽回归的不一样之处——考虑了空间关系对模型的影响。就好比如:
家长:“能否把我的孩子放到第一排”
比如:身高与体重的关系——这也是最经典的线性回归例子。我们可以用最简单的一元线性回归进行分析。
但是身高和体重之间,并不是完全的正相关(R方=1),还受到其他很多因素有关。比如:生活习惯、饮食、地区差异等。
同时我们再思考一个问题,古人云“一方水土养一方人”,当我们的研究对象分布在不同的区域,能否只用一个回归公式来揭示它们所有特征?
模型没有绝对的能或者不能,但这样做可能难以满足我们研究的要求。
“一方水土养一方人”,其实也就是地理加权回归的核心和出发点——考虑空间关系的影响。当我们在做回归分析的时候,如果样本分布在不同的区域,而不同区域之间某些对因变量产生影响的因素差异很大(称之为:存在“空间异质性”),这个时候我们可能就需要考虑空间关系对模型的影响。引入地理加权回归。
看到这里也许有同学会问,那我将研究区域腔陪猜,划分成多个不同的子区域,再分别对其中的子区域进行经典回归分析不就好了嘛?
这确实是一个解决的办法。但事情没有这么简单。地理学的祖师爷Waldo Tobler告诉我们地理学第一定律:
任何事物都是与其他事物相关的,只不过相近的事物关联更紧密
地理加权回归和聚类分析的区别明显。要对多迟搭贺个变量进行地理加权回归的话,变量之间必须存在一点的关联性,且不存在共线性问题。聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在枝碰性质上的亲疏程度进行码派分类。
地理加权回归是一种探索空间非平稳性的方法。空间非平稳性是指简单的“全局”回归模型不能充分解释一个地理区域内某些变量之间的关系的一种情况。相反,模型的性质应该随着空间的变化而改变,以反映数据中的结构。例如,在一个地理区域内,与风险因素相关的疾病风险是否保持不变,还是在该区域内的某些点这种关系更强。
Brunsdon等人(1996)开发了地理加权回归,试图通过校准多元回归模型来捕捉这种空间变化,该模型允许变量在空间的不同点之间存在不同的关系。
简介
地理加权回归的基本思想是,在数据中的每一点拟合一个回归模型,根据距离这一点的函数加权所有观测值。这与这样一种观点相一致,即在回归集中的观测点附近采样的观测结果比在更远的观测结果对该点的回归参数有更大的影响。然后在定义的地理区域的每个点生成一组参数估计。然后可以使用GIS绘制这些参数估计数,以确定变量之间的关系在何处变化,从而提供一种有用的探索性分析形式。利用蒙特卡罗方法可以进行2个假设检验:
可以用全局模型而不岩隐是非平稳模型来描述数据。
个体回归系数在地理空间上是否稳定。
我将介绍如何使用ado文件gwr和gwrgrid在Stata中实现这种方法,这两个文件都将地理加权回归应用于包含地理参考点的数据集。这两个ado文件之间的唯一区别是,gwrgrid在地理区域上放置一个网格,并在每个网贺纤格中心执行回归,而gwr在数据的每个点上执行回归。
这些ado文件中的代码是基于粗拍厅Brunsdon等人的论文和由Brunsdon等人编写的FORTRAN程序,并且通过大量依赖Stata中现有的glm函数,已扩展到任何形式的广义线性模型。
案例:将以Brunsdon等人给出的例子为例进行演示——这是1991年英国人口普查中有关汽车拥有率、社会阶层和英格兰东北部泰恩威尔郡男性失业率的一个数据集。
参考文献:
Brunsdon, C., A. S. Fotheringham, and M. E. Charlton. 1996.
Geographically weighted regression: A method for exploring spatial nonstationarity. Geographical Analysis 28: 281–298.
操作应用
空间统计目前Stata进行地理加权回归主要有命令spregxt以及gwr、gwrgrid等,本文主要简介介绍 gwr、gwrgrid命令的基本应用。
gwr语法格式为:
Geographically weighted regression
----------------------------------
gwr depvar [varlist] [ ifexp] [ inrange] , east(varname)
north(varname) [options]
选项包括
saving(filename) dots reps( #) double eform family(familyname)
link(linkname) [ln]offset(varname) testreplace noconstant
nolog scale(x2|dev| #) disp(#) iterate(#) init(varname)
outfile(filename) comma wide bandwidth( #) mcsave(filename)
sample( #)
其中
familyname选项包括 gaussian | igaussian | binomial [varname| #] | poisson | nbinomial [#] | gamma,即核函数类型
linkname 选项包括如下内容:identify | log| logit | probit | cloglog | opower # | power # | nbinomial
test:要求测试带宽的重要性。这测试了gwr模型对数据的描述是否明显优于 全局的回归模型。
sample( #)指定在带宽校准过程中使用的观测值百分比,默认为100%。这是特别对于大型数据集很有用,可以减少校准带宽所需的时间。如果指定了该选项,将随机抽取#%的观测数据并用于校准过程。
bandwidth( #)允许用户输入带宽值,并减少gwr运行所需的时间。
nolog抑制带宽优化迭代的显示。
iterate( #)指定在估计带宽时允许的最大迭代次数。默认值为50。
save (filename)创建一个Stata数据文件,其中包含从计算gwr的每个点估算的参数。
outfile(filename)创建文本文件filename。
replace表示save和/或outfile指定的文件可以 被覆盖。它也适用于mcsave选项。
reps( #)指定要执行的蒙特卡罗模拟的数量。默认值为1000。
操作案例:
gwr cars class unemp, east(easting) north(northing) test
gwr flag class unemp, east(east) north(north) fam(binomial) link(logit)
gwrgrid y x1, east(east) north(north) fam(b) link(l) square(10) samp(25)
结果为:

. gwr cars class unemp, east(easting) north(northing) test
Global Model
Source | SS df MS Number of obs = 120
-------------+---------------------------------- F(2, 117) = 287.17
Model | 4.51965851 2 2.25982925 Prob > F = 0.0000
Residual | .920700696 117 .007869237 R-squared = 0.8308
-------------+---------------------------------- Adj R-squared = 0.8279
Total | 5.4403592 119 .045717304 Root MSE = .08871
------------------------------------------------------------------------------
cars | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
class | .0188073 .0033449 5.62 0.000 .0121829 .0254316
unemp | -.0182798 .0011238 -16.27 0.000 -.0205054 -.0160543
_cons | .8847704 .0288569 30.66 0.000 .8276208 .94192
地理加权回归,由英国Newcastle大学地理统计学家A.S Fortheringham及其同事基于空间变系数回归模型并利用局部多项式光滑的思败逗想察庆卖提出的模型。模型公式如下:
其中(yi;xi1,xi2,…,xip)为在地理位置(ui,vi)处的因变量y和自变量x1,x2,…,xp的观测值(i=1,2,…,n).βj(ui,vi)(j=0,1,…,p)为观测点(ui,vi)处的未知参数,它是(ui,vi)的未知函,εi(i=1,2,…,n)为独立同分布的随机误差,通常差裤假定其服从N(0,σ2).