Orginal Article

  • WANG Pei-an ,
  • BAI Yong-ping ,
  • GUO Jin-xian ,
  • LI Jia-yue
Expand

Received date: 2011-10-26

  Request revised date: 2012-01-20

  Online published: 2012-11-20

Copyright

本文是开放获取期刊文献,在以下情况下可以自由使用:学术研究、学术交流、科研教学等,但不允许用于商业目的.

Abstract

The problem of aggregation has been always one of the hot and focuses of the region research, and the positioning of aggregation is a prerequisite for continuing in-depth study in aggregation analysis. Aggregation appears a high degree of sensitivity on the scale. When the aggregation was analyzed by using the spatial autocorrelation method, scale choices are often susceptible to subjective judgments of the researchers, and exist the possibility of selection bias. So the spatial weight problem has been controversial. In addition, the aggregation is obviously space-dependent as well as time-dependent since different aggregation takes place within different time and space, which is neglected by the spatial autocorrelation method. Therefore, some scholars have been trying to explore better ways for aggregation analysis. In comparison, the spatial-temporal scan statistic method raised by scholars as Kulldorff shows its superiority. This paper targets at 51 districts and counties within the central and southern regions of Gansu Province, which are densely populated minority areas. Using software Geoda0.9.5 and Clusterseer0.2.3, spatial autocorrelation analysis and space time scan statistical analysis were adopted about 30463 perinatal deaths during 2001 to 2010 according to the report delivered by monitoring points of Ministry of Health. It also gives a detailed comparison between spatial autocorrelation and scanning statistic from the different perspectives of scale choices, scale transforming and space integration, and then tests the analysis results by appealing Sam 4.0. Through theoretical and empirical analysis, it further confirms that spatial-temporal scan statistic method has the significant advantage from the three aspects of scale selection, scale conversion, and spatial-temporal integration,which shows that it is not only effective measure to solve the problem of artificial selection, but also to achieve the scale extrapolation and automatic conversion, and more favorable mix of three-dimensional, dynamic, multi-scale analysis. Therefore, a conclusion is drawn that the space-time scan statistic method is superior than other methods. Specifically, there are three main aspects: 1) Compared to spatial autocorrelation methods and space-time scan statistic method, the adjacency and distance matrix is artificial selection in spatial autocorrelation. The space-time scan statistic method achieves the purpose of scale automatically conversion and avoids the instability. 2) The scale of spatial autocorrelation methods is static, single, and the scale of space-time scan statistic is dynamic, three-dimensional and multi-scale.3) In analyzing the issue of spatial autocorrelation method does not take into account the time factor, while the space-time scan statistic method is not only the full integration of space technology, and achieves good analytical results. By combining the time factor, the range of aggregation can be reduced to a more accurate range. Moreover, space-time scan statistic method can even make a prediction, which can provide a basis for decision-making.

Cite this article

WANG Pei-an , BAI Yong-ping , GUO Jin-xian , LI Jia-yue . [J]. SCIENTIA GEOGRAPHICA SINICA, 2012 , 32(11) : 1410 -1416 . DOI: 10.13249/j.cnki.sgs.2012.011.1410

近年来,随着计量经济学和空间分析技术的深入发展,定量分析聚集的理论和模型开始逐渐丰富,国外一些学者发展出利用空间自相关的方法对聚集问题进行定量分析的模型和工具[1],空间自相关分析方法包括全局空间自相关(Global Spatial Autocorrelation)和局部空间自相关(Local Spatial Autocorrelation)两种类型[2~4]。以上几种方法为定量研究聚集现象提供有利工具,但作为一种探索性的空间数据分析模型和方法,本身还有待完善。
许多研究中,证明空间自相关方法存在较为明显的缺陷。例如空间权重矩阵的构建存在一定争议,不同研究者对权重的选择存在一定差异,由于这种选择差异,使对分析结果的解释不尽相同。此外,由于空间自相关建模的基础是完全依赖于空间截面数据而产生的,完全没有考虑时间的影响因素,但对研究聚集问题来说,时空交互是一个本质性问题[5],抛开时间因素,单纯研究空间现象,仍是不可忽视的缺陷。随着空间分析技术的深入发展,1995~2006年美国哈佛大学教授卡尔多夫(Kulldorff)[6]等结合前人研究成果,通过概率分布模型,提出并发展一套扫描统计量方法。本研究力求通过理论和实证分析,对这两种方法做出全面比较,对比较结果进行深入解析。

1 材料及方法

1.1 数据来源及预处理

围产儿是指孕满28周或出生体重≥1 kg的胎儿(含死胎、死产)和产后7 d内的新生儿。围产儿死亡采用WHO(世界卫生组织)规定围产期为的统计标准,即妊娠满28周至分娩后7 d内所发生的死胎、死产及新生儿死亡(不含因计划生育原因引产者)。建国以来,中国绝大部分地区围产儿死亡率经普遍下降,但经济相对落后的西部地区,尤其是少数民族地区,围产儿死亡率始终居高不下。甘肃省中南部地区是藏族、回族、东乡族、保安族、撒拉族、土族等多个少数民族聚居地区,研究将选择2001~2010年甘肃省中南部地区51个区、县,以行政区划为单位监测点,共30 463例围生儿死亡病例进行相关分析。2001~2010年围产儿死亡病例由甘肃省妇幼保健院保健部负责汇总统计整理,每一病例在各区县监测站点有详细登记,包括患儿家庭情况、病发时间、病发地点等基本统计信息。
研究采用三种不同的分析软件,首先利用ArcGIS9.3将甘肃省中南部51个区、县2001~2010年每年的围产儿死亡人数和当年的人口数据等导入数据表中,生成shp格式文件(Geoda0.9.5-i可以直接分析)。然后,为方便在Sam4.0中对LISA maps进行定位,根据软件要求对shp文件进行坐标和索引转换。在采用扫描统计量软件Clusterseer0.2.3时,将ArcGIS9.3中各区、县坐标数据和人口数据进行列转置,最后再对2001~2010年51个区县围产儿的死亡病例数进行列配置,使时间、地区坐标和围产儿病例数逐年、逐地区相匹配。

1.2 研究方法

1) 空间自相关方法(spatial autocorrelation)。作为探索性空间数据分析[7]的重要分析方法,目的在于检验是否存在统计学意义上显著的空间分布,进一步了解生成这一分布空间过程。Moran’s I、Geary’s C、Getis、Join count等都是较常用的空间自相关分析方法,这些方法基本原理相同,适用范围和侧重点各有不同。通过一些学者[8~10]分析,认为Moran's I是比较典型且适用性较强的方法。由Luc Ansalin研究开发的空间分析软件集空间经济学、空间统计学分析于一体,可以专门进行这方面的数据分析。研究在对围产儿死亡病例分析时,将采用全局Moran散点图和局部LISA相结合的方式进行分析。
① 全局空间自相关。全局空间自相关Moran’s I的公式如下:
I = n i = 1 n j = 1 n W ij × i = 1 n j = 1 n W ij x i - x ̅ x j - x ̅ i = 1 n x i - x ̅ 2 (1)
其中,Wij为空间权重矩阵,反映空间邻接或邻近区域尺度的变化情况。对Moran’s I的统计学显著性可以采用正态分布或随机分布进行检验。按照上述公式计算所得Moran’s I系数的取值范围在-1~1之间,I为正值表示正相关,I为负值表示负相关,I为零表示不相关,且值越大,表示属性值的空间相关性越强。反之,值越小,表示空间相关性越弱,当值趋于零时,说明对象在空间上呈随机分布的趋势。
② 局部空间自相关。全局空间自相关假定空间是同质的,即只存在一种充满整个区域的趋势[11],只能从整体上探测研究对象是否在研究区域存在聚集性,无法对聚集范围进行准确定位,需要采用局部空间自相关来确定具体的聚集区域和区位特征[12]。本质上局部Moran’s I是将Moran’s I分解到各个区域单元,Anselin将其称为LISA。对某个空间单元i,其局部Moran统计可定义为:
I i ( d ) = Z i j = 1 n W ij Z j (1)
其中,Zi=(Xi- x ̅ ), Zj=(Xj- x ̅ )反映观察值和平均值的偏差度。Wij采用行标准化形式的空间权重矩阵,IiZi和空间单元i周围观测单元观测值加权平均的乘积。进行局部空间自相关分析时,必须满足每个区域的LISA是描述该区域与其周围显著相似区域之间空间聚集程度的指标。而且,所有LISA之和应和其对应的全局空间自相关指标成正比关系。
2) 扫描统计量方法。模型采用圆形的扫描窗口,不断自动变换扫描尺寸,对比窗口变化前后的似然率,然后采用概率函数比进行检验,找出显著性最大的聚集区域。近年来,扫描统计量方法已被应用于医学、生态学、地理学、社会学、经济学、人口学、犯罪学和灾害学等多个领域[13~17]。尤其是瑞士、保加利亚等一些学者,逐步将扫描统计量方法延伸到社会经济领域,其中Takahashi[18]、Hoje Kang[19]、Hanna Maoh[20]以及Jurēnoks[21]等学者利用扫描统计量方法对经济聚集问题进行研究。
① 基本原理。1995年,美国哈佛大学教授Kulldorff和Nagarwalla针对聚集问题提出一套扫描检测的方法,但是这种方法只能进行单纯的空间扫描,此后,Kulldorff等于1997年在原来空间扫描的基础上引入时间变量又发展出时空扫描统计量(spatial-temporal scan statistics)的方法。先确立完整的研究区域,在该区域内随机选择一个空间单元作为圆柱体窗口底面的中心;不断扩大圆柱体底面的半径,改变扫描区域大小,同时圆柱高度不断随时间的变化而升高,达到扫描窗口设定的上限。扫描过程在每个研究区域内不断重复;最后根据扫描窗口内外的实际发生数和预期发生数,构造检验扫描统计量的对数似然比(LLR,Log Likelikood Ratio),再利用LLR对窗口内异常值进行扫描探测。
② 模型建立。采用时空扫描统计量时要考虑三个基本特征:被扫描区域的形状和结构;扫描窗口的形状及大小;基于无效假设的概率分布类型[22]。在模型中窗口可以是多种形状的,如圆形窗口[23]、椭圆形窗口[24]或任意多边形窗口[25]。选择合适的窗口是正确进行空间扫描的前提。针对本研究中甘肃省中南部整个区域的形状和空间特征,适宜采用圆形扫描窗口,模型[26]如下:
nz代表所扫描圆形窗口Z中围产儿死亡病例数,mz代表扫描窗口Z区域中总人口数, μ (z)是根据无效假设得到的扫描窗口Z中预期围产儿死亡病例数。令所有区域G中总围产儿死亡病例数为nG,而所有区域总人数为mG,所有区域预期围产儿病例数为 μ (G)。
μ Z = n G m G × m z (1)
μ G = μ ( Z ) (2)
进一步建立扫描窗口的对数似然函数值:
L Z = e - n G n G ! × n z μ ( Z ) n z n G - n z μ ( G ) - μ ( Z ) n G - n z μ ( χ i ) (3)
L 0 = e - n G n G ! × n G μ ( G ) n G μ ( χ i ) (4)
L(z) 是时空扫描窗口中Z的似然函数值,L0是基于无效假设得到的似然函数值。因此,根据式(3)和(4)得到式(5):
L Z L 0 = n z μ ( Z ) n z n G - n z μ ( G ) - μ ( Z ) n G - n z n G μ ( G ) n G (5)
对式(5)取对数,得式(6)对数似然率LLR(下式值为LLLR)
L LLR = n z log n z μ Z ) + ( n G - n z ) log n G - n z μ ( G ) - μ ( z ) - n G log n G μ ( G ) (6)
则时空扫描窗口Z中最大的似然率可以表示为式(7):
max L LLR = max [ L ( Z ) ] L 0 = max L Z L 0 (7)

2 讨论及分析

2.1 空间自相关分析

以2010年甘肃省51个区、县围产儿死亡病例的空间聚集分析为例,分别采用Geoda0.9.5-i软件和Sam4.0软件,选择不同的空间邻接准则,进行空间自相关分析。表1中,由于邻接准则不同, Moran’s I值也表现出很大差异,在几种不同的邻接准则下,Rook(上下左右邻接)准则所得到的Moran’s I值为0.332 5,结果最大;加布里多边形准则得到的Moran’s I值为0.143,结果最小。在这几种邻接方式中,通过对比Moran’s I 值和散点图,可发现Queen和Rook的结果比较接近相同,说明在这两种邻接方式下,尺度变化对空间相关系数没造成多大影响。但Delaunay Triangulation、Relative Neighbourhood和K-Nearest等邻接结果相比,差异性很大,Gabriel criterion 和Minimum Spanning Tree未通过检验,说明邻接准则选择对结论影响很大。通过邻接准则得到的结果缺乏必要的稳定性和可靠性,在进行聚集分析时,要根据数据特征进行仔细鉴别和判断。

2.2 扫描统计量分析

采用扫描统计量模型对甘肃省中南部51个区、县围产儿死亡病例的聚集性进行分析时,采用Clusterseer0.2.3软件分别进行单纯的空间扫描和时空立体扫描。纯空间扫描仅选择2010年的数据,时空扫描选择2001~2010年数据。扫描结果(表2)看出,2010年单纯的空间扫描结果显示有两个可能的聚集区域,第一个最大可能的聚集区(First Most Likely Cluster)主要集中在西部地区,包括永靖县、临洮县和舟曲县等17个区域,对数似然率(Log Likelikood Ratio,LLR)为72.963。第二个可能的聚集区包括静宁县、庄浪县、张家川县和清水县4个地区,对数似然率为38.754。相反,2001~2010年时空扫描结果显示,在引入时间变量之后,经过一个较长时间的检验和筛选,第一个最大可能的聚集区过滤漳县、岷县、宕昌县、迭部县、和舟曲县5个区域,提高探测效率,使重点区域更加突出和明确。与单纯的空间扫描结果相比,对数似然率显著提高14倍,达到1 045.13。第二个聚集区过滤静宁县、庄浪县、张家川县、清水县,但是识别增加永登县。对数似然率显著提高11倍。
Table 1 Comparison of spatial autocorrelation results in different adjacency guidelines for cases of perinatal in 2010

表1 不同邻接准则空间自相关结果比较(2010年围产儿病例)

邻接方式 邻接准则 Moran's I 检验P值<5% 检验次数
Rook邻接 上下左右邻接准则 0.3325 0.003 999
Queen邻接 上下左右对角线邻接准则 0.3317 0.002 999
K-Nearest邻接 K值最近邻接准则 0.3086 0.005 999
Distance邻接 5%的门槛距离准则 0.1749 0.002 999
Delaunay邻接 德劳内三角形构建准则 0.25 0.003 199
Gabriel邻接 加布里多边形构建准则 0.143 0.06 199
Relative邻接 相对近邻构建准则 0.185 0.045 199
Min Tree邻接 最小生成树构建准则 0.235 0.146 199
Table 2 Comparison of the results for spatial-temporal scan statistics and pure spatial scan statistics

表2 时空扫描统计量和纯空间扫描统计量结果对比

时间 聚集分类 显著聚集区域 对数似然率 检验P 结论对比
2010年
纯空间扫
描结果
一集聚区 永靖县、临洮县、东乡县、临夏县、临夏市、和政县、广河县、康乐县、夏河县、碌曲县、卓尼县、临潭县、漳县、岷县、宕昌县、迭部县、舟曲县 72.963 0.001 似然率较低,识别范围过大,比较笼统,实际操作时参考范围不明确
二集聚区 静宁县、庄浪县、张家川县、清水县 38.754 0.002 似然率较低,范围偏大
2000~2010年
时空扫描
结果
一集聚区 永靖县、临洮县、东乡县、临夏县、临夏市、和政县、广河县、康乐县、夏河县、碌曲县、卓尼县、临潭县 1 045.13 0.001 似然率显著提高,通过过滤和识别范围变小
二集聚区 永登县 415.773 0.003 似然率显著提高,通过过滤和识别范围变小
从单纯的空间扫描到时空扫描过程的对比,清楚看到甘肃省各区县围产儿死亡病例的聚集有显著的空间依赖性和时间特征。时空扫描统计量的方法则可以结合时间,使扫描窗口由原来的圆形变成圆柱体[27],达到时空立体匹配目的。由于圆柱体窗口大小和位置不断自动进行立体变换,扫描区域也在动态变化,这种立体式的扫描能够充分实现时空融合优势,因而能对聚集范围进行有效识别和过滤,所以扫描结果更符合实际情况。通过对数似然率LLR,扫描统计量方法还能进一步对聚集区域进行概率上的分类,依次找出第一、二乃至第三个最有可能的聚集区(First/Second/Third Most Likely Cluster)。
图1a看到,采用空间自相关Queen邻接矩阵(具有代表性的邻接方式)进行比率分析,得到的高高(High-High)聚集区包括永靖县、临洮县和舟曲县等21个区域,除礼县、宕昌县、武山县等几个区域外,与单纯的空间扫描结果所显示的第一个聚集区域较接近,空间自相关对聚集区的探测没发现位于东面的静宁县、庄浪县、清水县,进一步选择2001~2010年几个时间段,分别进行Queen邻接准则下的空间自相关分析,可以发现上述这几个区域在不同的时间出现聚集现象的情况并不相同,属于聚集发生的边缘地带,如果仅仅选择一个时间段进行分析,结果会呈现不稳定的情况;再对空间自相关K-Nearest邻接结果(图1b)进行分析,可发现邻接尺度变化后,围产儿病例的聚集范围发生显著变化,舟曲县、宕昌县和武山县被划出聚集区之外,榆中县和陇西县又被划入聚集区范围之内,这一结果与其他邻接结果和扫描统计量结果相比差异性很大,继续采用2001~2010年每个时间段进行空间自相关分析,其结果显示的区域都不太稳定,说明这一邻接准则受时空变化影响很大,不适宜对围产儿病例的聚集性进行分析;而5%门槛距离的空间自相关分析结果(图1c)与时空扫描统计量的结果(图1e)最接近,迭部县和岷县在时空扫描时被过滤掉,同样进行多个时段对比分析,可发现主要聚集区域都集中在时空扫描结果所反映的区域附近。通过多个时段的比较,时空扫描结果所显示的区域始终是聚集发生的热点区域,无论哪种分析结果都包含这些区域。整体上看,采用空间自相关分析,邻接准则的选择对分析结果的影响很大,结论稳定性和可靠性也缺乏足够保证。相比之下,单纯的空间扫描结果(图1d)因缺乏时间因素,识别范围过大,而时空扫描统计量模型所识别的区域是最稳定的,在整个扫描过程中,模型通过自动调整窗口尺寸,实现尺度选择和转换自动化,有效避免人为选择尺度的不利因素,在尺度转换同时,系统还自动实现时空融合的分析目的,这是空间自相关分析难以达到的。扫描统计量模型在尺度选择、尺度转换和时空融合方面确实具有独特的优势,因此其扫描结果也更加客观和准确。
Fig. 1 Comparison of results s for spatial autocorrelation and spatial-temporal (spatial) scan statistics

图1 空间自相关和时空(空间)扫描结果对比

3 结 论

通过对甘肃省中南部地区51个区、县,共30 463例围生儿死亡病例的空间自相关和扫描统计量比较分析,可以看出,在围产儿死亡病例的聚集探测方面,时空扫描统计量方法具有三个方面的显著优势:① 尺度选择的优势。与空间自相关观察者主观选择邻接或距离矩阵的方式相比,时空扫描统计量方法实现自动选择尺度的目的,避免主观选择尺度的不稳定因素,因而结论也比较客观、可信;② 尺度转换的优势。在围产儿死亡病例的探测中,空间自相关分析方法所选择的尺度是静态的、单一的尺度,没有进行多尺度的分析,其结果仅仅反映一个观察尺度上的结论,存在偏差的可能;而扫描统计量方法则完全实现从静态、单一尺度到动态、立体、多尺度的转换,有效实现更为全面和客观的观测,其结果也更真实;③ 时空融合的优势。空间自相关分析方法在分析围产儿死亡病例的聚集问题时没有考虑时间因素,仅选择一个时点的截面数据,在不同的时点结论会有明显的差异性,因而结果缺乏必要的稳定性。时空扫描统计量方法则充分融合时空技术,从连续的时间段上进行观察,筛选有价值的信息,避免随机干扰因素,取得良好效果。

The authors have declared that no competing interests exist.

[1]
魏晓峰,吴健平.基于ArcGIS空间自相关分析模块的开发与应用[J].测绘与空间地理信息,2005,28(6):77~81.

[2]
Sawada M.Global Spatial Autocorrelation Indices—Moran’s I, Geary’s C and the General Cross-Product statistic[Z/OL].

[3]
朱道才,陆林,晋秀龙.空间格局及其经济效应的分析——泛长三角FDI实证[J].地理科学,2010,30(2):184~189.

[4]
Anselin L.Local Indicators of Spatial Association-LISA[J].Geographical Analysis,1995,27(2):93-115.

[5]
唐根年,沈沁,管志伟.中国东南沿海产业空间集聚适度与生产要素优化配置研究[J].地理科学,2010,30(2):168~174.

[6]
Kulldorff.Spatial scan statistic[J].Communications in Statistics:Theory and Methods,1997,26:1481~1496.

[7]
宣国富,徐建刚,赵静.基于ESDA的城市社会空间研究——以上海市中心城区为例[J].地理科学,2010,30(1):22~29.

[8]
张松林,张昆.全局空间自相关Moran指数和G系数对比研究[J].中山大学学报(自然科学版),2007,46(4):93~97.

[9]
洪国志,胡华颖,李郇.中国区域经济发展收敛的空间计量分析[J].地理学报,2010,65(12):1548~1558.

[10]
陈再齐,闫小培,曹小曙.广州市港口服务业空间特征及其形成机制研究[J]. 地理科学,2010,30(1): 30~38.

[11]
孟斌,王劲峰,张文忠,等.基于空间分析方法的中国区域差异研究[J].地理科学,2005,25(4):393~400.

[12]
祁新华,朱宇,张抚秀.企业区位特征、影响因素及其城镇化效应——基于中国东南沿海地区的实证研究[J].地理科学,2010,30(2):220~228.

[13]
徐敏,曹春香,程锦泉,等.甲流感疫情时空聚集性的GIS分析[J].地球信息科学学报,2010,12(5):707~712.

[14]
孙浩瑛,吴遵,方兆本.从扫描统计量角度观察我国连续暖冬现象[J].数理统计与管理,2008,27(6):952~958.

[15]
Youngho Kim,Morton O’Kelly.A Bootstrap Based Space-Time Surveillance Model with an Application to Crime Occurrences[J].Journal of Geographical Systems, 2008,10(2):141-165.

[16]
王劲峰. 空间分析[M].北京:科学出版社,2006.

[17]
李德辉,方兆本,余雁.扫描统计量——检测基金业绩持续性的新方法[J].运筹与管理,2006,15(1):82~87.

[18]
T akahashi K,Tango T. A comparison of Satscan and flexscan for outbreak detection and monitoring[J].Advances in Disease Surveillance,2008,(5):67-72.

[19]
Hoje Kang.Detecting Agglomeration Processes Using Space-Time Clustering Analyses[J].The Annals of Regional Science,2010,45:291-311.

[20]
Hanna Maoh,Pavlos Kanaroglou.Geographic Clustering of Firms and Urban Form:A Multivariate Analysis[J].Journal of Geographical Systems,2007,9(1):29-52.

[21]
Jurēnoks V,Jansons V,Didenko K.Scan Statistics Using for Economical Research[J].Management and Sustainable Development,Bulgārija,Sofija,2008,(5):10-14.

[22]
殷菲,冯子健,李晓松,等.基于前瞻性时空重排扫描统计量的传染病早期预警系统[J].卫生研究,2007,36(4):455~459.

[23]
Kulldorff M,Nagarwalla.Spatial disease clusters:detection and inference[J].Statistics in Medicine,1995,14:799-819.

[24]
Kulldorff M,Huang L,Pickle L.An ellipse spatial scan statistic[J].Statistics in medicine,2006,25:3929-3943.

[25]
Duczmal L,Assuncao R.A simulated annealing strategy for detection of arbitrarily shaped spatial Ccusters[J].Computational Statistics and Data Analysis,2005,45:269-286.

[26]
马越,李晓松,张彦利.扫描统计量在传染病监测应用中的空间尺度选择[J].现代预防医学,2011,(9):32~37.

[27]
Jones R C,Uberatore M,Fernandez J R,et a1.Use of a prospective space-time scan statistic to prioritize shigellosis case investigations in an urban jurisdietion[J].Public Health Rep,2006,12:133-139.

Outlines

/