哈尔滨师范大学地理科学学院, 黑龙江 哈尔滨 150025
中图分类号: TP751.1
文献标识码: A
文章编号: 1000-0690(2012)04-0434-08
收稿日期: 2011-06-21
修回日期: 2011-10-26
网络出版日期: 2012-04-20
版权声明: 2012 《地理科学》编辑部 本文是开放获取期刊文献,在以下情况下可以自由使用:学术研究、学术交流、科研教学等,但不允许用于商业目的.
基金资助:
作者简介:
作者简介:臧淑英(1963-),女,黑龙江哈尔滨人,教授,博士生导师,主要从事LUCC与3S综合应用等方面研究。E-mail: zsy6311@163.com
展开
摘要
湿地遥感分类作为湿地管理、监测与评价的重要手段,受到了广泛的关注。遗传算法(GA)借鉴了生物进化规律进行启发式搜索寻优,支持向量机(SVM)是一种新型的空间数据挖掘方法,二者相结合可以发挥各自的优势,寻找到支持向量机的全局最优参数,从而较准确地对湿地进行遥感分类。以洪河自然保护区为例,采用遗传算法优化的支持向量机方法进行了湿地遥感分类研究。同格网搜索下的支持向量机湿地遥感分类及最大似然监督分类对比,结果表明,遗传算法优化较格网搜索方式总精度提高了7.29%,较最大似然监督分类提高了12.06%,方法改善了沼泽、草地与裸地三种地物间的区分,是湿地遥感分类的有效手段。
关键词:
Abstract
Wetland remote sensing classification, as an important means of wetland management, monitoring and assessment, has been widely concerned. Genetic Algorithm (GA) does heuristic search optimization which references the law of biological evolution, while Support Vector Machine (SVM) is a new kind of spatial data mining method. Combination of both can develop their own advantages to do wetland remote sensing classification exactly, by searching the global optimal parameters of Support Vector Machine. Taking Honghe Nature Reserve as a case study, wetland remote sensing classification using Support Vector Machine optimized with Genetic Algorithm (GA-SVM) was explored in this paper. In comparison with wetland classification using support vector machine with parameters searched by Grid and the Maximum Likelihood Classification. The experimental results show that, the overall accuracy of Genetic Algorithm optimization has increased 7.29% compared to Grid Search method, and has increased 12.06% compared to the Maximum Likelihood Classification, by improving the discrimination among marsh, meadow and bare land. Therefore, GA-SVM is an effective tool in wetland remote sensing classification.
Keywords:
湿地是生态系统的重要组成部分,在调蓄洪水、调节河川径流、补给地下水和维持区域水平衡及维持野生动植物种群存续等方面具有重要的意义[1,2]。然而,湿地面临着自然与人类高强度干扰,有必要对湿地植被及其周围的土地利用类型进行适时、动态的监测与模拟[3,4]。
卫星遥感作为对地观测的综合性技术,在湿地精确记录和监测中展现了诸多优势[5]。作为复杂生态系统,湿地景观存在着高度的异质性,在遥感影像上的光谱特征和空间特征对环境背景的依赖性较大,而且往往存在“同物异谱”和“同谱异物”的现象,仅仅依靠遥感光谱差异,对于水陆交汇复杂生态系统的分类识别难以取得较高的分类精度[6,7]。充分利用湿地的光谱、纹理、地形等多源数据,可以改进湿地遥感分类[8]。
传统的遥感分类方法基于统计计算,如最小距离分类、最大似然分类等方法,属于是参数化的分类模型,即假设分类目标服从正态分布,然而地形、土壤等辅助因子的引入改变了单纯光谱的分布特征,使得传统遥感分类方法很难达到精确识别的目的。
空间数据挖掘技术是从空间数据中寻找内在的客观规律,而遥感数据自动分类识别是空间数据挖掘的重要任务之一[9]。支持向量机(Support vector machine,简称SVM)作为一种新型的机器学习方法,以其坚实的理论基础和理想的实验性能,近年来广泛应用于遥感分类中[10],在解决小样本、非线性及高维模式识别中,支持向量机表现出许多特有的优势。然而,在实际使用中往往存在着模型参数的选择问题。传统的格网搜索方式很难精确找到合适的参数,以达到高精度识别的目的。
遗传算法 (Genetic Algorithm, 简称GA)是一类借鉴生物界自然选择和自然遗传机制的启发式搜索算法,较以往传统的搜索算法具有使用方便、 鲁棒性强、 便于并行处理等特点,广泛应用于各种领域[11]。在遥感领域,有学者利用支持向量机进行了湿地进行了遥感分类及信息提取[12,13]。支持向量机与遗传算法的高光谱影像分类特征选择方法也有探讨[14],然而将支持向量机同遗传算法结合在湿地遥感分类研究中尚未出现。本文采用遗传算法对SVM模型参数进行优化选择,对三江平原洪河自然保护区湿地进行了分类研究,并同传统的格网搜索参数方式(Grid SVM)及最大似然监督分类方法(MLC)进行了精度对比,为洪河湿地的保护和管理提供决策支持。
洪河自然保护区位于黑龙江省三江平原东北部的同江市与抚远县交界处, 133°34′28″E~ 133° 46′29″E, 47°42′18″N~ 47°52′18″N。总面积为21 835.7 hm2(图1)。
洪河自然保护区属三江沿江温带湿润气候,具有明显的温带季风气候特征。该区为冲沉积平原,地势平坦,西南高东北低,相对高差为3 m,地貌类型包括阶地和河漫滩,主要土壤有白浆土和沼泽土。保护区境内河流皆为沼泽性河流,浓江河发源于青龙山农场东部湿地,目前水源不足。沃绿兰河全长7 km,流入浓江,是核心区的主要水源。保护区湿地是由于地势低平,土质粘重,夏秋多雨,排水不畅而形成的独特的平原区沼泽湿地。区内碟形洼地,浅水洼地和水泡星罗棋布,形成了独特的湿地、森林和草甸三位一体的生态系统[15,16]。
洪河国家级自然保护区于1984年1月11日经黑龙江省人民政府批准建立省级自然保护区。1996年11月由国务院批准晋升为国家级自然保护区。2002年1月被拉姆萨尔国际湿地公约组织列入国际重要湿地。保护区是以保护水生、湿生和陆栖生物及其生境共同组成的湿地生态系统以及东方白鹳(Ciconia boyciana)、黑鹳(Ciconia nigra)、丹顶鹤(Grus japonensis)等珍稀濒危野生动物为主的湿地类型自然保护区。
设线性可分样本集(xi, yi),i=1,…,l;x∈Rn,y∈{+1, -1},是类别标号。考虑两类样本的线性判别函数为g(x)= wx+b,分类超平面的方程为:wx+b=0。两种类别边缘的方程为wx+b=±1。支持向量机的核心在于寻找最优分类超平面,使得类别边缘最大化[17]。
将线性判别函数进行归一化,使得两种类别的样本均满足|g(x)|≥1,两种类别间隔大小为2/||w||。||w||是权矢量的欧拉长度。因此,边缘最大化问题转变为使得||w||最小化。靠近|g(x)|=1的样本点被称为支持向量。数学形式表示为解决有约束条件的最小优化问题,即
最小化||w||2/2,约束条件为
yi[(wx+b)]-1≥0 i=1,…,l。 (1)
然而,在实际分类中,很难保证类别之间线性可分,支持向量机引入核函数技术,由Mercer定理可知,任何线性不可分问题可以映射到高维线性可分,从而保证了分类的可行性。学者研究证明,径向基核函数在遥感分类中效果最佳[18~20]。径向基核函数[21]数学形式为
K(x, xi)=exp(-
其中
在面对少量的离群点时,单纯的固定间隔很难将其正确归类,因此,支持向量机引入一定的容错性,即纳入一个松弛变量ζi。
原来的优化问题转变为最小化1/2||w||2+C∑ζi,约束条件为
yi[(wx+b)]-1≥1-ζi i=1,…,l (3)
其中C为惩罚因子,决定了分类器对于离群点的重视程度,也是需要判别的参数。
遗传算法[22]是1975年由John H. Holland教授提出的,它摒弃了传统的搜索方式,模拟自然界生物进化过程,采用人工进化的方式对目标进行随机优化搜索,启发式的搜索全局最优解。GA在求解非线性、多模型、多目标等优化问题时,存在着特有的优势。使用遗传算法进行启发式优化搜索,核心过程主要包括初始种群确定、编码、遗传操作(选择、交叉、变异)、适应度函数。
针对支持向量机存在的两个模型参数
计算出适应度函数后,判断是否为全局最优解,如果满足条件的话,所确定的参数
实验采用2009年8月31日过境的Landsat TM5遥感影像(轨道号114/27),使用1∶5万地形图对影像几何精校正到Albers Conical Equal Area投影下,裁剪到洪河自然保护区。
收集研究区1∶5万地形图、地貌图和1∶20万土壤图,通过地形图提取数字高程模型(DEM),利用ArcGIS提取坡度、坡向。
参照张树清提出的三江平原湿地遥感分类模式[23],将研究区域划分为7种地物类型,分别为:水田、耕地、沼泽、裸地、村镇、草地和林地,其中水田和沼泽属于湿地,其余地物类别属于非湿地,具体分类体系如表1所示。
表1 洪河自然保护区湿地分类体系
Table 1 Wetland classification system in Honghe National Nature Reserve
| 湿地 | 水田 | 指有水源保证和灌溉设施,在一般年景能正常灌溉,用以种植水稻,莲藕等水生农作物的耕地,包括实行水稻和旱地作物轮种的耕地。 |
|---|---|---|
| 沼泽 | 指地势平坦低洼,排水不畅,长期潮湿,季节性积水或常积水,表层生长湿生植物的土地。 | |
| 非湿地 | 耕地 | 指无灌溉水源及设施,靠天然降水生长作物的耕地;有水源和浇灌设施,在一般年景下能正常灌溉的旱作物耕地;以种菜为主的耕地,正常轮作的休闲地和轮歇地。 |
| 裸地 | 目前还未利用的土地、包括难利用的土地。 | |
| 村镇 | 指城乡居民点及县镇以外的工矿、交通等用地。 | |
| 草地 | 指以生长草本植物为主,覆盖度在5%以上的各类草地,包括以牧为主的灌丛草地和郁闭度在10%以下的疏林草地。 | |
| 林地 | 指生长乔木、灌木、竹类、以及沿海红树林地等林业用地。 |
光谱特征:选取TM1~TM5和TM7共6个波段的灰度值作为特征变量,由于湿地以水陆植被为主,因此计算了归一化差值植被指数(NDVI),并将影像空间通过缨帽变换,转化成绿度、亮度、湿度3个波段的空间,将TM6个波段、NDVI、绿度、亮度和湿度10个波段构成光谱特征变量。
纹理特征:大量实验证明,基于灰度共生矩阵[24]的纹理分析可以改进遥感分类精度。综合考虑研究区地物类型及平原地区景观形态,本文采用3×3、5×5、7×7、9×9、11×11作为纹理计算窗口,采用Z检验方法[25]统计任意两种地物在不同纹理量度下的差异,最终确定7个最优的纹理波段,分别为绿度熵、第四波段熵、绿度均值、第三波段熵、第四波段均值、第一波段熵、第七波段熵,它们分别派生出5个纹理窗口,共35个纹理波段构成纹理特征变量。
GIS辅助特征:将研究区DEM、坡度、坡向、地貌图、土壤图全部转成栅格数据,重采样后同遥感数据叠合,构成5个GIS辅助特征变量。
3.3.1 样本参数确定
7种类型地物各选取300个训练样本,尽可能地保证属于各类地物的“蓝本”,均匀分布于整个研究区。利用Matlab7.8作为编程平台,使用台湾大学林智仁教授的LibSVM[21]构建支持向量机模型,分别提取样本光谱特征变量、纹理特征变量、GIS辅助特征变量,组成50个特征变量的高维矩阵,纳入到支持向量机模型中,作为初始的实验数据。
采用训练样本交叉验证的方式确定支持向量机参数
3.3.2 分类及精度评价
使用ENVI4.7遥感软件下的支持向量机分类器,采用径向基核函数作为分类核函数的类型,分别采用两种方式所确定的最优参数训练分类器对整幅影像进行分类,同时采用传统的最大似然监督分类方法做分类对比,分类结果比较如图2中的b、c、d所示
混淆矩阵是最常用的遥感影像分类精度评价方法。本文采用2008年6月和2009年6月两期GPS实测样本点并结合土地利用现状图选取测试样本,对3种方法所得的分类结果进行精度验证,结果见表2,3和4所示。
表2 遗传算法优化支持向量机湿地遥感分类精度
Table 2 Wetland remote sensing classification accuracy of support vector machine optimized with Genetic Algorithm
| 样点数 | 水田 | 耕地 | 沼泽 | 裸地 | 村镇 | 草地 | 林地 | 总数 | 用户精度 |
|---|---|---|---|---|---|---|---|---|---|
| 水田 | 235 | 4 | 0 | 0 | 0 | 29 | 0 | 268 | 87.69% |
| 耕地 | 3 | 276 | 0 | 0 | 0 | 0 | 0 | 279 | 98.92% |
| 沼泽 | 0 | 0 | 234 | 0 | 17 | 0 | 0 | 251 | 93.23% |
| 裸地 | 0 | 2 | 19 | 224 | 0 | 47 | 5 | 297 | 75.42% |
| 村镇 | 0 | 0 | 8 | 2 | 215 | 0 | 0 | 225 | 95.56% |
| 草地 | 0 | 4 | 7 | 21 | 0 | 229 | 38 | 299 | 76.59% |
| 林地 | 0 | 0 | 3 | 0 | 0 | 32 | 253 | 288 | 87.85% |
| 总数 | 238 | 286 | 271 | 247 | 232 | 337 | 296 | 1907 | |
| 制图精度 | 98.74% | 96.50% | 86.35% | 90.69% | 92.67% | 67.95% | 85.47% | ||
| 总体精度 =87.36% Kappa系数 =0.852 | |||||||||
表3 格网搜索支持向量机湿地遥感分类精度
Table 3 Wetland remote sensing classification accuracy of support vector machine with parameters searched by Grid
| 样点数 | 水田 | 耕地 | 沼泽 | 裸地 | 村镇 | 草地 | 林地 | 总数 | 用户精度 |
|---|---|---|---|---|---|---|---|---|---|
| 水田 | 224 | 42 | 0 | 0 | 0 | 5 | 0 | 271 | 82.66% |
| 耕地 | 14 | 236 | 0 | 0 | 0 | 20 | 0 | 270 | 87.41% |
| 沼泽 | 0 | 0 | 210 | 0 | 14 | 0 | 0 | 224 | 93.75% |
| 裸地 | 0 | 4 | 3 | 200 | 0 | 99 | 4 | 310 | 64.52% |
| 村镇 | 0 | 0 | 22 | 1 | 217 | 0 | 0 | 240 | 90.42% |
| 草地 | 0 | 4 | 29 | 46 | 1 | 174 | 26 | 280 | 62.14% |
| 林地 | 0 | 0 | 7 | 0 | 0 | 39 | 266 | 312 | 85.26% |
| 总数 | 238 | 286 | 271 | 247 | 232 | 337 | 296 | 1907 | |
| 制图精度 | 94.12% | 82.52% | 77.49% | 80.97% | 93.53% | 51.63% | 85.26% | ||
| 总体精度 =80.07% Kappa系数 =0.767 | |||||||||
表4 最大似然湿地遥感分类精度
Table 4 Maximum Likelihood Classification accuracy of wetland remote sensing
| 样点数 | 水田 | 耕地 | 沼泽 | 裸地 | 村镇 | 草地 | 林地 | 总数 | 用户精度 |
|---|---|---|---|---|---|---|---|---|---|
| 水田 | 221 | 41 | 0 | 0 | 1 | 26 | 0 | 289 | 76.47% |
| 耕地 | 0 | 230 | 2 | 10 | 0 | 0 | 0 | 242 | 95.04% |
| 沼泽 | 0 | 2 | 198 | 6 | 22 | 11 | 9 | 248 | 79.84% |
| 裸地 | 15 | 3 | 46 | 165 | 0 | 59 | 32 | 320 | 51.56% |
| 村镇 | 0 | 1 | 0 | 0 | 203 | 0 | 0 | 204 | 99.51% |
| 草地 | 2 | 6 | 14 | 66 | 6 | 187 | 23 | 304 | 61.51% |
| 林地 | 0 | 3 | 11 | 0 | 0 | 54 | 232 | 300 | 77.33% |
| 总数 | 238 | 286 | 271 | 247 | 232 | 337 | 296 | 1907 | |
| 制图精度 | 92.86% | 80.42% | 73.06% | 66.80% | 87.50% | 55.49% | 78.38% | ||
| 总体精度 =75.30% Kappa系数 =0.712 | |||||||||
由表2、表3和表4可知,遗传算法优化的支持向量机湿地遥感分类优于格网搜索下的支持向量机湿地遥感分类方法和传统的最大似然湿地遥感分类方法。
3.4.1 遗传算法与格网搜索比较
结合图2和表2,3,4可知,b与c同为支持向量机湿地遥感分类,总体上分类结果是相似的,由于研究区比例尺过大,很难看出显著差异,因此选择局部进一步观察两种不同优化方式的支持向量机湿地遥感分类,如图3所示经实地验证与专家判别,由红圈内可以看出格网搜索方式下的分类结果更多地将草地与湿地错分为裸地,其它局部地区均有不同程度的混分现象。制图精度与用户精度是决定不同地物信息提取的关键所在。分类者可以根据制图精度判断分类模式的有效性,改进分类模式,提高分类精度;使用者可以根据用户精度,正确有效地获取分类结果中的信息。
图2 洪河自然保护区湿地遥感分类结果
Fig.2 The land cover classification results of Honghe National Nature Reserve using various methods
对比表2和表3可知,遗传算法优化的支持向量机湿地遥感分类与格网搜索下的支持向量机湿地遥感分类相比,在不同地物上分别有不同程度的精度提高,特别是在耕地、沼泽、裸地和草地,生产者精度与用户精度提高10%左右,改进了不同地物的区分,沼泽、裸地与草地三者光谱相似,群落相互之间没有严格的界限,遗传算法优化方式依然能做出准确地区分。
遗传算法同格网搜索在优化机理上存在差别。对于支持向量机存在的两个参数,格网搜索是通过设定一定的步进间隔大小,在给定范围内进行交叉验证,从中选择最优参数;遗传算法是以群体为基础,而不是以单点搜索为基础,能同时从不同点获取多个极值,因而得到的解是全局最优的,而不会陷入局部最优。对比表2,表3可知,格网搜索的方式所得到的分类结果属于局部最优解,而遗传算法优化所得到的结果属于全局最优解,具有良好的普适性。然而,由于遗传算法仍存在着诸多主观因素,如种群数量、交叉概率等,在改进支持向量机过程中需要不断尝试,才能得到满意的结果。因此,进一步探究遗传算法的优化机理与策略是将来的发展方向。
3.4.2 支持向量机与最大似然比较
对比图2中的d与b、c及表4与表2,表3可知,传统的最大似然分类无法将沼泽、裸地和草地三者明确地区分,相互之间混分现象严重。
沼泽湿地在最大似然分类中同邻近地物存在明显的混分现象,在结合了多源信息后,其制图精度为73.06%,用户精度为79.84%。格网搜索下的支持向量机对沼泽湿地分类精度有所改进,制图精度为77.49%,用户精度为93.75%,而遗传算法优化的支持向量机对沼泽湿地的分类有了较显著的提高,制图精度达到86.35%,用户精度为93.23%,精度较最大似然分类提升了近15%,可见,对于沼泽这一复杂生态环境,支持向量机分类比最大似然分类精度高。裸地存在着不确定性,其包含的各种未利用地,湿生、旱生土地均不具备明显的地物特征。支持向量机分类可以将其与邻近的湿地与草地区分开,优于最大似然分类。草地属于湿地生态系统的过渡带,三种方法均很难将其准确区分,其光谱特征同沼泽具有相似性,纹理特征不明显,地学辅助信息对其没有太大的影响,决定了支持向量机分类与最大似然分类对其分类精度均不理想,传统的最大似然分类精度甚至仅为52%左右,支持向量机分类稍有改进,但依然很难准确地分清,可见草地制约了湿地遥感分类的精度。
支持向量机与最大似然分类(MLC)两种分类器的分类机理不相同。MLC是遥感监督分类最常用的方法之一,它是基于参数化的分类模型[26]。MLC假设每一个训练样本数据在其特征空间中服从高斯正态分布,因而需要的样本数目很大。它需要统计每一种地物类别的中心,因此,训练样本要求是地物的“蓝本”;支持向量机是非参数分类器,它尽可能地最大化类别间隔,寻找决策超平面来区分不同地物,因而支持向量机更关注于每类地物的边缘分布[27]。通过对比表2,3和4可知,支持向量机能更好的结合多源数据,在湿地遥感分类中存在优势。
图3 局部分类对比结果
Fig.3 The comparison of partially enlarged classification results(a) Parameter optimized with Genetic Algorithm partial result, (b) Grid Search parameter result
方法应用于湿地遥感分类研究中,其中遗传算法优化的支持向量机湿地遥感分类方法总精度达到87.36%,Kappa系数为0.852。格网搜索下的支持向量机湿地遥感分类方法总精度为80.07%,Kappa系数为0.767,最大似然湿地遥感分类方法精度总精度为75.30%,Kappa系数为0.712。遗传算法优化较格网搜索方式总精度改进了7.29%,较最大似然监督分类改进了12.06%,是湿地遥感分类的有效手段,具有一定的普适性和应用价值。
The authors have declared that no competing interests exist.
| [1] |
Wetlands [M]. |
| [2] |
Defining and classifying ecosystem services for decision making [J]. |
| [3] |
A rule-based method for mapping Canada’s wetlands using optical, radar and DEM data [J]. |
| [4] |
Identifying landscape pattern dynamics of Sanjiang plain marsh based on remote sensing techniques [J]. |
| [5] |
Satellite remote sensing of wetlands [J]. |
| [6] |
Thematic accuracy of the 1992 National Land-Cover Data for the eastern United States: Statistical methodology and regional results [J]. |
| [7] |
Thematic accuracy of the 1992 National Land-Cover Data for the western United States [J]. |
| [8] |
Improved wetland remote sensing in Yellowstone National Park using classification trees to combine TM imagery and ancillary environmental data [J]. |
| [9] |
Data Mining with SQL Server 2005 [M]. |
| [10] |
Optimizing support vector machine learning for semi-arid vegetation mapping by using clustering analysis [J]. |
| [11] |
An introduction to simulated evolutionary optimization [J]. |
| [12] |
基于支持向量机的遥感影像湿地信息提取研究 [J]. |
| [13] |
基于支持向量机的扎龙湿地遥感分类研究 [J]. |
| [14] |
An effective feature selection method for hyperspectral image classification based on genetic algorithm and support vector machine [J]. |
| [15] |
洪河保护区湿地生态需水量研究 [J]. |
| [16] |
洪河湿地三江平原生物基因库 [M]. |
| [17] |
The Nature of Statistical Learning Theory [M]. |
| [18] |
Classification of hyperspectral remote sensing images with support vector machines [J]. |
| [19] |
A relative evaluation of multiclass image classification by support vector machines [J].
|
| [20] |
Support vector machines for classification in remote sensing [J]. |
| [21] |
|
| [22] |
|
| [23] |
三江平原湿地遥感分类模式研究 [J]. |
| [24] |
Texture features for image classification [J]. |
| [25] |
Biostatistical Analysis (2nd Edition) [M]. |
| [26] |
遥感图像最大似然分类方法的EM改进算法 [J]. |
| [27] |
An objective analysis of support vector machine based classification for remote sensing [J]. |
/
| 〈 |
|
〉 |