孟祥锐12, 张树清3, 臧淑英1

1.哈尔滨师范大学地理科学学院,黑龙江 哈尔滨 150025
2.长春师范大学城市与环境科学学院,吉林 长春 130032
3.中国科学院东北地理与农业生态研究所,吉林 长春 130102

Remote Sensing Classification of Wetland Communities Based on Convolutional Neural Networks and High Resolution Images: A Case Study of the Honghe Wetland

Meng Xiangrui12, Zhang Shuqing3, Zang Shuying1

1.College of Geographical Sciences, Harbin Normal University, Harbin 150025, Heilongjiang,China
2. College of Urban and Environmental Sciences ,Changchun Normal University,Changchun 130032, Jilin, China
3. Northeast Institute of Geography and Agricultural Ecology, Chinese Academy of Sciences, Changchun 130102, Jilin, China

关键词: 湿地遥感分类 ; 卷积神经网络 ; 高分辨率 ; 洪河自然保护区


On the high-resolution remote sensing imagery, the feature of the ground object spectra is very rich. The spectral differences are increased within the same type, differences between the categories are decreased, and the phenomenon is obvious that the same object with different spectra and the different objects with the same spectrum. Under high-resolution remote sensing imagery, the application of shallow classification models for classifying wetland remote sensing cannot unearth sufficient information, while the adoption of deep-structure models for classification of high-resolution wetland remote sensing images can fully utilize the spatial structure information of images. Deep-featured representations allow layered learning from simple concepts to higher-level complex patterns such as textures, segments, and objects. Convolutional neural network is a very representative network structure in deep learning, and it has been gradually applied to the classification of remote sensing images in the past two years. This article constructs a proper framework for the study of area image classification by selecting the size of convolution kernels and pooling kernels, classifiers and activation functions, and optimizing the number of convolutional layers. A study on the classification of different vegetation types in Sanjiang Plain Honghe National Nature Reserve is carried out through experiments. A comparison of accuracy is made between support vector machines method based on the spectrum and the support vector machines method based on the texture and spectrum. Experiments show that: 1) When adding the texture spectral features to the classification method, the classifying accuracy by SVM method based on Pixel is slightly improved compared with the SVM method based on spectrum. The CNN classification method based on patch with spectrum, texture, size, color and other semantic features, of which classification accuracy is generally higher than about 4% of the TSP-SVM method. 2) Pixel based classification methods can produce salt and pepper noise effects for misclassified pixels, and it’s hard to deal with the abundant Information from high-resolution data. The key feature of CNN’s algorithm is that it does not require manual pre-extraction of features, and the processing and classifying of images is performed in an end-to-end manner, so it has a stronger generalization ability. 3) However, in the experiment, it is also found that , on the one hand, the accuracy of the CNN classifier on the boundary is not as good as that of the SVM classifier, and there is a phenomenon of uncertainty along the boundary of the object in the classification, which leads to excessive smoothness to a certain extent. On the other hand, in the use of the CNN classifier, although the spectral features are significant, there is little spatial information and it may be misclassified. The experimental results conclude that the CNN as a deep structure classifier explores the complex spatial patterns hidden in high-resolution remote sensing images, and it can extract more abundant semantic features of the ground. Therefore, the use of the CNN method is more accurate to classify high-resolution wetland remote sensing images, and it can provide decision support for real-time monitoring, management, and protection of wetlands.

Keywords: remote sensing classification of wetlands ; convolutional neural network ; high resolution ; the Honghe Nature Reserve


随着计算机技术的不断发展,一些新湿地分类方法应用到了湿地遥感的分类当中。决策树作为数据挖掘的一种方法,具有灵活、直观、运算效率高等特点,在遥感影像分类和专题信息提取中已有广泛的应用,并应用到了草原湿地的评估和淡水[7]地的沼泽信息提取[8,9]中。20世纪80年代,神经网络方法开始应用于湿地遥感影像的分类中[10,11]。面向对象的分类方法的主要特点是针对研究的对象,能够发掘出更多的有效特征信息,更加接近人的目视解译思维[12,13]。支持向量机是在统计学习理论基础上发展的通用学习方法,近几年在湿地遥感图像分类中得到了广泛的应用[14,15,16]。应用这些浅层的分类模型进行湿地遥感的分类不能挖掘出深层的上下文语义信息,而采用深层结构的模型对高分辨率的湿地遥感影像进行分类能够充分利用影像的空间结构信息。深层特征表示可以从简单的概念到更高层次的复杂图案(如纹理,片段和对象)进行分层学习[17]。目前,图像识别分类的最主流技术是深度神经网络,其中卷积神经网络(Convolutional Neural Network,CNN)最为出名。国内外已有学者将卷积神经网络应用在了遥感图像的分类和识别中[18,19,20,21],但是很少有人研究卷积神经网络方法在湿地分类中的性能和效果。


1 卷积神经网络算法


1.1 卷积层

卷积层由多个卷积核组成,用于计算不同的特征图。具体来说,特征映射的每个神经元连接到前一层中的相邻神经元的区域。这样的相邻的神经元在前一层被称为神经元的感受野。通过对第一层的特征图进行卷积和学习,将卷积结果应用非线性激活函数进行处理,就会得到新的特征映射。在卷积处理的过程中,为了生成每个特征映射,卷积核由输入的所有空间位置共享。完整的特征图是由所有的卷积核共同计算获得。具体的,第l层的第k个特征图在(i,j)位置计算的特征值为 yi,j,kl,可以表示为[23]


式中, wkl,bkl分别为第l层的第k个特征图的权值和偏置, xijl为第l层在位置(i,j)上的输入块。权值 wkl为第l层的第k个特征图在所有位置上所共享。这种权值共享的机制降低了模型的复杂程度,使网络中的训练变得更加容易。为了调节权重和偏置的关系,引入了激活函数。激活函数的主要功能是为了解决返回结果归一化而引入的非线性部分的问题。

1.2 激活函数

在神经网络中,把处于活跃状态的神经元称为激活态,处在非活跃状态的神经元称为抑制态,激活函数赋予了神经元自我学习和适应的能力。激活函数的主要作用是调节权重和误差。用 f来表示非线性激活函数,则经过激活函数计算后的卷积结果可表示为:



1.3 池化层



式中, Rij是位置(i,j)上的相邻区域。当前常用的池化方法包括最大池化函数(max pooling)和平均池化函数(mean pooling)、重叠池化(overlapping)、均方池化(L2 pooling)等。在遥感图像分类的研究中,最常使用的是最大池化。

1.4 全连接层



式中,l表示当前层, wijl是该层神经元j与前一层神经元i的连接权重, bjl是该层神经元j的偏置,f(.)为激活函数。在所有的卷积层,池化层和全连接层之后,可以使用分类器层来计算每个实例的类概率。Softmax分类器是由Logistic分类器推广而来的,主要解决多分类的问题。

2 实验方法与精度评价

2.1 实验区域与数据源

洪河自然保护区(133°34′28″~133°46′39″E,47°42′18″~47°52′18″N)地处中国黑龙江省三江平原东北部的同江市和抚远市的交汇处,保护区的面积为21 835 hm2图1)。洪河自然保护区植被类型丰富。湿地中的湿草甸的典型代表植物为小叶章(Deyeuxia angustifolia),沼泽植物的代表植物为乌拉苔草(Carex spiculosa)、毛果苔草(Carex lasiocarpa)、漂筏苔草(Carex pseudocuraica)等。洪河自然保护区内的主要河流为浓江河和沃绿兰河,2条河流都是沼泽性河流。其中沃绿兰河全长7 km,包含了保护区的典型保护对象,是保护区的核心区域[25,26]

图1   研究区域的选择

Fig.1   Selection of study area

实验采用2017年7月5日过境的高分二号(GF-2)卫星的全色影像和多光谱影像,其中全色影像的空间分辨率为 1 m,多光谱影像的空间分辨率为 4 m。高分二号卫星所选波段参数如表1所示。研究区域遥感影像采用了Gram -Schmidt 融合算法进行波段融合,融合后的精度为1 m。根据不同波段的组合成像,选取4,3,2组合方式合成假彩色图像。该方式的波段组合植被显示为红色系,便于对湿地植被群落的划分。实验区域选取洪河自然保护区的2个区域,2个区域都有明显的湿地植被群落分布(图1)。其中实验区域A(1 886×1 402 像元)为洪河自然保护区的核心区域,分布着保护区的典型地物类型;实验区域B(1 984×1 431 像元) 位于保护区的西南部,研究区域除了湿地植被群落以外,还有耕地土地利用类型分布(图1)。通过对研究区域的土地覆被情况的实际调查和查阅相关文献,采用分层随机方案采集研究区域的样本点,训练样本和测试样本各占样本点数量的50%,如表2所示。

表1   GF-2卫星传感器参数

Table 1   Satellite sensor parameters of GF-2



表2   研究区实验分类体系及样本点数量

Table 2   Experimental classification system and number of sample points in study area



2.2 精度评价方法

2.2.1 精度评价指标


2.2.2 精度对比基准

遥感图像纹理特征的常用提取方法主要有:马尔可夫随机场(MarkovRan-domField,MRF)、Gabor小波变换和灰度共生矩阵(Gray-Level Co-occurrence Matrix,GLCM)。本文采取GLCM的方法提取研究区域的纹理特征。GLCM方法与方向有关,单一方向的抽取会造成图像选择时纹理特征的变换,因此需要在不同的方向进行抽取。GLCM实施中另外2个关键问题就是特征统计量的选择和分析窗口的大小。

2.3 模型参数和变量的设置

2.3.1 卷积神经网络参数设置


根据研究区域的实际情况,对比试验分类结果,本次实验所采用的卷积神经网络的结构框架如图2所示。输入图像的尺寸为11×11×4像素,其中4为图像的波段数,卷积核尺寸为3×3,卷积核数量分别为32和64。池化层选择了最大池化的方法,池化核尺寸为2×2,为了调节模型的非线性操作,在全连接层使用的激活函数为Relu函数,模型的分类器选取的是SoftMax。模型中通过使用Dropout[32]方法,为网络建立强大的稀疏正则化,实现了较好的模型泛化,解决了遥感图像分类中的过拟合问题。在卷积层都加入了Dropout,其随机化选择的概率取值为0.5,迭代次数为1 000,学习率为0.006 5。

图2   实验采用的卷积神经网络结构

Fig.2   Convolutional neural network structure used in the experiment

2.3.2 纹理特征提取参数设置


3 分类精度对比分析

3.1 分类结果分析


图3   研究区域分类结果

Fig.3   Results of regional classification


图4   研究区域A的典型区域(a,b,c)分类结果对比

Fig.4   Three typical image subsets (a, b and c) with their classification results in study site A



图5   研究区域B的典型区域(a,b,c)分类结果对比

Fig.5   Three typical image subsets (a, b and c) with their classification results in study site B

3.2 分类精度评价



表3   CNN、TSP-SVM和SP-SVM方法在研究区A的分类精度对比(%)

Table 3   Classification accuracy evaluation of CNN, TSP-SVN and SP-SVM in study site A (%)


注:a:小叶章群落 b:漂筏苔草群落 c: 乌拉苔草群落 d: 毛果苔草群落


表4   CNN、TSP-SVM和SP-SVM方法在研究区B的分类精度对比(%)

Table 4   Classification accuracy evaluation of CNN, TSP-SVN and SP-SVM in study site B(%)


注:a:小叶章群落 b:漂筏苔草群落 c: 乌拉苔草群落 d: 毛果苔草群落


表5   研究区域分类精度对比

Table 5   Comparison of classification accuracy in the study area



4 结论与讨论

高分辨率的湿地遥感影像为提高湿地分类精度提供了可能,但是湿地影像中植被的光谱特征相似性较大,植被类型没有明显的地物边界。因此对于高分辨率的遥感影像来说,选取先进有效的分类方法对于地物提高分类精度是十分必要的。通过实验表明: 基于像素的SVM分类方法,在分类中加入了纹理光谱特征后,其分类方法和基于光谱特征的SVM方法相比较分类精度略有提升。而基于块的CNN分类方法,块中包括了光谱、纹理、大小、颜色等语义特征,因此在湿地遥感分类中,总体分类精度要高于TSP-SVM方法4%左右。 基于像素的分类方法会产生错误分类像素的椒盐效应,并且很难处理来自高分辨率数据的丰富信息。通过实验结果对比,CNN方法对湿地影像的分类结果中椒盐现象得到了极大的缓解。 CNN算法的关键特征是它不需要人工预先提取特征,通过一种端对端的方式完成对图像的处理和分类,因此具有更强的泛化能力。一方面,CNN分类器对于边界的处理精度不及SVM分类器,分类中会有沿着对象边界的不确定性的现象,从而在一定程度上导致过度平滑。另一方面,在使用CNN分类器中,即使光谱特征显著的物体,但是空间信息很少,也可能会被错误分类。实验结果表明,CNN作为深层结构的分类器探索了隐藏在高分辨率遥感影像中的复杂空间模式,能够提取到更加丰富的地物语义特征,这些空间模式在浅层结构中不能被发现。因此,使用CNN方法对高分辨率的湿地遥感影像分的分类更加准确,具有一定的实用价值。在今后的研究中尝试通过使用与CNN复合的分类器对高分辨率遥感影像分类,克服CNN的边界提取不足的问题,能得到更准确的分类结果。

The authors have declared that no competing interests exist.


