基于随机森林与特征选择的藏东南土地覆被分类方法及精度评价

张炳华; 张镱锂; 谷昌军; 魏博

doi:10.13249/j.cnki.sgs.2023.03.002

地理科学 >

2023 , Vol. 43 >Issue 3: 388 - 397

DOI: https://doi.org/10.13249/j.cnki.sgs.2023.03.002

青藏高原土地利用变化及其生态环境效应专栏

基于随机森林与特征选择的藏东南土地覆被分类方法及精度评价

张炳华 ^,¹^,² ,
张镱锂 ¹ ,
谷昌军 ¹^,² ,
魏博 ¹^,²

展开

1.中国科学院地理科学与资源研究所陆地表层格局与模拟重点实验室，北京 100101
2.中国科学院大学，北京 100049

张炳华（1991—），女，山东潍坊人，博士研究生，主要从事土地覆被变化、环境遥感研究。E-mail: zhangyl@igsnrr.ac.cn

收稿日期: 2022-01-06

修回日期: 2022-04-17

网络出版日期: 2023-03-20

基金资助

第二次青藏高原综合科学考察研究项目(2019QZKK0603)

中国科学院战略性先导科技专项(XDA20040201)

版权

收起

Land cover classification based on random forest and feature optimism in the Southeast Qinghai-Tibet Plateau

Zhang Binghua ^,¹^,² ,
Zhang Yili ¹ ,
Gu Changjun ¹^,² ,
Wei Bo ¹^,²

Expand

1. Key Laboratory of Land Surface Pattern and Simulation, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
2. University of Chinese Academy of Sciences, Beijing 100049, China

Received date: 2022-01-06

Revised date: 2022-04-17

Online published: 2023-03-20

Supported by

The Second Tibetan Plateau Scientific Expedition and Research(2019QZKK0603)

Strategic Priority Research Program of the Chinese Academy of Sciences(XDA20040201)

Copyright

Fold

摘要

由于云污染、实地验证点的匮乏，以及地形地貌的复杂、破碎化，多云山区土地覆被的准确分类较难实现。以藏东南这一典型的多云山区及生态过渡区为研究区，基于Google Earth Engine（GEE）平台和野外实测数据，结合多光谱数据、雷达数据、高程数据、辅助数据，提取光谱特征、纹理特征、地形特征等信息，利用递归特征消除法对特征进行优化，并采用随机森林算法构建分类模型，以期有效利用多源遥感数据提高土地覆被分类精度。结果表明：① 并非特征越多分类精度越高，特征选择后数量由58个减至38个，分类精度（总体精度93.96%，Kappa系数0.92）较未优化前（总体精度93.11%，Kappa系数0.92）略有提升。② 地形特征及雷达特征对藏东南土地覆被分类具有重要作用，地形特征对多数土地覆被类型的分类精度具有影响，而雷达数据对裸地、建设用地、灌丛影响较大，分类过程中如不考虑地形及雷达特征，总体精度分别降至88.98%，92.48%。纹理特征以及时序特征仅对提高具有明显纹理以及时序变化的土地覆被类型的精度有帮助。结合随机森林和特征优化算法，能够在保证土地覆被分类精度的同时，高效整合多源数据信息，加快模型运算速度，为多云山区土地覆被分类提供切实可行的方法。

关键词： 随机森林; 土地覆被分类; Google Earth Engine (GEE)平台; 特征优化; 藏东南

本文引用格式

张炳华 , 张镱锂 , 谷昌军 , 魏博 . 基于随机森林与特征选择的藏东南土地覆被分类方法及精度评价[J]. 地理科学, 2023 , 43(3) : 388 -397 . DOI: 10.13249/j.cnki.sgs.2023.03.002

Abstract

Obtaining accurate land cover information in cloudy mountain areas are severely impacted by cloud contaminations, the scarcity of field validation points, and the complexity and fragmentation of landforms. Taken the Southeast Qinghai-Tibet Plateau, a typical cloudy mountainous area and ecological transition zone, as study area, this research first extract the spectral features, radar features, textual features, topographic features through the spectral data, radar data, DEM data and auxiliary data based on the Google Earth Engine and filed observed data. Then we built the random forest model and made feature reduction using recursive feature elimination, in order to improve the accuracy of land cover classification by using multi-source remote sensing data effectively. Results showed that: 1) The feature numbers reduced from 58 to 38 after feature optimization, classification accuracy (overall accuracy 93.96%, Kappa coefficient 0.92) slightly improved compared to unoptimized (overall accuracy 93.11%, Kappa coefficient 0.92); 2) Topographic and radar features played an essential role in the land cover classification of mountainous cloudy areas. If the topographic features and radar feature were excluded, accuracies would decrease to 88.98% and 92.48%, respectively. Topographic features would influence the classification accuracy of most land cover types, while radar features had more impacts on bare lands, construction lands, and shrublands. Textual features and sequential features could only help to increase the accuracy of land cover type with significant textual features and temporal variations. More accurate land cover information can be detected by combing the random forest and feature optimization algorithm, while also provide a more efficient and faster way of integrating multisource data, thus making contribution to land cover classification of the cloudy and mountainous area.

Key words： random forest; land cover classification; Google Earth Engine (GEE); feature optimism; the Southeast Qinghai-Tibet Plateau

山地占地球陆地表面的22%，是全球13%的人口的家园；同时也包含全球约半数的生物多样性热点地区^[1]。受地形、交通因素的限制，山地地区、尤其是欠发达国家山地地区的人民维持生计极度依赖自然资源，致使毁林开荒等生态问题较为显著^[2]。监测生态环境变化、评估生态风险对山地地区的可持续发展具有重要意义。土地覆被是理解气候变化与人类活动交互作用的重要信息源^[3]。山地地区地势复杂，野外测量工作较难实施；利用遥感数据进行土地覆被制图，能够为山地地区的科学研究以及决策管理提供及时有效的基础数据。然而，受地形效应的影响，光照不均、光照角度变化、阴影叠加，山地地物光谱特征较为复杂，“异物同谱”“同物异谱”现象较为普遍，为准确分类带来较大困难^[4]；而多云山区很难获取单时相、高质量的遥感影像，进一步增加了分类难度。传统分类方法（目视解译）难以在精度及效率上满足要求^[5]，而诸多研究发现支持向量机、决策树、随机森林等机器学习算法能够取得良好的分类结果^[6-7]；结合多源遥感影像优势以及辅助信息，采用不同类型特征，能够减少云污染、阴影等因素带来的不确定性，提高山地土地覆被的分类精度。如Gartzia等^[8]利用Landsat影像对西班牙比利牛斯山脉进行分类，发现结合随机森林、地形特征及光谱特征可将分类精度提高4%~11%。Jin等^[9]将NDVI时间序列、纹理特征、地形特征加入随机森林对山区农田进行分类，提升了分类精度。但这些研究输入数据尚且有限，未考虑选取的特征是否冗余。

卫星的不断发射，以及云计算技术的迅速发展，为土地覆被分类这一传统科学问题注入了新的活力。其中，作为一个PB量集的数据科学计算与地理可视化平台，Google Earth Engine（GEE）云计算平台存储了大量的历史影像及数据资源，极大简化了遥感数据的预处理及后期分析过程^[10]。不同分辨率、不同遥感方式的数据，辅助数据、兴趣点数据等相结合^[11-13]，为数据相对匮乏的山地多云地区的土地覆被分类带来更多可能性。但增加数据并不能无限制提高分类精度^[14]：随着数据增加，数据中的噪音、冗余信息使得模型的稳定性及可解析度受到影响，增加了模型过拟合的风险^[15]，因此有必要在分类前对特征进行筛选。特征选择能够减少无关数据，降低机器学习难度，提高模型精度，减少模型冗余^[16]。常见的方法有过滤式、嵌入式以及包裹式。其中，递归特征消除法（Recursive feature elimination, RFE）是一种经典的包裹式算法，能够在城市、湿地、森林等的土地覆被分类研究中提取有效特征 ^[13,17]。

藏东南位于喜马拉雅山脉东端，是全球生物多样性热点地区^[18]，是全球200个重要的生态区域之一^[19]，是中国森林资源的主要分布地，具有重要的水源涵养、固碳制氧、生物多样性保护功能^[20]。受海拔落差、气候条件等影响，土地覆被变化复杂多样；同时作为西藏地区降水的主要传输通道^[21]，该地区水汽充沛，常年被云雾覆盖，给分类带来了极大的困难与挑战；再加交通不便，样本点难以获取，该地区的土地覆被研究较匮乏。已有研究范围较局限^[22]，或仅仅针对单一覆被类型^[23]，数据源比较单一^[24]。本文尝试利用GEE平台，结合多源遥感数据的优势，对藏东南进行土地覆被分类。研究目的为：① 利用特征选择分析影响藏东南地区土地覆被分类精度的特征。② 评价特征选择结合GEE平台在多云山地地区土地覆被分类的潜力。本文可为有效利用遥感云计算平台及海量影像数据，实现多云山区土地覆被分类提供方法支持。

1 数据和方法

1.1 研究区概况

本研究研究区包括西藏东南部的林芝、山南二市（图1）。研究区位于喜马拉雅山脉东段，中部拥有世界最深最宽的大峡谷——雅鲁藏布大峡谷。区内落差巨大，从最高峰南迦巴瓦峰7 782 m，到南侧雅鲁藏布江下游平原地区不足100 m，落差达7 000余米。气候差异较为显著，东南湿润多雨，西北地区寒冷干燥。在高程及气候因素的共同影响下，自东南向西北，从以森林为主要土地覆被类型，过渡到以草地为主要覆被类型。

显示原图|下载原图ZIP|生成PPT

图1 研究区概况及采样点位置

Fig. 1 Overview of the study area and location of sampling points

1.2 数据来源及预处理

本文采用以下数据：① Landsat 8 OLI地表反射数据（GEE产品名称LANDSAT/LC08/C01/T1_SR），空间分辨率30 m，2018—2020年所有影像（1 093景），通过产品中的CFMASK图层对云、阴影进行掩膜处理。② Sentinel 1哨兵雷达数据（GEE产品名称COPERNICUS/S1_GRD），数据分辨率10 m，2018—2020年所有的影像（2 675景）。产品已经过热噪声去除、辐射校正，以及地形矫正预处理。本文通过多时相滤波处理影像噪声。③高程数据采用航天飞机雷达地形测绘使命数据（SRTM）（GEE产品名称USGS/SRTMGL1_003），空间分辨率为30 m。

样本数据通过野外调研和Google earth（ https://earth.google.com/web/）选点2种途径获得。2019年4—5月，在林芝、山南两地采集样本点。主要采用沿道路采样的方法，每10 km内至少记录一个采样点，并记录8个方位（北，北偏东45°，东，东偏南45°，南，南偏西45°，西，西偏北45°）内的土地覆被信息，用于后期选点参考。共获取野外调查点579个。考虑研究区土地覆被特点，将研究区土地覆被分为9个类型：裸地、农田、森林、草地、灌丛、湿地、建设用地、积雪、水体。对于一些难以到达的区域，以及较难采样的土地覆被类型（如积雪），参考了全球土地覆盖的更精细分辨率观测和监测数据集^[25]、第二次冰川编目数据^[26]，结合谷歌影像数据选择样本点。最终获取验证点3 222个。

1.3 研究方法

本文技术路线见图2。本研究采用多源遥感影像，获取 58个土地覆被分类特征，结合递归特征消除法（Recursive feature elimination, RFE）以及随机森林模型，选取最优特征（方案一），完成土地覆被分类，并与未进行特征选择的方案进行精度比较。为讨论不同特征对各类型土地覆被分类结果的影响，进一步设计了4种方案，分别删除了时序特征（方案二）、纹理特征（方案三）、地形特征（方案四）、雷达特征（方案五），与进行特征选择的方案（方案一）进行比较。

显示原图|下载原图ZIP|生成PPT

图2 基于特征选择与随机森林的藏东南土地覆被分类技术路线

Fig. 2 Technology road of land cover classification in the Southeast Qinghai-Tibet Plateau based on random forest and feature optimism

1.3.1 分类特征的选取与优化

光谱特征方面，为降低低质量数据（积雪、云、过亮以及过暗的像元值）对分类精度的影响，选择Landsat时序数据的中值输入^[27]。除Landsat 数据原始的B1~B7波段外，反演了归一化植被指数（NDVI）、归一化水体指数（NDWI）、归一化建筑指数（NDBI）、土壤调节植被指数（SAVI）、增强植被指数（EVI） 5个指数，具体含义以及反演公式见表1。

表1 本研究采用指数反演公式及含义解释

Table 1 Formulas used in this study and their explanations

指数	指数反演公式	指数含义解释	文献
注：NIR，近红外波段；MIR，中红外波段；SWIR，短波红外波段； $ Red $ ，红波段； $ Green $ ，绿波段； $ Blue $ ，蓝波段； $ {Z}_{i} $ ，中心点 $ i $ 的高程； $ {\bar {Z}}_{\bar {R}\left(i\right)} $ ，以 $ i $ 为圆心，半径为 $ R $ 的圆内的平均高程，本研究半径为3 000 m； $ \alpha $ ，上游单位等高线集水面积； $ \beta $ ，梯度；VH，交叉极化后向散射系数；VV，同极化后向散射系数；max，数值最大的5%的平均值；min，最小的5%的平均值；range，两者的差值；stdDev，标准差。
归一化植被指数（NDVI）	$ NDVI=\dfrac{NIR-Red}{NIR+Red} $	表征植被生长状态和植被覆盖度的重要参数。研究输入：中值，max，min，range，stdDev	^[28]
归一化水体指数（NDWI）	$ NDWI=\dfrac{Green-NIR}{Green+NIR} $	用于水体信息的提取，能在一定程度上抑制植被信息。研究输入：中值，max，min，range，stdDev	^[29]
归一化建筑指数（NDBI）	$ NDBI=\dfrac{MIR-NIR}{MIR+NIR} $	用于提取建设用地信息。研究输入：中值，max，min，range，stdDev	^[30]
土壤调节植被指数（SAVI）	$ SAVI=\left(\dfrac{NIR-Red}{NIR+Red+0.5}\right)*1.5 $	降低土壤背景对植被的影响。研究输入：中值，max，min，range，stdDev	^[31]
增强植被指数（EVI）	$ EVI=2.5\dfrac{NIR-Red}{NIR+6Red-7.5*Blue+1} $	相比NDVI，对冠层结构、生物量高值区更为敏感。研究输入：中值，max，min，range，stdDev	^[32]
积雪指数（NDSI）	$ NDSI=\dfrac{Green-SWIR}{Green+SWIR} $	用于分辨积雪。研究输入：min	^[33]
归一化极化指数（Pol）	$ Pol=\dfrac{VH-VV}{VH+VV} $	对粗糙表面、植被结构、生物量有较好的敏感性，可用于区别裸地以及森林。输入：平均值	^[34]
地形位置指数（TPI）	$ TPI={Z}_{i}-{\bar {Z}}_{\bar {R}\left(i\right)} $	代表某点相对于周边的相对高度，可以用来描绘低洼的地形	^[35]
地形湿度指数（TWI）	$ TWI=\mathrm{l}\mathrm{n}\left(\dfrac{\alpha }{tan\beta }\right) $	代表某点的相对土壤湿度。值越高说明潜在土壤湿度更高	^[36]

利用灰度共生矩阵获取地物的纹理特征。灰度共生矩阵描述了图像像元灰度的空间分布和结构特征。本文利用B4波段，反演了GEE提供的17个量化灰度共生矩阵的指标^[37]：角二阶矩阵（ASM）、熵（ENT）、反差分矩阵（IDM）、对比度（CONTRAST）、自相关（CORR）、方差（VAR）、求和均值（SAVG）、总和方差（SVAR）、和熵（SENT）、差方差（DVAR）、差熵（DENT）、相关信息测度1（IMCORR1）、相关信息测度2（IMCORR2）、相异性（DISS）、惯量（INTERIA）、集群阴影（SHADE）、集群突出物（PROM）。

季节差异可以较好区分一些覆被类型：如常绿林与周围的落叶阔叶灌丛、南部农田与常绿林在秋冬季节更容易区分；常绿林植被指数年际波动较小，而农田、草地的植被指数年际波动相对较大。因此本文选取部分指数（表1）数值最大的5%的平均值（max）、最小的5%的平均值（min）、两者的差值（range），以及影像的标准差（stdDev）辅助分类。对于积雪指数（NDSI），本文只选用最小值，因为其他时段的积雪指数信息可能会对分类产生干扰。

雷达数据在经过预处理后，对3 a影像取平均值，随后提取交叉极化后向散射系数（VH）与同极化后向散射系数（VV）。计算归一化极化指数（Pol）。将数据空间分辨率重采样到30 m。

此外，在山地地区，土地覆被的整体分布特征往往会随海拔变化产生规律性变化，而不同土地覆被、植被的分布往往也与坡度、坡向相关：从低海拔至高海拔地区，占据优势的土地覆被类型由森林、灌丛向草地、裸地等类型过渡；在海拔较低的地区，山体阴坡更为湿冷，适合生长森林，而阳坡由于温暖、干燥，灌丛为主要的土地覆被类型；上升至海拔较高的区域，阴坡变为灌丛，而阳坡则由草地代替。综上所述，我们选择高程（Elevation）、坡度（Slope）、坡向（Aspect）作为输入特征。此外，诸如农田、湿地、建设用地往往分布于地势相对低洼，坡度较为缓和、存水条件较好的区域，因此本研究反演了TPI（地形位置指数）、TWI（地形湿度指数）。

共生成58个特征，采用RFE算法进行特征选择，利用python sklearn库实现。RFE是一种寻找最优特征子集的贪心算法。该算法计算随机森林中每个特征对应的重要性，在每轮迭代中将重要性最小的特征剔除，然后进行新一轮的迭代，特征被消除的次序就是特征的排序^[15]。

1.3.2 随机森林分类

本研究选择随机森林（Random forest）作为分类算法。随机森林是一种以决策树为基分类器的集成学习算法。在原始训练样本中，采用bootstrap抽样方法抽取N个样本集，在每个样本集内从M个总特征中随机选择m个特征，根据Gini系数最小原则，选出最优特征进行内部节点分支，构建决策树。最终分类结果由森林中N棵决策树投票获得。该算法能够处理高维数据的分类问题，在不显著提高运算量的条件下提高运算精度，不易发生过拟合，且对缺失数据和非平衡数据较为稳健^[38]。

1.3.3 精度评价

特征选择阶段，采用交叉验证方法^[39]计算精度。将所有样本点均分为10份，用其中的9份作为训练样本，其余一份作为验证样本。重复10次，最后计算10次分类精度的平均值。土地覆被分类阶段，在GEE上随机选择70%的样本点用于训练，30%的样本点用于验证，采用混淆矩阵，以总体精度、Kappa系数，生产者精度、用户精度以及袋外误差作为评价指标。重复上述过程20次，选择分类精度最高的一组样本点以及验证点，进行后期多个分类方案的比较。为了确保实验结果的可对比性，各方案训练点与样本点保持不变。

2 结果

2.1 藏东南土地覆被分类最优特征选择

模型的精度随着特征个数增多而迅速增加，在特征个数为11时精度达到0.90，随后精度增速减缓，特征个数大于29后，精度基本在0.90~0.91间浮动（图3）。精度最高时特征取38。基于优化的特征，构建随机森林模型，并比较58个特征，优化29个特征以及优化38个特征构建的模型的分类精度（表2）。58个特征以及29个特征构建的模型精度基本持平。优化特征为38个时，总体精度、Kappa系数最大，袋外误差最小，各地类的精度均比原始58个特征模型精度高（或持平），最终选择优化38个特征，作为模型的输入特征。藏东南地区的土地覆被分类中，农田、森林、积雪以及水体的分类精度相对较高，均在95%以上，而草地、湿地以及建设用地分类精度较低。草地易分为农田、裸地、灌丛以及湿地。湿地则易分为灌丛、草地以及农田。裸地与建设用地的混分依旧是需要进一步解决的问题。

显示原图|下载原图ZIP|生成PPT

图3 不同特征条件下随机森林分类精度变化

b为a在特征个数为17~55的局部放大，虚线用来标明交叉验证精度最高时对应的特征个数

Fig. 3 Accuracy variation of random forest classification under different feature schemes

表2 经过特征优化的随机森林分类结果与未经特征优化的结果对比

Table 2 Comparison of the results of random forest classification before and after the feature optimism

土地覆被类型	原始结果		特征优化结果1（29）		特征优化结果2（38）
土地覆被类型	制图精度/%	用户精度/%	制图精度/%	用户精度/%	制图精度/%	用户精度/%
注：括号内数字为优化特征数量；黑体数值表示横向比较不同分类结果精度的最大值，当最大值对应的方案个数超过1个时未标明。
裸地	91.03	92.21	91.03	93.42	91.03	91.03
农田	96.62	90.51	95.95	89.87	97.97	91.77
森林	97.22	98.79	98.02	99.20	97.62	98.80
草地	78.16	87.18	82.76	87.80	81.61	89.87
灌丛	91.78	87.58	89.73	87.33	92.47	90.00
湿地	80.00	91.43	80.00	91.43	82.50	94.29
建设用地	89.39	89.39	86.36	87.69	89.39	89.39
积雪	100.00	97.98	100.00	97.98	100.00	97.98
水体	100.00	100.00	100.00	100.00	100.00	100.00
总体精度/%	93.11		93.11		93.96
Kappa系数	0.92		0.92		0.93
袋外误差	0.08		0.08		0.07

通过特征重要性排名（图4），可以看出地形特征相对较为重要，5个地形特征中有4个被选中，其中海拔特征重要性排名第1，坡度为第3；雷达特征重要性也较高，VH、VV以及Pol分别排在第2、4、9位。光谱特征中，NDVI、NDBI、NDWI相对更为重要。在特征优化过程中，删除最多的特征为纹理特征，17个纹理特征中仅有4被选中。

显示原图|下载原图ZIP|生成PPT

图4 特征重要性排名

特征解释见1.3.1

Fig. 4 Ranks of the feature importance

2.2 基于不同特征的土地覆被分类精度对比

对分类影响最大的特征为地形特征，去除地形特征后，整体精度下降4.98%（表3）。受影响最大的为建设用地，制图精度以及用户精度分别下降15.15%、14.01%，有更多的建设用地被识别为灌丛。其次为灌丛，制图精度下降9.59%和9.15%，许多灌丛被识别为农田、建设用地。裸地的制图精度下降6.41%，许多裸地被识别为建设用地。此外，湿地、农田以及草地的精度也均有不同程度的下降。删除雷达要素的后整体精度下降1.48%。影响最大的是建设用地，用户精度降低8.84%，制图精度减少1.52%；灌丛的制图精度下降了3.42%，水体的用户精度下降了3.23%。并不是所有的覆被类型精度都降低了。湿地、农田以及森林的精度有所提高。光谱时序特征主要对裸地、农田、及灌丛分类有影响。剔除时序特征后，裸地易被分为草地和灌丛；农田与灌丛混分的几率增高。纹理特征的影响相对较小，删除后灌丛和建设用地精度降低，草地、湿地精度略有增加。可从空间图（图5）上进一步比较不同特征对土地覆被分类的影响。方案四与方案五建设用地分类效果较差。没有地形特征参与分类，区域1分类得到的建设用地零散地分布在灌丛之间。此外，区域2中，方案四的部分农田被划分在森林与灌丛之间的半山腰处，方案五中，河流边有更多的土地被划分为建设用地。区域2方案2，删除时间序列后有更大范围的土地被分为积雪。

表3 基于不同特征选择的随机森林分类方案结果精度比较

Table 3 Accuracy comparison of random forest classification results based on different feature selection schemes

	方案一		方案二		方案三		方案四		方案五
	制图精度/%	用户精度/%	制图精度/%	用户精度/%	制图精度/%	用户精度/%	制图精度/%	用户精度/%	制图精度/%	用户精度/%
注：黑体数值表示横向比较不同分类方案中精度的最大值，当最大值对应的方案个数超过1个时未标明。
裸地	91.03	92.21	83.33	91.55	91.03	91.03	84.62	91.67	88.46	90.79
农田	96.62	90.51	93.92	84.24	95.95	89.87	93.24	84.66	97.30	91.14
森林	97.22	98.79	97.22	98.79	97.22	98.39	97.22	97.61	97.62	99.19
草地	78.16	87.18	77.01	85.90	81.61	88.75	74.71	83.33	77.01	85.90
灌丛	91.78	87.58	87.67	84.77	88.36	86.58	82.19	78.43	88.36	87.76
湿地	80.00	91.43	80.00	88.89	80.00	94.12	75.00	90.91	82.50	94.29
建设用地	89.39	89.39	87.88	87.88	87.88	86.57	74.24	75.38	87.87	80.55
积雪	100.00	97.98	100.00	97.98	100.00	97.98	100.00	97.98	100.00	97.98
水体	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	96.77
总体精度/%	93.96		91.21		92.69		88.98		92.48
Kappa系数	0.93		0.90		0.91		0.87		0.91
袋外误差	0.07		0.09		0.08		0.11		0.08

显示原图|下载原图ZIP|生成PPT

图5 基于不同特征选择的分类方案空间分布结果比较

区域1与区域2各方案图例与研究区整体分类结果图例相同

Fig. 5 Comparison of spatial distribution results of classification schemes based on different feature selection

3 讨论

本研究通过递归特征消除法，使特征个数减少34.48%的同时，整体精度略有升高，农田、草地以及湿地的分类精度均有所上升。而特征数为29，即原始特征数一半时，其精度就与原始特征结果基本持平。可见并不是特征越多越好。特征优化能够帮助研究者整合多源数据中的有用信息，提高土地覆被分类的准确性，这与过去在城市^[40]、湿地^[17]等的研究结果一致。

地形因素是藏东南土地覆被分类中最重要的影响因素。这与诸多先前研究结果一致，无论是在气候类型的过渡区、海拔落差大的区域^[13]，亦或是基于像元的分类、面向对象分类的研究^[41]，地形因素对于提高土地覆被制图精度具有重要作用。本研究中受高程影响最大的是建设用地。藏东南地势条件复杂，气候环境恶劣，因此人类定居选址时，会考虑到高程、坡度以及相对周围的高低等因素，在空间上表现较为聚集在河谷等较平坦区域。受地形影响较大的其次是灌丛，灌丛不仅仅是森林向草地过渡的中间类型，并且由于许多次生的灌丛是人类活动作用后的产物，它也是人类活动作用较强的覆被类型（建设用地、农田等）与其他覆被类型之间的过渡类型，因此易与其他类型混分。除去地形信息后，灌丛更易分为农田、建设用地，而草地、裸地、湿地以及建设用地也易被分为灌丛。在所有特征中，地形特征对湿地的影响最大。

与以往研究结果一致，光学遥感以及雷达数据的结合，能够提高土地覆被分类的精度。在没有雷达数据的情况下，本研究建设用地的用户精度下降较大（表3），裸地、灌丛以及湿地易被错分为建设用地。从空间图来看，当去除雷达数据后，建设用地与裸地以及覆盖度较低的植被区将较难区分。Lin^[42]等研究发现，将雷达数据特征与光学遥感影像相结合提取人工不透水层，与仅使用光学影像相比，能够较好地区分人工不透水层与裸地。

从图5来看，时序特征以及纹理特征对分类结果影响相对较小。时序特征能够影响光谱特征随时间变化较大的类型，本研究中主要是农田、灌丛、湿地以及裸地。采用长时序的遥感影像能够有效减少单期影像质量不佳带来的误差^[43]。Cheng^[13]等发现，时序数据对于森林覆被的二级分类必不可少。纹理特征主要对提高几何形状较为明显、规律性强的覆被类型分类精度更有帮助，因此，多被用于提高建设用地^[44]、耕地^[45]等的覆被分类精度；也有研究^[13]表明可以提高纹理特征明显的森林类型的分类精度。在本研究中，删除纹理特征后受影响最大的是建设用地、农田及灌丛。但对于草地、湿地这类没有明显纹理特征的类型并没有影响。本研究中，求和均值（B4_SAVG）的重要性在所有纹理特征中高排名最高，与其他地区的研究结论一致^[40]。

就土地覆被的分类精度来讲，目前案例中草地、湿地分类精度较其他类型低。覆盖度较低的草地，较容易与裸地发生混分。而覆盖度较高的草地，则容易划分为湿地、农田。其中一部分原因，由于样本点本身存在一定误差。如在Google earth上选取样本点，由于“异物同谱”，即使有实地调研、以及辅助影像的参考，依旧会引入部分误差。需建立、健全高原野外土地覆被分类识别库，并剔除异常值的影响。此外，通过表3可知，各种特征对不同覆被类型的分类结果影响不同。未来可对不同的土地覆被类型参数进行优化，以期获得更高的精度。此外，可进一步研究网络大数据信息，专题数据（如土壤数据）等可能对土地覆被分类精度的影响。

4 结论

可用数据的不断增加，以及云计算平台对多源遥感数据信息整合、运算能力的提高，为土地覆被分类问题提供了新的机遇与挑战。本研究结合递归特征消除法以及随机森林模型，整合了多源遥感信息，以藏东南这一典型多云、多山地的土地覆被过渡区作为研究区，进行土地覆被分类。研究发现，以高程、坡度、地形位置指数以及地形湿度指数为代表的地形特征对于山地地区土地覆被的准确分类非常重要，在本文中对除了积雪、水体之外的类型的分类精度都有影响。雷达特征则可以有效降低建设用地与裸地、低覆盖植被的混分。光谱特征可以提高光谱特征随时间明显变化的覆被类型的精度，如农田、灌丛等。纹理特征有助于提升具有明显几何特征的土地覆被类型的分类。本研究中优选出的参数及其对各覆被类型的影响，以及优选参数的方案可为其他高山云雾区的土地覆被分类提供参考信息。

感谢2019年参与藏东南野外工作的刘丹辉、许雪敏、贾力哈斯·节恩斯、孟克祖勒、洛桑加措、平措；感谢刘琼欢、李兰晖为本文提出了有价值的修改意见。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	FAO. Mapping the vulnerability of mountain peoples to food insecurity[M]. Rome, Italy: Food and Agriculture Organization of the United Nations, 2015.

[2]	Tiwari P C. Land-use changes in Himalaya and their impact on the plains ecosystem: Need for sustainable land use[J]. Land Use Policy, 2000, 17(2): 101-111. DOI

[3]	Lambin E F, Geist H, Rindfuss R R. Introduction: Local processes with global impacts[M]. Berlin, Heidelberg: Springer Berlin Heidelberg, 2006.

[4]	Liu Q, Zhang Y, Liu L et al. The spatial local accuracy of land cover datasets over the Qiangtang Plateau[J]. Journal of Geographical Sciences, 2019, 29(11): 1841-1858. DOI

[5]

谷晓天, 高小红, 马慧娟, 等. 复杂地形区土地利用/土地覆被分类机器学习方法比较研究[J]. 遥感技术与应用, 2019, 34(1): 57-67.

Gu Xiaotian, Gao Xiaohong, Ma Huijuan et al. Comparison of machine learning methods for land use/land cover classification in the complicated terrain regions. Remote Sensing Technology and Application, 2019, 34(1): 57-67.

[6]	Adepoju K A, Adelabu S A. Improving accuracy evaluation of Landsat-8 OLI using image composite and multisource data with Google Earth Engine[J]. Remote Sensing Letters, 2020, 11(2): 107-116. DOI

[7]	Maxwell A E, Warner T A, Fang F. Implementation of machine-learning classification in remote sensing: An applied review[J]. International Journal of Remote Sensing, 2018, 39(9): 2784-2817. DOI

[8]	Gartzia M, Alados C L, Pérez-Cabello F et al. Improving the accuracy of vegetation classifications in mountainous areas[J]. Mountain Research and Development, 2013, 33(1): 63-74. DOI

[9]	Jin Y, Liu X, Chen Y et al. Land-cover mapping using random forest classification and incorporating NDVI time-series and texture: A case study of central Shandong[J]. International Journal of Remote Sensing, 2018, 39(23): 8703-8723. DOI

[10]	Gorelick N, Hancher M, Dixon M et al. Google Earth Engine: Planetary-scale geospatial analysis for everyone[J]. Remote Sensing of Environment, 2017, 202: 18-27. DOI

[11]	Liu D, Chen N, Zhang X et al. Annual large-scale urban land mapping based on Landsat time series in Google Earth Engine and OpenStreetMap data: A case study in the middle Yangtze River Basin[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159: 337-351. DOI

[12]	Gu C, Zhao P, Chen Q et al. Forest cover change and the effectiveness of protected areas in the Himalaya since 1998[J]. Sustainability, 2020, 12(15): 6123. DOI

[13]	Cheng K, Wang J, Yan X. Mapping forest types in China with 10 m resolution based on spectral-spatial-temporal features[J]. Remote Sensing, 2021, 13(5): 973. DOI

[14]	Pricet K P, Guo X, Stiles J M. Optimal Landsat TM band combinations and vegetation indices for discrimination of six grassland types in eastern Kansas[J]. International Journal of Remote Sensing, 2002, 23(23): 5031-5042. DOI

[15]	Gregorutti B, Michel B, Saint-Pierre P. Correlation and variable importance in random forests[J]. Statistics and Computing, 2017, 27(3): 659-678. DOI

[16]	Zeferino L B, Souza L, Amaral C et al. Does environmental data increase the accuracy of land use and land cover classification?[J]. International Journal of Applied Earth Observation and Geoinformation, 2020, 91: 102128. DOI

[17]	解淑毓, 付波霖, 李颖, 等. 基于多维度遥感影像的洪河国家级自然保护区沼泽湿地分类方法研究[J]. 湿地科学, 2021, 19(1): 1-16. Xie Shuyu, Fu Bolin, Li Ying et al. Classification method on marsh wetlands in Honghe National Nature Reserve based on multi-dimensional remote sensing images. Wetland Science, 2021, 19(1): 1-16.

[18]	Myers N, Mittermeier R A, Mittermeier C G et al. Biodiversity hotspots for conservation priorities[J]. Nature, 2000, 403(6772): 853-858. DOI

[19]	Olson D M, Dinerstein E. The global 200: A representation approach to conserving the earth's most biologically valuable ecoregions[J]. Conservation Biology, 1998, 12(3): 502-515. DOI

[20]	王兵, 任晓旭, 胡文. 中国森林生态系统服务功能及其价值评估[J]. 林业科学, 2011, 47(2): 145-153. Wang Bin, Ren Xiaoxu, Hu Wen. Assessment of forest ecosystem services value in China. Scientia Silvae Sinicae, 2011, 47(2): 145-153.

[21]	刘天仇. 雅鲁藏布江水文特征[J]. 地理学报, 1999, 54(s1): 157-164. Liu Tianchou. Hydrological characteristics of Yalungzangbo River. Acta Geographica Sinica, 1999, 54(s1): 157-164.

[22]	潘建平, 夏鑫, 阳春花. 结合特征组与分层策略的遥感图像分类研究[J]. 测绘科学, 2019, 44(1): 104-111. Pan Jianping, Xia Xin, Yang Chunhua. Research on remote sensing image classification combined feature groups and hierarchy strategy. Science of Surveying and Mapping, 2019, 44(1): 104-111.

[23]	Reddy C S, Sreelekshmi S, Jha C S et al. National assessment of forest fragmentation in India: Landscape indices as measures of the effects of fragmentation and forest cover change[J]. Ecological Engineering, 2013, 60: 453-464. DOI

[24]	苏立彬, 郭永刚, 吴悦, 等. 基于RS和GIS的西藏林芝地区土地利用类型动态变化[J]. 中国农业大学学报, 2019, 24(10): 170-178. Su Libin, Guo Yonggang, Wu Yue et al. Dynamic change of land use types in Linzhi prefecture of Tibet based on RS and GIS. Journal of China Agricultural University, 2019, 24(10): 170-178.

[25]	Zhang X, Liu L, Chen X et al. GLC_FCS30: Global land-cover product with fine classification system at 30 m using time-series Landsat imagery[J]. Earth System Science Data, 2020, 13: 2753-2776.

[26]	刘时银, 姚晓军, 郭万钦, 等. 基于第二次冰川编目的中国冰川现状[J]. 地理学报, 2015, 70(1): 3-16. Liu Shiyin, Yao Xiaojun, Guo Wanqin et al. The contemporary glaciers in China based on the Second Chinese Glacier Inventory. Acta Geographica Sinica, 2015, 70(1): 3-16.

[27]	Ghorbanian A, Kakooei M, Amani M et al. Improved land cover map of Iran using Sentinel imagery within Google Earth Engine and a novel automatic workflow for land cover classification using migrated training samples[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 167: 276-288. DOI

[28]	Rouse J R, Haas R H, Schell J A et al. Monitoring the vernal advancement and retrogradation (green wave effect) of natural vegetation[R]. Greenbelt, MD: NASA/GSFC, Type III, Final Report., 1974.

[29]	Mcfeeters S K. The use of the Normalized Difference Water Index (NDWI) in the delineation of open water features[J]. International Journal of Remote Sensing, 1996, 17(7): 1425-1432. DOI

[30]	Zha Y, Gao J, Ni S. Use of normalized difference built-up index in automatically mapping urban areas from TM imagery[J]. International Journal of Remote Sensing, 2003, 24(3): 583-594. DOI

[31]	Huete A R. A Soil-Adjusted Vegetation Index (SAVI)[J]. Remote Sensing of Environment, 1988, 25(3): 295-309. DOI

[32]	Huete A, Didan K, Miura T et al. Overview of the radiometric and biophysical performance of the MODIS vegetation indices[J]. Remote Sensing of Environment, 2002, 83(1): 195-213.

[33]	Hall D K, Salomonson V V, Riggs G A. Development of methods for mapping global snow cover using moderate resolution imaging spectroradiometer data[J]. Remote Sensing of Environment, 1995, 54(2): 127-140. DOI

[34]	Hird J N, Delancey E R, Mcdermid G J et al. Google Earth Engine, open-access satellite data, and machine learning in support of large-area probabilistic wetland mapping[J]. Remote Sensing, 2017, 9(12): 1315. DOI

[35]	Gallant J C, Wilson J P. Primary topographic attitudes[M]. New York: Wiley, 2000.

[36]	Beven K J, Kirby M J. A physically based, variable contributing area model of basin hydrology[J]. Hydrological Sciences Journal, 1979, 24(1): 43-69. DOI

[37]	Haralick R M, Shanmugam K, Dinstein I. Textural features for image classification[J]. Studies in Media and Communication, 1973, SMC-3(6): 610-621.

[38]	方匡南, 吴见彬, 朱建平, 等. 随机森林方法研究综述[J]. 统计与信息论坛, 2011, 26(3): 32-38. Fang Kuangnan, Wu Jianbin, Zhu Jianping et al. A review of technologies on random forests. Statistics & Information Forum, 2011, 26(3): 32-38.

[39]	Stone M. Cross-validatory choice and assessment of statistical predictions[J]. Journal of the Royal Statistical Society[J]. Series B (Methodological), 1974, 36(2): 111-147. DOI

[40]	Stromann O, Nascetti A, Yousif O et al. Dimensionality reduction and feature selection for object-based land cover classification based on Sentinel-1 and Sentinel-2 time series using Google Earth Engine[J]. Remote Sensing, 2020, 12(1): 76

[41]	Qu L A, Chen Z, Li M et al. Accuracy improvements to pixel-based and object-based LULC classification with auxiliary datasets from Google Earth Engine[J]. Remote Sensing, 2021, 13(3): 453. DOI

[42]	Lin Y, Zhang H, Lin H et al. Incorporating synthetic aperture radar and optical images to investigate the annual dynamics of anthropogenic impervious surface at large scale[J]. Remote Sensing of Environment, 2020, 242(111757).

[43]	Vuolo F, Neuwirth M, Immitzer M et al. How much does multi-temporal Sentinel-2 data improve crop type classification?[J]. International Journal of Applied Earth Observation and Geoinformation, 2018, 72: 122-130. DOI

[44]	Dekker R J. Texture analysis and classification of ERS SAR images for map updating of urban areas in the Netherlands[J]. IEEE Transactions on Geoscience and Remote Sensing, 2003, 41(9): 1950-1958. DOI

[45]	Mananze S, Pôças I, Cunha M. Mapping and assessing the dynamics of shifting agricultural landscapes using Google Earth Engine cloud computing, a case study in Mozambique[J]. Remote Sensing, 2020, 12(8): 1279. DOI

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 数据和方法

1.1 研究区概况

图1 研究区概况及采样点位置

1.2 数据来源及预处理

1.3 研究方法

图2 基于特征选择与随机森林的藏东南土地覆被分类技术路线

1.3.1 分类特征的选取与优化

表1 本研究采用指数反演公式及含义解释

1.3.2 随机森林分类

1.3.3 精度评价

2 结果

2.1 藏东南土地覆被分类最优特征选择

图3 不同特征条件下随机森林分类精度变化

表2 经过特征优化的随机森林分类结果与未经特征优化的结果对比

图4 特征重要性排名

2.2 基于不同特征的土地覆被分类精度对比

表3 基于不同特征选择的随机森林分类方案结果精度比较

图5 基于不同特征选择的分类方案空间分布结果比较

3 讨论

4 结论

参考文献