本发明属于遥感目标识别技术领域,尤其涉及一种基于云平台融合多源卫星影像和茶树物候期的茶园自动识别方法。
背景技术:
中国作为世界上主要的茶叶生产国,茶园种植面积和茶叶产量均居世界第一。茶树的种植和生产对农业经济和农业发展起着很大的作用,准确获取茶园种植面积和空间分布可以为政府部门进行茶园规划管理、茶叶估产和灾害预防等处理提供科学支撑。
茶树是常绿阔叶多年生灌木,其在光谱特征上与其他常绿植被十分类似,因此难以将其区分开。目前最常用的茶树提取方法为机器学习(chuang,y.-c.m.andy.-s.shiu(2016)."acomparativeanalysisofmachinelearningwithworldview-2pan-sharpenedimageryforteacropmapping."sensors16(5):594.),通过不同特征组合和算法对茶园进行分类。这类方法的缺陷在于需要大量的本地训练样本,难以制作出一个适用于大区域的精准模型,并且复杂的特征组合和指标可能会出现过拟合的现象,在一定程度上降低结果的准确性,并且这种分类算法,操作复杂,难以推广应用。
技术实现要素:
本发明针对现有遥感识别技术中难以准确区分茶树和常绿植被的技术问题,提出一种基于云平台融合多源卫星影像和茶树物候期的茶园自动识别方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于云平台融合多源卫星影像和茶树物候期的茶园自动识别方法,包括:
步骤1、基于googleearthengine云计算平台获取研究期内研究区域中所有landsat7/8和sentinel-2a/b卫星影像,分别对landsat7/8和sentinel-2a/b卫星影像进行预处理,包括:去云处理和波段协调,得到卫星影像数据集;
步骤2:基于所述卫星影像数据集,获取归一化植被指数和地表水分指数时间序列,即获取ndvi和lswi时间序列;
步骤3、根据步骤2中得到的ndvi和lswi时间序列,提取常绿植被区域eva,得到eva分布图;
步骤4、结合纯茶园、混合茶园和其他常绿植被的参考样本数据,利用卫星影像数据集,分别创建纯茶园区域mcta、混合茶园区域pcta和其他常绿植被区域oeva的ndvi时间序列数据集;
步骤5、对步骤4得到的mcta、pcta和oeva的ndvi时间序列数据集进行处理,得到mcta、pcta和oeva的平均ndvi时间序列数据集;
步骤6、根据步骤5中得到的平均ndvi时间序列数据集,根据茶树存在人为采摘和修剪的人工管理方式导致的物候特征,提取mcta与pcta、oeva的分类物候指标,生成分类物候指标直方图;
步骤7、根据步骤6中得到的分类物候直方图构建mcta识别模型;
步骤8、根据步骤7中构建的mcta识别模型对步骤3中得到的eva分布图进行分类,得到mcta分布图;
步骤9、利用步骤8中得到的mcta分布图对步骤3中得到的eva分布图进行掩膜处理,得到非mcta的常绿植被分布图;
步骤10、根据步骤5中得到的平均ndvi时间序列数据集,根据pcta区存在落叶林和茶树共存特征的种植模式,提取pcta与oeva的分类物候指标,生成pcta与oeva分类的物候指标直方图;
步骤11、根据步骤10中得到的pcta与oeva分类的物候指标直方图构建pcta识别模型;
步骤12、根据步骤11中构建的pcta识别模型对步骤9中得到的非mcta的常绿植被分布图进行分类,得到pcta分布图;
步骤13、利用步骤8中得到的mcta分布图和步骤s11中得到的pcta分布图对步骤3中得到的eva分布图进行掩膜处理,得到oeva分布图。
进一步地,所述对landsat7/8和sentinel-2a/b卫星影像进行预处理包括:
利用fmask算法对所述卫星影像进行观测值提取,去除云、云阴影、卷云和冰/雪覆盖的观测值;再利用最小二乘法将landsat7和sentinel-2a/b的波段反射率协调至landsat8标准,获得可相互比对的卫星影像数据集。
进一步地,所述步骤5中,按照如下方式对ndvi时间序列数据集进行处理:
计算每10天ndvi的最大值作为综合ndvi值,获得等时间间隔时间序列ndvi数据集;在缺失10天的观测值的地区,根据10天前、后的观测值进行线性插值;使用savitzky-golay滤波器对ndvi数据集进行平滑处理。
进一步地,所述步骤3包括:
按照如下方式提取常绿植被区域eva:
lswi>0andfreq>90%
ndvimax1>0.4andndvimax2>0.4
其中freq为lswi大于0的观测频率,ndvimax1和ndvimax2分别为1月1日至2月1日、12月1日至次年1月1日ndvi的最大值。
进一步地,所述步骤6包括:
根据茶的生长特征,将一年分为7个时期,分别为1年的第0-50天,第50-120天,第120-180天,第180-240天,第240-290天,第290-330天和第330-360天,按照时间顺序分别命名为tw1~tw7,根据tw1~tw7来提取用于分类的物候指标。
进一步地,所述步骤6中,mcta与pcta、oeva的分类物候指标包括:tw2时期识别到的第一个峰值sdp1,tw3时期识别到的第一个低谷sdv,tw4时期识别到的第一个峰值sdp2,tw1~tw7时期识别到的峰值个数np。
进一步地,所述步骤7中,mcta识别模型为:
50<sdp1<120&120<sdv<180&180<sdp2<240&np≥2。
进一步地,所述步骤10中,pcta与oeva的分类物候指标包括:tw5时期的绿色衰退速率gas;tw6时期识别到的第一个峰值sdp3;tw7时期的ndvi中位数ndvi_median。
进一步地,所述绿色衰退速率gas的计算方式如下:
tw5时期第一个ndvi值和tw5时期低谷的ndvi值的差值与二者日期跨度的比值,如果没有识别到tw5时期低谷则将tw5时期最后一个ndvi值进行替换。
进一步地,所述步骤11中,pcta识别模型为:
gas>0.001&270<sdp3<330&ndvi_median<0.6。
与现有技术相比,本发明具有的有益效果:
(1)本发明充分利用了茶园存在的人工管理方式和人工种植模式导致的独特物候指标,更符合茶园的真实生长规律,生成的物候指标地图对茶园的生长监测具有指导意义;
(2)本发明可以提取过去和预测未来的茶种植面积,为茶园等其他地物的识别提供了一种新的研究思路;
(3)本发明融合了研究区和研究期内所有landsat7/8和sentinel-2a/b卫星影像,有利于捕捉茶园的关键物候期,有效提高了茶园识别的精度,实现了基于云计算平台耦合多源卫星影像和茶树物候期的茶园自动化识别。
附图说明
图1为本发明实施例一种基于云平台融合多源卫星影像和茶树物候期的茶园自动识别方法的流程图;
图2为本发明实施例生成的eva分布图;
图3为本发明实施例生成的mcta、pcta、oeva分布图;
图4为本发明实施例生成的分类物候指标直方图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
如图1所示,一种基于云平台融合多源卫星影像和茶树物候期的茶园自动识别方法,包括:
s1、基于googleearthengine云计算平台获取研究期(茶树一个完整生命周期)内研究区域中所有landsat7/8和sentinel-2a/b卫星影像,分别对landsat7/8和sentinel-2a/b卫星影像进行预处理,包括:去云处理和波段协调,得到卫星影像数据集;作为一种可实施方式,以2019年为研究期,以河南省信阳市浉河区为研究区域。
进一步地,所述对landsat7/8和sentinel-2a/b卫星影像进行预处理包括:
利用fmask算法对所述卫星影像进行观测值提取,去除云、云阴影、卷云和冰/雪覆盖的观测值;再利用最小二乘法将landsat7和sentinel-2a/b的波段反射率协调至landsat8标准,获得可相互比对的卫星影像数据集。
s2、基于所述卫星影像数据集,获取归一化植被指数和地表水分指数时间序列,即获取ndvi和lswi时间序列;
具体地,ndvi和lswi计算公式分别为:
其中ρnir,ρred和ρswir分别代表卫星影像数据中的近红外波段、红色波段和短波红外波段。
s3、根据步骤s2中得到的ndvi,lswi时间序列数据集,提取常绿植被区域eva,得到eva分布图;
进一步地,按照如下方式提取常绿植被区域eva:
lswi>0andfreq>90%
ndvimaxl>0.4andndvimax2>0.4
其中freq为lswi大于0的观测频率,ndvimax1和ndvimax2分别为1月1日至2月1日、12月1日至次年1月1日ndvi的最大值。作为一种可实施方式,ndvimax1和ndvimax2分别为2019年1月1日至2019年2月1日、2019年12月1日至2020年1月1日ndvi的最大值。
s4、结合纯茶园、混合茶园和其他常绿植被的参考样本数据,利用卫星影像数据集,分别创建纯茶园区域mcta、混合茶园区域pcta和其他常绿植被区域oeva的ndvi时间序列数据集;具体地,通过实地调查和谷歌影像目视解译收集了550个eva样本点和456个non-eva地面参考数据样本点,利用样本点分别创建mcta、pcta和oeva的ndvi时间序列数据集。
s5、对步骤s4得到的mcta、pcta和oeva的ndvi时间序列数据集进行处理,得到高质量mcta、pcta和oeva平均ndvi时间序列数据集;
进一步地,处理方式为:首先计算10天所有ndvi最大值作为综合ndvi值,获得等时间间隔时间序列ndvi数据集,其次基于10天前、后的高质量观测值对空隙进行线性插值,最后使用savitzky-golay滤波器(s-g滤波器)平滑ndvi时间序列数据集。
s6、根据步骤s5中得到的平均ndvi时间序列数据集,根据茶树存在人为采摘和修剪的人工管理方式导致的物候特征,提取mcta与pcta、oeva的分类物候指标,生成分类物候指标直方图;
具体地,我们计算了处理后mcta,pcta和oeva的平均ndvi时间序列曲线。根据现场调查获取的信息,单独种植的茶在2月下旬开始发芽(ndvi逐渐上升),并于4月份达到生长旺盛期(ndvi达到局部峰值),此时茶进行第一轮采摘(ndvi下降),直到4月下旬进行修剪(ndvi产生一个谷底)。修剪后的茶继续生长,于8月份再次达到生长旺盛期(ndvi达到局部峰值),此时茶进行第二轮采摘(ndvi下降),此后茶将持续生长至11月下旬,随后进入越冬期。根据茶的生长特征,我们将一年分为7个时期,这7个时期的doy分别为0-50,50-120,120-180,180-240,240-290,290-330和330-360,按照时间顺序将其命名为tw1~tw7。我们将根据tw1~tw7这7个时间窗口来提取用于分类的物候指标。
根据步骤s5中得到的平均ndvi时间序列数据集,发现在tw2~tw4期间,混合茶园区域pcta的板栗和oeva一直处于生长状态,因此ndvi时间序列在视觉上没有明显的下降趋势。此外,mcta在一年中的峰值个数大于pcta/oeva。根据这些特征,通过提取tw2~tw4期间产生的峰值,低谷和tw1~tw7期间的峰值个数建立mcta、pcta和oeva的分类物候指标,生成分类物候指标直方图;
进一步地,mcta与pcta、oeva的分类物候指标为:sdp1,sdv,sdp2和np。其中tw1~tw7为一年内7个时间窗口,tw1时期识别到的第一个峰值为sdp1(startdateofpeak1),tw2时期识别到的第一个低谷为sdv(startdateofvalley),tw3时期识别到的第一个峰值为sdp2(startdateofpeak2),tw1~tw7时期识别到的峰值个数为np(numberofpeak)。
具体地,识别峰值和低谷的方法为:识别ndvi时间序列中的局部最大值为峰值,识别ndvi时间序列中的局部最小值为低谷,如果某个时间的ndvi值高于该时间之前和之后的ndvi值,则将其定义为峰值,如果某个时间的ndvi值低于该时间之前和之后的ndvi值,则将其定义为低谷。
s7、根据步骤s6中得到的分类物候直方图构建mcta识别模型;
进一步地,所述mcta识别模型为:
50<sdp1<120&120<sdv<180&180<sdp2<240&np≥2。
s8、根据步骤s7中构建的mcta识别模型对步骤s3中得到的eva进行分类,得到mcta分布图。
s9、利用步骤s8中得到的mcta分布图对步骤s3中得到的eva分布图进行掩膜处理,得到非mcta的常绿植被分布图。
s10、根据步骤s5中得到的高质量mcta、pcta和oeva平均ndvi时间序列数据集;发现在tw5时期,板栗落叶造成ndvi大幅下降,而常绿植被则保持稳定或下降缓慢;在tw6时期,pcta由于茶叶持续生长,因此ndvi会短暂上升;在tw7时期,pcta由于板栗落叶,ndvi值会低于oeva;根据这些特征,进一步提取pcta与oeva的分类物候指标,生成pcta与oeva分类的物候指标直方图;
进一步地,pcta与oeva的分类物候指标为:gas,sdp3和ndvi_median。其中tw1~tw7为一年内7个时间窗口,tw5时期的绿色衰退速率为gas(green-attenuationspeed),tw6时期识别到的第一个峰值为sdp3(startdateofpeak3),tw7时期的ndvi中位数为ndvi_median;
具体地,所述绿色衰退速率gas的计算方式如下:
tw5时期第一个ndvi值和tw5时期低谷的ndvi值的差值与二者日期跨度的比值,如果没有识别到tw5时期低谷则将tw5时期最后一个ndvi值进行替换。
s11、根据步骤s10中得到的pcta与oeva分类的物候指标直方图构建pcta识别模型;
进一步地,pcta识别模型为:
gas>0.001&270<sdp3<330&ndvi_median<0.6。
s12、根据步骤s11中构建的pcta识别模型对步骤s9中得到的非mcta的常绿植被分布图进行分类,得到pcta分布图;
s13、利用步骤s8中得到的mcta分布图和步骤s12中得到的pcta分布图对步骤s3中得到的eva分布图进行掩膜处理,得到oeva分布图。
为验证本发明效果,通过本发明方法,我们生成了2019年浉河区的30m的常绿植被地图,如图2所示。2019年浉河区常绿植被的面积为59,176ha,主要集中在研究区中部的南湾水库和海拔较高的山区。在图2的a)部分随机抽取4个地区:b、c、d、e,4个区域的google图像显示在b1)、c1)、d1)和e1)中,本发明的分类结果显示在b2)、c2)、d2)和e2)中。通过本发明方法,我们生成了2019年浉河区30m的mcta,pcta和oeva地图,如图3所示。2019年浉河区mcta,pcta和oeva的面积分别为27,471ha,10,844ha和20,861ha,茶的总种植面积为38,315ha。在图3的a)部分随机抽取4个地区:b、c、d、e,4个区域的google图像显示在b1、c1、d1和e1中,本发明的分类结果显示在b2、c2、d2和e2中。通过图2,图3可以看出常绿植被和茶园种植区得到了完整识别,同时从局部放大图可以看出地块的边界等纹理信息完整,道路和其他地物被有效区分,说明了本发明对茶园识别的可靠性,准确性。
图4中a)~d)为通过本发明得出的mcta分类物候指标地图,图4中e)~g)为通过本发明得出的pcta分类物候指标地图。从mcta的物候指标地图来看,sdp1有91.77%出现在60~80d内,这个时期的茶叶初冒绿芽,是该地区品种“信阳毛尖”质量最佳时期,因此也是浉河区大部分茶场开始采摘的日期。sdv有69.75%在150d之前,这表明大多数的茶在六月前便完成了修剪。而研究区中部的南湾水库茶场由于环境和地型的优势,采茶周期较其他地区更长,因此修剪日期也更延后。sdp2未展现出空间分布上明显的规律,这表明这个时期的不同地区有着不同的采摘习惯。由于茶叶在三月过后一直处于生长状态,即使由于采摘导致的ndvi下降,也会因为长出新叶而导致ndvi上升,因此可能会在一年中检测到多个峰值,如图4中d)所示,有97.65%的np超过了2个。从pcta的物候指标地图来看,由于板栗的落叶和秋季茶叶的采摘,该地区gas在0.0016之上。在这过后,茶持续生长,92.16%的pcta在310之前再次达到生长旺盛期。进入越冬期后,由于板栗的落叶缓冲了大部分的绿色,冬季的ndvi_median小于0.6。
具体地,通过实地调查和谷歌影像目视解译来获取地面参考数据作为训练样本和验证样本。首先,我们设定了两条调查路线,分别为南湾水库茶叶种植园和g107国道两边的高山茶种植区。在调查的过程中,收集了常绿植被(包括mcta、pcta,oeva),落叶植被,耕地,水体和不透水面的样本点,并拍摄了他们的地理参考照片。第二,将实地调查的样本点定位到谷歌影像中,通过人眼识别不同区域表面的特征和纹理,结合谷歌地球历史影像,目视解译以获得样本点。最终,我们获得了550个eva验证栅格(36,685个像素)和421个non-eva验证栅格(28,501个像素),其中mcta有279个(18,609个像素),pcta有106个(7,070像素),oeva有165个(11,006个像素)。首先,我们使用eva验证栅格和non-eva验证栅格与生成的获得的常绿植被分类结果计算了混淆矩阵,结果如表1所示,其中总精度为95.38%,kappa系数为0.91,eva的用户精度和生产精度分别为94.59%和96.40%。从精度评价来看,这表明我们精准的提取出了浉河区的常绿植被,为下一步的算法提供了良好的基础。第二,我们使用mcta,pcta和oeva验证栅格与生成的茶分类结果计算了混淆矩阵,结果如表2所示。其中总精度为87.59%,kappa系数为0.80,mcta,pcta和oeva的用户精度分别为95.21%,71.24%和85.19%,生产者精度分别为97.90%,71.72%和81.09%。从精度评价来看,mcta的提取的精度最高,这表明mcta与pcta/oeva之间的差异较大,更容易提取。而pcta和oeva的生长曲线较为相似,容易产生混淆,从而导致种植面积被低估或高估。总体而言,本次研究的精度和kappa系数较高,地面参考数据与分类结果之间具有很强的一致性,证明了本发明的有效性、可靠性和科学性。
表1
表2
综上,本发明以2019年河南省信阳市浉河区为案例,提供了一种可用于提取其他地区,其他年份,其他地物种类的研究思路,分类规则是根据目标作物在不同时期独特的物候表现而建立的。在其他地区,由于不同的环境因素,例如地型,气候,海拔或种植管理活动,茶表现的物候特征可能会有所不同,因此可以通过修正阈值来使模型更贴切研究区域的真实情况。由于茶是多年生的常绿植被,在连续的年份里,茶种植区域的变动极小,因此使用本发明可以提取和预测过去和未来的茶种植面积。这种基于物候的算法也可用于其他作物的识别,例如水稻、小麦、玉米、大豆和甘蔗等。
此外,生成的物候指标地图对茶的生长监测具有指导意义。我们生成这些物候指标地图的意义在于,首先,它可以为地方政府,茶园主提供有关茶的种植信息以更好地制定未来的种植政策茶,或为小户茶农,茶叶作坊提供茶在不同时期的生长特征和季节动态以更好地管理和监测茶的生长过程。第二,它证明了茶在不同种植模式下物候特征的差异,为今后大规模的基于物候茶种植面积的提取提供先行方案和科学依据。
目前有关于茶种植面积提取的研究较少,主要提取的方法是机器学习中的监督分类。需要补充的一点是,机器学习使用的是特征组合和光谱差异,提取这些差异的来源可能是某一幅影像或某一个特定时期。本发明监测的是茶在一年生命周期中的生长状况,分析并提取了每个时期茶的物候特征情况,并基于此建立了识别规则。这相较于其他算法,本发明提取的特征更符合茶的真实生长规律,更能捕捉到茶树的特征。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。