一种基于协同训练的城市区域空气质量估计方法
【技术领域】
[0001] 本发明涉及空气质量监测领域,尤其涉及一种基于协同训练的城市区域空气质量 估计方法。
【背景技术】
[0002] 近年来空气污染越来越严重,多个城市经常出现雾霾天气,催生着人们生态环保 意识的加强,空气污染越来越受到大家的关注。为了对空气的污染物质进行监测,政府在城 市建立了若干空气质量监测站,是空气质量控制和对空气质量进行合理评估的基础平台, 是一个城市空气环境保护的基础设施。但是,建立一个空气质量监测站需要一定建设资金、 占地面积、人力等,因此每个城市所拥有的空气监测站都是有限的。
[0003] 对于某个地点,如果在其一定范围内没有设立任何空气质量监测站,则无法知道 其空气质量,且不能将距离该点最近的空气质量监测站监测的空气质量当成该地点的空气 质量,这是因为影响空气质量的因素复杂,包括自然因素,如土壤扬尘、植物花粉、自然界的 灾害事件等,和人为因素,如化石燃料燃烧、垃圾焚烧、机动车尾气等。因此,同一城市中的 不同地点的空气质量可能相差很大,人们在外出活动前,如骑行,无法确切知道经过路段所 在区域的空气状况,如果空气质量太差,人们可以更改路线,选择具有优良空气质量的路线 进行户外运动。这样,对空气质量敏感的人可以更好的保护自己的身体。
[0004] 传统的基于统计的空气质量区域估计方法一般仅考虑物理空间上的距离,然后进 行空间线性插值,比如Kriging方法。然而,因为空气质量是由多个因素共同影响的,例如 天气现象、交通、土地使用等,所以空气质量随着空间位置上的变化是呈非线性变化的,对 于固定的两个点之间的空气质量相关程度并不是一直保持不变的,会因多种因素而进行变 化,不能简单的用线性插值法进行估计。有一些非线性的估计模型很好的利用了大气压、湿 度、交通等特征,如非线性的广义加性模型(Generalized Additive Models),模型中每一 个加性项使用单个光滑函数来估计,在每一加性项中可以解释因变量如何随自变量变化而 变化。还有一种空气质量估计方法是采用距离度量学习方法学习距离函数来计算两个区域 之间的距离,然后利用学习到的距离函数寻找与该区域最近的k个区域。最后,对这k个区 域形成的特征向量进行多元线性回归训练,进而利用训练得到的回归模型对区域的空气污 染物浓度进行估计。但是,当空气质量监测站点数量非常有限时,由于缺乏足够多样的带标 记的训练样本,这类监督方法不能取得较好的效果。
【发明内容】
[0005] 本发明为克服上述的不足之处,目的在于提供一种基于协同训练的城市区域空气 质量估计方法,本估计方法充分利用区域的空间特征,如该区域的交通状况、路网结构等特 征,基于多分类器的协同训练的半监督学习方法得到多个分类器,然后对这些分类器进行 剪枝,形成最终的组合分类器,用剪枝后的组合分类器进行空气质量等级估计。该方法估计 结果准确性高,能根据带空气监测点的区域和无空气监测点的区域在空间上的各种区别估 计空气质量等级。
[0006] 本发明是通过以下技术方案达到上述目的:一种基于协同训练的城市区域空气质 量估计方法,包括预处理阶段、训练阶段、估计阶段;
[0007] 预处理阶段包括:
[0008] 1)把城市划分成不相交的网格,每个网格g内的空气质量相同;
[0009] 2)抽取含有空气监测站点的网格对应的每小时的空气质量和空间特征;
[0010] 3)基于欧式距离查找与网格g相近的k个最近的含空气监测站点的网格G ;
[0011] 4)根据网格g和网格集合G生成有标记和无标记的样本;
[0012] 训练阶段:
[0013] I)半监督学习:通过对有标记样本进行可重复性取样获得η个有标记训练集,并 对有标记训练集训练得到η个分类器;η个分类器分别对未标记的样本进行标记得到高置 信度的未标记样本,从中挑选样本加入训练集直到挑选的新标记样本数目不为〇,输出分类 器模型;
[0014] II)组合分类器剪枝:设置组合分类器的剪枝度量标准;采用基于Pareto算法在 输出的分类器模型中搜索最优的分类器组合,输出剪枝后的组合分类器;
[0015] 估计阶段:
[0016] i)输入待估计空气质量的位置的经炜度信息,并根据经炜度信息获取所属的网格 g,抽取网格g的空间特征Fg;抽取网格g所在城市的所有空气质量监测站点所属网格的空 间特征,得到特征向量F e;
[0017] ii)基于欧式距离从Fe中查找到与F g相近的k个最近的特征向量,k个最近的特 征向量对应k个网格,由k个网格得到网格集合G ;
[0018] iii)网格g和网格集合G生成一个向量;
[0019] iv)根据训练阶段输出的组合分类器对步骤iii)得到的特征向量进行投票,得到 并输出投票结果,投票结果为估计的空气质量值。
[0020] 作为优选,所述的空间特征包括:交通相关特征Ft、路网结构相关特征F,、P0I相关 特征F p、签到特征F。。
[0021] 作为优选,所述预处理阶段通过如下式所示的欧氏距离度量函数查找与网格g相 近的k个最近的含空气监测站点的网格G :
[0022] d (Xi, Xj) = (Xi-Xj)T (Xi-Xj)
[0023] 其中,d(Xi, Xj)表示两个特征向量Xi、Xj之间的距离,特征向量为网格的POI相关 特征和路网结构特征,即X = [Fp, Fj。
[0024] 作为优选,所述预处理阶段的步骤4)具体为建有空气监测点的网格生成有标记 训练样本,集合内其余的网格生成未标记的训练样本。
[0025] 作为优选,所述训练阶段半监督学习的从高置信度的未标记样本挑选样本加入训 练集的挑选标准为样本的conf值的高低,从conf值高的样本进行挑选。
[0026] 本发明的有益效果在于:(1)采用半监督学习方法,解决了空气监测站有限的情 况下训练样本不足的问题;(2)引入了多个分类器而不是两个分类器,解决了协同训练中 置信度如何判定的问题;(3)引入组合分类器剪枝,避免基分类器数目过多而造成模型性 能下降。
【附图说明】
[0027] 图1是本发明基于协同训练的城市区