一种基于空中视角的跨场景视频人群理解双通道网络方法与流程

文档序号：26310960发布日期：2021-08-17 13:49阅读：108来源：国知局

本发明属于图像识别计数技术领域，尤其涉及一种基于空中视角的跨场景视频人群理解双通道网络方法。

背景技术：

无人机可用于动态交通监控，物体检测和跟踪以及其他的视觉任务，但是拍摄位置的可变性给这些功能带来了一些棘手的挑战，例如可变比例，不稳定的曝光和场景偏移。

随着人群数的发展，结果发现，在影响因素（遮挡，尺度和视角等）中，尺度变化具有最大的负面影响，近年来，许多人群计数算法都关注尺度可变性。

由于人群数据集所需的复杂数据标注，跨场景和跨域人群计数近年来引起了研究人员的注意，在此任务中，模型在标记的数据集上训练，然后适应看不见的场景。有部分文献建立了最早的跨场景数据集，其中包括用于训练和用于测试的场景。也有文献提出了一个全卷积神经网络（fcn）和一个加权自适应高斯模型来进行人群检测，然后将其应用于几乎没有标签数据的新场景。da-elm是一种基于领域自适应极限学习机的计数模型，与没有领域自适应的计数相比，仅使用一半训练样本对新场景中的人员进行计数。也有文献提出了一种一次性的学习方法，使用一个标记的示例来学习如何适应目标场景。有文献将maml用于通过少量样本学习来学习场景自适应人群计数，受合成数据启发，可以自动将标签标记为源域，有文献收集了一个大规模的合成数据集来对模型进行预训练，并通过微调操作使其适应现实世界的数据集，除了进行微调外，它们还可以通过使用cyclegan生成真实的图像，从而在没有任何现实世界标记信息的情况下完成计数。

因此亟需一种旨在解决空中视角的跨场景视频人群理解问题，并提出可行的实现方法。

技术实现要素：

本发明的目的在于：为了解决数据标注性能影响到跨场景和跨域人群计数的问题，而提出的一种基于空中视角的跨场景视频人群理解双通道网络方法。

为了实现上述目的，本发明采用了如下技术方案：

一种基于空中视角的跨场景视频人群理解双通道网络方法，具体包括以下步骤：

s101、建立双通道人群计数网络模型，且人群计数网络模型输入为双路径流的rgb图像；

s102、通过双路径流的rgb图像充分利用帧间信息和输入对鸟瞰人群下分析人与背景的关系，判断人群数量。

作为上述技术方案的进一步描述：

所述人群计数网络模型输入双路径流每个路径均包含特征提取器和具有若干卷积层的解码器，且解码器以64通道输出原始输入大小的1/8的特征向量，图像分支和光流分支在解码器之后立即合并。

作为上述技术方案的进一步描述：

所述解码器为基于resnest的空洞卷积解码器，所述空洞卷积的数量为六个。

作为上述技术方案的进一步描述：

所述人群计数网络模型还包括空间注意模块（sam）和通道注意模块（cam）。

作为上述技术方案的进一步描述：

还包括rgb图像的插帧方法，具体包括将光流为1-2个通道的向量，且每个通道分别沿水平轴和垂直轴存储图像的光流信息表示为和，在转换为极坐标下，两个变换通道分别表示极半径和极角，将两个变换通道用作hsv颜色空间中的前两个通道，然后将它们转换回rgb空间以进行可视化，命名为和，光流以三通道向量作为输入，以两个相邻帧的帧差向量填充输入数据的第三维，将帧t减去帧t+1并得到。

作为上述技术方案的进一步描述：

还包括通过阀值滤波对rgb图像插帧后图像进行噪声抑制优化。

作为上述技术方案的进一步描述：

所述人群计数模型的建立方法，包括以下步骤：

s201、建立通过基于csrnet的回归方法模型；

s202、对训练集进行扩充，通过对原始数据组中图像、流和点图进行随机变换方法生成新的训练数据组；

s203、通过训练集训练数据对回归方法模型进行训练。

作为上述技术方案的进一步描述：

包括基于场景变化的人群计数模型训练方法，对每组输入数据进行随机转换，将随机裁剪成固定大小，在上下和左右空间内进行随机翻转，转换在用于训练的每组数据图像、流和点图中执行相同的处理。

作为上述技术方案的进一步描述：

包括基于光照变化的人群计数模型训练方法：任选0.5～0.7份训练数据对rgb图像执行随机伽玛校正，所述gamma值的范围是0.4～2，模拟亮度过高和亮度不足。

作为上述技术方案的进一步描述：

包括基于尺度多样性的人群计数模型训练方法，具体包括：在裁剪之前同时处理所有三个输入数据，更改输入数据图像的比例，随机放大或缩小图像，然后裁剪新的图像进行训练。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，通过充分利用帧间信息和输入的rgb图像，更好地分析人与背景之间的关系，并且通过空洞卷积，在解析输入特征的语义信息时减少了通道数，空洞的卷积层扩大了卷积核的接收范围，从而丰富了要素内部的空间上下文信息，更好地分析人与背景之间的关系，该双流人群计数模型提取光流和帧差信息作为附加分支提高了模型在不同规模和时间的泛化能力，减轻跨场景测试中产生的背景噪声，并从无人机收集的视觉数据中自动了解人群数量，有利于降低无人机拍摄过程中的负面影响，通过网络结构的优化提高对人群数量的甄别观察能力。

2、本发明中，通过设计的模型训练方法，通过模拟不同无人机拍摄位置的场景变化以及光照变化和拍摄高度的尺度多样性实现对训练数据的扩增调整，从而提高了模型的泛化能力，满足模型现有数据的有效优化。

附图说明

图1-3为本发明提出的一种基于空中视角的跨场景视频人群理解双通道网络方法的优化结果输出示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-3，本发明提供一种技术方案：一种基于空中视角的跨场景视频人群理解双通道网络方法，具体包括以下步骤：

s101、建立双通道人群计数网络模型，且人群计数网络模型输入为双路径流的rgb图像；

s102、通过双路径流的rgb图像充分利用帧间信息和输入对鸟瞰人群下分析人与背景的关系，判断人群数量。

所述人群计数网络模型输入双路径流每个路径均包含特征提取器和具有若干卷积层的解码器，且解码器以64通道输出原始输入大小的1/8的特征向量，图像分支和光流分支在解码器之后立即合并，所述解码器为基于resnest的空洞卷积解码器，所述空洞卷积的数量为六个，所述人群计数网络模型还包括空间注意模块（sam）和通道注意模块（cam）。

一种rgb图像的插帧方法，具体包括将光流为1-2个通道的向量，且每个通道分别沿水平轴和垂直轴存储图像的光流信息表示为和，在转换为极坐标下，两个变换通道分别表示极半径和极角，将两个变换通道用作hsv颜色空间中的前两个通道，然后将它们转换回rgb空间以进行可视化，命名为和，光流以三通道向量作为输入，以两个相邻帧的帧差向量填充输入数据的第三维，将帧t减去帧t+1并得到；

在分析过程中，数据采集过程中可能会有轻微的抖动，这会在光流信息中引入很大的噪声，还包括通过阀值滤波对rgb图像插帧后图像进行噪声抑制优化。

具体的，编码器是新提出的resnest的前三层，其权重已在imagenet数据集上进行了预训练，鸟瞰下的人群很小，建筑面积很大，为了更好地分析人与背景之间的关系，我们遵循csrnet的思想，解码器包含六个空洞卷积，在解析输入特征的语义信息时减少了通道数，空洞的卷积层扩大了卷积核的接收范围，从而丰富了要素内部的空间上下文信息，解码器以64通道输出原始输入大小的1/8的特征向量，图像分支和光流分支在解码器之后立即合并，除了扩张的卷积，我们引入了空间注意模块（sam）和通道注意模块（cam），以增强空间和通道维度上的大范围依赖性，光流是一个两个通道的向量，每个通道分别沿水平轴和垂直轴存储图像的光流信息。

所述人群计数模型的建立方法，包括以下步骤：

s201、建立通过基于csrnet的回归方法模型；

s202、对训练集进行扩充，通过对原始数据组中图像、流和点图进行随机变换方法生成新的训练数据组；

s203、通过训练集训练数据对回归方法模型进行训练；

训练期间，许多转换方法用于生成新数据，从而提高了模型的泛化能力。代替原始数据组（图像，流，点图），通过随机变换方法生成新的训练数据组：

(1)

其中下标分别表示裁剪，翻转，伽玛校正和比例变，以下部分介绍了我们根据数据特征使用的所有数据转换方法；

包括基于场景变化的人群计数模型训练方法，根据无人机的拍摄位置，不同的场景，可能是街道或者公园，差异可能很大，他们的风格和方向将会改变，对每组输入数据进行随机转换，将随机裁剪成固定大小，此处优选为576×576，在上下和左右空间内进行随机翻转，转换在用于训练的每组数据图像、流和点图中执行相同的处理，这些转换在用于训练的每组数据中执行相同的处理。我们将这些转换命名为；

包括基于光照变化的人群计数模型训练方法：所有训练数据都是在良好的光照条件下获取的，但是测试和现实世界中使用的数据可能并不总是具有良好的光照条件。会有过度曝光或曝光不足。因此，在将数据发送到模型之前，任选0.5～0.7份训练数据对rgb图像执行随机伽玛校正，所述gamma值的范围是0.4～2，模拟亮度过高和亮度不足，此变换仅适用于rgb图像，我们将其称为；

包括基于尺度多样性的人群计数模型训练方法，具体包括：当无人机以不同状态收集数据时，它可能会飞在低空或高空下，都会严重影响图片中人群的大小，并最终影响模型的分析结果，在裁剪之前同时处理所有三个输入数据，更改输入数据图像的比例，随机放大或缩小图像，然后裁剪新的图像进行训练，此转换可同时处理所有三个输入数据，我们将其命名为。

通过将拍摄得到的图像输入到双通道人群计数网络模型中，输出预测的密度图，图1为原始图像，图2为正常数据训练下的密度图结果，图3为利用本方法合成数据训练下的结果，可以看出在合成数据上训练能够获得较好的结果。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：莫敏玲
技术所有人：广东蓝鲲海洋科技有限公司
我是此专利的发明人

上一篇：一种抗震效果好的控制柜的制作方法
上一篇：一种电力设备安装用辅助吊装支架的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。