一种基于隐私数据保护的智能网联汽车数据训练方法、电子设备及计算机可读存储介质与流程

文档序号:30737887发布日期:2022-07-13 04:57阅读:229来源:国知局
一种基于隐私数据保护的智能网联汽车数据训练方法、电子设备及计算机可读存储介质与流程

1.本发明涉及智能网联汽车数据处理技术改进,具体涉及一种基于隐私数据保护的智能网联汽车数据训练方法,属于数据处理训练技术领域。


背景技术:

2.随着自动驾驶技术在国内的蓬勃发展,各大主机厂商和技术供应商都在努力提升竞争力,提出了各种数据采集和算法训练的方法。例如:(1)浙江吉利控股集团有限公司的cn202210057268数据采集方法、装置、设备及存储介质,提出如下技术:在车辆行驶的过程中,获取车端传感器采集的车端数据以及路端传感器采集的路端数据,对车端数据和路端数据进行时空同步,并根据高精地图对时空同步后的车端数据和路端数据进行融合,得到目标数据,基于目标数据进行场景分类,获得多个场景对应的场景数据,根据场景数据构建自动驾驶场景库。(2)浙江零跑科技有限公司的cn201910454082 l3级自动驾驶系统道路驾驶数据采集、分析及上传方法,提出了如下技术:采集车端驾驶数据,包括驾驶数据的采集与同步及驾驶数据的编码与缓存,对采集到的车端驾驶数据进行在线数据分析,包括自动驾驶系统中间结果输出接口定义、目标匹配一致性检测、定位路标语义输出、极端车辆操作检测及人机决策一致性检测,然后进行数据通信,对车端驾驶数据做好上传准备,最后服务器端接收并存储车端驾驶数据。
3.因此,越来越多的数据被采集和用于算法训练,以提升自动驾驶的性能,但存在着用户关键信息被泄露的问题。为了保护用户关键信息不被恶意使用,相关部门规定汽车在收集车外的视频、图像数据时,不能直接将未经处理的数据向车外提供,如需向车外提供,则需要在车内对数据中的人脸、车牌信息等进行匿名化处理。因此,如何在保护用户隐私安全的前提下,智能网联汽车合理高效的采集和使用数据成为了一个关键挑战。
4.现有技术主要是在车端进行数据的匿名化处理,然后上传至云端,在云端利用匿名化后的数据进行模型的训练。这类技术的一个严重缺点是:原始数据经过匿名化后会丢失一些重要的信息,导致训练得到的算法模型在对非匿名化数据进行预测时存在偏见,会产生较大的误差,从而影响到算法的准确性。量产车实际上路后,会降低利用原始数据进行自动驾驶相关功能时的算法性能。
5.另外,量产后的网联汽车,其自动驾驶数据的采集、训练和部署未形成算法闭环,降低算法训练和模型迭代的速度。


技术实现要素:

6.针对现有技术存在的上述不足,本发明的目的是提供一种基于隐私数据保护的智能网联汽车数据训练方法,本发明在保证数据隐私传递的同时,解决了匿名化数据导致算法性能降低的问题,并在此基础上构造出算法闭环,解决模型迭代更新的问题。
7.本发明的技术方案是这样实现的:
一种基于隐私数据保护的智能网联汽车数据训练方法,包括如下步骤,1)初版模型获取;在云端,先对历史采集的路试数据进行标注,然后进行模型训练,得到初版模型,将初版模型的低层特征提取层(如前两层的卷积层)部署至车端;2)车端原始数据特征提取;在车端,针对车端实时或历史采集的原始数据,通过步骤1)部署的低层特征提取层进行特征提取,得到原始数据的低层次特征数据集并上传到云端;3)车端数据脱敏处理;在车端对原始数据中的关键信息进行匿名化处理,得到匿名化数据后上传到云端并进行数据标注,得到标注结果数据集;4)云端模型更新数据准备;将步骤3)标注结果数据集中的数据与步骤2)低层次特征数据集中的数据进行一一对应,从而形成模型更新数据集;5)模型优化;在云端,利用步骤4)得到的模型更新数据集,对初版模型中除低层特征提取层外的其他特征提取层进行训练并更新;低层特征提取层与更新后的其他特征提取层一起作为优化后的模型,并将优化后的模型推送给车端进行同步更新。
8.进一步地,在步骤4)中,在云端,路试数据通过初版模型中与部署至车端的低层特征提取层相同的低层特征提取层进行特征提取,得到路试数据的低层次特征数据集,取路试数据的低层次特征数据集与上传到云端的原始数据的低层次特征数据两部分数据的并集,一起作为步骤4)的低层次特征数据集。
9.优选地,步骤1)的模型训练采用的模型为深度神经网络。
10.进一步地,所述深度神经网络包含但不限于卷积神经网络、循环神经网络及其相关变种等,所支持的算法包括但不限于目标检测算法、车道线识别算法、语义分割算法等。
11.在步骤3)中,原始数据的关键信息包括但不限于人脸和车牌,匿名化处理包括打马赛克、纯色填充、模糊处理。
12.本发明步骤2)中特征提取所用方法包含但不限于卷积、池化、切片。
13.步骤1)中部署至车端的低层特征提取层有多种层数,每次部署时,将不同层数的低层特征提取层同时部署在车端;步骤5)在云端训练并更新多个与车端低层特征提取层对应的其他特征提取层,由此得到多个优化后的模型,将性能最佳的一个模型同步给车端。
14.步骤4)中用于算法迭代更新的模型更新数据集包括但不限于路试数据集、车端采集的原始数据集,其它利用数据增强而得到数据集也包含在内,包括但不限于对低层次特征集进行翻转、旋转、缩放操作而生成的数据。
15.本发明还提供了一种基于隐私数据保护的智能网联汽车数据训练电子设备,包括存储器,配置为存储可执行指令;处理器,配置为执行存储器中存储的可执行指令,以实现前述的一种基于隐私数据保护的智能网联汽车数据训练方法。
16.本发明还同时提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令执行前述的一种基于隐私数据保护的智能网联汽车数据训练方法。
17.与现有技术相比,本发明具有如下有益效果:1、本发明通过在车端增加特征提取操作和匿名化处理,对用户关键信息进行处理,能够保护用户隐私安全,关键信息不泄露,不上传,符合监管要求。
18.2、本发明能较大程度保留原始数据的信息,相较于依靠纯匿名化数据进行模型训
练会丢失大量有用信息的短板,本发明能有效提升算法的训练效果。
19.3、本发明能实现智能网联汽车的数据采集、标注、训练闭环,能够在量产后持续提升自动驾驶算法的性能,而不需要花费较大车端路采和算法更新成本。
附图说明
20.图1为本发明基于隐私数据保护的智能网联汽车数据训练方法的逻辑架构图。
具体实施方式
21.以下结合附图和具体实施方式对本发明做进一步详细描述。
22.本发明提出了一种基于隐私数据保护的网联汽车数据采集、训练和迭代方法,如图1所示,分为三个部分:(1)量产前云端算法开发;(2)量产数据采集预处理;(3)算法迭代更新。通过此三部分,一方面可以保护用户隐私数据安全,充分利用原始数据和匿名化数据的信息来提升算法性能,另一方面能形成算法闭环,提高模型迭代更新的能力。以下分别对三部分进行详细说明。
23.在量产前云端算法开发阶段(即初版模型获取),先对历史采集的路试数据进行标注,比如标注行人、车辆、路牌、红绿灯等信息,然后进行模型训练,这里可以采用带卷积、池化、切片等特征提取处理的深度神经网络,能够有效地提取图像特征,常用于图像分类、目标识别等场景。根据目标任务的不同选择不同的模型和深度,经过反复调参优化,得到初版的量产大模型,将模型的低层特征提取层部署至车端,具体部署层数根据车端mcu处理能力和数据上传带宽来决定。较少的层数能保留更多输入数据的信息,更多的层数能提取到输入数据更高层次的特征,也能减少数据的传输量,但会丢失更多的信息,同时也会增加车端mcu的处理负担。本发明模型训练方法同时支持增量迁移学习和全量算法训练。
24.在量产数据采集预处理阶段,即步骤2)-4),包含三部分数据的采集和预处理。在量产车内部,针对车端实时或历史采集的原始图片和视频数据,一方面通过量产前部署的低层卷积层进行特征提取,得到原始数据的低层次特征并上传到云端。低层次特征是原始数据中的一些局部特征,保留着局部和整体的关系,通常是一些直线和曲线的特征。由于特征提取会丢失一些信息,因此这些特征数据直观上很难辨别目标物体,符合监管要求,可以上传到云端。类似的,在云端,海量路试数据也进行相同的特征提取操作,得到路试数据的低层次特征数据集,取路试数据的低层次特征数据集与上传到云端的原始数据的低层次特征数据两部分数据的并集,用于下一次模型迭代。另一方面,在量产车辆内部,通过对原始数据中的关键信息进行匿名化处理,如对人脸和车牌打马赛克,得到匿名化数据后上传到云端进行数据标注,匿名化后的图片、视频并不影响物体类别和位置的判断,因此在能够准确的打标的同时,而不会侵犯用户隐私。数据上传可以在车辆待机状态时上传,一方面不影响车端算法性能,另一方面可以保持传输稳定。
25.在算法迭代更新阶段(即模型优化),云端将上一阶段获取到的低层次特征数据集和对应的标注结果数据集用于下阶段的模型训练,同时可以与历史训练数据进行融合,此处包含但不限于路试数据集和车端历史采集的原始数据集,以及其它可以用于数据增强方法生成的数据集。因为训练数据是基于低层次网络获取的,所以此阶段无需训练整个网络模型,而只需要训练和更新量产大模型的高层次网络部分,低层特征提取层与训练更新后
的其他高层特征提取层一起作为优化后的模型,采用某种推送策略,如定期推送或版本更新,将更新后的优化模型推送给车端进行同步更新,实现自动驾驶数据采集、训练到部署的闭环,持续提升量产车实际使用时的算法性能和驾驶体验。
26.本发明在对车端原始数据进行匿名化处理的同时,增加特征提取操作来得到原始数据的低层次特征数据,利用这两部分数据来解决匿名化数据导致算法性能降低的问题,并在此基础上构造出算法闭环,解决模型迭代更新的问题。特征提取后的这部分数据已不是原始数据,上传云端不会泄露隐私信息;原始数据匿名化处理后再上传,自然不会泄露隐私信息;匿名化处理进行标注,也不会影响标注的准确性。因此本发明提出了一种网联汽车的数据采集、标注、训练的自动驾驶算法闭环方法。本发明还提出了一种能适用于隐私保护且较高程度保留原始数据信息的车内数据处理方法。
27.最后需要说明的是,本发明的上述实例仅仅是为说明本发明所作的举例,而并非是对本发明的实施方式的限定。尽管申请人参照较佳实施例对本发明进行了详细说明,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化和变动。这里无法对所有的实施方式予以穷举。凡是属于本发明的技术方案所引申出的显而易见的变化或变动仍处于本发明的保护范围之列。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1