本发明涉及车联网安全,特别涉及一种车联网预期功能安全测试数据扩展方法。
背景技术:
1、在车联网安全领域或者业务场景中,为了解决车联网预期功能安全技术训练数据难以获取、预期功能安全测试数据集总体缺少的问题,当前车企通常获取用于预期功能安全测试数据集多为各研究机构、科技公司及学校在虚拟驾驶场景下采集或训练的数据。
2、本发明所提出的一种车联网预期功能安全测试数据扩展方法是在已有的预期功能安全测试数据集基础上,扩展生成数据用以扩充预期功能安全测试数据,尤其是强化在数据集中突发情况和罕见驾驶行为的数据拓展,使得预期功能安全开发团队可以在采集特定地区的数据后,扩展数据集并将突发情况和罕见驾驶行为的样本比例增加,增强预期功能安全测试的全面性。
技术实现思路
1、针对以上问题,本发明提出一种车联网预期功能安全测试数据扩展方法,所述方法具体包括如下步骤:
2、sa.检测车联网平台模型调用请求,若检测到所述调用请求,则执行sb,若未检测到所述调用请求,则继续监控所述车联网平台;
3、sb.若检测到所述调用请求,则判定所述车联网平台是进一步完善已训练模型还是训练新的模型;
4、sc.若训练新的模型,则执行开启训练新模型进程;
5、sd.若进一步完善已训练模型,则确定所需训练的模型m所对应的驾驶场景m1;
6、se.查询所述驾驶场景m1对应的已训练模型中,是否存在训练完毕的模型x;
7、sf.若存在所述训练完毕的模型x,则向所述车联网平台反馈所述训练完毕的模型x,以令所述平台确认所述模型x是否能够满足需求;
8、sg.若所述模型x能够满足所述平台需求,则直接调用所述模型x并应用;
9、sh.若所述模型x未能满足所述平台需求,则开启训练新模型进程。
10、进一步地,所述步骤sa具体包括如下步骤:
11、所述车联网平台模型调用请求是所述车联网服务器发出的。
12、进一步地,所述步骤sb具体包括如下步骤:
13、所述车联网服务器仅能够执行完善已训练模型以及训练新的模型两类进程。
14、进一步地,所述步骤sc中的所述训练新模型进程为:
15、s1.对突发情况和罕见驾驶行为数据使用k-means算法聚类;
16、s2.在每个所述聚类中分别进行样本拓展,执行步骤s3;
17、s3.使用欧式距离,计算与xi距离最近的k个同类样本;
18、s4.在k个同类样本中进行线性差值;
19、s5.插值生成的每个样本,加入高斯白噪声以增加随机性;
20、s6.使用k-means聚类过程中最终得到的聚类中心的距离,过滤不同类中新增加的样本点,形成完成数据扩展的样本集;
21、s7.根据所述完成数据扩展的样本集进行模型训练,完成新模型的训练。
22、进一步地,所述s1中,使用k-means算法对突发情况和罕见驾驶行为数据进行聚类,以区分出采集的数据中,有多少种突发情况和罕见驾驶行为。由于基础数据存在标签,同时新扩展的数据要与真实世界中的数据相关,所以先对数据分类,而后能够使得新扩展的数据直接携带标签。k-means聚类过程中,k的选择决定了计算的收敛速度。所以可以在人工浏览数据后,人为定义k的取值。
23、进一步地,所述s2中,在不同的聚类中分别拓展数据,由于本方法中拓展数据的核心方式是线性插值与高斯白噪声误差,因此需要保证拓展出的数据与现实驾驶场景的一致性与完整性,所以先将突发情况和罕见驾驶行为数据聚类,在数据分布的特定区域进行数据拓展。
24、进一步地,所述s3-s4中,使用欧式距离,计算与xi距离最近的k1个同类样本。即在每个聚类中,选取k1个距离最近的样本点。这里的xi代表某一个聚类中第i个突发情况和罕见驾驶行为的数据。即将聚类中的所有点计算任意两点的距离,而后选取距离最小的k1个点。在这k1个点中进行插值处理。插值过程的核心表达式为:
25、
26、其中pki中的k为选取的距离最小的k1个点的第k个,i为某一个聚类中第i个。yk表示在聚类中的所有点计算任意两点的距离最小的第k个点,xi为代表某一个聚类中第i个突发情况和罕见驾驶行为的点。pki为在yk与xi之间插值的第z个点。z的数量由需要拓展的规模来定。rand(0,1)代表在0,1之间的随机数。
27、进一步地,在s5中,将每一个拓展的点,利用高斯白噪声增强随机性。高斯白噪声表达式如下:
28、
29、其中w为高斯白噪声,即高斯分布的误差。μ为选取的距离最小的k1个点之间距离的期望值,σ为选取的距离最小的k1个点之间距离的标准差。在每个聚类中,所拓展的点使用w增加随机性。
30、即。
31、进一步地,在s6中,使用k-means聚类过程中最终得到的聚类中心的距离,过滤不同类中新增加的样本点。这里主要是为了防止在不同聚类中新拓展的点之间距离过近,即拓展的点因为距离过近,是的候选的标注标签可以是多个。这一步是为了防止拓展的点过多,进而数据与现实中使用场景发生偏离。具体做法是在不同的两个聚类中分别取一个拓展点,计算两点之间的距离,若是小于两个聚类的中心之间的距离,则去除这两个点。
32、进一步地,所述步骤sd具体包括如下步骤:
33、所述驾驶场景m1对应多个预期功能安全模型。
34、进一步地,所述步骤se具体包括如下步骤:
35、若所述驾驶场景m1对应的已训练模型中,不存在训练完毕的模型x,则忽略所述未训练完毕的模型w,并开启所述训练新模型进程。
36、进一步地,所述步骤sf具体包括如下步骤:
37、所述向所述车联网平台反馈所述训练完毕的模型x,以令所述平台确认所述模型x是否能够满足需求,具体为:
38、所述平台服务器在进行模型选取或模型训练前,被项目管理人员设置数据量阈值;
39、若所述训练完毕的模型x的训练数据量达到所述数据量阈值,则判定为满足需求;
40、否则为不满足需求。
41、进一步地,判断所述训练完毕的模型x的训练数据量是否达到所述数据量阈值,具体包括如下步骤:
42、sf1.获取所述训练完毕的模型x对应的训练样本集;
43、sf2.提取所述训练样本集中标签为突发情况和罕见驾驶行为的样本;
44、其中,所述训练样本集中每个训练样本均对应一个标签;
45、sf3.统计所述训练样本集中标签为突发情况和罕见驾驶行为的样本总数,当所述样本总数在所述训练样本集样本总数的占比小于预设阈值时,判断所述训练完毕的模型x的训练数据量未达到数据量阈值,判定为不满足需求;当所述样本总数在所述训练样本集样本总数的占比大于等于预设阈值且小于等于预设阈值时,执行步骤sf4;当所述样本总数在所述训练样本集样本总数的占比大于预设阈值时,判断训练完毕的模型x的训练数据量达到所述数据量阈值,判定为满足需求;
46、其中,所述预设阈值为30%,预设阈值为60%。
47、sf4.对步骤sf2中提取出的突发情况和罕见驾驶行为的样本使用k-means算法进行聚类,形成多个突发情况和罕见驾驶行为样本聚类集合{};
48、其中,为多个突发情况和罕见驾驶行为样本聚类集合中的第h个突发情况和罕见驾驶行为样本聚类集合;u为多个突发情况和罕见驾驶行为样本聚类集合中聚类集合的总数。
49、sf5.针对突发情况和罕见驾驶行为样本聚类集合中的所有样本,计算所有样本中任意两个样本点的距离,形成多个样本点距离;
50、sf6.将步骤sf5中形成的多个样本点距离按照从小到大升序排序,形成由样本点距离组成的排序结果,按照从小到大的顺序获取所述排序结果中前20%的样本点距离对应的样本对;
51、所述排序结果为将所述样本点距离按照由小到大排列形成的序列;
52、所述样本点距离对应的样本对为形成该样本点距离的两个样本点;
53、sf7.分别计算前20%的样本点距离对应的每组样本对的中心点,形成多个中心点;
54、所述每组样本对的中心点为每组样本对中的两个样本点的中心点;
55、sf8.分别计算步骤sf7中所述多个中心点中任意两个中心点的距离,形成多个中心点距离,将所述多个中心点距离按照从小到大排序,获取该排序结果中的最小值;
56、sf9.当所述最小值大于预设阈值时,判断满足数据量需求;当所述最小值小于等于预设阈值时,判断不满足数据量需求。
57、其中,所述预设阈值可根据实际场景进行灵活设置。
58、sf10. 针对多个突发情况和罕见驾驶行为样本聚类集合{}中的每一个,重复执行步骤sf5至sf9,当u个突发情况和罕见驾驶行为样本聚类集合均被判断为满足数据量需求时,判断训练完毕的模型x的训练数据量达到所述数据量阈值,判定为满足需求;当u个突发情况和罕见驾驶行为样本聚类集合中存在任何一个突发情况和罕见驾驶行为样本聚类集合被判断为不满足数据量需求,则判断所述训练完毕的模型x的训练数据量未达到数据量阈值,判定为不满足需求。
59、进一步地,若所述模型x未能满足所述平台需求,则开启训练新模型进程的同时,删除所述模型x。
60、本发明有益效果如下:
61、1.本发明通过步骤s1-s6,预期功能安全测试数据的拓展方法与流程,通过结合k-means算法聚类、线性插值与高斯白噪声误差而拓展预期功能安全测试数据;经由上述方法拓展出的预期功能安全测试数据,能够提高预期功能安全训练数据采集、生成效率,降低数据采集成本。通过扩展数据集并将突发情况和罕见驾驶行为的样本比例增加,增强自动驾驶功能安全性。
62、2.通过步骤sa-sh的设置,能够在车联网平台需要调用或建立模型的过程中进行判定是否需要重新采集数据并训练模型,若无需重新采集数据并训练模型则直接调用在前的完善模型,若需要重新采集数据并训练模型,则采用更未精确的方式进行模型训练,该方法能够兼顾样本数据全面性以及系统资源有效利用的需求。
63、3.通过对sf的进一步细化,能够明确以训练数据量为判断标准,来明确是否需要进一步处理,能够准确且快速的执行判定进程,节约系统资源。
64、上述说明,仅是本发明技术方案的概述,为了能够更清楚了解本发明技术手段,可依照说明书的内容予以实施,并且为了让本发明的上述说明和其它目的、特征及优点能够更明显易懂,特举较佳实施例,详细说明如下。