本发明涉及一种半监督多模态的机器学习架构,通过对少量的有标签数据学习,协同训练,构造路由度量的方法,具体为一种基于多模态数据的路由度量的生成方法。此分析包括代表环境、司机、车辆、交通信息的多种模态数据,建立路由度量tdr(traffic-databasedroutingmetric),提高对中间节点(下一跳节点)的可靠型的判断精度。
背景技术:
::进入21世纪以来,我国的汽车总数已由2000余万辆增长到2016年近1.9亿辆,并将以10%的增速持续上涨,与此伴随而来的是道路拥堵、交通事故等问题。车联网可提供如车辆变道提醒、交叉口提醒、事故提醒、全天候路况分析、主动自动驾驶等服务,在加强行车安全的基础上,减轻道路拥堵。在车联网体系中,车辆自组织网络(以下简称为vanet)是为其提供通信支持的最佳选择,未来将实现车对车(v2v)、车对基础设施(v2i)、车对所有设备(v2x)等的互联互通。在本领域的公知技术中,研究者一般依靠经验来选择路由度量中的路由约束点参数和相应权重系数,无法全面考量对路由选择有影响的众多约束点及各约束点权重值。如图2所示,车辆节点处于复杂的物理环境当中,因此影响其路由可靠性的因素也是多方面的。在公知技术中,北京邮电大学的许文俊等人在《astableroutingprotocolforhighwaymobilityovervehicularad-hocnetworks》所提出的路由算法使用车辆移动及电子地图等信息来构造高速公路移动模型,其路由度量考量了节点相对距离、信号接收质量及车辆加速度等。上海交通大学的王新兵等人《historybasedpredictiveroutinginmulti-lanedelaytolerablevanets》所提路由算法中所使用的路由度量引入了车辆节点的常规行驶路径和车辆种类等信息,来判断路由中间节点的可靠性。wu等人在《routinginvanets:afuzzyconstraintq-learningapproach》和《flexible,portable,andpracticablesolutionforroutinginvanets:afuzzyconstraintq-learningapproach》提出一种路由算法fpq-aodv,运用模糊逻辑来预测和选择所使用的路由度量。fpq-aodv局部可扩展性强,但模糊逻辑所产生的路由度量中各参数的权重需要根据网络环境进行调整,这样的设计在实际应用中有一定的局限性。另外,在公知技术中,jerbi等人在《animprovedvehicularadhocroutingprotocolforcityenvironments》提出vanet路由算法(gytar),其路由度量首次使用车辆节点的电子地图来判定交叉路口、交通流量以及距终点距离等信息,有效地降低了丢包率。李长乐等人在《lsgo:linkstateawaregeographicopportunisticroutingprotocolforvanets》提出一种机会型地理链路路由算法,使用基于距离的改进版etx路由度量来评估车辆节点间链路可靠性。etx以及其衍生的路由度量仅监测了链路的可靠性,虽增加了吞吐量,但由于路由度量中没有考量其他路由的影响要素,无法提供较好的传输可靠性。技术实现要素:为解决现有技术中存在的问题,本发明通过分析包括代表环境、司机、车辆、交通信息的多种模态数据,建立路由度量tdr(traffic-databasedroutingmetric),提高对中间节点(下一跳节点)的可靠型的判断精度,具体提供了一种基于多模态数据的路由度量的生成方法,包含如下步骤,步骤一:收集多模态数据样本,此处的数据样本中包含少量有标签数据及其他大量无标签数据;步骤二:基于半监督多模态学习架构对步骤一中无标签数据进行打标签,此时数据样本则得到更新,有标签数据增多,无标签数据减少,得到新的有标签数据与新的无标签数据;步骤三:使用半监督多模态学习架构,对步骤二中所得到的无标签数据与有标签数据进行协同训练,构造路由量;进一步地,所述的多模态包括环境、司机、交通数据、车辆。进一步地,所述的有标签数据的集标记为l={(e1,d1,v1,t1,y1),...,(em,dm,vm,tm,ym)},此集合包括m对数据样本混合,ei、di、vi、ti分别代表标记为yi∈{1,...,c}的环境模态、司机模态、车辆模态和交通数据模态信息;无标签数据集标记为u={(e1,d1,v1,t1,y1),...,(en,dn,vn,tn,yn)},此集合包括n对数据样本混合,ei、di、vi、ti分别代表标记为yi∈{1,...,c}的环境模态、司机模态、车辆模态和交通数据模态信息。进一步地,在步骤三中,对所述的无标签数据与有标签数据学习协同训练过程中,协同训练过程分为步骤a与步骤b两个迭代过程:步骤a,正向训练过程,所述的正向训练过程包括,首先使用pca算法对有标签数据的各个模态数据进行降维处理,其次用svm算法对降维后的各模态数据进行分类建模,形成各模态数据的临时分类器,即环境分类器、司机分类器、车辆分类器、交通数据分类器;步骤b,标签升级过程,使用凸聚类算法,收敛到全局最小值,找到最优聚类的类别数,从无标签数据集中提取数据样本与有标签数据进行特征聚类,特征信心高(即相似度高的)的无标签数据样本将被贴上新特征标签z,获得相应特征属类,聚类后得到的新特征属类同原有特征属类,组成新特征的有标签数据集完后将此新特征的有标签数据集lt进行步骤a的正向训练,若从无标签数据集u中选不出信心高的数据样本,则步骤a与步骤b的迭代结束。这时所有无标签数据都已经通过以上步骤b打上标签,成为贴有新特征标签z的新有标签数据,随后,对新特征的有标签数据集进行最终的分别训练,即对新特征的有标签数据进行正向训练,首先使用pca算法对新特征的有标签数据的各个模态数据进行降维处理,其次用svm算法对降维后的各模态数据进行分类建模,即各模态的临时分类器进行最后一次刷新数据后,获得最终的环境分类器、司机分类器、车辆分类器、交通数据分类器。用所述最终的环境分类器、司机分类器、车辆分类器、交通数据分类器构建融合分类器,将所述最终的环境分类器、司机分类器、车辆分类器、交通数据分类器各分类器的预测准确率作为投票的权重使用在融合分类器处。融合分类器即是最终构造的路由度量,其公式如下所示:即f=aσejej+b∑dkdk+c∑vpvp+h∑tqtq其中,ej、dk、vp、tq分别是环境、司机、车辆、交通四方面的一个特征,而ej、dk、vp、tq分别是这四个特征在本模态中的权重值,这些权重值通过最终训练各模态的最终分类器的准确率时得以确立,即∑ejej、∑dkdk、∑vpvp、∑tqtq分别为四个模态的最终分类器。而a、b、c、h这四个权重值是通过最终构成融合分类器时所使用预测准确度,得到的各模态分类器所占权重,准确率越高权重越大。进一步地,对于a、b、c、h这四个权重值通过以下方式确立,即使用融合分类器预测时,各模态数据将首先使用一个新的训练数据集,此新的训练数据集是区别于我们训练时使用的训练数据集以外的一个新的独立的有标签数据集。直接将这个新数据集放入之前建立的那个各模态最终分类器中,可以测试出最终分类器的预测准确率。这里,我们使用各模态的预测准确度作为权重在融合分类器中进行投票,在这里,作为另一种方案,我们也可以使用adaboost对各模态权重进行训练,以获取最佳的权重值。进一步地,采用gprs-t对网络环境仿真,为步骤一中所述数据样本的部分无标签数据样本进行打标签使得其成为有标签数据。本发明所提供的一种基于多模态数据的路由度量的生成方法的优势在于:通过对环境、司机、车辆、交通信息的多种模态数据,建立路由度量tdr(traffic-databasedroutingmetric),提高对中间节点(下一跳节点)的可靠型的判断精度,选择最佳路由。现有路由度量中,基于专家经验来挑选路由约束点的方法存在着判断路由可靠性时准确度不足的问题。相比之下,本项目提出一种基于机器学习算法生成路由度量的机制,考量海量路由约束点,以数据挖掘角度来分析相关数据对路由的影响,生成可准确判断路由可靠性的路由度量。其中,利用半监督的多模态架构分析海量的未标记数据和少量的标记数据,以最低的代价完成训练建模过程。附图说明图1建立路由度量的基本过程图。图2是影响路由可靠性的各模态信息以及对数据进行降维处理。图3是一种半监督的学习架构,通过对少量的有标签数据学习,协同训练,构造路由度量,图3是对图1中流程图的另一种表现形式。图4为本发明所提的gpsr训练版gpsr-t具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。参考图1-4,本发明提供了一种基于多模态数据的路由度量的生成方法,包括如下步骤:步骤一:收集多模态的数据样本,包括环境、司机、车辆、交通数据等,各模态数据的来源如图2所示,201-207为环境信息来源,209-215为司机信息来源,217-223为车辆信息来源,225-231为交通数据信息来源,例如:天气、地区级别、建筑物、其他环境等是属于环境模态数据的几个特征,他们归属于环境模态数据这个属类,其他模态数据来源详解参考环境模态数据来源描述。收集的数据样本中包含少量有标签数据及其他大量无标签数据。步骤二:基于半监督多模态学习架构,使用改进的gpsr-t对网络环境进行仿真,为步骤一中部分无标签数据样本进行打标签,此时步骤一中数据样本则得到更新,有标签数据增多,无标签数据减少,得到新的有标签数据与新的无标签数据,他们的集合分别为有标签数据集l={(e1,d1,v1,t1,y1),...,(em,dm,vm,tm,ym)},此集合包括m对数据样本混合,ei、di、vi、ti分别代表标记为yi∈{1,...,c}的环境模态、司机模态、车辆模态和交通数据模态信息,无标签数据集u={(e1,d1,v1,t1,y1),...,(en,dn,vn,tn,yn)},此集合包括n对数据样本混合,ei、di、vi、ti分别代表标记为yi∈{1,...,c}的环境模态、司机模态、车辆模态和交通数据模态信息。所提到的改进的gpsr-t是gpsr的改进版,gpsr-t协议是将gpsr协议中的以距离为路由度量进行贪婪转发贪婪的部分进行了修改,修改后在选择下一跳的时候,向每个邻居节点发送一个数据包进行转发,邻居节点以同样的方式进行转发,直到数据包到达目的节点的所以轨迹,此过程如图4所示。步骤三:使用半监督多模态学习架构,对步骤二中所得到的无标签数据与有标签数据进行协同训练,构造路由量。对所述无标签数据与有标签数据学习协同训练过程中,分为步骤a与步骤b两个迭代过程:步骤a,为正向训练过程,包括三个步骤:首先使用pca算法对步骤二中的有标签数据的各个模态进行降维处理,减少数据的耦合与冗余,提高运算速度,其次用svm算法对降维后的各个模态数据进行分类建模,形成各模态数据的临时分类器,即环境分类器、司机分类器、车辆分类器、交通数据分类器。步骤b,为标签升级过程,使用凸聚类算法,收敛到全局最小值,找到最优聚类的类别数,从无标签数据集中提取少量数据样本与有标签数据进行特征聚类,特征信心高的(特征信心高是指相似度高)无标签数据样本将被贴上新特征标签z,获得相应特征属类,聚类后得到的隐含属类同原有属类组成新特征的标签数据集这里指经过标签升级的过程,这些无标签数据会获得新的特征标签和基于这些新特征标签的属类。例如,原来的某有标签数据只有4个特征,经过这个过程,可能会出现新增的2个特征,以及基于全部6个特征的新分类。这时所有无标签数据都已经通过以上步骤b打上标签,成为贴有新特征标签z的新有标签数据,随后,对新特征的有标签数据集进行最终的分别训练,即对新特征的有标签数据进行正向训练,首先使用pca算法对新特征的有标签数据的各个模态数据进行降维处理,其次用svm算法对降维后的各模态数据进行分类建模,即各模态的临时分类器进行最后一次刷新数据后,获得最终的环境分类器、司机分类器、车辆分类器、交通数据分类器。可以说每次从进行步骤b操作从无标签数据u中挑选特征信心高的数据样本进行标签升级打标签,完后再经过步骤a形成各模态的临时分类器,此时的各模态分临时类器是对上一个过程的各模态临时分类器的一次刷新。通过多次b步骤操作打标签,a步骤的临时分类器则进行了多次刷新,得到最终的各模态分类器。用所述最终的环境分类器、司机分类器、车辆分类器、交通数据分类器构建融合分类器,将所述最终的环境分类器、司机分类器、车辆分类器、交通数据分类器各分类器的预测准确率作为投票的权重使用在融合分类器处。融合分类器即是最终构造的路由度量,其公式如下所示:即f=aσejej+bσdkdk+c∑vpvp+h∑tqtq其中,ej、dk、vp、tq分别是环境、司机、车辆、交通四方面的一个特征,而ej、dk、vp、tq分别是这四个特征在本模态中的权重值,这些权重值通过最终训练各模态的最终分类器的准确率时得以确立,即∑ejej、∑dkdk、∑vpvp、∑tqtq分别为四个模态的最终分类器。而a、b、c、h这四个权重值是最终构成融合分类器后各模态最终分类器的预测准确度,准确率越高权重越大。对于a、b、c、h这四个权重值通过以下方式确立,即使用融合分类器预测时,各模态数据将首先使用一个新的训练数据集,此新的训练数据集是区别于我们训练时使用的训练数据集以外的一个新的独立的有标签数据集。直接将这个新数据集放入之前建立的那个各模态最终分类器中,可以测试出最终分类器的预测准确率。这里,我们使用各模态的预测准确度作为权重在融合分类器中进行投票,在这里,作为另一种方案,我们也可以使用adaboost对各模态权重进行训练,以获取最佳的权重值。本发明方案中的无标签数据也称为未打标签数据。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页12当前第1页12