本申请涉及一种数据处理技术,尤其涉及一种面向列车自动驾驶模式学习的列车运行记录数据处理方法。
背景技术:
轨道列车自动驾驶(ato)是为了能够在一定的牵引列车、车辆、线路等硬件环境和既定的运行图、列车编组计划等运营管理状况下,来得到列车的操作档位序列来控制列车自动运行,在自动驾驶的过程中往往也需要列车档位操纵序列满足一定的约束条件,如准点、安全、平稳、节能等。现在越来越多国内外科研人员使用机器学习的手段来解决列车自动驾驶的问题,通过从优秀司机驾驶列车运行过程中的记录日志数据来挖掘出他们的驾驶模式的方式来构建列车自动驾驶过程中的操纵档位序列,这类解决列车自动驾驶问题的方式是以数据为驱动的,使用机器学习的方法从优秀司机的驾驶日志数据中学习优秀司机的驾驶模式,从而达到列车自动驾驶的目的。数据是机器学习中最重要的部分之一,任何机器学习算法都不能脱离数据单独存在,要想算法有好的表现,就必须保证输入数据集的质量,好的数据集不仅能够训练出更好的预测模型还能够减少计算时间、简化问题,因此获取合适的训练数据集是我们解决列车自动驾驶模式学习首先要解决的问题。本发明提出一种面向列车自动驾驶模式学习的列车运行记录数据处理的方法,此方法包括原始历史数据的获取与处理、训练数据不均衡处理、训练数据特征选择处理三个方面。
技术实现要素:
本发明的目的是提出一种面向列车自动驾驶模式学习的列车运行记录数据处理的方法,最终得到可以用于列车自动驾驶模式学习的合适的训练数据集,通过这些数据集来进行列车自动驾驶模式的学习。
本发明的技术方案是提供一种面向列车自动驾驶模式学习的列车运行记录数据处理方法,具体包括以下步骤:
步骤1、原始数据的收集与预处理,得到标准的数据集,为后续的步骤准备数据的输入;该步骤分为数据的收集和预处理两个步骤,数据收集是从列车上相关的监控记录设备上获取原始数据,数据的预处理是针对从记录仪器上获取的原始数据进行数据的预处理。预处理之后得到供后续步骤使用的标准数据集合。将预处理之后的数据集结果存储在文本文件中;
步骤2、利用步骤1中得到的标准数据集进行数据不均衡处理,并使用smote算法进行数据过采样处理,对样本数据量小的类别进行样本数据补充;
步骤3、利用特征选择的算法对步骤2中的smote算法处理之后的数据集进行特征的选择,将无效特征和噪声特征去除,得到最合适的特征,并将经过特征选择之后的数据集重新保存为新的数据集,存储在文本文件中。
进一步地,步骤1包括:步骤1.1、原始数据的收集,原始数据包括从列车监控装置、列车控制和管理系统获取包含运行的线路数据和机车操纵日志数据;步骤1.2、对运行的线路数据和机车操纵日志数据进行预处理操作,处理后得到标准的数据集。
进一步地,步骤3中,采用bestfirst搜索方法遍历特征集合空间来搜索好的特征子集,这个过程中使用cfs算法作为特征子集评估器来衡量特征的好坏,整个搜索过程直至达到了终止条件才结束,算法的输入为步骤2中数据集,算法的输出为cfs和bestfirst算法搜索出的最佳特征列表,完成特征选择操作后,剔除步骤2数据集中的不在最佳特征列表中的特征,得到新的筛选特征后的数据集,将这些数据存储在新的文本文件中。
本发明的有益效果在于:对线路数据进行分段操作,并将司机操作日志数据与线路分段数据进行映射,减小问题分析难度;同时使用smote算法解决了数据的不平衡问题;使用cfs进行数据集的特征选择,得到数据集的最佳特征,对数据进行了有效降维。
附图说明
图1是一种面向列车自动驾驶模式学习的列车运行记录数据处理方法的流程图;
具体实施方式
以下结合附图1对本发明的技术方案进行详细说明。
如图1所示,该实施例提供了一种面向列车自动驾驶模式学习的列车运行记录数据处理方法,具体包括以下步骤:
步骤1、原始数据的收集与预处理,得到标准的数据集,为后续的步骤准备数据的输入;该步骤分为数据的收集和预处理两个步骤,数据收集是从列车上相关的监控记录设备上获取原始数据,数据的预处理是针对从记录仪器上获取的原始数据进行数据的预处理。预处理之后得到供后续步骤使用的标准数据集合。将预处理之后的数据集结果存储在文本文件中。
步骤1.1、原始数据的收集,原始数据包括从列车监控装置(简称lkj)、列车控制和管理系统(简称tcms)获取包含运行的线路数据和机车操纵日志数据;
从一般现代轨道列车在运行中都会有相关的设备记录机车的整个运行过程中的状态。如列车监控装置(简称lkj)、列车控制和管理系统(简称tcms)等,lkj装置中主要记录线路、时刻表、运行调度等日志数据,从中可以获得线路的基本信息和机车运行公里标、速度等;tcms装置中主要记录了机车运行的操纵日志数据,从中可以获得机车运行的档位。该实施例中所提出的数据收集,主要是指从lkj、tcms等装置或系统中得到相关的日志数据。原始样本数据包括线路数据、机车参数数据、机车操纵日志数据等。
步骤1.2、对运行的线路数据和机车操纵日志数据进行预处理操作,处理后得到标准的数据集。
这里的原始数据预处理操作主要是根据自动驾驶模式学习的具体业务与数据集需求来处理。最后得到预处理后标准的线路数据和所有列车操纵日志数据标准数据集合,并将这些数据以一种结构化的表征形式存储在文本文件中。
步骤2、利用步骤1中得到的标准数据集进行数据不均衡处理,并使用smote算法进行数据过采样处理,对样本数据量小的类别进行样本数据补充。
数据不均衡是指在机器学习分类任务中训练数据集存在某个或某几个类别的样本量远大于另一些类别的样本量,简而言之就是训练数据集中不同类别样本数量差别很大,数据不均衡是机器学习应用中很普遍的现象:电力盗窃、恶性肿瘤检测、网络入侵、诈骗识别等都存在样本分布极不均横的现象。对于列车自动驾驶模式的学习,由于线路情况复杂多变,一些特殊路段列车运行数据很少,这样就会造成原始数据往往会存在某些类别的数据过少,数据就会出现不均衡。使用这些不均衡的训练数据会造成在大样本量的类别上预测效果很好,而在小样本量的类别上预测效果很差,严重的情况下会造成分类器无效,这样就会造成我们的预测结果出现偏差。
smote(syntheticminorityoversamplingtechnique)合成少数过采样技术,2002年由chawla和bowyer等人提出,相对于简单随机复制样本数据的随机过采样,smote可以合成小样本的数据而不是复制已有小样本数据的副本,方法会构造原始数据集中没有的新数据,这样一定程度上可以避免训练模型的过度拟合问题,可以加大训练模型的泛化能力。
针对数据集中样本数最少的若干个类别进行smote上采样操作,smote算法会合成新的小样本数据,这些数据将会被保存在文本文件中。
步骤3、利用特征选择的算法对步骤2中的smote算法处理之后的数据集进行特征的选择,将无效特征和噪声特征去除,得到最合适的特征,并将经过特征选择之后的数据集重新保存为新的数据集,存储在文本文件中。
通过步骤2的数据处理得到了均衡的标准数据集,这些数据集都是若干特征加上类别或实值的形式,将作为机器学习的训练数据输入,列车自动驾驶问题是一个多约束、高非线性的复杂操纵序列优化问题,数据集的特征会有很多。在机器学习过程中一个重要的过程就是特征选择,特征选择的主要作用就是降维,降低计算的复杂性,摒弃那些可能存在的无效特征和噪声特征,这些无效特征和噪声特征除了增加计算量也有可能对机器学习模型训练算法造成干扰,影响训练精度。
本发明使用cfs(correlationbasedfeatureselection)算法结合bestfirst(最佳优先)搜索算法进行特征选择。cfs算法根据特征子集中每一个特征的预测能力以及它们之间的关联性进行评估,评估每个特征的预测能力以及相互之间的冗余度,倾向于选择与类别特征相关度高,但是相互之间相关度低的那些特征。
bestfirst是一种贪心的搜索策略,搜索时使用宽度优先搜索的扩展,基本思想是将节点按照距离目标的距离进行排序,再以节点的估计距离为标准选择待扩展的节点。
该步骤中,采用bestfirst搜索方法遍历特征集合空间来搜索好的特征子集,这个过程中使用cfs算法作为特征子集评估器来衡量特征的好坏,整个搜索过程直至达到了终止条件才结束,算法的输入为步骤2中数据集,算法的输出为cfs和bestfirst算法搜索出的最佳特征列表。
完成特征选择操作后,剔除步骤2数据集中的不在最佳特征列表中的特征,得到新的筛选特征后的数据集,将这些数据存储在新的文本文件中。
虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述,本领域技术人员应该理解,上述实施例仅仅是对本发明的示意性实现方式的解释,并非对本发明包含范围的限定。实施例中的细节并不构成对本发明范围的限制,在不背离本发明的精神和范围的情况下,任何基于本发明技术方案的等效变换、简单替换等显而易见的改变,均落在本发明保护范围之内。