一种基于svm的轨道交通故障诊断方法及系统的制作方法
【专利摘要】本发明涉及一种基于SVM的轨道交通故障诊断方法及系统,该方法包括:采集轨道交通的历史监测数据及实时监测数据,并传输到数据分析服务器中,数据分析服务器对其进行预处理、特征选择、数据向量化和模型训练,然后根据由历史监测数据得到的分类模型,对实时监测数据进行计算分析和分类,判断是否有故障并得出故障产生的原因。该系统包括数据归集组件、数据存储组件、数据预处理组件、特征选择组件、数据向量化组件、模型训练组件和实时数据分析组件。本发明通过自动化的监测手段来代替人工在海量的监测信号中进行故障的判断和分析,可以大量节约的人力成本以及故障原因分析的时间,为后续的维修、救援等工作提供时间保障。
【专利说明】—种基于SVM的轨道交通故障诊断方法及系统
【技术领域】
[0001]本发明提供一种基于SVM的轨道交通故障诊断方法及系统,涉及铁路信号数据、铁路通信数据、铁路知识数据、系统报警数据、机器学习、SVM (支持向量机)、等【技术领域】,用以解决轨道交通监测数据的数据分析问题。
【背景技术】
[0002]目前,轨道交通(国有铁路、企业铁路和城市轨道交通)领域、监测维护产品主要有三类:CSM(信号集中监测系统)、各设备维护机、通信网管系统。为了提高我国铁路信号系统设备的现代化维修水平,从90年代开始,先后自主研制了 TJWX-1型和TJWX-2000型等不断升级中的信号集中监测CSM系统。目前大部分车站都采用了计算机监测系统,实现了对车站信号设备状态的实时监测,并通过监测与记录信号设备的主要运行状态,为电务部门掌握设备的当前状态和进行事故分析提供了基本依据,发挥了重要作用。并且,对城市轨道交通信号设备,集中监测CSM系统也被广泛部署在城轨集中站/车辆段等处,供城轨运维使用。此外,伴随我国高速铁路的建设发展,高铁特有的RBC系统、TSRS系统、ATP系统,也面临着纳入信号集中监测系统的需求,也面临着提高其监测能力、运维能力,以及设备自诊断能力的需求。
[0003]数据挖掘分析是利用统计分析的数学知识,分析文本、图像、数值等数据,发现数据的隐含规则、关系,建立数据模型,用于对数据进行分类、聚类、统计等操作。SVM是非常成熟的数据分类算法,支持二类分类和多类分类。SVM的主要思想为:它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。
[0004]轨道交通监测数据的挖掘分析,对于判断和分析轨道交通的技术故障具有重要的意义。目前多是靠人工在海量的监测数据中进行故障的判断和分析,需要大量的人力成本以及故障原因分析的时间,从而难以为后续的维修、救援等工作提供时间保障,因而需要研究更高效的轨道交通监测数据分析和故障分析方法。随着轨道交通监测技术的不断发展,越来越多的监测设备被安装使用,采集得到的监测数据的种类和数量也越来越多,使用算法在一定程度上替代人工分析是一个必然的趋势。
【发明内容】
[0005]本发明的目的是针对轨道交通监测数据进行数据分析,利用SVM对监测数据进行分类,可以显示故障原因分类等操作。通过自动化的监测手段来代替人工在海量的监测数据中进行故障的判断和分析,大量节约的人力成本以及故障原因分析的时间,为后续的维修、救援等工作提供时间保障。
[0006]为实现上述目的,本发明采用的技术方案如下:
[0007]一种基于SVM的轨道交通故障诊断方法,其步骤包括:[0008]I)通过数据归集组件采集轨道交通的历史监测数据及实时监测数据,并将这些数据传输到数据分析服务器中;
[0009]2)数据分析服务器存储各类监测数据,并对其进行预处理以将其规范化;
[0010]3)数据分析服务器分析具体的故障以及故障产生的原因,对监测数据进行特征选择,映射出与故障问题相关的监测数据;
[0011]4)数据分析服务器对特征数据进行向量化,将其转换为可被SVM处理的空间向量模型数据;
[0012]5)数据分析服务器根据空间向量模型对历史监测数据进行模型训练,产生对应的问题分类模型;
[0013]6)数据分析服务器根据由历史监测数据得到的分类模型,对实时监测数据进行计算分析和分类,判断是否有故障并得出故障产生的原因。
[0014]进一步地,步骤I)所述数据归集组件包括历史监测数据归集和实时数据归集,并与运维部门如车站、电务段的集中监测系统(CSM)连接。历史数据可以从历史数据库中获取,实时监测数据则需要与相应的数据采集设备进行交互。
[0015]进一步地,步骤2)中数据分析服务器在存储监测数据时,将格式化的监测数据以文本的格式存储在本地文件系统之中,如存储到Excel或者文本中,这样更有助于数据的处理,并对数据预处理步骤提供数据支撑。
[0016]进一步地,步骤2)中数据分析服务器对监测数据进行的预处理,包括检查并处理得到的监测数据中的异常点,检查数据的完整性,对不同车站、电务段的监测数据进行融合,对监测数据进行变换、归一化等操作,以统一数据的格式和取值范围。对历史监测数据进行预处理,包括数据的清洗、数据转换、数据规范化等步骤,去掉噪音数据、不完整的数据等,将监测数据规范化。
[0017]进一步地,步骤3)中数据分析服务器进行特征选择时,根据问题的理解和数据的特点,利用经验或特征选择算法选择出于问题相关的数据。将这些数据从原始数据中抽取出来。特征选择支持人工、机器的特征选择,针对问题及SVM选择合适的特征数据进行处理。特征选择模块需要对问题进行分析,找出相关的特征,然后对预处理之后的监测数据进行选择。将相关的特征作为模型训练的输入数据进行处理,而不是处理所有的数据。这里的特征指的是数据监测的值,如某一个轨道设备的电压值,可以作为一个特征来处理。
[0018]进一步地,步骤4)中数据分析服务器对数据进行向量化时,通过对输入数据格式的分析,编程实现数据格式的转换,将输入的数据转换为向量模式,适用于SVM处理的空间向量模型格式。如果对一个问题选择了 η个相关的特征,并根据预处理的结果,包含了 m组数据。那么就是n*m个数据,形成一个m行η列的二维矩阵。也相当于得到了 m个向量,每个向量有η个数据。特征的取值就是对应二维数组相应位置的值。
[0019]进一步地,步骤5)中数据分析服务器进行模型训练时,首先选择合适的内核,如线性核、图核、树核、多项式核、神经网络核、RBF核等,不同的核函数适用于不同类型的问题。核函数的选择主要是根据对问题的理解,和不同核函数的经验进行选择。在选择了核函数之后,需要对数据进行分类,分为训练数据和测试数据两部分。训练数据用于对模型训练,得到相应的参数,然后使用测试数据进行测试,验证模型的泛化能力。利用十倍交叉验证的方式来增加模型分类的准确率和召回率。在一个实施例中,可以将得到的VSM监测数据平均的分成十组,编号为1-10,进行十次模型训练,每次选用不重复的编号作为测试集,剩下的9份数据作为训练集进行训练,然后使用不同的参数进行十倍交叉验证,得到更为准确的准确率和召回率对应的参数。
[0020]进一步地,步骤6)数据分析服务器对实时监测数据进行分析时,需要对数据归集组件在CSM系统中采集实时的轨道交通监测数据进行与历史监测数据相同的步骤,包括预处理、特征选择、数据向量化等步骤,然后利用已经得到的分类模型,对这些数据进行分类,以判断是否出现故障,以及产生故障的原因。
[0021]上面步骤I)到6)可以用于设备级和运维级的故障监测数据分析。设备级监测数据分析是数据分析算法针对某一个指定的设备进行监测数据采集、处理、模型生成和故障分析;运维级监测数据分析是针对整个运行系统的某一类故障进行监测数据的采集、处理、模型生成和故障分析。
[0022]一种基于SVM的轨道交通故障诊断系统,包括:
[0023]数据归集组件,位于轨道交通运维部门,用于采集轨道交通的历史监测数据及实时监测数据,并将其传输到数据分析服务器中;
[0024]数据分析服务器,包括:
[0025]数据存储组件,连接所述数据归集组件,用于存储数据归集组件发送过来的各类监测数据;
[0026]数据预处理组件,连接所述数据存储组件,用于对监测数据进行预处理以将其规范化;
[0027]特征选择组件,连接所述数据预处理组件,用于分析具体的故障以及故障产生的原因,对监测数据进行特征选择,映射出与故障问题相关的监测数据;
[0028]数据向量化组件,连接所述特征选择组件,用于对特征数据进行向量化,转换为SVM可以处理的空间向量模型数据;
[0029]模型训练组件,连接所述数据向量化组件,用于对历史监测数据进行模型训练,产生对应的问题分类模型;
[0030]实时数据分析组件,连接所述数据向量化组件和所述模型训练组件,用于对实时监测数据进行计算分析和分类,判断是否有故障并得出故障产生的原因。
[0031]进一步地,所述轨道交通运维部门包括各车站、电务段,所述数据归集组件与这些运维部门的集中监测系统(CSM)连接。历史数据可以从历史数据库中获取,实时监测数据则需要与相应的数据采集设备进行交互。
[0032]本发明利用SVM对监测数据进行分类,通过自动化的监测手段来代替人工在海量的监测数据中进行故障的判断和分析,与现有技术相比,优点如下:
[0033]I)本发明加快了故障识别的速度,采用SVM分类器对轨道交通监测数据进行故障识别,可以加快故障识别的速度,通过对实时监测数据进行分析,可以快速的发现故障,并识别出故障的类型。
[0034]2)本发明通过使用模型识别故障,节省了大量的人力成本,不再需要人工的去观察监测信息然后进行故障识别和分析。
[0035]3)本发明通过云平台进行扩展,对监测数据进行分布式存储和并行计算,可以解决不断增加的轨道交通监测数据的存储和处理问题。从而可以比较从容的应复杂的设备故障和行车事故原因。
[0036]4)在本发明的基础上,加入算法的学习能力,则可以不断的提高故障识别的能力,通过不断的累积学习可以发现人工还没有总结出现的新故障,以及故障产生的新原因,即能够提高预警能力、预诊断能力。
【专利附图】
【附图说明】
[0037]图1是本发明的轨道交通监测数据分析方法的步骤流程图。
[0038]图2是本发明的轨道交通监测数据分析系统的组件连接示意图。
[0039]图3是本发明的运维级轨道故障分析实例的流程图。
[0040]图4是本发明的设备级轨道故障分析实例的流程图。
【具体实施方式】
[0041]下面通过具体实施例和附图,对本发明做详细的说明。
[0042]本发明的基于SVM对监测数据进行分析处理的流程如图1所示,主要分为模型训练阶段和实时数据分析阶段。输入的数据包括历史监测数据和实时监测数据,输出的是针对实时监测数据的分析结果。通过本发明,可以快速的对监测数据进行分析,实时的得到故障原因等分析结果。
[0043]图2是实现上述处理流程的相应的系统组成图。主要包括:位于运维部门的数据归集组件、位于数据分析服务器的数据存储组件、数据预处理组件、特征选择组件、数据向量化组件、模型训练组件和实时数据分析组件。
[0044]监测数据分析模型主要由两个步骤:一是根据给定的训练集找到合适的SVM核函数及参数,通常称为模型训练阶段;二是使用第一步训练完成的函数模型分析实时监测数据,以得到系统是否出现故障以及故障产生的原因。下面结合图1和图2具体说明各组件的功能。
[0045]1、数据归集组件
[0046]以中国的铁路系统为例,包括位于各车间、电务段、铁路局、铁路总公司的数据归集组件;数据归集组件与对应位置的集中监测系统(CSM)相连接,获取其中的数据。其中获取的监测数据分为历史监测数据和实时监测数据;历史监测数据在模型训练阶段使用,用于对模型进行训练以得到分类模型;训练得到的模型用于对实时监测数据进行分类,以得到系统当前的运行状态,如是否有故障以及故障的原因等。
[0047]数据归集组件与数据分析服务器连接,数据归集组件将获取到的监测数据传输给数据分析服务器上的数据存储组件。具体实施时,数据归集组件可以为软件模块,CSM提供一个接口,数据归集组件就是调用这个接口,定期的获取数据。因为不同的CSM数据差别较大,归集组件需要识别各种数据格式。
[0048]2、数据存储组件
[0049]数据存储组件位于数据分析服务器中,支持格式化、半格式化和非格式化的数据存储。历史监测数据由于数据量较大,为了便于并行处理,一般采用文件的方式进行存储。进一步的可以采用分布式文件系统进行历史监测数据的存储,并且采用并行计算架构对监测数据进行计算,以提高数据存储的能力和数据计算的能力。数据存储组件对外提供数据访问的接口。数据归集组件利用其与数据分析服务器的连接,调用数据存储组件的数据存储接口,将历史监测数据和实时监测数据存储在数据分析服务器中。
[0050]3、数据预处理组件
[0051]数据预处理组件位于数据分析服务器中,通过与数据存储组件之间的连接,调用数据访问的接口,对得到的监测数据进行预处理。首先检查数据的正确性和完整性,然后进行相应的处理,如数据条删除等。进一步地,对监测数据进行归一化,形成格式正确、样本空间完整的监测数据集。
[0052]4、特征选择组件和数据向量化组件
[0053]特征选择组件与数据预处理组件连接,在进行了特征选择之后,通过与数据预处理组件的连接,将处理好的监测数据集进行样本抽取,映射出只和特征相关的部分数据,形成新的监测数据集。特征选择组件与数据向量化组件连接,将映射出的监测数据集传输给数据向量化组件,数据向量化组件对数据进行空间向量化,形成SVM支持的VSM格式的数据。
[0054]5、模型训练组件
[0055]模型训练组件与数据向量化组件连接,通过该连接获取VSM格式的监测数据,然后使用不同的参数对该数据进行十倍交叉验证。以得到分类和泛华能力最好的模型以及参数。通过与实时数据分析组件的连接,将训练好的模型传输给实时数据分析组件。
[0056]6、实时数据分析组件
[0057]实时数据分析组件与数据向量化组件连接,并与模型训练组件连接。实时监测数据也需要经历与历史监测数据类似的流程,最后将VSM格式的实时监测数据作为输入,输入到实时数据分析组件,通过计算就可以得到当前的系统是否存在特定的故障,以及该故障产生的原因。
[0058]SVM在轨道交通监测数据进行数据分析中的意义在于对历史监测到的数据进行分析处理,然后得到预测模型。然后利用该数学模型对采集到的实时监测数据进行分析处理,可以得到实时的分析结果,如故障预警、异常报警等。避免了采用人工分析方式所造成的人力资源浪费,以及分析结果过于依赖分析经验和专注度、人工分析所带来的延迟以及海量监测数据造成的分析困难。具体来说,本发明利用SVM进行轨道交通监测数据的分析时,包括以下步骤:
[0059]I)归集数据
[0060]SVM数据分析时需要利用到两类数据,轨道交通历史监测数据和轨道交通实时监测数据:
[0061]轨道交通历史监测数据:历史监测数据需要包含出现各类故障情况时的完整数据,用于获取各类情况下数据的特征;
[0062]轨道交通实时监测数据:实时监测数据是指从轨道交通采集到的实时数据,SVM对这部分数据进行分析处理,可以监测到当前运行环境下,是否已经出现故障,以及故障的原因分析。
[0063]2)监测数据预处理
[0064]对历史监测数据和实时监测数据进行处理分析时,需要对监测数据进行预处理,包括数据清洗、数据集成、数据变换和数据规约。[0065]轨道交通监测数据存储不完整、不一致等脏数据,导致无法进行数据分析或者挖掘结果比较差。为了提高数据分析的质量产生了数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据分析之前使用,大大提高了数据分析模式的质量,降低实际挖掘所需要的时间。
[0066]数据清洗:数据清理通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。轨道监测数据有时候会出现电压、电路等监测值的瞬间异常等信息,并不会对系统造成影响,因此需要对这些数据进行清洗。去掉一些异常值,如果出现某些监测值空缺的情况,依据经验值进行填补,或者将对应的监测数据删除。
[0067]数据集成:数据集成将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。轨道交通监测数据很不同设备、站点之间可能存在相互关系,将数据进行集成有利于对设备、站点之间的关系进行挖掘、分析,如进行关联分析等。
[0068]数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据分析的形式。监测数据因为监测的信号不同,如电流、电压等,不同信号值的的类型和取值范围区别较大,有些是模拟量,有些是布尔量的。需要对这些数据进行规约,这样更有利于模型的建立和分析的精确度。
[0069]数据规约:数据分析时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。
[0070]3)特征选择
[0071]特征选择也叫特征子集选择(FSS, Feature Subset Selection)。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化。在本文中,特征提取主要是根据具体的问题进行分析,找出与其相关的特征,然后利用SVM对这些特征进行分析,而不是对全部的特征进行分析。在本文中,特征指的是监测数据得到的数据,监测数据的种类多、采样频率高,因此数据量较大。针对具体问题如轨道电路故障判断进行分析的时,它仅与很少的几个特征相关,而不是全部的监测数据。通过特征选择,可以大大减少数据的计算量,在提高计算速度的同时,还可以避免引入过多的不相关特征,从而提高分析的精确度。
[0072]4)数据向量化
[0073]SVM对数据进行处理分析时,需要转换为特定的格式一空间向量模型(VSM),空间向量模型最早被用于计算文本的相似度。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。因此需要编程实现对预处理过的监测数据进行格式转换,变为空间向量模型格式的数据。
[0074]5)模型训练
[0075]SVM的实质是对数据进行分类,针对有限样本情况的学习机器,实现的是结构风险最小化:在对给定的数据逼近的精度与逼近函数的复杂性之间寻求折衷,以期获得最好的泛华能力。它最终解决的是一个凸二次规划问题,从理论上说,得到的将是全局最优解,解决了在神经网络方法中无法避免的局部极值问题。它将实际问题通过非线性变换转换到高维的特征空间,在高维空间中构造线性决策函数来实现原空间中的非线性决策函数,巧妙地解决了维数问题,并保证了有较好的推广能力,而且算法复杂度与样本维数无关。最终目的是通过找到一个最优的超平面对数据进行划分。
[0076]SVM支持多种类型的核函数,如线性核、图核、树核、多项式核、神经网络核等。不同核函数针对不同的问题,在本文的例子中选取RBF (径向基函数)核作为SVM的核函数。核函数的选择一般是基于经验的。
[0077]RBF核,是一种常用的核函数。它是支持向量机分类中最为常用的核函数。关于两个样本χ和X’的RBF核可表示为某个“输入空间”(input space)的特征向量,它的定义如下所示:
[0078]
【权利要求】
1.一种基于SVM的轨道交通故障诊断方法,其步骤包括: 1)通过数据归集组件采集轨道交通的历史监测数据及实时监测数据,并将其传输到数据分析服务器中; 2)数据分析服务器存储各类监测数据,并对其进行预处理以将其规范化; 3)数据分析服务器分析具体的故障以及故障产生的原因,对监测数据进行特征选择,映射出与故障问题相关的监测数据; 4)数据分析服务器对特征数据进行向量化,将其转换为可被SVM处理的空间向量模型数据; 5)数据分析服务器根据空间向量模型对历史监测数据进行模型训练,产生对应的问题分类模型; 6)数据分析服务器根据由历史监测数据得到的分类模型,对实时监测数据进行计算分析和分类,判断是否有故障并得出故障产生的原因。
2.如权利要求1所述的方法,其特征在于:步骤2)中数据分析服务器在存储监测数据时,将格式化的监测数据以文本的格式存储在本地文件系统之中,并对数据预处理步骤提供数据支撑。
3.如权利要求1所述的方法,其特征在于,步骤2)中数据分析服务器对监测数据进行的预处理包括数据清洗 、数据集成、数据变换和数据规约。
4.如权利要求1所述的方法,其特征在于:步骤3)中数据分析服务器进行特征选择时,根据问题的理解和数据的特点,利用经验或特征选择算法选择出与问题相关的数据,将其从原始数据中抽取出来。
5.如权利要求1所述的方法,其特征在于:步骤4)中数据分析服务器通过对输入数据格式的分析,编程实现数据格式的转换,将输入的数据转换为向量模式和适用于SVM处理的空间向量模型格式。
6.如权利要求1所述的方法,其特征在于:步骤5)中数据分析服务器进行模型训练时,首先选择合适的内核,然后将数据分为训练数据和测试数据两部分,训练数据用于对模型训练,得到相应的参数,之后使用测试数据进行测试,验证模型的泛华能力。
7.如权利要求6所述的方法,其特征在于:步骤5)利用十倍交叉验证的方式来增加模型分类的准确率和召回率。
8.如权利要求7所述的方法,其特征在于:步骤5)将得到的VSM监测数据平均分成十组,编号为1-10,进行十次模型训练,每次选用不重复的编号作为测试集,剩下的9份数据作为训练集进行训练,然后使用不同的参数进行十倍交叉验证,得到更为准确的准确率和召回率对应的参数。
9.一种基于SVM的轨道交通故障诊断系统,其特征在于,包括: 数据归集组件,位于轨道交通运维部门,用于采集轨道交通的历史监测数据及实时监测数据,并将其传输到数据分析服务器中; 数据分析服务器,包括: 数据存储组件,连接所述数据归集组件,用于存储数据归集组件发送过来的各类监测数据; 数据预处理组件,连接所述数据存储组件,用于对监测数据进行预处理以将其规范化; 特征选择组件,连接所述数据预处理组件,用于分析具体的故障以及故障产生的原因,对监测数据进行特征选择,映射出与故障问题相关的监测数据; 数据向量化组件,连接所述特征选择组件,用于对特征数据进行向量化,转换为SVM可以处理的空间向量模型数据; 模型训练组件,连接所述数据向量化组件,用于对历史监测数据进行模型训练,产生对应的问题分类模型; 实时数据分析组件,连接所述数据向量化组件和所述模型训练组件,用于对实时监测数据进行计算分析和分类,判断是否有故障并得出故障产生的原因。
10.如权利要求9所述的系统,其特征在于:所述数据归集组件与所述数据分析服务器通过以太网进行数据传输;或者所述数据归集组件与所述数据分析服务器集成于一个工作站内,通过数据总线进行数据传输。`
【文档编号】G06K9/62GK103745229SQ201410009600
【公开日】2014年4月23日 申请日期:2014年1月9日 优先权日:2013年12月31日
【发明者】鲍侠 申请人:北京泰乐德信息技术有限公司