一种基于Cox模型的接触网缺陷内因分析方法与流程

文档序号:33361556发布日期:2023-03-07 21:02阅读:28来源:国知局
一种基于Cox模型的接触网缺陷内因分析方法与流程
一种基于cox模型的接触网缺陷内因分析方法
技术领域
1.本发明涉及轨道交通接触网缺陷成因分析技术领域,更具体地说涉及一种基于cox模型的接触网缺陷内因分析方法。


背景技术:

2.接触网是整个轨道交通的重要供电设施。列车在运行过程中,车顶受电弓与接触网之间产生高速的相对运动。在相对运动过程中,整个接触网系统受到较大冲击,系统各部位容易频繁发生缺陷。在接触网运维工作中,分析人员通常需要研究引发缺陷产生的原因因素(即内因分析)。良好的内因分析结果可以指导接触网运营改进方案的指定,提高接触网运维工作效率。
3.现有的缺陷内因分析工作,主要是依据缺陷记录和接触网运维人员的从业经验,通过简单的数据分析来实现。其主要包括以下步骤:步骤1、分析缺陷记录数据;步骤2、结合实际情况提出缺陷致因因素猜想;步骤3、改变相关致因因素的实际状态;步骤4、重新考察致因因素的改变对缺陷发生情况是否产生影响;步骤5,判断是否有影响,若是,则获取内因分析结论,若否,则返回步骤2中。
4.该方法存在以下缺陷:第一,过度依赖运维人员的从业经验。第二,数据来源过于单一,导致缺陷分析维度不够全面。第三,不能从时间的维度进行缺陷分析。


技术实现要素:

5.为了克服上述现有技术中存在的缺陷,本发明公开了一种基于改进的cox模型的接触网缺陷内因分析方法,本发明的目的是解决现有技术中依据缺陷记录和接触网运维人员的从业经验、通过简单的数据分析,存在的缺陷分析维度不够全面、不能从时间的维度进行缺陷分析的问题。本发明以统计学中的生存分析为总体思路,以cox模型及其改进后的偏似然函数为工具,通过对例如制造因素,设计因素,运维因素等内因维度等进行多维度因素分析,实现对接触网缺陷的内因分析。
6.为了实现以上目的,本发明采用的技术方案:一种基于cox模型的接触网缺陷内因分析方法,包括以下步骤:1、数据获取s1、获取历史的接触网缺陷详细记录数据表和接触网缺陷内因因素详细数据表;(1)获取历史的缺陷详细记录数据表在接触网运营过程中,可以收集到至少包含各类型电气缺陷或者机械缺陷的发生时间,发生地点(如支柱号和锚段号),处理时间等信息构成的详细记录表。
7.本发明中,具体可通过获取历史的接触网详细记录数据,以接触网缺陷详细记录数据表来记录。本发明中,在构建模型之前通过接触网历史缺陷记录数据的收集和处理来获取缺陷详细记录数据,用于模型的训练。
8.(2)获取历史的内因因素详细数据表
优选的,所述内因因素包括设计因素、制造因素、施工因素、运维因素、环境累积因素以及其他因素。
9.接触网缺陷内因因素可以分为6个维度,分别是设计因素,制造因素,施工因素,运维因素,环境累积因素以及其他因素(其他因素可包括霾、雾、大风、冰雹、大雪、大雨、冻雨、霜降和雷电等因素)。每个维度对应一张数据表。每个维度的数据表中详细记录每个位置(支柱或者锚段)的因素相关值。各维度数据表至少包含支柱号或锚段号,以及该维度对应的各因素相关值。
10.本发明中,具体可通过获取历史的接触网缺陷内因因素详细数据,以接触网缺陷内因因素详细数据表来记录。本发明中,根据内因因素的的性质,制定相应的数据收集方案来获取数据,例如温度可以通过温度传感器收集,车辆速度可以通过查找车辆运营数据来获取。
11.2、数据预处理s2、对缺陷详细记录数据表和内因因素详细数据表中的数据进行预处理;上述步骤中,将缺陷详细记录数据表和内因因素详细数据表(以下简称缺陷内因两数据表)中的数据进行预处理,并将预处理后的数据作为建模数据,以便于后续的建模。所述预处理包括以下步骤:(1)缺失值处理s21、对缺陷内因两数据表中的缺失值进行处理;优选的,缺失值处理中,缺失值处理阈值为a,若某因素的数据缺失量占字段数据总量的比例大于等于a,则删除该字段;若该比例小于a,则用该字段的均值代替该字段的缺失值。
12.上述缺失值处理步骤中,设缺失值处理阈值为a。缺失值处理是针对每个因素的数据字段进行处理。如果某因素的数据缺失量占字段数据总量的比例大于等于a,则删除该字段;如果该比例小于a,则该字段的缺失值用该字段的均值来代替。
13.本发明设置上述缺失值处理的目的是针对每个因素的数据字段进行处理,得到可以用于建模的完整数据。
14.(2)缺陷内因两数据表联合查询s22、缺失值处理后,以支柱号和锚段号为关联字段,在缺陷内因两数据表中进行联合查询,获取缺陷发生位置的内因因素数据;本发明中,两表联合查询是指以支柱号和锚段号为关联字段,获取缺陷发生位置的内因因素数据。查询结果表至少包含支柱号和锚段号,缺陷名称,发现时间,以及各因素相关值等。
15.本发明中,对缺陷内因两数据表联合查询的目的是将支柱号与锚段号进行关联,以获取缺陷发生位置的内因因素数据。
16.(3)数据标准化s23、对获取的每一个内因因素的数据进行标准化处理;数据标准化步骤中,针对每一个内因因素的数据进行标准化处理。其中,对于内因因素中的导高设计值的标准化为:
其中,为导高设计值的标准化,为支柱i对应的导高设计值的原始值,为所有建模样本中导高设计值的算术平均值,为标准差。
17.本发明中,对获取的每一个内因因素的数据进行标准化处理,可以控制建模过程中梯度不剧烈变化,同时使后续缺陷发生的影响权重计算更加准确。
18.(4)构造标签数据和时间表征量s24、标准化处理后,利用标准化后的数据生成建模数据,并在建模数据中加入缺陷发生标签字段和时间表征量。
19.本发明中,生成的建模数据包括标准化处理后的内因因素数据。
20.优选的,所述缺陷发生标签字段中,如果某位置发生缺陷,则该位置的标签值为1;如果未发生缺陷,则该位置的标签值为0。
21.优选的,所述时间表征量中,若是同一条线路进行分析,则统计每个支柱的缺陷发现时间点与最近一次维修时间点之间的时长,用作时间表征量;若不是同一条线路,则统计每个支柱的缺陷发现时间点之前经过每个支柱的车次数量,用作时间表征量。
22.本发明中,加入标签数据的目的是用于快速验证构建的cox模型是否达到目标效果,加入时间表征量数据的目的是用于快速判断缺陷发生的时长。
23.3、基于改进的似然函数构建的cox模型s3、利用预处理后的数据,构建缺陷发生情况与各个内因因素数据的比例风险模型;本发明中,假设总体支柱数据量为n。参与建模的内因因素总数为p。利用建模数据构建缺陷发生情况与各个内因因素数据的比例风险模型(即cox模型)。
24.优选的,所述比例风险模型为:其中,为模型输出的比例风险值,为模型的回归系数, 为内因因素,为基础风险比例函数。
25.本发明中,基础风险比例函数可以通过查询相关国家或行业标准获得。如果在标准文件中无相关数据,则可以使用当前建模样本通过非参数统计获得,计算公式如下:优选的,所述基础风险比例函数为:其中,
,i为标签数据,z为被观察的支柱位置,为在经过时间表征量t以后,发生缺陷的支柱位置集合,为经过时间表征量t以后,所有被观测的支柱位置的集合,为集合中支柱位置的总数量。
26.优选的,所述模型回归系数为最大时的系数的值,为:其中,为偏似然函数;表示在经过时间表征量t以后,发生缺陷的支柱位置集合;z,m表示集合内的一个支柱位置;为经过时间表征量t以后,所有被观测的支柱位置的集合;l表示集合内的一个支柱位置;表示集合中的支柱位置数量,为支柱位置m发生缺陷的时间,h为从0到card(d
t
)-1的循环遍历。
27.本发明中,模型的回归系数的计算采用最大似然法。最大似然法通过最大化cox模型对应的偏似然函数得到系数的值。一般情况下cox模型系数估计采用的是breslow偏似然函数,但是由于接触网内因因素数据维度较多,计算量大,需要的结果精度较高。所以本发明在此处选择计算精度更高的efron偏似然函数,efron偏似然函数如下:对上述efron偏似然函数进行对数化处理,得到上述。然后通过newton raphson算法,找到使函数最大时的系数,即为本次建模得到了模型系数值,如下:优选的,在构建模型时,得到模型系数值以后,通过一致性指数concordance index检验本次构建模型是否达到目标效果,当concordance index小于或等于0.5时,模型完全无效,等于1时,模型预测完全正确。
28.本发明中,得到模型系数值以后,通过一致性指数concordance index(以下简称c-index)来检验本次构建的cox模型是否达到目标效果。c-index变化范围为0到1。c-index小于或等于0.5时,说明cox模型完全无效。c-index等于1时,说明cox模型预测完全正确。
29.优选的,在构建模型之前,先设定concordance index的阈值,每次构建模型后,利用建模数据计算该模型对应的concordance index值,若,则保留该模型
及其系数。设置此步骤的目的是检验本次构建的cox模型是否达到目标效果。
30.4、输出缺陷内因分析结果s4、利用比例风险模型的回归系数,计算每个内因因素对缺陷发生情况的影响权重,以及接触网发生缺陷的概率。
31.cox模型建立后,利用cox模型的回归系数来计算每个内因因素对缺陷发生情况的影响权重。假设参与建模的内因因素总数为p,cox模型建立后的回归系数为。将cox模型的回归系数进行归一化处理后,就得到各内因因素对缺陷发生的影响权重。
32.优选的,所述影响权重为:其中,为内因因素i对缺项发生情况的影响权重,为内因因素i对应的模型回归系数,p为参与建模的内因因素总数。
33.本发明中,计算上述每个内因因素对缺陷发生情况的影响权重的目的是获取对缺陷发生情况关联性最大的内因因素。
34.优选的,发生缺陷的概率中,该支柱位置发生缺陷的概率为:其中,为缺陷发生概率,为生存函数,为所有研究的支柱中,经过时间表征量t最大的支柱对应的时间表征量,为基础风险比例函数,为模型的回归系数,为内因素标准化后的数据。本发明中,支柱为缺陷位置的地理标识,也可以用其他标识例如锚段,公里标等。
35.本发明中,为了预测某一在支柱z在经过时间表征量t以后发生缺陷的概率,需要采取如下两步骤进行。
36.第一步,需要收集支柱k的相关内因因素的数据值,即支柱k对应的内宿因素的值,并利用各因素数据的均值和标准差将其标准化,标准化后的数据记作。
37.第二步,通过以下公式得到生存函数:生存函数表达了在经过时间表征量t后,支柱没有发生缺陷的概率。用1减去生存函数值就为经过时间表征量t后支柱发生缺陷的概率,即如下公式所示:
其中,为基准生存函数,该函数的构建利用基础风险比例函数,通过kaplan-meier算法来构建,构建过程如下:将基准生存函数,代入上述的支柱发生缺陷的概率的公式中,即得到本发明上述的支柱发生缺陷的概率。
38.本发明的有益效果:1、现有技术中的数据分析比较粗放,本发明提供的接触网缺陷内因分析方法,不仅考虑内因因素的多维度多因素情况,同时将缺陷发现的时间因素带入了模型,整个分析过程更加全面科学。
39.2、本发明提供的接触网缺陷内因分析方法,采用了改进的偏似然函数,既节省了计算资源,也保证了计算精度。
40.3、本发明提供的接触网缺陷内因分析方法,使用归一化后的回归系数作为内因分析过程输出,其结果更加直观,可解释性更强。
41.4、本发明提供的接触网缺陷内因分析方法,在数据预处理过程中,将各因素数据进行标准化处理,可以控制建模过程中梯度不剧烈变化,同时保证缺陷发生的影响权重计算更加准确。
42.5、本发明提供的接触网缺陷内因分析方法,将cox模型的回归系数进一步归一化以后,得到各内因因素对缺陷发生的影响权重。
附图说明
43.图1为本发明的流程图。
具体实施方式
44.以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、特征和效果。
45.实施例1一种基于cox模型的接触网缺陷内因分析方法,如图1所示,包括以下步骤:s1、获取历史的接触网缺陷详细记录数据表和接触网缺陷内因因素详细数据表;s2、对缺陷详细记录数据表和内因因素详细数据表中的数据进行预处理;s3、利用预处理后的数据,构建缺陷发生情况与各个内因因素数据的比例风险模型;s4、利用比例风险模型的回归系数,计算每个内因因素对缺陷发生情况的影响权重,以及接触网发生缺陷的概率。
46.实施例2本实施例在实施例1的基础上对s1步骤作进一步的阐述,s1步骤包括获取缺陷详
细记录数据表步骤和获取内因因素详细数据表步骤,具体如下:(1)获取历史的缺陷详细记录数据表在接触网运营过程中,可以收集到至少包含各类型电气缺陷或者机械缺陷的发生时间,发生地点(如支柱号和锚段号),处理时间等信息构成的详细记录表,表内容结构如下表所示。
47.(2)获取历史的内因因素详细数据表接触网缺陷内因因素可以分为6个维度,分别是设计因素,制造因素,施工因素,运维因素,环境累积因素以及其他因素。每个维度对应一张数据表。每个维度的数据表中详细记录每个位置(支柱或者锚段)的因素相关值。各维度数据表至少包含支柱号或锚段号,以及该维度对应的各因素相关值。
48.以设计因素表为例,该表的结构如下表所示:实施例3本实施例在实施例2的基础上对s2步骤作进一步的阐述,s2步骤包括以下步骤:s21、对缺陷内因两数据表中的缺失值进行处理;s22、以支柱号和锚段号为关联字段,在缺陷内因两数据表中进行联合查询,获取缺陷发生位置的内因因素数据;s23、对获取的每一个内因因素的数据进行标准化处理;s24、利用标准化后的数据生成建模数据,并在建模数据中加入缺陷发生标签字段和时间表征量。
49.上述的s2步骤包括了数据预处理、缺陷内因两数据表联合查询、数据标准化和构造标签数据和时间表征量,具体如下:(1)缺失值处理设缺失值处理阈值为a。缺失值处理是针对每个因素的数据字段进行处理。如果某因素的数据缺失量占字段数据总量的比例大于等于a,则删除该字段;如果该比例小于a,则该字段的缺失值用该字段的均值来代替。
50.(2)缺陷内因两数据表联合查询两表联合查询是指以支柱号和锚段号为关联字段,获取缺陷发生位置的内因因素数据。查询结果表至少包含支柱号和锚段号,缺陷名称,发现时间,以及各因素相关值等,其表结构可以用下图所示:
(3)数据标准化针对每一个内因因素的数据进行标准化处理。其中,对于内因因素中的导高设计值的标准化为:其中,为导高设计值的标准化,为支柱i对应的导高设计值的原始值,为所有建模样本中导高设计值的算术平均值,为标准差。
51.(4)构造标签数据和时间表征量最后,在生成的建模数据中加入缺陷发生标签字段和时间表征量。如果某位置发生缺陷,则该位置的标签值为1;如果未发生缺陷,则该位置的标签值为0。
52.时间表征量可以用两种数量表示。如果是同一条线路进行分析,可以统计每个支柱的缺陷发现时间点与最近一次维修时间点之间的时长,并用作时间表征量;如果不是同一条线路,则可以统计每个支柱的缺陷发现时间点之前经过每个支柱的车次数量。
53.建模数据的表结构可以用下表所示。
54.实施例4本实施例在实施例3的基础上对s3步骤作进一步的阐述,假设总体支柱数据量为n。参与建模的内因因素总数为p。利用建模数据构建缺陷发生情况与各个内因因素数据的比例风险模型(即cox模型)。
55.具体的,比例风险模型为:其中,为模型输出的比例风险值,为模型的回归系数,为内因因素,为基础风险比例函数。
56.本实施例中,基础风险比例函数可以通过查询相关国家或行业标准获得。如果在标准文件中无相关数据,则可以使用当前建模样本通过非参数统计获得,计算公式如下:基础风险比例函数为:其中,,
i为标签数据,z为被观察的支柱位置,为在经过时间表征量t以后,发生缺陷的支柱位置集合,为经过时间表征量t以后,所有被观测的支柱位置的集合,为集合中支柱位置的总数量。
57.本实施例中,模型的回归系数的计算采用最大似然法。最大似然法通过最大化cox模型对应的偏似然函数得到系数的值。一般情况下cox模型系数估计采用的是breslow偏似然函数,但是由于接触网内因因素数据维度较多,计算量大,需要的结果精度较高。所以本实施例在此处选择计算精度更高的efron偏似然函数,efron偏似然函数如下:其中,为偏似然函数;表示在经过时间表征量t以后,发生缺陷的支柱位置集合;z,m表示集合内的一个支柱位置;为经过时间表征量t以后,所有被观测的支柱位置的集合;l表示集合内的一个支柱位置;表示集合中的支柱位置数量,为支柱位置m发生缺陷的时间,h为从0到card(d
t
)-1的循环遍历。
58.对上述efron偏似然函数进行对数化处理,得到:然后通过newton raphson算法,找到使函数最大时的系数,即为本次建模得到了模型系数值,如下:本实施例中,得到模型系数值以后,通过一致性指数concordance index(以下简称c-index)来检验本次构建的cox模型是否达到目标效果。c-index变化范围为0到1。c-index小于或等于0.5时,说明cox模型完全无效。c-index等于1时,说明cox模型预测完全正确。
59.在构建模型之前,先设定concordance index的阈值,每次构建模型后,利用建模数据计算该模型对应的c-index值,若,则保留该模型及其系数。
60.实施例5本实施例在实施例4的基础上对s4步骤作进一步的阐述,cox模型建立后,利用cox模型的回归系数来计算每个内因因素对缺陷发生情况的影响权重。假设参与建模的内因因素总数为p,cox模型建立后的回归系数为。
61.将cox模型的回归系数进行归一化处理后,就得到各内因因素对缺陷发生的影响权重。具体的,影响权重为:
其中,为内因因素i对缺项发生情况的影响权重,为内因因素i对应的模型回归系数,p为参与建模的内因因素总数。
62.本实施例中,为了预测某一在支柱z在经过时间表征量t以后发生缺陷的概率,需要采取如下两步骤进行。
63.第一步,需要收集支柱k的相关内因因素的数据值,即支柱k对应的内宿因素的值,并利用各因素数据的均值和标准差将其标准化,标准化后的数据记作。
64.第二步,通过以下公式得到生存函数:生存函数表达了在经过时间表征量t后,支柱没有发生缺陷的概率。用1减去生存函数值就为经过时间表征量t后支柱发生缺陷的概率,即如下公式所示:其中,为基准生存函数,该函数的构建利用基础风险比例函数,通过kaplan-meier算法来构建,构建过程如下:将基准生存函数,代入上述的支柱发生缺陷的概率的公式中,即得到本实施例的支柱发生缺陷的概率:其中,为缺陷发生概率,为生存函数,为所有研究的支柱中,经过时间表征量t最大的支柱对应的时间表征量,为基础风险比例函数,为模型的回归系数,为内因素标准化后的数据。
65.以上对本发明的实施方式进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种等同变型或替换,这些等同或替换均包含在本发明权利要求所限定的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1