基于主动学习的医疗设备性能指标检测方法和装置

文档序号:29065956发布日期:2022-03-01 19:07阅读:70来源:国知局
基于主动学习的医疗设备性能指标检测方法和装置

1.本技术涉及数据检测技术领域,尤其涉及一种基于主动学习的医疗设备性能指标检测方法和装置。


背景技术:

2.目前,在医学领域中,医疗设备在工作的过程中往往会产生大量的监控数据,即kpi流,而专业的工作人员也正是实时观测这些数据以监控设备是否出现异常的,这些数据一般是时间序列,如果人为检测数据以判断设备是否出现异常需要耗费极大的人力和成本,所以在医学领域中通常会采用一些算法辅助进行医疗设备kpi流的异常检测。
3.然而,相关技术中的辅助算法需要对监控数据进行大量的标注以完成检测,但标注这些数据的成本较高,且相关技术中的的数据标注方法容易将正常样本错误地标记为异常样本,导致检测的准确性较低。因此,目前亟需一种能够提高样本标注的正确性并且利用较少的标记量完成异常检测的方法。


技术实现要素:

4.本技术旨在至少在一定程度上解决相关技术中的技术问题之一。
5.为此,本技术的第一个目的在于提出一种基于主动学习的医疗设备性能指标检测方法,该方法针对时间序列的异常样本和正常样本的特性对主动学习的标注过程进行了优化,在主动学习阶段确保尽可能少的正常样本被标注为异常,极大减少了误报的概率,完善了pu学习医学领域进行异常检测的应用,可以获得更多的标记样本,提高了对医疗设备的性能指标进行异常检测的准确性。
6.本发明的第二个目的在于提出一种基于主动学习的医疗设备性能指标检测装置。
7.本发明的第三个目的在于提出一种非临时性计算机可读存储介质。
8.为达上述目的,本发明第一方面实施例提出了一种基于主动学习的医疗设备性能指标检测方法,包括以下步骤:
9.s1:获取训练数据集,通过所述训练数据集中的异常标注数据和未标注数据训练第一分类器,并通过所述第一分类器从所述未标注数据中标记正常标注数据;
10.s2:通过所述异常标注数据和所述正常标注数据训练第二分类器;
11.s3:通过所述第二分类器对每个未标注数据进行预测,并根据预测分数确定候选异常数据;
12.s4:人工判断所述候选异常数据是否为异常数据,若所述候选异常数据为异常数据,则标记所述候选异常数据为异常标注数据,并更新异常标注数据、正常标注数据和未标注数据;
13.s5:判断异常标注数据和正常标注数据的数量是否达到预设数量,若否,则重复执行s3和s4直至异常标注数据和正常标注数据的数量达到预设数量;
14.s6:根据获取的标记数据对医疗设备的关键性能指标kpi流进行异常检测。
15.可选地,在本技术的一个实施例中,第一分类器为线性模型分类器,所述第二分类器为随机森林模型分类器。
16.可选地,在本技术的一个实施例中,根据预测分数确定候选异常数据,包括:确定每个未标注数据的预测分数,并根据分数值的大小对所有未标注数据的预测分数进行排序;选取分数最高的未标注数据为所述候选异常数据。
17.可选地,在本技术的一个实施例中,在所述标记所述候选异常数据为异常标注数据之后,还包括:获取预测分数最低的未标注数据,自动标注所述预测分数最低的未标注数据为正常标注数据。
18.可选地,在本技术的一个实施例中,根据获取的标记数据对医疗设备的关键性能指标kpi流进行异常检测,包括:根据所述获取的标记数据训练有监督异常检测模型,通过所述有监督异常检测模型对待检测的kpi流进行异常检测。
19.为达上述目的,本技术第二方面实施例提出一种基于主动学习的医疗设备性能指标检测装置,包括以下模块:
20.第一标记模块,用于获取训练数据集,通过所述训练数据集中的异常标注数据和未标注数据训练第一分类器,并通过所述第一分类器从所述未标注数据中标记正常标注数据;
21.训练模块,用于通过所述异常标注数据和所述正常标注数据训练第二分类器;
22.预测模块,用于通过所述第二分类器对每个未标注数据进行预测,并根据预测分数确定候选异常数据;
23.第二标记模块,用于基于人工判断所述候选异常数据是否为异常数据,若所述候选异常数据为异常数据,则标记所述候选异常数据为异常标注数据,并更新异常标注数据、正常标注数据和未标注数据;
24.迭代模块,用于判断异常标注数据和正常标注数据的数量是否达到预设数量,若否,则控制所述预测模块和所述第二标记模块重复运行,直至异常标注数据和正常标注数据的数量达到预设数量;
25.检测模块,用于根据获取的标记数据对医疗设备的关键性能指标kpi流进行异常检测。
26.可选地,在本技术的一个实施例中,第一分类器为线性模型分类器,所述第二分类器为随机森林模型分类器。
27.可选地,在本技术的一个实施例中,预测模块,具体用于:确定每个未标注数据的预测分数,并根据分数值的大小对所有未标注数据的预测分数进行排序;选取分数最高的未标注数据为所述候选异常数据。
28.可选地,在本技术的一个实施例中,第二标记模块,还用于:获取预测分数最低的未标注数据,自动标注所述预测分数最低的未标注数据为正常标注数据。
29.可选地,在本技术的一个实施例中,检测模块,具体用于:根据所述获取的标记数据训练有监督异常检测模型,通过所述有监督异常检测模型对待检测的kpi流进行异常检测。
30.本技术具有以下技术效果:本技术获取训练数据集,通过训练数据集中的异常标注数据和未标注数据训练第一分类器,并通过第一分类器从所述未标注数据中标记正常标
注数据;通过异常标注数据和正常标注数据训练第二分类器;通过第二分类器对每个未标注数据进行预测,并根据预测分数确定候选异常数据;人工判断候选异常数据是否为异常数据,若候选异常数据为异常数据,则标记候选异常数据为异常标注数据,并更新异常标注数据、正常标注数据和未标注数据;判断异常标注数据和正常标注数据的数量是否达到预设数量,若否,则重复执行迭代标记的步骤,直至异常标注数据和正常标注数据的数量达到预设数量;根据获取的标记数据对医疗设备的关键性能指标kpi流进行异常检测。本技术针对时间序列的异常样本和正常样本的特性对主动学习的标注过程进行了优化,在每次数据标记的迭代中选择最有可能为异常的样本标记为异常标注数据,而不是那些接近分类边界的样本,从而在主动学习阶段确保尽可能少的正常样本被标注为异常,极大减少了误报的概率,并且可以获得更多的标记样本,完善了pu学习医学领域进行异常检测的应用,提高了对医疗设备的性能指标进行异常检测的准确性。
31.为达上述目的,本技术第三方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本技术第一方面实施例所述的基于主动学习的医疗设备性能指标检测方法。
32.本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
33.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
34.图1是本技术一个实施例提供的一种基于主动学习的医疗设备性能指标检测方法的流程图;
35.图2是本技术一个实施例提供的一种具体的基于主动学习的医疗设备性能指标检测方法的流程示意图;
36.图3是本技术一个实施例提供的一种基于主动学习的医疗设备性能指标检测装置的结构示意图。
具体实施方式
37.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
38.需要说明的是,对于一个医疗设备,在工作过程中所产生的kpi流的数量众多且模式多样,需要通过一些算法辅助进行医疗设备kpi流的异常检测。其中的一种利用pu学习进行异常检测的方法,一般是利用已有的部分带有异常标注数据点和无标注的数据点,采用两步走策略完成的。第一步是利用已有的异常样本和无标签样本训练一个分类器,从而对无标记样本中判断为正常的样本进行标注;第二步是在当前已有标记的数据集上训练第二个分类器,继续对未标注的数据进行标注,并反复重复这个过程,直到有足够的标注样本可以完成最终的异常检测模型训练。
39.但是在医学领域的实际应用中,应用现有的pu学习对时间序列进行异常检测的主
要问题是标签不足,pu学习方法的性能受到限制。因此可以应用主动学习来增加标签的数量。然而,相关技术中的主动学习方法通常在分类边界附近标记异常样本,这样做容易导致正常样本被误分类为异常,从而产生许多误报,且如果一个正常样本被错误地标记为异常样本,那么将会有越来越多的正常样本被标记为异常样本,原因是正常样本之间的相似度高于异常样本和正常样本之间的相似度,因此,会导致异常检测的准确性降低。
40.基于此,本技术提出了一种利用简单而有效的主动学习模型的检测方法,它选择在每次迭代中最有可能为异常的样本,而不是那些接近分类边界的样本,在主动学习阶段确保尽可能少的正常样本被标注为异常,减少了误报。
41.下面参考附图描述本技术实施例的基于主动学习的医疗设备性能指标检测方法和装置。
42.图1是本技术一个实施例提供的一种基于主动学习的医疗设备性能指标检测方法的流程图,如图1所示,该方法包括以下步骤:
43.s1:获取训练数据集,通过训练数据集中的异常标注数据和未标注数据训练第一分类器,并通过第一分类器从未标注数据中标记正常标注数据。
44.其中,训练数据集是训练用于检测医疗设备关键性能指标流的异常检测模型的数据集,关键性能指标(key performance indicator,简称kpi)流是监控医疗设备时获取的反映医疗设备运行性能的关键指标的数据流,比如,kpi流可以包括医疗设备的响应延迟或网络吞吐量的数据流等,kpi流通常为时间序列。在本技术实施例中可以通过不同的方式,获取预先存储的历史kpi流作为本技术的医疗设备性能指标检测模型的训练集。
45.其中,在训练初始阶段,获取到的上述训练集中包括少量的异常标注数据和大量的未标注数据,即训练集由几个带有异常标注的样本和大量未标记的样本组成。其中,异常标注的样本可以是预先由工作人员手动在kpi流上标记一些异常数据等方式得到,此处不作限制。
46.在本技术实施例中,通过训练数据集中的异常标注数据和未标注数据训练第一分类器,先通过第一分类器从未标注数据中标记出一些正常标注数据,作为一种示例,为了更加准确的在预训练阶段标记出更可靠的正常标注数据,可以采用线性模型分类器作为第一分类器,即通过训练数据集中的异常标注数据和未标注数据训练线性模型分类器,再通过该线性模型分类器从未标注数据中标记出正常标注数据。
47.s2:通过异常标注数据和正常标注数据训练第二分类器。
48.s3:通过第二分类器对每个未标注数据进行预测,并根据预测分数确定候选异常数据。
49.在本技术一个实施例中,第二分类器可以为随机森林模型分类器,即本技术根据步骤s1中获取的异常标注数据和正常标注数据训练一个随机森林模型分类器,通过该随机森林模型分类器对训练集中的每个未标注数据进行预测,并输出每个未标注数据的预测分数,确定可能为异常数据的候选异常数据。
50.具体实施时,作为一种可能的实现方式,可以根据随机森林模型分类器的输出确定每个未标注数据的预测分数,并根据分数值的大小对所有的未标注数据的预测分数进行排序,然后选取分数最高的未标注数据为候选异常数据。
51.当然,在本技术的一些其他实施例中,也可以根据实际需要确定其他的确定候选
异常数据的方式,比如,将预测分数在前三名的未标注数据为候选异常数据。
52.s4:人工判断候选异常数据是否为异常数据,若候选异常数据为异常数据,则标记候选异常数据为异常标注数据,并更新异常标注数据、正常标注数据和未标注数据。
53.具体的,在确定候选异常数据后,可以由工作人员人工判断候选异常数据是否为异常数据,即由工作人员综合各种因素人为判断候选异常数据是否为异常数据,若候选异常数据为异常数据,则手动标记候选异常数据为异常标注数据,由此,可以确保标记为异常的样本是真正的异常样本,避免正常样本被误标记为异常样本。
54.在本技术一个实施例中,在标记候选异常数据为异常标注数据之后,还可以根据获取的每个未标注数据的预测分数,确定得分最低的未标注数据,并自动标注预测分数最低的未标注数据为正常标注数据。由此,实现了主动学习的自训练过程中标记出真实性和可靠性更高的异常标注数据和正常标注数据。需要说明的是,上述自动标注正常标注数据的步骤可以在标记候选异常数据为异常标注数据之后,也可以在之前,或是同时进行,此处不做限制。
55.进一步的,对数据进行标记后,更新异常标注数据、正常标注数据和未标注数据,即重新确定目前已标记出的异常标注数据、正常标注数据,以及仍未进行标记的未标注数据,将未标注数据集中在上一轮已标记后的数据转移至对应的异常标注数据集或正常标注数据集中。在本技术一个实施例中,还包括,更新已标记出的异常标注数据、正常标注数据和未标注数据目前各自的数量。
56.s5:判断异常标注数据和正常标注数据的数量是否达到预设数量,若否,则重复执行s3和s4直至异常标注数据和正常标注数据的数量达到预设数量。
57.其中,预设数量是根据当前对医疗设备性能指标进行检测的方式,确定的可以准确的进行在线检测时所需的标记样本的数量。
58.在本技术实施例中,在每轮标记过程中,通过上述实施例中的方式标记出异常标注数据和正常标注数据后,将更新后的异常标注数据和正常标注数据的数量与预设数量进行比较,判断异常标注数据和正常标注数据的数量是否达到预设数量,若更新后的异常标注数据和正常标注数据的数量小于预设数量,则重复执行s3和s4,即迭代标记未标记的样本,以通过迭代标记获取更多的标记样本,直至异常标注数据和正常标注数据的数量达到预设数量,标记了足够多的未标记样本可以进行后续的异常检测。
59.s6:根据获取的标记数据对医疗设备的关键性能指标kpi流进行异常检测。
60.具体的,在获取足够多的标记数据后,根据获取的标记数据对待检测的医疗设备的kpi流进行异常检测,具体检测过程可以根据实际需要设置,举例而言,根据获取的标记数据训练有监督异常检测模型,将kpi流的特征和标签作为输入,利用机器学习算法完成时间序列异常检测,即通过有监督异常检测模型对待检测的kpi流进行异常检测。
61.由此,本技术的基于主动学习的医疗设备性能指标检测方,在主动学习阶段确保尽可能少的正常样本被标注为异常,极大减少了误报的概率,且通过迭代标记获得更多的标记样本。
62.综上所述,本技术实施例的基于主动学习的医疗设备性能指标检测方法,获取训练数据集,通过训练数据集中的异常标注数据和未标注数据训练第一分类器,并通过第一分类器从所述未标注数据中标记正常标注数据;通过异常标注数据和正常标注数据训练第
二分类器;通过第二分类器对每个未标注数据进行预测,并根据预测分数确定候选异常数据;人工判断候选异常数据是否为异常数据,若候选异常数据为异常数据,则标记候选异常数据为异常标注数据,并更新异常标注数据、正常标注数据和未标注数据;判断异常标注数据和正常标注数据的数量是否达到预设数量,若否,则重复执行迭代标记的步骤,直至异常标注数据和正常标注数据的数量达到预设数量;根据获取的标记数据对医疗设备的关键性能指标kpi流进行异常检测。该方法针对时间序列的异常样本和正常样本的特性对主动学习的标注过程进行了优化,在每次数据标记的迭代中选择最有可能为异常的样本标记为异常标注数据,而不是那些接近分类边界的样本,从而在主动学习阶段确保尽可能少的正常样本被标注为异常,极大减少了误报的概率,并且可以获得更多的标记样本,完善了pu学习医学领域进行异常检测的应用,提高了对医疗设备的性能指标进行异常检测的准确性。
63.为了更加清楚地说明本技术的基于主动学习的医疗设备性能指标检测方法,以下结合图2以一个具体的示例进行说明。
64.如图2所示,该基于主动学习的医疗设备性能指标检测方法包括预训练过程和基于主动学习的自训练过程,具体实施时,预训练过程可采用传统pu学习的第一步,利用线性分类器标记最有可能为正常的样本。初始阶段,训练集由几个带有异常标注的样本(即图2中的ω(p))和大量未标记的样本(即图2中的ω(u))组成。为了更谨慎地从ω(u)中找到可靠的正常样本,可以采用线性模型作为分类器。
65.进一步的,基于主动学习的自训练过程是为了迭代标记更多的未标记样本。首先,在ω(p)和上一步获得的可靠的正常样本(即图2中的ω(n))上训练一个随机森林模型分类器,以获得ω(u)在每次迭代中的预测分数。然后,迭代标记一些未标记的样本,根据预测分数对ω(u)进行排序,对于分数最高的未标记样本,将置为候选异常样本。接下来,工作人员手动标记这些候选样本,以保证标记为异常的样本是真正的异常样本,也就是没有正常样本被误标记为异常。对于得分最低的未标记样本,可以直接将其标记为正常样本。之后,更新ω(p)、ω(n)和ω(u),然后开始下一次迭代,直到标记了足够多的未标记样本。
66.更进一步的,当有了足够多的标记样本之后,即可进行之后的异常检测过程,如训练一个有监督模型用于检测异常。
67.如图3所示,为达上述目的,本技术第二方面实施例提出本技术的一种基于主动学习的医疗设备性能指标检测装置,包括:第一标记模块100、训练模块200和预测模块300、第二标记模块400、迭代模块500和检测模块600。
68.其中,第一标记模块100,用于获取训练数据集,通过训练数据集中的异常标注数据和未标注数据训练第一分类器,并通过第一分类器从所述未标注数据中标记正常标注数据。
69.训练模块200,用于通过异常标注数据和正常标注数据训练第二分类器。
70.预测模块300,用于通过第二分类器对每个未标注数据进行预测,并根据预测分数确定候选异常数据;
71.第二标记模块400,用于基于人工判断候选异常数据是否为异常数据,若候选异常数据为异常数据,则标记候选异常数据为异常标注数据,并更新异常标注数据、正常标注数据和未标注数据。
72.迭代模块500,用于判断异常标注数据和正常标注数据的数量是否达到预设数量,
若否,则控制预测模块和所述第二标记模块重复运行,直至异常标注数据和正常标注数据的数量达到预设数量。
73.检测模块600,用于根据获取的标记数据对医疗设备的关键性能指标kpi流进行异常检测。
74.可选地,在本技术的一个实施例中,第一分类器为线性模型分类器,第二分类器为随机森林模型分类器。
75.可选地,在本技术的一个实施例中,预测模块,具体用于确定每个未标注数据的预测分数,并根据分数值的大小对所有未标注数据的预测分数进行排序;选取分数最高的未标注数据为候选异常数据。
76.可选地,在本技术的一个实施例中,第二标记模块,还用于获取预测分数最低的未标注数据,自动标注预测分数最低的未标注数据为正常标注数据。
77.可选地,在本技术的一个实施例中,检测模块,具体用于根据获取的标记数据训练有监督异常检测模型,通过有监督异常检测模型对待检测的kpi流进行异常检测。
78.需要说明的是,前述对基于主动学习的医疗设备性能指标检测方法的实施例的说明,也适用于装置的实施例,实现原理相同,此处不在赘述。
79.综上所述,本技术实施例的基于主动学习的医疗设备性能指标检测装置,针对时间序列的异常样本和正常样本的特性对主动学习的标注过程进行了优化,在每次数据标记的迭代中选择最有可能为异常的样本标记为异常标注数据,而不是那些接近分类边界的样本,从而在主动学习阶段确保尽可能少的正常样本被标注为异常,极大减少了误报的概率,并且可以获得更多的标记样本,完善了pu学习医学领域进行异常检测的应用,提高了对医疗设备的性能指标进行异常检测的准确性。
80.为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本技术第一方面实施例所述的一种基于主动学习的医疗设备性能指标检测方法。
81.尽管参考附图详地公开了本技术,但应理解的是,这些描述仅仅是示例性的,并非用来限制本技术的应用。本技术的保护范围由附加权利要求限定,并可包括在不脱离本技术保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。
82.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
83.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
84.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括
一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
85.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
86.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
87.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
88.此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
89.上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1