基于不平衡数据集的分类的制作方法

文档序号:33376945发布日期:2023-03-08 04:21阅读:46来源:国知局
基于不平衡数据集的分类的制作方法

1.本公开涉及分类,并且更具体地,涉及用于基于不平衡数据集生成预测模型的方法、系统和计算机程序产品。


背景技术:

2.现在,分类技术广泛地用于各种工作环境中。例如,可以收集包括计算系统的多个参数的样本,用于预测在计算系统中是否发生故障。可以基于包括在先前时间点收集的计算系统的多个样本的不平衡数据集,预先生成预测模型。
3.在传统模型中,当前的分类技术缺乏确定失败的肯定示例(positive case)的数量,因为结果太小而不能确定肯定率,尤其是当该率小于例如0.01%时。另外,当前的解决方案遭受不令人满意的较高假肯定率(false positive case),并且由于预测模型学习到的不正确模式而不正确地预测否定示例(negative case)。


技术实现要素:

4.根据本公开的实施例,提供了一种可以由一个或多个处理器实现的计算机实现的方法。在该方法中,一个或多个处理器分别基于不平衡数据集中包括的多个正样本生成多个预测模型,多个正样本的数量低于不平衡数据集中包括的多个负样本的数量,并且多个正样本和负样本中的每个样本包括多个参数。一个或多个处理器分别从所述多个参数中识别所述多个正样本的多个影响参数组。一个或多个处理器基于所述多个预测模型和所述多个影响参数组来确定最终预测模型,所述最终预测模型用于将样本分类为正类型和负类型中的一个。利用这些实施例,可以基于不平衡的数据集以准确且有效的方式生成正模型。
5.根据本公开的另一实施例,提供了一种计算机实现的系统。该计算机实现的系统包括耦合到计算机可读存储器单元的计算机处理器,其中该存储器单元包括在由计算机处理器执行时实现上述方法的指令。
6.根据本公开的另一实施例,提供了一种计算机程序产品。该计算机程序产品包括具有程序指令的计算机可读存储介质。程序指令可由电子设备执行以使电子设备执行上述方法的动作。
附图说明
7.通过在附图中对本公开的一些实施例的更详细的描述,本公开的上述和其他目的、特征和优点将变得更加明显,其中相同的附图标记通常指代本公开的实施例中的相同的部件。
8.图1示出了根据本公开的实施例的云计算节点。
9.图2示出了根据本公开的实施例的云计算环境。
10.图3示出了根据本公开的实施例的抽象模型层。
11.图4示出了根据本公开的实施例的用于生成预测模型的不平衡数据集的示例图。
12.图5示出了根据本公开的实施例的用于基于不平衡数据集生成预测模型的示例图。
13.图6示出了根据本公开的实施例的用于基于不平衡数据集中的正样本生成预测模型的示例图。
14.图7示出了根据本公开的实施例的用于生成目标样本的模型集合的示例图。
15.图8示出了根据本公开的实施例的用于基于目标影响参数组和影响参数组之间的差来更新模型集合的示例过程。
16.图9示出根据本公开的实施例的用于基于不平衡数据集生成最终预测模型的方法的示例流程图。
17.图10示出了根据本公开的实施例的用于基于最终预测模型对目标样本进行分类的方法的示例流程图。
具体实施方式
18.将参照附图更详细地描述一些实施例,在附图中已经示出了本公开的实施例。然而,本公开可以以各种方式实现,并且因此不应被解释为限于本文公开的实施例。
19.应当理解,尽管本公开包括关于云计算的详细描述,但是本文所陈述的教导的实现不限于云计算环境。相反,本公开的实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。
20.云计算是服务交付的模型,用于使得能够方便地、按需地网络访问可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池,所述可配置计算资源可以以最小的管理努力或与服务的提供商的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
21.特性如下:
22.按需自助服务:云消费者可以单方面地根据需要自动地提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者的人类交互。
23.广泛的网络接入:能力可通过网络获得并且通过标准机制接入,该标准机制促进异构瘦客户机平台或厚客户机平台(例如,移动电话、膝上型计算机和pda)的使用。
24.资源池:提供者的计算资源被池化以使用多租户模型来服务于多个消费者,其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉,因为消费者通常不具有对所提供的资源的确切位置的控制或了解,但可能能够以较高抽象级别(例如,国家、州或数据中心)指定位置。
25.快速弹性:能够快速和弹性地提供能力,在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言,可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。
26.测量的服务:云系统通过在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,为所利用的服务的提供者和消费者提供透明度。
27.服务模型如下:
28.软件即服务(saas):提供给消费者的能力是使用在云基础设施上运行的提供者的
应用。可通过诸如web浏览器(例如,基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施,可能的例外是有限的用户特定应用配置设置。
29.平台即服务(paas):提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但是对所部署的应用和可能的应用托管环境配置具有控制。
30.基础设施即服务(iaas):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如,主机防火墙)的可能受限的控制。
31.部署模型如下:
32.私有云:云基础架构仅为组织运作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
33.社区云:云基础架构被若干组织共享并支持共享了关注(例如,任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
34.公共云:使云基础架构对公众或大型行业组可用,并且由出售云服务的组织拥有。
35.混合云:云基础架构是两个或更多个云(私有、社区或公共)的组合,这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如,云突发以用于云之间的负载平衡)绑定在一起。
36.云计算环境是面向服务的,集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
37.现在参考图1,示出了云计算节点的示例的示意图。云计算节点10仅是合适的云计算节点的一个示例,并且不旨在对本文描述的本公开的实施例的使用范围或功能提出任何限制。无论如何,云计算节点10能够被实现和/或执行上文阐述的任何功能。
38.在云计算节点10中,存在计算机系统/服务器12或便携式电子设备,诸如通信设备,其可与许多其他通用或专用计算系统环境或配置一起操作。适合与计算机系统/服务器12一起使用的公知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络pc、小型计算机系统、大型计算机系统、以及包括任何上述系统或设备的分布式云计算环境等。
39.计算机系统/服务器12可以在计算机系统可执行指令的一般上下文中描述,诸如由计算机系统执行的程序模块。通常,程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器12可以在分布式云计算环境中实践,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。
40.如图1所示,云计算节点10中的计算机系统/服务器12以通用计算设备的形式示出。计算机系统/服务器12的组件可以包括但不限于一个或多个处理器或处理单元16、系统
存储器28以及将包括系统存储器28的各种系统组件耦合到处理器16的总线18。
41.总线18表示若干类型的总线结构中的任何一种的一个或多个,包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线体系结构中的任何一种的处理器或局部总线。作为示例而非限制,这些体系结构包括工业标准体系结构(isa)总线、微通道体系结构(mca)总线、增强型isa(eisa)总线、视频电子技术标准协会(vesa)局部总线和外围部件互连(pci)总线。
42.计算机系统/服务器12通常包括各种计算机系统可读介质。这样的介质可以是计算机系统/服务器12可访问的任何可用介质,并且它包括易失性和非易失性介质、可移动和不可移动介质。
43.系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)30和/或高速缓冲存储器32。计算机系统/服务器12还可以包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例,数据库系统34可被提供用于从不可移动、非易失性磁介质(未示出,并且通常被称为“硬盘驱动器”)读取和向其写入。尽管未示出,但是可以提供用于从可移动、非易失性磁盘(例如,“软盘”)读取和向其写入的磁盘驱动器,以及用于从诸如cd-rom、dvd-rom或其它光学介质等可移动、非易失性光盘读取或向其写入的光盘驱动器。在这种情况下,每个都可以通过一个或多个数据介质接口连接到总线18。如下文将进一步描绘及描述,存储器28可包含具有经配置以执行本发明的实施例的功能的一组(例如,至少一个)程序模块的至少一个程序产品。
44.具有一组(至少一个)程序模块42的程序/实用程序40,以及操作系统、一个或多个应用程序、其它程序模块和程序数据,可作为示例而非限制存储在存储器28中。操作系统、一个或多个应用程序、其它程序模块和程序数据或其某种组合中的每一个可包括联网环境的实现。程序模块42通常执行如本文所述的本发明实施例的功能和/或方法。
45.计算机系统/服务器12还可以与一个或多个外部设备14通信,诸如键盘、指示设备、显示器24等;一个或多个设备,其使得用户能够与计算机系统/服务器12交互;和/或任何使计算机系统/服务器12能够与一个或多个其它计算设备通信的设备(例如网卡、调制解调器等)。这种通信可以经由输入/输出(i/o)接口22发生,然而,计算机系统/服务器12可以经由网络适配器20与一个或多个网络通信,所述网络诸如局域网(lan)、通用广域网(wan)和/或公共网络(例如,因特网)。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它组件通信,应当理解,尽管未示出,其它硬件和/或软件组件可以与计算机系统/服务器12结合使用,示例包括但不限于:微码、设备驱动程序、冗余处理单元、外部磁盘驱动器阵列、raid系统、磁带驱动器和数据存档数据库系统等。
46.现在参考图2,示出了说明性云计算环境50。如图所示,云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10,所述本地计算设备例如个人数字助理(pda)或蜂窝电话54a、台式计算机54b、膝上型计算机54c和/或汽车计算机系统54n。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为服务,云消费者不需要为其维护本地计算设备上的资源。应当理解,图2中所示的计算设备54a-n的类型仅旨在说明,并且计算节点10和云计算环境50可以在任何类型的网络和/或网络可寻址连接上(例如,使用web浏览器)与任何类型的计
算设备通信。
47.现在参考图3,示出了由云计算环境50(图2)提供的一组功能抽象层。应当预先理解,图3中所示的组件、层和功能仅旨在说明,并且本公开的实施例不限于此。如所描绘的,提供了以下层和相应的功能:
48.硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:主机61;基于risc(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储装置65;以及网络和网络组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
49.虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户端75。
50.在一个示例中,管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪,并为这些资源的消费开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(sla)规划和履行85提供根据sla预期未来需求的云计算资源的预安排和采购。
51.工作负载层90提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括:地图和导航91;软件开发和生命周期管理92;虚拟课堂教育交付93;数据分析处理94;交易处理95;以及分类处理96。
52.应注意,根据本发明实施例的分类处理96可由图1的计算机系统/服务器12实施,分类处理96可在各种类型的工作环境中实施。例如,分类处理96可以用于基于历史数据集生成预测模型,以确定在计算系统中是否发生故障。这里,故障是指计算系统的异常状态,并且需要技术工程师的进一步支持。然而,由于计算系统很少出现故障并且在大多数时间正常运行,因此与大量负样本(其中计算系统正常运行)相比,数据集仅包括少量正样本(其中计算系统中出现故障)。
53.对于不平衡的数据集的简要将参考图4。图4示出根据本公开的实施例的用于生成预测模型的不平衡数据集的示例图400。在图4中,不平衡的数据集410包括多个正样本412和多个负样本414,然而,多个正样本412的量远低于多个负样本414的量。例如,数据集可以包括10000个样本,其中9500个样本是负样本,并且仅500个样本是正样本。此时,如果从不平衡的数据集直接生成预测模型,则预测模型的精度将不被满足。
54.已经提出了一些用于不平衡分类的解决方案。在一种解决方案中,采用过采样和欠采样技术来从不平衡的数据集生成平衡的数据集。在另一解决方案中,合成少数过采样技术(smote)可用于模拟正样本,以便生成平衡数据集。进而,可以利用平衡数据集来训练预测模型。然而,上述解决方案涉及复杂的过程和高工作负荷,此外,所生成的预测模型的准确性低。
55.鉴于上述缺点,本公开的实施例可以提供用于生成预测模型的解决方案。将参考图5概述本公开的实施例。图5示出了根据本公开的实施例的用于基于不平衡数据集生成预测模型的示例图。在图5中,不平衡数据集410可以用于生成用于将样本分类为正类型和负
类型之一的最终预测模型。这里,不平衡的数据集410可以仅包括少量的正样本412、

、510和大量的负样本414。每个样本可以包括多个参数,并且在预测计算系统中的故障的环境中,参数可以包括计算系统的多个方面,并且在表1中示出了样本的示例数据结构。
56.表1样本中参数的数据结构
[0057][0058][0059]
这里,正样本可包括当计算系统中发生故障时的参数(其中“故障”参数被设置为“真”),而负样本可包括当计算系统处于良好状况时的参数(其中“故障”参数被设置为“假”)。如图5所示,可以基于个体正样本生成个体预测模型。具体地,对正样本412、

生成预测模型520,并且对正性样本510生成预测模型530。此外,可以对正样本和对应的预测模型执行影响预测分析,以便识别正样本的影响参数组。参考图5,可以针对正样本412识别影响参数组522,并且可以针对正样本510识别影响参数组532,等等。此外,可以基于多个预测模型520、

和530以及多个有影响力参数组522、

和532生成最终预测模型540。在这些实施例中,基于一个正样本生成一个预测模型,并且因此可以完全提取正样本中的信息以用于构建最终的预测模型。因此,最终预测模型的准确性水平可以大大提高。
[0060]
在下文中,将参考图6以获得基于不平衡数据集中的多个正样本生成多个模型的更多细节。在本公开的一些实施例中,可以基于不平衡数据集410中的个体正样本来生成平衡训练数据集。图6示出了根据本公开的实施例的基于不平衡数据集中的正样本生成预测模型的示例图600。在图6中,基于不平衡数据集410,对正样本412生成平衡训练数据集610。这里,训练数据集610包括至少一个正训练样本620和多个负训练样本630。此外,预测模型520可以基于现有的机器学习技术来生成。例如,可以基于训练数据集610中的训练样本来获得和训练初始预测模型。
[0061]
训练数据集610中的训练样本可以以各种方式获得。在一些实施例中,负训练样本可以直接从不平衡数据集410中的多个负样本414中选择。作为替代和/或补充,可以修改正样本412以获得负训练样本。例如,可以调整正样本412中的一个或多个参数以模拟负训练样本。假设cpu使用率是检测计算系统中的故障的关键参数,则cpu使用率越高,计算系统中发生故障的可能性越高。因此,正样本412中的cpu使用率可以被调整到正常范围内的较低值,以模拟负训练样本。
[0062]
在一些实施例中,可以为平衡训练数据集610中的样本总数定义阈值(诸如1000或另一值)。此时,负训练样本的量可以被确定为1000/2=500。一些负训练样本可以从不平衡数据库410中的负样本中选择,并且一些负训练样本可以通过修改正样本412来生成。利用这些实施例,可以以容易且有效的方式获得负训练样本。
[0063]
在本公开的一些实施例中,正样本412可以直接从不平衡数据集410获得,并且作为正训练样本620工作。由于训练数据集610应当是平衡数据集,因此正训练样本的量应当与负训练样本的量相似。考虑到正训练样本的短缺,可以基于多个负训练样本的数量与所述至少一个正训练样本的数量的比率,为正训练样本分配权重622。继续以上示例,由于负
训练样本630的数量是500(总数“1000”的一半),因此仅存在一个正训练样本620,权重可以被设置为500。利用这些实施例,不需要模拟大量正训练样本的复杂过程,而是可以以容易且有效的方式直接获得正训练样本。
[0064]
在一些实施例中,训练数据集610可以包括多于一个的正训练样本,并且因此可以基于正样本412生成更多的正训练样本。例如,可以稍微增加正样本412中的cpu使用率以模拟另一正训练样本。此外,可以将获得的正训练样本620和负训练样本630添加到训练数据集610中以用于训练过程。因此,本公开的实施例不需要复杂的过程,并且可以减少用于生成训练数据集的工作量。在一些实施例中,平衡训练数据集610可以用于训练初始预测模型。在训练过程之后,预测模型520可以自动生成。
[0065]
上述段落仅提供了用于生成正样本412的预测模型520的示例过程。其他正样本可以经受类似的处理,以便获得多个预测模型520、

和530。一旦生成预测模型520,可以对预测模型执行影响预测因子分析,以便识别正样本412的影响参数组。影响预测因子分析用于分析样本与基于所述样本生成的预测模型之间的关系。具体地,可以从所述多个参数中识别使得样本被分类为正类型的一组影响参数。例如,可以从以上表1中识别(cpu使用率、存储器使用率、

)的参数组作为正样本412的影响参数组522。
[0066]
在一些实施例中,可以针对正样本中的每一个识别影响参数组,这里影响参数组包括多个参数中的使得正样本被分类为正类型的参数组。具体地,本地可解释模型不可知解释(lime)方法可以用于识别影响参数组,并且下文将省略lime方法的细节。到目前为止,lime方法是一种成熟的技术,提供了各种lime工具来确定影响参数组。在一些实施例中,可以将正样本和预测模型输入到lime工具中,然后lime工具可以输出与正样本和预测模型相关联的影响参数组。这里,影响参数组包括所述多个参数中的使得正样本被分类为正类型的参数组。因此,可以基于lime工具处理所有预测模型,使得可以基于预测模型520识别正样本412的影响参数组522,并且可以基于预测模型530识别正样本510的影响参数组532。
[0067]
此外,可以基于多个预测模型520、...、530和多个影响参数组522、

、532生成最终预测模型540。这里,最终预测模型可以用于将样本分类为正类型和负类型中的一个。利用这些实施例,基于多个正样本生成的多个预测模型可以提供更多的预测知识。由于多个预测模型是基于不同的训练数据集构建的,因此多个预测模型可以反映预测的各个方面。换句话说,最终预测模型可以包括充分反映用于确定故障的所有因素的丰富知识。这里,多个预测模型可以一起工作以对进一步的样本进行分类,并且因此可以大大提高最终预测模型的准确性水平。
[0068]
在一些实施例中,最终预测模型540可以随着时间的推移而被更新。例如,在计算系统的操作期间,可以通过监视多个参数来收集更多的正样本。一旦将另一正样本添加到不平衡数据集410中,就可以基于另一正样本生成另一预测模型,并且可以为另一预测模型识别另一影响参数组。接下来,可以基于所述另一预测模型和所述另一有影响的参数组来更新最终的预测模型。对于这些实施例,最终预测模型540可以基于更多的正样本而被更新,使得最终预测模型540的准确度水平可以逐渐地增加。
[0069]
在一些实施例中,最终预测模型540可用于对进入样本进行分类。在下文中,将参考图7以获得更多细节,这里图7示出了根据本公开的实施例的用于生成目标样本的模型集合的示例图700。在图7中,目标样本710可以被输入到最终预测模型540中,并且目标样本
710的数据结构与用于生成最终预测模型540的训练样本的数据结构相同。在最终预测模型540中,目标样本710可以被输入到多个预测模型520、

、530中的每一个中。这里,多个预测模型520、

和530可以独立工作,并且分别输出多个预测类型720、

和730。例如,预测模型520可以输出负类型720、

,预测模型530可以输出正类型730。
[0070]
此外,可以基于来自多预测模型520、

和530的结果来创建模型集合740。这里,如果确定预测类型指示正类型,则可以将对应于正类型的预测模型添加到模型集合740中。换句话说,输出(一个或多个)肯定预测类型的(一个或多个)预测模型可以被添加到模型集合740中。在图7中,预测模型530输出肯定预测类型,并且因此预测模型530被添加到模型集合740(表示为预测模型530')。这里,模型集合740中的模型的数量与由最终预测模型540输出的正类型的数量相同。在这些实施例中,模型集合740可以用作用于对目标样本710进行分类的基础。
[0071]
在本公开的一些实施例中,如果模型集合740为空,则其指示所有预测模型520、

、530将目标样本710分类为负类型。此时,目标样本710可以被分类为负类型。与仅使用一个预测模型的现有解决方案相比,在本实施例中,所有预测模型520、

、530输出负类型,因此最终分类类型的置信度水平更高。
[0072]
在一些实施例中,如果模型集合740不为空(即,包括输出正类型的一个或多个预测模型),则模型集合中的预测模型可以经受进一步处理。参考图8,该图示出了根据本公开的实施例的用于基于目标影响参数组与影响参数组之间的差来更新模型集合的示例过程800。在图8中,可以从目标样本710的多个参数中识别目标影响参数组。这里,可以对预测模型530执行lime方法,以便识别目标样本710的目标影响参数组810。此外,可以从最终预测模型540获得与预测模型530相关联的影响参数组532。
[0073]
这里,影响参数组532包括使得正样本510被分类为正类型的参数。这里,印象参数组是用于测量预测模型530是否适合于对进入的样本进行分类的指示符。如果用于引入样本的影响参数组类似于影响参数组532,则这意味着预测模型530是合适的;否则预测模型530是不适合的。因此,可以确定目标影响参数组810和影响参数组532之间的差820,以更新模型集合740。在一些实施例中,如果差820高于预定阈值,则其指示基于除了包括在影响参数组532中的参数之外的不同参数来输出正类型730,因此预测模型530的输出是不可靠的,并且因此应当丢弃预测模型。否则,如果差820低于预定阈值,则表示基于与包括在影响参数组532中的参数类似的参数输出正类型730,因此预测模型530的输出是可靠的,因此应当采用预测模型。
[0074]
在一些实施例中,可以基于目标影响参数组810和影响参数组532的重叠来确定阈值。在目标影响参数组810和影响参数组532完全重叠的情况下,采用预测模型530的输出。可以将重叠率(例如,90%或另一值)定义为阈值,如果两个组之间的重叠率高于90%,则输出是可靠的;否则输出是不可靠的并且可能被丢弃。此外,继续确定计算系统中的故障的上述示例,如果影响参数组532包括10个参数,而目标影响参数组810包括8个参数(其中只有5个参数被包括在影响参数组532中),则差820低于阈值,并且因此可以从模型集合740中移除预测模型530。在另一示例中,如果差820高于阈值,则预测模型530可以被维持在模型集合740中。
[0075]
尽管以上段落已经描述了仅对一个预测模型530的处理,但是可以以类似的方式
处理模型集合740中的其他预测模型,使得可以更新模型集合740。在根据图8处理了所有预测模型之后,更新的模型集740可以用于确定目标样本710的最终类型。如果更新的模型集合为空,则表示所有可靠的预测模型认为目标样本710属于负类型,因此目标样本710可以被分类为负类型。或者,如果更新的模型组不为空,则其指示一个或多个可靠的预测模型相信目标样本710属于正类型。因此,目标样本可以被分类为正类型。对于这些实施例,从模型集合740中移除输出不可靠结果的所有预测模型,并且因此模型集合740仅包括(一个或多个)可靠预测模型。因此,可以增加最终输出的可靠性。
[0076]
尽管以上段落已经在计算系统的环境中描述了各实施例。替代地和/或另外,本公开的实施例可以在医疗环境、图像处理环境等中实现。在医疗环境中,不平衡数据集可以包括与癌症相关的正样本和与健康人相关的负样本,并且因此可以基于不平衡数据集生成预测模型。在图像处理环境中,不平衡数据集可以包括与不合格产品的图片相关的正样本和与合格产品的图片相关的负样本,并且因此可以基于不平衡数据集生成预测模型。利用这些实施例,可以从各种工作环境中的不平衡数据集生成准确且有效的预测模型。
[0077]
本公开可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),所述计算机可读程序指令用于使处理器执行本公开的方面。
[0078]
将参照图9以获得关于本公开的实施例的更多细节。图9示出根据本公开的实施例的基于不平衡数据集生成最终预测模型的方法900的示例流程图。这里,方法900可以由一个或多个处理器来实现。在框910,基于不平衡数据集中包括的多个正样本分别生成多个预测模型,多个正样本的量低于不平衡数据集中包括的多个负样本的量,并且多个正样本和负样本中的每个样本包括多个参数。在框920,分别从多个参数中识别多个正样本的多个影响参数组。在框930,基于多个预测模型和多个影响参数组确定最终预测模型,最终预测模型用于将样本分类为正类型和负类型中的一个。
[0079]
在一些实施例中,基于多个正样本中的正样本生成多个预测模型中的预测模型。具体地,基于正样本生成训练数据集,训练数据集包括至少一个正训练样本和多个负训练样本。通过用训练数据集训练初始预测模型来产生预测模型。
[0080]
在一些实施例中,多个负训练样品通过以下任一项获得:从多个负样本中选择负样本,并将正样本修改为负样本;以及将多个负训练样本添加到训练数据集中。
[0081]
在一些实施例中,至少一个正训练样本是基于正样本获得的;然后基于多个负训练样本的量与至少一个正训练样本的量的比率,将权重分配给至少一个正训练样本。
[0082]
在一些实施例中,处理多个正样本中的每个正样本,以用于识别多个影响参数组中的一个组。具体地,针对正样本识别影响参数组,影响参数组包括使得正样本被分类为正类型的多个参数中的参数组。
[0083]
在一些实施例中,响应于确定将另外的正样本加入不平衡的数据集中,更新最终预测模型。具体地,基于所述另外的阳性样本生成另外的预测模型;从多个参数中识别另一预测模型的另一影响参数组;并且基于另一预测模型和另一影响参数组来更新最终预测模型。
[0084]
在一些实施例中,如果接收到目标样本,则分别基于包括在最终预测模型中的多个预测模型来确定目标样本的多个预测类型。响应于确定所述多个预测类型中的所有预测
类型指示负类型,将所述目标样本分类到负类型中。
[0085]
在一些实施例中,响应于确定多个预测类型中的至少一个预测类型指示正类型,生成模型集合,并且模型集合包括与至少一个预测类型相对应的至少一个预测模型。确定与模型集合中的预测模型相关联的影响参数组。接下来,从目标样本的多个参数中识别目标影响参数组。此外,基于影响参数组和目标影响参数组之间的差来更新模型组,然后基于更新的模型组对目标样本进行分类。
[0086]
在一些实施例中,响应于确定所述差高于预定义阈值,从模型集合中移除所述预测模型;以及响应于确定所述差低于预定义阈值,将所述预测模型维持在所述模型集合中。
[0087]
在一些实施例中,响应于确定更新的模型集合为空,将目标样本分类为负类型;以及响应于确定更新的模型集合不为空,将目标样本分类为正类型。
[0088]
将参考图10以获得用于对样本进行分类的更多细节。图10示出了根据本公开的实施例的用于基于最终预测模型对目标样本进行分类的方法1000的示例流程图。在框1002处,模型集合被设置为空,并且在框1004处,确定是否存在输出目标样本的正类型的预测模型。如果结果为“是”,则方法1000进行到框1010;如果结果为“否”,则方法1000进行到框1020。在框1010,输出目标样本的正类型的预测模型被添加到模型集合中。在框1020处,如果模型组为空,则方法1000进行到框1022并输出负类型。否则,如果模型组不为空,那么方法1000进行到框1030。在框1030,为模型集合中的模型确定目标影响参数组。接下来,在框1040,确定目标影响参数组和与模型相关联的影响参数组之间的差。在框1050,如果该差高于阈值,则方法1000进行到框1054,并且从模型集合中移除该模型。如果差低于阈值,则方法1052前进到方框1052并输出正类型。
[0089]
计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式光盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置,以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
[0090]
本文中所描述的计算机可读程序指令可以经由网络(例如,互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备,或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储媒质中。
[0091]
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码,这些程序设计语
言包括面向对象的程序设计语言(诸如smalltalk、c++等)和过程程序设计语言(诸如“c”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(lan)或广域网(wan))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
[0092]
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0093]
这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储媒质中,这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储媒质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。
[0094]
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。
[0095]
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
[0096]
已经出于说明的目的呈现了对本公开的各种实施例的描述,但是其并非旨在是穷举的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的实施例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1