一种事件确定方法、装置、电子设备和存储介质与流程

文档序号:26014249发布日期:2021-07-23 21:35阅读:159来源:国知局
一种事件确定方法、装置、电子设备和存储介质与流程
本公开涉及计算机
技术领域
,特别涉及一种事件确定方法、装置、电子设备和存储介质。
背景技术
:随着科技的进步,医疗行业得到了迅速发展。医疗行业中的检查报告(如临床检查报告)包含了检查症状、诊断结果等信息。为了方便对检查报告进行管理,需要确定检查报告对应的医学事件。相关技术中,需要人工确定每个检查报告对应着哪些医学事件,例如在获取一个新的检查报告后,判断是否包含原发部位事件,是否包含转移事件等等。然而,通过人工方式难以准确确定检查报告对应的事件。技术实现要素:本公开提供了一种事件确定方法、装置、电子设备和存储介质,用以准确确定检查报告对应的事件。第一方面,本公开实施例提供一种事件确定方法,所述方法包括:将待处理检查报告与多个关联信息进行比对,确定所述待处理检查报告包含的关联信息,其中所述关联信息为表征对应的预设事件发生的信息;将确定的所述关联信息对应的预设事件作为所述待处理检查报告的事件。上述方案,通过将待处理检查报告与多个表征对应的预设事件发生的关联信息进行比对,如果待处理检查报告包含某一或者某些关联信息,就说明待处理检查报告有该关联信息对应的预设事件,因此通过确定待处理检查报告包含的关联信息,进而将这些关联信息对应的预设事件作为待处理检查报告的事件,精准、方便、快捷地就能确定待处理检查报告的事件,即使待处理检查报告对应多个事件也能减少事件遗漏的情况发生。在一些可选的实施方式中,通过以下方式得到所述关联信息:通过预设分段方式将样本检查报告进行分段,得到分段文本;将表征同一预设事件的分段文本组成一个预设集合,并根据预设集合包含的分段文本确定所述关联信息。上述方案,样本检查报告的内容较多,难以确定与某一事件相关的文本,通过预设分段方式将样本检查报告进行分段,将每个样本检查报告分成多个分段本文,这样就得到了这些样本检查报告的分段文本,从而方便地确定与预设事件相关的分段文本,从这些文本中能够较为准确地提取到该预设事件对应的关联信息。在一些可选的实施方式中,将表征同一预设事件的分段文本组成一个预设集合,包括:若没有预设分段文本与预设事件的对应关系,则对得到的所有分段文本的语义向量进行聚类,得到多组语义向量;将各组语义向量对应的分段文本组成一个预设集合;或者若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的所有分段文本对应的预设事件,则根据所述对应关系将同一预设事件对应的分段文本组成一个预设集合;或者若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的部分分段文本对应的预设事件,则根据所述对应关系以及通过分类模型得到没有对应关系的分段文本的预设事件,将同一预设事件对应的分段文本组成一个预设集合,其中,所述分类模型是通过有对应关系的分段文本以及对应的预设事件训练得到的。上述方案,针对不同应用场景采用不同的方式得到预设集合,无论是否预设有分段文本与预设事件的对应关系,都能准确地将同一预设事件对应的分段文本组成一个预设集合。在一些可选的实施方式中,若没有预设分段文本与预设事件的对应关系,则在得到预设集合之后,还包括:响应针对所述预设集合的事件标识指令,将所述事件标识指令包含的事件作为所述预设集合对应的预设事件。上述方案,如果没有预设分段文本与预设事件的对应关系,通过将语义相似的分段文本组成一个预设集合,只是将表征同一预设事件的分段文本归到了一个预设集合中,但并不能确定这同一预设事件具体是什么预设事件。通过在得到预设集合之后,将针对预设集合的事件标识指令包含的事件作为预设集合对应的预设事件,就能确定预设集合具体对应的预设事件。在一些可选的实施方式中,根据预设集合包含的分段文本确定所述关联信息,包括:针对任一预设集合,将在所述预设集合包含的分段文本中出现次数大于预设次数的实词作为候选信息;确定所述候选信息在所述预设集合包含的分段文本中出现的概率,将概率最大的前n个候选信息作为所述预设集合的关联信息,n为正整数;或者将大于预设概率的候选信息作为所述预设集合的关联信息。上述方案,一个预设集合包含的分段文本都对应了同一预设事件,如果某一或者某些实词在这些分段文本中出现次数较多,那该实词很可能就是能够表征该预设事件发生的词,因此先将这些分段文本中出现次数大于预设次数的实词选择出来作为候选信息。上述候选信息有可能只是在对应预设集合的小部分的分段文本中出现次数较多,在其余分段文本中没有出现,这种候选信息并不能准确表征对应预设事件发生,通过确定上述候选信息在对应预设集合包含的分段文本中出现的概率,并选择出现概率较高的候选信息,从而得到能够精准表征预设事件发生的关联信息。在一些可选的实施方式中,将待处理检查报告与多个关联信息进行比对,包括:针对任一预设事件,按照概率从大到小的顺序将所述待处理检查报告与所述预设事件对应的关联信息进行比对;在确定所述待处理检查报告包含所述预设事件对应的一个关联信息后,停止将所述待处理检查报告与所述预设事件对应的其他关联信息进行比对。上述方案,关联信息在对应预设集合包含的分段文本中出现的概率高,当发生对应预设事件时包含该关联信息的概率也高,当待处理检查报告对应这个预设事件时,大概率会包含该关联信息,通过先将待处理检查报告与出现的概率高的关联信息进行比对,如果确定待处理检查报告包含关联信息,就确定该待处理检查报告对应该预设事件,无需再将待处理检查报告与该预设事件的其他关联信息进行比对,提高了比对效率,节省了比对过程占用的资源。第二方面,本公开实施例提供一种事件确定装置,包括:关联信息确定模块,用于将待处理检查报告与多个关联信息进行比对,确定所述待处理检查报告包含的关联信息,其中所述关联信息为表征对应的预设事件发生的信息;事件确定模块,用于将确定的所述关联信息对应的预设事件作为所述待处理检查报告的事件。在一些可选的实施方式中,关联信息确定模块还用于通过以下方式得到所述关联信息:通过预设分段方式将样本检查报告进行分段,得到分段文本;将表征同一预设事件的分段文本组成一个预设集合,并根据预设集合包含的分段文本确定所述关联信息。在一些可选的实施方式中,关联信息确定模块将表征同一预设事件的分段文本组成一个预设集合,包括:若没有预设分段文本与预设事件的对应关系,则对得到的所有分段文本的语义向量进行聚类,得到多组语义向量;将各组语义向量对应的分段文本组成一个预设集合;或者若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的所有分段文本对应的预设事件,则根据所述对应关系将同一预设事件对应的分段文本组成一个预设集合;或者若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的部分分段文本对应的预设事件,则根据所述对应关系以及通过分类模型得到没有对应关系的分段文本的预设事件,将同一预设事件对应的分段文本组成一个预设集合,其中,所述分类模型是通过有对应关系的分段文本以及对应的预设事件训练得到的。在一些可选的实施方式中,若没有预设分段文本与预设事件的对应关系,则关联信息确定模块在得到预设集合之后,还用于:响应针对所述预设集合的事件标识指令,将所述事件标识指令包含的事件作为所述预设集合对应的预设事件。在一些可选的实施方式中,关联信息确定模块根据预设集合包含的分段文本确定所述关联信息,包括:针对任一预设集合,将在所述预设集合包含的分段文本中出现次数大于预设次数的实词作为候选信息;确定所述候选信息在所述预设集合包含的分段文本中出现的概率,将概率最大的前n个候选信息作为所述预设集合的关联信息,n为正整数;或者将大于预设概率的候选信息作为所述预设集合的关联信息。在一些可选的实施方式中,关联信息确定模块将待处理检查报告与多个关联信息进行比对,包括:针对任一预设事件,按照概率从大到小的顺序将所述待处理检查报告与所述预设事件对应的关联信息进行比对;在确定所述待处理检查报告包含所述预设事件对应的一个关联信息后,停止将所述待处理检查报告与所述预设事件对应的其他关联信息进行比对。第三方面,本公开实施例提供一种电子设备,包括一个或多个处理器,以及用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面任一项所述的事件确定方法。第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面任一项所述的事件确定方法。另外,第二方面至第四方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。附图说明为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本公开实施例提供的第一种事件确定方法的示意流程图;图2为本公开实施例提供的第一种得到关联信息方法的示意流程图;图3为本公开实施例提供的第二种得到关联信息方法的示意流程图;图4为本公开实施例提供的第二种事件确定方法的示意流程图;图5为本公开实施例提供的一种事件确定装置的结构示意图;图6为本公开实施例提供的一种电子设备的示意框图。具体实施方式为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。本公开实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。在本公开的描述中,需要说明的是,除非另有明确的规定和限定,术语“连接”应做广义理解,例如,可以是直接相连,也可以通过中间媒介间接相连,可以是两个器件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。医疗行业中的检查报告(如临床检查报告)包含了检查症状、诊断结果等信息。为了方便对检查报告进行管理,需要确定检查报告对应的医学事件。相关技术中,需要人工确定每个检查报告对应着哪些医学事件,例如在获取一个新的检查报告后,判断是否包含原发部位事件,是否包含转移事件等等。然而,通过人工方式确定检查报告的医学事件,难以准确确定检查报告对应的医学事件。例如当一个检查报告对应多个医学事件时,容易遗漏事件,或者确定出错误的事件。本公开实施例为了准确确定检查报告对应的事件,提供了一种事件确定方法、装置、电子设备和存储介质。下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例进行描述。图1为本公开实施例提供的第一种事件确定方法的示意流程图,如图1所示,该方法可以包括:步骤101:将待处理检查报告与多个关联信息进行比对,确定所述待处理检查报告包含的关联信息。其中所述关联信息为表征对应的预设事件发生的信息。本实施例通过预设能够表征对应的预设事件发生的关联信息,如果一个检索报告出现了该关联信息,就代表检索报告有该关联信息对应的预设事件。基于此,本实施例需要将待处理检查报告与多个关联信息比对,确定待处理检查报告包含哪些关联信息。上述待处理检查报告为需要确定对应事件的检查报告,本实施例对该检查报告的具体实现不做限定,可以为临床检查报告或者实验报告,可以为身体任何部位的检查报告等等。本实施例对将待处理检查报告与多个关联信息进行比对的具体方式不做限定,例如:1)按照预设的关联信息的顺序,将待处理检查报告一一与各关联信息进行比对,确定待处理检查报告包含哪些关联信息;2)按照预设的预设事件的顺序,将待处理检查报告一一与各预设事件对应的关联信息进行比对,确定待处理检查报告包含哪些关联信息。上述比对方式只是示例性说明,本实施例也可采用其他比对方式。在一些具体的实施例中,本实施例还可以预设与上述关联信息词义相同的扩展信息,也将待处理检查报告与扩展信息进行比对,如果待处理检查报告包含关联信息的扩展信息,也认为待处理检查报告包含该关联信息。本实施例,待处理检查报告可能包含一个或者多个关联信息,这与待处理检查报告的内容有关,也与关联信息的设置有关,本实施例对此不做具体限定。步骤102:将确定的所述关联信息对应的预设事件作为所述待处理检查报告的事件。如上所述,如果一个检索报告出现了该关联信息,就代表检索报告有该关联信息对应的预设事件。基于此,本实施例在确定待处理检查报告包含的关联信息后,将确定的关联信息对应的预设事件作为待处理检查报告的事件。本实施例,待处理检查报告的事件可能有一个也可能有多个,例如:1)待处理报告只包含一个关联信息,待处理检查报告的事件也只有一个,即该关联信息对应的预设事件;2)待处理报告包含多个关联信息,但这多个关联信息对应着同一个预设事件,待处理检查报告的事件也只有一个,即这多个关联信息对应的相同的预设事件;3)待处理报告包含多个关联信息,且这多个关联信息对应的不是同一个预设事件,待处理检查报告的事件有多个,即这多个关联信息对应的所有预设事件。上述只是为了举例说明待处理检查报告的事件可能有一个也可能有多个,本实施例并不以此为限。上述方案,通过将待处理检查报告与多个表征对应的预设事件发生的关联信息进行比对,如果待处理检查报告包含某一或者某些关联信息,就说明待处理检查报告对应了该关联信息对应的预设事件,因此通过确定待处理检查报告包含的关联信息,进而将这些关联信息对应的预设事件作为待处理检查报告的事件,精准、方便、快捷地确定待处理检查报告的事件,即使待处理检查报告对应多个事件也能减少事件遗漏的情况发生。参阅图2所示,上述关联信息可以通过如下方式得到:步骤201:通过预设分段方式将样本检查报告进行分段,得到分段文本。本实施例,根据样本检查报告得到关联信息,然而样本检查报告的内容较多,难以确定与某一预设事件相关的文本,并从这些文本中提取到该预设事件对应的关联信息。基于此,本实施例通过预设分段方式将样本检查报告进行分段,将每个样本检查报告分成多个分段本文,这样就得到了这些样本检查报告的分段文本。本实施例对上述预设分段方式不做具体限定,例如:1)通过识别样本检查报告中的“。”,将每个句子作为一个分段本文。如样本检查报告为:肾脏肾盂及肾盏黏膜炎,大部分粘膜上皮脱失。肾腺瘤,肿瘤大小为x厘米,周围肾组织未见著变。在“。”所在位置对样本检查报告进行分段,“肾脏肾盂及肾盏黏膜炎,大部分粘膜上皮脱失”作为一个分段文本,“肾腺瘤,肿瘤大小为x厘米,周围肾组织未见著变”作为一个分段文本。2)通过识别样本检查报告中的“,”和“。”,在“,”所在位置以及“。”所在位置对样本检查报告进行分段,得到分段本文。如样本检查报告为:肾脏肾盂及肾盏黏膜炎,大部分粘膜上皮脱失。肾腺瘤,肿瘤大小为x厘米,周围肾组织未见著变。在“,”或者“。”所在位置对样本检查报告进行分段,得到“肾脏肾盂及肾盏黏膜炎”、“大部分粘膜上皮脱失”、“肾腺瘤”、“肿瘤大小为x厘米”以及“周围肾组织未见著变”这五个分段文本。上述两种分段方式只是示例性说明,本实施例也可采用其他分段方式对样本检查报告进行分段。步骤202:将表征同一预设事件的分段文本组成一个预设集合,并根据预设集合包含的分段文本确定所述关联信息。本实施例,将样本检查报告分段得到多个分段文本后,还需要从某一预设事件相关的分段文本中提取到表征该预设事件发生的关联信息。基于此,需要将表征同一预设事件的分段文本组成一个预设集合,并根据预设集合包含的分段文本确定该预设事件对应的关联信息。本实施例,可通过但不限于通过以下方式将表征同一预设事件的分段文本组成一个预设集合:1)若没有预设分段文本与预设事件的对应关系,则对得到的所有分段文本的语义向量进行聚类,得到多组语义向量;将各组语义向量对应的分段文本组成一个预设集合。本实施例,如果没有预设分段文本与预设事件的对应关系,就不能直接确定这些分段文本分别对应着什么预设事件,因此不能直接找出与各预设事件相关的分段文本。基于此,需要根据这些分段文本的语义相似度,对所有分段文本的语义向量进行聚类,得到多组语义向量,并将各组语义向量对应的分段文本作为表征同一预设事件的分段文本,即将语义相似的分段文本组成一个预设集合。本实施例对聚类得到多组语义向量的方式不做限定,例如可通过k均值聚类算法(k-meansclusteringalgorithm,k-means)聚类、层次凝聚聚类法(hierarchicalagglomerativeclustering,hac)、最大最小距离聚类算法等方式进行聚类。以k-means聚类为例:从所有分段文本的语义向量中选取k个初始向量,分别计算剩下的语义向量到每个初始向量的距离,将剩下的向量归到距离最接近的初始向量的类中,归类之后得到k组语义向量。上述只是示例性说明在k-means聚类中是如何得到多组语义向量,具体实现方式可根据实际应用场景进行选择。以对30个样本检查报告分段,得到100个分段文本,记作分段本文1、分段文本2、分段文本3、……分段文本100为例:样本检查报告1为:左肺上叶癌,肿瘤大小为x厘米,侵犯周围组织。分段得到“左肺上叶癌”(记作分段本文1)、“肿瘤大小为x厘米”(记作分段本文2)和“侵犯周围组织”(记作分段本文3)。样本检查报告2为:肾腺瘤,肿瘤大小为y厘米。周围肾组织见转移性肿瘤。分段得到“肾腺瘤”(记作分段本文4)、“肿瘤大小为y厘米”(记作分段本文5)和“周围肾组织见转移性肿瘤”(记作分段本文6)。本实施例对其他28个样本检查报告,以及其他96个分段文本不再一一举例说明。对这100个分段文本的语义向量进行聚类,得到4组语义向量,第1组语义向量对应分段文本1、分段文本4、分段文本20、……;第2组语义向量对应分段文本2、分段文本5、分段文本40、……;第3组语义向量对应分段文本3、分段文本6、分段文本57、……;第4组语义向量对应分段文本28、分段文本39、分段文本74、……。将各组语义向量对应的分段文本作为表征同一预设事件的分段文本。上述是对得到预设集合的示例性说明,本实施例对得到的分段分本的数量,聚类得到的组数等参数不做限定。上述过程只是将表征同一预设事件的分段文本归到了一个预设集合中,但并未确定这同一预设事件具体是什么预设事件,基于此,还需要确定各预设集合对应的预设事件。在一些具体的实施例中,在得到预设集合之后,响应针对所述预设集合的事件标识指令,将所述事件标识指令包含的事件作为所述预设集合对应的预设事件。本实施例,通过在得到预设集合之后,将针对预设集合的事件标识指令包含的事件作为预设集合对应的预设事件,就能确定预设集合具体对应的预设事件。2)若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的所有分段文本对应的预设事件,则根据所述对应关系将同一预设事件对应的分段文本组成一个预设集合。以对30个样本检查报告分段,得到100个分段文本,记作分段本文1、分段文本2、分段文本3、……分段文本100为例:样本检查报告1为:左肺上叶癌,肿瘤大小为x厘米,侵犯周围组织。分段得到“左肺上叶癌”(记作分段本文1)、“肿瘤大小为x厘米”(记作分段本文2)和“侵犯周围组织”(记作分段本文3)。样本检查报告2为:肾腺瘤,肿瘤大小为y厘米。周围肾组织见转移性肿瘤。分段得到“肾腺瘤”(记作分段本文4)、“肿瘤大小为y厘米”(记作分段本文5)和“周围肾组织见转移性肿瘤”(记作分段本文6)。本实施例对其他28个样本检查报告,以及其他96个分段文本不再一一举例说明。参阅表1所示的对应关系,该对应关系包括这100个分段文本对应的预设事件:表1分段文本与预设事件的对应关系分段文本预设事件分段本文1原发部位事件分段本文2肿瘤大小事件分段本文3转移事件分段本文4原发部位事件分段本文5肿瘤大小事件分段本文6转移事件…………分段文本100原发部位事件将原发部位事件对应的分段文本组成一个预设集合,将肿瘤大小事件对应的分段文本组成一个预设集合,将转移事件对应的分段文本组成一个预设集合。上述是对得到预设集合的示例性说明,本实施例对对应关系包括哪些分段文本对应的预设事件不做具体限定。本实施例,如果预设有分段文本与预设事件的对应关系,且该对应关系中包括得到的所有分段文本对应的预设事件。也就是说根据该对应关系就能确定得到的所有分段文本分别对应着什么预设事件,直接就能找出与各预设事件相关的分段文本,进而将同一事件对应的分段文本组成一个预设集合。3)若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的部分分段文本对应的预设事件,则根据所述对应关系以及通过分类模型得到没有对应关系的分段文本的预设事件,将同一预设事件对应的分段文本组成一个预设集合,其中,所述分类模型是通过有对应关系的分段文本以及对应的预设事件训练得到的。以对30个样本检查报告分段,得到100个分段文本,记作分段本文1、分段文本2、分段文本3、……分段文本100为例:样本检查报告1为:左肺上叶癌,肿瘤大小为x厘米,侵犯周围组织。分段得到“左肺上叶癌”(记作分段本文1)、“肿瘤大小为x厘米”(记作分段本文2)和“侵犯周围组织”(记作分段本文3)。样本检查报告2为:肾腺瘤,肿瘤大小为y厘米。周围肾组织见转移性肿瘤。分段得到“肾腺瘤”(记作分段本文4)、“肿瘤大小为y厘米”(记作分段本文5)和“周围肾组织见转移性肿瘤”(记作分段本文6)。本实施例对其他28个样本检查报告,以及其他96个分段文本不再一一举例说明。参阅表2所示的对应关系,该对应关系只包括分段本文1-40对应的预设事件:表2分段文本与预设事件的对应关系分段文本预设事件分段本文1原发部位事件分段本文2肿瘤大小事件分段本文3转移事件分段本文4原发部位事件分段本文5肿瘤大小事件分段本文6转移事件…………分段文本40原发部位事件上述是对对应关系的示例性说明,本实施例对对应关系包括哪些分段文本对应的预设事件不做限定。本实施例,如果预设有分段文本与预设事件的对应关系,且该对应关系中包括得到的部分分段文本对应的预设事件。也就是说根据该对应关系就能确定部分分段文本分别对应着什么预设事件(以表2为例,能确定分段文本1-40对应的预设事件),但不能确定另一部分分段文本分别对应着什么预设事件(以表2为例,不能确定分段文本41-100分别对应的预设事件),因此也不能根据对应关系直接找出与各预设事件相关的分段文本。本实施例能够获知部分分段文本对应的预设事件,根据这些分段文本以及对应的预设事件可以训练出一个分类模型,将没有对应关系的分段文本输入该分类模型,输出结果作为该分段文本的事件。本实施例对训练得到分类模型的具体方式不做限定,例如:将有对应关系的分段文本以及对应的预设事件作为初始神经网络模型的输入,将预测结果作为该初始神经网络模型的输出,对初始神经网络模型进行训练,得到上述分类模型。上述训练过程只是示例性说明,本实施例并不以此为限。根据上述对应关系以及通过分类模型得到的没有对应关系的分段文本的事件,就能确定得到的所有分段文本分别对应着什么预设事件,直接就能找出与各预设事件相关的分段文本。上述方案,样本检查报告的内容较多,难以确定与某一事件相关的文本,通过预设分段方式将样本检查报告进行分段,将每个样本检查报告分成多个分段本文,这样就得到了这些样本检查报告的分段文本,从而方便地确定与某一预设事件相关的分段文本,从这些文本中能够较为准确地提取到该预设事件对应的关联信息。图3为本公开实施例提供的第二种得到关联信息的方法的示意流程图,如图3所示,该方法可以包括:步骤301:通过预设分段方式将样本检查报告进行分段,得到分段文本。步骤302:将表征同一预设事件的分段文本组成一个预设集合。该步骤301-302可参照上述步骤201-202的实现方式,此处不再赘述。步骤303:针对任一预设集合,将在所述预设集合包含的分段文本中出现次数大于预设次数的实词作为候选信息。本实施例,一个预设集合包含的分段文本都对应了同一预设事件,如果某一或者某些实词(如名词、动词、形容词等)在这些分段文本中出现次数较多,那该实词很可能就是能够表征该预设事件发生的词。基于此,先将这些分段文本中出现次数大于预设次数的实词选择出来作为候选信息。其中,上述预设次数可以根据实际应用场景进行设定,本实施例对此不做具体限定。步骤304:确定所述候选信息在所述预设集合包含的分段文本中出现的概率,将概率最大的前n个候选信息作为所述预设集合的关联信息,n为正整数;或者将大于预设概率的候选信息作为所述预设集合的关联信息。上述候选信息有可能只是在对应预设集合的小部分的分段文本中出现次数较多,在其余分段文本中没有出现,这种候选信息并不能准确表征对应预设事件发生;上述候选信息也有可能在所有分段文本或者大部分分段文本中都出现了,这种候选信息并能够较为准确地表征对应预设事件发生。基于此,还需要确定上述候选信息在对应预设集合包含的分段文本中出现的概率,即候选信息在对应预设集合的所有分段文本中都出现的概率,并选择出现的概率较高的候选信息作为该预设集合的关联信息。例如:一个预设集合对应的事件为原发部位事件,该预设集合有20个分段文本,分别记作分段文本1、分段文本2、分段文本3、……分段文本20。从这20个分段文本中出现的所有实词中,选择在出现次数大于预设次数的实词作为候选信息(以选择了5个候选信息为例,记作候选信息1、候选信息2、候选信息3、候选信息4和候选信息5)。其中候选信息1在分段文本1、分段文本15出现次数较多,在分段文本2-8也有出现,但是在其余分段文本中并没有出现,即候选信息1在9个分段文本中出现了,候选信息1出现的概率a1=9/20=45%;候选信息2在除分段文本1之外的分段文本中都有出现,即候选信息2在19个分段文本中出现了,候选信息2出现的概率a2=19/20=95%;候选信息3在所有分段文本中都有出现,候选信息3出现的概率a3=20/20=100%;候选信息4在除分段文本4、7之外的分段文本中都有出现,即候选信息4在18个分段文本中出现了,候选信息4出现的概率a4=18/20=90%;候选信息5在除分段文本2、6、8、9之外的分段文本中都有出现,即候选信息5在16个分段文本中出现了,候选信息5出现的概率a5=16/20=80%。按概率从大到小的对候选信息1-5进行排序,候选信息1排位为5,候选信息2排位为2,候选信息3排位为1,候选信息4排位为3,候选信息5排位为4。如果将概率最大的前2个候选信息关联信息,就是将候选信息3和候选信息2作为表征原发部位事件发生的关联信息;或者如果将概率最大的前3个候选信息关联信息,就是将候选信息3、候选信息2和候选信息4作为表征原发部位事件发生的关联信息;或者如果预设概率为92%,候选信息3和候选信息2对应的概率大于92%,将候选信息3和候选信息2作为表征原发部位事件发生的关联信息。上述各项具体参数均是示例性说明,本实施例对各项具体参数(如预设集合包含的分段文本的数量、候选信息的数量、预设概率等等)不做具体限定。在一些具体的实施例中,上述关联信息可通过决策树算法得到,示例性的:将上述预设集合的候选信息在该预设集合的所有分段文本中都出现作为特征,构建决策树,由于决策树算法每一步都选择当前信息增益或信息增益比最大的特征(即会每一步都会选择当前在该预设集合的所有分段文本中都出现的概率最大的候选信息),因此先被选择的候选信息较后被选择的候选信息在该预设集合的所有分段文本中都出现的概率要大,也就是说在决策树的构建过程中已经按在该预设集合的所有分段文本中都出现的概率从大到小对候选信息进行了排序,提高了选择关联信息的效率。上述方案,一个预设集合包含的分段文本都对应了同一预设事件,如果某一或者某些实词在这些分段文本中出现次数较多,那该实词很可能就是能够表征该预设事件发生的词,先将这些分段文本中出现次数大于预设次数的实词选择出来作为候选信息。上述候选信息有可能只是在对应预设集合的小部分的分段文本中出现次数较多,在其余分段文本中没有出现,这种候选信息并不能准确表征对应预设事件发生,通过确定上述候选信息在对应预设集合包含的分段文本中出现的概率,并选择出现概率较高的候选信息,从而得到能够精准表征预设事件发生的关联信息。在一些实施例中,可以确定上述关联信息在预设集合包含的分段文本中出现的概率,图4为本公开实施例提供的第二种事件确定方法的示意流程图,如图4所示,该方法可以包括:步骤401:针对任一预设事件,按照概率从大到小的顺序将所述待处理检查报告与所述预设事件对应的关联信息进行比对。如上所述,一个预设事件可能对应着多个关联信息,在这种场景中如果已经确定待处理检查报告包含该预设事件的一个关联信息,就没有必要再将待处理检查报告与该预设事件的其他关联信息比对。因此,比对顺序会直接影响比对效率。通过将一个预设事件的所有关联信息,按照当发生预设事件时包含该关联信息的概率由大到小进行排序,基于该排序将待处理检查报告与该预设事件的关联信息进行比对,就能提高比对效率。参阅图3实施例,确定了候选信息在预设集合包含的分段文本中出现的概率,即确定了一个预设集合的关联信息在预设集合包含的分段文本中出现的概率,这个概率反映了当发生对应预设事件时包含该关联信息的概率。如:一个关联信息在预设集合包含的分段文本中出现的概率高,当待处理检查报告有对应的预设事件时,大概率会包含该关联信息;一个关联信息在预设集合包含的分段文本中出现的概率低,当待处理检查报告有对应的预设事件时,很可能不包含该关联信息。步骤402:在确定所述待处理检查报告包含所述预设事件对应的一个关联信息后,停止将所述待处理检查报告与所述预设事件对应的其他关联信息进行比对。如上所述,如果已经确定待处理检查报告包含预设事件的一个关联信息,就能确定该待处理检查报告对应该预设事件,没有必要在将待处理检查报告与该预设事件的其他关联信息比对。还是以上述将候选信息3、候选信息2和候选信息4作为表征原发部位事件发生的关联信息为例:候选信息3在上述预设集合包含的分段文本中出现的概率为100%,候选信息2在上述预设集合包含的分段文本中出现的概率为95%,候选信息4在上述预设集合包含的分段文本中出现的概率为90%。如果待处理检查报告对应原发部位事件时,大概率会包含该候选信息3,因此,先将待处理检查报告与候选信息3进行比对,如果确定待处理检查报告包含候选信息3,就确定待处理检查报告对应原发部位事件,无需再将待处理检查报告与候选信息2、候选信息4进行比对。如果确定待处理检查报告不包含候选信息3,再将待处理检查报告与候选信息2进行比对,如果确定待处理检查报告包含候选信息2,就无需再将待处理检查报告与候选信息4进行比对。如果确定待处理检查报告不包含候选信息2,再将待处理检查报告与候选信息4进行比对。待处理检查报告不包含候选信息3、候选信息2和候选信息4中任一候选信息,说明待处理检查报告不对应该预设事件,将待处理报告与下一预设事件对应的关联信息比对。上述比对过程只是示例性说明,本实施例对预设事件对应的关联信息数量和在对应预设集合包含的分段文本中出现的概率不做具体限定。步骤403:确定所述待处理检查报告包含的关联信息。步骤404:将确定的所述关联信息对应的预设事件作为所述待处理检查报告的事件。该步骤403-404的实现方式可参照与上述步骤101-102实现方式,此处不再赘述。上述方案,关联信息在对应预设集合包含的分段文本中出现的概率高,当发生对应预设事件时包含该关联信息的概率也高,当待处理检查报告对应这个预设事件时,大概率会包含该关联信息,通过先将待处理检查报告与出现的概率高的关联信息进行比对,如果确定待处理检查报告包含关联信息,就确定该待处理检查报告对应该预设事件,无需再将待处理检查报告与该预设事件的其他关联信息进行比对,提高了比对效率,节省了比对过程占用的资源。如图5所示,基于相同的发明构思,本公开实施例提供一种事件确定装置500,包括:关联信息确定模块501,用于将待处理检查报告与多个关联信息进行比对,确定所述待处理检查报告包含的关联信息,其中所述关联信息为表征对应的预设事件发生的信息;事件确定模块502,用于将确定的所述关联信息对应的预设事件作为所述待处理检查报告的事件。在一些可选的实施方式中,关联信息确定模块501还用于通过以下方式得到所述关联信息:通过预设分段方式将样本检查报告进行分段,得到分段文本;将表征同一预设事件的分段文本组成一个预设集合,并根据预设集合包含的分段文本确定所述关联信息。在一些可选的实施方式中,关联信息确定模块501将表征同一预设事件的分段文本组成一个预设集合,包括:若没有预设分段文本与预设事件的对应关系,则对得到的所有分段文本的语义向量进行聚类,得到多组语义向量;将各组语义向量对应的分段文本组成一个预设集合;或者若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的所有分段文本对应的预设事件,则根据所述对应关系将同一预设事件对应的分段文本组成一个预设集合;或者若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的部分分段文本对应的预设事件,则根据所述对应关系以及通过分类模型得到没有对应关系的分段文本的预设事件,将同一预设事件对应的分段文本组成一个预设集合,其中,所述分类模型是通过有对应关系的分段文本以及对应的预设事件训练得到的。在一些可选的实施方式中,若没有预设分段文本与预设事件的对应关系,则关联信息确定模块501在得到预设集合之后,还用于:响应针对所述预设集合的事件标识指令,将所述事件标识指令包含的事件作为所述预设集合对应的预设事件。在一些可选的实施方式中,关联信息确定模块501根据预设集合包含的分段文本确定所述关联信息,包括:针对任一预设集合,将在所述预设集合包含的分段文本中出现次数大于预设次数的实词作为候选信息;确定所述候选信息在所述预设集合包含的分段文本中出现的概率,将概率最大的前n个候选信息作为所述预设集合的关联信息,n为正整数;或者将大于预设概率的候选信息作为所述预设集合的关联信息。在一些可选的实施方式中,关联信息确定模块501将待处理检查报告与多个关联信息进行比对,包括:针对任一预设事件,按照概率从大到小的顺序将所述待处理检查报告与所述预设事件对应的关联信息进行比对;在确定所述待处理检查报告包含所述预设事件对应的一个关联信息后,停止将所述待处理检查报告与所述预设事件对应的其他关联信息进行比对。由于该装置即是本公开实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。如图6所示,基于相同的发明构思,本公开实施例提供一种电子设备600,包括:处理器601和存储器602;存储器602,用于存储处理器601执行的计算机程序。存储器602可以是易失性存储器(volatilememory),例如随机存取存储器(random-accessmemory,ram);存储器602也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flashmemory),硬盘(harddiskdrive,hdd)或固态硬盘(solid-statedrive,ssd)、或者存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器602可以是上述存储器的组合。处理器601,可以包括一个或多个中央处理单元(centralprocessingunit,cpu),图形处理单元(graphicsprocessingunit,gpu)或者为数字处理单元等等。本公开实施例中不限定上述存储器602和处理器601之间的具体连接介质。本公开实施例在图6中以存储器602和处理器601之间通过总线603连接,总线603在图6中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线603可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器601执行下列过程:将待处理检查报告与多个关联信息进行比对,确定所述待处理检查报告包含的关联信息,其中所述关联信息为表征对应的预设事件发生的信息;将确定的所述关联信息对应的预设事件作为所述待处理检查报告的事件。在一些可选的实施方式中,所述处理器601还用于:通过预设分段方式将样本检查报告进行分段,得到分段文本;将表征同一预设事件的分段文本组成一个预设集合,并根据预设集合包含的分段文本确定所述关联信息。在一些可选的实施方式中,所述处理器601具体用于:若没有预设分段文本与预设事件的对应关系,则对得到的所有分段文本的语义向量进行聚类,得到多组语义向量;将各组语义向量对应的分段文本组成一个预设集合;或者若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的所有分段文本对应的预设事件,则根据所述对应关系将同一预设事件对应的分段文本组成一个预设集合;或者若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的部分分段文本对应的预设事件,则根据所述对应关系以及通过分类模型得到没有对应关系的分段文本的预设事件,将同一预设事件对应的分段文本组成一个预设集合,其中,所述分类模型是通过有对应关系的分段文本以及对应的预设事件训练得到的。在一些可选的实施方式中,若没有预设分段文本与预设事件的对应关系,所述处理器601还用于:在得到预设集合之后,响应针对所述预设集合的事件标识指令,将所述事件标识指令包含的事件作为所述预设集合对应的预设事件。在一些可选的实施方式中,所述处理器601具体用于:针对任一预设集合,将在所述预设集合包含的分段文本中出现次数大于预设次数的实词作为候选信息;确定所述候选信息在所述预设集合包含的分段文本中出现的概率,将概率最大的前n个候选信息作为所述预设集合的关联信息,n为正整数;或者将大于预设概率的候选信息作为所述预设集合的关联信息。在一些可选的实施方式中,所述处理器601具体用于:针对任一预设事件,按照概率从大到小的顺序将所述待处理检查报告与所述预设事件对应的关联信息进行比对;在确定所述待处理检查报告包含所述预设事件对应的一个关联信息后,停止将所述待处理检查报告与所述预设事件对应的其他关联信息进行比对。由于该电子设备即是执行本公开实施例中的方法的电子设备,并且该电子设备解决问题的原理与该方法相似,因此该电子设备的实施可以参见方法的实施,重复之处不再赘述。本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述事件确定方法的步骤。其中,可读存储介质可以为非易失可读存储介质。以上参照示出根据本公开实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本公开。应理解,可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程事件确定装置,以产生机器,使得经由计算机处理器和/或其它可编程事件确定装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。相应地,还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本公开。更进一步地,本公开可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式,其具有在介质中实现的计算机可使用或计算机可读程序代码,以由指令执行系统来使用或结合指令执行系统而使用。在本公开上下文中,计算机可使用或计算机可读介质可以是任意介质,其可以包含、存储、通信、传输、或传送程序,以由指令执行系统、装置或设备使用,或结合指令执行系统、装置或设备使用。尽管已描述了本公开的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1