错误医疗文本的生成方法、装置及存储介质与流程

文档序号:23133742发布日期:2020-12-01 13:08阅读:122来源:国知局
错误医疗文本的生成方法、装置及存储介质与流程

本申请文本识别技术领域,具体涉及一种错误医疗文本的生成方法、装置及存储介质。



背景技术:

相较于通用领域的自然语言文本,医疗领域的医疗文本中包括较多的专业词汇以及音译词,如“阿伐他汀”、“二甲双胍缓释片”。用户在输入这类医疗文本的过程中较容易出现拼写错误。而且在搜索系统和对话系统中,用户输入的错误的医疗文本会造成文本识别系统难以理解用户的意图或者错误理解用户的意图,进而难以向用户反馈期望的结果。

因此,为了正确理解用户的意图,通过训练样本训练出一个文本纠错模型,在用户输入医疗文本之后,通过文本纠错模型对用户输入的医疗文本进行纠错,得到正确的医疗文本,进而可以将正确的医疗文本应用于下一级搜索系统或对话系统中,输出用户期望的结果。

然而,对文本纠错模型的训练所使用的训练样本都是人工构造的训练,训练样本的语料不够丰富,且数量较少,训练后的文本纠错模型泛化能力差。



技术实现要素:

本申请实施例提供了一种错误医疗文本的生成方法、装置及存储介质。生成数量较多且语料丰富的错误医疗文本,提高文本纠错模型的泛化能力。

第一方面,本申请实施例提供一种错误医疗文本的生成方法,包括:

获取多个第一医疗文本,其中,所述多个第一医疗文本中的每个第一医疗文本为正确的医疗文本;

将所述每个第一医疗文本输入到完成训练的第一神经网络,得到与所述每个第一医疗文本对应的第二医疗文本,其中,所述第二医疗文本为错误的医疗文本。

第二方面,本申请实施例提供一种错误医疗文本的生成装置,包括:

获取单元,用于获取多个第一医疗文本,其中,所述多个第一医疗文本中的每个第一医疗文本为正确的医疗文本;

处理单元,用于将所述每个第一医疗文本输入到完成训练的第一神经网络,得到与所述每个第一医疗文本对应的第二医疗文本,其中,所述第二医疗文本为错误的医疗文本。

第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如第一方面所述的方法中的步骤的指令。

第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。

第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。

实施本申请实施例,具有如下有益效果:

可以看出,在本申请实施例中,可以通过第一神经网络,将正确的医疗文本生成错误的第二医疗文本。由于正确的医疗文本的数量相对较多,所以,生成的错误的第二医疗文本的数量较多。而且,通过神经网络生成错误语料,不掺杂人工经验,可提高第二医疗文本生成的随机性,使第二医疗文本的语料比较丰富。并且,在使用第二医疗文本训练文本纠错模型的情况下,可提高文本纠错模型的识别精度和泛化能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种错误医疗文本的生成方法的流程示意图;

图2为本申请实施例提供的另一种错误医疗文本的生成的流程示意图;

图3为本申请实施例提供的一种训练第一神经网络的流程示意图;

图4为本申请实施例提供的一种第一神经网络的结构示意图;

图5为本申请实施例提供的一种第二神经网络的结构示意图;

图6为本申请实施例提供的一种错误医疗文本的生成装置的结构示意图;

图7为本申请实施例提供的一种错误医疗文本的生成装置的功能单元组成框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

参阅图1,图1为本申请实施例提供的一种错误医疗文本的生成方法的流程示意图。该方法应用于错误医疗文本的生成装置。该方法包括以下步骤:

101:错误医疗文本的生成装置获取多个第一医疗文本,其中,所述多个第一医疗文本中的每个第一医疗文本为正确的医疗文本。

其中,该多个第一医疗文本可以是从各个医疗服务器(比如,各个医院的服务器)中读取的或者从医疗文本库中获取的。本申请不对获取第一医疗文本的方式进行限定。

102:将所述每个第一医疗文本输入到完成训练的第一神经网络,得到与所述每个第一医疗文本对应的第二医疗文本,其中,所述第二医疗文本为错误的医疗文本。

示例性的,通过该完成训练的第一神经网络对该所述每个第一医疗文本中的目标词语进行替换操作,得到至少一个第三医疗文本,其中,该目标词语包括以下至少一种:实体词、形容词、动词、名词和垂类词。其中,该第一神经网络是预先训练好的,后续详细叙述对该第一神经网络的训练过程,在此不做过多的描述。

示例性的,可通过该完成训练的第一神经网络对每个第一医疗文本的目标词语进行编码操作,得到该目标词语的目标意图;然后,从预先构造的字典库中查询与目标意图匹配的至少一个第一意图;最后,通过该完成训练的第一神经网络对每个第一意图进行解码操作,得到至少一个第一意图对应的至少一个待替换词语;分别使用每个待替换词语对该目标词语进行替换,得到该至少一个第三医疗文本。即,分别使用每个待替换词语将该第一医疗文本中的目标词语替换掉,并结合未被替换掉的词语组成一个第三医疗文本。

其中,通过神经网络对词语进行编码,得到该词语对应的意图,以及对意图进行解码得到对应的词语均为现有技术,不再叙述。

举例来说,若目标词语为动词,且第一医疗文本为“我想吃二甲双胍片”,由于动词“想”和“念”、“取”、“带”,等词语的意图是匹配的。所以,可将“我想吃二甲双胍片”替换为“我念吃二甲双胍片”或者“我取吃二甲双胍片”,或者“我带吃二甲双胍片”,等等,得到第三医疗文本。

在本申请的一个实施方式中,还可以将目标词语替换为该目标词语对应的形义词,其中,形义词包括以下至少一种:与目标词语读音相同,但文字不同的词;或者,与目标词语意思相同,但文字不同的词。因此,可以在字典库中查询与目标词语对应的至少一个形义词,将该至少一个形义词作为待替换词语;然后,分别使用每个形义词替换该目标词语,得到该至少一个第三医疗文本。

举例来说,若第一医疗文本为“我想吃二甲双胍片”。则在该目标词语为垂类词的情况下,该目标词语为“二甲双胍片”。由于“胍”和“瓜”的读音相同,可以将“二甲双瓜片”作为“二甲双胍片”的形义词,使用“二甲双瓜片”替换“二甲双胍片”得到一个第三医疗文本,即得到第三医疗文本“我想吃二甲双瓜片”。

应理解的是,实际应用中可以在字典库中,同步获取与该目标词语的意图匹配的词语以及与该目标词语对应的形义词,将与该目标词语的意图匹配的词语以及与该目标词语对应的形义词全部作为该目标词语的待替换词语。

可以理解,若该目标词语的数量是多个,则可以将每个目标词语对应的待替换词语进行组合后,得到该至少一个第三医疗文本。示例性的,目标词语有两个,第一个目标词语对应的待替换词语有两个,另外一个目标词语对应的待替换词语有三个,则可以组合出六个第三医疗文本。

进一步地,从该至少一个第三医疗文本中选出一个第三医疗文本作为与该第一医疗文本对应的第二医疗文本。

示例性的,日常生活中,用户输入的错误的医疗文本都是随机,各式各样的。所以,为了模拟用户输入错误的医疗文本的场景,可以从该至少一个第三医疗文本中随机选出一个第三医疗文本作为该第二医疗文本,从而可以使该完成训练的第一神经网络生成的第二医疗文本,与用户输入错误的医疗文本的场景匹配,进而使生成的错误的医疗文本具有随机性。

示例性的,在生成每个第三医疗文本过程中,还可生成一个与每个第三医疗文本对应的评分,每个第三医疗文本对应的评分用于表征该第三医疗文本与第一医疗文本之间的相似度。也就是说,评分越高,该第三医疗文本与第一医疗文本越相似,用户也就越容易将该第一医疗文本错误的输成该第三医疗文本。因此,可以将评分最高的第三医疗文本作为该第二医疗文本,进而可以模拟用户的输入习惯,得到用户最常输错的医疗文本。

示例性的,为了保证错误的医疗文本出现的随机性,还可以将每个第三医疗文本对应的评分与一个随机数进行求和,得到每个第三医疗文本对应的最终评分,其中,每个第三医疗文本对应的随机数是通过随机函数生成的。最后,将最终评分最大的第三医疗文本作为该第二医疗文本。

可以看出,由于随机函数生成的随机数具有随机性,所以,每个第三医疗文本对应的最终评分也是随机生成的,比如某个第三医疗文本的原本评分是最低的评分,但是可能与取值较大的随机数进行求和,使该第三医疗文的最终评分变为最大。因此,通过随机数求和的方式所选出的第二医疗文本并不是最容易输错的医疗文本,而是随机生成的,使第二医疗文本的语料更加丰富。

可以看出,在本申请实施例中,通过完成训练的第一神经网络生成与第一医疗文本对应的错误的医疗文本(第二医疗文本)。由于正确的医疗文本(第一医疗文本)的数量相对较多,故通过完成训练的第一神经网络处理之后,可以得到数量较多的错误的医疗文本。而且,现有中生成错误的医疗文本都是通过人工处理,对某些词语进行人工替换,因此生成的错误的医疗文本掺杂有人工经验,比如,都是进行音译替换,导致生成的错误的医疗文本的语料不够丰富,而本申请中通过完成训练的第一神经网络生成错误的医疗文本,不会掺杂人工经验,而且,可以通过多种方式选择第二医疗文本,保证错误的医疗文本生成的随机性,使生成的错误医疗文本的语料更加丰富,从而使用这样的错误医疗文本训练出文本纠错模型的识别精度高,且泛化能力较强。

参阅图2,图2为本申请实施例提供的另一种错误医疗文本的生成方法的流程示意图。该实施例中与图1所示的实施例相同的内容,此处不再重复描述。该方法包括以下步骤:

201:获取多个第一医疗文本,其中,所述多个第一医疗文本中的每个第一医疗文本为正确的医疗文本。

202:将所述每个第一医疗文本输入到完成训练的第一神经网络,得到与所述每个第一医疗文本对应的第二医疗文本,其中,所述第二医疗文本为错误的医疗文本。

203:对所述每个第一医疗文本对应的第二医疗文本添加第二训练标签,并将所述第二训练标签以及与所述第二训练标签对应的第二医疗文本组成第二训练样本,其中,所述第二训练标签用于表示所述第二医疗文本为错误的医疗文本。

204:使用所述第二训练样本对第二神经网络进行训练。

示例性的,可将该第二训练样本输入到第二神经网络,得到对该第二训练样本的预测结果,该预测结果为预测该第二训练样本为正确的医疗文本,还是错误的医疗文本。然后,将该预测结果与该第二训练样本的第二训练标签(即错误的医疗文本)进行比较,得到第一损失;根据该第一损失以及梯度下降法,调整该第二神经网络的网络参数,直至该第二神经网络收敛,完成对该第二经网络的训练。

因此,完成训练的第二网络是一个基于句子级别的二分类网络,即通过该第二神经网络可整体确定出该待识别医疗文本是正确的医疗文本,还是错误的医疗文本。

应理解,该第二训练样本只是对该第二神经网络进行训练的部分样本(即负样本)。在训练过程中,还需要使用正样本(即正确医疗样本)对该第二神经网络进行训练,训练过程与上述使用第二训练样本进行训练的过程类似,不再叙述。

205:获取待识别医疗文本,并将所述待识别医疗文本输入完成训练的第二神经网络,对所述待识别医疗文本进行分类,确定所述待识别医疗文本是否为正确的医疗文本。

其中,该待识别医疗文本可以为用户在搜索框中输入的医疗文本或者在即时通讯工具的对话框中输入的医疗文本。

应理解,本申请不对待识别医疗文本的获取方式进行限定。

示例性的,通过该第二神经网络可确定出该待识别医疗文本为正确的医疗文本的第一概率,以及为错误的医疗文本的第二概率;根据该第一概率和该第二概率,可确定出该待识别医疗文本是正确的医疗文本,还是错误的医疗文本。比如,若该第一概率大于第一阈值,确定该待识别医疗文本为正确的医疗文本。

206:在确定所述待识别医疗文本为正确的医疗文本的情况下,直接输出所述待识别医疗文本。

可以理解,在确定该待识别医疗文本为正确的医疗文本的情况下,可直接输出待识别医疗文本,以便下一级应用使用该待识别医疗文本。比如,可直接使用该待识别文本进行网页搜索或者完成对话信息的发送,等等。

207:在确定所述待识别医疗文本为错误的医疗文本的情况下,对所述待识别医疗文本进行纠错,并输出纠错后的医疗文本。

可以理解,在确定所述待识别医疗文本为错误的医疗文本的情况下,可对该待识别文本进行纠错,并将纠错后的医疗文本(正确的医疗文本)进行输出,以便下一级应用可以使用正确的医疗文本。

其中,对错误的医疗文本进行纠错可以使用现有的文本纠错模型进行纠错,比如,可使用bert模型进行纠错,本申请对纠错过程不做过多描述。

由于在实际应用中,用户输入的待识别文本为正确的医疗文本的情况远多于错误的医疗文本的情况,如果对用户输入的任何一个医疗文本都进行逐词逐字的纠错,纠错时间比较长;对于输入正确的医疗文本的用户来说,会耽误该用户的搜索或者对话效率,影响用户体验。

可以看出,在本申请实施例中,通过第二神经网络先确定整个待识别医疗文本是否为正确的医疗文本,即以句子为级别去判断医疗文本是否为正确的医疗文本,如果是,就不用再去纠错,由于通过第二神经网络确定待识别医疗文本是否为正确的医疗文本的时间是远小于逐词逐字纠错的时间,进而不会影响输入正确的医疗文本的用户搜索和对话效率,提高用户体验;而对于输入了错误的医疗文本的用户来说,还会对医疗文本进行纠错,以便下一级应用可以使用到正确的医疗文本,实现用户的期望和意图。

在本申请的一个实施方式中,上述的错误医疗文本的生成方法还可以应用到智慧医疗领域。比如,通过上述完成训练的第二神经网络对医生输入的医疗文本进行检错和纠错,从而保证医生输入正确的医疗文本,进而保证诊断结果的精度,推动医疗科技的发展。

参阅图3,图3为本申请实施例提供的一种训练第一神经网络的流程示意图。

301:获取第一训练样本和第一训练标签,其中,所述第一训练样本为正确的医疗文本,第一训练标签为标注好的与所述第二训练样本对应的错误的医疗文本。

由于第一经网络是一个对词语进行替换的网络,其训练过程所需的训练样本相对较少。因此,可以从历史医疗数据中,获取该第一训练样本和第一训练标签,该第一训练标签就是在历史记录中,用户原本是输入第一训练样本,但是将第一训练样本错误的输入成了该第一训练标签。比如,用户原本是打算输入“二甲双胍片”,但是错误的输成了“二甲双瓜片”。所以,“二甲双胍片”就是一个第一训练样本,“二甲双瓜片”就是该训练样本的第一训练标签。

302:将所述第一训练样本输入到所述第一神经网络,得到第四医疗文本。

即通过第一神经网络将第一训练样本进行转换,得到第四医疗文本,即错误的医疗文本。

303:根据所述第四医疗文本和所述第一训练标签,对所述第一神经网络的网络参数进行调整,以对所述第一神经网络进行训练。

示例性的,根据该第四医疗文本和第一训练标签之间的差异,得到第一损失,其中,该第一损失可以通过公式(1)表示:

其中,l1为第二损失,为第二训练标签,为第四医疗样本,dist为求距离操作。

然后,根据该第四医疗文本中的目标词语对应的意图与第一训练样本的目标词语对应的意图之间的差异,得到第二损失;其中,该第二损失可以通过公式(2)表示:

其中,l2为第三损失,n为目标词语的数量,为n个第i个目标词语对应的权重系数,为第二训练样本中第i个目标词语的意图,为第四医疗文本中第i个目标词语的意图,其中,该第二训练样本中第i个目标词语与该第四医疗文本中第i个目标词语对应。

最后,对该第一损失和该第二损失进行加权处理,得到最终损失;根据该最终损失以及梯度下降法对该第一神经网络的网络参数进行调整,直至该第一神经网络收敛,完成对该神经网络的训练。

在本申请的一个实施方式中,该第一神经网络和第二神经网络均可以为基本的文本识别模型,比如,卷积神经网络、循环神经网络、transformer,等等。该第一神经网络和该第二神经网络可以为相同类型的神经网络,也可为不同类型的神经网络,本申请对此不做限定。

此外,该第二网络和该第一网络可以通过端到端进行训练,也可以单独训练,本申请对此不做限定。并且,本申请中以单独训练为例进行说明。

下面结合第一神经网络和第二神经网络的网络结构,举例说明对该第一神经网络以及第二神经网络的训练过程。

如图4所示,该第一神经网络包括编码器(encoder)、中间层和解码器(decoder),该解码器包括多个卷积层和多个池化层,该解码器包括多个反卷积层和多个池化层;可以看出,将第一训练样本输入到编码器进行编码,得到第一特征向量;并通过中间层处理后,得到第二特征向量;将第二特征向量输入到解码器中进行解码,输出第四医疗文本;最后,根据该第四医疗文本和第一训练样本调整该第一神经网络的网络参数。

如图5所示,该第二神经网络包括多个卷积层和池化层。可以看出,将第二训练样本输入到该第二神经网络,经过卷积和池化处理后,输出预测结果;根据该预测结果以及第二训练样本的第二训练标签,调整该第二神经网络的网络参数。

参阅图6,图6为本申请实施例提供的一种错误医疗文本的生成装置的结构示意图。如图6所示,错误医疗文本的生成装置600包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行以下步骤的指令:

获取多个第一医疗文本,其中,所述多个第一医疗文本中的每个第一医疗文本为正确的医疗文本;

将所述每个第一医疗文本输入到完成训练的第一神经网络,得到与所述每个第一医疗文本对应的第二医疗文本,其中,所述第二医疗文本为错误的医疗文本。

在一些可能的实施方式中,在将所述每个第一医疗文本输入到完成训练的第一神经网络,得到与所述每个第一医疗文本对应的第二医疗文本方面,上述程序具体用于执行以下步骤的指令:

通过所述完成训练的第一神经网络,对所述每个第一医疗文本中的目标词语进行替换操作,得到至少一个第三医疗文本,所述目标词语包括以下至少一种:所述第一医疗文本中的实体词、形容词、动词、名词和垂类词;

根据所述每个第一医疗文本对应的至少一个第三医疗文本,得到与所述每个第一医疗文本对应的第二医疗文本。

在一些可能的实施方式中,在根据所述每个第一医疗文本对应的至少一个第三医疗文本,得到与所述每个第一医疗文本对应的第二医疗文本方面,上述程序具体用于执行以下步骤的指令:

从所述每个第一医疗文本对应的至少一个第三医疗文本,随机选择一个第三医疗文本,作为与所述每个第一医疗文本对应的第二医疗文本。

在一些可能的实施方式中,所述至少一个第三医疗文本中的每个第三医疗文本对应一个评分,所述每个第三医疗文本对应的评分用于表征所述每个第三医疗文本与所述第一医疗文本之间的相似度;在根据所述每个第一医疗文本对应的至少一个第三医疗文本,得到与所述每个第一医疗文本对应的第二医疗文本方面,上述程序具体用于执行以下步骤的指令:

将所述每个第三医疗文本对应的评分与一个随机数进行求和,得到所述每个第三医疗文本对应的最终评分,其中,所述每个第三医疗文本对应的随机数是通过随机函数生成的;

根据所述每个第三医疗文本对应的最终评分,将最终评分最大的第三医疗文本作为与所述每个第一医疗文本对应的第二医疗文本。

在一些可能的实施方式中,在通过所述完成训练的第一神经网络,对所述每个第一医疗文本中的目标词语进行替换操作,得到至少一个第三医疗文本本方面,上述程序具体用于执行以下步骤的指令:

通过所述完成训练的第一神经网络,对所述每个第一医疗文本的目标词语进行编码操作,得到所述目标词语对应的目标意图;

从字典库中获取与所述目标意图匹配的至少一个第一意图;

通过所述第二神经网络,对所述每个第一意图进行解码操作,得到与所述至少一个第一意图对应的至少一个待替换词语;

分别使用所述至少一个待替换词语中的每个待替换词语,对所述目标词语进行替换操作,得到所述至少一个第三医疗文本。

在一些可能的实施方式中,在所述获取多个第一医疗文本之前,上述程序还用于执行以下步骤的指令:

获取第一训练样本和第一训练标签,其中,所述第一训练样本为正确的医疗文本,第一训练标签为标注好的与所述第一训练样本对应的错误的医疗文本;

将所述第一训练样本输入到所述第一神经网络,得到第四医疗文本;

根据所述第四医疗文本和所述第一训练标签,对所述第一神经网络的网络参数进行调整,以对所述第一神经网络进行训练。

在一些可能的实施方式中,上述程序还用于执行以下步骤的指令:

对所述每个第一医疗文本对应的第二医疗文本添加第二训练标签,并将所述第二训练标签以及与所述第二训练标签对应的第二医疗文本组成第二训练样本,其中,所述第二训练标签用于表示所述第二医疗文本为错误的医疗文本;

使用所述第二训练样本对第二神经网络进行训练;

获取待识别医疗文本,并将所述待识别医疗文本输入完成训练的第二神经网络,对所述待识别医疗文本进行分类,确定所述待识别医疗文本是否为正确的医疗文本;

在确定所述待识别医疗文本为正确的医疗文本的情况下,直接输出所述待识别医疗文本;

在确定所述待识别医疗文本为错误的医疗文本的情况下,对所述待识别医疗文本进行纠错,并输出纠错后的医疗文本。

参阅图7,图7本申请实施例提供的一种错误医疗文本的生成装置的功能单元组成框图。错误医疗文本的生成装置700包括:获取单元710和处理单元720,其中:

获取单元710,用于获取多个第一医疗文本,其中,所述多个第一医疗文本中的每个第一医疗文本为正确的医疗文本;

处理单元720,用于将所述每个第一医疗文本输入到完成训练的第一神经网络,得到与所述每个第一医疗文本对应的第二医疗文本,其中,所述第二医疗文本为错误的医疗文本。

在一些可能的实施方式中,在将所述每个第一医疗文本输入到完成训练的第一神经网络,得到与所述每个第一医疗文本对应的第二医疗文本方面,处理单元720,具体用于:

通过所述完成训练的第一神经网络,对所述每个第一医疗文本中的目标词语进行替换操作,得到至少一个第三医疗文本,所述目标词语包括以下至少一种:所述第一医疗文本中的实体词、形容词、动词、名词和垂类词;

根据所述每个第一医疗文本对应的至少一个第三医疗文本,得到与所述每个第一医疗文本对应的第二医疗文本。

在一些可能的实施方式中,在根据所述每个第一医疗文本对应的至少一个第三医疗文本,得到与所述每个第一医疗文本对应的第二医疗文本方面,处理单元720,具体用于:

从所述每个第一医疗文本对应的至少一个第三医疗文本,随机选择一个第三医疗文本,作为与所述每个第一医疗文本对应的第二医疗文本。

在一些可能的实施方式中,所述至少一个第三医疗文本中的每个第三医疗文本对应一个评分,所述每个第三医疗文本对应的评分用于表征所述每个第三医疗文本与所述第一医疗文本之间的相似度;在根据所述每个第一医疗文本对应的至少一个第三医疗文本,得到与所述每个第一医疗文本对应的第二医疗文本方面,处理单元720,具体用于:

将所述每个第三医疗文本对应的评分与一个随机数进行求和,得到所述每个第三医疗文本对应的最终评分,其中,所述每个第三医疗文本对应的随机数是通过随机函数生成的;

根据所述每个第三医疗文本对应的最终评分,将最终评分最大的第三医疗文本作为与所述每个第一医疗文本对应的第二医疗文本。

在一些可能的实施方式中,在通过所述完成训练的第一神经网络,对所述每个第一医疗文本中的目标词语进行替换操作,得到至少一个第三医疗文本本方面,处理单元720,具体用于:

通过所述完成训练的第一神经网络,对所述每个第一医疗文本的目标词语进行编码操作,得到所述目标词语对应的目标意图;

从字典库中获取与所述目标意图匹配的至少一个第一意图;

通过所述第二神经网络,对所述每个第一意图进行解码操作,得到与所述至少一个第一意图对应的至少一个待替换词语;

分别使用所述至少一个待替换词语中的每个待替换词语,对所述目标词语进行替换操作,得到所述至少一个第三医疗文本。

在一些可能的实施方式中,在所述获取多个第一医疗文本之前,获取单元710,还用于:

获取第一训练样本和第一训练标签,其中,所述第一训练样本为正确的医疗文本,第一训练标签为标注好的与所述第一训练样本对应的错误的医疗文本;

处理单元720,还用于将所述第一训练样本输入到所述第一神经网络,得到第四医疗文本;根据所述第四医疗文本和所述第一训练标签,对所述第一神经网络的网络参数进行调整,以对所述第一神经网络进行训练。

在一些可能的实施方式中,处理单元720,还用于:

对所述每个第一医疗文本对应的第二医疗文本添加第二训练标签,并将所述第二训练标签以及与所述第二训练标签对应的第二医疗文本组成第二训练样本,其中,所述第二训练标签用于表示所述第二医疗文本为错误的医疗文本;

使用所述第二训练样本对第二神经网络进行训练;

获取待识别医疗文本,并将所述待识别医疗文本输入完成训练的第二神经网络,对所述待识别医疗文本进行分类,确定所述待识别医疗文本是否为正确的医疗文本;

在确定所述待识别医疗文本为正确的医疗文本的情况下,直接输出所述待识别医疗文本;

在确定所述待识别医疗文本为错误的医疗文本的情况下,对所述待识别医疗文本进行纠错,并输出纠错后的医疗文本。

本申请实施例还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种错误医疗文本的生成方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种错误医疗文本的生成方法的部分或全部步骤。

应理解,本申请中的错误医疗文本的生成装置可以包括智能手机(如android手机、ios手机,等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备mid(mobileinternetdevices,简称:mid)或可穿戴设备等。上述错误医疗文本的生成装置仅是举例,而非穷举,包含但不限于上述错误医疗文本的生成装置。在实际应用中,上述电错误医疗文本的生成装置,还可以包括:智能车载终端、计算机设备等等。

可以理解的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:read-onlymemory,简称:rom)、随机存取器(英文:randomaccessmemory,简称:ram)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1