对话文本处理方法、装置、设备及存储介质与流程

文档序号:33364926发布日期:2023-03-07 22:12阅读:23来源:国知局
对话文本处理方法、装置、设备及存储介质与流程

1.本技术涉及机器学习领域,特别涉及一种对话文本处理方法、装置、设备及存储介质。


背景技术:

2.命名实体识别(named entity recognition,ner),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
3.目前,相关技术中,对话文本中的命名实体提取方法,可以通过神经网络模型进行识别。比如,将每一轮对话(通常包含一个问句和一个回答)输入至神经网络模型,由神经网络模型输出该轮对话中的命名实体。
4.相关技术中对命名实体进行识别时,关注的是当前轮次的对话中的信息,导致命名实体提取过程中考虑的信息较为有限,从而导致命名实体的识别准确性较低。


技术实现要素:

5.本技术提供了一种对话文本处理方法、装置、设备及存储介质,可以提高从对话文本中识别出命名实体的准确性。所述技术方案如下:
6.根据本技术的一方面,提供了一种对话文本处理方法,所述方法包括:
7.获取对话文本中的至少两个对话分组各自的分组语义特征;至少两个所述对话分组按照对话发生顺序排列,且每个所述对话分组包含至少一句对话;
8.获取参考标签的标签语义特征;所述参考标签包含目标领域内的参考命名实体的状态属性;
9.基于所述标签语义特征,对至少两个所述对话分组各自的分组语义特征进行注意力处理,获得至少两个所述对话分组各自的第一分组特征;
10.将至少两个所述对话分组各自的第一分组特征,分别与在后的对话分组的第一分组特征进行特征融合,获得至少两个所述对话分组各自的第二分组特征;
11.基于至少两个所述对话分组各自的分组语义特征、所述标签语义特征、以及至少两个所述对话分组各自的第二分组特征,获取至少两个所述对话分组各自的命名实体预测结果;所述命名实体预测结果用于指示所述对话分组中的命名实体。
12.根据本技术的另一方面,提供了一种对话文本处理方法,所述方法包括:
13.通过命名实体提取模型中的编码器对样本对话文本中的至少两个样本对话分组进行编码,获得至少两个所述样本对话分组各自的样本分组语义特征;至少两个所述样本对话分组按照对话发生顺序排列,且每个所述样本对话分组包含至少一句对话;
14.通过所述编码器对参考标签进行编码,获得所述参考标签的标签语义特征;所述参考标签包含目标领域内的参考命名实体的状态属性;
15.通过所述命名实体提取模型中的标签文本注意力网络,基于所述标签语义特征,对至少两个所述样本对话分组各自的样本分组语义特征进行注意力处理,获得至少两个所
述样本对话分组各自的第一样本分组特征;
16.通过所述命名实体提取模型中的第一特征融合网络,将至少两个所述样本对话分组各自的第一样本分组特征,分别与在后的样本对话分组的第一样本分组特征进行特征融合,获得至少两个所述样本对话分组各自的第二样本分组特征;
17.通过所述命名实体提取模型中的预测网络,基于至少两个所述样本对话分组各自的样本分组语义特征、所述标签语义特征、以及至少两个所述样本对话分组各自的第二样本分组特征,获取至少两个所述样本对话分组各自的命名实体预测结果;所述命名实体预测结果用于指示所述样本对话分组中预测出的命名实体;
18.基于至少两个所述样本对话分组各自的命名实体预测结果,以及至少两个所述样本对话分组各自的命名实体标注结果,对所述命名实体提取模型进行参数更新;所述命名实体标注结果用于指示所述样本对话分组中被标注出的命名实体。
19.根据本技术的另一方面,提供了一种对话文本处理装置,所述装置包括:
20.第一获取模块,用于获取对话文本中的至少两个对话分组各自的分组语义特征;至少两个所述对话分组按照对话发生顺序排列,且每个所述对话分组包含至少一句对话;
21.第二获取模块,用于获取参考标签的标签语义特征;所述参考标签包含目标领域内的参考命名实体的状态属性;
22.第一处理模块,用于基于所述标签语义特征,对至少两个所述对话分组各自的分组语义特征进行注意力处理,获得至少两个所述对话分组各自的第一分组特征;
23.第二处理模块,用于将至少两个所述对话分组各自的第一分组特征,分别与在后的对话分组的第一分组特征进行特征融合,获得至少两个所述对话分组各自的第二分组特征;
24.预测模块,用于基于至少两个所述对话分组各自的分组语义特征、所述标签语义特征、以及至少两个所述对话分组各自的第二分组特征,获取至少两个所述对话分组各自的命名实体预测结果;所述命名实体预测结果用于指示所述对话分组中的命名实体。
25.根据本技术的另一方面,提供了一种对话文本处理装置,所述装置包括:
26.第一编码模块,用于通过命名实体提取模型中的编码器对样本对话文本中的至少两个样本对话分组进行编码,获得至少两个样本对话分组各自的样本分组语义特征;
27.第二编码模块,用于通过编码器对参考标签进行编码,获得所述参考标签的标签语义特征;
28.标签处理模块,用于通过所述命名实体提取模型中的标签文本注意力网络,基于所述标签语义特征,对至少两个所述样本对话分组各自的样本分组语义特征进行注意力处理,获得至少两个所述样本对话分组各自的第一样本分组特征;
29.词特征融合模块,用于通过所述命名实体提取模型中的第一特征融合网络,将至少两个所述样本对话分组各自的第一样本分组特征,分别与在后的样本对话分组的第一样本分组特征进行特征融合,获得至少两个所述样本对话分组各自的第二样本分组特征;
30.预测模块,用于通过所述命名实体提取模型中的预测网络,基于至少两个所述样本对话分组各自的样本分组语义特征、所述标签语义特征、以及至少两个所述样本对话分组各自的第二样本分组特征,获取至少两个所述样本对话分组各自的命名实体预测结果;所述命名实体预测结果用于指示所述样本对话分组中预测出的命名实体;
31.更新模块,用于基于至少两个所述样本对话分组各自的命名实体预测结果,以及至少两个所述样本对话分组各自的命名实体标注结果,对所述命名实体提取模型进行参数更新;所述命名实体标注结果用于指示所述样本对话分组中被标注出的命名实体。
32.根据本技术的另一方面,提供了一种计算机设备,该计算机设备包括:处理器和存储器,存储器中存储有至少一条计算机指令,至少一条计算机指令由处理器加载并执行以实现如上方面所述的对话文本处理方法。
33.根据本技术的另一方面,提供了一种计算机存储介质,计算机可读存储介质中存储有至少一条计算机指令,至少一条计算机指令由处理器加载并执行以实现如上方面所述的对话文本处理方法。
34.根据本技术的另一方面,提供了一种计算机程序产品,上述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中;所述计算机指令由计算机设备的处理器从所述计算机可读存储介质读取并执行,使得所述计算机设备执行如上方面所述的对话文本处理方法。
35.本技术提供的技术方案带来的有益效果至少包括:
36.对于一个包含多个对话分组的对话文本,可以结合当前对话分组的分组语义特征、参考标签的标签语义特征、以及当前对话分组的第二分组特征来识别当前对话分组中命名实体,由于第二分组特征包含了当前对话分组的信息以及后续其它对话分组的信息,因此,本方案在命名实体识别过程中能够充分考虑后续的对话内容对当前分组中潜在的命名实体的状态的影响,进而提高命名实体识别的准确性。
附图说明
37.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
38.图1是本技术一个示例性实施例提供的对话文本处理方法的系统架构的示意图;
39.图2是本技术一个示例性实施例提供的对话文本处理方法的流程图;
40.图3是本技术一个示例性实施例提供的命名实体提取模型生成以及对话文本处理的框架图;
41.图4是本技术一个示例性实施例提供的对话文本处理方法的流程图;
42.图5是本技术一个示例性实施例提供的对话文本处理方法的流程图;
43.图6是本技术一个示例性实施例提供的对话文本处理框架的结构示意图;
44.图7是本技术一个示例性实施例提供的对话文本处理方法的流程图;
45.图8是本技术一个示例性实施例提供的对话文本处理装置的结构框图;
46.图9是本技术一个示例性实施例提供的对话文本处理装置的结构框图;
47.图10是本技术一个示例性实施例提供的计算机设备的结构框图。
48.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
具体实施方式
49.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
50.图1示出了本技术一示例性实施例提供的对话文本处理方法的系统架构的示意图,如图1所示,该系统包括:命名实体识别设备110以及对话文本采集设备120。
51.其中,上述识别设备110可以实现为终端或服务器,当该识别设备110实现为服务器时,该识别设备110可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。当该识别设备110实现为终端时,该识别设备110可以是智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
52.上述对话文本采集设备120为具有对话文本采集功能的设备,比如该对话文本采集设备可以是用于录音设备、语音识别设备等带有语音转文本的功能的设备等。
53.可选的,上述系统中包含一个或者多个识别设备110,以及一个或多个对话文本采集设备120。本技术实施例对于识别机设备110和对话文本采集设备120的个数不做限制。
54.文本采集设备120以及识别设备110通过通信网络相连。可选的,通信网络是有线网络或无线网络。
55.可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(local area network,lan)、城域网(metropolitan area network,man)、广域网(wide area network,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(hyper text mark-up language,html)、可扩展标记语言(extensible markup language,xml)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(secure socket layer,ssl)、传输层安全(transport layer security,tls)、虚拟专用网络(virtual private network,vpn)、网际协议安全(internet protocol security,ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。本技术在此不做限制。
56.在本技术实施例中,文本采集设备120可以采集得到对话文本,并将对话文本提供给识别设备110进行识别,以识别出对话文本中的命名实体。
57.其中,命名实体识别(named entity recognition,ner)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。
58.命名实体识别通常可以借助于人工智能来实现。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
59.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层
面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
60.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
61.本技术后续实施例所示的方案,可以基于ai中的语音处理技术和机器学习技术实现从对话中识别出命名实体。
62.图2示出了本技术一示例性实施例提供的对话文本处理方法的流程图,该方法可以由计算设备执行,该计算机设备可以实现为如图1所示的识别设备110,如图2所示,对话文本处理方法可以包括以下步骤:
63.步骤202:获取对话文本中的至少两个对话分组各自的分组语义特征;获取参考标签的标签语义特征。
64.对话文本可以由一次对话(可以包括一轮或者连续多轮对话)过程中的文本句子组成。其中,一轮对话可以包括对话双方各自的一句对话(比如一句提问和一句回答),一次对话过程通常包含一轮或者多轮对话。
65.在本技术实施例中,对话文本中包含按照对话发生顺序排列的至少两个对话分组(也可以称为一个对话窗口),每个对话分组包含至少一句对话。以对话分组为对象,在获取到一个对话分组的情况下,计算机设备可以将对话分组中的至少一句对话拼接起来,得到一个拼接文本,然后对拼接文本进行语义提取,得到该对话分组的分组语义特征。
66.本技术实施例中的参考标签包含目标领域内的参考命名实体的状态属性。其中,该参考标签可以由两部分组成,一部分是参考命名实体的文本,另一部分是参考命名实体的状态属性的文本。计算机设备可以参考标签进行语义提取,得到该参考标签的标签语义特征。
67.其中,参考命名实体的状态属性,可以指示参考命名实体是否为真。
68.比如,以医疗领域为例,参考命名实体可以是一个医疗领域内的命名实体,例如胸痛,该参考命名实体可以对应三种参考标签,分别为“胸痛-阳性”、“胸痛-阴性”以及“胸痛-未知”,其中,“胸痛-阳性”表示存在胸痛的症状,“胸痛-阴性”表示不存在胸痛的症状,“胸痛-未知”则表示无法确定是否存在胸痛的症状。
69.步骤204:基于标签语义特征,对至少两个对话分组各自的分组语义特征进行注意力处理,获得至少两个对话分组各自的第一分组特征。
70.在获得参考标签对应的标签语义特征的情况下,计算机设备可以根据参考标签对应的标签语义特征,通过注意力机制,对上述各个对话分组各自的分组语义特征进行注意力处理,从而对各对话分组对应的分组语义特征进行更新,最终得到各对话分组各自的第一分组特征。
71.步骤206:将至少两个对话分组各自的第一分组特征,分别与在后的对话分组的第
一分组特征进行特征融合,获得至少两个对话分组各自的第二分组特征。
72.在获得至少两个对话分组对应的第一分组特征的情况下,计算机设备可以基于动态注意机制,将每个对话分组对应的第一分组特征与该对话分组之后的其它对话分组的第一分组特征进行融合,得到两个对话分组各自的第二分组特征。
73.在一种可能的实现方式中,动态注意机制可以是指以当前对话分组对应的第一分组特征为查询,将当前对话分组对应的第一分组特征与当前对话分组之后的其他对话分组对应的第一分组特征进行注意力融合,随着当前对话分组的下移,当前对话分组之后的其他对话分组会相应减少,在当前对话分组为最后一个对话分组时,则没有其他对话分组与之进行融合。
74.在上述步骤204中,考虑到了参考命名实体的状态对上述对话分组中的命名实体识别准确性的影响。然而,对于一个命名实体来说,其在当前对话文本中的状态并不是一直不变的,比如,前一个对话分组中,一个潜在的命名实体的状态属性为第一状态,而在后续的对话中,该潜在的命名实体的状态可能被更新为第二状态。例如,以医疗领域的对话文本为例,在一个对话分组中,医生根据之前与病人的对话,初步断定病人存在冠心病,则“冠心病”这个命令实体的状态属性应该为“阳性”,而在之后的对话分组中,医生根据与病人的进一步对话,推翻了之前“冠心病”的初步判断,则“冠心病”这个命令实体的状态属性应该被更新为“阴性”。也就是说,在本技术实施例中,对于一个对话分组来说,只通过该对话分组的信息,是无法确定该对话分组的语义是否与当前的参考命名实体的属性相匹配的,还需要结合在后的对话来辅助确定。对此,本技术实施例所示的方案,对于每个对话分组,还将该对话分组与对话文本中在后的对话分组(也就是位于该对话分组之后的其它对话分组)的第一分组特征进行融合,得到该对话分组的第二分组特征,此时,该第二分组特征中除了包含当前对话分组的信息之外,还包含了后续其它对话分组的信息。
75.步骤208:基于至少两个对话分组各自的分组语义特征、标签语义特征、至少两个对话分组各自的第二分组特征,获取至少两个对话分组各自的命名实体预测结果,命名实体预测结果用于指示对话分组中的命名实体。
76.在本技术实施例中,在对话分组的分组语义特征和标签语义特征的基础上,计算机设备还结合对话分组的第二分组特征来预测当前对话分组中的命名实体。
77.其中,在目标领域中通常存在多个参考标签,对于每个参考标签,计算机设备都可以按照本技术实施例提供的方案,对上述对话文本进行命名实体的识别,从而实现从对话文本中识别出目标领域相关的各个命名实体。
78.综上所述,本技术实施例提供的对话文本的处理方法,对于一个包含多个对话分组的对话文本,可以结合当前对话分组的分组语义特征、参考标签的标签语义特征、以及当前对话分组的第二分组特征来识别当前对话分组中命名实体,由于第二分组特征包含了当前对话分组的信息以及后续其它对话分组的信息,因此,本方案在命名实体识别过程中能够充分考虑后续的对话内容对当前分组中潜在的命名实体的状态的影响,进而提高命名实体识别的准确性。
79.在本技术实施例所述的方案可以应用于任意需要从对话文本中识别出命名实体的应用场景。比如,上述应用场景可以包括但不限于以下场景:
80.1)医学临床询问的生成电子病历场景:
81.电子病历在现代医疗信息系统中被广泛应用,用于存储有关个人健康历史的信息。虽然电子病历在现代医疗保健系统中扮演着关键角色,但医生为病人写电子病历是一项耗费精力和时间的任务。医生花在行政工作上的时间几乎是花在会诊患者上的时间的两倍,而最耗时的部分是手动创建电子病历。为了减轻医生的负担,可以通过本技术实施例提供的对话文本处理方法,将医疗对话文本划分为多个对话分组,并对每个对话分组,结合该对话分组的语义特征、参考标签的语义特征、以及融合了当前对话分组的信息以及在后对话分组的信息的第二分组特征,来识别当前对话分组中的命名实体,获得命名实体预测结果,该命名实体预测结果可以用于将医患对话文本自动转换为电子病历,以减轻了医生的沉重负担。
82.2)辅助生成客服记录的场景:
83.在生活中,客服人员向用户提供客户服务之后,可能需要填写客服记录,这就需要客服人员回顾用户与客服人员的对话,并从中人工提取出重要的信息,该过程通常需要浪费大量的时间和人力,并且人工提取的准确性也较低。对于上述场景中,可以通过本技术提供的对话文本处理方法,将客服对话文本划分为多个对话分组,并识别当前对话分组中的命名实体,获得命名实体预测结果,该命名实体预测结果可以用于将客服对话文本自动转换为客服记录,以节约客服人员填写客服记录的时间及人力,并提高客服记录的准确性。
84.其中,本技术上述实施例所示的方案可以通过调用预先训练好的命名实体提取模型来实现。也就是说,本技术涉及的方案包括命名实体提取模型生成阶段以及对话文本处理阶段。图3是根据一示例性实施例示出的一种命名实体提取模型生成以及命名实体提取的框架图,如图3所示,在命名实体提取模型生成阶段,命名实体提取模型生成设备310通过预先设置好的训练样本数据集(包括不同的样本对话文本、各个样本对话文本对应的命名实体标注信息、以及参考标签)对命名实体提取模型进行训练,得到训练好的命名实体提取模型。在对话文本处理阶段,对话文本处理设备320基于该命名实体提取模型,对输入的对话文本进行处理,获得该对话文本中各个对话分组的命名实体预测结果。
85.其中,上述命名实体提取模型生成设备310和对话文本处理设备320可以是计算机设备,比如,该计算机设备可以是个人电脑、服务器等固定式计算机设备,或者,该计算机设备也可以是平板电脑、电子书阅读器等移动式计算机设备。
86.可选的,上述命名实体提取模型生成设备310和对话文本处理设备320可以是同一个设备,或者,命名实体提取模型生成设备310和对话文本处理设备320也可以是不同的设备。并且,当命名实体提取模型生成设备310和对话文本处理设备320是不同设备时,命名实体提取模型生成设备310和对话文本处理设备320可以是同一类型的设备,比如命名实体提取模型生成设备310和对话文本处理设备320可以都是服务器;或者命名实体提取模型生成设备310和对话文本处理设备320也可以是不同类型的设备,比如对话文本处理设备320可以是个人电脑或者终端,而命名实体提取模型生成设备310可以是服务器等。本技术实施例对命名实体提取模型生成设备310和对话文本处理设备320的具体类型不做限定。
87.图4示出了本技术一示例性实施例提供的对话文本处理方法的流程图,该方法可以由计算设备执行,该计算机设备可以实现为如图3所示的命名实体提取模型生成设备310,如图4所示,该对话文本处理方法可以包括以下步骤:
88.步骤402:通过命名实体提取模型中的编码器对样本对话文本中的至少两个样本
对话分组进行编码,获得至少两个样本对话分组各自的样本分组语义特征;至少两个样本对话分组按照对话发生顺序排列,且每个样本对话分组包含至少一句对话。
89.步骤404:通过编码器对参考标签进行编码,获得参考标签的标签语义特征;参考标签包含目标领域内的参考命名实体的状态属性。
90.步骤406:通过命名实体提取模型中的标签文本注意力网络,基于标签语义特征,对至少两个样本对话分组各自的样本分组语义特征进行注意力处理,获得至少两个样本对话分组各自的第一样本分组特征。
91.步骤408:通过命名实体提取模型中的第一特征融合网络,将至少两个样本对话分组各自的第一样本分组特征,分别与在后的样本对话分组的第一样本分组特征进行特征融合,获得至少两个样本对话分组各自的第二样本分组特征。
92.步骤410:通过命名实体提取模型中的预测网络,基于至少两个样本对话分组各自的样本分组语义特征、标签语义特征、以及至少两个样本对话分组各自的第二样本分组特征,获取至少两个样本对话分组各自的命名实体预测结果;命名实体预测结果用于指示样本对话分组中预测出的命名实体。
93.在本技术实施例中,命名实体提取模型中可以设置有编码器、标签文本注意力网络、第一特征融合网络以及预测网络;计算机设备通过调用命名实体提取模型中的各个部分,按照上述图2所示实施例中的方案,对输入的参考标签以及文本(对话文本或者样本对话文本)进行处理,以预测出输入的文本中的命名实体。
94.步骤412:基于至少两个样本对话分组各自的命名实体预测结果,以及至少两个样本对话分组各自的命名实体标注结果,对命名实体提取模型进行参数更新;命名实体标注结果用于指示样本对话分组中被标注出的命名实体。
95.其中,在上述命名实体提取模型的训练过程中,在预测出样本对话分组中的命名实体,得到命名实体预测结果之后,计算机设备还结合命名实体标注结果以及命名实体预测结果对命名实体提取模型进行参数更新,以对命名实体提取模型进行训练。
96.综上所述,本技术实施例提供的对话文本的处理方法,通过样本对话文本、样本对话文本对应的命名实体标注信息、以及参考标签训练命名实体提取模型,后续在应用过程中,对于一个包含多个对话分组的对话文本,该命名实体提取模型可以结合当前对话分组的分组语义特征、参考标签的标签语义特征、以及当前对话分组的第二分组特征来识别当前对话分组中命名实体,由于第二分组特征包含了当前对话分组的信息以及后续其它对话分组的信息,因此,本方案在命名实体识别过程中能够充分考虑后续的对话内容对当前分组中潜在的命名实体的状态的影响,进而提高命名实体识别的准确性。
97.图5示出了本技术一示例性实施例提供的对话文本处理方法的流程图,该方法可以由计算设备执行,该计算机设备可以实现为图1所示的计算机设备110,如图5所示,该对话文本处理方法包括以下步骤:
98.步骤502:获取对话文本中的至少两个对话分组各自的分组语义特征;获取参考标签的标签语义特征。
99.在本技术实施例中,计算机设备可以通过命名实体提取模型中的编码器对上述对话文本中的各个对话分组以及参考标签进行编码,得到对话分组各自的分组语义特征,以及参考标签的标签语义特征。
100.在一种可能的实现方式中,上述编码器可以是基于长短期记忆网络(long short-term memory,lstm)的编码器,比如,上述编码器可以是双向lstm(bi-directional lstm,bilstm)网络。
101.示例性地,以对话文本为临床询问的问诊文本为例,问诊文本包含按照对话发生顺序排列的至少两个对话分组,每个对话分组包含至少一句医生表达的句子及至少一句病人表达的句子。整个问诊文本可以划分为多个对话分组,可表示为:x={x1,x2,

,xm},x为整个问诊文本,x2为整个问诊文本x中第二个对话分组,其中m为整个问诊文本x中对话分组的个数。在通过bilstm编码器对上述问诊文本进行编码时,对于每个对话分组,计算机设备将该对话分组中的对话(即两个句子)拼接后输入至双向长短期记忆编码器,得到该对话分组的分组语义特征,对于每个对话分组依次作上述处理,即可以得到每一个对话分组对应的分组语义特征。
102.对话分组对应的分组语义特征hi的编码公式可表示为:
103.hi=bilstm(xi)={v
l
,v2,

,vn}
104.式中,xi为整个问诊文本x中第i个对话分组中的拼接对话,hi为第i个对话分组的分组语义特征,v1为该对话分组的分组语义特征中第一个单词的语义特征,其中n为对话分组中单词的个数。也就是说,在本技术实施例中,上述分组语义特征包含对话分组中各个词各自的语义特征。
105.其中,计算机设备可以通过正序和逆序的方式,将对话分组中的对话输入至双向长短期记忆编码器,双向长短期记忆编码器通过对该对话分组中的对话进行特征提取,对于上述对话分组中的每个单词,输出正序和逆序分别对应的输出向量(即提取后的特征向量),将一个单词对应的两个输出向量进行拼接之后,即可以得到该单词的语义特征。
106.在一种可能的实现方式中,上述分组语义特征中的一个单词的语义特征,可以是bilstm编码器对该单词的处理时输出的,与该单词相对应的隐藏状态。
107.与对话分组的编码过程类似,参考标签对应的标签语义特征h
l
的编码公式可表示为:
108.h
l
=bilstm(y
l
)
109.式中,y
l
为参考标签集中的第l个参考标签,h
l
为第l个参考标签对应的标签语义特征。
110.步骤504:将至少两个对话分组中的各个词各自的语义特征,与各个词各自在对话文本中的共现词的语义特征进行融合,获得至少两个对话分组各自的共现词融合分组特征。
111.在获取对话文本中每一个单词对应的语义特征后,基于对话文本中的任意一一个目标词的语义特征,计算机设备可以通过计算该目标词在整个对话文本中的共现词对该目标词的注意力分数,来融合该目标词的语义特征及整个对话文本中的共现词的语义特征,从而更新该目标词的语义特征,获得该目标词的细粒度融合语义特征,进而获得对话分组的共现词融合分组特征;采用同样的方式,计算机设备对整个对话文本中具有共现词的目标词进行语义特征更新;在某一个目标词在整个对话文本中没有共现词的情况下,该目标词的语义特征可以不作更新处理。
112.在一种可能的实现方式中,计算机设备可以基于目标词的词嵌入向量,以及目标
词在对话文本中的共现词的语义特征,获取目标词在对话文本中的共现词对目标词的注意力分数;目标词是对话文本中的任意一个词。计算机设备基于目标词在对话文本中的共现词对目标词的注意力分数,将目标词的语义特征与目标词在对话文本中的共现词的语义特征进行融合,获得目标词的细粒度融合语义特征,进而获得对话分组的共现词融合分组特征。目标词的细粒度融合语义特征,是目标词所属的对话分组的共现词融合分组特征中,与目标词对应的特征。
113.其中,共现词是指除目标词本身以外,在整个对话文本中与该目标词一致或与该目标词表达意思一致的词。共现词可以与目标词位于同一对话分组,也可以与该目标词位于不同的对话分组中,本实施例对此不作限定。
114.在一种可能的实现方式中,计算机设备可以调用命名实体提取模型中的第二特征融合网络,来执行上述将至少两个对话分组中的各个词各自的语义特征,与各个词各自在对话文本中的共现词的语义特征进行融合的步骤。
115.比如,第二特征融合网络中设置有一至多个记忆集合,每个记忆集合中包含了上述对话文本中的一组共现词的实例。记忆集合中的共现词可表示为:
116.m=(k1,v1)、(k2,v2)

(kj,vj)
117.式中,m为记忆集合,kj为第j个共现词zj的词嵌入向量,vj为第j个共现词的语义特征,比如bilstm对该第j个共现词输出的隐藏状态。
118.在一种可能的实现方式中,词嵌入向量在模型的训练过程中可以被微调。比如,在本技术实施例中,命名实体提取模型中包含一个词嵌入网络,用于将对话文本中的各个词转化为词嵌入向量,以便命名实体提取模型中的编码器进行处理,在该命名实体提取模型的训练过程中,该词嵌入网络的参数也会随之更新。
119.对于对话文本中某一个目标词zi,对该目标词zi采用词嵌入向量ki作为该目标词zi在记忆集合m中查询共现词的注意力键,则目标词zi与记忆集合中共现词中第j个共现词的语义特征vj的注意力分数可表示为:
[0120][0121]
式中,dw为ki的词嵌入向量的维度,ki为目标词zi的词嵌入向量,vj为第j个共现词的语义特征。
[0122]
目标词zi对应的共现词的语义特征di可表示为:
[0123][0124][0125]
式中,特征di为目标词zi对应的共现词的语义特征,vi为目标词的语义特征。
[0126]
在通过计算得到目标词在对话文本中的共现词对目标词的注意力分数的情况下,将目标词的语义特征与目标词在对话文本中的共现词的语义特征进行融合,获得该目标词的细粒度融合语义特征。该目标词的细粒度融合语义特征的计算公式可表示为:
[0127]gi
=λ
·
vi+(1-λ)
·di
[0128]
式中,λ是一个超参数,用于平衡目标词的语义特征vi和共现词的语义特征di。
[0129]
对话分组的共现词融合分组特征ri可表示为:
[0130]ri
={g1,g2,

,gn}
[0131]
步骤506:基于标签语义特征,对至少两个对话分组各自的共现词融合分组特征进行注意力处理,获得至少两个对话分组各自的第一分组特征。
[0132]
例如,在一种可能的实现方式中,计算机设备可以基于标签语义特征,以及至少两个对话分组各自的分组语义特征,获取至少两个对话分组各自对参考标签的注意力分数,并基于至少两个对话分组各自对参考标签的注意力分数对至少两个对话分组各自的分组语义特征进行处理,获得至少两个对话分组各自的第一分组特征。
[0133]
在一种可能的实现方式中,计算机设备可以将至少两个对话分组各自的共现词融合分组特征,与至少两个对话分组各自对参考标签的注意力分数的乘积,获取为至少两个对话分组各自的第一分组特征。
[0134]
在本技术实施例中,对话分组对参考标签的注意力分数,用以表示对话分组与参考标签之间的相关性,注意力分数高则表示为相关性高。计算机设备可以获取某一个对话分组的共现词融合分组特征,以参考标签的标签语义特征h
l
作为标签嵌入查询,计算参考标签的标签语义特征与某一对话分组的共现词融合分组特征的注意力分数,得到权值αi,权值αi的计算公式可表示为:
[0135]
αi=h
l
·ri
[0136]
式中,h
l
表示参考标签的标签语义特征,ri表示某一个对话分组(第i个对话分组)的共现词融合分组特征,αi表示权值。
[0137]
在获得权值αi的情况下,对权值αi进行归一化,得到可用的权重pi:
[0138]
pi=softmax(αi)
[0139]
在获得权重pi的情况下,将权重pi与各个对话分组的共现词融合分组特征加权求和,基于目标标签与该对话分组的共现词融合分组特征之间的注意力分数,得到该对话分组对应的第一分组特征ci,第一分组特征ci的计算公式可表示为:
[0140]ci
=∑p
iri
[0141]
式中,pi为权重,ri表示第i个对话分组的共现词融合分组特征。
[0142]
步骤508:将至少两个对话分组各自的第一分组特征,分别与在后的对话分组的第一分组特征进行特征融合,获得至少两个对话分组各自的第二分组特征。
[0143]
在本技术实施例中,计算机设备可以通过注意力机制,将当前对话分组的第一分组特征,与当前对话分组之后的其它对话分组的第一分组特征进行融合,获得当前对话分组的第二分组特征。
[0144]
在一种可能的实现方式中,对于第一对话分组,基于第一对话分组的第一分组特征,以及在后分组集合中的各个对话分组各自的第一分组特征,获取在后分组集合中的各个对话分组分别对第一对话分组的注意力分数;第一对话分组是至少两个对话分组中除了最后一个对话分组之外的任意一个对话分组;在后分组集合中包含至少两个对话分组中,位于第一对话分组之后的对话分组。
[0145]
比如,假设对话文本中包含5个对话分组,其中,第一对话分组可以是第1至第4个
对话分组中的任意一个,在后分组集合则由第一对话分组之后的各个对话分组构成。例如,假设第一对话分组是上述5个对话分组中的第3个对话分组,则在后分组集合中包含上述5个对话分组中的第4个和第5个对话分组。
[0146]
然后,计算机设备基于在后分组集合中的各个对话分组分别对第一对话分组的注意力分数,将第一对话分组的第一分组特征,与在后分组集合中的各个对话分组各自的第一分组特征进行融合,获得第一对话分组的第二分组特征。
[0147]
还是以第一对话分组是上述5个对话分组中的第3个对话分组,则在后分组集合中包含上述5个对话分组中的第4个和第5个对话分组为例,计算机设备可以计算第4个对话分组对第3个对话分组的注意力分数(分数1),以及,第5个对话分组对第3个对话分组的注意力分数(分数2),根据计算出的注意力分数,将第3个对话分组的第一分组特征,与在后的对话分组的第一分组特征进行融合,得到第3个对话分组的第二分组特征。
[0148]
在一种可能的实现方式中,计算机设备可以将第一对话分组的第一分组特征与该对话分组之后的目标对话分组的第一分组特征进行拼接,得到第一对话分组的第二分组特征。
[0149]
其中,目标对话分组是在第一对话分组后的分组集合中,对第一对话分组的注意力分数最高的对话分组。
[0150]
比如,还是以第一对话分组是上述5个对话分组中的第3个对话分组为例,计算机设备获取到上述分数1和分数2之后,将其中分值最高的分数所对应的对话分组的第一分组特征,与第3个对话分组的第一分组特征进行拼接,即可以得到第3个对话分组的第二分组特征。
[0151]
示例性地,给定第一对话分组的第一分组特征为ci,第一对话分组之后的其他对话分组可表示为{c
i+1
,...,c
l
}。取当前第一对话分组的第一分组特征ci为查询,计算当前第一对话分组的第一分组特征ci与在后分组集合中的其他对话分组对应的第一分组表示向量之间的注意力分数,得到权值a
t
,计算公式可表示为:
[0152]at
=ci*c
t
[0153]
式中,c
t
表示第t个对话分组,t∈{i+1,l}。
[0154]
在获得权值a
t
的情况下,对权值a
t
进行归一化,得到可用的权重p
t

[0155]
p
t
=softmax(a
t
)
[0156]
在获得在后分组集合中的其他对话分组对第一对话分组的注意力分数的情况下,选用在后分组集合中注意力分数最高的对话分组的第一分组特征,将其拼接到当前第一对话分组的第一分组特征中,得到第一对话分组的第二分组特征cg,示例性地,后分组集合中注意力分数最高的对话分组的第一分组特征cg,则第二分组特征cg的计算公式可表示为:
[0157]cg
=[ci;cg]
[0158]
示例性地,在当前第一对话分组为最后一个对话分组的情况下,下方对话分组的第一分组特征cg可以设置为零,或者,也可以设置为ci。
[0159]
步骤510:基于至少两个对话分组各自的分组语义特征、标签语义特征、以及至少两个对话分组各自的第二分组特征,获取至少两个对话分组各自的命名实体预测结果;命名实体预测结果用于指示对话分组中的命名实体。
[0160]
在本技术实施例中,计算机设备可以调用命名实体提取模型中的预测网络,对至
少两个对话分组各自的分组语义特征、标签语义特征、以及至少两个对话分组各自的第二分组特征进行处理,输出各个对话分组各自的命名实体预测结果。
[0161]
在一种可能的实现方式中,计算机设备可以基于至少两个对话分组各自的第二分组特征,获得至少两个对话分组各自的领域信息预测结果;然后,基于至少两个对话分组各自的领域信息预测结果、至少两个对话分组各自的分组语义特征、以及标签语义特征获得至少两个对话分组各自的命名实体预测结果。其中,领域信息预测结果用于指示对话分组中是否包含目标领域相关的信息。
[0162]
在一种可能的实现方式中,上述领域信息预测结果可以用于指示对话分组中是否包含与参考标签相对应的信息。
[0163]
在一种可能的实现方式中,响应于第二对话分组的领域信息预测结果指示第二对话分组中包含目标领域相关的信息,计算机设备可以基于第二对话分组中分组语义特征以及标签语义特征进行命名实体预测,获得与第二对话分组对应的命名实体预测结果;第二对话分组是至少两个对话分组中的任意一个。
[0164]
比如,在本技术实施例中,预测网络可以包括领域信息预测网络以及命名实体预测网络这两个网络,在获取当前对话分组的第二分组特征的情况下,计算机设备可以将其输入领域信息预测网络,经过领域信息预测网络处理输出领域信息预测结果。
[0165]
命名实体是指对话文本中具有特定意义的实体词。领域信息预测结果的计算公式可表示为:
[0166]cf
=forward(cg)
[0167]yl
=sigmoid(cf)
[0168]
式中,cg为对话分组的第二分组特征,y
l
为领域信息预测结果。
[0169]
在一种可能的实现方式中,响应于第二对话分组的领域信息预测结果指示第二对话分组中包含目标领域相关的信息,基于第二对话分组中分组语义特征以及标签语义特征进行命名实体预测,获得与第二对话分组对应的命名实体预测结果。
[0170]
在一种可能的实现方式中,该领域信息预测网络输出的领域信息预测结果可以是一个概率值,该概率值表示的是当前对话分组中包含目标领域相关的信息的概率。在领域信息预测网络输出的概率值大于阈值的情况下,可以认为当前对话分组中包含目标领域相关的信息(比如,认为当前对话分组中包含与参考标签相对应的信息),此时可以通过当前对话分组的分组语义特征和标签语义特征,在当前对话分组内进行命名实体预测;在领域信息预测网络输出的概率值不大于阈值的情况下,响应于第三对话分组的领域信息预测结果指示第三对话分组中不包含目标领域相关的信息,跳过基于第三对话分组中分组语义特征以及标签语义特征进行命名实体预测的步骤,即认为当前对话分组中不包含目标领域相关的信息,跳过通过当前对话分组的分组语义特征和标签语义特征,在当前对话分组内进行命名实体预测的过程。
[0171]
其中,上述阈值可以由开发人员预先设置,或者,也可以由用户自行设置,本实施例对此不作限定。
[0172]
在一种可能的实现方式中,命名实体预测结果用于指示对话分组中的命名实体在对话分组中的起止位置。
[0173]
在一种可能的实现方式中,计算机设备通过当前对话分组的分组语义特征和标签
语义特征,在当前对话分组内进行命名实体预测时,可以通过命名实体预测网络拼接当前分组的分组语义特征及参考标签的标签语义特征后进行预测处理,以确定命名实体在当前对话分组中的起始和结束位置。
[0174]
命名实体的起始位置y
start
可由如下公式:
[0175]ystart
=sigmoid(forward([hi;h
l
]))
[0176]
命名实体的起始位置y
end
可由如下公式:
[0177]yend
=sigmoid(forward([hi;h
l
]))
[0178]
基于领域信息预测网络输出的领域信息预测结果,通过命名实体预测网络确定命名实体在当前对话分组中的起始和结束位置,或者跳过确定命名实体在当前对话分组中的起始和结束位置后,计算机设备可以换取下一个参考标签,对上述对话文本中的各个对话分组再次执行上述命名实体预测过程。
[0179]
综上所述,本技术实施例提供的对话文本的处理方法,对于一个包含多个对话分组的对话文本,可以结合当前对话分组的分组语义特征、参考标签的标签语义特征、以及当前对话分组的第二分组特征来识别当前对话分组中命名实体,由于第二分组特征包含了当前对话分组的信息以及后续其它对话分组的信息,因此,本方案在命名实体识别过程中能够充分考虑后续的对话内容对当前分组中潜在的命名实体的状态的影响,进而提高命名实体识别的准确性。
[0180]
图6示出了本技术一个示例性实施例提供的对话文本处理框架的结构示意图。该对话文本处理模型包括双向长短期记忆编码器601、第二特征融合网络602、标签-文本注意力网络603、第一特征融合网络604、领域信息预测网络605和命名实体预测网络606。
[0181]
在本技术实施例涉及参考标签集合及对话文本。参考标签集合中包括至少一个参考标签;对话文本中包括至少两个对话分组。计算机设备将参考标签集合中的一个参考标签及对话文本中的至少两个对话分组输入至双向长短期记忆编码器601进行处理,该处理步骤可参考上述步骤502,经过双向长短期记忆编码器601处理,参考标签对应输出标签语义特征,至少两个对话分组对应输出各自的分组语义特征。
[0182]
计算机设别将至少两个对话分组各自的分组语义特征输入至第二特征融合网络602进行处理,该处理步骤可参考上述步骤504,第二特征融合网络602输出至少两个对话分组各自的共现词融合分组特征。
[0183]
计算机设备将双向长短期记忆编码器601输出的标签语义特征及第二特征融合网络602输出的至少两个对话分组各自的共现词融合分组特征输入至标签-文本注意力网络603进行处理,该处理步骤可参考上述步骤506,通过计算,标签-文本注意力网络603输出至少两个对话分组各自的第一分组特征。
[0184]
计算机设备将至少两个对话分组各自的第一分组特征输入至第一特征融合网络604进行处理,该处理步骤可参考上述步骤508,基于动态注意机制,第一特征融合网络604输出在后的对话分组的第一分组特征,通过融合至少两个对话分组各自的第一分组特征及在后的对话分组的第一分组特征,得到至少两个对话分组各自的第二分组特征。
[0185]
计算机设备将至少两个对话分组各自的第二分组特征输入至领域信息预测网络605进行处理,该处理步骤可参考上述步骤510,在领域信息预测网络605对应当前对话分组输出的领域信息预测结果大于阀值的情况下,即在领域信息预测结果指示该对话分组中包
含与参考标签相对应的信息的情况下,命名实体预测网络606基于该对话分组的分组语义特征以及标签语义特征输出对话分组中的命名实体在对话分组中的起止位置。并挑选下一个标签,继续上述步骤。
[0186]
在领域信息预测结果指示当前对话分组中不包含与参考标签相对应的信息的情况下,命名实体预测网络606跳过基于该对话分组的分组语义特征以及标签语义特征输出对话分组中的命名实体在对话分组中的起止位置的步骤。
[0187]
结合参考标签对上述至少两个对话分组分别进行命名实体识别之后,挑选下一个标签,重复执行上述步骤。
[0188]
图7示出了本技术一示例性实施例提供的对话文本处理方法的流程图,该方法可以由计算设备执行,该计算机设备可以实现为如图1所示的服务器或终端,如图7所示,对话文本处理方法可以包括以下步骤:
[0189]
步骤702:通过命名实体提取模型中的编码器对样本对话文本中的至少两个样本对话分组进行编码,获得至少两个样本对话分组各自的样本分组语义特征;通过编码器对参考标签进行编码,获得参考标签的标签语义特征。
[0190]
样本对话文本中包含按照对话发生顺序排列的至少两个样本对话分组,每个样本对话分组包含至少一句对话。在获取样本对话分组的情况下,通过命名实体提取模型中的编码器对样本对话文本中的至少两个样本对话分组进行编码,获得至少两个样本对话分组各自的样本分组语义特征;通过编码器对参考标签进行编码,获得参考标签的标签语义特征。参考标签包含目标领域内的参考命名实体的状态属性。
[0191]
步骤704:通过命名实体提取模型中的第二特征融合网络,将至少两个样本对话分组中的各个样本词各自的语义特征,与各个样本词在样本对话文本中的共现词的语义特征进行融合,获得至少两个样本对话分组各自的样本共现词融合分组特征。
[0192]
在获取样本对话文本中每一个样本单词对应的语义特征后,通过命名实体提取模型中的第二特征融合网络,基于样本对话文本中的某一个样本目标词的语义特征,通过计算该样本目标词在整个样本对话文本中的共现词对该样本目标词的注意力分数,融合该样本目标词的语义特征及整个样本对话文本中的共现词的语义特征,从而更新该样本目标词的语义特征,获得该样本目标词的细粒度融合语义特征,进而获得样本对话分组的共现词融合分组特征;采用同样的方式,对整个样本对话文本中具有共现词的样本目标词进行语义特征更新;在某一个样本目标词在整个样本对话文本中没有共现词的情况下,该样本目标词的语义特征不作更新处理。
[0193]
步骤706:通过标签文本注意力网络,基于标签语义特征,对至少两个样本对话分组各自的样本共现词融合分组特征进行注意力处理,获得至少两个样本对话分组各自的第一样本分组特征。
[0194]
参考标签包含目标领域内的参考命名实体的状态属性。在获得参考标签对应的标签语义特征的情况下,通过标签文本注意力网络,基于参考标签对应的标签语义特征,通过注意力机制,确定各样本对话分组对标签语义特征的注意力分数,通过样本对话分组的共现词融合分组特征与该样本对话分组对样本参考标签的注意力分数的乘积,从而对各对话分组对应的共现词融合分组特征进行更新,最终得到各样本对话分组各自的第一分组特征。
[0195]
步骤708:通过命名实体提取模型中的第一特征融合网络,将至少两个样本对话分组各自的第一样本分组特征,分别与在后的样本对话分组的第一样本分组特征进行特征融合,获得至少两个样本对话分组各自的第二样本分组特征。
[0196]
在获得至少两个样本对话分组对应的第一分组特征的情况下,通过命名实体提取模型中的第一特征融合网络,基于动态注意机制,根据第一样本对话分组的第一样本分组特征,以及在后分组集合中的各个样本对话分组各自的第一样本分组特征,获取在后分组集合中的各个样本对话分组分别对第一样本对话分组的注意力分数。将第一样本对话分组的第一样本分组特征与该样本对话分组之后的样本目标对话分组的第一样本分组特征进行拼接,得到第一样本对话分组的第二样本分组特征。
[0197]
步骤710:通过领域信息预测网络,基于至少两个样本对话分组各自的第二样本分组特征进行领域信息预测,获得至少两个样本对话分组各自的领域信息预测结果;基于至少两个样本对话分组各自的领域信息预测结果、至少两个样本对话分组各自的样本分组语义特征、以及标签语义特征进行命名实体预测,获得至少两个样本对话分组各自的命名实体预测结果。
[0198]
在获取样本对话分组各自的第二样本分组特征的情况下,通过领域信息预测网络,基于至少两个样本对话分组各自的第二样本分组特征进行领域信息预测,获得至少两个样本对话分组各自的领域信息预测结果,领域信息预测结果用以表示该样本对话分组中是否包含目标领域相关的信息。目标领域相关的信息用于指示对话分组中命名实体及命名实体对应的状态属性。
[0199]
在获取样本对话分组的领域信息预测结果的情况下、结合至少两个样本对话分组各自的分组语义特征、以及标签语义特征,通过领域信息预测网络,获得至少两个样本对话分组各自的命名实体预测结果,命名实体预测结果用于指示样本对话分组中的命名实体在样本对话分组中的起止位置。
[0200]
步骤712:基于至少两个样本对话分组各自的命名实体预测结果,以及至少两个样本对话分组各自的命名实体标注结果,对命名实体提取模型进行参数更新;命名实体标注结果用于指示样本对话分组中被标注出的命名实体。
[0201]
在本技术实施例中,计算机设备可以通过样本对话分组中被标注出的命名实体,与样本对话分组中被预测出的命名实体之间的差异,计算损失函数值,比如计算交叉熵损失函数,然后,基于计算出的损失函数值对命名实体提取模型中的各个网络的参数进行更新。
[0202]
在本技术实施例中,预测网络包括领域信息预测网络以及命名实体预测网络,且领域信息预测网络以及命名实体预测网络共享网络参数;
[0203]
上述通过命名实体提取模型中的预测网络,基于至少两个样本对话分组各自的样本分组语义特征、标签语义特征、以及至少两个样本对话分组各自的第二样本分组特征,获取至少两个样本对话分组各自的命名实体预测结果的步骤包括:
[0204]
通过领域信息预测网络,基于至少两个样本对话分组各自的第二样本分组特征进行领域信息预测,获得至少两个样本对话分组各自的领域信息预测结果;领域信息预测结果用于指示样本对话分组中是否包含目标领域相关的信息;
[0205]
通过命名实体预测网络,基于至少两个样本对话分组各自的领域信息预测结果、
至少两个样本对话分组各自的样本分组语义特征、以及标签语义特征进行命名实体预测,获得至少两个样本对话分组各自的命名实体预测结果。
[0206]
在本技术实施例中,领域信息预测网络以及命名实体预测网络分别包含特征提取部分和输出部分;其中,领域信息预测网络中的特征提取部分以及命名实体预测网络中的特征提取部分的网络结构相同,且参数共享。或者,上述,领域信息预测网络以及命名实体预测网络共享用一个特征提取部分。
[0207]
在本技术实施例中,上述通过命名实体提取模型中的标签文本注意力网络,基于标签语义特征,对至少两个样本对话分组各自的样本分组语义特征进行注意力处理,获得至少两个样本对话分组各自的第一样本分组特征之前,还包括:
[0208]
通过命名实体提取模型中的第二特征融合网络,将至少两个样本对话分组中的各个样本词各自的语义特征,与各个样本词各自在样本对话文本中的共现词的语义特征进行融合,获得至少两个样本对话分组各自的样本共现词融合分组特征;
[0209]
上述通过命名实体提取模型中的标签文本注意力网络,基于标签语义特征,对至少两个样本对话分组各自的样本分组语义特征进行注意力处理,获得至少两个样本对话分组各自的第一样本分组特征的步骤包括:
[0210]
通过标签文本注意力网络,基于标签语义特征,对至少两个样本对话分组各自的样本共现词融合分组特征进行注意力处理,获得至少两个样本对话分组各自的第一样本分组特征。
[0211]
综上所述,本技术实施例提供的对话文本的处理方法,通过样本对话文本、样本对话文本对应的命名实体标注信息、以及参考标签训练命名实体提取模型,后续在应用过程中,对于一个包含多个对话分组的对话文本,该命名实体提取模型可以结合当前对话分组的分组语义特征、参考标签的标签语义特征、以及当前对话分组的第二分组特征来识别当前对话分组中命名实体,由于第二分组特征包含了当前对话分组的信息以及后续其它对话分组的信息,因此,本方案在命名实体识别过程中能够充分考虑后续的对话内容对当前分组中潜在的命名实体的状态的影响,进而提高命名实体识别的准确性。
[0212]
图8示出了本技术一示例性实施例示出的对话文本处理装置的方框图,该对话文本处理装置可以用于实现如图2或图5所示的方法中的全部或者部分步骤。如图8所示,该对话文本处理装置包括:
[0213]
第一获取模块801,用于获取对话文本中的至少两个对话分组各自的分组语义特征;至少两个所述对话分组按照对话发生顺序排列,且每个所述对话分组包含至少一句对话;
[0214]
第二获取模块802,用于获取参考标签的标签语义特征;所述参考标签包含目标领域内的参考命名实体的状态属性;
[0215]
第一处理模块803,用于基于所述标签语义特征,对至少两个所述对话分组各自的分组语义特征进行注意力处理,获得至少两个所述对话分组各自的第一分组特征;
[0216]
第二处理模块804,用于将至少两个所述对话分组各自的第一分组特征,分别与在后的对话分组的第一分组特征进行特征融合,获得至少两个所述对话分组各自的第二分组特征;
[0217]
预测模块805,用于基于至少两个所述对话分组各自的分组语义特征、所述标签语
义特征、以及至少两个所述对话分组各自的第二分组特征,获取至少两个所述对话分组各自的命名实体预测结果;所述命名实体预测结果用于指示所述对话分组中的命名实体。
[0218]
在一种可能的实现方式中,第二处理模块804,包括:
[0219]
第一注意力分数单元,用于对于第一对话分组,基于第一对话分组的第一分组特征,以及在后分组集合中的各个对话分组各自的第一分组特征,获取在后分组集合中的各个对话分组分别对第一对话分组的注意力分数;所述第一对话分组是至少两个所述对话分组中除了最后一个对话分组之外的任意一个对话分组;所述在后分组集合中包含至少两个所述对话分组中,位于所述第一对话分组之后的所述对话分组;
[0220]
第一融合单元,用于基于所述在后分组集合中的各个所述对话分组分别对所述第一对话分组的注意力分数,将所述第一对话分组的第一分组特征,与所述在后分组集合中的各个所述对话分组各自的第一分组特征进行融合,获得所述第一对话分组的所述第二分组特征。
[0221]
在一种可能的实现方式中,所述第一拼接单元,用于将第一对话分组的第一分组特征与目标对话分组的第一分组特征进行拼接,获得第一对话分组的所述第二分组特征;
[0222]
其中,所述目标对话分组是所述在后分组集合中,对所述第一对话分组的注意力分数最高的所述对话分组。
[0223]
在一种可能的实现方式中,预测模块805,包括:
[0224]
领域信息预测单元,用于基于至少两个对话分组各自的第二分组特征进行领域信息预测,获得至少两个对话分组各自的领域信息预测结果;所述领域信息预测结果用于指示所述对话分组中是否包含所述目标领域相关的信息;
[0225]
命名实体预测单元,用于基于至少两个对话分组各自的领域信息预测结果、至少两个对话分组各自的分组语义特征、以及标签语义特征进行命名实体预测,获得至少两个对话分组各自的命名实体预测结果。
[0226]
在一种可能的实现方式中,命名实体预测单元,用于响应于第二对话分组的领域信息预测结果指示第二对话分组中包含目标领域相关的信息,基于第二对话分组中分组语义特征以及标签语义特征进行命名实体预测,获得与第二对话分组对应的命名实体预测结果;所述第二对话分组是至少两个所述对话分组中的任意一个。
[0227]
在一种可能的实现方式中,命名实体预测单元,用于响应于第三对话分组的领域信息预测结果指示第三对话分组中不包含目标领域相关的信息,跳过基于第三对话分组中分组语义特征以及标签语义特征进行命名实体预测的步骤。
[0228]
在一种可能的实现方式中,所述命名实体预测结果用于指示所述对话分组中的命名实体在所述对话分组中的起止位置。
[0229]
在一种可能的实现方式中,第一处理模块803,包括:
[0230]
第二注意力分数单元,用于基于标签语义特征,以及至少两个对话分组各自的分组语义特征,获取至少两个对话分组各自对参考标签的注意力分数;
[0231]
第二融合单元,用于基于至少两个对话分组各自对所述参考标签的注意力分数对至少两个对话分组各自的分组语义特征进行处理,获得至少两个对话分组各自的第一分组特征。
[0232]
在一种可能的实现方式中,所述融合单元,用于将至少两个对话分组各自的分组
语义特征,与至少两个对话分组各自对参考标签的注意力分数的乘积,获取为至少两个对话分组各自的第一分组特征。
[0233]
在一种可能的实现方式中,所述分组语义特征包含所述对话分组中的各个词各自的语义特征;所述第一处理模块803之前所述装置还包括:
[0234]
融合模块,用于将至少两个对话分组中的各个词各自的语义特征,与各个词各自在对话文本中的共现词的语义特征进行融合,获得至少两个对话分组各自的共现词融合分组特征;
[0235]
第一处理模块803,用于基于标签语义特征,对至少两个对话分组各自的共现词融合分组特征进行注意力处理,获得至少两个对话分组各自的第一分组特征。
[0236]
在一种可能的实现方式中,所述融合模块,用于,
[0237]
基于目标词的词嵌入向量,以及所述目标词在所述对话文本中的共现词的语义特征,获取所述目标词在所述对话文本中的共现词对所述目标词的注意力分数;所述目标词是所述对话文本中的任意一个词;
[0238]
基于所述目标词在所述对话文本中的共现词对所述目标词的注意力分数,将所述目标词的语义特征与所述目标词在所述对话文本中的共现词的语义特征进行融合,获得所述目标词的细粒度融合语义特征;
[0239]
其中,所述目标词的细粒度融合语义特征,是所述目标词所属的所述对话分组的共现词融合分组特征中,与所述目标词对应的特征。
[0240]
综上所述,本技术实施例提供的对话文本的处理方法,对于一个包含多个对话分组的对话文本,可以结合当前对话分组的分组语义特征、参考标签的标签语义特征、以及当前对话分组的第二分组特征来识别当前对话分组中命名实体,由于第二分组特征包含了当前对话分组的信息以及后续其它对话分组的信息,因此,本方案在命名实体识别过程中能够充分考虑后续的对话内容对当前分组中潜在的命名实体的状态的影响,进而提高命名实体识别的准确性。
[0241]
图9示出了本技术一示例性实施例示出的对话文本处理装置的方框图,该对话文本处理装置可以用于实现如图4或图7所示的方法中的全部或者部分步骤。如图9所示,该对话文本处理装置包括:
[0242]
第一编码模块901,用于通过命名实体提取模型中的编码器对样本对话文本中的至少两个样本对话分组进行编码,获得至少两个样本对话分组各自的样本分组语义特征。
[0243]
第二编码模块902,用于通过编码器对参考标签进行编码,获得所述参考标签的标签语义特征。
[0244]
标签处理模块903,用于通过所述命名实体提取模型中的标签文本注意力网络,基于所述标签语义特征,对至少两个所述样本对话分组各自的样本分组语义特征进行注意力处理,获得至少两个所述样本对话分组各自的第一样本分组特征;
[0245]
词特征融合模块904,用于通过所述命名实体提取模型中的第一特征融合网络,将至少两个所述样本对话分组各自的第一样本分组特征,分别与在后的样本对话分组的第一样本分组特征进行特征融合,获得至少两个所述样本对话分组各自的第二样本分组特征;
[0246]
预测模块905,用于通过所述命名实体提取模型中的预测网络,基于至少两个所述样本对话分组各自的样本分组语义特征、所述标签语义特征、以及至少两个所述样本对话
分组各自的第二样本分组特征,获取至少两个所述样本对话分组各自的命名实体预测结果;所述命名实体预测结果用于指示所述样本对话分组中预测出的命名实体;
[0247]
更新模块906,用于基于至少两个所述样本对话分组各自的命名实体预测结果,以及至少两个所述样本对话分组各自的命名实体标注结果,对所述命名实体提取模型进行参数更新;所述命名实体标注结果用于指示所述样本对话分组中被标注出的命名实体。
[0248]
在一种可能的实现方式中,所述预测网络包括领域信息预测网络以及命名实体预测网络,且所述领域信息预测网络以及命名实体预测网络共享网络参数;
[0249]
所述预测模块905,包括:
[0250]
第一预测单元,用于通过所述领域信息预测网络,基于至少两个所述样本对话分组各自的第二样本分组特征进行领域信息预测,获得至少两个所述样本对话分组各自的领域信息预测结果;所述领域信息预测结果用于指示所述样本对话分组中是否包含所述目标领域相关的信息;
[0251]
第二预测单元,用于通过所述命名实体预测网络,基于至少两个所述样本对话分组各自的领域信息预测结果、至少两个所述样本对话分组各自的样本分组语义特征、以及所述标签语义特征进行命名实体预测,获得至少两个所述样本对话分组各自的所述命名实体预测结果。
[0252]
在一种可能的实现方式中,所述标签处理模块903之前,所述装置还包括:
[0253]
词特征融合模块,用于通过所述命名实体提取模型中的第二特征融合网络,将至少两个所述样本对话分组中的各个样本词各自的语义特征,与所述各个样本词各自在所述样本对话文本中的共现词的语义特征进行融合,获得至少两个所述样本对话分组各自的样本共现词融合分组特征;
[0254]
在一种可能的实现方式中,所述标签处理模块903用于通过所述标签文本注意力网络,基于所述标签语义特征,对至少两个所述样本对话分组各自的样本共现词融合分组特征进行注意力处理,获得至少两个所述样本对话分组各自的第一样本分组特征。
[0255]
综上所述,本技术实施例提供的对话文本的处理方法,通过样本对话文本、样本对话文本对应的命名实体标注信息、以及参考标签训练命名实体提取模型,后续在应用过程中,对于一个包含多个对话分组的对话文本,该命名实体提取模型可以结合当前对话分组的分组语义特征、参考标签的标签语义特征、以及当前对话分组的第二分组特征来识别当前对话分组中命名实体,由于第二分组特征包含了当前对话分组的信息以及后续其它对话分组的信息,因此,本方案在命名实体识别过程中能够充分考虑后续的对话内容对当前分组中潜在的命名实体的状态的影响,进而提高命名实体识别的准确性。
[0256]
图10示出了本技术一示例性实施例示出的计算机设备1000的结构框图。该计算机设备可以实现为本技术上述方案中的服务器。所述计算机设备1000包括中央处理单元(central processing unit,cpu)1001、包括随机存取存储器(random access memory,ram)1002和只读存储器(read-only memory,rom)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括用于存储操作系统1009、应用程序1010和其他程序模块1011的大容量存储设备1006。
[0257]
所述大容量存储设备1006通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1006及其相关联的计算机可读介质为
计算机设备1000提供非易失性存储。也就是说,所述大容量存储设备1006可以包括诸如硬盘或者只读光盘(compact disc read-only memory,cd-rom)驱动器之类的计算机可读介质(未示出)。
[0258]
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读寄存器(erasable programmable read only memory,eprom)、电子抹除式可复写只读存储器(electrically-erasable programmable read-only memory,eeprom)闪存或其他固态存储其技术,cd-rom、数字多功能光盘(digital versatile disc,dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1006可以统称为存储器。
[0259]
根据本公开的各种实施例,所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1007连接到网络1008,或者说,也可以使用网络接口单元1007来连接到其他类型的网络或远程计算机系统(未示出)。
[0260]
所述存储器还包括至少一条计算机指令,所述至少一条计算机指令存储于存储器中,中央处理器1001通过执行该至少一条指令、至少一段程序、代码集或指令集来实现上述各个实施例所示的对话文本处理方法中的全部或部分步骤。
[0261]
在一示例性实施例中,还提供了一种计算机可读存储介质,用于存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行以实现上述对话文本处理方法中的全部或部分步骤。例如,该计算机可读存储介质可以是只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、只读光盘(compact disc read-only memory,cd-rom)、磁带、软盘和光数据存储设备等。
[0262]
在一示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述所示对话文本处理方法的全部或部分步骤。
[0263]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求指出。
[0264]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1