文本处理方法、装置、电子设备及计算机可读存储介质与流程

文档序号:24194905发布日期:2021-03-09 16:30阅读:112来源:国知局
文本处理方法、装置、电子设备及计算机可读存储介质与流程

1.本申请涉及人工智能技术领域,具体涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.在人工智能技术领域中,自然语言处理(natural language processing,nlp)一直是重点研究的方向之一。在语言的使用过程中,通常会采用代词或简称等来代替之前出现过的某一词语,或是直接省略之前出现过的某一词语,语言学中将该情况称为“指代现象”。指代消解是nlp领域中的一项基础性研究,通过指代消解可解决文本中指代不明的问题,使得电子设备更好地理解文本中所表达的语义。目前的指代消解方案较为复杂,处理时间长,效率较低。


技术实现要素:

3.本申请实施例公开了一种文本处理方法、装置、电子设备及计算机可读存储介质,能够简化指代消解任务的处理过程,提高处理效率。
4.本申请实施例公开了一种文本处理方法,包括:
5.获取原始文本数据,所述原始文本数据至少包括需要进行指代消解任务的目标文本;
6.通过抽取模型抽取所述原始文本数据包含的关键信息,并对各个所述关键信息进行标注,得到抽取结果,其中,所述关键信息至少包括所述原始文本数据中的候选实体及所述候选实体在所述目标文本的插入位置,所述抽取模型是根据第一训练样本进行训练得到的,所述第一训练样本包括原始文本样本及所述原始文本样本对应的标注样本;
7.通过生成模型对所述原始文本数据及抽取结果进行分析,得到所述目标文本对应的指代消解文本,其中,所述生成模型是根据第二训练样本进行训练得到的,所述第二训练样本包括所述原始文本样本、所述原始文本样本经过训练好的抽取模型得到的抽取样本结果,以及所述原始文本样本对应的指代消解样本结果。
8.本申请实施例公开了一种文本处理装置,包括:
9.获取模块,用于获取原始文本数据,所述原始文本数据包括需要进行指代消解任务的目标文本;
10.抽取模块,用于通过抽取模型抽取所述原始文本数据包含的关键信息,并对各个所述关键信息进行标注,得到抽取结果,其中,所述关键信息至少包括所述原始文本数据中的候选实体及所述候选实体在所述目标文本的插入位置,所述抽取模型是根据第一训练样本进行训练得到的,所述第一训练样本包括原始文本样本及所述原始文本样本对应的标注样本;
11.生成模块,用于通过生成模型对所述原始文本数据及抽取结果进行分析,得到所述目标文本对应的指代消解文本,其中,所述生成模型是根据第二训练样本进行训练得到
的,所述第二训练样本包括所述原始文本样本、所述原始文本样本经过训练好的抽取模型得到的抽取样本结果,以及所述原始文本样本对应的指代消解样本结果。
12.本申请实施例公开了一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现如上所述的方法。
13.本申请实施例公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
14.本申请实施例公开的文本处理方法、装置、电子设备及计算机可读存储介质,通过抽取模型抽取原始文本数据包含的关键信息,并对各个关键信息进行标注,得到抽取结果,该关键信息至少包括原始文本数据中的候选实体及所述候选实体在目标文本的插入位置,抽取模型是根据第一训练样本进行训练得到的,第一训练样本包括原始文本样本及原始文本样本对应的标注样本,再通过生成模型对原始文本数据及抽取结果进行分析,得到目标文本对应的指代消解文本,该生成模型是根据第二训练样本进行训练得到的,第二训练样本包括所述原始文本样本、原始文本样本经过训练好的抽取模型得到的抽取样本结果,以及原始文本样本对应的指代消解样本结果,通过抽取模型可对原始文本数据进行初步的信息抽取及指代,并通过生成模型对抽取结果进行处理,得到最终的指代消解文本,将复杂的指代消解任务分解为两个相对简单的任务,能够简化指代消解任务的处理过程,提高处理效率。而且生成模型是基于抽取模型的抽取结果及原始文本数据得到指代消解文本,使得到的指代消解文本更加准确,能够提高指代消解任务的质量。
附图说明
15.为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
16.图1a为一个实施例中文本处理方法的应用场景图;
17.图1b为一个实施例中电子设备进行指代消解任务的示意图;
18.图2为一个实施例中文本处理方法的流程图;
19.图3a为一个实施例中原始文本样本和标注样本的示意图;
20.图3b为一个实施例中生成指代消解文本的示意图;
21.图4为一个实施例中通过生成模型生成指代消解文本的流程示意图;
22.图5为另一个实施例中文本处理方法的流程图;
23.图6为一个实施例中文本处理装置的框图;
24.图7为一个实施例中电子设备的结构框图。
具体实施方式
25.下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
26.需要说明的是,本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
27.可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一训练样本称为第二训练样本,且类似地,可将第二训练样本称为第一训练样本。第一训练样本和第二训练样本两者都是训练样本,但其不是相同的训练样本。
28.指代消解指的是将代表同一实体(entity)的不同指称(mention)划分到一个等价集合,也即建立指称与实体之间的指代链。指代消解在机器阅读理解、信息抽取及多轮对话等任务中都起到重要作用,指代消解能够帮助电子设备更容易地理解文本中所表达的含义。在相关技术中,主要采用两种以下两种方式进行指代消解任务:
29.方式一:使用规则进行指代消解任务。通过大量手工构建的领域和语言知识形成逻辑规则,并使用逻辑规则对文本进行指代消解。此种方式需要大量人工参与,系统的自动化程度非常低,处理效率低,可移植性也较差。
30.方式二:基于端到端模型进行指代消解任务。端到端模型,如卷积神经网络(convolutional neural networks,cnn)等模型,先查找文本中的代词,再查找到文本中的候选实体,通过一一匹配排序来链接实体与代词的关系,以执行指代消解任务。在进行指代消解任务时,端到端模型中前一环的输出会作为后一环的输入,执行的是串行任务,所以当前面某一环节出现错误预测会影响到后面环节,并造成错误扩大化影响最终结果,导致结果不可控。且端到端模型的复杂度高,且处理时间较长,处理效率低。
31.本申请实施例提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,可适用于机器阅读理解、智能人机多轮对话等场景,能够简化指代消解任务的处理过程,提高处理效率,且使得到的指代消解文本更加准确,提高了指代消解任务的质量。
32.图1a为一个实施例中文本处理方法的应用场景图。如图1a所示,该文本处理方法可适用于多轮对话场景,该应用场景可包括用户及电子设备10,用户可通过电子设备10进行会话。该会话可以是与其它电子设备的用户之间进行的会话,也可以是与电子设备10上的智能语音程序之间的会话。电子设备10可获取一轮或多轮对话的对话文本,并将该对话文本作为原始文本数据。电子设备10可通过抽取模型抽取原始文本数据包含的关键信息,并对各个关键信息进行标注,得到抽取结果,利用抽取模型可对原始文本数据进行初步的信息抽取及指代,再通过生成模型对原始文本数据及抽取结果进行分析,得到目标文本对应的指代消解文本。
33.图1b为一个实施例中电子设备进行指代消解任务的示意图。如图1b所示,在多轮对话场景中,用户a通过电子设备10与用户b进行了3轮对话,第1轮:你会打篮球嘛,第2轮:当然会啊,第3轮:改天一起打。电子设备10可将3轮对话文本作为原始文本数据,并输入到抽取模型中,得到抽取结果,再将该原始文本数据及抽取结果一起输入生成模型,生成模型根据抽取结果及原始文本数据对第3轮对话文本进行改写,得到指代消解文本“改天一起打篮球”。
34.如图2所示,在一个实施例中,提供一种文本处理方法,可应用于上述的电子设备,该电子设备可包括手机、智能穿戴设备、平板电脑、个人计算机(personal computer,pc)、车载终端等终端设备,也可包括服务器、服务器集群等服务设备,本申请实施例对此不作限制。该方法可包括以下步骤:
35.步骤210,获取原始文本数据,该原始文本数据至少包括需要进行指代消解任务的目标文本。
36.在一些实施例中,原始文本数据可包括对话文本,该对话文本可指的是电子设备的用户与其它电子设备的用户之间的对话文本,也可指的是电子设备的用户与自动应答的语言程序之间的对话文本,则目标文本可指的是最近一轮的对话文本。原始文本数据也可包括一篇文章中的某个段落文本,或是社交媒体上发布的某段文本等,原始文本数据的内容可根据不同的应用场景进行确定。
37.在一些实施例中,原始文本数据中除了包括需要进行指代消解任务的目标文本以外,还可包括该目标文本的上下文数据,上下文数据可用于反映目标文本的语境,能够帮助电子设备更好地识别出原始文本数据的语义,通过目标文本的上下文数据可以更加准确地分析出目标文本中指代的实体,从而提高指代消解任务的准确性。
38.作为一种具体实施方式,在多轮对话场景下,原始文本数据可包括在当前对话场景下的所有轮次的对话文本,该当前对话场景可指的是用户在电子设备中本次打开的对话窗口,目标文本的上下文数据可包括在最近一轮对话文本之前的所有轮次的对话文本。可选地,目标文本的上下文数据也可包括在最近一轮对话之前的n轮对话文本,该n可以是预先设定的正整数,例如,将在最近一轮对话之前的3轮对话文本作为上下文数据,或是在最近一轮对话之前的5轮、6轮等对话文本作为上下文数据,但不限于此。可选地,目标文本的上下文数据也可包括在最近一轮对话之前的预设时间段内的对话文本,例如,在最近一轮对话之前的3分钟内、10分钟内等的对话文本,但不限于此。
39.作为另一种具体实施方式,在对文章进行阅读理解的场景下,原始文本数据可包括目标文本所在段落的文本,目标文本的上下文数据可包括该段落中除目标文本以外的其它文本。可选地,目标文本的上下文数据也可包括段落中在目标文本之前的m句文本,该m可以是预先设定的正整数,例如,段落中在目标文本之前的2句文本、3句文本等,但不限于此。
40.需要说明的是,执行指代消解任务的场景并不仅限于上述中列举的几种场景,目标文本及上下文数据可根据实际需求进行设置及选择,本申请实施例对此不作限制。
41.步骤220,通过抽取模型抽取原始文本数据包含的关键信息,并对各个关键信息进行标注,得到抽取结果。
42.关键信息可至少包括原始文本数据中的候选实体及候选实体在目标文本的插入位置,其中,候选实体可指的是目标文本在进行指代消解时,代词所指代的实体,或是目标文本中省略指代的实体。进一步地,关键信息还可包括原始文本数据中的候选代词,候选代词指的是目标文本中的指代其它实体的词语,候选代词与候选实体之间可以具备指代关系,也可不具备指代关系。
43.例如,原始文本数据包括“你会打篮球嘛?当然会啊。改天一起打!”,其中,候选实体可包括“篮球”,候选代词可包括“改天”,但二者不具备指代关系。原始文本数据包括“你认识汤姆么?我不认识他”,候选实体可包括“汤姆”,候选代词可包括“他”,二者具备指代关
系。
44.抽取模型可以是具有进行指代消解任务能力的分类模型,或是具有进行指代消解任务能力的序列标注模型等。抽取模型可对原始文本数据进行分词,识别出原始文本数据中各个词语的词性,并确定各个词语之间的指代关系。
45.抽取模型可识别出原始文本数据中具有指代关系的先行语、照应语及先行语在目标文本中的插入位置,照应语可指的是指代关系中的起始位置对应的词语,先行语则是被照应语所指代的词语,先行语及照应语可组成指代链。示例性地,原始文本数据包括“你认识小强么?我不认识他”,其中,“小强”、“他”具有指代关系,则“他”为照应语,“小强”为先行语。上述中的候选实体可包括原始文本数据中的先行语,候选代词可包括原始文本数据中的照应语。
46.可选地,在原始文本数据中,一个照应语可对应一个或多个先行语,一个先行语也可对应一个或多个照应语,若目标文本为零指代文本(指的是目标文本中不包含代词),则一个先行语也可不对应照应语。通过抽取模型识别原始文本数据中具有指代关系的先行语、照应语及先行语在目标文本中的插入位置,可从原始文本数据中抽取出关键信息,并建立候选实体与候选代词之间的指代关系。
47.电子设备可将获取的原始文本数据输入抽取模型,抽取模型可提取原始文本数据中的文本特征,并根据该文本特征对目标文本进行指代消解,标注出原始文本数据中包含的候选实体、候选代词及候选实体在目标文本中的插入位置,以得到抽取结果。其中,该候选实体在目标文本中的插入位置可指的是对目标文本进行指代消解时候选实体添加到目标文本中的位置。若候选实体与候选代词之间具备指代关系,则候选实体在目标文本中的插入位置可为候选代词所在的位置,若目标文本中不包含候选代词或候选代词与候选实体不具备指代关系,则候选实体在目标文本中的插入位置即为目标文本中省略指代实体的位置。
48.抽取模型可以是根据第一训练样本进行训练得到的,该第一训练样本可包括原始文本样本及原始文本样本对应的标注样本,标注样本可对原始文本样本中的关键信息进行标注。
49.例如,原始文本样本为“我最喜欢周杰伦。我也喜欢。我最喜欢他的七里香”,对应的标注样本可包括候选实体:周杰伦;候选代词:他;插入位置:他。可选地,候选实体的插入位置可直接用插入的候选代词表示,也可用插入所在的字符位置表示,如可以采用对话轮数(或句数)及字符序号表示,例如,上述中的插入位置可为第3轮第7个字符,可直接用(3,7)等格式表示。
50.利用第一训练样本对抽取模型进行训练,可将第一训练样本输入待训练的抽取模型,通过该抽取模型预测得到原始文本样本对应的预测抽取结果,可将该预测抽取结果与原始文本样本对应的标注样本进行比对,并根据比对结果对抽取模型的参数进行调整,直至抽取模型得到的预测抽取结果与标注样本的距离小于预设的第一距离阈值,则抽取模型训练完成。
51.由于第一训练样本的标注样本包含已标注的候选实体、候选代词及候选实体的插入位置,抽取模型可基于第一训练样本学习得到识别候选实体、候选代词及进行指代消解的能力,使得抽取模型对原始文本样本预测得到的抽取结果贴合对应的标注样本,具备指
代消解能力。抽取模型对原始文本数据进行标签得到抽取结果,该抽取结果即可作为原始文本数据初步的指代消解结果,电子设备基于抽取结果可以很容易地获知如何对目标文本进行指代消解。
52.在一些实施例中,不同类型的关键信息可采用不同的标签进行标注,其中,候选实体可采用第一标签进行标注,候选代词可采用第二代标进行标注,插入位置可采用第三标签进行标注,例如,候选实体用标签es标注,候选代词用标签ps标注,插入位置用标签in标注。进一步地,标注样本可包括与原始文本样本对应的标签序列,标签序列中可包含原始文本样本中各个字符对应的标签,以及插入位置的标签,除关键信息以外的其它字符可采用统一的标签进行标注,例如,可采用“*”、
“-”
等标签,但不限于此。
53.图3a为一个实施例中原始文本样本和标注样本的示意图。如图3a所示,原始文本样本为“你喜欢科比么?最爱没有之一,他打球太帅了!”,对应的标注样本可为“***a a*********in b******”,其中,可用标签a表示候选实体,用标签b表示候选代词,in表示候选实体的插入位置。“科比”为候选实体,被标注为“aa”,“他”为候选代词,被标注为“b”,指代消解时需在“他”的位置处插入“科比”,因此,可在“他”之前/之后添加插入标签“in”。
54.抽取模型可生成与原始文本数据对应的标签序列,并将该标签序列作为抽取结果输入生成模型中。
55.步骤230,通过生成模型对原始文本数据及抽取结果进行分析,得到目标文本对应的指代消解文本。
56.电子设备可将通过抽取模型得到的抽取结果与原始文本数据输入生成模型,并通过生成模型对原始文本数据及抽取结果进行进一步分析,以得到最终的指代消解文本。抽取结果为抽取模型初步得到的指代消解结果,生成模型可结合原始文本数据进一步对抽取结果进行分析,得到更准确的指代消解文本。进一步地,生成模型可结合原始文本数据中的上下文数据对抽取结果进行改写,以得到更符合语境、语义的指代消解文本。
57.生成模型是根据第二训练样本进行训练得到的,该第二训练样本可包括原始文本样本、原始文本样本经过训练好的抽取模型得到的抽取样本结果,以及原始文本样本对应的指代消解样本结果。
58.在利用第一训练样本训练得到抽取模型时,可将原始文本样本输入训练好的抽取模型中,得到原始文本样本对应的抽取样本结果,并将抽取样本结果及原始文本样本、指代消解样本结果输入待训练的生成模型中,通过生成模型得到原始文本样本对应的预测指代消解结果。可将该预测指代消解结果与原始文本样本对应的指代消解样本结果进行比对,该指代消解样本结果为原始文本样本的实际指代消解结果,并根据比对结果调整生成模型的参数,使得生成模型得到的预测指代消解结果与指代消解样本结果之间的距离小于预设的第二距离阈值,则生成模型训练完成,从而可使得生成模型预测得到的指代消解文本贴合实际的指代消解结果,提高了生成模型的准确性。
59.图3b为一个实施例中生成指代消解文本的示意图。如图3b所示,电子设备可将原始文本数据输入抽取模型310,通过抽取模型310得到抽取结果,再将原始文本数据及抽取模型310输出的抽取结果输入生成模型320,通过生成模型320得到指代消解文本。
60.在本申请实施例中,通过抽取模型可对原始文本数据进行初步的信息抽取及指代,并通过生成模型对抽取结果进行处理,得到最终的指代消解文本,本申请实施例采用抽
取式+生成式的指代消解方案,将复杂的指代消解任务分解为两个相对简单的任务,能够简化指代消解任务的处理过程,提高处理效率。而且生成模型是基于抽取模型的抽取结果及原始文本数据得到指代消解文本,使得到的指代消解文本更加准确,能够提高指代消解任务的质量。
61.在一些实施例中,步骤获取原始文本数据,可包括:获取最近一轮对话中的对话文本,以及在最近一轮对话之前的n轮对话文本,其中,最近一轮对话中的对话文本为需要进行指代消解任务的目标文本,并根据n轮对话文本及目标文本生成原始文本序列。原始文本序列中的各个字符可按照获取的对话文本的时序依次进行排序,通过生成文本序列可方便后续对字符进行进一步处理。
62.可选地,电子设备在获取最近一轮对话中的对话文本,以及在最近一轮对话之前的n轮对话文本后,可按照对话文本的轮数从前到后依次对对话文本进行排序,并在不同轮对话文本之间添加间隔标签,以生成原始文本序列。其中,该间隔标签可用于间隔不同轮对话文本,例如,不同轮对话文本之间用标签【sep】间隔,同时,还可在获取的第一轮对话前添加文本起始标签,以及在最后一轮对话后添加文本结束标签。
63.例如,电子设备获取的对话文本为:
64.a:你会打篮球嘛?
65.b:当然会啊
66.a:改天一起打
67.生成的原始文本序列可为:【begin】你会打篮球嘛?【sep】当然会啊【sep】改天一起打【end】
68.可选地,在不同轮对话文本之间添加间隔标签也可以是在每一轮对话文本的第一个字符之前添加轮起始标签,以及在最后一个字符后面添加轮结速标签。例如,轮起始标签可为pad,轮结束标签可为end,则以上述的对话文本为例,生成的原始文本序列可为:pad你会打篮球嘛?end pad当然会啊end pad改天一起打end。
69.通过在不同轮对话文本之间添加间隔标签,后续的抽取模型及生成模型可直接获取每一轮的对话,可以帮助抽取模型及生成模型更快、更准确地分析原始文本序列中的字符,提高处理效率。
70.进一步地,电子设备在对对话文本进行排序后,可识别排序后的对话文本中的非中文字符,例如,数字、标点符号等非中文字符,可删除排序后的对话文本中的非中文字符或将非中文字符替换为统一字符,例如,统一替换为“#”号等,以得到原始文本序列。电子设备可将原始文本序列输入抽取模型及生成模型,以得到指代消解文本。通过将对话文本进行归一化处理,剔除对话文本中不重要的字符,可减少后续抽取模型及生成模型的处理量,提高处理速度。
71.在一些实施例中,步骤通过生成模型对原始文本数据及抽取结果进行分析,得到目标文本对应的指代消解文本,包括:通过生成模型获取原始文本数据的文本特征,并根据文本特征及抽取结果对目标文本进行处理,以得到满足语义通顺度要求的指代消解文本。其中,语义通顺度可用于描述文本的语言逻辑性、用词准确性、通顺等特征,语义通顺度越高,说明指代消解文本越符合人类使用的语言逻辑规范。
72.在对目标文本进行指代消解时,可能存在一个候选代词同时指代多个候选实体的
情况,则在进行指代消解任务时,将多个指代的候选实体嵌入目标文本时可能存在逻辑不通的情况,导致指代消解文本的语义通顺度较低。例如,原始文本数据为“你觉得苹果好吃还是梨子好吃?差不多吧,都挺好吃的”,其中,候选实体“苹果”和“梨子”的插入位置均在“都”之前,若是直接嵌入则为“苹果梨子都挺好吃的”,较不通顺。
73.生成模型可对原始文本数据进行分析,得到原始文本数据的文本特征,并结合该文本特征对抽取结果进行改写,而不仅仅是根据抽取结果将候选实体嵌入到标注的插入位置中,使得输出的指代消解文本满足语义通顺度要求。例如,原始文本数据为“你觉得苹果好吃还是梨子好吃?差不多吧,都挺好吃的”,抽取结果标注的候选实体包括“苹果”和“梨子”,插入位置均为在“都”之前,则生成模型可对该抽取结果进行改写,得到指代消解文本“苹果和梨子都挺好吃的”,满足语义通顺度要求。能够使得输出的指代消解文本更准确,符合语言逻辑性。
74.抽取结果对候选实体在目标文本中的插入位置进行了标注,生成模型可将候选实体嵌入到目标文本中对应的插入位置,若一个插入位置仅对应一个候选实体,且该插入位置没有对应的候选代词(指插入位置旁边没有候选代词),则直接将该候选实体嵌入该插入位置。若一个插入位置仅对应一个候选实体,且该插入位置有对应的候选代词,则可将该候选代词替换为候选实体。
75.在一些实施例中,生成模型将候选实体嵌入到目标文本中对应的插入位置后,可计算嵌入了候选实体的目标文本的语义通顺度,语义通顺度可用于反映嵌入了候选实体的目标文本的语言逻辑性及通顺、合理等。可选地,语义通顺度可用分数数值等进行表示,数值越高,说明通顺度越大。由于生成模型是基于原始文本样本的实际的指代消解样本结果进行训练的,而该实际的指代消解样本结果为通顺文本,因此生成模型能够学习出具备通顺连贯的文本的特征,从而可对嵌入了候选实体的目标文本的通顺度进行评测。
76.若该嵌入了候选实体的目标文本的语义通顺度低于语义通顺度阈值,则生成模型可在嵌入的候选实体与相邻的字符之间添加连贯字符,以使嵌入了候选实体的目标文本的语义通顺度不低于语义通顺度阈值,则可将该嵌入了候选实体的目标文本作为指代消解文本输出。该连贯字符可从字典中获取,可包括但不限于连词、介词、助词等,例如在相邻候选实体之间添加和、的、及、是等连贯字符。
77.例如,原始文本数据为“你知道小说xx嘛?没听说过。y的小说”,生成模型将候选实体“xx”插入到“y”之前,得到文本“xxy的小说”,并计算得到该文本的语义通顺度低于语义通顺度阈值,则进一步在“xx”与“y”之间添加连贯字符,得到满足语义通顺度要求的指代消解文本“xx是y的小说”。
78.在一些实施例中,若一个插入位置对应至少两个候选实体,生成模型可根据文本特征及抽取结果在目标文本的同一插入位置中嵌入至少两个候选实体,并计算至少两个候选实体之间的第一语义通顺度。生成模型可判断第一语义通顺度是否低于语义通顺度阈值,若低于该语义通顺度阈值,则可在嵌入的相邻候选实体之间添加连贯字符,以使至少两个候选实体之间的第一语义通顺度不低于语义通顺度阈值。
79.在添加连贯字符后,生成模型可重新计算添加连贯字符的两个候选实体之间的第一语义通顺度,并继续判断第一语义通顺度是否低于语义通顺度阈值,若还是低于语义通顺度阈值,则可重新从字典中获取连贯字符并添加到嵌入的相邻候选实体之间,直至至少
两个候选实体之间的第一语义通顺度不低于语义通顺度阈值。
80.在一些实施例中,若一个插入位置对应至少两个候选实体,生成模型可根据文本特征及抽取结果在目标文本的同一插入位置中嵌入至少两个候选实体,并计算该至少两个候选实体与目标文本中的其它字符之间的第二语义通顺度。其中,该目标文本中的其它字符可以是与嵌入的至少两个候选实体的相邻字符或相邻词语等。若第二语义通顺度低于语义通顺度阈值,则调整至少两个候选实体在同一插入位置的嵌入顺序,以使至少两个候选实体与目标文本中的其它字符之间的第二语义通顺度不低于语义通顺度阈值。
81.例如,原始文本数据为“你能发语音么?发不了。为啥?”,其中,“语音”为第一候选实体,“发不了”为第二候选实体,直接将候选实体嵌入到“为啥”后面,得到的文本为“为啥语音发不了”,语义通顺度低,不满足要求,则可调整“语音”和“发不了”之间的顺序,得到满足语义通顺度要求的指代消解文本“为啥发不了语音”。
82.在本申请实施例中,生成模型可计算嵌入了候选实体的目标文本的语义通顺度,并根据该语义通顺度对目标文本进行改写,得到满足语义通顺度要求的指代消解文本,可提高生成的指代消解文本的准确性,使得指代消解文本更符合人类用语逻辑,提高了机器的智能性。
83.如图4所示,在一个实施例中,步骤通过生成模型获取原始文本数据的文本特征,并根据文本特征及抽取结果对目标文本进行处理,以得到满足语义通顺度要求的指代消解文本,可包括以下步骤:
84.步骤402,通过生成模型获取原始文本数据中各个字符对应的第一特征向量,并根据抽取结果中各个字符对应的标签,获取各个字符对应的第二特征向量。
85.在一些实施例中,生成模型可以是基于lstm(long short-term memory,长短期记忆网络)构建的模型,lstm是一种时间循环神经网络,生成模型也可以是基于自注意力机制构建的模型,如transformer模型等。自注意力机制是用于模拟人类视觉注意力的机制,人类视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看,而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时,人们会进行学习在将来再出现类似场景时把注意力放到该部分上。
86.生成模型可包括编码器及解码器,该编码器具备字符表征功能,电子设备可将原始文本序列及抽取模型输出的标签序列输入编码器中,编码器将原始文本序列中的各个字符转换为对应的第一特征向量,并将标签序列中与各个字符对应的标签转换为第二特征向量。
87.可选地,该第一特征向量及第二特征向量均可为嵌入向量(embedding),嵌入向量指的是指的是将每个字符转换为固定长度的向量表示,从而方便进行数字处理。编码器可将原始文本序列中的各个字符转换为用数字表示的第一特征向量,并将标签序列中的各个标签转换为用数字表示的第二特征向量。该嵌入向量的长度可以是人为设定的长度,例如300、200、256等,但不限于此。
88.步骤404,通过生成模型对各个字符的第一特征向量及第二特征向量进行融合,得到各个字符的目标特征向量,并根据各个字符的目标特征向量对目标文本进行改写,得到满足语义通顺度要求的指代消解文本。
89.在一个实施例中,抽取模型可基于预先定义的标签集合生成与原始文本序列对应
的标签序列。该标签集合可至少包括候选实体起始标签、候选实体结束标签、候选代词起始标签、候选代词结束标签及插入位置标签等,但不限于此。
90.例如,原始文本序列为:
91.pad你会打篮球嘛?end pad当然会啊end pad改天一起打end;
92.生成的标签序列可为:
93.。。。。es ee。。。。。。。。。。ps pe。。。in。;
94.其中,es为候选实体起始标签,ee为候选实体结束标签,ps为候选代词起始标签,pe为候选代词结束标签,in为插入位置标签,原始文本序列中的其它字符用统一标签“。”标注。
95.在一些实施例中,针对原始文本序列中的各个字符,以第一字符为例,该第一字符可为原始文本序列中的任一字符(原始文本序列中的一个标签可作为一个字符),编码器可获取第一字符对应的第一特征向量,以及该第一字符对应的标签对应的第二特征向量,并将第一特征向量和第二特征向量进行拼接,得到第一字符的目标特征向量。编码器根据各个字符的目标特征向量可得到输入的原始文本序列对应的编码信息,并将该编码信息输入解码器中,由解码器依次预测输出的各个字符,得到输出文本序列,该输出文本序列即为指代消解文本。
96.由于标签序列中还包含插入位置标签,若该插入位置标签与候选代词起始标签或候选代词结束标签相邻,则可将该插入位置标签与相邻的候选代词起始标签或候选代词结束标签作为共同的标签,计算得到对应的第二特征向量。
97.若该插入位置标签可与统一标签相邻,则可将该插入位置标签与相邻的统一标签作为共同的标签,计算得到对应的第二特征向量。例如,标签序列可为:。。。。es ee。。。。。。。。。。ps pe。。。in。;其中插入位置标签与统一标签“。”相邻,则可与相邻的前一个统一标签作为共同的标签,计算得到对应的第二特征向量,该第二特征向量可与前一个统一标签对应的字符“打”对应,也可与相邻的后一个统一标签作为共同的标签,计算得到对应的第二特征向量,在此不作限定。
98.作为另一种实施方式,抽取结果中已包含有指代关系,可根据标签序列中的插入位置标签,确定原始文本序列中与该插入位置标签对应的插入位置,并将所需插入的候选实体的字符嵌入到该插入位置中,得到新的文本序列,该新的文本序列即与标签序列属于一一对应的关系,则可根据新的文本序列各个字符对应的第一特征向量及对应标签的第二特征向量得到各个字符的目标特征向量。
99.例如,原始文本序列为:pad你觉得汤姆和罗杰哪个更帅气?end pad我觉得他们都很帅气end;对应的标签序列为:。。。。es ee。es ee。。。。。。。。pe/ps。。in pe ps。。。。。;生成的新的文本序列可为pad你觉得汤姆和罗杰哪个更帅气?end pad我觉得汤姆罗杰他们都很帅气end,其中嵌入的字符“汤姆罗杰”对应的标签均可为插入位置标签“in”。从而可根据新的文本序列中各个字符的第一特征向量及对应标签的第二特征向量得到新的文本序列中各个字符的目标特征向量。
100.作为另一种实施方式,由于标签序列中插入位置是某个字符之前或是某个字符之后,因此插入位置在原始文本序列中可被理解为没有对应的字符,生成模型在获取标签序列之后,可先可根据标签序列中的插入位置标签,在目标文本对应的插入位置嵌入替代字
符,例如“&”、“^”等符号,再进行特征向量转换,以保证得到原始文本序列中各个字符对应的目标特征向量,方便编码器进一步处理得到编码信息,该编码信息即可理解为原始文本序列对应的文本特征,该编码信息可以是隐藏状态特征,也可以是自注意力特征等。
101.编码器将编码信息输入解码器后,解码器可根据该编码信息以及前一次的输出序列得到本次的输出序列,按照时序依次输出指代消解文本的各个字符,直至输出序列停止符,则得到完整的指代消解文本。例如,原始文本序列为:pad你觉得汤姆和罗杰哪个更帅气?end pad我觉得他们都很帅气end,解码器首先根据编码器输入的编码信息得到输出序列:<sos>,该<sos>为序列起始符,然后根据输出序列<sos>和编码信息得到输出序列:<sos>我,再根据输出序列<sos>我和编码信息得到输出序列:<sos>我觉,
……
,以此类推,直至得到输出序列<sos>我觉得汤姆和罗杰都很帅气<eos>,则停止输出,<eos>即为序列停止符,得到的指代消解文本为:我觉得汤姆和罗杰都很帅气。
102.由于生成模型是基于原始文本样本的实际的指代消解样本结果进行训练的,而该实际的指代消解样本结果为通顺文本,因此生成模型能够输出满足语义通顺度要求的指代消解文本。
103.在本申请实施例中,生成模型可结合原始文本数据中的上下文数据,以及抽取模型的抽取结果,对抽取结果进行改写,由于生成的指代消解文本均是来自原始文本数据中的上下文数据及目标文本,且又有抽取结果的强引导,使得到的指代消解文本更加准确,能够提高指代消解任务的质量。
104.如图5所示,在一个实施例中,提供另一种文本处理方法,可应用于上述的电子设备,该方法可包括以下步骤:
105.步骤502,将第一训练样本输入预训练的自然语言处理模型,通过自然语言处理模型对第一训练样本的原始文本样本进行标注,得到预测抽取结果。
106.自然语言模型是根据语料库中的文本数据进行预训练得到的,自然语言模型具备强大的字符表征能力,能准确地将字符转换为相应的以数字表示的特征向量。在本申请实施例中,电子设备可利用第一训练样本对预训练的自然语言处理模型进行二次训练,该第一训练样本可包括原始文本样本及标注样本,利用该预训练的自然语言处理模型抽取原始文本样本的关键信息,对原始文本样本进行标注,得到预测抽取结果。
107.步骤504,将预测抽取结果与第一训练样本中的标注样本进行比较,计算结果损失。
108.可选地,自然语言处理模型得到预测抽取结果后,可利用损失函数计算预测抽取结果相对标注样本的损失,该损失可用于说明预测抽取结果与标注样本之间的误差。进一步地,可将预测抽取结果与原始文本样本对应的标注样本进行比对,计算预测抽取结果与标注样本之间的距离,该距离可通过欧式距离、曼哈顿距离等算法计算,在本申请实施例中不作限定。
109.步骤506,根据结果损失对自然语言处理模型的参数进行调整,以训练得到抽取模型。
110.若预测抽取结果与标注样本之间的距离大于第一距离阈值,则可说明得到的预测抽取结果不符合预期,则可对自然语言处理模型的参数进行调整,并重新用新的第一训练样本继续对调整后的自然语言处理模型进行训练,直至得到的预测抽取结果与标注样本之
间的距离小于第一距离阈值,也即结果损失满足期望,则训练得到抽取模型。
111.由于抽取模型是在预训练好的自然语言处理模型的基础上进行进一步训练得到的,因此只需要较少的标注数据(即第一训练样本)即可完成训练,不需要大量的训练样本,且具备强大的文本表征能力,达到抽取效果的同时降低训练难度,提高了训练效率。
112.步骤508,将原始文本样本输入训练得到的抽取模型,以得到原始文本样本对应的抽取样本结果,并根据原始文本样本、对应的抽取样本结果及对应的指代消解样本结果对生成模型进行训练。
113.电子设备可将原始文本样本输入训练得到的抽取模型,以得到原始文本样本对应的抽取样本结果,并将该原始文本样本、对应的抽取样本结果及对应的指代消解样本结果作为第二训练样本,对生成模型进行训练,使得生成模型输出的预测指代消解文本贴近实际的指代消解样本结果。
114.步骤510,获取原始文本数据,该原始文本数据至少包括需要进行指代消解任务的目标文本。
115.步骤510的描述可参照上述各实施例中的相关描述,在此不再赘述。
116.步骤512,通过抽取模型分别生成原始文本数据包含的各个字符对应的第三特征向量,并根据第三特征向量及标签集合对各个字符进行标签预测,得到与原始文本数据对应的标签序列。
117.由于抽取模型是在预训练好的自然语言处理模型的基础上进行进一步训练得到的,因此具备强大的文本表征能力。电子设备将原始文本数据输入抽取模型后,抽取模型可将原始文本数据包含的各个字符转换为对应的第三特征向量,第三特征向量可采用数字的方式对字符进行表征。抽取模型基于各个字符对应的第三特征向量可识别各个字符是否属于关键信息,以及属于关键信息中的哪个类别(如候选实体、候选代词等),还可识别出原始文本数据中具备指代关系的词语,从而可根据标签集合中预先定义的各个标签对各个字符进行标注,对各个字符进行标签预测,得到与原始文本数据对应的标签序列。
118.可选地,标签集合至少包括候选实体起始标签、候选实体结束标签、候选代词起始标签、候选代词结束标签及插入位置标签等,通过对字符进行标签标注,能够更加准确地描述原始文本数据中的关键信息及指代关系,提高生成模型的处理效率及生成效果。
119.步骤514,通过生成模型获取原始文本数据的文本特征,并根据文本特征及标签序列对目标文本进行处理,以得到满足语义通顺度要求的指代消解文本。
120.步骤514的描述可参照上述各实施例中的相关描述,在此不再赘述。
121.在本申请实施例中,可基于预训练好的自然语言处理模型训练得到抽取模型,使得抽取模型具备强大的文本表征能力,且训练过程简单,不需要大量的训练样本,降低了训练成本,提高了训练效率。
122.如图6所示,在一个实施例中,提供一种文本处理装置600,可应用于上述的电子设备,该文本处理装置600可包括获取模块610、抽取模块620及生成模块630。
123.获取模块610,用于获取原始文本数据,原始文本数据包括需要进行指代消解任务的目标文本。
124.抽取模块620,用于通过抽取模型抽取原始文本数据包含的关键信息,并对各个关键信息进行标注,得到抽取结果,其中,关键信息至少包括原始文本数据中的候选实体及候
选实体在目标文本的插入位置,抽取模型是根据第一训练样本进行训练得到的,第一训练样本包括原始文本样本及原始文本样本对应的标注样本。
125.生成模块630,用于通过生成模型对原始文本数据及抽取结果进行分析,得到目标文本对应的指代消解文本,其中,生成模型是根据第二训练样本进行训练得到的,第二训练样本包括原始文本样本、原始文本样本经过训练好的抽取模型得到的抽取样本结果,以及原始文本样本对应的指代消解样本结果。
126.在本申请实施例中,通过抽取模型可对原始文本数据进行初步的信息抽取及指代,并通过生成模型对抽取结果进行处理,得到最终的指代消解文本,本申请实施例采用抽取式+生成式的指代消解方案,将复杂的指代消解任务分解为两个相对简单的任务,能够简化指代消解任务的处理过程,提高处理效率。而且生成模型是基于抽取模型的抽取结果及原始文本数据得到指代消解文本,使得到的指代消解文本更加准确,能够提高指代消解任务的质量。
127.在一个实施例中,获取模块610,还用于获取最近一轮对话中的对话文本,以及在最近一轮对话之前的n轮对话文本,其中,n为正整数,最近一轮对话中的对话文本为需要进行指代消解任务的目标文本,以及用于根据n轮对话文本及目标文本生成原始文本序列。
128.在一个实施例中,生成模块630,还用于通过生成模型获取原始文本数据的文本特征,并根据文本特征及抽取结果对目标文本进行处理,以得到满足语义通顺度要求的指代消解文本。
129.在一个实施例中,生成模块630,包括通顺度计算单元及调整单元。
130.通顺度计算单元,用于若根据文本特征及抽取结果在目标文本的同一插入位置中嵌入至少两个候选实体,则计算至少两个候选实体与目标文本中的其它字符之间的第二语义通顺度。
131.调整单元,用于若第二语义通顺度低于语义通顺度阈值,则调整至少两个候选实体在同一插入位置的嵌入顺序,以使至少两个候选实体与目标文本中的其它字符之间的第二语义通顺度不低于语义通顺度阈值。
132.在一个实施例中,通顺度计算单元,还用于若根据文本特征及抽取结果在目标文本的同一插入位置中嵌入至少两个候选实体,则计算至少两个候选实体之间的第一语义通顺度。
133.调整单元,还用于若第一语义通顺度低于语义通顺度阈值,则在嵌入的相邻候选实体之间添加连贯字符,以使至少两个候选实体之间的第一语义通顺度不低于语义通顺度阈值。
134.在本申请实施例中,生成模型可计算嵌入了候选实体的目标文本的语义通顺度,并根据该语义通顺度对目标文本进行改写,得到满足语义通顺度要求的指代消解文本,可提高生成的指代消解文本的准确性,使得指代消解文本更符合人类用语逻辑,提高了机器的智能性。
135.在一个实施例中,生成模块630,除了包括通顺度计算单元及调整单元,还包括特征获取单元及改写单元。
136.特征获取单元,用于通过生成模型获取原始文本数据中各个字符对应的第一特征向量,并根据抽取结果中各个字符对应的标签,获取各个字符对应的第二特征向量;
processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器710中,单独通过一块通信芯片进行实现。
150.存储器720可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory,rom)。存储器720可用于存储指令、程序、代码、代码集或指令集。存储器720可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等。存储数据区还可以存储电子设备700在使用中所创建的数据等。
151.可以理解地,电子设备700可包括比上述结构框图中更多或更少的结构元件,例如,包括电源模块、物理按键、wifi(wireless fidelity,无线保真)模块、扬声器、蓝牙模块、传感器等,还可在此不进行限定。
152.本申请实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序被处理器执行时实现如上述实施例描述的方法。
153.本申请实施例公开一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可被处理器执行时实现如上述各实施例描述的方法。
154.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、rom等。
155.如此处所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括rom、可编程rom(programmable rom,prom)、可擦除prom(erasable prom,eprom)、电可擦除prom(electrically erasable prom,eeprom)或闪存。易失性存储器可包括随机存取存储器(random access memory,ram),它用作外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(static ram,sram)、动态ram(dynamic random access memory,dram)、同步dram(synchronous dram,sdram)、双倍数据率sdram(double data rate sdram,ddr sdram)、增强型sdram(enhanced synchronous dram,esdram)、同步链路dram(synchlink dram,sldram)、存储器总线直接ram(rambus dram,rdram)及直接存储器总线动态ram(direct rambus dram,drdram)。
156.应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
157.在本申请的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺
序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
158.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
159.另外,在本申请各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
160.上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。
161.以上对本申请实施例公开的一种文本处理方法、装置、电子设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1