数据处理方法和数据处理装置与流程

文档序号:28865123发布日期:2022-02-12 03:26阅读:129来源:国知局
数据处理方法和数据处理装置与流程

1.本技术涉及人工智能领域,尤其涉及一种数据处理方法和数据处理装置。


背景技术:

2.为了提高文本审阅效率,目前已经实现了对文本的自动审阅,该文本的自动审阅方法主要关注文档中的错别字,语法等文档格式方面的审阅,而对于文档内容如论点、论据、论证等方面的审阅,还是采用人工审阅的方式。
3.但是,上述人工审阅文本的方式存在审阅时间长的问题,且由于不同人的认知思维和知识水平的不同,还可能造成文本审阅的标准不统一的问题,导致修订反馈对未来文本没有指导意义,给文本管理工作造成负担。


技术实现要素:

4.本技术提供一种数据处理方法和数据处理装置,提高了文本审阅效率的同时,避免了人工审阅导致的审阅标准不统一的问题。
5.第一方面,提供了一种数据处理方法,包括:获取待审阅文档的文本内容;将该待审阅文档的文本内容输入至文本审阅模型中,得到上述文档的修订内容,该修订内容包括格式修订、论点修订、论据修订和论证修订;其中,上述文本审阅模型是基于多个文档在审阅流程中的多个历史版本的文本内容、上述多个历史版本的文本内容的修订内容和上述修订内容的引用资料进行训练得到的。
6.在本技术中,通过将该待审阅文档的文本内容输入至文本审阅模型中,获得包括文档的格式、论点、论据和论证等方面的修订内容。相较于现有方法中对文档的文本内容中的错别字,语法等格式方面的审阅采用自动的方式,对文档的文本内容中的论点、论据、论证等方面的审阅采用人工的方式,本技术提高了文本审阅效率。此外由于本技术的文本审阅都是通过上述文本审阅模型实现的,所以避免了人工审阅可能造成的审阅标准不统一的问题。
7.结合第一方面,在第一方面的某种实现方式中,在上述获取待审阅文档的文本内容之前,上述方法还包括:获取待处理数据,上述待处理数据包括上述多个文档在审阅流程中的多个历史版本的文本内容、上述多个历史版本的文本内容的修订内容和上述修订内容的引用资料;将上述待处理数据输入至预训练模型,得到自注意力层的输出矩阵,上述预训练模型采用双向编码器的架构;将上述自注意力层的输出矩阵作为上述多个历史版本的原文内容特征向量矩阵,训练上述预训练模型,获得上述文本审阅模型。
8.结合第一方面,在第一方面的某种实现方式中,将上述待处理数据输入至预训练模型,得到自注意力层的输出矩阵,包括:基于上述待处理数据,进行文本嵌入和特征提取,得到上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵;基于上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵,得到加权文本内容与引用资料拼接的特征向量矩阵;基于上述修订
内容的特征向量矩阵、上述加权文本内容与引用资料拼接的特征向量矩阵和上述预训练模型的自注意力层,得到第一目标特征向量矩阵、第二目标特征向量矩阵和第三目标特征向量矩阵;将上述第一目标特征向量矩阵、第二目标特征向量矩阵和第三目标特征向量矩阵重新输入至上述自注意力层,得到上述注意力层的输出矩阵。
9.在本技术中,通过将获取多个文档在审阅流程中的多个历史版本的文本内容、多个历史版本的文本内容的修订内容和该修订内容的引用资料输入至预训练模型中,并利用模型中改进的注意力单元进行特征提取,训练上述预训练模型,使得该预训练模型可以关注除文档中的错别字,语法等文档格式方面之外的文档内容的论点、论据、论证等方面的修订,获得文本审阅模型。提高文本审阅的效率,避免了人工审阅导致的标准不统一的问题。
10.结合第一方面,在第一方面的某种实现方式中,上述基于上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵,得到加权文本内容与引用资料拼接的特征向量矩阵,包括:将上述文本内容的特征向量矩阵和标准化后的上述修订内容的特征向量矩阵进行点乘,获得加权后的文本内容的特征向量矩阵;将上述加权后的文本内容的特征向量矩阵和上述引用资料的特征向量矩阵进行拼接,得到加权文本内容与引用资料拼接的特征向量矩阵。
11.结合第一方面,在第一方面的某种实现方式中,上述将上述待处理数据输入至预训练模型,进行文本嵌入和特征提取,得到上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵之前,上述方法还包括:构建文本库,上述文本库包括至少一个相关文本,上述至少一个相关文本与上述历史文本的相似度大于或者等于第一预设阈值;基于上述至少一个相关文本和上述待处理数据,获得预训练词向量;基于上述预训练词向量,获得上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵。
12.第二方面,提供了一种数据处理装置,包括:获取模块和处理模块,其中上述获取模块用于:获取待审阅文档的文本内容;上述处理模块用于:将上述待审阅文档的文本内容输入至文本审阅模型中,得到上述文档的修订内容,上述修订内容包括格式修订、论点修订、论据修订和论证修订;其中,上述文本审阅模型是基于多个文档在审阅流程中的多个历史版本的文本内容、上述多个历史版本的文本内容的修订内容和所述修订内容的引用资料进行训练得到的。
13.结合第二方面,在第二方面的某些实现方式中,上述获取模块用于:获取待处理数据,上述待处理数据包括上述多个文档在审阅流程中的多个历史版本的文本内容、上述多个历史版本的文本内容的修订内容和上述修订内容的引用资料;上述处理模块用于:将上述待处理数据输入至预训练模型,得到自注意力层的输出矩阵,上述预训练模型采用双向编码器的架构;将上述自注意力层的输出矩阵作为上述多个历史版本的原文内容特征向量矩阵,训练上述预训练模型,获得上述文本审阅模型。
14.结合第二方面,在第二方面的某些实现方式中,上述处理模块用于:基于上述待处理数据,进行文本嵌入和特征提取,得到上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵,该预训练模型采用双向编码器的架构;基于上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵,得到加权文本内容与引用资料拼接的特征向量矩阵;基于上述修订内容的特征向量
矩阵、上述加权文本内容与引用资料拼接的特征向量矩阵和上述预训练模型的自注意力层,得到第一目标特征向量矩阵、第二目标特征向量矩阵和第三目标特征向量矩阵;以及,将上述第一目标特征向量矩阵、第二目标特征向量矩阵和第三目标特征向量矩阵重新输入至上述自注意力层,得到上述注意力层的输出矩阵。
15.结合第二方面,在第二方面的某些实现方式中,上述处理模块用于:将上述文本内容的特征向量矩阵和标准化后的上述修订内容的特征向量矩阵进行点乘,获得加权后的文本内容的特征向量矩阵;以及,将上述加权后的文本内容的特征向量矩阵和上述引用资料的特征向量矩阵进行拼接,得到加权文本内容与引用资料拼接的特征向量矩阵。
16.结合第二方面,在第二方面的某些实现方式中,上述获取模块用于:构建文本库,该文本库包括至少一个相关文本,该至少一个相关文本与上述历史文本的相似度大于或者等于第一预设阈值;基于上述至少一个相关文本和上述待处理数据,获得预训练词向量;以及,基于上述预训练词向量,获得上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵。
17.第三方面,提供了一种处理器,包括:输入电路、输出电路和处理电路。处理电路用于通过输入电路接收信号,并通过输出电路发射信号,使得处理器执行上述第一方面中任一种可能实现方式中的方法。
18.在具体实现过程中,上述处理器可以为芯片,输入电路可以为输入管脚,输出电路可以为输出管脚,处理电路可以为晶体管、门电路、触发器和各种逻辑电路等。输入电路所接收的输入的信号可以是由例如但不限于接收器接收并输入的,输出电路所输出的信号可以是例如但不限于输出给发射器并由发射器发射的,且输入电路和输出电路可以是同一电路,该电路在不同的时刻分别用作输入电路和输出电路。本技术实施例对处理器及各种电路的具体实现方式不做限定。
19.第四方面,提供了一种处理装置,包括处理器和存储器。该处理器用于读取存储器中存储的指令,并可通过接收器接收信号,通过发射器发射信号,以执行上述第一方面中任一种可能实现方式中的方法。
20.可选地,处理器为一个或多个,存储器为一个或多个。
21.可选地,存储器可以与处理器集成在一起,或者存储器与处理器分离设置。
22.在具体实现过程中,存储器可以为非瞬时性(non-transitory)存储器,例如只读存储器(read only memory,rom),其可以与处理器集成在同一块芯片上,也可以分别设置在不同的芯片上,本技术实施例对存储器的类型以及存储器与处理器的设置方式不做限定。
23.上述第四方面中的处理装置可以是一个芯片,该处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于该处理器之外,独立存在。
24.第五方面,提供了一种计算机程序产品,计算机程序产品包括:计算机程序(也可以称为代码,或指令),当计算机程序被运行时,使得计算机执行上述第一方面中任一种可能实现方式中的方法。
25.第六方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算
机程序(也可以称为代码,或指令)当其在计算机上运行时,使得计算机执行上述第一方面中任一种可能实现方式中的方法。
附图说明
26.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
27.图1是本技术实施例提供的数据处理方法的示意性流程图;
28.图2是本技术实施例提供的一种预训练模型的示意图;
29.图3是本技术实施例提供的转换器模型训练过程的示意性流程图;
30.图4是本技术实施例提供的自注意力层的输出矩阵的获取过程的示意性流程图;
31.图5是本技术实施例提供的另一种数据处理方法的示意性流程图;
32.图6是本技术实施例提供的数据处理装置的示意性框图;
33.图7是本技术实施例提供的又一数据处理装置的示意性框图。
具体实施方式
34.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在根据本实施例的启示下做出的所有其他实施例,都属于本技术保护的范围。
35.需要说明的是,本公开的数据处理方法和数据处理装置可用于人工智能领域,也可用于除人工智能领域以外的任意领域。本公开的数据处理方法和数据处理装置对应用领域不作限定。
36.为了提高文本审阅效率,目前已经实现了对文本的自动审阅,该文本的自动审阅方法主要关注文档中的错别字,语法等文档格式方面的审阅,而对于文档内容如论点、论据、论证等方面的审阅,还是采用人工审阅的方式。
37.但是,上述人工审阅文本的方式存在审阅时间长的问题,且由于不同人的认知思维和知识水平的不同,还可能造成文本审阅的标准不统一的问题,导致修订反馈对未来文本没有指导意义,给文本管理工作造成负担。
38.有鉴于此,本技术提供了一种数据处理方法和数据处理装置,通过将获取多个文档在审阅流程中的多个历史版本的文本内容、多个历史版本的文本内容的修订内容和该修订内容的引用资料输入至预训练模型中,并利用模型中的注意力单元进行特征提取,训练上述预训练模型的参数,获得文本审阅模型,该文本审阅模型的输出包括文档格式、论点、论据和论证等方面的修订内容。提高了文本审阅效率,避免了人工审阅导致的标准不统一的问题。
39.在介绍本技术实施例提供的数据处理方法及数据处理装置之前,先做出以下几点说明。
40.第一,在下文示出的实施例中,各术语及英文缩略语,如监听事件等,均为方便描
述而给出的示例性举例,不应对本技术构成任何限定。本技术并不排除在已有或未来的协议中定义其它能够实现相同或相似功能的术语的可能。
41.第二,在下文示出的实施例中第一、第二以及各种数字编号仅为描述方便进行的区分,并不用来限制本技术实施例的范围。
42.第三,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a、b和c中的至少一项(个),可以表示:a,或b,或c,或a和b,或a和c,或b和c,或a、b和c,其中a,b,c可以是单个,也可以是多个。
43.为了使本技术的目的、技术方案更加清楚直观,下面将结合附图及实施例,对本技术提供的数据处理方法和数据处理装置进行详细说明。应理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
44.图1是本技术实施例提供的数据处理方法100的示意性流程图。该方法可以由数据处理设备执行。如图1所示,该方法100可以包括下列步骤:
45.s101、数据处理设备获取待处理数据,该待处理数据包括多个文档在审阅流程中的多个历史版本的文本内容、该多个历史版本的文本内容的修订内容和该修订内容的引用资料。
46.示例性地,上述待处理数据包括一个文档在审阅流程中一个历史版本的文本内容、该一个历史版本的文本内容的修订内容和该修订内容的引用资料。
47.表一示出了上述一个历史版本的文本内容、该一个历史版本的文本内容的修订内容和该修订内容的引用资料之间的对应关系。
48.表一
[0049][0050]
如表一所示,上述历史版本的修订内容是在上述历史版本的文本内容中的“同时”之后,添加了文本“由于存在统一标准”,将历史版本的文本内容中的“惯例”修订为“管理”,以及将历史版本的文本内容中的“知道”修订为“指导”。
[0051]
可选地,上述历史版本的文本内容中未修订的部分在修订内容中可以用特殊字符代替。
[0052]
示例性地,上述修订内容可以为表示为
“‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑

于存在统一标准
‑‑‑‑
管理
‑‑‑‑‑‑‑‑‑‑‑‑‑
指导
‑‑”
。其中,上述历史版本的文本内容中未修订的部分在修订内容中用特殊字符
“‑”
代替。
[0053]
应理解,上述待处理数据采用历史数据,所以上述历史版本的修订内容可以是通过现有的审阅方法获得。其中,在上述历史版本的文本内容中的“同时”之后,添加文本“由于存在统一标准”,该添加的文本“由于存在统一标准”和后文“能够在管理上对未来文本材料的撰写起到指导作用”存在逻辑关系,所以可以视为属于论点、论据或者论证方面的修订,所以该修订内容是通过现有的人工审阅方法获得的。将历史版本的文本内容中的“惯例”修订为“管理”,以及将历史版本的文本内容中的“知道”修订为“指导”可以视为格式方面的修订,可以通过现有的自动审阅方法获得。换句话说,上述待处理数据中的历史版本的修订内容除包括错别字,语法等文档格式方面的修订内容之外,还包括论点、论据、论证等方面的修订内容。
[0054]
s102、数据处理设备将上述待处理数据输入至预训练模型,进行文本嵌入和特征提取,得到上述文本内容的特征向量矩阵、该修订内容的特征向量矩阵和上述引用资料的特征向量矩阵,该预训练模型采用双向编码器的架构。
[0055]
在一种可能的实现方式中,数据处理设备可以基于预训练词向量,获得文本内容的特征向量矩阵、修订内容的特征向量矩阵和引用资料的特征向量矩阵。
[0056]
应理解,上述预训练词向量用于将词转化成为向量,即可以将上述多个文档在审阅流程中的多个历史版本的文本内容、该多个历史版本的文本内容的修订内容和该修订内容的引用资料中的词转化为向量矩阵。
[0057]
可选地,上述预训练词向量可以为通过文本库处理后的词向量。
[0058]
应理解,上述文本库包括至少一个相关文本,该至少一个相关文本与上述文档的文本内容的相似度大于或者等于第一预设阈值。所以上述通过文本库处理的词向量可以更好的与上述待处理数据中的文本适配,提高上述特征的提取效率。
[0059]
s103、数据处理设备基于上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵,得到加权文本内容与引用资料拼接的特征向量矩阵。
[0060]
在一种可能的实现方式中,数据处理设备可以将上述文本内容的特征向量矩阵和标准化后的修订内容的特征向量矩阵进行点乘,获得加权后的文本内容的特征向量矩阵,并可以将该加权后的文本内容的特征向量矩阵和上述引用资料的特征向量矩阵进行拼接,得到加权文本内容与引用资料拼接的特征向量矩阵。
[0061]
s104、数据处理设备基于上述修订内容的特征向量矩阵、上述加权文本内容与引用资料拼接的特征向量矩阵和上述预训练模型的自注意力层,得到第一目标特征向量矩阵、第二目标特征向量矩阵和第三目标特征向量矩阵。
[0062]
在一种可能的实现方式中,数据处理设备可以基于上述修订内容的特征向量矩阵,获得上述第一目标特征向量矩阵,并基于加权文本内容与引用资料拼接的特征向量矩阵,获得上述第二目标特征向量矩阵和上述第三目标特征向量矩阵。
[0063]
s105、数据处理设备将上述第一目标特征向量矩阵、第二目标特征向量矩阵和第三目标特征向量矩阵重新输入至上述自注意力层,得到上述自注意力层的输出矩阵。
[0064]
示例性地,上述自注意力层的输出矩阵可以通过以下公式计算:
其中,za为上述自注意力层的输出矩阵,softmax为柔性最大值传输函数,qb为第一目标特征向量矩阵,为第二目标特征向量矩阵的转置,va为第三目标特征向量矩阵,为上述第二目标特征向量矩阵ka的维度,以及为第一权重矩阵。
[0065]
s106、数据处理设备将上述自注意力层的输出矩阵作为上述多个历史版本的原文内容特征向量矩阵,训练上述预训练模型,获得文本审阅模型。
[0066]
在本技术实施例中,数据处理设备通过将多个文档在审阅流程中的多个历史版本的文本内容、多个历史版本的文本内容的修订内容和该修订内容的引用资料输入至预训练模型中,并利用模型中改进的注意力单元进行特征提取,训练上述预训练模型,使得该预训练模型可以关注除文档中的错别字,语法等文档格式方面之外的文档内容的论点、论据、论证等方面的修订,获得文本审阅模型,提高文本审阅的效率,避免了人工审阅导致的对论点、论据和论证等方面的审阅标准不统一的问题。
[0067]
针对上述s102,图2示出了本技术提供的预训练模型200,如图2所示上述预训练模型包括编码器和解码器,该编码器的输出与解码器的输入连接,其中,编码器用于对输入数据进行特征提取,为解码器提供有效的文本信息。上述编码器中包括至少一个编码层,解码器中包括至少一个解码层,该编码层的输出和上述解码层的输入连接。
[0068]
此外,该上述至少一个编码层中的每一个编码层包括至少一个自注意力层,上述至少一个解码层中的每一个解码层包括至少一个自注意力层。
[0069]
应理解,在上述编码层和解码层包括一个自注意力层的情况下,该自注意力层可能会去学习关注学习输入数据中一个特征。上述编码层和解码层还可以一个多头自注意力层,该多头自注意力层可以包括多个自注意力层,该多头自注意力层中的多个自注意力层可以分别关注和学习输入数据中的多个特征,从而均衡一个自注意层可能产生的偏差,提升上述模型效果。
[0070]
应理解,上述预训练模型可以为双向编码器的架构,例如转换器(transformer)模型,本技术对此不作限定。
[0071]
下面以上述预训练模型为transformer模型为例,结合图3对本技术提供的上述预训练模型的训练过程进行进一步描述。
[0072]
图3示出了本技术提供的上述预训练模型的训练过程300。如图3所示,数据处理设备可以将上述待处理数据输入上述transformer模型,进行文本嵌入和特征提取,将上述多个文档在审阅流程中的多个历史版本的文本内容、多个历史版本的文本内容的修订内容和修订内容的引用资料分别转化为文本内容的特征向量矩阵、修订内容的特征向量矩阵和引用资料的特征向量矩。
[0073]
示例性地,文本内容的特征向量矩阵可以表示为a0[a
ij
],修订内容的特征向量矩阵可以表示为b0[b
ij
],引用资料的特征向量矩阵可以表示为c0[c
ij
],该引用资料的特征向量矩阵c0[c
ij
]可以由[c1[c
1ij
],c2[c
2ij
],...,cn[c
nij
]]求和并平均获得。
[0074]
数据处理设备基于上述文本内容的特征向量矩阵、修订内容的特征向量矩阵和引
用资料的特征向量矩阵,通过编码器获得输出矩阵,并可以将上述输出矩阵输入解码器,对transformer模型中的参数进行训练,输出文档的修订内容,从而完成对该transformer模型的训练,获得文本审阅模型。
[0075]
应理解,上述输出矩阵是通过上述编码器中的自注意力层获得的,所以也可以成为自注意力层的输出矩阵。
[0076]
图4示出了自注意力层的输出矩阵的获取过程400,如图4所示,本技术的输入数据包括文本内容的特征向量矩阵a0[a
ij
],修订内容的特征向量矩阵b0[b
ij
],引用资料的特征向量矩阵c0[c
ij
],因此,上述transformer模型中的编码层可以包括多头自注意力层,且该多头自注意力层中可以包括至少三个自注意力层(即第一自注意力层、第二自注意力层和第三自注意力层)。其中,该三个自注意力层可以分别关注学习上述预处理数据中的多个文档在审阅流程中的多个历史版本的文本内容的特征、多个历史版本的文本内容的修订内容的特征和修订内容的引用资料的特征。
[0077]
如图4所示,数据处理设备可以通过第一自注意力层获得第一目标特征向量矩阵和第一自注意力层的输出矩阵。
[0078]
示例性地,数据处理设备可以使用参数矩阵wq与修订内容的特征向量矩阵b0[b
ij
]相乘,得到第一目标特征向量矩阵qb和该第一自注意力层的其他两个特征向量矩阵kb和vb。数据处理设备可以通过公式得到第一自注意力层的结果矩阵,其中,为上述第一自注意力层的结果矩阵,softmax为柔性最大值传输函数,qb为第一目标特征向量矩阵,为第一自注意力层的特征向量矩阵的转置,vb为第一自注意力层的特征向量矩阵,为上述特征向量矩阵kb的维度。然后数据处理设备可以通过将上述结果矩阵与第二权重矩阵相乘得到第一注意力层的输出矩阵zb。
[0079]
如图4所示,数据处理设备可以基于文本内容的特征向量矩阵a0[a
ij
],获得加权文本内容与引用资料拼接的特征向量矩阵、上述第二目标特征向量矩阵和上述第三目标特征向量矩阵。
[0080]
示例性地,数据处理设备标准化处理上述第一自注意力层的输出矩阵zb,并点乘文本内容的特征向量矩阵a0[a
ij
],得到加权文本向量矩阵a1。数据处理设备可以将加权文本向量矩阵a1与上述引用资料的特征向量矩阵c0[c
ij
]拼接,得到加权文本内容与引用资料拼接的特征向量矩阵d1。数据处理设备可以基于加权文本内容与引用资料拼接的特征向量矩阵d1,通过第二自注意力层,获得上述第二目标特征向量矩阵ka和第三目标特征向量矩阵va。
[0081]
如图4所示,数据处理设备可以基于上述获得的第一目标特征向量矩阵qb、第二目标特征向量矩阵ka和第三目标特征向量矩阵va,通过第三自注意力层,得到上述自注意力层的输出矩阵za(也可以称为第三自注意力的输出矩阵,或者上述多头自注意力层的输出矩阵)。
[0082]
示例性地,数据处理设备可以通过公式获得上述自注意力层的输出矩阵,进而提高解码器获得上述文档的修订内容。其中,za为上述第三自注意力层的输出矩阵,softmax为柔性最大值传输函数,qb为第一目标特征向量矩阵,为第二目标特征向量矩阵的转置,va为第三目标特征向量矩阵,为上述第二目标特征向量矩阵ka的维度,以及为第一权重矩阵。
[0083]
可选地,在获得文本审阅模型之后,数据处理设备可以将文本审阅模型输出的修订文本与人工修订文本(如上述多个历史版本的文本内容的修订内容)进行比对判断,若二者相似度大于预设阈值,则可以表明该文本审阅模型性能较优,数据处理设备无需进行任何操作。若二者相似度小于或者等于预设阈值,则可以认为该文本审阅模型性能较差,数据处理设备可以获得新的预处理数据,对上述文本审阅模型进行增量训练,保证模型的泛化能力,直到上述文本审阅模型的输出的修订文本和人工修订文本的相似度大于上述预设阈值,避免审阅准确率过低导致修订反馈对文本修改没有指导意义的问题,进而减轻文本管理工作的负担。
[0084]
可选地,在获得文本审阅模型之后,数据处理设备还可以更新上述文本库,进而获得新的文本内容的特征向量矩阵、修订内容的特征向量矩阵和引用资料的特征向量矩阵,重新训练上述文本审阅模型,避免上述文本库过时,导致模型不能准确地表示文本的语义特征的问题。
[0085]
上面结合图1至图4描述了本技术的模型训练过程,下面结合图5描述本技术的模型使用过程。
[0086]
作为一个可选的实施例,在获得上述文本审阅模型之后,本技术还可以将文档的文本内容输入至上述文本审阅模型中,以获得该文档的修订内容。由于该修订内容中包括了文档格式之外的论点、论据和论证方面的修订内容,所以可以基于文本审阅模型输出的文档的修订内容,可以确定文档的文本内容的在格式、论点、论据和论证方面的问题,进而对该文档的文本内容未来的撰写起到指导作用,降低文本管理工作的负担。
[0087]
图5示出了本技术实施例提供的又一数据处理方法500,如图5所示,该方法500包括以下步骤:
[0088]
s501,数据处理设备获取待审阅文档的文本内容。
[0089]
s502,数据处理设备将上述待审阅文档的文本内容输入文本审阅模型,获得该文档的修订内容,该修订内容包括所述格式修订、论点修正、论据修正和论证修正;其中,该文本审阅模型是基于多个文档在审阅流程中的多个历史版本的文本内容、该多个历史版本的文本内容的修订内容和该修订内容的引用资料进行训练得到的。
[0090]
应理解,上述格式修订可以包括对文本内容中错别字和语法等方面的修订。上述论点修正、论据修正和论证修正可以包括对文本内容中逻辑关系的修订,如因果关系,并列关系等。
[0091]
在本技术中,数据处理设备可以通过将待审阅文档的文本内容输入至上述文本审阅模型中,获得该文档的修订内容,该修订内容包括格式修订、论点修订、论据修订和论证
等修订。相较于现有方法中对文档的文本内容中的错别字,语法等格式方面的审阅采用自动的方式,对文档的文本内容中的论点、论据、论证等方面的审阅采用人工的方式,本技术提高了文本审阅效率。此外由于本技术的文本审阅都是通过上述文本审阅模型实现的,所以避免了人工审阅可能造成的审阅标准不统一的问题。
[0092]
可选地,上述数据处理设备也可以在使用该文本审阅模型之后,对上述文档的文本内容进行人工审阅获得人工修订内容,并将上述文本审阅模型输出的文档的修订内容与该人工修订内容进行比对,判断二者的相似度,进而确定该文本审阅模型的性能。同上,若二者相似度大于预设阈值,则可以表明该模型性能较优,数据处理设备无需进行任何操作。若二者相似度小于或者等于预设阈值,则可以表明该模型性能较差,数据处理设备可以使用人工修订内容对模型进行增量训练。
[0093]
可选地,上述数据处理设备也可以在使用该文本审阅模型之后,更新上述文本库,进而重新训练上述文本审阅模型,保证模型能准确地表示文本的语义特征。
[0094]
应理解,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0095]
为了实现上述本技术实施例提供的方法中的各功能,数据处理设备可以包括硬件结构和/或软件模块,以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行,取决于技术方案的特定应用和设计约束条件。
[0096]
上文中结合图1至图5,详细描述了本技术实施例提供的数据处理方法,下面将结合附图6和图7,详细描述本技术实施例提供的数据处理装置。
[0097]
图6示出了本技术实施例提供的数据处理装置600,包括:获取模块601和处理模块602。
[0098]
其中,获取模块601用于:获取待审阅文档的文本内容;处理模块602用于:将该待审阅文档的文本内容输入至文本审阅模型中,得到上述文档的修订内容,该修订内容包括格式修订、论点修订、论据修订和论证修订;其中,上述文本审阅模型是基于多个文档在审阅流程中的多个历史版本的文本内容、上述多个历史版本的文本内容的修订内容和上述修订内容的引用资料进行训练得到的。
[0099]
可选地,该获取模块601用于:获取待处理数据,该待处理数据包括多个文档在审阅流程中的多个历史版本的文本内容、上述多个历史版本的文本内容的修订内容和上述修订内容的引用资料;该处理模块602用于:基于上述待处理数据,进行文本嵌入和特征提取,得到自注意力层的输出矩阵,该预训练模型采用双向编码器的架构;将上述自注意力层的输出矩阵作为上述多个历史版本的原文内容特征向量矩阵,训练上述预训练模型,获得上述文本审阅模型。
[0100]
可选地,该处理模块602用于:基于上述待处理数据,进行文本嵌入和特征提取,得到上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵;基于上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵,得到加权文本内容与引用资料拼接的特征向量矩阵;基于上述修订内容的特征向量矩阵、上述加权文本内容与引用资料拼接的特征向量矩阵和上述预训练模型的自注意力层,得到第一目标特征向量矩阵、第二目标特征向量矩阵和第三目标特征向量
矩阵;以及,将上述第一目标特征向量矩阵、第二目标特征向量矩阵和第三目标特征向量矩阵重新输入至上述自注意力层,得到上述注意力层的输出矩阵。
[0101]
可选地,该处理模块602用于:将上述文本内容的特征向量矩阵和标准化后的上述修订内容的特征向量矩阵进行点乘,获得加权后的文本内容的特征向量矩阵;以及,将上述加权后的文本内容的特征向量矩阵和上述引用资料的特征向量矩阵进行拼接,得到加权文本内容与引用资料拼接的特征向量矩阵。
[0102]
可选地,该处理模块602用于:构建文本库,该文本库包括至少一个相关文本,该至少一个相关文本与上述历史文本的相似度大于或者等于第一预设阈值;基于上述至少一个相关文本和上述待处理数据,获得预训练词向量;以及,基于上述预训练词向量,获得上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵。
[0103]
应理解,这里的装置600以功能模块的形式体现。这里的术语“模块”可以指应用特有集成电路(application specific integrated circuit,asic)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中,本领域技术人员可以理解,装置600可以具体为上述实施例中的数据处理设备,或者,上述实施例中数据处理设备的功能可以集成在装置600中,装置600可以用于执行上述方法实施例中与数据处理设备对应的各个流程和/或步骤,为避免重复,在此不再赘述。
[0104]
上述装置600具有实现上述方法中数据处理设备执行的相应步骤的功能;上述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
[0105]
在本技术的实施例,图6中的装置600也可以是芯片或者芯片系统,例如:片上系统(system on chip,soc)。
[0106]
图7示出了本技术实施例提供的另一数据处理装置700。该装置700包括:处理器701、存储器702、通信接口703以及总线704。其中,存储器702用于存储指令,该处理器701用于执行该存储器702存储的指令。处理器701、存储器702和通信接口703通过总线704实现彼此之间的通信连接。
[0107]
其中,处理器701用于:获取待审阅文档的文本内容;以及,将该待审阅文档的文本内容输入至文本审阅模型中,得到上述文档的修订内容,该修订内容包括格式修订、论点修订、论据修订和论证修订;其中,上述文本审阅模型是基于多个文档在审阅流程中的多个历史版本的文本内容、上述多个历史版本的文本内容的修订内容和上述修订内容的引用资料进行训练得到的。
[0108]
可选地,该处理器701用于:获取待处理数据,上述待处理数据包括多个文档在审阅流程中的多个历史版本的文本内容、上述多个历史版本的文本内容的修订内容和上述修订内容的引用资料;将上述待处理数据输入至预训练模型,得到自注意力层的输出矩阵,上述预训练模型采用双向编码器的架构;将上述自注意力层的输出矩阵作为上述多个历史版本的原文内容特征向量矩阵,训练上述预训练模型,获得上述文本审阅模型。
[0109]
可选地,该处理器701用于:基于上述待处理数据,进行文本嵌入和特征提取,得到上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量
矩阵;基于上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵,得到加权文本内容与引用资料拼接的特征向量矩阵;基于上述修订内容的特征向量矩阵、上述加权文本内容与引用资料拼接的特征向量矩阵和上述预训练模型的自注意力层,得到第一目标特征向量矩阵、第二目标特征向量矩阵和第三目标特征向量矩阵;以及,将上述第一目标特征向量矩阵、第二目标特征向量矩阵和第三目标特征向量矩阵重新输入至上述自注意力层,得到上述注意力层的输出矩阵。
[0110]
可选地,该处理器701用于:将上述文本内容的特征向量矩阵和标准化后的上述修订内容的特征向量矩阵进行点乘,获得加权后的文本内容的特征向量矩阵;以及,将上述加权后的文本内容的特征向量矩阵和上述引用资料的特征向量矩阵进行拼接,得到加权文本内容与引用资料拼接的特征向量矩阵。
[0111]
可选地,该处理器701用于:构建文本库,该文本库包括至少一个相关文本,该至少一个相关文本与上述历史文本的相似度大于或者等于第一预设阈值;基于上述至少一个相关文本和上述待处理数据,获得预训练词向量;以及,基于上述预训练词向量,获得上述文本内容的特征向量矩阵、上述修订内容的特征向量矩阵和上述引用资料的特征向量矩阵。
[0112]
应理解,装置700可以具体为上述实施例中的数据处理设备,或者,上述实施例中数据处理设备的功能可以集成在装置700中,装置700可以用于执行上述方法实施例中与数据处理设备对应的各个步骤和/或流程。可选地,该存储器703可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。该处理器701可以用于执行存储器中存储的指令,并且该处理器执行该指令时,该处理器可以执行上述方法实施例中与存储设备对应的各个步骤和/或流程。
[0113]
应理解,在本技术实施例中,该处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0114]
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器执行存储器中的指令,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
[0115]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0116]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0117]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0118]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0119]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0120]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0121]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1