基于GAN网络的文字校对和情感分析方法、设备及介质与流程

文档序号:21037651发布日期:2020-06-09 20:30阅读:341来源:国知局
基于GAN网络的文字校对和情感分析方法、设备及介质与流程

本发明涉及文字处理技术领域,特别涉及基于gan网络的文字校对和情感分析方法、设备及介质。



背景技术:

近年来,人工智能技术发展迅速,其商业化速度超出预期,人工智能将会给整个社会带来颠覆性的变化,已经成为未来各国重要的发展战略。特别是以深度学习为核心的算法演进,其超强的进化能力,在大数据的支持下,通过训练构建得到类似人脑结构的大规模神经网络,已经可以解决各类问题。各种复杂的因素往往以非线性的方式结合在一起,特征的学习尤其重要,而海量训练数据的出现在很大程度上缓解了训练过拟合的问题,从大数据中进行深度学习,通过神经网络已经在计算机视觉、声音处理、自然语言处理中达到了很好的应用实践效果,这也打破了传统的模式识别方式,对各个领域产生了颠覆性的变革。



技术实现要素:

本发明实施例提供了基于gan网络的文字校对和情感分析方法、设备及介质,旨在至少在一定程度上解决以下技术问题:

如何通过对文本的情感分析,更加高效准确的校对文字,形成客观公正的文档。

本发明实施例的第一方面提供了一种基于gan网络的文字校对和情感分析的方法,包括:

接收用户发送的文档,并将所述文档送至产生词向量模块处理,以生成第一词向量序列;

将所述第一词向量序列送至语义分析模块,输出是否需要校对所述第一词向量序列的判断结果;

根据所述判断结果,确定是否将所述第一词向量序列发送至gan网络;

所述gan网络对所述第一词向量序列进行处理,以确定高于预设感情强烈度的所述第一词向量序列,并生成低于预设感情强烈度的第二词向量序列,所述第一词向量序列与所述第二词向量序列的语义相同。

在一个示例中,所述gan网络对所述第一词向量序列进行处理,包括:

将所述第一词向量序列送至情感分析判别器中,确定所述第一词向量序列是否高于所述预设感情强烈度,所述情感分析判别器是所述gan网络中的对抗网络;

若所述第一词向量序列高于所述预设感情强烈度,则将高于所述预设感情强度的第一词向量序列送至校对文字生成器中,生成所述低于预设感情强烈度的第二词向量序列,所述校对文字生成器是所述gan网络中的生成网络。

在一个示例中,所述生成所述低于预设感情强烈度的第二词向量序列,包括:

根据所述第一词向量序列的语义,在词典向量数据库中选择与所述第一词向量序列的语义相同的所述第二词向量序列,所述词典向量数据库由所述产生词向量模块生成。

在一个示例中,所述情感分析判别器包括lstm网络和注意力机制,所述注意力机制包括评价函数、归一化函数和注意力加权计算函数。

在一个示例中,还包括:

将所述第二词向量序列转化为所述文档中的文字,并发送给所述用户;

接收用户反馈的校对结果,对所述产生词向量模块,所述语义分析模块和所述gan网络进行训练和/或优化。

在一个示例中,所述对所述gan网络进行训练,包括:

通过所述词向量序列训练情感分析判别器和语义判别器,所述情感分析判别器和语义判别器是所述gan网络中的对抗网络;

固定所述情感分析判别器和语义判别器的参数,通过训练集训练校对文字生成器,以使所述校对文字生成器生成所述第二词向量序列,所述第二词向量序列的情感强度低于出入的所述第一词向量的情感强度,且所述第二词向量序列的语义与所述第一词向量序列的语义相同。

在一个示例中,所述将所述文档送至产生词向量模块处理,以生成第一词向量序列,包括:

将所述文档分割成多个段落,依次将所述多个段落送至产生词向量模块处理,以生成每个段落对应的第一词向量序列。

在一个示例中,所述文档的类型包括产品或技术的说明文件。

本发明实施例的第二方面提供了一种基于gan网络的文字校对和情感分析的设备,包括:至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:

接收用户发送的文档,并将所述文档送至产生词向量模块处理,以生成第一词向量序列;

将所述第一词向量序列送至语义分析模块,输出是否需要校对所述第一词向量序列的判断结果;

根据所述判断结果,确定是否将所述第一词向量序列发送至gan网络;

所述gan网络对所述第一词向量序列进行处理,以确定高于预设感情强烈度的所述第一词向量序列,并生成低于预设感情强烈度的第二词向量序列,所述第一词向量序列与所述第二词向量序列的语义相同。

本发明实施例的第三方面提供了一种基于gan网络的文字校对和情感分析的非易失性计算机存储介质,所述计算机可执行指令设置为:

接收用户发送的文档,并将所述文档送至产生词向量模块处理,以生成第一词向量序列;

将所述第一词向量序列送至语义分析模块,输出是否需要校对所述第一词向量序列的判断结果;

根据所述判断结果,确定是否将所述第一词向量序列发送至gan网络;

所述gan网络对所述第一词向量序列进行处理,以确定高于预设感情强烈度的所述第一词向量序列,并生成低于预设感情强烈度的第二词向量序列,所述第一词向量序列与所述第二词向量序列的语义相同。

有益效果:

将文档分割成段落,根据段落语句的文字产生词向量,通过对文字进行语义分析,通过建立基于注意力机制的长短期记忆神经网络模型,对文本内容进行情感分析,并采用神经网络生成客观文字,同时满足其语义与原始文字一致;与传统的文字校对方式相比,通过gan网络可以更加灵活准确的发现和校对带有强烈感情色彩的文字,生成更加准确、客观、公正的文字内容。另外,将校对网络模型在云数据中心以云服务的形式发布,为用户提供服务,持续收集用户的反馈数据,针对该用户形成有针对性的网络模型,满足用户行业个性化的需求。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本发明实施例基于gan网络的文字校对和情感分析的方法流程示意图;

图2为本发明实施例的情感分析判别器的计算逻辑示意图;

图3为本发明实施例的神经网络训练框架示意图;

图4为本发明实施例的神经网络训练和优化的流程示意图;

图5为本发明实施例基于gan网络的文字校对和情感分析的设备框架示意图。

具体实施方式

为了更清楚的阐释本申请的整体构思,下面结合说明书附图以示例的方式进行详细说明。

生成式对抗网络(gan,generativeadversarialnetworks)是一种深度学习模型,是复杂分布上无监督学习最重要的方法之一,下称gan模型。gan模型通过框架中的两个模块,生成器(generator)和判别器(discriminator)的互相博弈学习产生高质量的输出,其目标是训练一个生成模型完美的拟合真实数据分布使得判别模型无法区分。生成模型的作用是模拟真实数据的分布,判别模型的作用是判断一个样本是真实的样本还是生成的样本,通过轮流训练判别器和生成器,令其相互对抗,从复杂概率分布中采样,最终完成神经网络的训练。目前,gan网络被广泛应用于生成领域,gan可以产生令人印象深刻的结果,并且可以控制平滑且合理的语义变化,成为最重要的学习任意复杂数据分布的生成模型框架。

情感分析是自然语言处理(nlp,naturallanguageprocessing)中最活跃的研究领域之一,情感分析(也称为意见挖掘)用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。通常来说,其目的是为了找出说话者/作者在某些话题上或者针对一个技术点两极的观点的态度。

本发明实施例提供了gan网络的文字校对和情感分析方法及其相应方案,对文档进行分割形成段落,构建文字校对模型wr,模型wr包括:产生词向量模块w2v、语义分析模块wsa、情感分析判别器(模块)sa-d、语义判别器(模块)ws-d和校对生成器(模块)rw-g等。

模型训练时,情感分析判别器、语义判别器模块和校对生成器组成gan网络;基于现有模型,结合大量领域内的训练数据对文字校对模型的组成模块分别进行训练,对于gan网络部分,交替训练生成器和判别器,最终形成网络模型。文字校对推理过程中,将待校对的文档进行分割成段落,以段落为单位将文字依次输入到文字校对模型中,形成最终的校对结果。另外,根据用户反馈的校对结果数据进行有针对性的训练,调整模型参数,形成更加准确、客观、公正的文字校对模型。

以下结合附图,对发明的一些实施例记性详细的介绍。

根据本发明实施例的第一方面,本发明提供了一种基于gan网络的文字校对和情感分析的方法,图1为本发明的方法流程示意图,如图所示,包括:

s101接收用户发送的文档,并将所述文档送至产生词向量模块处理,以生成第一词向量序列;

s102将所述第一词向量序列送至语义分析模块,输出是否需要校对所述第一词向量序列的判断结果;

s103根据所述判断结果,确定是否将所述第一词向量序列发送至gan网络;

s104所述gan网络对所述第一词向量序列进行处理,以确定高于预设感情强烈度的所述第一词向量序列,并生成低于预设感情强烈度的第二词向量序列,所述第一词向量序列与所述第二词向量序列的语义相同。

根据本发明的具体实施例,步骤s101中,所述将所述文档送至产生词向量模块处理,以生成第一词向量序列,包括:将所述文档分割成多个段落,依次将所述多个段落送至产生词向量模块处理,以生成每个段落对应的第一词向量序列。

在本发明的一些具体的实施例中,所述文档的类型包括产品或技术的说明文件。具体比如白皮书,白皮书是对某一个产品进行公开说明的企业官方文件,通过白皮书,政府、企业、行业联盟协会、监管组织等机构可以用一种正规的、规范的形式对产品或技术进行发布说明,通过互联网共享出来,为企业和用户提供更好的技术服务。白皮书作为一种官方文件,代表机构立场,讲究事实清楚、立场明确、行文规范、文字简练,没有文学色彩。

根据本发明的具体实施例,步骤s104中,所述gan网络对所述第一词向量序列进行处理,包括:将所述第一词向量序列送至情感分析判别器中,确定所述第一词向量序列是否高于所述预设感情强烈度,所述情感分析判别器是所述gan网络中的对抗网络(判别器);若所述第一词向量序列高于所述预设感情强烈度,则将高于所述预设感情强度的第一词向量序列送至校对文字生成器中,生成所述低于预设感情强烈度的第二词向量序列,所述校对文字生成器是所述gan网络中的生成网络(生成器);若所述第一词向量序列低于所述预设感情强烈度,则直接输出结果。

在本发明的一些优选的实施例中,所述生成所述低于预设感情强烈度的第二词向量序列,包括:根据所述第一词向量序列的语义,在词典向量数据库中选择与所述第一词向量序列的语义相同的所述第二词向量序列,所述词典向量数据库由所述产生词向量模块生成。在本发明的一些实施例中,产生词向量模块可以生成词典向量对应表以及词典向量数据库。

根据本发明的具体实施例,图2为本发明实施例提供的情感分析判别器的计算逻辑示意图,本申请实施例提供的情感分析判别器包括长短期记忆网络(lstm,longshorttermmemorynetwork,下称lstm网络)和注意力机制,或称为基于注意力机制(attention)的lstm网络,如图所示,将多个元素(ht-w、ht-w+1、ht-1,等)依次基于注意力机制进行计算,具体包括通过评价函数、归一化函数和注意力加权计算,进行情感分析。可以理解的是,图2所示的情感分析模块sa-d即为本发明实施例中的情感分析判别器sa-d。

根据本发明的具体实施例,本发明实施例提供的方法还包括:将所述第二词向量序列转化为所述文档中的文字,并发送给所述用户;接收用户反馈的校对结果,对所述产生词向量模块,所述语义分析模块和所述gan网络进行训练和/或优化。

根据本发明的具体实施例,图3为本发明实施例的神经网络训练框架示意图;图4为本发明实施例的神经网络训练和优化的流程示意图。以下结合图3和图4对本申请实施例中的各神经网络的训练和优化方法进行描述。

训练时,首先,收集客观公正的文档(白皮书)训练数据集,进行数据标注,将标注好的数据集送入产生词向量模块进行训练,得到分段的词向量序列。在本发明的一些具体实施例,产生词向量模块的核心word2vec模型是一个神经网络,负责将高维词向量嵌入到一个低维空间中,产生词向量模块可以生成词典向量对应表,实现文字与向量的互转。同时,本发明实施例基于现有word2vec模型,根据领域词语需求,训练产生词向量模块的神经网络模型,将高维词向量生成低维空间向量vi,生成词典向量数据库。

然后,使用分段后的词向量序列训练语义分析模块,根据语义确定是否需要客观文字校对。语义分析模块是lstm神经网络,根据连续输入的词向量序列对本段文字进行二元分类,输出该段文字所属的段落是否需要进行情感分析。

接着对gan网络进行训练,首先训练情感分析判别器和所述的语义判别器,然后固定情感分析判别器和语义判别器的网络参数。对于待校对文字向量序列v(v1,v2...vi..vn),正样例为训练集中(原始文字向量序列v-train,已经校对后文字向量序列z-train)的语义匹配的配对(v-train,z-train),负样例为校对生成器rw-g校对生成文字序列形成的序列(v-train,z-gen),另外,语义不匹配的配对(v-train’,z-train)也是负样例,利用上述数据训练校对生成器,满足情感分析判别器的文字客观公正的判别结果要求,同时满足语义判别器的要求,使生成的词向量序列与原始文字次向量序列语义一致。

具体而言,情感分析判别器是基于注意力机制的lstm神经网络,根据连续输入的词向量序列输出当前的情感分析结果,包含情感的强烈程度和置信度;语义判别器负责判断两组词向量序列(v,z)的语义是否一致;校对生成器负责通过词向量序列v,生成另一组词向量序列z,并且z满足情感分析判别器的文字客观公正的判别结果要求,同时满足语义判别器的要求,词向量序列(v,z)语义一致。

交替训练校对生成器、情感分析判别器和语义判别器,直至达到可以接受的程度,得到训练好的gan网络。

上述所有的神经网络训练好后,整合为一个文字校对模型wr,可以将文字校对模型在云数据中心以云服务的形式发布,为用户提供服务,实现客观文字校对。

用户在使用时,提供未校对的白皮书等文档,发送到文字校对模型中;文字校对模型将文档进行分段,并通过产生词向量模块,以段落为单位,生成词向量序列v;然后,依次选择分段后的一段,将词向量序列v依次喂入到语义分析模块中,判断是否需要进行校对,如果需要进行校对,转到下一步骤;若不需要校对,则输出结果;

若需要进行校对,则将词向量序列v依次喂入到情感分析判别器中,输出当前的情感分析结果,判断文字是否客观公正,如果客观公正,则转到上一步骤或者直接输出结果;若文字不客观,则转到下一步骤;

若文字不客观,将词向量序列v依次喂入到校对生成器中,生成客观文字向量序列z;将该段文字向量z转换成具体的文字,以修订方式替换原有文档内容,然后继续进行下一词向量序列的校对,直到完成整个文档的校对,将校对后的文字输出给用户。用户将校对结果进行反馈,用于模型的训练,持续优化模型。

简言之,文字校对模型将输入的文字,经过产生词向量模块、语义分析模块、情感分析判别器、校对生成器、语义判别器等,最终输出客观、公正的文字。

基于同样的思路,本申请的一些实施例还提供了上述平台对应的设备和非易失性计算机存储介质。

图5为本申请实施例提供的对应于图1的基于gan网络的文字校对和情感分析的设备的一种结构示意图,所述设备包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:

接收用户发送的文档,并将所述文档送至产生词向量模块处理,以生成第一词向量序列;

将所述第一词向量序列送至语义分析模块,输出是否需要校对所述第一词向量序列的判断结果;

根据所述判断结果,确定是否将所述第一词向量序列发送至gan网络;

所述gan网络对所述第一词向量序列进行处理,以确定高于预设感情强烈度的所述第一词向量序列,并生成低于预设感情强烈度的第二词向量序列,所述第一词向量序列与所述第二词向量序列的语义相同。

本申请的一些实施例提供的对应于图1的一种基于gan网络的文字校对和情感分析的非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:

接收用户发送的文档,并将所述文档送至产生词向量模块处理,以生成第一词向量序列;

将所述第一词向量序列送至语义分析模块,输出是否需要校对所述第一词向量序列的判断结果;

根据所述判断结果,确定是否将所述第一词向量序列发送至gan网络;

所述gan网络对所述第一词向量序列进行处理,以确定高于预设感情强烈度的所述第一词向量序列,并生成低于预设感情强烈度的第二词向量序列,所述第一词向量序列与所述第二词向量序列的语义相同。

本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于平台实施例,所以描述的比较简单,相关之处参见平台实施例的部分说明即可。

本申请实施例提供的设备和介质与平台是一一对应的,因此,设备和介质也具有与其对应的平台类似的有益技术效果,由于上面已经对平台的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1