一种文本标注方法及装置与流程

文档序号:25214076发布日期:2021-05-28 14:10阅读:50来源:国知局
一种文本标注方法及装置与流程

本发明涉及文本分析技术领域,特别是涉及一种文本标注方法及装置。



背景技术:

在对文本中对象的情感进行分析时,通常基于对象情感分析模型获得对象情感分析结果。上述对象情感分析模型一般是预先训练得到的,训练上述对象情感分析模型时,需要对样本文本整体所表达的情感进行标注,得到标注结果,然后以上述标注结果作为训练基准进行模型训练,得到上述对象情感分析模型。其中,标注结果越接近样本文本所表达的真实情感,使用训练得到的对象情感分析模型对对象的情感进行分析的结果越准确。

文本整体所表达的情感反映了文本在情感方面的整体基调,例如,悲伤的基调、热闹的基调、激动的基调等等,这样来看文本整体所表达的情感是单一情感。然而,站在文本细节角度而言,如从每句话或者每段话来看,其实际所表达的情感是非常丰富的,例如:文本中可以包括多个对象,上述对象可以为文本中所出现的人、物等,文本所表达的每一对象的情感是不相同的,例如,有的对象的情感是开心,而有的对象的情况则恰恰相反是悲伤。因此,应用上述方式对文本进行情感标注易导致所标注情感的精确度较低。



技术实现要素:

本发明实施例的目的在于提供一种文本标注方法及装置,以提高所标注情感的精确度。具体技术方案如下:

第一方面,本发明实施例提供了一种文本标注方法,所述方法包括:

确定待标注文本中各个文本片段所描述内容的类型,作为内容类型;

根据每一文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象的类型,作为对象类型,其中,所述预设的对应关系为:各个内容类型与各个对象类型之间的对应关系;

针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,并根据情感识别结果,在该文本片段中标注所述待标注对象的情感。

本发明的一个实施例中,上述确定待标注文本中各个文本片段所描述内容的类型,包括:

按照以下方式确定待标注文本中每一文本片段所描述内容的内容类型:

当文本片段中包含表征对白内容片段开始的开始字符时,判断所述文本片段中的第一文本子片段的长度是否大于第二文本子片段的长度,所述第一文本子片段为:文本片段中位于所述开始字符前的文本子片段,所述第二文本子片段为:文本片段中位于所述开始字符后的文本子片段;

若为是,将所述文本片段对应的内容类型确定为描述对象行为的内容类型;

若为否,当所述第一文本子片段中包含表征文本内容类型的字符时,将所述文本片段对应的内容类型确定为描述文本场景的内容类型;当所述第一文本子片段中不包含表征文本内容类型的字符时,将所述文本片段对应的内容类型确定为描述对象对白的内容类型。

本发明的一个实施例中,上述确定待标注文本中各个文本片段所描述内容的类型,包括:

对待标注文本进行对象标识识别,确定所述待标注文本中包含的对象标识,并按照以下方式确定所述待标注文本中每一文本片段所描述内容的类型:

当文本片段中不包含表征对白内容片段开始的开始字符时,判断所述文本片段中是否包含所述对象标识;

若为是,将所述文本片段对应的内容类型确定为描述对象动作的内容类型;

若为否,对所述文本片段中的各个词语进行词性识别;当识别到表征对象名称词性的词语时,将所述文本片段对应的内容类型确定为描述对象动作的内容类型;当未识别到表征对象名称词性的词语时,将所述文本片段对应的内容类型确定为描述文本场景的内容类型。

本发明的一个实施例中,上述针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,并根据情感识别结果,在该文本片段中标注所述待标注对象的情感,包括:

针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,对该文本片段的待标注对象进行至少一次情感识别,获得该文本片段的各个情感识别结果;

在所获得的各个情感识别结果之间的差异均小于预设差异阈值的情况下,将情感识别结果的平均值作为待标注对象的情感标注结果,并按照所确定的情感标注结果对所述文本片段所表达的所述待标注对象的情感进行标注;

在所获得的各个情感识别结果之间的差异存在不小于预设差异阈值的情况下,若在所获得的各个情感识别结果中预设数量个情感识别结果之间的差异均小于预设差异阈值时,将所述预设数量个情感识别结果的平均值作为待标注对象的情感标注结果,并按照所确定的情感标注结果对文本片段所表达的所述待标注对象的情感进行标注。

本发明的一个实施例中,上述针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,包括:

针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,并从所述待标注文本中,获得包含该文本片段以及相邻文本片段的文本片段,作为待识别文本片段,所述相邻文本片段为:与该文本片段相邻的文本片段;

针对每一待识别文本片段,对该待识别文本片段的待标注对象进行情感识别。

第二方面,本发明实施例提供了一种文本标注装置,所述装置包括:

内容类型确定模块,用于确定待标注文本中各个文本片段所描述内容的类型,作为内容类型;

对象类型确定模块,用于根据每一文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象的类型,作为对象类型,其中,所述预设的对应关系为:各个内容类型与各个对象类型之间的对应关系;

情感标注模块,用于针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,并根据情感识别结果,在该文本片段中标注所述待标注对象的情感。

本发明的一个实施例中,上述内容类型确定模块,具体用于按照以下方式确定待标注文本中每一文本片段所描述内容的内容类型:

当文本片段中包含表征对白内容片段开始的开始字符时,判断所述文本片段中的第一文本子片段的长度是否大于第二文本子片段的长度,所述第一文本子片段为:文本片段中位于所述开始字符前的文本子片段,所述第二文本子片段为:文本片段中位于所述开始字符后的文本子片段;

若为是,将所述文本片段对应的内容类型确定为描述对象行为的内容类型;

若为否,当所述第一文本子片段中包含表征文本内容类型的字符时,将所述文本片段对应的内容类型确定为描述文本场景的内容类型;当所述第一文本子片段中不包含表征文本内容类型的字符时,将所述文本片段对应的内容类型确定为描述对象对白的内容类型。

本发明的一个实施例中,上述内容类型确定模块,具体用于对待标注文本进行对象标识识别,确定所述待标注文本中包含的对象标识,并按照以下方式确定所述待标注文本中每一文本片段所描述内容的类型:当文本片段中不包含表征对白内容片段开始的开始字符时,判断所述文本片段中是否包含所述对象标识;若为是,将所述文本片段对应的内容类型确定为描述对象动作的内容类型;若为否,对所述文本片段中的各个词语进行词性识别;当识别到表征对象名称词性的词语时,将所述文本片段对应的内容类型确定为描述对象动作的内容类型;当未识别到表征对象名称词性的词语时,将所述文本片段对应的内容类型确定为描述文本场景的内容类型。

本发明的一个实施例中,上述情感标注模块,包括:

结果获得子模块,用于针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,对该文本片段的待标注对象进行至少一次情感识别,获得该文本片段的各个情感识别结果;

第一情感标注子模块,用于在所获得的各个情感识别结果之间的差异均小于预设差异阈值的情况下,将情感识别结果的平均值作为待标注对象的情感标注结果,并按照所确定的情感标注结果对所述文本片段所表达的所述待标注对象的情感进行标注;

第二情感标注子模块,用于在所获得的各个情感识别结果之间的差异存在不小于预设差异阈值的情况下,若在所获得的各个情感识别结果中预设数量个情感识别结果之间的差异均小于预设差异阈值时,将所述预设数量个情感识别结果的平均值作为待标注对象的情感标注结果,并按照所确定的情感标注结果对文本片段所表达的所述待标注对象的情感进行标注。

本发明的一个实施例中,上述情感标注模块,具体用于针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,并从所述待标注文本中,获得包含该文本片段以及相邻文本片段的文本片段,作为待识别文本片段,所述相邻文本片段为:与该文本片段相邻的文本片段;针对每一待识别文本片段,对该待识别文本片段的待标注对象进行情感识别。

第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的方法步骤。

第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。

由以上可见,应用本发明实施例提供的方案进行文本标注时,由于是根据待标注文本中各个文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象类型,并针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,进而对每一文本片段所表达的待标注对象的情感进行识别、标注。又由于不同内容类型的文本片段,进行情感标注的对象往往是不同的,因此,根据文本片段对应的内容类型能够较为精确地获得文本片段中需要进行情感标注的待标注对象,相较于现有技术,提高了对文本进行情感标注的精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文本标注方法的流程示意图;

图2a为本发明实施例提供的一种内容类型确定方法的流程示意图;

图2b为本发明实施例提供的另一种内容类型确定方法的流程示意图;

图2c为本发明实施例提供的一种待标注对象确定方法的流程示意图;

图3为本发明实施例提供的一种文本标注装置的结构示意图;

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

由于现有技术中存在对文本进行情感标注易导致所标注情感的准确度较低的技术问题,为解决这一技术问题,本发明实施例提供了一种文本标注方法及装置。

本发明的一个实施例中,提供了一种文本标注方法,该方法包括:

确定待标注文本中各个文本片段所描述内容的类型,作为内容类型;

根据每一文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象的类型,作为对象类型,其中,预设的对应关系为:各个内容类型与各个对象类型之间的对应关系;

针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,并根据情感识别结果,在该文本片段中标注所述待标注对象的情感。

由以上可见,应用本实施例提供的方案进行文本标注时,由于是根据待标注文本中各个文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象类型,并针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,进而对每一文本片段所表达的待标注对象的情感进行识别、标注。又由于不同内容类型的文本片段,进行情感标注的对象往往是不同的,因此,根据文本片段对应的内容类型能够较为精确地获得文本片段中需要进行情感标注的待标注对象,相较于现有技术,提高了对文本进行情感标注的精确度。

参见图1,图1为本发明实施例提供的一种文本标注方法的流程示意图,上述方法包括s101-s103。

s101:确定待标注文本中各个文本片段所描述内容的类型,作为内容类型。

上述待标注文本可以包括剧本、小说、新闻文章等文本。

上述待标注文本中各个文本片段可以是待标注文本中的各个句子、各个段落等。例如:当待标注文本为剧本时,可以以剧本中的句号、问号、感叹号等符号划分得到的各个句子作为待标注文本中各个文本片段,还可以将剧本中的各个段落作为各个文本片段,还可以先对剧本按照场次划分,以每一场次中的句号、问号、感叹号等符号划分得到的各个文本片段作为待标注文本中各个文本片段。还可以是随机选取待标注文本中的文本片段。

按照不同类型的划分维度,文本片段所描述内容的类型可以有不同类型,例如,按照内容所表达语义的划分维度,文本片段所描述内容的类型可以包括:描述对象动作的内容类型、描述对象对白的内容类型以及描述文本场景的内容类型等。按照文本片段所描述内容的时间的划分维度,文本片段所描述内容的类型可以包括:描述第一时间段发生事件的类型、描述第二时间段发生事件的类型等。

在确定待标注文本中各个文本片段所描述内容的类型时,可以对待标注文本中各个文本片段所描述内容的类型进行识别,从而获得文本片段所描述内容的类型。

具体的,确定待标注文本中各个文本片段所描述内容的类型的详细实现方式可以参见后续实施例,在此不再详述。

s102:根据每一文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象的类型,作为对象类型。

上述文本片段中待进行情感标注的对象可以为文本片段中包含的对象,如:主要人物、次要人物、边缘人物等。在这种情况下,对象类型可以为对象的身份、对象所执行的行为等。上述文本片段中待进行情感标注的对象还可以为文本片段所描写的环境氛围、环境风格等整体文本信息。

上述预设的对象关系为:各个内容类型与各个对象类型之间的对应关系。

例如:当内容类型包括描述对象对白的内容类型、描述对象动作的内容类型以及描述文本场景的内容类型时,上述对应关系可以包括:描述对象对白的内容类型与文本片段中发出对白的对象的对象类型之间的对应关系、描述对象动作的内容类型与文本片段中出现的各个对象的对象类型之间的对应关系、描述文本场景的内容类型与文本片段的环境氛围之间的对应关系。

当内容类型包括描述第一时间段发生事件的内容类型、描述第二时间段发生事件的内容类型时,上述对应关系可以包括:描述第一时间段发生事件的内容类型与文本片段中第一时间段内出现主要人物的类型之间的对应关系、描述第二时间段发生事件的内容类型与文本片段中第二时间段内出现主要任务的类型之间的对应关系。

从上述对应关系中,可以确定与文本片段对应的内容类型具有对应关系的对象类型。

具体的,当文本片段所描述内容类型为描述对象对白的内容类型时,上述文本片段主要用于描述发出对白的对象的对白,从而刻画发出对白的对象的情感、心理活动等,因此,当文本片段所描述内容类型为描述对象对白的内容类型时,文本片段中待进行情感标注的对象的对象类型为:发出对白的对象。

例如:假设文本片段为:小明对小红说:“今天天气真好,我好开心!”上述文本片段所描述内容的类型为描述对象对白的内容类型,且发出对白的对象为小明,因此,上述文本片段的待标注对象为小明。

当文本片段所描述内容类型为描述对象动作的内容类型时,上述文本片段主要用于描述各个对象的动作,从而刻画各个对象的情感、心理活动等,并且在同一文本片段中出现的不同对象时,所表达的各个对象的情感往往不同,因此,当文本片段所描述内容的类型为描述对象动作的内容类型时,上述文本片段中待进行情感标注的对象的对象类型为:文本片段中出现的各个对象。

例如:假设文本片段为:小明看到了小红,随后小花迎过去,俩人亲热地打着招呼,然后驱车离开。上述文本片段所描述内容类型为描述对象动作的内容类型,且各个对象为:小明、小红、小花,因此,上述文本片段的待标注对象为:小明、小红、小花。

当文本片段所描述内容类型为描述文本场景的内容类型时,上述文本片段主要用于描述文本环境、场景等整体氛围。因此,当文本片段所描述内容的类型为描述文本场景的内容类型时,上述文本片段中待进行情感标注的对象的对象类型为:文本片段的环境氛围。上述环境氛围是指:文本片段的环境整体风格或气氛,例如,文本片段的环境整体风格可以是偏欢快、积极,或者偏阴暗、消极。

例如:假设文本片段为:在一个大雨滂沱的夜晚,妖风阵阵,伴随黑色的烟雾。上述文本片段所描述内容类型为描述文本场景的内容类型,因此,上述文本片段中待进行标注的对象的对象类型为:文本片段的环境氛围。

s103:针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象进行情感识别,并根据情感识别结果,在该文本片段中标注待标注对象的情感。

从本步骤可以看出,本发明实施例中,每一文本片段的待标注对象是根据文本片段对应的内容类型确定的,而不是预先设定的。因此,针对不同内容类型的文本片段,需要进行情感标注的对象也是不同的。也就是说,本发明实施例中待标注对象是不确定的,是依据具体文本片段的内容类型而变化的,鉴于此种情况,在将所有待标注对象看成一个对象集合的情况下,可以认为这一对象集合是一个开放集合。从而对各个待标注对象的标注可以被认为是基于开放集合实现的文本标注。

具体的,在从文本片段包含的对象中,确定类型为文本片段对应的对象类型的待标注对象时,可以确定文本片段中与所确定对象类型相匹配的类型的对象,作为待标注对象。

例如:假设对象类型为发出对白的对象,可以将文本片段中发出对白的对象作为待标注对象;假设对象类型为文本片段中出现的各个对象,可以将文本片段中出现的各个对象作为待标注对象;假设对象类型为文本片段的环境氛围,可以将文本片段中环境氛围作为待标注对象。

在确定待标注对象后,可以将所确定的待标注对象作为文本片段中进行情感标注的标注点。例如:可以将文本片段中各个待标注对象作为标注点,还可以将文本片段这一整体作为标注点。

后续在进行情感识别时,可以基于标注点进行情感识别。例如:当标注点为文本片段中各个待标注对象时,可以基于标注点对各个待标注对象进行情感识别。

在基于文本片段对待标注对象进行情感识别时,可以采用对象情感识别算法对文本片段的待标注对象进行情感识别,还可以对提取文本片段所表达的语义,基于所提取的语义信息分析文本片段中待标注对象的情感。

由于在进行情感识别时可能会出现识别错误、失败等情况,因此为了减少情感识别误差,提高情感识别的精确度,在进行情感识别时,可以对每一文本片段的待标注对象进行至少一次情感识别。例如:可以对文本片段的待标注对象进行3次情感识别,每次情感识别采用的方法可以是不同的。

在获得情感识别结果后,可以在文本片段中标注待标注对象的情感,从而获得各个文本片段的标注结果。

由以上可见,应用本实施例提供的方案进行文本标注时,由于是根据待标注文本中各个文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象类型,并针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,进而对每一文本片段所表达的待标注对象的情感进行识别、标注。又由于不同内容类型的文本片段,进行情感标注的对象往往是不同的,因此,根据文本片段对应的内容类型能够较为精确地获得文本片段中需要进行情感标注的待标注对象,相较于现有技术,提高了对文本进行情感标注的精确度。

本发明的一个实施例中,可以按照以下步骤a1-步骤a3实现上述s101中确定待标注文本中各个文本片段所描述内容的类型。

步骤a1:当文本片段中包含表征对白内容片段开始的开始字符时,判断文本片段中的第一文本子片段的长度是否大于第二文本子片段的长度;若为是,执行步骤a2,若为否,执行步骤a3。

由于对白内容片段为:用于描述对象对白内容的文本片段。例如:假设文本片段为:小明说:“今天天气真好。”,那么,“今天天气真好。”为对白内容片段。可以理解的是,对白文本内容片段通常以冒号、逗号等字符开始,因此,上述表征对白内容片段开始的开始字符可以为冒号、逗号、双引号等字符。上述开始字符还可以为“说”等字符,用于表征对白内容片段已经开始发生。

上述第一文本子片段为:文本片段中位于开始字符前的文本子片段。

上述第二文本子片段为:文本片段中位于开始字符后的文本子片段。

上述开始字符在各个不同内容类型的文本子片段中均可能出现。当文本片段中包含开始字符时,上述文本片段所描述内容的内容类型可以是描述对象对白的内容类型,还可以是描述对象行为、描述文本场景的内容类型等。

步骤a2:将文本片段对应的内容类型确定为描述对象行为的内容类型。

当文本片段中的第一文本子片段的长度大于第二文本子片段的长度时,说明第二文本子片段的长度较短。当文本片段所描述内容的内容类型为描述对象动作的内容类型时,第二文本子片段的长度通常短于第一文本子片段的长度,也就是第二文本子片段的长度较短。因此,当第二文本子片段的长度较短时,上述文本片段所描述内容类型为描述对象动作的内容类型的概率较大。因此,可以将文本片段所描述的内容类型确定为描述对象行为的内容类型。

步骤a3:当第一文本子片段中包含表征文本内容类型的字符时,将文本片段对应的内容类型确定为描述文本场景的内容类型;当第一文本子片段中不包含表征文本内容类型的字符时,将文本片段对应的内容类型确定为描述对象对白的内容类型。

当文本片段中的第一文本子片段的长度小于第二文本子片段的长度时,说明第二文本子片段的长度较长。当文本片段所描述内容的内容类型为描述对象对白的内容类型或者描述文本场景的内容类型时,第二文本子片段的长度通常长于第一文本子片段的长度,也就是第二文本子片段的长度较长。

因此,当第二文本子片段的长度较长时,上述文本片段所描述内容类型为描述对象动作的内容类型或者描述文本场景的内容类型的可能性较高。

上述表征文本内容类型的字符可以是为:剧本术语字符、小说术语字符等。例如,在剧本中存在特殊的专业术语,如“画外音”“闪回”等,用于表示镜头设置、画面效果等,通常以“术语:正文”的形式存在。还可以是剧本提纲字符、序言字符等。

当第一文本子片段中包含表征文本内容类型的字符时,表示上述文本片段所描述内容的内容类型为描述文本场景的内容类型的可能性较大、为描述对象对白的内容类型的可能性较小,因此可以将文本片段所描述的内容类型确定为描述文本场景的内容类型。

当第一文本子片段中不包含表征文本内容类型的字符时,表示上述文本片段所描述内容的内容类型为描述对象对白的内容类型的可能性较大,因此可以将文本片段所描述的内容类型确定为描述对象对白的内容类型。

这样,由于不同内容类型的文本子片段在包含表征对白文本子片段时有不同格式特点,根据上述不同的格式特定能够较为准确确定文本片段所描述内容的内容类型。

本发明的一个实施例中,还可以按照以下步骤b1-步骤b4实现上述s101中确定待标注文本中各个文本片段所描述内容的类型。

步骤b1:对待标注文本进行对象标识识别,确定待标注文本中包含的对象标识。

上述对象标识可以为对象名称等。具体的,可以采用对象名称识别算法,识别待标注文本包含的对象名称,将识别到的对象名称确定为待标注文本中包含的对象标识。

由于待标注文本中包含的对象数量较多,因此,在对待标注文本进行对象标识识别时,可以对待标注文本中主要对象的标识进行识别。从而提高了获得对象标识的效率。

步骤b2:当文本片段中不包含表征对白文本子片段开始的开始字符时,判断文本片段中是否包含对象标识,若为是,执行步骤b3,若为否,执行步骤b4。

当文本片段中不包含表征对白内容片段开始的开始字符时,表示文本片段所描述内容的内容类型为描述对象对白的内容类型的可能性非常低、为描述对象动作的内容类型、描述场景的内容类型的可能性较高。

在判断文本片段中是否包含对象标识时,可以将文本片段中包含的字符与步骤b1中识别到的对象标识进行匹配,确定文本片段是否包含对象标识。

步骤b3:将文本片段对应的内容类型确定为描述对象动作的内容类型。

当文本片段中包含对象标识时,表示文本片段所描述的内容类型为描述对象动作的内容类型的可能性较高、为描述文本场景的内容类型的可能性较低。因此,可以将文本片段所描述的内容类型确定为描述对象动作的内容类型。

步骤b4:对文本片段中的各个词语进行词性识别;当识别到表征对象名称词性的词语时,将文本片段对应的内容类型确定为描述对象动作的内容类型;当未识别到表征对象名称词性的词语时,将文本片段对应的内容类型确定为描述文本场景的内容类型。

上述表征对象名称词性的词语可以包括:人称代词的词语、对象名称的词语以及机构团体的词语等。

具体的,由于在步骤b1中识别到的对象标识可能不是待标注文本中出现的所有对象标识,因此当文本片段中不包含对象标识时,需要进一步确定文本片段中是否包含表征对象名称词性的词语,当识别到表征对象名称词性的词语时,表示文本片段中出现对象标识的可能性较高,也就是文本片段所描述的内容类型为描述对象动作的内容类型的可能性较高。因此,可以将文本片段所描述的内容类型确定为描述对象动作的内容类型。

当未识别到表征对象名称词性的词语时,表示文本片段所描述的内容类型为描述文本场景的内容类型的可能性较高,因此,可以将文本片段所描述的内容类型确定为描述文本场景的内容类型。

这样,由于不同内容类型的文本子片段在不包含表征对白文本子片段时也有不同格式的特点,根据上述不同的格式特定能够较为准确确定文本片段所描述内容的内容类型。

以待标注文本为剧本为例,结合图2a、图2b,图2c,对确定待标注文本中各个文本片段的内容的内容类型以及确定文本片段的待标注对象进行具体说明。

图2a为本发明实施例提供的一种内容类型确定方法的流程示意图,图2b为本发明实施例提供的另一种内容类型确定方法的流程示意图。具体的,在图2a中包括sc1-sc7。

sc1:判断剧本中文本片段中是否包含冒号,若为是,执行sc2。

sc2:确定文本片段中位于冒号前的文本子片段以及位于冒号后的文本子片段。

sc3:判断第一长度是否大于第二长度,第一长度为文本片段中位于冒号前的文本子片段的长度,第二长度为文本片段中位于冒号后的文本子片段的长度,若为否,执行sc4,若为是,执行sc5。

sc4:将文本片段所描述内容的内容类型确定为描述对象动作的内容类型。

sc5:判断文本片段中是否包含表征文本内容类型的字符,若为是,执行sc6,若为否,执行sc7。

sc6:将文本片段所描述内容的内容类型确定为描述文本场景的内容类型。

sc7:将文本片段所描述内容的内容类型确定为描述对象对白的内容类型。

在图2b中包括sc1、sc8-sc13。

sc1:判断文本片段中是否包含冒号,若为否,执行sc8。

sc8:判断文本片段中是否包含对象标识列表中的对象标注,若为是,执行sc9,若为否,执行sc10。

sc9:将文本片段所描述内容的内容类型确定为描述对象动作的内容类型。

sc10:对文本片段中包含的各个词语进行词语词性分析。

sc11:判断是否包含对象名称词性的词语,若为是,执行sc12,若为否,执行sc13。

sc12:将文本片段所描述内容的内容类型确定为描述文本场景的内容类型。

sc13:将文本片段所描述内容的内容类型确定为描述对象动作的内容类型。

参见图2c,图2c为本发明实施例提供的一种待标注对象确定方法的流程示意图。

图2c中包括sc21-sc25。

sc21:对剧本进行场次切分,得到各个场次的待标注文本。

sc22:以一个场次为例,对该场次的待标注文本进行分句,得到句子1、句子2、……句子n。

sc23:对各个场次的待标注文本采用人名识别算法,获得人名列表list_names。

sc24:以句子n为例,采用文本类型识别算法,识别句子n的内容类型。

sc25:基于所获得的人名列表list_names和识别到的句子n的内容类型,确定文本片段中待进行情感标注的各个对象,对象1、对象2、……对象k。

本发明的一个实施例中,上述待标注文本可以是来自对象情感识别模型的应用场景的文本。

上述对象情感识别模型为:以进行情感标注后的上述待标注文本为样本进行训练得到的模型。

具体的,对象情感识别模型用于对文本所表达的对象的情感进行识别,获得文本所表达的对象的情感。

为了能够较为准确地获得文本所表达的对象的情感,依赖于对象情感识别模型在识别对象情感的准确度。对象情感识别模型在识别对象情感的准确度,一方面依赖于模型训练算法的设计,另一方面依赖于训练样本的质量。

因此,选择来自对象情感识别模型的应用场景的文本作为待标注文本,并将进行情感标注后的上述待标注文本作为训练样本对对象情感识别模型进行训练时,由于训练样本与应用场景的文本为同一类型的文本,训练得到的对象情感识别模型能够较为准确地识别文本所表达的对象的情感,从而提高了对象情感识别模型在识别对象情感的准确度。

具体的,上述来自对象情感识别模型的应用场景的文本可以为对对象进行情感分析的剧本、小说、散文、新闻稿等各个不同题材、类型的文本,这样,可以保证所获得的待标注文本的多样性和均衡性。

这样,由于对象情感识别模型的训练样本与应用场景的文本为同一类型的文本。能够使得训练得到的对象情感模型在识别文本所表达的对象的情感更加精确。

本发明的一个实施例中,在上述s103中,可以针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,对该文本片段的待标注对象进行至少一次情感识别,获得该文本片段的各个情感识别结果。

当所获得的各个情感识别结果之间的差异均小于预设差异阈值时,可以将所获得的各个情感识别结果的平均值作为待标注对象的情感标注结果,并按照所确定的情感标注结果对文本片段所表达的待标注对象的情感进行标注。

例如:假设所获得的情感识别结果的数量为3时,当3个情感识别结果之间的差异均小于预设差异阈值时,可以将所获得的各个情感识别结果的平均值作为待标注对象的情感标注结果。

这样,将差异较小的各个情感识别结果的平均值作为待标注对象的情感标注结果,能够提高文本情感标注的准确度。

本发明的一个实施例中,在上述s103中,当所获得的各个情感识别结果之间的差异存在不小于预设差异阈值时,若在所获得的各个情感识别结果中预设数量个情感识别结果之间的差异均小于预设差异阈值时,可以将预设数量个情感识别结果的平均值作为待标注对象的情感标注结果,并按照所确定的情感标注结果对文本片段所表达的所述待标注对象的情感进行标注。

上述预设数量可以由工作人员根据经验设定的。当所获得的情感识别结果的数量为3个时,预设数量可以为2。

例如:假设所获得的情感识别结果的数量为3个时,预设数量为2,当3个情感识别结果之间的差异不均小于预设差异阈值、且所获得的各个情感识别结果中两个情感识别结果的差异均小于预设差异阈值时,因此,可以将上述其他两个情感识别结果的平均值作为待标注对象的情感标注结果。

这样,排除误差较大的情感识别结果,将预设数量个差异较小的情感识别结果的平均值作为待标注对象的情感标注结果,能够提高文本情感标注的准确度。

本发明的一个实施例中,在上述s103中,当所获得的情感识别结果中各个情感识别结果之间的差异均大于预设差异阈值,则舍弃所获得的情感识别结果,重新对文本片段所表达的待标注对象的情感进行至少一次情感识别。

这样,舍弃误差较大的各个情感识别结果,能够提高文本情感标注的准确度。

本发明的一个实施例中,可以按照以下方式实现上述s103中针对每一文本片段,对该文本片段的待标注对象进行情感识别。

针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,并确定该文本片段所表达的的待标注对象的情感为各个预设情感分类的匹配程度,根据所确定的匹配程度,确定该文本片段的待标注对象所表达的情感。

上述预设情感分类可以包括综合情感以及细粒度情感,具体的,细粒度情感可以为喜、怒、哀、惊、恐、忧、疑等。上述综合情感用于表示待标注对象的情感的整体趋势,如积极情感或者消极情感。

由于上述预设情感分类可以包括各种预设情感,例如:喜悦、愤怒、惊讶、悲伤等,文本片段所表达的待标注对象的情感可以同时为多个预设情感分类的匹配程度,那么根据所确定的匹配程度,确定文本片段的待标注对象所表达的情感时,待标注对象的情感可以同时具有多种情感,例如:待标注对象可以同时具有喜悦、悲伤、愤怒等情感。

上述文本片段所表达的待标注对象的情感为各个预设情感分类的匹配程度可以用文本片段所表达的待标注对象的情感为每一预设情感分类的概率或者分数值表征。例如:当分数值越高,文本片段所表达的待标注对象的情感为各个预设情感分类的匹配程度也越高,分数值越低,文本片段所表达的待标注对象的情感为各个预设情感分类的匹配程度也越低。

例如:各个预设情感分类的定义可以如下表1所示。

表1

由上表1可知,各个预设情感分类可以包括综合情感、喜、怒、哀、惊、恐、忧、疑八个情感分类。情感分类对应的释义为该情感分类下的各个情感,对于综合情感的分值区间,由-3到+3表示逐渐从消极情感到积极情感,各个细粒度情感分类的分值区间中,由小到大表示文本片段所表达的对象的情感为该情感分类对应的情感的强烈匹配程度越来越强烈。

这样,由于文本片段所表达的待标注对象的情感在各个预设情感分类中的概率能够多角度、多方面反映文本片段所表达的待标注对象的情感,并且文本片段所表达的待标注对象的情感在各个预设情感分类中的概率能够待标注对象的情感的强烈匹配程度,因此,提高了识别待标注对象的情感的精确度。

本发明的一个实施例中,可以按照以下步骤d1-d2实现在上述s103中针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对待标注对象进行情感识别。

d1:针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,并从待标注文本中,获得包含该文本片段以及相邻文本片段的文本片段,作为待识别文本片段。

上述相邻文本片段为:与该文本片段相邻的文本片段。例如:上述相邻文本片段可以位于该文本片段之前的、预设长度的文本片段。

由于文本片段所表达的待标注对象的情感通常基于上下文描述的语境、内容等进行表达。因此,获得包含该文本片段以及相邻文本片段的文本片段,作为待识别文本片段,对待识别文本片段所表达的待标注对象的情感进行识别,能够更加准确获得待标注对象的情感。

d2:针对每一待识别文本片段,对该待识别文本片段的待标注对象进行情感识别。

在对待识别文本片段的待标注对象进行情感识别时,可以采用对象情感识别算法对待识别文本片段的待标注对象进行情感识别,还可以对待识别文本片段所表达的语义进行分析,确定待识别文本片段所表达的对象的情感。

这样,对包含当前文本片段以及相邻文本片段的文本片段进行对象情感识别,能够提高对象情感识别的精确度,从而获得较为准确的待标注对象的情感。

与上述文本标注方法相对应,本发明实施例还提供了一种文本标注装置。

参见图3,图3为本发明实施例提供的一种文本标注装置的结构示意图,上述装置包括301-303。

内容类型确定模块301,用于确定待标注文本中各个文本片段所描述内容的类型,作为内容类型;

对象类型确定模块302,用于根据每一文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象的类型,作为对象类型,其中,所述预设的对应关系为:各个内容类型与各个对象类型之间的对应关系;

情感标注模块303,用于针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,并根据情感识别结果,在该文本片段中标注所述待标注对象的情感。

由以上可见,应用本实施例提供的方案进行文本标注时,由于是根据待标注文本中各个文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象类型,并针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,进而对每一文本片段所表达的待标注对象的情感进行识别、标注。又由于不同内容类型的文本片段,进行情感标注的对象往往是不同的,因此,根据文本片段对应的内容类型能够较为精确地获得文本片段中需要进行情感标注的待标注对象,相较于现有技术,提高了对文本进行情感标注的精确度。

本发明的一个实施例中,上述内容类型确定模块,具体用于按照以下方式确定待标注文本中每一文本片段所描述内容的内容类型:

当文本片段中包含表征对白内容片段开始的开始字符时,判断所述文本片段中的第一文本子片段的长度是否大于第二文本子片段的长度,所述第一文本子片段为:文本片段中位于所述开始字符前的文本子片段,所述第二文本子片段为:文本片段中位于所述开始字符后的文本子片段;

若为是,将所述文本片段对应的内容类型确定为描述对象行为的内容类型;

若为否,当所述第一文本子片段中包含表征文本内容类型的字符时,将所述文本片段对应的内容类型确定为描述文本场景的内容类型;当所述第一文本子片段中不包含表征文本内容类型的字符时,将所述文本片段对应的内容类型确定为描述对象对白的内容类型。

本发明的一个实施例中,上述内容类型确定模块,具体用于对待标注文本进行对象标识识别,确定所述待标注文本中包含的对象标识,并按照以下方式确定所述待标注文本中每一文本片段所描述内容的类型:当文本片段中不包含表征对白内容片段开始的开始字符时,判断所述文本片段中是否包含所述对象标识;若为是,将所述文本片段对应的内容类型确定为描述对象动作的内容类型;若为否,对所述文本片段中的各个词语进行词性识别;当识别到表征对象名称词性的词语时,将所述文本片段对应的内容类型确定为描述对象动作的内容类型;当未识别到表征对象名称词性的词语时,将所述文本片段对应的内容类型确定为描述文本场景的内容类型。

本发明的一个实施例中,上述情感标注模块,包括:

结果获得子模块,用于针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,对该文本片段的待标注对象进行至少一次情感识别,获得该文本片段的各个情感识别结果;

第一情感标注子模块,用于在所获得的各个情感识别结果之间的差异均小于预设差异阈值的情况下,将情感识别结果的平均值作为待标注对象的情感标注结果,并按照所确定的情感标注结果对所述文本片段所表达的所述待标注对象的情感进行标注;

第二情感标注子模块,用于在所获得的各个情感识别结果之间的差异存在不小于预设差异阈值的情况下,若在所获得的各个情感识别结果中预设数量个情感识别结果之间的差异均小于预设差异阈值时,将所述预设数量个情感识别结果的平均值作为待标注对象的情感标注结果,并按照所确定的情感标注结果对文本片段所表达的所述待标注对象的情感进行标注。

本发明的一个实施例中,上述情感标注模块,具体用于针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,并从所述待标注文本中,获得包含该文本片段以及相邻文本片段的文本片段,作为待识别文本片段,所述相邻文本片段为:与该文本片段相邻的文本片段;针对每一待识别文本片段,对该待识别文本片段的待标注对象进行情感识别。

与上述文本标注方法相对应,本发明实施例还提供了一种电子设备。

参见图4,图4为本发明实施例提供的一种电子设备的结构示意图,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,

存储器403,用于存放计算机程序;

处理器401,用于执行存储器403上所存放的程序时,实现本发明实施例提供的文本标注方法。

上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory,ram),也可以包括非易失性存储器(non-volatilememory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例提供的文本标注方法。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行时实现本发明实施例提供的文本标注方法。

由以上可见,应用本实施例提供的方案进行文本标注时,由于是根据待标注文本中各个文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象类型,并针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,进而对每一文本片段所表达的待标注对象的情感进行识别、标注。又由于不同内容类型的文本片段,进行情感标注的对象往往是不同的,因此,根据文本片段对应的内容类型能够较为精确地获得文本片段中需要进行情感标注的待标注对象,相较于现有技术,提高了对文本进行情感标注的精确度。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1