本申请涉及命名实体识别,尤其涉及一种命名实体标注方法、装置、电子设备及存储介质。
背景技术:
1、命名实体一般指的是文本中具有特定意义或者指代性强的实体,学术上通常包括实体类、时间类、数字类三大类和人名、地名、组织机构名、时间、日期、货币、百分比七小类。
2、命名实体识别(named entity recognition,ner)是分词的子任务,用于从非结构化的输入文本中抽取出命名实体,并根据业务需求识别出各类别的命名实体,为信息提取、问答系统、句法分析、机器翻译、知识图谱等众多自然语言处理(natural languageprocessing,nlp)任务提供重要基础工具支持。
3、由于命名实体的数量不断动态增加,不可能在词典中穷尽列出,而相关技术中的命名实体识别模型的训练通常仅针对单个词进行训练,存在效率低的问题。
技术实现思路
1、本申请提供一种命名实体标注方法、装置、电子设备及存储介质,以提高命名实体识别的效率。
2、第一方面,本申请实施例提供了一种命名实体标注方法,包括:获取待处理文本;根据所述待处理文本的语种,确定目标标注规则;确定所述待处理文本中的目标分词,所述目标分词为所述待处理文本中除非名词分词和数量短语修饰的分词外的未标注分词;根据所述目标标注规则对所述目标分词进行命名实体类别标注。
3、第二方面,本申请实施例提供了一种命名实体标注装置,包括:获取模块,用于获取待处理文本;第一确定模块,用于根据所述待处理文本的语种,确定目标标注规则;第二确定模块,用于确定所述待处理文本中的目标分词,所述目标分词为所述待处理文本中除非名词分词和数量短语修饰的分词外的未标注分词;标注模块,用于根据所述目标标注规则对所述目标分词进行命名实体类别标注。
4、第三方面,本申请实施例提供了一种电子设备,包括:处理器;以及,被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行上述第一方面所述的方法中的步骤。
5、第四方面,本申请实施例提供了一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行上述第一方面所述的方法。
6、在本申请实施例中,先通过排除法确定出待标注的目标分词,并结合命名实体在不同语言中的句法表现,根据目标标注规则对目标分词进行类别标注,而不是局限于对单个命名实体的识别,从而提高命名实体识别的效率。
1.一种命名实体标注方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述目标标注规则包括以下至少一项:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:若确定所述待处理文本中包括与所述目标分词存在并列关系的已标注命名实体,则根据所述第一规则对所述目标分词进行命名实体类别标注。
6.根据权利要求2所述的方法,其特征在于,所述预设信息包括预设代词,所述预设代词用于模糊表述预设类别的命名实体;所述方法还包括:
7.根据权利要求2所述的方法,其特征在于,所述预设信息包括预设提问文本,所述预设提问文本用于针对预设类别的命名实体进行提问;所述方法还包括:
8.根据权利要求1-7任一项所述的方法,其特征在于,所述目标分词还包括处于目标文本中的分词,所述方法还包括:
9.一种命名实体标注装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括:
11.一种存储介质,其特征在于,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如权利要求1-8任一项所述的方法。