命名实体识别方法和装置的制造方法
【技术领域】
[0001]本发明涉及自然语言处理技术领域,尤其涉及一种命名实体识别方法和装置。
【背景技术】
[0002]命名实体识别的主要任务是识别出文本中的人名、地名等专有名称。传统的命名实体识别方法主要分为基于规则词典的方法和基于统计模型的方法。基于规则词典的方法主要通过构建线下大规模的实体词典以字符串匹配的方式来进行识别。基于统计模型的方法主要是通过构建统计模型,利用人工标注的训练语料来训练模型从而进行识别。但是,基于规则词典的方式不能识别词典之外的命名实体,并且即使在词典内,基于规则词典的方法无法解决命名实体歧义问题。基于统计模型的方法对没有明显特征的命名实体,如歌曲名、影视名等识别效果较差。
【发明内容】
[0003]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]为此,本发明的一个目的在于提出一种命名实体识别方法,该方法对存在歧义的命名实体以及特征不明显的命名实体,也具有较好的识别效果。
[0005]本发明的另一个目的在于提出一种命名实体识别装置。
[0006]为达到上述目的,本发明第一方面实施例提出的命名实体识别方法,包括:根据预设规则对待识别的文本进行预识别,得到识别出的初始命名实体,所述预设规则包括:基于规则词典和基于统计模型;确定所述待识别的文本所属的类别;根据所述类别和所述初始命名实体,得到组合文本,并根据所述组合文本确定最终的命名实体。
[0007]本发明第一方面实施例提出的命名实体识别方法,通过预识别时采用基于规则词典和基于统计模型的方式,可以扩大初始命名实体的范围,解决单纯采用基于统计模型的方式不能识别特征不明显的命名实体的问题;通过对待识别的文本进行分类,可以解决单纯基于规则词典的方式造成的命名实体歧义问题,从而对存在歧义的命名实体以及特征不明显的命名实体,也具有较好的识别效果。
[0008]为达到上述目的,本发明第二方面实施例提出的命名实体识别装置,包括:预处理模块,用于根据预设规则对待识别的文本进行预识别,得到识别出的初始命名实体,所述预设规则包括:基于规则词典和基于统计模型;分类模块,用于确定所述待识别的文本所属的类别;后处理模块,用于根据所述类别和所述初始命名实体,得到组合文本,并根据所述组合文本确定最终的命名实体。
[0009]本发明第二方面实施例提出的命名实体识别装置,通过预识别时采用基于规则词典和基于统计模型的方式,可以扩大初始命名实体的范围,解决单纯采用基于统计模型的方式不能识别特征不明显的命名实体的问题;通过对待识别的文本进行分类,可以解决单纯基于规则词典的方式造成的命名实体歧义问题,从而对存在歧义的命名实体以及特征不明显的命名实体,也具有较好的识别效果。
[0010]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0011]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0012]图1是本发明一实施例提出的命名实体识别方法的流程示意图;
[0013]图2是本发明另一实施例提出的命名实体识别方法的流程示意图;
[0014]图3是本发明另一实施例提出的命名实体识别装置的结构示意图;
[0015]图4是本发明另一实施例提出的命名实体识别装置的结构示意图。
【具体实施方式】
[0016]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0017]图1是本发明一实施例提出的命名实体识别方法的流程示意图,该方法包括:
[0018]Sll:根据预设规则对待识别的文本进行预识别,得到识别出的初始命名实体,所述预设规则包括:基于规则词典和基于统计模型。
[0019]本实施例中的命名实体识别可以应用在多种需要的场景,例如应用在语音合成中。在语音合成时需要先对输入文本进行文本处理,之后对处理后的文本进行韵律预测、声学参数生成等,得到合成的语音。其中,命名实体识别可以作为是文本处理的一个基本步骤。
[0020]本实施例中,通过采用基于规则词典和基于统计模型的方式,相对于仅采用其中之一的方式,可以尽可能多的获取命名实体。
[0021]例如,基于规则词典的方式中,是基于字符串匹配的方式,可以识别出歌曲名、影视名等特征不明显的实体,从而解决基于统计模型不能获取歌曲名、影视名等不明显特征的命名实体的问题。
[0022]基于统计模型的方式中,可以采用条件随机场(Condit1nal Random Field, CRF)模型。基于统计模型的方式中,可以识别出一些人名、地名等特征明显的实体。
[0023]例如,待识别的文本是:“好想听刘德华的忘情水”,根据基于规则词典的方式,可以识别出的命名实体包括:“好想(歌曲名)”、“刘德华(歌手名)”、“忘情水(歌曲名)”,根据基于统计模型的方式,可以识别出的命名实体包括:“刘德华(人名)”。
[0024]因此,预识别后得到的初始命名实体包括:“好想(歌曲名)”、“刘德华(歌手名)”、“忘情水(歌曲名)”、“刘德华(人名)”。
[0025]S12:确定所述待识别的文本所属的类别。
[0026]文本类别是预先定义的类别,例如:音乐类、影视类、游戏类等。
[0027]可以根据识别出的命名实体以及待识别的文本中的文本信息,确定相应的文本类另IJ。具体的,可以从识别出的命名实体以及文本信息中提取出特征信息,根据特征信息采用最大熵的文本分类算法,确定文本所属的类别。
[0028]本实施例中,特征信息包括:待识别的文本中的词,初始命名实体类别与其前一个词的组合,初始命名实体类别与其后一个词的组合。
[0029]本实施例中,通过选择命名实体与其前后的一个词作为特征信息,可以使用命名实体的上下文信息对命名实体进行消岐,解决单独的命名实体本身可能带有歧义性的问题。
[0030]例如,在上述的待识别的文本的基础上,选择的特征信息包括:好想、听、刘德华、的、忘情水、song_ 听、s_song、听 _singer、singer_ 的、的 _song、song_e、听 _per、per_ 的。其中,song表示歌曲名,singer表示歌手名,per表示人名,s表示句首前面的一个词,e表示句尾后面的一个词。
[0031]在获取特征信息后,可以根据特征信息以及预设文本分类算法,确定待识别的文本属于的文本类别。假设预设文本分类算法是最大熵文本分类算法,则根据上述特征信息,以及最大熵文本分类算法,可以确定待识别的文本属于的文本类别,例如,上述的待识别的文本属于音乐类。
[0032]S13:根据所述类别和所述初始命名实体,得到组合文本,并根据所述组合文本确定最终的命名实体。
[0033]在组合时,可以具体包括:获取属于所述类别的初始命名实体,根据属于所述类别的初始命名实体和待识别的文本中的其余词进行组合,得到组合文本。
[0034]例如,在确定类别是音乐类时,可以获取属于音乐类的初始命名实体,如包括:好想(歌曲名)、刘德华(歌手名)、忘情水(歌曲名)。之后,可以将这些初始命名实体与待识别的文本中的其余词进行组合,其余词包括听”、“的”,则经过组合后,得到的组合文本包括:^song听singer的忘情水”、“好想听singer的song”、“song听刘德华的song”等。
[0035]在获取如上所示的多个组合文本后,可以对每个组合文本进行分析,以确定出最终的命名实体,例如,采用语言模型的方式,分析哪个组合文本更像一句话,之后将更像一句话的组合文本中的初始命名实体确定为最终的命名实体。具体的,可以通过线下挖掘音乐类的训练语料,假设训练语料表明“好想听singer的song”的出现概率最大,则可以确定出最终的命名实体包括:刘德华(歌手名),忘情水(歌曲名)。
[0036]本实施例中,通过预识别时采用基于规则词典和基于统计模型的方式,可以扩大初始命名实体的范围,解决单纯采用基于统计模型的方式不能识别特征不明显的命名实体的问题;通过对待识别的文本进行分类,可以解决单纯基于规则词典的方式造成的命名实体歧义问题,从而对存在歧义的命名实体以及特征不明显的命名实体,也具有较好的识别效果。
[0037]图2是本发明另一实施例提出的命名实体识别方法的流程示意图,该方法包括:
[0038]S21:根据预设规则对待识别的文本进行预识别,得到识别出的初始命名实体,所述预设规则包括:基于规则词典和基于统计模型。