本发明实体消歧技术领域,特别涉及一种实体消歧方法及装置。
背景技术:
实体消歧是为了解决自然语言中广泛存在的命名实体(简称“实体”)的歧义(一词多义)问题,属于词义消歧的一部分,是自然语言处理中重要的基础性工作。在视频搜索引擎中,存在大量的影视剧名的实体,而影视剧名存在大量的歧义,即一个影视剧名对应多个影视剧实体(例如:“非诚勿扰”既是一部电影的名称,也是一档综艺节目的名称)。每一个不同概念意义事物的叙述内容称为义项,如果自然语言处理程序能够对歧义实体消歧,有效的区分实体的真正义项,对于视频搜索引擎的优化有很大的帮助,例如知道用户输入的包含歧义实体词的查询中歧义实体的真正义项,搜索返回该义项的结果,使得搜索更加精准,也能很大程度提高用户体验。
实体消歧可以分为有监督学习方法和无监督学习方法。前者从标注了义项的大规模训练数据中抽取歧义词义项的特征属性,然后根据实体词在文本中出现位置的上下文,给出匹配度最高的歧义词义项作为消歧的结果,而后者对大量未标注义项的语料中通过聚类方法将歧义词聚类出不同的义项,同一聚类类别中的特征作为该义项的特征。
对于有监督学习方法,需要对训练数据做大量地人工标注工作,如:确定歧义词存在的候选义项,以及标注大量用于抽取歧义词义项特征的训练数据,这无疑需要大量的人工成本,而且有监督学习方法无法很好解决没有出现在标注集中的歧义词的消歧。而基于聚类的无监督学习方法,最终的类别(义项)数是不确定的,聚类类别与实际义项也无法一一对应,导致基于无监督学习方法的消歧准确度不高,进而导致搜索的准确度不高。
技术实现要素:
本发明实施例的目的在于提供一种实体消歧方法及装置,以提高搜索的准确度。
为达到上述目的,本发明实施例公开了一种实体消歧方法,方法包括:
针对目标实体,从数据库抽取所述目标实体的不同义项;
针对每一义项,从所述数据库中抽取该义项的初始特征数据;
根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧。
较佳的,所述根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧,包括:
根据所述分类模型,对所述数据库中包含所述目标实体的数据进行分类,得到不同义项对应的第一数据;
根据预先构建的特征抽取模型,对每一义项对应的所述第一数据抽取特征;
根据所述分类模型、所述初始特征数据以及抽取的特征的数据,确定所述目标实体的类别;
将所确定的类别对应的义项,确定为所述目标实体的实际义项。
较佳的,所述根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧,包括:
根据所述分类模型以及所述初始特征数据,确定所述目标实体的类别;
将所确定的类别对应的义项,确定为所述目标实体的实际义项。
较佳的,所述预先构建的用于实体消歧的分类模型为:
向量空间模型。
较佳的,所述根据预先构建的特征抽取模型,对每一义项对应的所述第一数据抽取特征,包括:
根据预先构建的特征抽取模型,利用卡方检验以及用于信息检索与数据挖掘的加权技术,对每一义项对应的所述第一数据抽取特征。
为达到上述目的,本发明实施例公开了一种实体消歧装置,装置包括:
第一抽取模块,用于针对目标实体,从数据库抽取所述目标实体的不同义项;
第二抽取模块,用于针对每一义项,从所述数据库中抽取该义项的初始特征数据;
消歧模块,用于根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧。
较佳的,所述消歧模块,包括:
分类单元,用于根据所述分类模型,对所述数据库中包含所述目标实体的数据进行分类,得到不同义项对应的第一数据;
抽取单元,用于根据预先构建的特征抽取模型,对每一义项对应的所述第一数据抽取特征;
第一确定单元,用于根据所述分类模型、所述初始特征数据以及抽取的特征的数据,确定所述目标实体的类别;
第二确定单元,用于将所确定的类别对应的义项,确定为所述目标实体的实际义项。
较佳的,所述消歧模块,具体用于:
根据所述分类模型以及所述初始特征数据,确定所述目标实体的类别;
将所确定的类别对应的义项,确定为所述目标实体的实际义项。
较佳的,所述预先构建的用于实体消歧的分类模型为:
向量空间模型。
较佳的,所述抽取单元,具体用于:
根据预先构建的特征抽取模型,利用卡方检验以及用于信息检索与数据挖掘的加权技术,对每一义项对应的所述第一数据抽取特征。
由上述的技术方案可见,本发明实施例提供的一种实体消歧方法及装置,针对目标实体,从数据库抽取所述目标实体的不同义项;针对每一义项,从所述数据库中抽取该义项的初始特征数据;根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧。
可见,利用数据库作为唯一数据源,无需进行人工标注训练数据,不再需要标注集,解决了没有出现在标注集中的歧义词的消歧问题,也节省了人工成本。而且可以自动抽取目标实体的不同义项,义项类别与实际的义项类别可以一一对应,提高了实体消歧的准确度,进而提高了搜索的准确度。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种实体消歧方法的流程示意图;
图2为本发明实施例提供的一种实体消歧装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面首先对本发明实施例提供的一种实体消歧方法进行详细说明。
参见图1,图1为本发明实施例提供的一种实体消歧方法的流程示意图,可以包括如下步骤:
S101,针对目标实体,从数据库抽取所述目标实体的不同义项;
具体的,命名实体(简称实体)就是人名、机构名、地名以及其他所有以名称为标识的实体。其中,目标实体可以为音乐实体、影视剧实体等等。
下面以影视剧实体为例进行说明。针对目标影视剧实体,可以从数据库中获取该影视剧实体的名称,抽取该影视剧实体名称(W)的不同影视剧实体,将抽取得到的不同影视剧实体确定为该影视剧实体名称的不同义项。例如,W#1表示该影视剧实体名称W的第一个义项、W#2表示该影视剧实体名称W的第二个义项,以此类推。其中,数据库可以为视频数据库。
具体的,在获取目标影视剧实体的名称时,有些影视剧可能存在多个名称,或者有别名、简称等。例如,江苏卫视的综艺节目《非诚勿扰》在视频数据库中的完整名称为“缘来非诚勿扰”,而人们习惯成为“非诚勿扰”,所以在视频标题中或者用户查询词中的“非诚勿扰”很多都是指的“缘来非诚勿扰”,这种情况下可以获取该影视剧实体的别名“非诚勿扰”,确定为目标影视剧实体的名称。
具体的,有的影视剧实体名称包含一些附加信息,例如有一条影视剧实体的名称为“笑傲江湖吕颂贤版”,而该影视剧实体的别名中没有“笑傲江湖”,因此如果不做特殊处理,该条实体无法成为一个义项。本发明实施例可以使用实体识别模块加模板匹配的方式进行处理。实体识别模块能对影视剧实体的标题进行分词并识别其中的影视剧名实体,例如:识别“笑傲江湖吕颂贤版”中的“笑傲江湖”为影视剧名实体,标记为“nz_ALBUM”,“nz”表示词性为实体,ALBUM表示实体类型为影视剧。本发明实施例配置了一些模板,例如:“nz_ALBUM+人名(版)”、“nz_ALBUM+年代(版)”、“nz_ALBUM+之**”等等。当影视剧实体的标题匹配某个模板时,将nz_ALBUM部分抽取出确定为该影视剧实体的别名用于义项抽取,例如上文中的“笑傲江湖吕颂贤版”符合实例模板“nz_ALBUM+人名(版)”,所以抽取“笑傲江湖”确定为其别名。
S102,针对每一义项,从所述数据库中抽取该义项的初始特征数据;
具体的,针对目标实体的每一个义项,从数据库中抽取该义项的初始特征数据,其中,初始特征数据可以为字段数据。
示例性的,视频数据库中所有视频实体都有丰富的字段信息,包含频道、导演、演员、角色、上映时间等结构化信息。对于有歧义的影视剧实体的不同义项,这些字段信息是最好的区分特征。例如:歧义影视剧实体名“非诚勿扰”有两个义项:其一是葛优主演的电影《非诚勿扰》(表示为“非诚勿扰#1”),其二是江苏卫视的一档综艺节目《缘来非诚勿扰》,常被称为“非诚勿扰”(表示为“非诚勿扰#2”)。前者的字段信息中有“综艺”(频道)、“孟非”(主持人)、“黄菡”(嘉宾)、“乐嘉”(嘉宾)、“江苏卫视”(播出频道)等,后者的字段信息中有“电影”(频道)、“冯小刚”(导演)、“葛优”(演员)、“舒淇”(演员)、“范伟”(演员)等。针对影视剧实体“非诚勿扰”的每个义项,从视频数据库中抽取该义项的指定字段数据,确定为该义项的初始特征数据。其中,字段是视频数据库中,根据影视剧实体数据定义的结构化信息的名称,指定字段是根据不同字段对于消歧的贡献大小所指定的字段。在实际应用中,使用的指定字段可以包括“频道”、“导演”、“演员”、“角色”、“主持人”、“嘉宾”、“播出频道”等等。
S103,根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧。
具体的,在实际应用中,可以根据所述分类模型,对所述数据库中包含所述目标实体的数据进行分类,得到不同义项对应的第一数据;根据预先构建的特征抽取模型,对每一义项对应的所述第一数据抽取特征;根据所述分类模型、所述初始特征数据以及抽取的特征的数据,确定所述目标实体的类别;将所确定的类别对应的义项,确定为所述目标实体的实际义项。
示例性的,以目标影视剧实体“非诚勿扰”为例,该实体有两个义项:其一是葛优主演的电影《非诚勿扰》(表示为“非诚勿扰#1”),其二是江苏卫视的一档综艺节目《缘来非诚勿扰》,常被称为“非诚勿扰”(表示为“非诚勿扰#2”)。可以利用预先构建的用于实体消歧的分类模型,例如空间向量模型,对视频数据库中包含“非诚勿扰”的视频数据进行分类,得到不同义项对应的视频数据。例如,将视频数据“非诚勿扰1_葛优胡可相亲对白”、“非诚勿扰片段之葛优VS范伟”分类到义项“非诚勿扰#1”,将视频数据“《非诚勿扰》女嘉宾情绪失控怒骂乐嘉”、“非诚勿扰被灭24盏灯小伙,变亿万富豪!”分类到义项“非诚勿扰#2”。根据预先构建的特征抽取模型,利用卡方检验以及用于信息检索与数据挖掘的加权技术,对分类后的不同义项对应的视频数据抽取特征,例如对“《非诚勿扰》女嘉宾情绪失控怒骂乐嘉”、“非诚勿扰被灭24盏灯小伙,变亿万富豪!”等视频数据抽取特征“灭灯”、“女嘉宾”、“男嘉宾”、“美女”等等。在实际应用中,用于信息检索与数据挖掘的加权技术,可以为TF-IDF(term frequency–inverse document frequency)技术。最后,可以根据相同的分类模型、各个义项的初始特征数据以及抽取的特征的数据,确定目标实体的类别;将所确定的类别对应的义项,确定为所述目标实体的实际义项。例如,在视频搜索应用中,接收的用户查询文本为“非诚勿扰男嘉宾被灭24盏灯”,其中目标实体为“非诚勿扰”,可以利用诸如空间向量模型的分类模型和抽取的特征的数据“男嘉宾”、“灭灯”,确定该实体“非诚勿扰”的类别为“非诚勿扰#2”,对应的义项为江苏卫视的一档综艺节目《缘来非诚勿扰》,常被称为“非诚勿扰”,则将该义项确定为目标实体的实际义项。
具体的,在实际应用中,可以根据所述分类模型以及所述初始特征数据,确定所述目标实体的类别;将所确定的类别对应的义项,确定为所述目标实体的实际义项。例如,在视频搜索应用中,接收的用户查询文本为“非诚勿扰葛优”,其中目标实体为“非诚勿扰”,可以利用诸如空间向量模型的分类模型和初始特征数据“葛优”(演员),确定该实体“非诚勿扰”的类别为“非诚勿扰#1”,对应的义项为葛优主演的电影《非诚勿扰》,则将该义项确定为目标实体的实际义项。
可见,利用数据库作为唯一数据源,无需进行人工标注训练数据,不再需要标注集,解决了没有出现在标注集中的歧义词的消歧问题,也节省了人工成本。而且可以自动抽取目标实体的不同义项,义项类别与实际的义项类别可以一一对应,提高了实体消歧的准确度,进而提高了搜索的准确度。
参见图2,图2为本发明实施例提供的一种实体消歧装置的结构示意图,与图1所示的流程相对应,该消歧装置可以包括:第一抽取模块201、第二抽取模块202、消歧模块203。
第一抽取模块201,用于针对目标实体,从数据库抽取所述目标实体的不同义项;
第二抽取模块202,用于针对每一义项,从所述数据库中抽取该义项的初始特征数据;
消歧模块203,用于根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧。
具体的,消歧模块203,可以包括:分类单元、抽取单元、第一确定单元和第二确定单元(图中未示出);
分类单元,用于根据所述分类模型,对所述数据库中包含所述目标实体的数据进行分类,得到不同义项对应的第一数据;
抽取单元,用于根据预先构建的特征抽取模型,对每一义项对应的所述第一数据抽取特征;
具体的,所述抽取单元,具体可以用于:
根据预先构建的特征抽取模型,利用卡方检验以及用于信息检索与数据挖掘的加权技术,对每一义项对应的所述第一数据抽取特征。
第一确定单元,用于根据所述分类模型、所述初始特征数据以及抽取的特征的数据,确定所述目标实体的类别;
第二确定单元,用于将所确定的类别对应的义项,确定为所述目标实体的实际义项。
具体的,消歧模块203,具体可以用于:
根据所述分类模型以及所述初始特征数据,确定所述目标实体的类别;
将所确定的类别对应的义项,确定为所述目标实体的实际义项。
具体的,所述预先构建的用于实体消歧的分类模型可以为:
向量空间模型。
可见,利用数据库作为唯一数据源,无需进行人工标注训练数据,不再需要标注集,解决了没有出现在标注集中的歧义词的消歧问题,也节省了人工成本。而且可以自动抽取目标实体的不同义项,义项类别与实际的义项类别可以一一对应,提高了实体消歧的准确度,进而提高了搜索的准确度。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。