电子产品命名实体自动识别系统的构建方法及识别方法

文档序号:6339719阅读:475来源:国知局
专利名称:电子产品命名实体自动识别系统的构建方法及识别方法
技术领域
本发明涉及自然语言处理中的命名实体识别系统的构建方法和识别方法,属于从 相关信息中把电子产品的名称进行自动识别的技术。
背景技术
客观存在并可相互区别的事物称之为实体。实体可以是具体的人、事和物,也可以 是抽象的概念或联系。命名实体识别任务是指识别文本中具有特定意义的实体。随着人类 社会步入数字时代,越来越多的电子产品进入到了人们的生活中。关于电子产品的各种报 道大量出现在电子文档中。互联网上更是充满了关于电子产品的广告、使用方法和用户评 论。电子产品命名实体识别技术可以帮助人们更好的查询和管理自己感兴趣的电子产品信 息,帮助企业更快地发现互联网上用户对自己产品的反馈以及更准确地投递广告,因此这 项技术越来越受到工业界和学术界的关注。
目前的命名实体识别技术主要针对新闻语料中的人名、地名、机构名等这些传统 命名实体。主要的技术可以分为两类基于规则的技术和基于机器学习的技术。基于规则 的技术主要利用命名实体的构成规则,采用人工构建知识库和规则库的方式来进行实体识 别,这种技术准确率较高,但是召回率较低,而且很难移植。基于机器学习的技术主要采用 机器学习算法和上下文特征来进行实体识别,其中比较重要的识别算法包括隐马尔科夫模 型、最大熵模型、支持向量机模型、决策树模型等。这类方法需要人工标注大量训练语料,对 于缺少标注语料的电子产品命名实体通常效果很差。
与传统的命名实体相比,电子产品命名实体具有如下特点1)更新变化更快;2) 构成复杂,并且通常混杂有大量的数字与跨语言字符;3)缺乏规范和标注语料。目前国内 外对于电子产品命名实体识别的研究尚处于起步阶段,对电子产品命名实体的定义各执一 词。而相应的识别方法也主要集中于直接套用传统的命名实体识别技术,缺乏针对性,因此 识别准确率和召回率都难以达到实用水平。发明内容
本发明的目的是提供一种电子产品命名实体自动识别系统的构建方法,以解决基 于规则的识别系统在识别时召回率较低,而基于机器学习的识别系统识别时需要人工标注 大量训练语料的问题。
它包括下述步骤一、利用下载软件从互联网中收集多种体裁的电子产品网页信 息,提取出网页信息的正文,从而形成原始语料的知识库;使用分词词性标注工具,对原始 语料进行分词和词性标注处理,之后按照电子产品命名实体的定义,对分词和词性标注后 的语料进行实体标注,构建一个标注语料库;所述对电子产品命名实体的定义是指按照一 个电子产品命名实体的品牌名、系列名和型号三部分区分出电子产品命名实体;二、基于条 件随机域方法,定义多个特征模板,特征模板利用标注语料和知识库具体化出特征,条件随 机域方法在标注语料库上的运算结果可以为每个特征赋予一定的权重,特征和其对应的权3重构成的条件随机域模型就能用来进行电子产品命名实体识别。
本发明还提供基于上述电子产品命名实体自动识别系统的识别方法,它包括下述 步骤一、把用于识别的自由文本输入所述电子产品命名实体自动识别系统;二、系统首先 利用特征模板提取特征,然后利用条件随机域模型得到每个特征对应的权重,把这些权重 利用条件随机域方法进行运算就得到最终的识别结果。
本发明的方法使用分词词性标注工具来对互联网中收集的电子产品网页信息进 行处理,避免了由人工标注大量训练语料,基于条件随机域方法和知识库、标注语料库来处 理自由文本,因此识别系统在识别时召回率高。本发明的方法可以有效地管理和组织互联 网上海量的商务信息,提高人们查找、管理和利用信息的效率。本发明利用电子产品命名实 体的构成规律,针对产品类命名实体变化快、形式多样化的特点,提出了基于知识库的条件 随机域模型的电子产品命名实体识别方法,并实现了相应的系统,系统识别的准确率和召 回率均达到86%以上。


图1是本发明实施方式五的流程示意图,图2是实施方式五中一个识别的举例示 意图。
具体实施方式
具体实施方式
一本实施方式的电子产品命名实体自动识别系统的构建方法包括 下述步骤一、利用下载软件从互联网中收集多种体裁的电子产品网页信息,提取出网页信 息的正文,从而形成原始语料的知识库;使用分词词性标注工具,对原始语料进行分词(把 句子中的词与词间拆分开)和词性标注处理(标注每个词的词性),之后按照电子产品命名 实体的定义,对分词和词性标注后的语料进行实体标注,构建一个标注语料库;所述对电子 产品命名实体的定义是指按照一个电子产品命名实体的品牌名、系列名和型号三部分区分 出电子产品命名实体;二、基于条件随机域方法,定义多个特征模板,特征模板利用标注语 料和知识库具体化出特征,条件随机域方法在标注语料库上的运算结果可以为每个特征赋 予一定的权重,特征和其对应的权重构成的条件随机域模型就可以用来进行电子产品命名 实体识别。
具体实施方式
二 本实施方式与实施方式一的不同点是知识库中的资源均是利 用网络爬虫技术和信息抽取技术从互联网上自动获取的;所述知识库包括针对电子产品 具有品牌信息特性所构造的品牌名词典;针对一个品牌下的电子产品有系列之分所构造的 系列名词典;或针对一些具有特定意义的短语所构造的特定词语知识库。
具体实施方式
三本实施方式的基于实施方式一的电子产品命名实体自动识别系 统的识别方法,它包括下述步骤一、把用于识别的自由文本输入所述电子产品命名实体自 动识别系统;二、系统首先利用特征模板提取特征,然后利用条件随机域模型得到每个特征 对应的权重,把这些权重利用条件随机域方法进行运算就得到最终的识别结果。
具体实施方式
四本实施方式与实施方式三的不同点是它还包括步骤三、采用 规则修正方法对识别后的电子产品命名实体进行修正,所述修正规则是通过基于错误驱动 的方法获得的。
具体实施方式
五下面结合图1和图2,对本发明技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的 实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都 属于本发明保护的范围。
本实施例提供一种电子产品命名实体自动识别的方法,能够自动发现和识别网络 自由文本中的相关电子产品命名实体。下面结合图1具体说明本发明的实施方式。本实施 方式包括1)语料库及知识库的构建;2)特征提取及特征模板的构建;3)将基于知识库的 机器学习和规则修正的方法应用于电子产品命名实体识别中。
(一)电子产品命名实体定义及语料库构建。
在本发明中,根据产品组件更新频率的不同,将产品命名实体划分为三个部分,即 产品的品牌(BRA)、系列(SER)、型号(TYP),而产品命名实体由这个三个组件及一些描述属 性组成。其中,品牌指的是固有的名词——产品的商标,例如“诺基亚”;系列名是指一个品 牌下的一系列,例如“fesya^re”就是柯达数码相机品牌下的一个系列;型号名指的是品 牌或系列下的版本信息,由字母、数字及一些符号组成,例如“Nokia N70”中N70就是Nokia 产品品牌下的一个型号。通常,在数码产品领域更新频率最高的部分为产品型号,而在本发 明的定义中,型号名将作为单独的一个类别进行识别,在结合了统计与规则的方法之后,该 类别可以被有效识别,并具有较高的更新容忍度与识别精度。
此外,在实际应用中,品牌名与公司名重名,这可能会产生歧义。例如“诺基亚公司 最近推出了一款新型时尚的手机——诺基亚N70。”。语句中第一个“诺基亚”指的是诺基亚 公司,而第二个“诺基亚”则代表品牌。还有的品牌名不仅会和公司名重名,在特定的环境 下,它代表其他类别,例如“苹果”,可以为品牌名、公司名,也可以是水果,这就需要通过上 下文的环境确定该类词正确的含义。也就是说,只有当一个名词性结构含有以下确定性产 品信息,才可以构成产品命名实体。
1)含有产品品牌、系列或者型号实体任何一个、两个或三个,如“诺基亚5800”、 "6300手机”是一个产品名实体,“诺基亚”是品牌名实体,“6300”是型号名实体,而“数码 相机”则不是一个产品名实体;
2)尽管没有含有品牌、系列或者型号信息,但是含有某种品牌所特有的产品别称 或者版本信息,如“小黑笔记本”是一个产品名实体,因为“小黑”是联想旗下Thinkpad系 列的别称。而在“智能型手机”中“智能型”是所有品牌可共有的属性信息,所以它不是一 个产品名实体。
在上述电子产品命名实体定义的基础上,利用网络爬虫从互联网中收集多种体裁 的电子产品网络信息,提取出网页信息的正文构建成原始的语料库。然后利用品牌、系列知 识库和分词词性标注工具,对原始语料进行分词和词性标注处理,之后按照电子产品命名 实体的定义,对分词和词性标注后的语料进行实体标注。对原始语料库加工处理完之后,再 运用相关方法对加工语料库进行一致性评测,对不达标的语料重新进行标注,直到评测指 标达到一定程度。经过上述步骤,构建了一个信息量大、文本体裁多样的规范语料库。
( 二)基于知识库的条件随机域模型的电子产品命名实体识别方法。
命名实体识别对于文本信息的后处理非常重要。在命名实体识别中,最常用的机 器学习方法有最大熵模型、最大熵隐马可夫模型和条件随机域模型。这三类模型有非常相似的共同点,同属于判别式模型。本发明中运用了效果最好的条件随机域模型。机器学习 模型都需要构建一个特征模板,用于在识别当前词时提取该词的上下文特征。因此,特征模 板的构建尤为重要。
在本发明中,把产品名实体识别的过程看作为一个多分类的过程,其中需要识别 的目标类别包括产品品牌名、系列名、型号名、及公司名和产品实体,把每一种类别的名实 体又细分为开始部分、中间部分、和整体三种情况,把不属于以上类别中任何一种的词语都 归为一类。为了解决产品命名实体识别中候选实体难触发的问题,引入了产品品牌库和系 列库作为品牌实体和系列实体的触发条件,同时它们也可以变相的触发型号名实体的识 别。模型中的特征由一系列的特征模板产生。定义了一共13个一元特征模板,然后利用这 定义好的13个一元特征模板通过两两组合的方式,构建成二元特征模板集合,然后用信息 增益进行二元特征模板的筛选。筛选完成之后,用一元特征模板和二元特征模板进行两两 组合,构建成三元特征模板,再用同样的方法进行筛选,最后筛选了 40多个特征模板构建 特征模板集。
在建立特征模板集合之后,从标注的规范语料库中随机选出一定比例的语料构成 训练集合,运用特征模板集和机器学习算法进行训练,通过对训练次数的调整,使训练出的 模型能很好的拟合实际文本。再用规则学习算法,分析实验结果错误,提取出修正错误的规 则,改进系统对电子产品命名实体识别的性能。
以上对本发明实施例所提供的电子产品命名实体自动识别方法及系统进行了详 细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说 明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据 本发明的思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不 应理解为对本发明的限制。
权利要求
1.电子产品命名实体自动识别系统的构建方法,其特征在于它包括下述步骤一、利 用下载软件从互联网中收集多种体裁的电子产品网页信息,提取出网页信息的正文,从而 形成原始语料的知识库;使用分词词性标注工具,对原始语料进行分词和词性标注处理,之 后按照电子产品命名实体的定义,对分词和词性标注后的语料进行实体标注,构建一个标 注语料库;所述对电子产品命名实体的定义是指按照一个电子产品命名实体的品牌名、系 列名和型号三部分区分出电子产品命名实体;二、基于条件随机域方法,定义多个特征模 板,特征模板利用标注语料和知识库具体化出特征,条件随机域方法在标注语料库上的运 算结果可以为每个特征赋予一定的权重,特征和其对应的权重构成的条件随机域模型就能 用来进行电子产品命名实体识别。
2.根据权利要求1所述的电子产品命名实体自动识别系统的构建方法,其特征在于知 识库中的资源均是利用网络爬虫技术和信息抽取技术从互联网上自动获取的;所述知识库 包括针对电子产品具有品牌信息特性所构造的品牌名词典;针对一个品牌下的电子产品 有系列之分所构造的系列名词典;或针对一些具有特定意义的短语所构造的特定词语知识 库。
3.基于权利要求1所述方法构建的电子产品命名实体自动识别系统的识别方法,其特 征在于它包括下述步骤一、把用于识别的自由文本输入所述电子产品命名实体自动识别 系统;二、系统首先利用特征模板提取特征,然后利用条件随机域模型得到每个特征对应的 权重,把这些权重利用条件随机域方法进行运算就得到最终的识别结果。
4.根据权利要求3所述的电子产品命名实体自动识别方法,其特征在于它还包括步骤 三、采用规则修正方法对识别后的电子产品命名实体进行修正,所述修正规则是通过基于 错误驱动的方法获得的。
全文摘要
电子产品命名实体自动识别系统的构建方法及识别方法,本发明涉及自然语言处理中的命名实体识别系统的构建方法和识别方法,属于从相关信息中把电子产品的名称进行自动识别的技术。用于电子产品的名称识别。它解决了基于规则的识别系统在识别时召回率较低,而基于机器学习的识别系统识别时需要人工标注大量训练语料的问题。构建方法包括下述步骤形成原始语料的知识库;构建一个标注语料库;基于条件随机域方法进行电子产品命名实体识别。识别方法包括下述步骤把自由文本输入电子产品命名实体自动识别系统;系统首先利用特征模板提取特征,然后利用条件随机域模型得到每个特征对应的权重,把这些权重利用条件随机域方法进行运算得到识别结果。
文档编号G06F17/30GK102033950SQ20101060277
公开日2011年4月27日 申请日期2010年12月23日 优先权日2010年12月23日
发明者刘秉权, 刘远超, 孙承杰, 林磊, 梅丰, 王晓龙 申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1