专利名称:一种基于互联网的模板抽取属性和评论词的方法
技术领域:
本发明涉及信息检索领域,特别涉及概念属性和评论词抽取的方法。
背景技术:
在全球所有的调查中,搜索引擎都是互联网上使用程度仅次于电子邮箱的服务, 搜索引擎服务能成为最受欢迎的服务是因为它解决了用户在浩瀚的互联网海量快速定位 信息瓶颈问题,但目前按照传统方式查找信息仍要耗费用户大量的精力和时间,这种传统 方式只是一个简单的符号处理。计算机不同于人的大脑思维,人可以直接理解词的意思、文 章的思路,机器和算法不能理解。人看到苹果这两个字就知道指的是那个圆圆的、有水的、 挺好吃的东西,然而搜索引擎却不能从感性上理解,无法把苹果与"圆圆的"、"有水的"、"挺 好吃的东西"等同起来。所以面对互联网的海量信息,想要在搜索引擎中直接找到自己想要 的答案,实在是很困难的事情。 基于现今搜索引擎在获得网络信息所占居的重要地位,却存在查全率、查准率欠 缺的严重问题,针对这种情况提出了垂直搜索引擎,以使搜索更细化、更深入、更专业,从而 提高用户获得信息的效率,其中以概念属性抽取为主要研究对象,即基于现有主流搜索引 擎存在的状况,提出对查询文本进行更深层次的语义分析,提出概念属性抽取的方法,包 括语料库、识别属性、过滤属性、扩展属性、抽取评论词、判断语义特征和迭代界限。
在1999年,马里兰大学的Resnik曾在刊物Journal of Artificiallntelligence 上发表《Semantic Similarity in a Taxonomy :Anlnformation-Based Measure and its Application to Problemsof Ambiguity in Natural Language》,文中提出假设分类学令页 域语义类中并列成分在语义上是类似的。实验结果表明,90%的并列结构的并列成分中心 语的语义类是相同的,而有10%的并列结构其并列成分中心语的语义类不同。语义类不同 的并列成分中有部分也呈现出语义上的相似性,只是由于语义分类体系的不够完善而没有 显性地表现出来,并列成分中心语语义相似的频率事实上大于90%。语义类不同的并列成 分中有部分呈现出语义上的相关性和相对性。
发明内容
—种基于互联网的模板抽取属性和评论词的方法,本发明所采用的技术方案是
1.由语言专家人为给定少量模板,通过机器可读字典存储语言专家确定的模板 标注后的基础属性和属性词缀等,建立人工标注类别的训练数据集,即针对概念的属性模 板,其中人工标注属性或非属性。
2.从互联网中搜索匹配模板的属性数与独立属性数,两者相除得到PMI值,以作
为分类器的特征值,这个特征值是在互联网中属性存在于这个模板的概率。 3.使用最大熵模型结合其他一些模板的PMI值特征以及一些词汇特征(如词
缀),对候选属性进行分类或加权。 4.通过配置一个模板基于互联网抽取出原始属性集。基于分类规则进行属性过滤。 5.基于Resnik的假设使用连接短语模板扩展属性组,且并列属性可通过名词识 别器的验证和PES的测试。 6.通过准确率、查全率及综合指标F评定属性抽取方法的性能。给出准确率和查 全率的关系曲线图。 7.手工采集一些评论信息的模板,从互联网中搜索匹配模板的评论词,通过 WordNet实现词性判断,过滤出相对准确的形容词作为评论词,实现属性_评价对,并使用 从属关系法表挖掘出有效对。 8.确定种子组,并且可以不断实现更新。首先建立形容词反义/同义的语料库,即
种子组,这个原始语料库由一些从属于某些产品属性中非常常见的形容词组成,通过互联
网抽取到的评论词放入种子组匹配,能匹配到的即能马上确定语义方向,对于未匹配到的
进行预测,并加入对应种子组,在这个过程中种子列表不断地扩展。 下面结合图对本发明进一步说明。 图1是基于GOOGLE配置出的模板,这里x指任何产品实体,y为相应属性名,这里 的模板格式是实验程序所应用的原始数据,每个模板中的反斜杠是一个转义字符,是为转 义后面的双引号。 图2是数据分类的一个两步过程第一步,建立一个模型,描述预定的数据类集或 概念集。第二步,使用模型进行分类。 图3是属性抽取算法的整体流程,对原始属性通过获得的分类模型进行过滤之后 得到的属性集需进一步实现扩展,因为在自然语言中是不可能抽取完那些已用的属性,这 里使用连接短语模板抽取属性的并列词,并对并列词进行验证,以判定并列词是否为属性。 符合属性条件的放入属性集中,再对这个属性进行过滤,扩展,这是一个迭代的过程。
图4为获得的部分特征文本。特征值的获取主要基于模板与HTML标记,运用模板 及属性创建GOOGLE搜索关键字。根据GOOGLE页面的特点,寻找HTML两个标记"约有〈b>" 和"〈/b〉",抽取其间的数据,即为计算PMI值的hits结果数。而对于另一个特征值,基于属 性词缀集, 与人工标注后的属性字典进行匹配,若属性中最后一字能在属性词缀集中匹配 到,则此属性的特征值为"vi : 1 "。例属性"分辨率",其中"率"被包含在属性词集中。
图5为自动产生的属性标注,标注为"l"的属性都以正确的属性保存下来,并作为 下阶段扩展属性模块的种子。 图6至图8是根据此算法实验验证的结果,图6显示了以单个PMI值作为特征值 与以PMI值和属性词缀两个值作为特征值其分类属性算法的P、 R、F值,结果显示,后者的 P、 R、 F值分别都大于前者,证明了附加词缀作为特征值的有效性。图7显示对属性过滤前 后,及由语言专家确定的属性数,每次迭代都对属性进行一次扩展,由此得到准确率,P =人 工判定的属性数/过滤后的属性数。对于查全率,首先由语言专家根据特定的产品实体"打 印机"选出20个最具代表的属性,每次迭代后,查看这些属性在过滤后的属性中的覆盖程 度,即为查全率。这样多次迭代后便得出一个准确率与查全率的关联变化的曲线图,如图8 所示。从图中可看出准确率与查全率是一对矛盾的评价指标,随着迭代的递增,查全率会增 加,而准确率就相应下降,这个评测结果说明属性抽取方法的可行性。
图1基于GOOGLE配置出的模板; 图2最大熵分类过程; 图3属性抽取算法的整体流程图; 图4特征文本; 图5自动产生的属性标注; 图6分类器特征值的比较; 图7每次迭代属性变化情况; 图8准确率与查全率变化关系曲线具体实施例方式
以Visual C++6. 0为实验环境,将基于互联网进行概念属性抽取的方法通过实验 来验证其可行性,有效性。 首先由两个语言专家提供三个文本文件一由语言专家审核过的根据几个网站所 配置的几个模板;二根据产品实体给出经标注后的候选属性,作为数据训练集train,最后 一个选择了 17个属性标志词缀。建立四个实验模块 第一个是计算分类器的特征值。根据人为给定模板(图1)和人工标注后的属性 字典,基于互联网计算PMI特征值,以格式"fj:0. 000319"显示,并为了加快以后再次调试 速度,模块中加入了缓存,将计算PMI特征值所需要的返回数Hits(D+I)和Hits(I)保存起 来,以便下次不需遍历互联网就能从缓存中获取。根据属性词缀获取另一特征值,以格式 "Vi:O"显示。图4即为获得的部分特征文本。 分别基于PMI特征值和PMI与词缀值两个特征值,使用最大熵分类器命令行进行 训练,得到分类模型,然后使用模型测试自动属性分类的准确率,以验证所正确选择的特征 值,并确定作为未知属性分类的规则。 第二个读入人工标注的属性集或扩展后的属性集和自动产生的属性标注。两种不 同的输入决定了此模块可用于两种环境,首次读入应用于分类算法测试中,调试它,通过程 序比较,可获得实际抽取的属性数,应抽取的属性数,正确属性数,目的计算分类器算法的 评价指标P和R,来比较只用PMI作特征值和用PMI值与词缀两种特征的评价指标,最终以 柱形图显示比较结果;另一个环境,基于抽取属性的迭代数,决定调用此模块数量,此时模 块用于比较扩展后的属性(人工认为标注都为"l"的属性)与通过分类器自动产生属性的 标注,凡是图4中标注为"l"的属性都以正确的属性保存下来,并作为下阶段扩展属性模块 的种子。 第三个是人工通过GOOGLE查询配置出针对具体产品实体相对应的属性的最佳匹 配模板,并通过语言专家组的认可,最终确定"打印机的A为"这样一个模板,基于这个模板 在互联网上抽取出其中的A,并用短语识别器过滤掉结果中的非短语结构,最后形成原始属 性集。以此为基础进行下面的扩展和过滤,过滤的算法是基于第一个模块中得出的分类模 型。 G00GLE搜索限制查询结果最多1000项,且每页面最多可显示100项。根据模板"打印机的"作为GOOGLE关键字获取1000项查询结果,并精确定位于HTML标记"〈td class =\〃 j\〃 Xfont size =-1>"和"〈/13>〈1^>〈8。&11"之间的内容,且过滤掉HTML标记"〈" 和"〉"之间及"&"和";"之间的内容,以获得纯文本信息作为下一步查询"打印机的""为" 字符串中间内容的语料库。使用字符数、标点符号来过滤掉其中的一些垃圾判断语料库 "打印机的"与"为"间隔是否超过六个字,若不超过,那六个字中是否带有标点,如有标点 符号,就过滤掉包括标点以后的文本。最终获得的文本再通过知识识别器过滤掉结果中的 非短语结构,最终获得的A集作为原始属性集。第四个就是基于连接短语模板扩展属性种 子,利用连接短语的并列特性,抽取出连接词"和"右边的并列词,作为候选属性。此模块关 键在于如何确定并列词的长度界限,一般地,都要通过名词短语识别器,首先确定是一个名 词,并且可通过PES实现与连接词"和"之前的属性位置交换后,仍能在互联网中查找到结 果。但本文是根据特定的产品实体抽取出属性,其连接模板为"(产品实体)的x和NP", 增加了一个产品实体的限定,在这种情况抽出的数据比较稀疏,能扩展的属性有限,若再增 加一个条件,需通过PES交换,那结果数据将更稀疏,因此在这里省去PES交换。另这里获 取并列词,首先限定了长度,不超过6个字符,且判断6个字符中是否有给定的标点符号,如 果有的话,就过滤掉标点符号右边的文本。经过这两个条件的筛选后,获得的文本作为扩展 到的候选属性。扩展后的新属性要作为下一阶段的种子,首先要放到第一个模块进行属性 过滤,再通过第二个模块输出自动抽取出的属性,然后又放到第四个模块进行扩展,这是一 个循环、反复的操作过程。那这个循环的终止点得需属性抽取方法的综合指标F或PR来判 断。当这指标达到某个阀值的时候,循环即可终止。
权利要求
一种基于互联网的模板抽取属性和评论词的方法,其特征在于,所述的方法包括以下步骤1)通过机器可读字典存储人工标注类别的、针对概念的属性模板。2)从互联网中搜索匹配模板的属性数与独立属性数,两者相除得到PMI值,以作为分类器的特征值;3)使用最大熵模型结合其他模板的PMI值特征以及词汇特征,对候选属性进行分类或加权;4)通过配置一个模板基于互联网抽取出原始属性集,基于分类规则进行属性过滤;5)基于Resnik的假设使用连接短语模板扩展属性组,且并列属性可通过名词识别器的验证和PES的测试;6)通过准确率、查全率及综合指标F评定属性抽取方法的性能,给出准确率和查全率的关系曲线图;7)手工采集评论词的模板,从互联网中搜索匹配模板的评论词,通过WordNet实现词性判断,过滤出相对准确的形容词作为评论词,实现属性-评价对,并使用从属关系法表挖掘出有效对;8)将从属于产品属性中常见的形容词按同义和反义特征组成种子组并不断实现更新;通过互联网抽取到的评论词放入种子组匹配,能匹配到的确定语义方向,对于未匹配到的进行预测,并加入对应种子组,在这个过程中种子列表不断地扩展。
2. 根据权利要求1所述的方法,其特征在于步骤1)所述的属性模板过滤掉人工标注 非属性。
3. 根据权利要求l所述的方法,其特征在于步骤2)所述的互联网中搜索匹配模板是 基于GOOGLE配置出的模板。
4. 根据权利要求l所述的方法,其特征在于步骤2)所述的特征值的获取主要基于所 述的属性模板与HTML标记,运用所述的属性模板及属性创建GOOGLE搜索关键字。
全文摘要
一种基于互联网的模板抽取属性和评论词的方法,通过机器可读字典存储人工标注类别的、针对概念的属性模板;通过验证分类算法的评价指标后选择最大熵,确定在训练分类模型时的PMI值与属性词素;通过配置一模板基于互联网抽取出原始属性集,基于分类规则进行属性过滤,基于Resnik的假设使用连接短语模板扩展属性组,再过滤,形成一个循环迭代的过程,通过准确率、查全率及综合指标F评定属性抽取方法的性能,给出准确率和查全率的关系曲线图;基于互联网所抽取的产品属性,再实现对产品属性个性化评论词的抽取,形成有效地属性-评价对,并据评论信息中的评价形容词的词义特征,判断出其中的好、差评比,最终产生一个市场反馈综合值。
文档编号G06F17/30GK101702167SQ20091019818
公开日2010年5月5日 申请日期2009年11月3日 优先权日2009年11月3日
发明者吴月萍 申请人:上海第二工业大学