一种知识依赖的网页信息抽取方法
【技术领域】
[0001] 本发明提供一种网页信息抽取方法,具体涉及一种知识依赖的网页信息抽取方 法。
【背景技术】
[0002] 随着互联网信息的爆炸式增长,如何合理地组织信息,以便于人们有效、快捷及准 确地检索所需要的信息,是一个亟待解决的问题。通过浏览网页或关键词搜索来检索信息 等信息查询方式均存在一定的局限性,因此我们需要更为高效的信息查询方式。信息抽取 能够帮助人们方便地找到所需要的信息,而且信息的内容经过合理的分析和组织后,人们 可以有效地获取感兴趣的信息,并可在此基础上进一步进行数据挖掘、文本分类、数据分析 等后续信息处理。
[0003] 信息抽取是将文本中包含的信息进行结构化处理,使之成为类似表格的组织形 式。然而,Web页面具有动态异构性的特点,网页内容会随着时间的变化而动态改变,且不 同的网页在结构上存在较大差异,因此如何从不同Web页面中高质量地抽取所需要的信息 是非常重要的。
[0004] 如CN102495892A网页信息抽取方法,A.构建实例列表,从多源异构数据源中提 取列表中实例的候选属性;B.对提取到的属性进行同义归纳,将同义属性放在同一个集合 中;C.对归纳后的属性进行细分类;D.分析分类后的属性所对应的属性值类型;E.将属性 及其对应的属性值类型信息推荐给用户或者将其保存到结构化数据库中。
[0005] 典型的网页信息抽取还有通过建立D0M树来实现,如CN103559199A网页信息抽取 方法和装置:根据多个已标注属性的样本网页构建对应的多个第一D0M树,并根据多个第 一D0M树构建决策树;根据多个未标注属性的样本网页构建对应的多个第二D0M树,并根据 多个第二D0M树优化决策树;根据优化后的决策树抽取待抽取网页的结构化信息;其中,已 标注属性的样本网页、未标注属性的样本网页和待抽取网页属于同一领域。根据多个已标 注属性的样本网页构建决策树,根据多个未标注属性的样本网页优化该决策树,由于决策 树的构建和优化不单单依赖于网页的布局风格,因此优化后的决策树可以适用于同一领域 各种布局风格的网页的信息抽取。
【发明内容】
[0006] 本发明的目的是,提供一种知识依赖的网页信息抽取方法,提高网页信息抽取的 准确率与效率。
[0007] 本发明提供的技术方法如下:知识依赖的信息抽取方法,包括如下步骤:
[0008] A.根据领域知识构建领域本体;
[0009] B.抽取待分类信息及其周边文本;
[0010] C.基于信息增益算法选择特征词,并构建特征词词库;
[0011] D.计算带权词频,构造特征向量;
[0012] E.使用支持向量机训练初始分类模型;
[0013] F.根据领域本体构建特征并迭代训练分类器;
[0014] 步骤A所述数据源为领域知识及信息抽取结果的形式。
[0015] 所述步骤A的实现方法如下:
[0016] 本发明由领域专家根据领域知识及待抽取信息的结果形式构建本发明所需要领 域本体,即根据信息抽取的概念以及概念间的关系建立抽取的领域本体,供机器学习分类 器使用;根据信息抽取结果的形式及领域知识建立概念列表以及概念之间的关系,并使用 RDFS进行描述,构建方法如下:
[0017]A1.按照信息抽取的结果形式以及相应的领域知识,构建信息抽取的概念列表以 及概念之间的关系。
[0018] A2.根据信息抽取的概念以及概念间的关系构建基于RDF的领域知识库,保证知 识库的完整性与准确性。
[0019] A3.设计知识库与信息抽取模型的接口。
[0020] 资源描述框架(RDF)是用于描述网络资源的W3C标准,比如网页的标题、作者、修 改日期、内容以及版权信息。RDF还需要一种定义应用程序专业的类和属性的方法。应用程 序专用的类和属性必须使用对RDF的扩展来定义。RDFSchema就是这样一种扩展。
[0021 ] 所述步骤B的实现方法如下:
[0022] 对网页建立D0M(文档对象模型)树,对所述的D0M树按指定的抽取规则递归遍历 查找待抽取信息所在节点。对于可能包含待抽取信息的节点,从其所在节点开始抽取一定 量的周边文本信息,抽取方法如下:
[0023] B1.将当前节点的文本信息加入待抽取文本,待抽取文本的数量达到阈值则转步 骤B4,否则转步骤B2 ;
[0024] B2.按从左到右的顺序依次遍历抽取当前节点的兄弟节点的文本并加入待抽取文 本,直到待抽取文本的数量达到阈值,若文本量达到阈值则转步骤M,否则转步骤B3;
[0025] B3.向上回溯并抽取当前节点的父节点的文本并加入待抽取文本,若待抽取文本 的数量达到阈值则转步骤M,否则将其父节点置为当前节点,转步骤B2;
[0026] B4.将待抽取信息及其周边文本存储到文件中,供后续步骤使用。
[0027] 步骤C所述数据源为步骤B所抽取的待分类信息及其周边文本。
[0028] 所述步骤C的实现方法如下:
[0029] 基于信息增益(IG)的方法选择特征词,并构建特征词词库,方法如下:
[0030] C1.使用Ansj中文分词对周边文本信息进行中文分词,为保证信息抽取结果的准 确性,我们对抽取的文本信息进行预处理,去除非法字符和停用词。
[0031] C2.统计校准后的样本中,每个类别,以及每个特征词在类别出现的次数(文档频 率),分别写入相应表中。
[0032] C3.基于信息增益的特征选择算法,选择得分较高的若干个特征词,这些特征词 与类别具有较强的相关性。将这些特征词按类别分类存储到相应文件中,作为特征词库使 用。其中信息增益公式为:IG(X) =H(Y)-H(Y/X),信息增益衡量该特征在分类系统中的重 要性,信息熵为:Η(γ) = -Σ;。吻p(yi)r条件熵为:Η(Y|X) =Σxh(Y|X=X),其中 信息熵和条件熵用来描述系统的信息量。
[0033] 步骤D所述数据源为步骤B所抽取的待分类信息及其周边文本。
[0034] D.计算带权词频,构造特征向量
[0035] 将待抽取信息的周边文本进行中文分词并构建文本数组,定位待抽取信息,按照 距离衰减权重算法计算信息的带权词频,在不同的应用场景中可以动态调整其权重,以优 化分类器的分类效果。带权词频计算公式为:Fw=Σ(f*w),其中Fw为带权词频,f为特征 词词频,w为对应的权重。并依据计算得到的特征词词频构造特征向量。
[0036] 距离衰减权重算法:
[0037] DL距离待抽取信息距离为一的权重为八;
[0038] D2.距离待抽取信息距离在二到三之间的权重为四;
[0039] D3.距离待抽取信息距离在四到十之间的权重为二;
[0040] D4.距离待抽取信息距离在十以上的权重为一。
[0041] 步骤E所述数据源为步骤D中构造的特征向量。
[0042] 所述步骤E的实现方法如下:根据构造的特征向量训练支持向量机模型,并通过 优化参数,使模型具有较好的泛化能力。
[0043] 步骤F所述数据源为初始特征向量、初始分类结果及领域知识。
[0044] 所述步骤F的实现方法如下:该方法根据领域本体选择与该分类相关的分类器的 分类结果,计算其权重,并将分类结果乘以权重系数添加到新特征向量中。对初始的特征向 量进行特征选择,并适当的减少特征数量,添加到新的特征向量中,使特征向量的维数与初 始特征向量保持一致。根据构造的新特征变量迭代训练分类器,并得到最终的分类结果。
[0045] 本发明的有益效果:利用本发明的方案,人们可以有效地抽取所感兴趣的信息,并 可在此基础上进一步进行数据挖掘、文本分类、数据分析等后续信息处理。利用Ansj中文 分词、资源描述框架(RDF)和建立D0M(文档对象模型)树的结合提高网页信息抽取的准确 率与效率。
[0046] 和常用的方法相比较,该方法考虑了领域知识,在分类时不再使用和初始特征相 同的特征,而是重新进行特征选择,因此迭代所得的特征更具代表性,而且在迭代的权重计 算时,适当降低了那些对于类别区分度更高的特征项的权重,更有利于提高分类器的精度。
【附图说明】
[0047] 图1为本发明实例提供的知识依赖的网页信息抽取方法流程图。
【具体实施方式】
[0048] 假定需要抽取的信息为网页中的联系信息及其类别,输入则为概念的列表,即"联 系信息"、"非联系信息"、"公司联系信息"、"合作联系信息"等。根据抽取信息的概念以及概 念间的关系建立抽取本体。按照联系信息的特点抽取网页中匹配正则的信息及其周边文本 信息,并对抽取结果进行校准标记形成训练语料。对标记后的训练语料统计词频,对于其中 词频较高的关键词使用信息增益算法选择特征词,构建特征词词库。使用距离衰减算法计 算训练样本的带权词频,并构造特征向量。将得到的特征向量及其类别输入支持向量机进 行训练,得到初始分类模型。使用初始分类模型进行初步预测,根据领域本体、各分类器分 类结果以及初始特征向量重新构建特征向量,并迭代训练新的分类模型,得到最终的分类 器分类结果。
[0049] A.根据领域知识构建领域本体
[0050] 步骤如下:
[0051] A1.按照信息抽取的结果形式以及相应的领域知识,构建概念列表,8卩"联系信 息"、"非联系信息"、"公司联系信息"、"合作联系信息"等,以及概念之间的