一种网页数据结构化解析方法和装置的制造方法

文档序号:8381057阅读:410来源:国知局
一种网页数据结构化解析方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机应用技术领域,特别涉及一种网页数据结构化解析方法和装 置。
【背景技术】
[0002] 随着大数据时代的来临,全球企业都对于大数据充满了积极的热情,大数据分析 处理也应运而生。大数据处理流程包括数据采集、数据存储整合、数据预处理、数据挖掘分 析、数据展现应用。传统行业企业在开展大数据时,首先面对的就是如何打通内部数据与外 部数据,也就是如何获得基于企业内部数据之外的互联网数据。然而互联网采集的数据一 般都是无结构或半结构化的文本、图片、音频以及视频等等。如何将这些数据解析并结构 化,将是与组织内数据整合以进行数据挖掘的必不可少的工作。
[0003] 目前,数据解析结构化的一种方法为知识管理方法,它的特色是知识工程师负责 为IE系统中标注或抽取信息的组件编写相应的规则,IE系统中存在由熟悉该领域的知识 工程师开发的语法组件。一个高性能的系统常常需要一个迭代过程:首先知识工程师凭自 己的直觉根据文集编写规则;然后,系统在一个文本文集中运行,工程师则再根据输出的结 果评估原有规则是否合适或正确,并对其作出适当的修改;接着再运行,再修改……,一直 到达到了理想的性能。这种方法主要依靠该领域内的专业工程师完成,需要大量的劳动来 发现相关的模式或者规则,人工依赖程度较高。

【发明内容】

[0004] 本发明提供一种网页数据结构化解析方法和装置,以解决上述问题。
[0005] 本发明实施例提供了一种网页数据结构化解析方法,包括步骤:
[0006] 步骤A,采集一领域同一类型的模板网页多个,对采集到的模板网页的数据进行 正文提取和按预设规则进行结构化解析,将提取的正文和对应的解析后的数据作为训练语 料;
[0007] 步骤B,提取该领域多种类型的模板网页各多个,从中获取结构化项名及其在不同 网页中的各种别名;
[0008] 步骤C,根据所述训练语料,训练解析模型;
[0009] 步骤D,对待解析的网页数据进行解析模型解码,并与所述结构化项名及其别名进 行比对,获得结构化数据。
[0010] 其中,所述步骤C包括步骤:
[0011] 构建解析模型θ (N,M,A,B,p,q),其中,N为状态数目,设状态集合为S = Is1, s2,. . .,sN},为模型的隐含状态;M为观察符号数目,设观察符号集合为E = Ie1, e2,. . .,eM}; A为状态转移矩阵,简记为au,表示在t时刻,状态Si的条件下,t+1时刻状态为s」的 概率;B为观察符号概率矩阵,其中简记为I3ij,表示当处于状态Si时观察到符号^的 概率
【主权项】
1. 一种网页数据结构化解析方法,其特征在于,包括步骤: 步骤A,采集一领域同一类型的模板网页多个,对采集到的模板网页的数据进行正文提 取和按预设规则进行结构化解析,将提取的正文和对应的解析后的数据作为训练语料; 步骤B,提取该领域多种类型的模板网页各多个,从中获取结构化项名及其在不同网页 中的各种别名; 步骤C,根据所述训练语料,训练解析模型; 步骤D,对待解析的网页数据进行解析模型解码,并与所述结构化项名及其别名进行比 对,获得结构化数据。
2. 根据权利要求1所述的网页数据结构化解析方法,其特征在于,所述步骤C包括步 骤: 构建解析模型9 "肩^,84,0,其中州为状态数目,设状态集合为3={81,82,一,sN},为模型的隐含状态;M为观察符号数目,设观察符号集合为E= {ei,e2,…,eM} ;A为 状态转移矩阵,简记为au,表示在t时刻,状态Si的条件下,t+1时刻状态为\的概 率;B为观察符号概率矩阵,其中简记为,表示当处于状态Si时观察到符号e」的概
率 ▲也 ,3初始状态概率矢量,其中P%,简记为Pi,表示初始选取的状 态为^的概率;
3结束状态概率矢量,其中简记为%,表示 随机过程结束于状态^的概率; 根据所述训练语料,使用统计的方法计算出所述解析模型的参数A、B、p、q:aiJ=p(sJ|si) ^C(Si,sJ)/C(si) 其中C(Si,Sj)表示状态Si下一个状态是s」的次数;C(s)表示状态Si出现的次数;biJ=p(eJ|si) ^C(ej,si)/C(si) 其中C(ej,Si)表示ej作为状态si出现的次数;C(s)表示状态Si出现的次数; Pi=p(sJt= 1) ^C(Si11 = 1)/C(r) 其中C(Si11 = 1)表示初始t= 1时刻次数;C(r)表示训练语料的句子数; =q(si11 =L) ^C(Si11 =L)/C(r) 其中C(Si|t= 1)表示随机序列最后时刻L终止与&的次数;C(r)表示训练语料的句 子数。
3. 根据权利要求1所述的网页数据结构化解析方法,其特征在于,所述步骤A之前还包 括步骤:预先使用htmlunit编写解析规则; 所述步骤A中对采集到的模板网页的数据进行正文提取和按预设规则进行结构化解 析,包括步骤:对采集的模板网页的数据使用ContentExtractor-master算法进行正文提 取得到网页正文,按所述解析规则进行结构化解析。
4. 根据权利要求1所述的网页数据结构化解析方法,其特征在于,所述步骤B中提取该 领域多种类型的模板网页各多个,包括步骤: 分别构建多种类型的模板网页的D0M树,将各个D0M树中的节点名称按广度遍历加入 各个队列,生成各个D0M树节点队列,对所有D0M树节点队列,按队列顺序取出节点名称进 行比较,相同的加入DOM分类树节点中,不同的建立树分叉然后加入,得到对应各分类网页 的D0M树模板网页。
5. 根据权利要求1所述的网页数据结构化解析方法,其特征在于,所述步骤B中从中获 取结构化项名及其在不同网页中的各种别名,包括步骤: 获取结构化项名的各个分词,查找所述各个分词在同义词词库中的编码,生成结构化 项名的分词列表,该分词列表中包括结构化项名的各个分词及该各个分词对应的编码,提 取各个网页的各个实体词,查找所述各个实体词在同义词词库中的编码;利用各个实体词, 构建与结构化项名对应的各个网页的各个实体词组合,生成并保存各个网页的实体词组合 列表,该各个网页的实体词组合列表中包括各个实体词组合及该各个实体词组合对应的 编码;利用所述结构化项名各个分词对应的编码和各个网页的各个实体词组合对应的编 码,同义匹配所述结构化项名的分词列表与所述各个网页的实体词组合列表,得到对应于 所述结构化项名的各种别名。
6. 根据权利要求1-5任一项所述的网页数据结构化解析方法,其特征在于,所述步骤D 之后还包括步骤:调整所述训练语料,重新计算所述解析模型的参数。
7. -种网页数据结构化解析装置,其特征在于,包括采集模块、获取模块、训练模块和 解码模块; 所述采集模块,用于采集一领域同一类型的模板网页多个,对采集到的模板网页的数 据进行正文提取和按预设规则进行结构化解析,将提取的正文和对应的解析后的数据作为 训练语料; 所述获取模块,用于提取该领域多种类型的模板网页各多个,从中获取结构化项名及 其在不同网页中的各种别名; 所述训练模块,用于根据所述训练语料,训练解析模型; 所述解码模块,用于对待解析的网页数据进行解析模型解码,并与所述结构化项名及 其别名进行比对,获得结构化数据。
8. 根据权利要求7所述的网页数据结构化解析装置,其特征在于,所述训练模块,用于 构建解析模型,并根据所述训练语料,使用统计的方法计算出解析模型的参数。
9. 根据权利要求7所述的网页数据结构化解析装置,其特征在于,所述获取模块,包括 模板网页提取模块,所述模板网页提取模块,用于分别构建多种类型的模板网页的D0M树, 将各个D0M树中的节点名称按广度遍历加入各个队列,生成各个D0M树节点队列,对所有 D0M树节点队列,按队列顺序取出节点名称进行比较,相同的加入D0M分类树节点中,不同 的建立树分叉然后加入,得到对应各分类网页的D0M树模板网页。
10. 根据权利要求7所述的网页数据结构化解析装置,其特征在于,所述获取模块,还 包括别名获取模块,所述别名获取模块,用于获取结构化项名的各个分词,查找所述各个分 词在同义词词库中的编码,生成结构化项名的分词列表,该分词列表中包括结构化项名的 各个分词及该各个分词对应的编码,提取各个网页的各个实体词,查找所述各个实体词在 同义词词库中的编码;利用各个实体词,构建与结构化项名对应的各个网页的各个实体词 组合,生成并保存各个网页的实体词组合列表,该各个网页的实体词组合列表中包括各个 实体词组合及该各个实体词组合对应的编码;利用所述结构化项名各个分词对应的编码和 各个网页的各个实体词组合对应的编码,同义匹配所述结构化项名的分词列表与所述各个 网页的实体词组合列表,得到对应于所述结构化项名的各种别名。
【专利摘要】本发明提供一种网页数据结构化解析方法,该方法首先根据某种模板网页编写根据规则提取信息的程序,获得训练语料;同时,利用逆向文档频率IDF获取可能的要结构化的项的可能名称;然后利用所述训练语料训练隐马尔科夫模型,确定参数;使用相关算法对待解析网页进行隐马尔科夫模型解码,获得最终结构化数据。本发明还提供一种网页数据结构化解析装置,包括采集模块、获取模块、训练模块和解码模块。该方法和装置,交由模型本身的智能解析和自学习的特点来完成,无需领域专家投入太多精力,人工依赖程度低,大大提高了解析的准确率、性能和效率。
【IPC分类】G06F17-30
【公开号】CN104699797
【申请号】CN201510119703
【发明人】范莹, 于治楼, 梁华勇
【申请人】浪潮集团有限公司
【公开日】2015年6月10日
【申请日】2015年3月18日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1