一种网页评论内容的抽取方法
【技术领域】
[0001] 本申请设及网页信息分析处理技术领域,尤其是一种网页评论内容的抽取方法。
【背景技术】
[0002] 《2014年中国网络购物市场研究报告》显示,我国网民使用网络购物的比例从 48.9%提升至55.7%。快速积累的海量产品评论信息是商家和消费者进行需求调研或购物 决策的重要依据,从大量的结构迴异的网页中快速准确的抽取评论内容已然成为一个亟待 解决的问题。
[0003] 现有的网页信息抽取的方法有很多种,大致可分为W下几类:1、利用树编辑距离 的方法来抽取信息,但此方法涵盖大量的增、删、改操作,计算冗余量大,抽取准确率低。2、 基于视觉特征网页分块的方法抽取信息,但此方法局限性大,设定的数据区域块面积阔值 过大的话,对于评论条数少的网页不适用。3、基于最长公共子串的方法,该方法在将D0M树 转化为标签串的过程中丢失了节点的位置信息,导致整体相似性偏高。4、基于简单树匹配 的方法,该方法利用动态规划计算两颗树的最大匹配节点个数得到树之间的相似度,过于 严苛要求子节点顺序,导致评论节点对应的子树之间相似度偏低。
[0004] 现有的抽取方法:上海第二工业大学的申请号为200910198184.6,发明名称为"一 种基于互联网的模板抽取属性和评论词的方法"。该方法通过人工标注获取属性模板,工作 量大且一旦网页结构改变,模板也需随之改变,容易导致抽取效率低下。南京大学的申请号 为201310465730.4,发明名称为"一种基于小样本半监督学习的网页数据抽取方法"。该方 法需要大量的用户手工选择及标注,过多的人为参与会导致成本的增加和时间花费的增 加。大连灵动科技发展有限公司的申请号为201210491471.8,发明名称为"一种网页结构化 信息抽取方法"。该方法采用训练小部分网页作为训练集,将其他网页作为测试集,利用正 则表达式抽取其文本内容。针对经常变动的网页格式,正则表达式也需要随之改变,给抽取 工作带来了巨大的麻烦。
【发明内容】
[0005] 为克服现有技术的缺陷,本申请提供一种网页评论内容的抽取方法,降低时间复 杂度,提升抽取效率。
[0006] -种网页评论内容的抽取方法,包括W下步骤:获取网页源码;将网页源码转换成 D0M树结构,基于位置、文本长度和布局特征对D0M树进行剪枝预处理;通过深度加权子树相 似度算法抽取最佳频繁子树;通过树的一致性对齐方法求出最小评论区域,然后通过路径 文本长度抽取最频繁评论路径并提取评论内容。
[0007] 优选的,通过深度加权子树相似度算法抽取最佳频繁子树,具体包括:建立深度加 权树,设定深度权重的叶子节点权值为1,逐层向上的父亲节点深度依次加1; W树节点的标 签作为关键词,用相同标签的权值总和作为向量坐标,利用余弦向量算法构建节点相似度 算法,计算节点相似度;从根节点层次遍历整棵D0M树,计算当前节点的相似度值sim(R),再 计算其所有孩子节点的相似度值;判断根节点的相似度值是否同时满足既大于预置的相似 度阔值又大于其所有孩子节点的相似度值;若满足,停止遍历,此时该根节点的所有孩子节 点构成的孩子子树即为最佳频繁子树。
[0008] 优选的,当前节点的相似度值sim(R)的计算式为:
[0009]
[0010] 其中,X康示子树T1的节点标签向量,y康示子树T2的节点标签向量,W和W分另懐 示XI和yi的权值,m表示根节点R的孩子节点个数,Τι和T分别表示R的两颗孩子子树,叶子节 点的相似度值为0,只有一个孩子节点满足其父亲节点的相似度值等于其孩子节点的相似 度值.
[0011] 优选的,通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽 取最频繁评论路径并提取评论内容,具体包括:通过频繁子树对齐方法抽取最小评论区域, 计算子树对齐值c(Ti),将子树对齐值C(Ti)中最小值对应的子树作为最小评论区域;通过 路径的文本长度抽取最频繁评论路径,计算最小评论区域中每条从根节点到叶子节点的路 径频繁值L(pj),获取最频繁路径并抽取评论内容。
[0012] 优选的,子树对齐值C(Ti)的计算式为:
[0013]
[0014] 其中,Τι表示根节点下的第i棵子树,a表示第j个节点的对齐次数,η表示该子树的 节点总数,t表示频繁子树的总棵树。
[0015] 优选的,叶子节点的路径频繁值L(pj)的计算式为:
[0016]
[0017]其中,P表示第j条从根节点到叶子节点的路径,a表示该条路径中叶子节点的对齐 次数,t表示频繁子树的总棵树,len(Tk)表示第K棵子树中该路径包含的文本长度,len(T) 表示所有频繁子树中该路径包含的文本长度总和。
[0018]本申请具有W下优点:(1)时间复杂度低,通过预剪枝处理能有效的剔除网页中包 含的许多与评论内容无关的噪音,如广告、导航链接、版权信息等。降低时间复杂度,提高了 抽取效率;(2)抽取的准确率高,通过深度加权子树相似度度量方法能够有效的抽取出最佳 频繁子树,再结合后续的子树一致性对齐算法和频繁路径抽取算法能精准的定位评论路 径,从而抽取评论内容;(3)人工干预少,抽取过程全自动,不需要任何的人工标注,减少了 人工标注带来的人力成本和时间花费;(4)适应范围广,不用构造抽取模板,无需考虑网页 结构变更带来模板更新的麻烦。
【附图说明】
[0019]图巧本申请的原理示意图;
[0020]图2为某一实施例中预剪枝处理示意图;
[0021 ]图3为某一实施例中抽取最佳频繁子树示意图;
[0022] 图4为某一实施例中抽取评论路径示意图;
[0023] 图5为某一实施例中抽取评论内容的结果示意图。
【具体实施方式】
[0024] 下面通过【具体实施方式】结合附图对本发明作进一步详细说明。
[0025] 如图1所示,将来自不同平台的网页,如京东、苏宁等网页,通过ht化client工具包 模拟浏览器发送ht化协议,向网络请求资源,最后获取网页源码,再通过预处理模块将一个 网页解析成D0M树,通过节点位置、文本长度、布局特征等视觉信息对D0M树中的广告、导航 栏、版权信息等噪声进行剪枝,从而降低树操作的时间复杂度。通过解析模块抽取最佳