一种确定信息块的位置信息的方法及装置的制造方法

文档序号:10724982阅读:188来源:国知局
一种确定信息块的位置信息的方法及装置的制造方法
【专利摘要】本发明公开了一种确定信息块的位置信息的方法,包括:将待处理网页内容转换成模型树,模型树中包含多个节点;针对每种类型的信息块,在多个节点中搜索该种类型信息块的特征信息,特征信息为用于描述该种类型信息块的表现形式的信息;确定包含特征信息的每个节点的权重值,包含特征信息的每个节点包括第一节点和第二节点,第一节点为直接包含特征信息的节点,第二节点为自身不直接包含特征信息的节点;确定特定节点所聚类的信息块的位置信息为该种类型信息块的位置信息,特定节点包括权重值最大的节点,以及权重值最大的节点下属的所有节点。本申请提供的方案可以通过节点聚类的方式准确的自动定位出信息块的位置信息,提高了信息块定位的效率。
【专利说明】
一种确定信息块的位置信息的方法及装置
技术领域
[0001] 本发明涉及信息处理技术领域,具体涉及一种确定信息块的位置信息的方法及装 置。
【背景技术】
[0002] 当前因特网上的各种网页中,通常都伴随有大量的广告和无关链接。尤其是例如 小说等用户阅读类的网页,大量的广告和无关链接不仅浪费流量,还给用户带来了很大的 干扰。
[0003] 因此,如果能在终端设备侧展示网页之前,就对网页中的干扰信息进行过滤,就可 以避免流量浪费和用户干扰问题。
[0004] 对干扰信息进行过滤,需要准确定位出网页中各种类型信息块的位置,以小说为 例,信息块可以是小说的标题和正文等。
[0005] 通常,由于不同网站的网页排版布局不同,即便是同一网站,网页排版布局也经常 变化,当前对网页中信息块定位的方法都是依靠人工来实现的,需要长期对网页排版布局 进行监测,在网页排版布局发生变化后,需要人工再次同步修改配置。这种方法虽然能准确 定位网页中信息块的位置,但需要长期不断的对网站的网页进行监控和维护。不光成本高, 而且定位效率低下。

【发明内容】

[0006] 为解决现有技术中网页中信息块的定位效率低下问题,本发明实施例提供一种确 定信息块的位置信息的方法,可以通过节点聚类的方式准确的自动定位出信息块的位置信 息,提高了信息块定位的效率。本发明实施例还提供了相应的装置。
[0007] 本发明第一方面提供一种确定信息块的位置信息的方法,包括:
[0008] 将待处理网页内容转换成模型树,所述模型树中包含多个节点;
[0009] 针对每种类型的信息块,在所述多个节点中搜索该种类型信息块的特征信息,所 述特征信息为用于描述该种类型信息块的表现形式的信息;
[0010]确定包含所述特征信息的每个节点的权重值,所述包含特征信息的每个节点包括 第一节点和第二节点,所述第一节点为直接包含所述特征信息的节点,所述第二节点为不 直接包含所述特征信息的节点;
[0011]确定特定节点所聚类的信息块的位置信息为该种类型信息块的位置信息,所述特 定节点包括权重值最大的节点,以及所述权重值最大的节点下属的所有节点。
[0012] 本发明第二方面提供一种确定信息块的位置信息的装置,包括:
[0013] 转换单元,用于将待处理网页内容转换成模型树,所述模型树中包含多个节点;
[0014] 搜索单元,用于针对每种类型的信息块,在所述转换单元转换的所述模型树的多 个节点中搜索该种类型信息块的特征信息,所述特征信息为用于描述该种类型信息块的表 现形式的信息;
[0015] 第一确定单元,用于确定包含所述搜索单元搜索的特征信息的每个节点的权重 值,所述包含特征信息的每个节点包括第一节点和第二节点,所述第一节点为直接包含所 述特征信息的节点,所述第二节点为不直接包含所述特征信息的节点;
[0016] 第二确定单元,用于确定特定节点所聚类的信息块的位置信息为该种类型信息块 的位置信息,所述特定节点包括所述第一确定单元所确定的每个节点的权重值中权重值最 大的节点,以及所述权重值最大的节点下属的所有节点。
[0017] 与现有技术中通过人工方式定位网页中的信息块的定位效率低下相比,本发明实 施例提供的确定信息块的位置信息的方法,可以通过节点聚类的方式准确的自动定位出信 息块的位置信息,提高了信息块定位的效率。
【附图说明】
[0018] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附 图。
[0019] 图1是本发明实施例中确定信息块的位置信息的方法的一实施例示意图;
[0020] 图2是本发明实施例中模型树的一示例示意图;
[0021 ]图3是本发明实施例中模型树的另一示例示意图;
[0022] 图4是本发明实施例中从图3所示的模型树中抽取出的包含特征信息的节点的一 示意图;
[0023] 图5是本发明实施例中从图3所示的模型树中抽取出的包含特征信息的节点的另 一示意图;
[0024] 图6是本发明实施例中确定信息块的位置信息的装置的一实施例示意图;
[0025] 图7是本发明实施例中确定信息块的位置信息的装置的另一实施例示意图;
[0026] 图8是本发明实施例中服务器的一实施例示意图。
【具体实施方式】
[0027] 本发明实施例提供一种确定信息块的位置信息的方法,可以通过节点聚类的方式 准确的自动定位出信息块的位置信息,提高了信息块定位的效率。本发明实施例还提供了 相应的装置。以下分别进行详细说明。
[0028] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
[0029] 参阅图1,本发明实施例提供的确定信息块的位置信息的方法的一实施例包括:
[0030] 101、将待处理网页内容转换成模型树,所述模型树中包含多个节点。
[0031] 以文本类内容为例,网页内容指的是可以包括标题、正文,以及人物介绍等内容。
[0032] 模型树是按照网页内容各部分所属的分支进行划分,将各部分按照层次结构划分 到不同的节点中所形成的。图2位一个简单的模型树示意图。如图2所示,模型树按照层次结 构可以包括节点0,节点0下属有节点1和节点2两个节点,节点1下属有节点11 一个节点,节 点2下属有节点21和节点22两个节点。
[0033] 102、针对每种类型的信息块,在所述多个节点中搜索该种类型信息块的特征信 息,所述特征信息为用于描述该种类型信息块的表现形式的信息。
[0034]信息块的类型指的是网页中所包含的信息的种类,以文本类内容为例,信息块的 类型可以包括目录、文章标题、文章正文、作者简介以及索引介绍等。
[0035] 特征块的特征信息指的是用于描述该种类型信息块的表现形式的信息,例如:信 息块是纯文本、链接或者图片等表现形式的信息。
[0036] 若信息块的类型是文章正文,则特征信息可以是纯文本,若信息块的类型是目录, 则特征信息可以是链接。
[0037] 搜索过程可以是从最上层的节点开始,逐个扫描,例如:图2中可以从节点0开始, 逐个扫描其他节点。
[0038] 扫描时是针对一种类型,逐个扫描节点。如针对目录,逐个扫描每个节点中是否有 链接特征信息。针对文章正文,逐个扫描每个节点中是否有纯文本特征信息。
[0039] 模型树中可以包括多个节点,但并不一定每个节点都包含该种类型的特征信息。 因此,针对每种类型,确定出包含该种类型所对应特征信息的节点。
[0040] 例如:确定出节点2、节点21和节点22中包含文章正文的纯文本特征信息。
[0041] 103、确定包含所述特征信息的每个节点的权重值,所述包含特征信息的每个节点 包括第一节点和第二节点,所述第一节点为直接包含所述特征信息的节点,所述第二节点 为不直接包含所述特征信息的节点。
[0042] 本申请中所描述的包含特征信息的节点包括直接包含和间接包含两种,直接包含 是指该节点自身就包含该种类型的特征信息。间接包含是指该节点不包含该种类型的特征 信息,但是该节点的子节点或孙节点可能包含该种类型的特征信息,也就是说无论该节点 下属的哪层节点中包含该种类型的特征信息,都属于该节点间接包含该种类型的特征信 息。
[0043] 关于每个节点的权重值计算可以预先配置算法,当节点中直接包含特征信息时, 可以将特征信息的相关参数输入到权重值算法中,从而计算出该节点的相关特征信息的权 重值。例如:当特征信息是链接时,可以将链接长度输入权重值算法中,从而计算出该节点 链接特征的权重值,当特征信息是纯文本时,可以将纯文本的字符数量输入到权重值算法 中,从而计算出该节点纯文本的权重值,当然各种特征信息的权重值算法可以是不同的。
[0044] 当节点中间接包含特征信息时,可以通过其下属的子节点的权重值计算得到该节 点的权重值,例如:当节点2不包含纯文本特征信息,节点21和节点22包含该纯文本特征信 息,贝可以通过上述算法的计算方式计算出节点21和节点22的权重值,然后通过节点21和 节点22的权重值计算出节点2的权重值。
[0045] 104、确定特定节点所聚类的信息块的位置信息为该种类型信息块的位置信息,所 述特定节点包括权重值最大的节点,以及所述权重值最大的节点下属的所有节点。
[0046] 针对同一类型,各节点的权重值都确定出来后,可以从中找出权重值最大的节点, 例如:节点2的权重值最大,节点21和节点22都是节点2的下属节点,则节点2、节点21和节点 22都是本申请中所描述的特定节点。
[0047] 若节点21和节点22还有其他节点,则节点21和节点22下属的其他节点也属于特定 节点。
[0048] 这些特定节点所聚类的信息块的位置信息为该种类型信息块的位置信息,也就是 说节点2、节点21和节点22所聚类的信息块的位置信息为该种类型信息块的位置信息,若节 点2、节点21和节点22所聚类的信息块是文章正文,则该网页中文章正文的位置信息就是节 点2、节点21和节点22所聚类的信息块的位置信息。
[0049] 与现有技术中通过人工方式定位网页中的信息块的定位效率低下相比,本发明实 施例提供的确定信息块的位置信息的方法,可以通过节点聚类的方式准确的自动定位出信 息块的位置信息,提高了信息块定位的效率。
[0050] 可选地,所述确定包含所述特征信息的每个节点的权重值,可以包括:
[0051 ]针对每个第一节点,根据预置算法确定所述直接包含所述特征信息的每个第一节 点的权重值;
[0052]针对每个第二节点,将其直接从属的子节点的权重值做和运算后,再乘以一个收 缩因子,确定所述每个第二节点的权重值。
[0053]用公式表示为:
[0054] weight (第二节点)= Θ*Σ weight (第一节点)
[0055] 本发明实施例中,若以图2中的节点2、节点21和节点22为例,当节点21和节点22是 第一节点,节点2是第二节点时,节点21的权重值是1.5,节点22的权重值是1.8,则节点2的 权重值就可以是(1.5+1.8) *θ,Θ为收缩因子,Θ的取值可以是〇. 5到1之间的一个数值,例如: 取0.8,则节点2的权重值就等于(1.5+1.8)*0.8 = 1.84。
[0056] 可选地,所述确定包含所述特征信息的每个节点的权重值,可以包括:
[0057] 针对不同类型的信息块,并行确定包含不同类型特征信息的每个节点的权重值。 [0058]本发明实施例中,可以同时确定不同类型特征信息的权重值,例如:可以同时确定 链接特征信息的权重值和纯文本特征信息的权重值,两者不冲突。
[0059] 可选地,所述将待处理网页内容转换成模型树,可以包括:
[0060] 将超文本标记语言HTML形式的待处理网页内容按照主从节点的关系,逐步转换成 文档对象模型D0M节点,在所述待处理网页内容都转换完成后得到D0M树;
[0061] 在转换过程中,若检测到所述待处理网页内容中存在错误,则纠正所述错误,并将 纠正后的内容划分到相应的D0M节点中。
[0062] 本发明实施例中所涉及到的网页可以是超文本标记语言(hypertext markup language,HTML)的形式。
[0063] 下面以一个HTML网页为例,介绍HTML网页转换成文档对象模型(Document Object Model,D0M)树的过程。
[0064] HTML 网页为:
[0067] 以上HTML网页内容,按照网页内容中的层次和分支,转换成如图3所示的DOM树, D0M树上包含的节点可以称为D0M节点。
[0068] 首先,基于D0M标准,将HTML文本转换成程序内存中的一棵D0M树。这在回避传统方 法中需要面对分词和文本语义识别的问题的同时,还能兼得两个好处:一是可以使用成熟 的树遍历算法来搜索D0M树中的任何位置;二是在生成D0M树的过程中,可以同步纠正HTML 文档本身的错误,比如残缺的DIV元素等等。即使是不认识的自定义的元素,也最终能变成 D0M树上的一个普通节点,不会妨碍D0M树的遍历操作。
[0069]转换得到如图3所示的D0M树后,接下来针对不同类型的信息块,逐个节点搜索该 类型的特征信息,如搜索标题类型的特征信息,特征信息是连续的少量文字。
[0070] 从搜索结果来看,有图4中的节点32直接包含该标题类型的特征信息,节点30、节 点31属于不直接包含该标题类型的特征信息,则可以按照标题的权重值算法计算节点32的 权重值。
[0071] 若计算出节点32的权重值为2.57,节点31、节点30可以根据节点32与权重因子的 乘积进行依次计算,若θ = 0.7,则节点31的权重值为1.8。之后再将节点31的权重与权重因 子相乘得到节点30的权重值位1.26。
[0072] 由此可见,针对标题类型,权重值最大的节点是节点32,则可以将节点32作为特定 节点。节点32所聚类的信息块的位置信息即为该标题信息块的位置信息,若节点32所聚类 的信息块的位置信息为/html/body/div[4],则标题的位置信息即为/html/body/div[4]/。
[0073]同理,若在图3所示的DOM树中逐个节点搜索正文的特征信息,正文的特征信息可 以是连续的大量字符,例如:可以设置30为门限,当连续的字符数量大于30时,则认为是正 文。
[0074]从搜索结果来看,有图5所示的节点43、节点44和节点45直接包含正文的特征信 息。贝可以按照正文的权重值算法计算节点43、节点44和节点45的权重值。
[0075]若计算出节点43、节点44和节点45分别为1,节点41、节点42、节点40属于间接包括 正文的特征信息,则可以采用上述第一节点和第二节点之间的计算关系式,通过收缩因子 计算节点41、节点42、节点40的权重值,若收缩因子θ = 〇.7,则节点41的权重值为1*0.7 = 0.7,节点 42 的权重为(1+1)*0.7 = 1.4,节点 40 的权重值为(0·7+1·4)*0·7 = 1·47。
[0076] 由此可见,针对正文类型,权重值最大的节点为节点40,则可以确定针对正文的特 定节点包括节点40、节点41、节点42、节点43、节点44和节点45。节点40、节点41、节点42、节 点43、节点44和节点45所聚类的信息块的位置信息即为正文的位置信息,若节点40、节点 41、节点42、节点43、节点44和节点45所聚类的信息块的位置信息为/html/body/div[8]/, 则正文的位置信息为/html/body/div[8]/。
[0077] 可选地,所述确定特定节点所聚类的信息块的位置信息为该种类型信息块的位置 信息之后,所述方法还可以包括:
[0078] 建立信息块的类型与该种类型信息块的位置信息之间的对应关系,所述对应关系 用于过滤网页中的干扰信息。
[0079] 本发明实施例中,在确定每种类型信息块的位置信息后,可以建立信息块的类型 与该种类型信息块的位置信息之间的对应关系。
[0080] 对应关系可以用表格的形式表示,也可以用其他形式表示,若以表格的形式表示, 可以参阅表1进行理解。
[0081] 表1:信息块的类型与该种类型信息块的位置信息之间的对应关系
[0083] 以上表1只是列举了几种类型进行说明,并没有穷举信息块的类型与该种类型信 息块的位置信息之间的全部对应关系,因此,以上表1的内容不应理解为是对信息块的类型 与该种类型信息块的位置信息的对应关系所包含的内容的限定。
[0084] 因为网页中可能包含广告等干扰信息,所以在确定出上述有用信息的位置后,就 可以把绝大部分的广告等干扰信息剔除到使用范围之外了。
[0085] 为实现上述图1至图5部分所描述的确定信息块的位置信息的方法,本申请还提供 了相应的装置,该装置各部分模块所执行的功能,可以结合在图1至图5部分的方法实施例 进行理解。
[0086] 参阅图6,本发明实施例提供的确定信息块的位置信息的装置的一实施例包括:
[0087] 转换单元501,用于将待处理网页内容转换成模型树,所述模型树中包含多个节 占 .
[0088] 搜索单元502,用于针对每种类型的信息块,在所述转换单元501转换的所述模型 树的多个节点中搜索该种类型信息块的特征信息,所述特征信息为用于描述该种类型信息 块的表现形式的信息;
[0089]第一确定单元503,用于确定包含所述搜索单元502搜索的特征信息的每个节点的 权重值,所述包含特征信息的每个节点包括第一节点和第二节点,所述第一节点为直接包 含所述特征信息的节点,所述第二节点为不直接包含所述特征信息的节点;
[0090] 第二确定单元504,用于确定特定节点所聚类的信息块的位置信息为该种类型信 息块的位置信息,所述特定节点包括所述第一确定单元503所确定的每个节点的权重值中 权重值最大的节点,以及所述权重值最大的节点下属的所有节点。
[0091] 本发明实施例中,转换单元501将待处理网页内容转换成模型树,所述模型树中包 含多个节点;搜索单元502针对每种类型的信息块,在所述转换单元501转换的所述模型树 的多个节点中搜索该种类型信息块的特征信息,所述特征信息为用于描述该种类型信息块 的表现形式的信息;第一确定单元503确定包含所述搜索单元502搜索的特征信息的每个节 点的权重值,所述包含特征信息的每个节点包括第一节点和第二节点,所述第一节点为直 接包含所述特征信息的节点,所述第二节点为不直接包含所述特征信息的节点;第二确定 单元504确定特定节点所聚类的信息块的位置信息为该种类型信息块的位置信息,所述特 定节点包括所述第一确定单元503所确定的每个节点的权重值中权重值最大的节点,以及 所述权重值最大的节点下属的所有节点。与现有技术中通过人工方式定位网页中的信息块 的定位效率低下相比,本发明实施例提供的确定信息块的位置信息的装置,可以通过节点 聚类的方式准确的自动定位出信息块的位置信息,提高了信息块定位的效率。
[0092] 可选地,所述第一确定单元503用于:
[0093] 针对每个第一节点,根据预置算法确定所述直接包含所述特征信息的每个第一节 点的权重值;
[0094] 针对每个第二节点,将其直接从属的子节点的权重值做和运算后,再乘以一个收 缩因子,确定所述每个第二节点的权重值。
[0095] 可选地,所述第一确定单元503,用于针对不同类型的信息块,并行确定包含不同 类型特征信息的每个节点的权重值。
[0096] 可选地,所述转换单元501用于:
[0097]将超文本标记语言HTML形式的待处理网页内容按照主从节点的关系,逐步转换成 文档对象模型D0M节点,在所述待处理网页内容都转换完成后得到D0M树;
[0098]在转换过程中,若检测到所述待处理网页内容中存在错误,则纠正所述错误,并将 纠正后的内容划分到相应的D0M节点中。
[0099]可选地,参阅图7,本发明实施例提供的确定信息块的位置信息的装置50的另一实 施例中,所述装置50还包括:
[0100]建立单元505,用于在所述第二确定单元504确定该种类型信息块的位置信息之 后,建立信息块的类型与该种类型信息块的位置信息之间的对应关系,所述对应关系用于 过滤网页中的干扰信息。
[0101] 本发明实施例所提供的确定信息块的位置信息的装置可以通过服务器或者物理 主机来实现,下面以服务器为例,介绍确定信息块的位置信息的方法依靠服务器实现的过 程。
[0102] 图8是本发明实施例提供的服务器60的结构示意图。所述服务器60包括处理器 610、存储器650和收发器630,存储器650可以包括只读存储器和随机存取存储器,并向处理 器610提供操作指令和数据。存储器650的一部分还可以包括非易失性随机存取存储器 (NVRAM)〇
[0103] 在一些实施方式中,存储器650存储了如下的元素,可执行模块或者数据结构,或 者他们的子集,或者他们的扩展集:
[0104] 在本发明实施例中,通过调用存储器650存储的操作指令(该操作指令可存储在操 作系统中),
[0105]将待处理网页内容转换成模型树,所述模型树中包含多个节点;
[0106] 针对每种类型的信息块,在所述多个节点中搜索该种类型信息块的特征信息,所 述特征信息为用于描述该种类型信息块的表现形式的信息;
[0107] 确定包含所述特征信息的每个节点的权重值,所述包含特征信息的每个节点包括 第一节点和第二节点,所述第一节点为直接包含所述特征信息的节点,所述第二节点为不 直接包含所述特征信息的节点;
[0108] 确定特定节点所聚类的信息块的位置信息为该种类型信息块的位置信息,所述特 定节点包括权重值最大的节点,以及所述权重值最大的节点下属的所有节点。
[0109] 与现有技术中通过人工方式定位网页中的信息块的定位效率低下相比,本发明实 施例提供的服务器,可以通过节点聚类的方式准确的自动定位出信息块的位置信息,提高 了信息块定位的效率。
[0110] 处理器610控制服务器60的操作,处理器610还可以称为CPU(Central Processing Unit,中央处理单元)。存储器650可以包括只读存储器和随机存取存储器,并向处理器610 提供指令和数据。存储器650的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体 的应用中服务器60的各个组件通过总线系统620耦合在一起,其中总线系统620除包括数据 总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在 图中将各种总线都标为总线系统620。
[0111] 上述本发明实施例揭示的方法可以应用于处理器610中,或者由处理器610实现。 处理器610可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各 步骤可以通过处理器610中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理 器610可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列 (FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或 者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或 者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直 接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完 成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可 编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器650,处理器610读 取存储器650中的信息,结合其硬件完成上述方法的步骤。
[0112] 可选地,处理器610用于:
[0113] 针对每个第一节点,根据预置算法确定所述直接包含所述特征信息的每个第一节 点的权重值;
[0114] 针对每个第二节点,将其直接从属的子节点的权重值做和运算后,再乘以一个收 缩因子,确定所述每个第二节点的权重值。
[0115] 可选地,处理器610用于:
[0116] 针对不同类型的信息块,并行确定包含不同类型特征信息的每个节点的权重值。
[0117] 可选地,处理器610用于:
[0118] 将超文本标记语言HTML形式的待处理网页内容按照主从节点的关系,逐步转换成 文档对象模型D0M节点,在所述待处理网页内容都转换完成后得到D0M树;
[0119]在转换过程中,若检测到所述待处理网页内容中存在错误,则纠正所述错误,并将 纠正后的内容划分到相应的D0M节点中。
[0120] 可选地,处理器610用于:
[0121]建立信息块的类型与该种类型信息块的位置信息之间的对应关系,所述对应关系 用于过滤网页中的干扰信息。
[0122] 以上的服务器60可以参阅图1至图5部分的描述进行理解,本处不做过多赘述。
[0123] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可 以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储 介质可以包括:R〇M、RAM、磁盘或光盘等。
[0124] 以上对本发明实施例所提供的确定信息块的位置信息的方法以及装置进行了详 细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说 明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据 本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不 应理解为对本发明的限制。
【主权项】
1. 一种确定信息块的位置信息的方法,其特征在于,包括: 将待处理网页内容转换成模型树,所述模型树中包含多个节点; 针对每种类型的信息块,在所述多个节点中搜索该种类型信息块的特征信息,所述特 征信息为用于描述该种类型信息块的表现形式的信息; 确定包含所述特征信息的每个节点的权重值,所述包含特征信息的每个节点包括第一 节点和第二节点,所述第一节点为直接包含所述特征信息的节点,所述第二节点为不直接 包含所述特征信息的节点; 确定特定节点所聚类的信息块的位置信息为该种类型信息块的位置信息,所述特定节 点包括权重值最大的节点,以及所述权重值最大的节点下属的所有节点。2. 根据权利要求1所述的方法,其特征在于,所述确定包含所述特征信息的每个节点的 权重值,包括: 针对每个第一节点,根据预置算法确定所述直接包含所述特征信息的每个第一节点的 权重值; 针对每个第二节点,将其直接从属的子节点的权重值做和运算后,再乘以一个收缩因 子,确定所述每个第二节点的权重值。3. 根据权利要求1所述的方法,其特征在于,所述确定包含所述特征信息的每个节点的 权重值,包括: 针对不同类型的信息块,并行确定包含不同类型特征信息的每个节点的权重值。4. 根据权利要求1-3任一所述的方法,其特征在于,所述将待处理网页内容转换成模型 树,包括: 将超文本标记语言HTML形式的待处理网页内容按照主从节点的关系,逐步转换成文档 对象模型DOM节点,在所述待处理网页内容都转换完成后得到DOM树; 在转换过程中,若检测到所述待处理网页内容中存在错误,则纠正所述错误,并将纠正 后的内容划分到相应的DOM节点中。5. 根据权利要求1-3任一所述的方法,其特征在于,所述确定特定节点所聚类的信息块 的位置信息为该种类型信息块的位置信息之后,所述方法还包括: 建立信息块的类型与该种类型信息块的位置信息之间的对应关系,所述对应关系用于 过滤网页中的干扰信息。6. -种确定信息块的位置信息的装置,其特征在于,包括: 转换单元,用于将待处理网页内容转换成模型树,所述模型树中包含多个节点; 搜索单元,用于针对每种类型的信息块,在所述转换单元转换的所述模型树的多个节 点中搜索该种类型信息块的特征信息,所述特征信息为用于描述该种类型信息块的表现形 式的信息; 第一确定单元,用于确定包含所述搜索单元搜索的特征信息的每个节点的权重值,所 述包含特征信息的每个节点包括第一节点和第二节点,所述第一节点为直接包含所述特征 信息的节点,所述第二节点为不直接包含所述特征信息的节点; 第二确定单元,用于确定特定节点所聚类的信息块的位置信息为该种类型信息块的位 置信息,所述特定节点包括所述第一确定单元所确定的每个节点的权重值中权重值最大的 节点,以及所述权重值最大的节点下属的所有节点。7. 根据权利要求6所述的装置,其特征在于, 所述第一确定单元用于: 针对每个第一节点,根据预置算法确定所述直接包含所述特征信息的每个第一节点的 权重值; 针对每个第二节点,将其直接从属的子节点的权重值做和运算后,再乘以一个收缩因 子,确定所述每个第二节点的权重值。8. 根据权利要求6所述的装置,其特征在于, 所述第一确定单元,用于针对不同类型的信息块,并行确定包含不同类型特征信息的 每个节点的权重值。9. 根据权利要求6-8任一所述的装置,其特征在于, 所述转换单元用于: 将超文本标记语言HTML形式的待处理网页内容按照主从节点的关系,逐步转换成文档 对象模型DOM节点,在所述待处理网页内容都转换完成后得到DOM树; 在转换过程中,若检测到所述待处理网页内容中存在错误,则纠正所述错误,并将纠正 后的内容划分到相应的DOM节点中。10. 根据权利要求6-8任一所述的装置,其特征在于,所述装置还包括: 建立单元,用于在所述第二确定单元确定该种类型信息块的位置信息之后,建立信息 块的类型与该种类型信息块的位置信息之间的对应关系,所述对应关系用于过滤网页中的 干扰信息。
【文档编号】G06F17/30GK106095854SQ201610389942
【公开日】2016年11月9日
【申请日】2016年6月2日 公开号201610389942.2, CN 106095854 A, CN 106095854A, CN 201610389942, CN-A-106095854, CN106095854 A, CN106095854A, CN201610389942, CN201610389942.2
【发明人】马莘权
【申请人】腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1