专利名称:基于标准三层分类的网页信息挖掘方法
技术领域:
本发明涉及网页搜索中一种基于标准三层分类的网页信息挖掘方法,属于互联 网物联网信息科技领域。
背景技术:
现有对与分类相关的网页技术没有应用标准分类层次或深度,如亚马逊(amazon. com)数据结构层次深度没有标准。阿里巴巴里各类商品的分类也是层次深度不一,没有形 成标准,扩展起来较麻烦。如要调整搜索种类等方面,须修改网页代码。类似亚马逊的网页 与阿里巴巴的网页,在增加内容类别时也需对网页本身进行修改。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于标准三层分类的网页 信息挖掘方法,在增加内容类别时,只对数据库处理即可,而且可以较容易将各子类别整合 为一个大系统。按照本发明提供的技术方案,所述基于标准三层分类的网页信息挖掘方法,将信 息对象按类别分为三个层次,在数据库中设计三个表对应三层类别,其中,第一层表包括第 一层的序列号与第一层类别名称,第二层表包括第二层序列号、第二层类别名称与第一层 序列号,第三层表包括第三层序列号、第三层类别名称及第二层序列号、第一层序列号;设 计可缩放信息挖掘工具,在第一层搜索时,搜索索引使用第一层表,在第二层搜索时,搜索 索引使用第二层表,在第三层搜索时,搜索索引使用第三层表。所述第二层表还包括第一层类别名称,所述第三层表还包括第二层类别名称和第 一层类别名称。所述可缩放信息挖掘工具中第二层索引包括第二层类别名称,点击第二层类别名 称后显示相应第二层类别内容;第二层索引还包括第一层类别名称,点击第一层类别名称 后回到第一层,同时显示第一层类别内容。所述可缩放信息挖掘工具中第三层索引包括第三层类别名称,点击第三层类别名 称后显示相应第三层类别内容,第三层索引还包括第二层类别名称,点击第二层类别名称 后回到第二层,同时显示第二层类别内容。本发明的优点是本发明披露的三层深度的分类技术应用在网页搜索技术中,使 结果信息集合有序收敛,较快实现精准搜索。标准的三层分类系统也易于扩展,三个附属表 的应用使每一层的结构易于调整,而且不用改变网页代码便可调整搜索范围,增、删搜索种 类。
图1是本发明所述三个表的结构示意图。
具体实施例方式下面结合附图和实施例对本发明作进一步说明。本发明公开了一种互联网与分类 相关的网页信息挖掘方法,应用于对互联网信息的存储与搜索,尤其对于有规则结构层次 的内容,如电子商务网站对产品的介绍等。本发明涉及一种基于标准深度的三层分类体系的数据存贮与挖掘系统。1)首先将信息对象类别分为三个层次。一般来说,多于三层向上合并,少于三层的 加默认上层补足三层。对象指的是存储的一个个记录,对象类别指的是这些记录的类别。比如对设计相 关的记录,第一层类别名即“设计作品”,第二层是“设计作品”下的分类,比如“包装设计”、 “企业创意设计”、“建筑设计”、“服装设计”等,第三层是第二层类别下的分类,比如“建筑设 计”下课分“室外设计”、“室内设计”等。多于三层的情况比如“室内设计”本来还可以分为“厨房设计”、“卧室设计”等, 但“室内设计”已到第三层了,“厨房设计”、“卧室设计”就合并到“室内设计”里,不另分了。 默认上层可以加与本层同名的层。2)在数据库中设计三个表对应三层类别,第一层表Tl包括第一层的序列号与第 一层名称,第二层表T2包括第二层序列号、第二层名称与第一层序列号。第三层表T3包括 第三层序列号与名称及第一第二层序列号、名称。T2表可以有Tl对应的第一层类别名称, 也可以没有;T3表可以有Tl、T2对应的第一层类别名称,也可以没有。相应上层的对应序 列号必须有。类别名称如前所述,序列号是数据库内给类别名称分配的数字标示。3)设计可缩放信息挖掘体系,上述三个表在对应各个搜索深度时起辅助作用,在 第一层搜索时,搜索索引使用第一层表Tl,由于一般来说Tl表与T2、T3表内容少很多, Tl表的存在可提高整个系统的性能。同理,T2表辅助第二层搜索,供第二层搜索的索引 使用。如不设计Tl、T2表,其内容在T3表中也有,不过需用一般数据库工程师都知道的 “distinct”功能选择,这样的话会加重数据库运算负担,影响系统效率。可缩放信息挖掘工具S是一个带有图形界面的计算机程序,由它对网页进行不同 深度的搜索。在S中,第二层索引包括第二层类别名称,点击第二层类别名称后显示相应第 二层类别内容;第二层索引还包括第一层类别名称,点击第一层类别名称后回到第一层,同 时显示第一层类别内容。第三层索引包括第三层类别名称,点击第三层类别名称后显示相 应第三层类别内容,第三层索引还包括第二层类别名称,点击第二层类别名称后回到第二 层,同时显示第二层类别内容。4)表Tl、T2、T3的另一个作用是协助后台管理时灵活调整类别,通过对表的内容 修改而非修改网页源代码。本发明创立了一个建立在新的标准分类体系基础上的网页信息分类系统,使信息 探索更精准、迅捷。分层次筛选使结果更精准;通过对每一层索引建立适应对应表,使搜索 更迅捷。同时,三个表也方便了后台管理,并有利于系统进一步延伸与整合。
权利要求
基于标准三层分类的网页信息挖掘方法,其特征是将信息对象按类别分为三个层次,在数据库中设计三个表对应三层类别,其中,第一层表(T1)包括第一层的序列号与第一层类别名称,第二层表(T2)包括第二层序列号、第二层类别名称与第一层序列号,第三层表(T3)包括第三层序列号、第三层类别名称及第二层序列号、第一层序列号;设计可缩放信息挖掘工具,在第一层搜索时,搜索索引使用第一层表(T1),在第二层搜索时,搜索索引使用第二层表(T2),在第三层搜索时,搜索索引使用第三层表(T3)。
2.如权利要求1所述基于标准三层分类的网页信息挖掘方法,其特征是所述第二层 表(T2)还包括第一层类别名称,所述第三层表(T3)还包括第二层类别名称和第一层类别 名称。
3.如权利要求1所述基于标准三层分类的网页信息挖掘方法,其特征是所述可缩放 信息挖掘工具中第二层索引包括第二层类别名称,点击第二层类别名称后显示相应第二层 类别内容;第二层索引还包括第一层类别名称,点击第一层类别名称后回到第一层,同时显 示第一层类别内容。
4.如权利要求1所述基于标准三层分类的网页信息挖掘方法,其特征是所述可缩放 信息挖掘工具中第三层索引包括第三层类别名称,点击第三层类别名称后显示相应第三层 类别内容,第三层索引还包括第二层类别名称,点击第二层类别名称后回到第二层,同时显 示第二层类别内容。
全文摘要
本发明提供了一种基于标准三层分类的网页信息挖掘方法,将信息对象按类别分为三个层次,在数据库中设计三个表对应三层类别。设计可缩放信息挖掘工具,在第一层搜索时,搜索索引使用第一层表,在第二层搜索时,搜索索引使用第二层表,在第三层搜索时,搜索索引使用第三层表。本发明创立了一个建立在新的标准分类体系基础上的网页信息分类系统,使信息探索更精准、迅捷;分层次筛选使结果更精准;通过对每一层索引建立适应对应表,使搜索更迅捷;同时,三个表也方便了后台管理,并有利于系统进一步延伸与整合。
文档编号G06F17/30GK101930477SQ201010284119
公开日2010年12月29日 申请日期2010年9月17日 优先权日2010年9月17日
发明者俞晓华 申请人:无锡诺宝科技发展有限公司