一种用于垂直爬虫数据分类整合的策略的制作方法
【专利摘要】一种用于垂直爬虫数据分类整合的策略,包括分类体系及其映射机制和动态分类数据整合机制两部分,其中的分类体系及其映射机制包括如下步骤:1)基准类别体系的构建;2)爬虫目标网站的类别体系的构建;3)类别体系映射机制的构建。该策略可以有效整合通过垂直爬虫进行数据抓取并对数据进行非结构化解析后得到的类别体系,并保持源分类体系的完整性,同时还可以实现对源分类体系进行动态跟踪。
【专利说明】一种用于垂直爬虫数据分类整合的策略
【技术领域】
[0001]本发明涉及垂直搜索引擎【技术领域】,尤其是涉及一种用于垂直爬虫数据分类整合的策略。
【背景技术】
[0002]随着网页信息的爆炸性增长,搜索引擎的使用价值也越来越高,成为网络用户必不可少的工具,为用户提供信息导航和查询服务。它整合了互联网上众多的网页资源,根据用户查询的关键词提供相关性网页,并按照相关性排序,是整个互联网的入口。目前,综合搜索引擎是为用户提供查询服务的主力军,但它的综合性,决定了其不能满足专业人群对专门领域的精准化信息需求服务。用户对信息的需求是多元化的,因此搜索引擎的服务模式也必将出现细分,针对不同领域提供更加精确的行业信息,这就促进了垂直搜索的蓬勃发展。
[0003]应用综合搜索引擎进行一次搜索,返回给用户的查询结果可能有上万甚至上亿条,尽管相对于浩瀚无比的Web信息,已经进行了很大限度的过滤,但返回的信息仍然是用户不可能全部浏览的海量信息,从而在用户查询请求和网络搜索服务之间造成的巨大浪费和反差。而垂直搜索引擎则是针对这一问题而出现,作为更有专业针对性的搜索引擎,它只搜索特定领域内的信息。由于覆盖的学科领域专一,信息量相对会大大减少,这就降低了采集信息的难度,同时提高了信息的质量
[0004]垂直搜索引擎是针对某一个领域的专业搜索引擎,它通过对互联网上的某类专业的信息进行采集、整合,然后按照专业信息相应的结构进行定向抽取,将非结构化的信息处理成结构化的信息,再以信息列表的形式返回给用户。
[0005]搜索引擎中最关键的一部分是网页搜索器,它由一个爬虫(Crawler,又称网页抓取器、网络机器人、网络蜘蛛)程序组成。所谓爬虫程序是指会自动地、永不停止地在网络上搜索网页的程序。运行网络爬虫时,只要提供极少量的起始网页,信息采集器就能够按一定的规则沿着网页上的超级链接在网络上漫游,收集资源信息,直至遍历整个网站。它的性能在很大程度上影响了搜索引擎站点的规模。
[0006]就目前互联网的规模来说,单台机器运行的网络爬虫远远不能完成在有效的时间内搜索整个web网络的任务,因此现在采用的网络爬虫都是分布式在多机上并行运行的,称为分布式爬虫。爬虫控制器起着集中控的作用,它管理所有的爬虫端,保证web资源能均衡、不重复的由各爬虫爬取。网页分析器对爬取的网页资源进行分析过滤,滤除大量的html标签以及垃圾信息,最终得到有价值的网页内容信息。
[0007]现有的通用搜索的策略是尽量获取数据,但是对数据的处理水平比较低,突出问题就是:无效信息过多(噪音数据多)、有效信息不足、有效信息非结构化、返回结果无个性化优化机制。
[0008]例如,目前不同的分类网址导航网站有各自的网址分类体系,如hao 123.com, 2345.com等。当我们想对这些网站的资源进行整合,通过垂直爬虫进行数据抓取并对数据进行非结构化解析后会得到一系列的类别数据,这时我们面临这样一些问题:如何有效的整合这些类别体系?如何保持源分类体系的完整性?如何对源分类体系进行动态跟踪?解决这些问题是现阶段研究的重点和难点。
【发明内容】
[0009]本发明的主要目的在于克服现有技术中的上述缺陷,提出一种用于垂直爬虫数据分类整合的策略。
[0010]本发明采用如下技术方案:
[0011]一种用于垂直爬虫数据分类整合的策略,其特征在于:包括分类体系及其映射机制和动态分类数据整合机制两部分,其中的分类体系及其映射机制包括如下步骤:
[0012]I)基准类别体系的构建;
[0013]2)爬虫目标网站的类别体系的构建;
[0014]3)类别体系映射机制的构建。
[0015]优选的,所述步骤I)采用三层次类别应用构建基准类别体系,该体系包括类别ID、大类别、中类别和小类别,该基准类比体系有其对应的类别内容。
[0016]优选的,所述步骤2)采用三层次类别应用构建多个爬虫目标网站的类别体系,每个爬虫目标网站的类别体系包括类别ID、大类别、中类别和小类别,且每个爬虫目标网站的类别体系有其对应的类别内容。
[0017]优选的,在步骤2)中,对于每个待爬虫的目标网站,都各自创建一个相应的爬虫目标网站的类别体系;在爬虫过程中,将非结构化解析获得的分类数据放入各自的爬虫目标网站类别体系,而对于具体内容的详细信息则放入各自对应的类别内容里。
[0018]优选的,所述的类别内容包括有网站的具体信息及其来源网站。
[0019]优选的,在步骤3)中,类别体系映射机制的构建是指,基准类别体系提供其最小类别的分类名称,爬虫目标网站的类别体系也提供其最小类别的分类名称,通过二者最小类别的分类名称进行匹配来建立映射关系。
[0020]优选的,所述的动态分类数据整合机制是指,将爬虫得到的类别按照以下几种情况进行整合操作:
[0021]A新添加的分类在基准类别体系中已经存在的情况下的处理:在基准类别体系中添加分类并将得到的新的类别ID填入构建的映射体系中对应的映射位置;
[0022]B新添加的分类在基准类别体系中不存在的情况下的处理:首先添加类别并得到新的类别ID,根据类别名称寻找语义相似的类别,若能获得高相似语义的类别,则将新的类别ID填入构建的映射体系中对应的映射位置;否则,添加新的类别,并在构建的映射体系中添加新的映射关系;
[0023]C基准类别体系中的类别合并情况下的处理:在对应的构建的映射体系中合并相应的类别;
[0024]D基准类别体系中类别分裂情况下的处理:dl.将基准类别体系中的类别分裂成两个类别,其中一类别替换原来的类别,另外再重新添加一个类别;d2.将各爬虫目标网站中与原基准类别映射的类别重新进行手工分类,映射到新的两个类别中;
[0025]E基准类别体系中类别添加和删除情况下的处理:在基准类别体系中添加新类别后,将添加完后的新类别ID及其最小类别放到对应的映射体系中;而对于删除情况,则只需在基准类别体系中删除相关类别即可。
[0026]优选的,在所述情况B中,所述的高相似语义类别的判断方法主要根据两个类别名称的相似度计算得到:对于两个类别名称W1和W2,W1包括概念集合{Sn, S12,…,S11J,W2包括概念集合{S21,S22,…,S2J,则W1和W2的相似度如下所示:
【权利要求】
1.一种用于垂直爬虫数据分类整合的策略,其特征在于:包括分类体系及其映射机制和动态分类数据整合机制两部分,其中的分类体系及其映射机制包括如下步骤: 1)基准类别体系的构建; 2)爬虫目标网站的类别体系的构建; 3)类别体系映射机制的构建。
2.如权利要求1所述的一种用于垂直爬虫数据分类整合的策略,其特征在于:所述步骤I)采用三层次类别应用构建基准类别体系,该体系包括类别ID、大类别、中类别和小类另O,该基准类比体系有其对应的类别内容。
3.如权利要求1所述的一种用于垂直爬虫数据分类整合的策略,其特征在于:所述步骤2)采用三层次类别应用构建多个爬虫目标网站的类别体系,每个爬虫目标网站的类别体系包括类别ID、大类别、中类别和小类别,且每个爬虫目标网站的类别体系有其对应的类别内容。
4.如权利要求3所述的一种用于垂直爬虫数据分类整合的策略,其特征在于:在步骤2)中,对于每个待爬虫的目标网站,都各自创建一个相应的爬虫目标网站的类别体系;在爬虫过程中,将非结构化解析获得的分类数据放入各自的爬虫目标网站类别体系,而对于具体内容的详细信息则放入各自对应的类别内容里。
5.如权利要求2或3所述的一种用于垂直爬虫数据分类整合的策略,其特征在于:所述的类别内容包括有网站的具体信息及其来源网站。
6.如权利要求1所述的一种用于垂直爬虫数据分类整合的策略,其特征在于:在步骤3)中,类别体系映射机制的构建是指,基准类别体系提供其最小类别的分类名称,爬虫目标网站的类别体系也提供其最小类别的分类名称,通过二者最小类别的分类名称进行匹配来建立映射关系。
7.如权利要求2所述的一种用于垂直爬虫数据分类整合的策略,其特征在于:所述的动态分类数据整合机制是指,将爬虫得到的类别按照以下几种情况进行整合操作: A新添加的分类在基准类别体系中已经存在的情况下的处理:在基准类别体系中添加分类并将得到的新的类别ID填入构建的映射体系中对应的映射位置; B新添加的分类在基准类别体系中不存在的情况下的处理:首先添加类别并得到新的类别ID,根据类别名称寻找语义相似的类别,若能获得高相似语义的类别,则将新的类别ID填入构建的映射体系中对应的映射位置;否则,添加新的类别,并在构建的映射体系中添加新的映射关系; C基准类别体系中的类别合并情况下的处理:在对应的构建的映射体系中合并相应的类别; D基准类别体系中类别分裂情况下的处理:dl.将基准类别体系中的类别分裂成两个类别,其中一类别替换原来的类别,另外再重新添加一个类别;d2.将各爬虫目标网站中与原基准类别映射的分类重新进行手工分类,映射到新的两个分类中; E基准类别体系中类别添加和删除情况下的处理:在基准类别体系中添加新类别后,将添加完后的新类别ID及其最小类别放到对应的映射体系中;而对于删除情况,则只需在基准类别体系中删除相关类别即可。
8.如权利要求7所述的一种用于垂直爬虫数据分类整合的策略,其特征在于:在所述情况B中,所述的高相似语义类别的判断方法主要根据两个类别名称的相似度计算得到:对于两个类别名称W1和W2,W1包括概念集合{Sn, S12,…,S11J,W2包括概念集合{S21,S22,…,S2J,则W1和W2的相似度如下所示:
,n分别代表待比较的两个类别名称对应的概念实词的个数;概念集合的每个概念实词包括以下四个义原特征:第一基本义原描述、其它基本义原描述、关系义原描述、关系符号描述;两个概念实词的相似度记为上述四个义原特征的部分相似度的加权和,即根据义原之间的路径距离来计算两德細 W 的相似度
别代表概念实词的四个特征对应的加权系数i = 1、2、3、4,其为可调节的参数且满足:
【文档编号】G06F17/30GK104133868SQ201410347438
【公开日】2014年11月5日 申请日期:2014年7月21日 优先权日:2014年7月21日
【发明者】洪志令, 吴梅红 申请人:厦门大学