一种面向内部搜索引擎的信息更新检测方法
【专利摘要】一种面向内部搜索引擎的信息更新检测方法,该方法通过采用网络爬虫技术,将网站的URL信息在不同时段内进行多次重复集成,形成数据集;集成后,通过分析不同时段下的相同的URL所对应的网页长度,判读其是否相同,从而判断该网页是否存在更新;通过计算网页的更新周期,重新定义网页的更新时间,从而减少爬虫程序的集成时间,同时也提高了集成效率。本发明将该信息更新方法与内部搜索引擎结合起来,针对企业内部信息搜索更新缓慢的问题,提出以上解决方案。该方法简明实用,同时,可以极大的满足客户的需求。便于查找所需信息,提高工作效率。
【专利说明】一种面向内部搜索引擎的信息更新检测方法
【技术领域】
[0001] 本发明涉及企业信息管理领域,尤其是涉及一种面向企业内部搜索引擎的信息更 新监测方法。
【背景技术】
[0002] 互联网信息的爆炸性增长,为广大用户提供了更多可用资源。如何有效地找到最 有价值的信息成为了人们普遍遇到的问题。随着各大搜索引擎(如百度、Google等)的完 善及优化,用户能够更加快速、准确地找到所需要的信息。垂直搜索引擎的出现,则是为了 更好的满足部分用户的特定需求,它是针对某一个行业建立的专业搜索引擎,是搜索引擎 的细分和延伸。对一些组织和企业而言,随着内部信息量的不断增大,企业员工或组织内部 的成员需要及时检索本单位内部的信息,因而面向企业(组织)的内部搜索引擎应运而生, 其目的是为内部人员提供一种快速、准确地找到所需信息的通道。
[0003] 对于企业(组织)内部搜索引擎而言,其需要索引的网页的范围与数量和传统的 互联网搜索引擎(例如百度、Google等)大不相同,而对其性能的要求也不一样。比如,对 于传统搜索引擎而言,其搜索范围过于宽广,往往不能及时发现更新的网页。而垂直搜索引 擎则是面向专业领域的搜索,搜索领域也过于宽泛。对于一个企业网站或者校园门户网站 而言,制定一个属于自己的内部搜索引擎就显得极为重要。
[0004] 建立内部搜索引擎过程中最重要的步骤是对于网站信息的集成和更新。而目前的 普遍方法是通过遍历整个网站,每次都要利用爬虫将网页信息爬取并存储下来,无疑会消 耗大量的时间,间接地加大了信息的更新周期,从而降低了搜索的准确率。
[0005] 面向企业内部搜索引擎的信息更新检测方法可以有效的提高网站信息的更新效 率,为用户查询,检索提高了准确性,本发明就是针对这一问题的。
【发明内容】
[0006] 本发明目的是克服现有技术存在的上述问题,提出一种面向企业内部搜索引擎的 信息更新监测方法。
[0007] 本发明是基于通过发明人编写爬虫程序收集大量的网站信息并进行分析得出的, 主要针对传统内部搜索引擎当中信息更新速度慢而造成用户无法及时获取最新讯息的问 题。当用户在庞大的企业内部网站中想要查询一条最新的通知或者是一些相关的文档时, 很难及时找到所需要的信息,而采用传统遍历更新的方法,即耗费计算资源,也难以及时发 现网站最新的信息。
[0008] 本发明针对企业内部搜索引擎中信息更新缓慢的问题,在遍历更新的基础上,考 虑到网页更新频率的快慢,制定分级更新策略。因而能够在最短的时间内及时发现更新的 信息。本发明提供的基于内部搜索引擎更新方法的具体步骤包括:
[0009] 第1,通过网络爬虫程序将目标网站的网页信息通过URL超链接进行集成,将URL 信息存入数据库,并基于网页之间的链接关系构造一个树状数据结构,其中每个节点是一 个网页,如果P是Q的父节点,表示P网页有超链接指向Q网页;
[0010] 第2,以相同的时间间隔,基于上述树形结构,对于网站的每个网页信息进行多次 收集,并记录网页更新状态,形成一个记录网页更新情况的数据表;
[0011] 第2. 1遍历每个URL,对其对应的网页进行长度分析,并将网页长度信息存入数据 表,形成包含每个网页在特点时间点的长度信息的数据表;
[0012] 第2. 2对于相邻时间点集成的相同的URL信息,分析其网页长度变化,如有变化则 认为该网页存在更新;否则,不存在更新;
[0013] 第2. 3针对每个网页,计算其所有更新的时间间隔,进一步得到其平均更新时间;
[0014] 第3,基于每个URL的平均更新时间自适应地调整每个网页的更新时间间隔;
[0015] 第3. 1为每个URL定义一个初始更新时间Ptl;
[0016] 第3. 2假设在时间点Ti,一个URL所指向的网页的更新时间为Pi,如果在时间点 I^Pi,检测到该网页的状态为已更改,则调整其更新周期为七/2,否则调整为P'2 ;
[0017] 第4结合企业内部搜索引擎,基于每个网页的更新周期P,实现对网页的及时更 新。
[0018] 第5基于该更新方法建立企业内部搜索引擎。
[0019] 本发明的优点和有益效果:
[0020] 本发明将一种新的网页信息更新检测方法与企业内部搜索引擎相结合,针对企业 信息查询返回结果的不及时性问题,提出解决方案,该方法具有独特的创造性,既可以应用 到企业内部搜索引擎当中,也可在垂直搜索引擎中实现其价值。
[0021] 本发明方法新颖,具有简洁实用、容易实现的特性,同时还可以大大减少用户的文 件查询时间,便于用户查询所需信息。
【专利附图】
【附图说明】
[0022] 图1是本发明面向企业内部搜索引擎的信息更新监测方法的方框图;
[0023] 图2是本发明的信息更新的具体流程图;
[0024] 为了更全面地理解本发明及其优点,下面结合附图及具体实施例对本发明做进一 步详细地说明。
【具体实施方式】
[0025] 本发明涉及的几个概念
[0026] 网页结构树
[0027] 企业内部网站的网页信息可以组织为一个树形结构,其中每个节点是一个网页, 如果P是Q的父节点,表示P网页有超链接指向Q网页
[0028] 网页更新:
[0029] 网页更新是指网页内容的变化。为提高算法效率,用网页长度的变化近似代表网 页内容的变化,每次访问网页会将网页长度记录到数据库中,并与上次对该页面访问时记 录的网页长度进行对比,如果网页文件大小发生改变,该该网页更新;否则,认为没有更新。
[0030] 有效访问:
[0031] 如果访问某个网页时发现该网页发生更新,则本次访问为有效访问。
[0032] 更新时间差:
[0033] 对于同一节点的相邻两次有效访问称作更新时间差。
[0034] 实施例1
[0035] 下面以一个例子来说明基于企业内部搜索的信息更新检测方法,并且对以上概念 进行实例的说明。
[0036] 第一,信息集成
[0037] 如图1,给定一个企业网站入口,对该网站进行广度优先遍历,集成网页当中的 URL信息。具体如下:将初始入口网页URL加入到未访问队列Q ;从Q中的队列头取出URL, 读取该网页,并将该网页中的超链接URL依次加入到队列Q中;将已访问的URL从Q移除, 加入到已访问队列。这样可以避免重复访问,提高集成效率。
[0038] 第二,计算网页节点平均更新频率并作为网页的初始更新周期
[0039] 一般情况下,企业内部网站的通知消息的时效性至少为两天左右。基于此,设定检 查网页操作时间初始值为t = 1 (天),为网站设定一个为期30天的训练集合,如下表,其显 示一个网页30天的更新情况,flag = 1表示发生更新,η表示第η次更新。基于此来计算 其网页更新频度。
[0040]
【权利要求】
1. 一种面向内部捜索引擎的信息更新检测方法,其特征在于该方法包括: 第1,通过网络爬虫程序将目标网站的网页信息通过U化(超链接)进行集成,然后将U化信息存入数据库,并基于网页之间的连接关系构造一个树状的数据结构,其中每个节点 是一个网页,如果P是Q的父节点,表示P网页有超链接指向Q网页; 第2,W相同的时间间隔为周期,基于上述树形结构,对于网站的每个网页信息进行多 次收集,并记录网页更新状态,形成一个记录网页更新情况的数据集; 第2. 1遍历每个U化,对其对应的网页进行长度分析,并将网页长度信息存入数据表, 形成包含每个网页长度信息的数据集; 第2. 2对于相邻周期集成的相同的URL信息,分析其网页长度变化,如有变化则认为该 网页存在更新;否则,不存在更新; 第2. 3通过计算网页的更新时间间隔,得到每个网页的平均更新时间; 第3,基于每个U化的平均更新时间自适应地调整每个网页的更新时间间隔; 第3. 1为每个U化定义一个初始更新时间P。; 第3. 2假设在时间点Ti,一个m?L所指向的网页的更新时间为Pi,如果在时间点Ti+Pi, 检测到该网页的状态为已更改,则调整其更新周期为;Pi/2,否则调整为PfX2 ; 第4结合企业内部捜索引擎,基于每个网页的更新周期P,实现对网页的及时更新。
【文档编号】G06F17/30GK104462457SQ201410783400
【公开日】2015年3月25日 申请日期:2014年12月16日 优先权日:2014年12月16日
【发明者】李玉坤, 卞智繁 申请人:云起思源(天津)科技有限公司