网页搜集推荐方法和装置与流程

文档序号:13730917阅读:197来源:国知局
技术领域本发明涉及网络数据采集技术领域,具体而言,本发明涉及一种网页搜集推荐方法和装置。

背景技术:
随着互联网的迅猛发展,网络上的信息量日益增多。用户通常利用搜索引擎在互联网中查找需要的网页信息。搜索引擎(SearchEngine)预先根据指定的策略、利用网络爬虫从互联网上抓取网页,接收到用户输入的关键词后,计算关键词与预先抓取的各网页之间的相关度,选择相关度较高的网页推荐并展示给用户。目前,网络爬虫主要包括传统爬虫和主题爬虫。一种利用传统爬虫的网页搜集推荐方法主要包括:抓取一个或若干个初始网页后,从初始网页开始,获得当前网页上的URL(UniformResourceLocator,统一资源定位器),根据获得的URL抓取网页;在抓取网页的过程中,不断从当前网页上抽取新的URL,根据新的URL继续抓取网页,直到满足预设的条件停止抓取网页,并存储已抓取到的网页;以在互联网上搜集尽可能多的网页推荐给用户。然而,利用上述方法搜集推荐的众多网页中,通常包含大量用户不需要的网页,例如噪声网页,网页搜集推荐的准确性较低、效率低下。导致用户需要从大量的网页中,人工筛选所需要的网页,造成用户获取其所需要的网页的效率低下,用户体验不佳。主题爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的网页。与传统爬虫不同,主题爬虫并不追求大的网页覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。一种利用主题爬虫的网页搜集推荐方法通常包括:根据用户输入的关键词,抓取一个或若干个网页作为主题的种子网页(或确定主题);抓取其它网页及其链接,根据指定的网页分析算法计算其它网页与种子网页(或主题)的相似度,过滤与种子网页(或主题)相似度较低的链接,保留与种子网页(或主题)相似度较高的链接并将其放入等待抓取的URL队列;然后,根据指定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到预设的条件,停止选择URL并抓取对应的网页进行存储,并将存储的网页推荐给用户。然而,利用主题爬虫的网页搜集推荐方法通常会出现遗漏用户需要的网页的问题,造成用户查找不全所需要的网页,降低了用户的体验。综上,现有的网页搜集推荐方法存在网页推荐准确性较低、效率低下、或者容易遗漏网页的缺陷。

技术实现要素:
本发明针对现有的网页搜集方式的缺点,提出一种网页搜集推荐方法和装置,用以解决现有技术存在网页搜集推荐准确性较低、或效率低下,或者容易遗漏网页的问题,以提升网页推荐的准确性或效率,或降低遗漏网页的几率。本发明的实施例根据一个方面,提供了一种网页搜集推荐方法,包括:获取与用户输入的关键词相关的多个网页作为多个种子网页;根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与所述语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐。本发明的实施例根据另一个方面,还提供了一种网页搜集推荐装置,包括:种子网页获取模块,用于获取与用户输入的关键词相关的多个网页作为多个种子网页;语义结构创建模块,用于根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;扩展网页处理模块,用于获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与所述语义结构之间的相似度;以及周期性地根据更新的种子网页更新扩展网页,直到达到预设的网页获取终止条件;种子网页更新模块,用于根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;以及周期性地根据进化的语义结构更新种子网页;语义结构进化模块,用于周期性地根据更新的种子网页进化语义结构;网页推荐模块,用于对最后一个周期更新的各种子网页进行排序和推荐。本发明实施例中,获取与用户输入的关键词相关的多个网页作为多个种子网页;根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐;可以使得推荐的网页在语义上与用户输入的关键词具有较高的相关性,提升网页推荐的准确性和效率;并且语义结构实际上是包括了与关键词的语义相关的词语和/或短语,例如关键词的同义词或近义词,因此,利用本发明实施例可以搜集到不包含关键词但是包含其同义词或近义词的网页进行推荐,从而大大降低了遗漏网页的几率,便于用户查找到需要的网页,提升了用户的体验。而且,本发明实施例中,周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页。进而本发明实施例,可以逐步进化的语义结构,并逐步根据进化的语义结构更新种子网页;进一步提升最后一个周期更新的各种子网页与进化的语义结构之间的相似度,从而提升网页搜集推荐的准确性和效率,进一步降低网页遗漏的几率,便于用户查找到需要的网页,提升了用户的体验。本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本发明实施例的网页搜集推荐方法的流程示意图;图2为本发明实施例的语义结构的特例的示意图;图3为本发明实施例的网页搜集推荐装置的内部结构的框架示意图。具体实施方式下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunicationsService,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(PersonalDigitalAssistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(MobileInternetDevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。本发明实施例中,获取与用户输入的关键词相关的多个网页作为多个种子网页;根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;语义结构中包括至少一个语义概念簇,同一语义概念簇中包括互相之间相似度较高(即语义接近的)词语、短语等,例如同义词和近义词等等。本发明实施例中,获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐;可以使得推荐的网页在语义上与用户输入的关键词具有较高的相关性,提升网页推荐的准确性和效率;并且语义结构实际上是包括了与关键词的语义相关的词语和/或短语,例如关键词的同义词或近义词,因此,利用本发明实施例可以搜集到不包含关键词但是包含其同义词或近义词的网页进行推荐,从而大大降低了遗漏网页的几率,便于用户查找到需要的网页,提升了用户的体验。而且,本发明实施例中,周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页。进而本发明实施例,可以逐步进化的语义结构,并逐步根据进化的语义结构更新种子网页;进一步提升最后一个周期更新的各种子网页与进化的语义结构之间的相似度,从而提升网页搜集推荐的准确性和效率,进一步降低网页遗漏的几率,便于用户查找到需要的网页,提升了用户的体验。下面结构附图具体介绍本发明实施例的技术方案。本发明实施例提供了一种网页搜索推荐方法,该方法的流程示意图如图1所示,包括如下步骤:S101:获取与用户输入的关键词相关的多个网页作为多个种子网页。具体地,接收到用户输入的关键词后,搜索获取包括该关键词的网页的链接,例如URL(UniformResourceLocator,统一资源定位器);从获取的网页的链接中筛除掉推广链接(例如广告链接)后,根据指定的规则,选择指定数目的链接;获取选择的链接的网页作为种子网页。S102:根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念。具体地,对于获取的每个种子网页,从该种子网页中提取出文本,包括标题和正文;根据文本中的标点符号对该种子网页的文本进行分句,得到该种子网页的至少一个句子。对于该种子网页的每个句子,对该句子进行分词,得到该句子的词语集合。较佳地,对于种子网页的每个句子,对该句子进行分词后,还可以进行去除停用词、去除常用词等处理,得到该句子的词语集合。例如,某一种子网页中的一个句子为“硫酸铜可以用于有机合成,无水盐用于催化转缩醛反应。”,对该句子进行分词后,得到该句子的词语集合{硫酸铜用于有机合成/无水盐用于催化反应/
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1