一种基于云计算的分布式搜索方法
【专利摘要】本发明公开一种基于云计算的分布式搜索方法,该方法包括通过分布式的网络爬虫爬取多种格式的网络文件;通过分布式的并行抽取解析爬虫所爬取到的文件,抽取格式为自定义的文档表格式;将抽取好的文档内容存入分布式的数据库中,建立文档表数据库;由文档表数据库建立索引表也采用并行计算技术,索引表格式也为自定义的格式;将索引文件导入索引数据库,为检索器提供索引数据;对检索结果采用PageRank以及优化的在线排序算法。本发明的优点是利用了分布式存储和计算的特点;改进和优化的排序算法,检索结果更精准;采用了语义扩展关键词技术,查询结果更丰富。
【专利说明】一种基于云计算的分布式搜索方法
【技术领域】
[0001]本发明涉及一种分布式的搜索方法,尤其是处理大数据下进行快速检索的基于云计算的分布式搜索方法。
【背景技术】
[0002]随着Internet迅速发展,WWW(World Wide Web简称WWW)已成为一个巨大的信息空间,为用户提供了极具价值的信息资源。而面对大量的信息资源,通过浏览器一步步浏览已十分不便,如何快捷、准确地从WWW上获取所需信息,成为至关重要的问题。搜索引擎的出现,大大提高了人们搜集信息的能力。然而,现有的搜索引擎在搜索效率、信息维护、信息重复、网络及站点、负载等方面还存在着问题和困难。
[0003]目前,从体系结构上看,大部分搜索引擎是集中式的。即从Internet上取回页面,经过分析、处理后将所有的索引信息集中存储在某个站点,用户通过访问该站点实现查询。它们之间通常没有什么协作,各自独立搜索和处理信息,造成了大量的重复工作和严重的带宽浪费,有时甚至能造成网络阻塞。这种体系结构难以适应网络规模的日益扩大,业界已纷纷提出建立分布式搜索引擎的策略。
[0004]传统的搜索引擎,即通用搜索引擎,在应用中能够为用户提供大量的搜索结果,但是这些通用搜索引擎在追求返回更多信息的同时,很难兼顾到搜索结果的准确度和相关度,从而导致网页覆盖率较低、信息更新不及时等问题。由于传统搜索引擎存在着覆盖率有限,查准率低,用户相关性差的缺点,而且行业用户有着信息需求相对集中、分类更加精细的要求,通用搜索引擎缺乏足够的导向作用。
[0005]传统搜索引擎缺乏个性化的局限具体表现在:
(I)网络数据海量性:网络信息数量大覆盖面广,对这些数据的计算和存储需要消耗很多的时间与存储空间。
[0006](2)用户差异性:用户背景知识不同,各自对词义的理解也不尽相同,对于相同的检索词不同用户有不同的倾向。
[0007](3)检索与时间相关:用户在不同时期或阶段的同一检索请求,所得到的仍是完全相同的检索结果,对用户不具有自适应能力。
[0008](4)检索词的表达:用户由于领域知识的不足,而搜索引擎的查询接口又具有局限性,从而无法准确的实现用户的搜索意图。
[0009]因此,如何使用户方便快捷的从海量的搜索结果中得到所需的信息,成为一个迫切需要解决的课题。
【发明内容】
[0010]本发明所要解决的技术问题是要提供一种检索结果更精准的基于云计算的分布式搜索方法。
[0011]为了解决以上的技术问题,本发明提供了一种基于云计算的分布式搜索方法,该方法包括以下步骤:
步骤⑴:通过分布式的网络爬虫爬取多种格式的网络文件,包括HTML、PPT、EXCEL、PDF文件;
步骤⑵:通过分布式的并行抽取解析爬虫所爬取到的文件,抽取格式为自定义的文档表格式,提取其中的正文、标题、作者等相关彳目息;
具体是:URL+标题+解析时间+作者+来源+正文+pr值+类别+链接。
[0012]其中:url是网页链接,标题是网页标题,解析时间是指解析当天日期,作者是指网页作者,初始值为“未知”,来源是指网页文档来源,初始值为“未知”,正文是指网页去掉html标签后的的正文内容,Pr值指pagerank值,默认为1,类别是指网页的分类,默认是0,链接是指网页指向的链接,通过正则表达式筛选匹配,中间用空格连接。
[0013]步骤⑶:将抽取好的文档内容存入分布式的数据库中,建立文档表数据库;
步骤⑷:由文档表数据库建立索引表也采用并行计算技术,索引表格式也为自定义的
格式;
具体是:关键词 +〃\007〃+url+” \t”+ 词频 +,,\t”+pr+” \t”+type。
[0014]其中:关键词是倒排索引的检索词;url是文档的链接;词频是关键词在该文档中出现的次数;Pr值是文档pagerank值;Time是解析时间;Type是文档分类。
[0015]步骤(5):将索引文件导入索引数据库,为检索器提供索引数据;
步骤(6):对检索结果采用PageRank以及优化的在线排序算法。
[0016]其中,所述的步骤⑴的爬取网络文件包括以下步骤:
①设置初始爬取的网页网址,由于网络爬虫爬取网页文件是一个递归的过程,为了取得更好的全网爬取效果,初始网页url —般设置为导航网址;
②从步骤①中得到一个导航网站的页面,通过解析该页面,得到大量网站首页;
③继续解析这些首页可以得到更多的网址,再重复此过程。
[0017]其中,所述的步骤⑷中的PageRank值计算方法如下:
R’(U)表示相似度,c=0.85 (这里的c为阻尼系数),Bv是指被研究的页面,Nv是页面V链出页面的数量,N是指所有页面,E(U)是指用户停止点击,跳转到新URL的概率,计算方法如下:
【权利要求】
1.一种基于云计算的分布式搜索方法,该方法包括以下步骤: 步骤⑴:通过分布式的网络爬虫爬取多种格式的网络文件; 步骤⑵:通过分布式的并行抽取解析爬虫所爬取到的文件,抽取格式为自定义的文档表格式; 步骤⑶:将抽取好的文档内容存入分布式的数据库中,建立文档表数据库; 步骤⑷:由文档表数据库建立索引表也采用并行计算技术,索引表格式也为自定义的格式; 步骤(5):将索引文件导入索引数据库,为检索器提供索引数据; 步骤(6):对检索结果采用PageRank以及优化的在线排序算法。
2.根据权利要求1所述的基于云计算的分布式搜索方法,其特征在于:所述的步骤⑴的爬取网络文件包括以下步骤: ①设置初始爬取的网页网址,由于网络爬虫爬取网页文件是一个递归的过程,为了取得更好的全网爬取效果,初始网页url —般设置为导航网址; ②从步骤①中得到一个导航网站的页面,通过解析该页面,得到大量网站首页; ③继续解析这些首页可以得到更多的网址,再重复此过程。
3.根据权利要求1所述的基于云计算的分布式搜索方法,其特征在于:所述的步骤⑷中的PageRank值计算方法如下: R’(U)表示相似度,c=0.85 (这里的c为阻尼系数),Bv是指被研究的页面,Nv是页面V链出页面的数量,N是指所有页面,E(U)是指用户停止点击,跳转到新URL的概率,计算方法如下:
【文档编号】G06F17/30GK103617174SQ201310536651
【公开日】2014年3月5日 申请日期:2013年11月4日 优先权日:2013年11月4日
【发明者】向阳, 陈佑雄, 张依杨, 平宇, 张波, 袁书寒 申请人:同济大学