一种房地产信息快速搜索方法

文档序号:6538481阅读:137来源:国知局
一种房地产信息快速搜索方法
【专利摘要】本发明公开了一种房地产信息快速搜索方法。本发明首先将链接聚类与隧道技术应用到Shark-Search算法中实现聚焦网络爬虫。其次对页面信息进行处理,将网页从半结构化变成结构化信息后。然后对房地产信息进行中文分词处理并对中文分词后的信息进行索引。最后由用户检索模块对用户查询内容进行响应。本发明具有搜索响应速度快,信息准确率高,稳定性好等特点,用户能够根据自己输入的关键词快速搜索到自己想要的房地产信息。
【专利说明】一种房地产信息快速搜索方法
【技术领域】
[0001]本发明属于搜索引擎【技术领域】,特别涉及一种基于垂直搜索引擎的房地产信息快速搜索方法。
【背景技术】
[0002]由于互联网的信息急剧增长,截至2013年10月,我国共有294万个网站,而网页数量则超过1000亿。在如此浩瀚的数据海洋中,人们发现如果获取自己想要的信息就有点心有余而力不足。而搜索引擎的出现,无疑给用户带来很大的便利,用户想要了解什么信息,只要通过搜索引擎,输入关键字,就能获得大量的自己所需要的信息。但是,通用搜索引擎对于数据量剧增的互联网来说,用户体验越来越差,理由有两方面:一方面是因为通用搜索引擎返回的结果很多,有时甚至超过I亿个结果,用户不可能将I亿个结果全都查看,只可能看排名靠前的几个结果;另一方面,现阶段的通用搜索引擎覆盖面广,搜索范围包含整个互联网的很大一部分信息,从而使得信息更新不及时。
[0003]房价过高问题是民生的重中之重。最近几年来,房价越来越高,而且没有一点下降的趋势。正因如此,房地产领域近年来已经成为人们重点关注的热门话题,该领域关系到老百姓的切身利益,也是国家的重点关注对象。由于这些问题的出现,万维网中出现了大量的关于房地产方面的信息,其规模与日俱增。就目前万维网中存在海量信息的情形来说,用户要想从这些数据中找到自己想要的信息非常困难。为此,很有必要通过垂直搜索引擎技术建立一个房地产信息快速搜索系统。

【发明内容】

[0004]本发明目的在于:针对现有通用搜索引擎不足,提出了一种基于垂直搜索引擎技术的房地产信息搜索方法。本发明的具体步骤如下:
[0005]第一步,将链接聚类与隧道技术应用到Shark-Search算法中实现聚焦网络爬虫。通过聚焦网络爬虫对英特网中的所有房地产信息进行抓取,然后将抓取的信息存储至本地的文件系统。
[0006]第二步,对页面信息进行处理。通过聚焦网络爬虫抓取的网页保存在本地的文件系统后并不能直接使用,需要经过一定的处理操作。由于HTML是一种半结构化文件,因此需要进行预处理。所谓半结构化,就是类似HTML文件的标签及标签包含的内容,具有一定的结构性,但是其结构却不太明确,如〈title〉垂直搜索引擎的应用研究〈/title〉,表示titile为“垂直搜索引擎的应用研究”的HTML网页。而结构化就是像关系型数据库那样,有字段名和字段值相对应的格式。将网页从半结构化变成结构化信息后,还需要进行噪音信息的处理,噪音信息即一些与主题内容无关的信息,如与主题无关的广告内容、链接、图片等信息。之后将有用的信息进行抽取,保存为结构化信息。
[0007]第三步,对房地产信息进行中文分词处理。中文分词主要在两个方面进行处理:第一,对于从数据库中获取的文本数据需要进行中文分词操作;第二,对于用户输入的关键字进行中文分词操作,以便于搜索操作。这两个方面处理的中文分词必须采用同一个中文分词系统,本发明主要是利用HMM结合词性标注增加了对房地产命名识别的功能,从而为后续的用户搜索提供了更好的结果排序集。
[0008]第四步,对中文分词后的信息进行索引。为了便于搜索,在文本信息进行中文分词操作后,需要建立索引。由于本发明使用Hibernate进行持久层操作,因此采用Hibernate-Search对中文分词后的信息进行索引操作。而Hibernate-Search底层米用优秀的全文检索工具Lucene实现的,在索引方面具有很强的处理能力。
[0009]第五步,由用户检索模块对用户查询内容进行响应。查询需要用户在查询文本框中输入搜索关键字,然后系统对用户输入的字符串进行中文分词操作,将系统返回的结果进行排序操作。结果排序操作由Hibernate-Search实现,由于Lucene具有优秀的评分策略,因此能够返回令用户满意的搜索结果。用户界面的好坏直接影响到用户的使用体验,本发明采用富客户端应用框架Flex实现用户界面,用户可以在搜索文本框中输入需要搜索的关键字进行搜索操作。
[0010]本发明共涉及到五个模块:聚焦网络爬虫模块、页面处理模块、中文分词模块、索引模块以及用户检索模块。
[0011]本发明具有的有益效果是:利用该方法形成具有搜索响应速度快,信息准确率高,稳定性好等特点,用户能够根据自己输入的关键词快速搜索到自己想要的房地产信息。
【具体实施方式】
[0012]图1是系统的总体架构。
[0013]图2是加入链接聚类和隧道技术后的Shark-Search算法流程图。
[0014]【具体实施方式】
[0015]图1为本发明系统的总体架构图,系统分为:聚焦网络爬虫、页面处理、中文分词、信息索引和用户检索五个模块。
[0016]1.对于聚焦网络爬虫的基本设计方法如下:
[0017](I)将网页中的信息转化成文档对象模型树,然后再将树中的节点按照层次遍历进行编号,最后链接所对应的编号路径提取出来。
[0018](2)把网页中的链接按照提取出来的顺序放入队列中,找出满足任意两个节点间的路径大于等于2的最大匹配字串,将该字串中的所有元素从队列中取出,归并入相应的类中。依此不断进行,直到满足条件的所有链接归入类中。
[0019](3)令L:所有待分类链接集合A:属于类别i的链接集合;claSS_num:当前类别编号;flag:标记。
[0020]a)初始化:设置 L=Iu1, U2,...,un} ;61; G2, *..6η=Φ ;class_num=l; f Iag=10
[0021]b)当L集合非空并且f Iag=I时,设置f Iag=O。
[0022]c)遍历L中的每个链接Ui,如果有与Ui路径相同的最大路径值大于1,则将Ui放入相应的 Gclass_num 中,将 class_num 加 I,设置 fIag=O。
[0023]d)继续进行步骤b),直到f Iag=O或者L为空。
[0024](4)根据步骤(3)可得每个类别所包含的链接数为|Gi I ,令cluster_url_num为总类别数,anchor_score (url)为锚文本的相似度评分,则cluster_url_num=Max (class_num),计算类别得分class—score的公式如下:
【权利要求】
1.一种房地产信息快速搜索方法,其特征在于该方法包括以下步骤: 第一步,将链接聚类与隧道技术应用到Shark-Search算法中实现聚焦网络爬虫,通过聚焦网络爬虫对英特网中的所有房地产信息进行抓取,然后将抓取的信息存储至本地的文件系统; 所述的聚焦网络爬虫其实现方法如下: (1)将网页中的信息转化成文档对象模型树,然后再将树中的节点按照层次遍历进行编号,最后链接所对应的编号路径提取出来; (2)把网页中的链接按照提取出来的顺序放入队列中,找出满足任意两个节点间的路径大于等于2的最大匹配字串,将该字串中的所有元素从队列中取出,归并入相应的类中;依此不断进行,直到满足条件的所有链接归入类中; (3)令L为所有待分类链接集合A为属于类别i的链接集合;claSS_num为当前类别编号;flag为标记,执行以下操作:
a)初始化:设置L=Iu1, U2,..., uj ;G”G2,*..6η=Φ ;class_num=l; flag= I ; b)当L集合非空并且fIag=I时,设置f Iag=O ; c)遍历L中的每个链接Ui,如果有与Ui路径相同的最大路径值大于1,则将Ui放入相应的 Gclass_num 中,将 class_num 加 1,设置 f Iag=O ; d)继续进行步骤b),直到fIag=O或者L为空; (4)根据(3)可得每个类别所包含的链接数为…^,令^心仏^^证丨^皿为总类别数,anchor_score (url)为锚文本的相似度评分,则 cluster_url_num=Max (class_num),计算类别得分class_score的公式如下:
2.根据权利要求1所述的一种房地产信息快速搜索方法,其特征在于:采用富客户端应用框架Flex实现用户界面,用户可以在搜索文本框中输入需要搜索的关键字进行搜索操作。
【文档编号】G06F17/30GK103886020SQ201410060697
【公开日】2014年6月25日 申请日期:2014年2月21日 优先权日:2014年2月21日
【发明者】袁友伟, 李勇, 俞东进, 鄢腊梅, 杨威 申请人:杭州电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1