基于专业搜索引擎的爬虫策略更新图书信息的方法

文档序号:8282310阅读:195来源:国知局
基于专业搜索引擎的爬虫策略更新图书信息的方法
【技术领域】
[0001]本发明涉及一种基于专业搜索引擎的爬虫策略更新图书信息的方法。
【背景技术】
[0002]随着电子信息行业的发展电子书逐渐代替传统的纸质书。电子书是指将文字、图片、声音、影像等讯息内容数字化的出版物以及植入或下载数字化文字、图片、声音、影像等讯息内容的集存储介质和显示终端于一体的手持阅读器。代表人们所阅读的数字化出版物,从而区别于以纸张为载体的传统出版物,通过数码方式记录在以光、电、磁为介质的设备中,借助于特定的设备来读取、复制、传输。因其具有方便性,可搜寻内容,改变字体大小及字型,还可随身携带。容量大,随时可网络下载,不受地域限制,省去大量时间。因而被人们广泛接受。目前很多电子书都是章节性更新,因为版权意识加强,很多书籍都只在一些特定网站上进行更新;及时人为手动更新,对于网站上下载下来的图书信息进行图书内容提取也是非常繁琐的。这就为手机推送图书服务带来了很大困难。
[0003]专业搜索引擎的爬虫策略,专业搜索引擎网络爬虫通常采用“最好优先”原则访问WEB,即为快速、有效地获得更多的与主题相关的页面(简称“回报”),每次选择“最有价值”的链接进行访问。由于链接包含于页面之中,而通常具有较高价值的页面包含的链接也具有较高的价值,因而对链接价值的评价有时也转换为对页面价值的评价。
[0004]web信息提取是当前比较活跃的一个研究课题,但web数据的大量性,异构性和动态性,是web信息提取的一个桎梏。对于结构化的Web数据,已经有较为成熟的解决方法;而对于非结构化的Web数据,由于传统数据库的底层问题,不能用来处理非结构化数据,迫切希望能提出一种方法进行非结构化数据的处理。为了解决这个问题,很多研究者提出了为web数据建立元数据,可将非结构化数据变成结构化或半结构化数据。但由于web数据形式的多样性,很难为多样性的数据建立一种统一标准的元数据。本为为web数据中的文本数据建立了一种Dublin Core文本元数据表,将web文本这种非结构化数据结构化。Web文本元数据分为描述性元数据和语义性元数据,描述性元数据通过分析HTML源文件直接得到。为解决上述问题提供了技术支持。

【发明内容】

[0005]本发明针对以上问题的提出,而研制基于专业搜索引擎的爬虫策略更新图书信息的方法。本发明采用的技术方案如下:
[0006]一种基于专业搜索引擎的爬虫策略更新图书信息的方法,其特征在于包括如下步骤:
[0007]I)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;
[0008]2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;
[0009]3)图书网站校验通过后,图书信息收索服务器通过专业搜索引擎的爬虫策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载;
[0010]4)图书信息收索服务器将图书信息发送到图书源数据服务器中,图书资源服务器对图书信息收索服务器发送过来的图书信息进行处理,采用基于元数据的web信息提取方法对图书的文字信息进行提取,具体过程如下:①对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项,根据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元数据项,②利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项,采用文本分类基本思想,提取题材元数据项,③为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形成内容侯选句WHJl,其次,在内容候选句WJHl中,利用模糊序贯决策论对冗长段进行处理,形成内容候选句WHJ2,最后,利用平面聚类和均值聚类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔除,最后形成文本内容元数据项;
[0011]5)图书资源服务器将编辑好的图书信息推送到客户的智能移动终端上。
[0012]步骤3)中:所述图书下载方式为通过专业搜索引擎的爬虫策略边搜索边下载。
[0013]由于采用了上述技术方案,本发明提供的方法具有:使用方便、处理速度、技术实现容易等特点。另外,该方法基于计算机系统的实现,只需将该方法编译成相应的程序即可实现对现有计算机的升级,因此其成本非常低廉适于广泛推广。
【附图说明】
[0014]图1为本发明所述系统的结构框图;
[0015]图2为本发明的实现流程图。
【具体实施方式】
[0016]如图1和图2所示一种基于专业搜索引擎的爬虫策略更新图书信息的方法包括如下步骤:
[0017]I)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;
[0018]2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;
[0019]3)图书网站校验通过后,图书信息收索服务器通过专业搜索引擎的爬虫策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载;
[0020]4)图书信息收索服务器将图书信息发送到图书源数据服务器中,图书资源服务器对图书信息收索服务器发送过来的图书信息进行处理,采用基于元数据的web信息提取方法对图书的文字信息进行提取,具体过程如下:①对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项,根据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元数据项,②利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项,采用文本分类基本思想,提取题材元数据项,③为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形成内容侯选句WHJl,其次,在内容候选句WJHl中,利用模糊序贯决策论对冗长段进行处理,形成内容候选句WHJ2,最后,利用平面聚类和均值聚类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔除,最后形成文本内容元数据项;
[0021]5)图书资源服务器将编辑好的图书信息推送到客户的智能移动终端上。
[0022]步骤3)中:所述图书下载方式为通过专业搜索引擎的爬虫策略边搜索边下载。
[0023]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
【主权项】
1.一种基于专业搜索引擎的爬虫策略更新图书信息的方法,其特征在于包括如下步骤: 1)图书信息收索服务器通过有线或无线的方式连接到各图书网站上; 2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验; 3)图书网站校验通过后,图书信息收索服务器通过专业搜索引擎的爬虫策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载; 4)图书信息收索服务器将图书信息发送到图书源数据服务器中,图书资源服务器对图书信息收索服务器发送过来的图书信息进行处理,采用基于元数据的web信息提取方法对图书的文字信息进行提取,具体过程如下:①对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项,根据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元数据项,②利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项,采用文本分类基本思想,提取题材元数据项,③为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形成内容侯选句WHJl,其次,在内容候选句WJHl中,利用模糊序贯决策论对冗长段进行处理,形成内容候选句WHJ2,最后,利用平面聚类和均值聚类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔除,最后形成文本内容元数据项; 5)图书资源服务器将编辑好的图书信息推送到客户的智能移动终端上。
2.根据权利要求1所述的一种基于专业搜索引擎的爬虫策略更新图书信息的方法,其特征在于步骤3)中: 所述图书下载方式为通过专业搜索引擎的爬虫策略边搜索边下载。
【专利摘要】本发明公开了一种基于专业搜索引擎的爬虫策略更新图书信息的方法,包括如下步骤:图书信息收索服务器通过有线或无线的方式连接到各图书网站上;图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;图书网站校验通过后,图书信息收索服务器通过专业搜索引擎的爬虫策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载;图书资源服务器对图书信息收索服务器发送过来的图书信息进行处理,图书资源服务器将编辑好的图书信息推送到客户的智能移动终端上。本发明提供的方法具有:使用方便、处理速度、技术实现容易等特点。
【IPC分类】G06F17-30
【公开号】CN104598489
【申请号】CN201310535386
【发明人】张宇
【申请人】大连易维立方技术有限公司
【公开日】2015年5月6日
【申请日】2013年10月31日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1