一种主题自适应的学术会议搜索系统的制作方法

文档序号:6581606阅读:308来源:国知局
专利名称:一种主题自适应的学术会议搜索系统的制作方法
技术领域
本发明属于信息检索、信息抽取、文本挖掘领域,更具体地,涉及一种主题自适应的学术会议搜索系统。
背景技术
随着学术交流的举办愈加频繁,全球学术会议及学术期刊的数量逐年激增。对于科研工作者而言,如何方便快捷地从众多的学术会议和学术期刊中找到与自己的研究领域相吻合的会议或期刊,进而查阅相关的文献用以参考;又或者如何从海量的学术会议及学术期刊中选择适合自己论文投稿的会议或期刊,以增加录用的概率,已然成为科研工作者十分关心的问题。现有的科技文献检索引擎基本上采用的都是基于关键字的全文检索方式来响应用户的查询请求,而且其主要检索对象大部分都是定位在科技文献上,对于学术会议的检索支持很少甚至没有。例如,Google Scholar、ACM数据库、IEEE数字图书馆、中国知识资源总库CNKI,大多没有专门针对学术会议提供检索服务,更没有对学术会议的主题信息进行深度挖掘。此外,通过对科研工作者的论文进行文本挖掘进而达到主题发现的目的,以实现主题自适应的投稿推荐服务在现有的科技文献平台中还鲜有见过。

发明内容
针对现有技术的缺陷,本发明的目的在于提供一种主题自适应的学术会议搜索系统,该系统可以为用户提供主题自适应的学术会议检索服务以及主题自适应的个性化投稿推荐服务,以解决现有科技文献检索引擎存在的弊端,如检索不灵活,只能按关键字匹配等,在主题自适应的学术会议检索服务中,用户可以通过研究领域主题关键字来检索到相关的学术会议,与传统的科技文献检索引擎相比,该系统可以根据关键词进行主题自适应的相关性判定过程,并且具有更强的专业性、更高的精确性和权威性。为实现上述目的,本发明提供了一种主题自适应的学术会议搜索系统,包括数据采集模块、主题发现模块、数据处理模块以及用户接口模块,用户接口模块包括学术会议搜索接口子模块以及个性化投稿推荐接口子模块,数据采集模块包括网络爬虫子模块和数据存储子模块,主题发现模块包括网页信息抽取子模块、文本抽取子模块以及文本挖掘子模块,数据处理模块包括数据库子模块、索引子模块、学术会议评价子模块以及检索子模块,网络爬虫子模块用于从公开免费的信息源爬取包含学术会议和/或期刊信息的网页,数据存储子模块用于将网络爬虫子模块爬取的网页以文件的形式存储在本地,网页信息抽取子模块用于从爬取的网页中抽取出学术会议和/或期刊的信息并存储在文件中,个性化投稿推荐接口子模块用于接收用户上传的论文文档,并将其传递给文本抽取子模块,文本抽取子模块用于解析来自个性化投稿推荐接口子模块的论文文档,以获取文档内容的文本信息,并将文本信息传递给文本挖掘子模块,文本挖掘子模块用于对文本抽取子模块获取的文本信息进行文本挖掘,以获取主题信息,并将主题信息传给检索子模块,数据库子模块用于将网页信息抽取子模块抽取到的学术会议和/或期刊信息存储到数据库中,索引子模块用于利用开源全文检索引擎工具包为存储在数据库中的学术会议和/或期刊信息构建索弓I,学术会议评价子模块用于计算学术会议和/或期刊的等级值,学术会议搜索接口子模块用于接收用户输入的搜索关键词,并将其传递给检索子模块,检索子模块用于从学术会议搜索接口子模块接收搜索关键词,利用开源全文检索引擎工具包对该搜索关键词进行解析,根据解析结果在索引子模块构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块计算的等级值对检索结果进行排序,并将排序结果传送给学术会议搜索接口子模块,检索子模块还用于接收来自文本挖掘子模块的主题信息,利用开源全文检索引擎工具包对该主题信息进行解析,根据解析结果在索引子模块构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块计算的等级值对检索结果进行排序,并将排序结果传送给个性化投稿推荐接口子模块,学术会议搜索接口子模块还用于将来自于检索子模块的排序结果以可视化的形式呈现在Web页面上,供用户查阅,个性化投稿推荐接口子模块还用于将来自于检索子模块的排序结果以可视化的形式呈现在Web页面上,供用户查阅。网络爬虫子模块利用HttpClient开源Jar包实现对信息源的统一资源标识符进行特征分析,以判断该信息源中是否包括学术会议和/或期刊信息。网页信息抽取子模块利用HtmlParser开源Jar包实现信息的抽取,信息具体包括标题、举办时间、举办地点、投稿日期、会议主题。网页信息抽取子模块首先构建节点过滤器对包含学术会议和/或期刊信息的网页进行解析,得到节点队列,并进一步通过解析器解析出属性节点,再通过正则表达式或条件随机场的方法解析出属性值,最后将属性值分类并存储在文件中。文本挖掘子模块是通过机器学习、文本聚类等方法实现文本挖掘,具体为对文本抽取子模块获取的文本信息进行文本预处理,包括特征提取、特征选择,然后进行文本抽取,抽取的信息包括术语、主题词、关键词等,最后通过聚类分析和主题聚类发现主题信息。数据库子模块采用JDBC、ODBC、ADO、OLE DB、JDBC-0DBC桥的连接方式将抽取到的学术会议和/或期刊信息存储到数据库中。数据库包括Access、MySQL、Microsoft SQL Server、DB2、Oracle。索引子模块创建索引的域,包括索引的时间、学术会议和/或期刊的简称、全称、时间、地点、摘要注册截止日期、等级、主题属性,将相关属性值保存在索引文件中,并对其中的全称域和主题域进行分词索引。学术会议评价子模块采用以下公式计算学术会议和/或期刊的等级值
权利要求
1.一种主题自适应的学术会议搜索系统,包括数据采集模块、主题发现模块、数据处理模块以及用户接口模块,其特征在于, 用户接口模块包括学术会议搜索接口子模块以及个性化投稿推荐接口子模块; 数据采集模块包括网络爬虫子模块和数据存储子模块; 主题发现模块包括网页信息抽取子模块、文本抽取子模块以及文本挖掘子模块; 数据处理模块包括数据库子模块、索引子模块、学术会议评价子模块以及检索子模块; 网络爬虫子模块用于从公开免费的信息源爬取包含学术会议和/或期刊信息的网页; 数据存储子模块用于将网络爬虫子模块爬取的网页以文件的形式存储在本地; 网页信息抽取子模块用于从爬取的网页中抽取出学术会议和/或期刊的信息并存储在文件中; 个性化投稿推荐接口子模块用于接收用户上传的论文文档,并将其传递给文本抽取子模块; 文本抽取子模块用于解析来自个性化投稿推荐接口子模块的论文文档,以获取文档内容的文本信息,并将文本信息传递给文本挖掘子模块; 文本挖掘子模块用于对文本抽取子模块获取的文本信息进行文本挖掘,以获取主题信息,并将主题信息传给检索子模块; 数据库子模块用于将网页信息抽取子模块抽取到的学术会议和/或期刊信息存储到数据库中; 索引子模块用于利用开源全文检索引擎工具包为存储在数据库中的学术会议和/或期刊信息构建索引; 学术会议评价子模块用于计算学术会议和/或期刊的等级值; 学术会议搜索接口子模块用于接收用户输入的搜索关键词,并将其传递给检索子模块; 检索子模块用于从学术会议搜索接口子模块接收搜索关键词,利用开源全文检索引擎工具包对该搜索关键词进行解析,根据解析结果在索引子模块构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块计算的等级值对检索结果进行排序,并将排序结果传送给学术会议搜索接口子模块; 检索子模块还用于接收来自文本挖掘子模块的主题信息,利用开源全文检索引擎工具包对该主题信息进行解析,根据解析结果在索引子模块构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块计算的等级值对检索结果进行排序,并将排序结果传送给个性化投稿推荐接口子模块; 学术会议搜索接口子模块还用于将来自于检索子模块的排序结果以可视化的形式呈现在Web页面上,供用户查阅; 个性化投稿推荐接口子模块还用于将来自于检索子模块的排序结果以可视化的形式呈现在Web页面上,供用户查阅。
2.根据权利要求1所述的学术会议检索系统,其特征在于,网络爬虫子模块利用HttpClient开源Jar包实现对信息源的统一资源标识符进行特征分析,以判断该信息源中是否包括学术会议和/或期刊信息。
3.根据权利要求1所述的学术会议检索系统,其特征在于,网页信息抽取子模块利用HtmlParser开源Jar包实现信息的抽取,信息具体包括标题、举办时间、举办地点、投稿日期、会议主题。
4.根据权利要求3所述的学术会议检索系统,其特征在于,网页信息抽取子模块首先构建节点过滤器对包含学术会议和/或期刊信息的网页进行解析,得到节点队列,并进一步通过解析器解析出属性节点,再通过正则表达式或条件随机场的方法解析出属性值,最后将属性值分类并存储在文件中。
5.根据权利要求1所述的学术会议检索系统,其特征在于,文本挖掘子模块是通过机器学习、文本聚类等方法实现文本挖掘,具体为对文本抽取子模块获取的文本信息进行文本预处理,包括特征提取、特征选择,然后进行文本抽取,抽取的信息包括术语、主题词、关键词等,最后通过聚类分析和主题聚类发现主题信息。
6.根据权利要求1所述的学术会议检索系统,其特征在于,数据库子模块采用JDBC、ODBC,ADO,OLE DB、JDBC-0DBC桥的连接方式将抽取到的学术会议和/或期刊信息存储到数据库中; 数据库包括 Access、MySQL、Microsoft SQL Server、DB2、Oracle。
7.根据权利要求1所述的学术会议检索系统,其特征在于,索引子模块创建索引的域,包括索引的时间、学术会议和/或期刊的简称、全称、时间、地点、摘要注册截止日期、等级、主题属性,将相关属性值保存在索引文件中,并对其中的全称域和主题域进行分词索引。
8.根据权利要求1所述的学术会议检索系统,其特征在于,学术会议评价子模块采用以下公式计算学术会议和/或期刊的等级值
全文摘要
本发明公开了一种主题自适应的学术会议搜索系统,包括数据采集模块、主题发现模块以及数据处理模块,数据采集模块包括网络爬虫子模块和数据存储子模块,主题发现模块包括网页信息抽取子模块、文本抽取子模块以及文本挖掘子模块,数据处理模块包括数据库子模块、索引子模块、学术会议评价子模块以及检索子模块,网络爬虫子模块用于从公开免费的信息源爬取包含学术会议和/或期刊信息的网页,数据存储子模块用于将网络爬虫子模块爬取的网页以文件的形式存储在本地,网页信息抽取子模块用于从爬取的网页中抽取出学术会议和/或期刊的信息并存储在文件中。本发明可根据关键词进行主题自适应的相关性判定过程,并具有很强的专业性、高精确性和权威性。
文档编号G06F17/30GK103049575SQ201310003000
公开日2013年4月17日 申请日期2013年1月5日 优先权日2013年1月5日
发明者金海 , 赵峰, 孙正, 聂昶 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1