信息采集系统的制作方法

文档序号:19865412发布日期:2020-02-08 05:15阅读:163来源:国知局
信息采集系统的制作方法

本申请涉及信息服务技术领域,尤其涉及针对于各地方交易所的挂牌项目的信息采集系统。



背景技术:

收集同行业内的其他主体的经营活动信息,有利于深入了解行业动态以优化自身经营活动。例如,作为中国银行间市场交易商协会的指定交易平台以及财政部指定的金融类国有资产交易平台的北京金融资产交易所有限公司,其需要对各地方交易所的金融国资类项目进行信息监测。

然而,目前该信息监测工作靠人工来完成。随着信息监测内容涉及的内容点逐渐增多,内容面逐渐扩广以及信息更新更为频繁,人力成本飞速上涨。同时,受人力因素影响,工作质量和数据准确性难以保证。

因此,提供一款专门针对于各地方交易所的挂牌项目的信息采集系统。



技术实现要素:

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种针对于各地方交易所的挂牌项目的信息采集系统,其能够智能地完成对各交易所的信息监测工作,节省了人力成本并确保了工作质量和数据准确性。

根据本申请的一方面,提供了一种信息采集系统,包括:

数据采集模块,用于获取与待监测交易所挂牌项目相关的网页;

数据处理模块,用于从所述网页中提取与挂牌项目相关的信息,以及,对提取的与挂牌项目相关的信息进行数据清洗;以及

数据整理模块,用于对经过清洗后的与挂牌项目相关的信息进行整理统计,并输出整理统计结果。

在根据本申请的信息采集系统中,所述数据采集模块基于网络信息抓取技术获取与待监测交易所挂牌项目相关的网页。

在根据本申请的信息采集系统中,所述整理统计结果包括各交易所挂牌的数量、各交易所挂牌交易额和个交易所54号令下的项目数。

在根据本申请的信息采集系统中,所述整理统计结果通过表格的形式输出。

在根据本申请的信息采集系统中,所述信息采集系统进一步包括数据查询模块,用于接收查询请求,以及,响应于接收到所述查询请求,输出匹配的查询结果。

在根据本申请的信息采集系统中,各交易所挂牌项目为金融国资类项目。

根据本申请另一方面,提供一种信息采集系统,其包括:

用户层,其中,在所述用户层上设有普通用户和系统管理员两种用户角色,并且,为所述普通用户和所述系统管理员配置不同的访问权限和功能;

表现层,用于显示与待监测交易所挂牌项目相关的数据和/或整理统计结果;

应用层,用于搜索与待监测交易所挂牌项目相关的数据;浏览与管理待监测交易所挂牌项目相关的数据;以及,对所述信息采集系统进行系统管理;

分析层,用于对与待监测交易所挂牌项目相关的数据进行清洗、识别和/或分析;

采集层,用于采集与待监测交易所挂牌项目相关的数据;以及

基础设施层,用于部署操作系统、数据库系统、应用服务器、分布式缓存系统、文件服务器和全文检索系统。

在根据本申请的信息采集系统中,为普通用户配置的功能包括:数据查询、数据统计和报表输出;为系统管理员配置的功能包括:用户管理、交易所站点库管理和系统数据管理。

本申请提供的所述信息采集系统能够智能地完成对各交易所的信息监测工作,节省了人力成本并确保了工作质量和数据准确性。

附图说明

通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的信息采集系统的框图示意图。

图2图示了根据本申请实施例的信息采集系统的工作流程示意图。

图3图示了根据本申请实施例的信息采集系统的逻辑架构示意图。

图4图示了根据本申请实施例的信息采集系统的另一框图示意图。

具体实施方式

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

示例性信息采集系统

如图1所示,基于本申请实施例的信息采集系统被阐明。特别地,在本申请实施例中,所述信息采集系统为专门针对于各地方交易所的挂牌项目(尤其是金融国资类项目)的信息采集系统,其中,通过所述信息采集系统能够智能地完成对各交易所的信息监测工作,节省了人力成本并确保了工作质量和数据准确性。

如图1所示,根据本申请实施例的所述信息采集系统100包括:数据采集模块110、数据处理模块120、数据整理模块130和数据查询模块140。其中,数据采集模块110用于获取与待监测交易所挂牌项目相关的网页。所述数据处理模块120用于从所述网页中提取与挂牌项目相关的信息,以及,对提取的与挂牌项目相关的信息进行数据清洗。所述数据整理模块130用于对经过清洗后的与挂牌项目相关的信息进行整理统计,并输出整理统计结果。所述数据查询模块140用于接收查询请求,以及,响应于接收到所述查询请求,输出匹配的查询结果。

具体来说,在本申请实施例中,所述数据采集模块110基于网络信息花去技术获取与待监测交易所挂牌项目相关的网页。本领域普通技术人员应知晓,网络信息抓取技术,例如网络爬虫(又被称为网页蜘蛛,网络机器人,在foaf社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本(另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫)。按照系统结构和实现技术分来,网络爬虫大致可以分为以下几个类型:通用网络爬虫(generalpurposewebcrawler)、聚焦网络爬虫(focusedwebcrawler)、增量式网络爬虫(incrementalwebcrawler)、深层网络爬虫(deepwebcrawler),并且,在具体应用中,还可以将上述几种爬虫技术相结合。本领域普通技术人员应了解,在本申请实施例中,所述网络爬虫技术的选择并不为本申请所局限。

应可以理解,在通过网络爬虫技术抓取网页前,需提供待监测交易所的名单。特别地,在本申请实施例中,各交易所为地方交易所,包括但不限于:天津金融资产交易所(简称天金所)、上海联合产权交易所(简称上海联交所)、重庆金融资产交易所(简称重金所)等。这样,便可以通过网络爬虫技术获取与待监测交易所挂牌项目相关的网页(作为原始数据)。

进一步地,所述数据处理模块120用于从所述网页中提取与挂牌项目相关的信息,以及,对提取的与挂牌项目相关的信息进行数据清洗。也就是说,从原始数据中提取与挂牌项目相关的信息(目的信息),并对提取的与挂牌项目相关的信息进行清洗处理。在具体实施中,数据清洗过程,包括但不限于:缺失值处理、特征变量转化、特征选择和维度变化和标准化/归一化/稀疏化等。并且,在进行数据清洗之后,可将清洗之后的数据加载到数据库(例如,sql数据库)中。

进一步地,所述数据整理模块130用于对经过清洗后的与挂牌项目相关的信息进行整理统计,并输出整理统计结果。特别地,所述整理统计结果包括但不限于各交易所挂牌的数量、各交易所挂牌交易额和各交易所54号令下的项目数等。值得一提的是,在具体实施中,可基于实际的信息监测需求新增、删除、修改整理统计结果中的数据项,对此,并不为本申请实施例所限制。

并且,用户还可以通过所述数据查询模块140快速地查询到想要了解的信息。具体来说,首先,所述数据查询模块140接收来自用户的查询请求;相应地,在接收到所述查询请求后,所述数据查询模块140输出匹配的查询结果。

图2图示了根据本申请实施例中所述信息采集系统的工作流程示意图。如图2所示,首先获取包括各地方交易所的数据源;进而,基于网络爬虫技术进行数据采集、建模清洗和数据存储;接着,在应用端通过数据整理统计输出整理统计结果(包括各交易所挂牌的数量、各交易所挂牌交易额和各交易所54号令下的项目数)。

图3图示了根据本申请实施例的所述信息采集系统的逻辑架构示意图。如图3所示,在本申请实施例中,所述信息采集系统包括:用户层、表现层、应用层、分析层、采集层和基础设置层。其中,所述基础设施层,用于部署操作系统、数据库系统、应用服务器、分布式缓存系统、文件服务器和全文检索系统。所述采集层,用于采集与待监测交易所挂牌项目相关的数据。所述分析层,用于对与待监测交易所挂牌项目相关的数据进行清洗、识别和/或分析。所述应用层,用于搜索与待监测交易所挂牌项目相关的数据,浏览与管理待监测交易所挂牌项目相关的数据,以及,对所述信息采集系统进行系统管理。所述表现层,用于显示与待监测交易所挂牌项目相关的数据和/或整理统计结果。还有,在所述用户层上设有普通用户和系统管理员两种用户角色,并且,为所述普通用户和所述系统管理员配置不同的访问权限和功能。

也就是,对于如图1所示的信息采集系统100中的数据采集模块110、数据处理模块120、数据整理模块130和数据查询模块140,数据采集模块110主要用于在所述采集层运行,所述数据处理模块120和所述数据整理模块30主要用于在所述分析层和所述应用层运行,且所述数据查询模块140主要用于在所述表现层和所述用户层运行。

值得注意的是,数据采集模块110、数据处理模块120、数据整理模块130和数据查询模块140,数据采集模块110根据其实现的功能,也可能在其他层运行,比如,当需要调用硬件资源时,均需要在基础设置层运行。或者,当需要接收用户指令并执行相应操作,并将操作结果反馈给用户时,均需要在用户层和表现层上运行。

因此,本领域技术人员可以理解,如图3所示的所述信息采集系统的逻辑架构与如图1所示的所述信息采集系统的功能框图是彼此相一致的,共同实现根据本申请实施例的所述信息采集系统的功能。

基于以上的六层总体架构,所述信息采集系统主要分为两个大部分。图4图示了根据本申请实施例的所述信息采集系统的另一框图示意图。如图4所示,所述信息采集系统包括的第一个大部分为数据采集模块110,其部分主要采用j2eeapplication架构为主。各采集机器人模块内部通过多线程模式进行各项定向任务采集,外部接受调度服务器控制。通过在后端运行,自动采集管理员管理维护的交易所站点上的交易数据。第二大部分为系统应用端,该部分采用基于b/s模式的三层结构,保证系统的开放性、安全性、易用性和可扩展性,主要包括普通用户的使用模块和管理员的配置管理模块,不同用户角色登录有不同的访问权限和功能。

综上基于本申请实施例的所述信息采集系统被阐明,其针对市场数据快速变化的特点,利用网络爬虫技术,及时高效地监测各地方交易所的相关挂牌动态,以获取更多的相关基础信息参考促进同类项目工作的开展。此外,所述信息采集系统还对监测到的数据进行整理统计,并利用数据库技术、redis缓存技术和检索技术,提供快速查询、统计和输出相关交易所数据的功能,以达到监测市场动态的目的。

值得一提的是,在本申请其他示例中,所述信息采集系统还能够基于实际用户需求开发适配的功能模块,对此,并不为本申请所局限。并且,在本申请实施例中,所述信息采集系统还包括其他必要的功能元件(在本申请案中并没有描述),其主要起帮助所述信息采集系统正常实施。对此,本领域技术人员应能够理解。

这里,本领域技术人员可以理解,上述所述信息采集系统中的各个单元和模块的具体功能和操作已经在上述描述中得到了详细介绍,并因此,将省略其重复描述。

如上所述,根据本申请实施例的所述信息采集系统可以实现在各种终端设备中,例如大屏智能设备,或者独立于大屏智能设备的计算机等。在一个示例中,根据本申请实施例的所述信息采集系统可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该所述信息采集系统可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该所述信息采集系统同样可以是该终端设备的众多硬件模块之一。

替换地,在另一示例中,该所述信息采集系统与该终端设备也可以是分立的设备,并且该所述信息采集系统可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1