本发明涉及数据处理领域,具体地,涉及一种多类型数据的数据处理系统、方法及介质,尤其涉及一种适用于科创板的esg责任投资评级系统、方法及介质。
背景技术:
esg即环境、社会和公司治理(environment、socialresponsibility、corporategovernance),包括信息披露、评估评级和投资指引三个方面,是社会责任投资的基础,是绿色金融体系的重要组成部分。从评价内容来看,环境因素包括倡导环境友好经济发展模式,注重环境保护,再生资源利用,降低自然资源的创新技术应用等;社会因素包括员工福利和客户满意度,人权和劳工标准,数据保护和隐私,企业价值观,社会责任等;公司治理包括规范的经营管理、严格的内部控制、独立外部审计和监督、反腐败和商业贿赂、遵守股东政策、平等对待股东等。esg评价体系在美国等海外成熟市场中,为投资者提供了有效的投资参考。
由于中国资本市场相较成熟市场时间较短,中国经济结构亦处于转型升级过程中,直接对标海外市场成熟标准并不符合中国当前的实际情况。从客观情况来看,一方面中国资本市场涉及esg核心因素的信息不完整、信息滞后,甚至完全缺失。另一方面,受市场成熟程度影响,中国上市公司整体财务数据治理方面仍存在不足,关联交易、收入确认、固定资产折旧、商誉减值等会计处理存在较多调节空间。所以与国外较为完善统一的资本市场信息体系相比,中国的行情不适用于直接套用国外esg评级体系。
专利文献cn110472884a公开了一种esg指标监控方法、装置、终端设备及存储介质,该esg指标监控方法包括:获取另类数据,并对所述另类数据进行处理以确定知识图谱;从所述另类数据中抽取esg事件,并结合所述知识图谱对所述esg事件进行esg指标评分;根据进行esg指标评分的评分结果向所述esg事件的关系方输出预警信息。该专利的缺陷在于:第一,只能在企业可能出现esg危机时对其起到一定的警示作用,却无法对广大投资者提供投资分析和横向对比的的信息;第二,其中最重要的一环,即直接将国外的esg评价体系套用于国内企业,导致最终的评价结果并不客观、准确。
技术实现要素:
针对现有技术中的缺陷,本发明的目的是提供一种多类型数据的数据处理系统、方法及介质。
根据本发明提供的一种多类型数据的数据处理系统,包括:
信息采集服务器:从网络获取对象的web数据以及从历史数据库获取对象的历史数据,并存储至信息数据库中;
数据整合存储服务器:对所述信息数据库中的数据进行分区存储并分类导出;
子数据库:包括多个数据库,分别从不同的方面获取所述数据整合存储服务器导出的数据;
核心数据处理服务器:将子数据库中的数据导入指标量化处理数据库中,按照预设的细化指标进行标准化处理,得到标准化数据;通过动态的主观、客观的指标分析系统,得到ahp重要性矩阵,将标准化数据导入ahp分析处理系统,通过ahp分析处理系统赋予权重,得到初始处理数据;将初始处理数据导入评分系统中通过预设的公式进行运算,将初始处理数据乘以相应权重并加总,分别得到多项指标评分;将多项指标评分的总分进行排序,经过预设的比例计算得到最终处理结果。
优选地,所述信息采集服务器包括:
通过爬取网络资源并解析,获取对象的web数据,通过调用历史数据库,获取对象的历史数据,通过获取的手动录入数据,获取对象的补录数据;
并对获取的web数据、历史数据和补录数据进行数据清洗后存储入所述信息数据库。
优选地,所述数据整合存储服务器对数据的分类导出包括:建立索引和缓存机制。
优选地,还包括数据可视化单元,所述数据可视化单元包括终端设备,显示对象对应的最终评级。
优选地,所述多个数据库包括:环境数据库、社会责任数据库和公司治理数据库,分别从环境、社会责任和公司治理三个方面获取所述数据整合存储服务器导出的数据;
所述多项指标包括:环境e、社会责任s和公司治理g三项指标,三项指标下设多层子指标;
所述数据可视化单元显示对象对应的最终处理结果以及对象所属的行业、大盘的综合评级。
根据本发明提供的一种多类型数据的数据处理方法,包括步骤:
s1:从网络获取对象的web数据以及从历史数据库获取对象的历史数据,并存储至信息数据库中;
s2:对所述信息数据库中的数据进行分区存储并分类导出;
s3:通过多个数据库分别从不同的方面获取导出的数据;
s4:将三个方面的数据导入指标量化处理数据库中,按照预设的细化指标进行标准化处理,得到标准化数据;通过动态的主观、客观的指标分析系统,得到ahp重要性矩阵,将标准化数据导入ahp分析处理系统,通过ahp分析处理系统赋予权重,得到初始处理数据;将初始处理数据导入评分系统中通过预设的公式进行运算,将初始处理数据乘以相应权重并加总,分别得到多项指标评分;将多项指标评分的总分进行排序,经过预设的比例计算得到最终处理结果。
优选地,所述步骤s1包括:
通过爬取网络资源并解析,获取对象的web数据,通过调用esg数据库,获取对象的历史数据,通过获取的手动录入数据,获取对象的补录数据;
并对获取的web数据、历史数据和补录数据进行数据清洗后存储入所述信息数据库。
优选地,所述步骤s2对数据的分类导出包括:建立索引和缓存机制。
优选地,所述多个数据库包括:环境数据库、社会责任数据库和公司治理数据库,分别从环境、社会责任和公司治理三个方面获取所述数据整合存储服务器导出的数据;
所述多项指标包括:环境e、社会责任s和公司治理g三项指标,三项指标下设多层子指标。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现多类型数据的数据处理方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过核心数据处理服务器自动标准化处理和ahp分析处理系统给予合理权重,解决了在不同对象之间的多类型数据评价对比的需求,解决现有评级体系无法直接适用的问题。
2、通过web数据、历史数据库和手动输入的方式解决了数据来源单一匮乏的问题,增加了分析的可靠性和准确性。
3、通过采用分区存储,建立索引和缓存等机制,增强了数据的适用性以及调用性,解决了数据的繁杂,不适用于系统的问题。
4、通过优化数据的采集和加工环节,提高数据处理效率。解决了目前数据滞后,更新慢的问题。
5、通过评分体系的确权和数据量化,解决了数据类型多样,数据加工欠缺的问题。
通过进一步的改进,本发明可以应用于esg评价体系之中,解决单一针对财务绩效等进行投资决策的问题,使esg评价体系能够更为客观、准确的应用于中国的科创板企业,为投资者提供投资决策对比参考。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的系统结构示意图;
图2为本发明实施例中对二级指标的权重处理示意图;
图3为本发明实施例中对三级指标的权重处理示意图;
图4为本发明实施例中的评级结果示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1
如图1所示,本发明提供的一种esg责任投资评级系统,包括:信息采集服务器、数据整合存储服务器、子数据库、核心数据处理服务器和数据可视化单元。
信息采集服务器通过python爬取网络资源并解析,获取待评级对象的web数据,通过sqoop调用智芝全esg数据库,获取待评级对象的历史数据,通过获取的手动录入数据,获取待评级对象的补录数据。对获取的web数据、历史数据和补录数据进行数据清洗后存储入信息数据库。
数据整合存储服务器对信息数据库中的数据进行分区存储,并建立索引和缓存机制和/或建立hive表对数据进行分类导出。
子数据库包括环境数据库、社会责任数据库和公司治理数据库,分别从环境、社会责任和公司治理三个方面获取数据整合存储服务器导出的数据。
核心数据处理服务器将子数据库中的数据导入指标量化处理数据库中,按照预设的细化指标进行标准化处理,得到标准化数据;将标准化数据导入ahp分析处理系统,通过ahp分析处理系统赋予权重,得到初始评级数据;将初始评级数据导入esg评分系统中通过预设的公式进行运算,将初始评级数据乘以相应权重并加总,分别得到e,s,g三项指标评分,三项指标下设多层子指标;将e,s,g三项指标评分的总分进行排序,经过预设的比例计算得到最终评级。
数据可视化单元包括终端设备,显示待评级对象对应的最终评级以及待评级对象所属的行业、大盘的综合评级。
从采集的数据上具体来看,由于各类数据覆盖范围较为广泛,并且随着最新事件实时更新;此外,在保证指标合理的前提下,数据来源尽量选择公开数据,更多地倾向于从大事件和公共披露数据中获得数据来源,以保证进行投资评估决策的及时性与评价结果的准确性。例如,本实施例采集了本次新型冠状病毒引起的肺炎疫情下的一些企业相关数据:通过python爬取企业最新捐赠物资等数据(web数据),并结合智芝全esg数据库(历史数据库),获取历史数据以便综合评价,再进行下一步的数据处理。还有例如公司治理方面的复工率等实时更新的数据,需要系统不断进行信息的导入更新。
在数据整合存储服务器中建立索引和缓存机制,还可以建立hive表格对数据进行分类导出。每一个hive表格在hive中都有一个相应的目录存储数据,例如,一个表fgl,它在hdfs(hadoop分布式文件系统)中的路径为:/corporategovernance/fgl,其中,corporategovernance(公司治理)是在配置文件hive-site.xml中由${hive.metastore.warehouse.dir}指定的数据仓库的目录,所有的表格数据都保存在这个目录中。
实施例2
在实施例1的基础上,本发明还提供一种esg责任投资评级方法,包括步骤:
步骤1:将搜集的原始数据经过清洗后导入信息数据库,具体包括:
步骤1.1:过python爬取网络资源解析信息获取科创板公司web数据;通过智芝全esg数据库调用历史数据,以及通过手动补录输入数据。
步骤1.2:将获取的信息经过清洗后导入信息数据库中。
步骤2:将数据进行整合存储,具体包括:
步骤2.1:将信息数据库中的信息分区储存,通过建立索引和缓存机制分类导出。
步骤3:子数据库e(环境),s(社会责任),g(公司治理)三个方面对数据进行分类并导出。
步骤4:利用子数据库中的数据进行评级,具体包括:
步骤4.1:将各子数据库中的数据导入指标量化处理数据库中。
步骤4.2:通过动态的主、客观指标分析系统,定期更新指标重要性矩阵输入到步骤4.3ahp分析处理系统。
步骤4.3:按照提前设计好的细化指标进行自动标准化处理,完成初步评分。各详细指标给出基于参考国外指标设定,并结合科创板和中国企业的特点,给出esg适用于本发明的二三级指标。其特点为能够相对减少中国企业信息披露不足给评分带来的影响,以及指标选取更适用于科创板企业。
步骤4.4:将标准化数据导入ahp分析处理系统,通过ahp分析处理系统自动赋予一定的权重,进行初始评级。
步骤4.5:将初始评级数据导入esg评分系统中:
步骤4.6:通过提前设置好的公式进行自动运算,将各二级指标的初始评分乘以相应权重并加总,分别得到e,s,g三项指标评分。
步骤4.7:将各公司所得esg总分进行排序,经过设定好的比例计算与处理,得到最终评级,总分越高的公司评级越高。
步骤4.8:将最终评级结果导入esg数据库中。
步骤5:最终评级结果通过终端进行可视化处理。或发布esg科创板投资指数,或发布esg科创板个股投资评分。
在本实施例中,esg评价体系结合中国的实际情况选取指标,通过抽取另类数据中的esg事件,并通过ahp分析法建立两两重要程度型矩阵,导出各指标所占权重。结合各指标的评分以及分析权重,最终得到esg评分。以环境关注(environment)层二级指标为例,选取绿色可替代资源使用、环境污染处罚次数、募资项目环保情况、公司生产经营污染物排放、环境指标披露度、绿色采购、环保投入、节能减排措施、员工环保意识、工厂绿色设计/规划、环保宣传力度、资源利用和回收、生产项目环境保护程度13个指标,并于每个指标下细化出多级子指标以量化评分。
指标均依据中国国情以及科创板实际情况设立,例如,绿色采购指企业考虑原材料、产品、服务是否低碳节能,考虑供应商环境表现的采购行为;由于国内环境监管要求低于国外,企业环境类指标披露数据存在缺失的可能性较大,使用环境指标披露度作为补全指标,使评价更为完善;由于科创板企业的集中于电气设备、元器件、专用机械、半导体、通讯设备行业,公司生产经营污染物排放指标的子指标中,我们将电磁辐射影响纳入考虑范围,使评价体系更具有科创板特征。
ahp层次分析法的基本思路是:计算各层元素对系统目标的合成权重,进行总排序,以确定递阶结构图中最底层各个元素的总目标中的重要程度。根据分析计算结果,考虑相应的决策。在本发明中,以e指标为例,通过二级指标之间重要性的比较,得出对于上一层某因素而言,本层次各因素的重要性的排序。此比较通过建立所有二级指标两两比较的矩阵实现。矩阵具体标度如下:1表示两个元素对某个属性具有同样重要性;3表示两个元素比较,一元素比另一元素稍微重要;5表示两个元素比较,一元素比另一元素明显重要;7表示两个元素比较,一元素比另一元素重要得多;9表示两个元素比较,一元素比另一元素极端重要;2,4,6,8表示需要在上述两个标准之间折中时的标度。判断矩阵中指标的重要性程度是根据资料数据、专家的意见和系统分析人员的经验经过反复研究后确定。随后算矩阵的随机一致性比率,当此比率小于0.1时,认为判断矩阵具有可以接受的一致性。最后,从矩阵中得出各二级指标的权重,列示如图2所示。本发明对esg三级指标也进行了类似的权重处理,由于指标较多难以全部列示,仅举例列示如图3所示。
通过对以上每项esg因素进行评分,在考虑行业和影响时间因素后进行加权打分,最终得到公司的esg评分。依据esg评分共划分为7个评级,具体包括:aaa,aa,a,bbb,bb,b,ccc,各个评级占比如图4所示。
实施例3
本发明还提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述esg责任投资评级方法的步骤。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。