基于大数据的企业活跃度监测方法及系统与流程

文档序号:31718486发布日期:2022-10-04 22:36阅读:122来源:国知局
基于大数据的企业活跃度监测方法及系统与流程

1.本发明属于大数据技术领域,尤其涉及一种基于大数据的企业活跃度监测方法、系统。


背景技术:

2.近年来,随着我国经济社会高速发展,新技术、新模式、新业态不断涌现,也给市场监管带来新的挑战。现有的企业监管方式无法与企业形成多方位涉联,也无法构建全流程管控,效率低、数据利用率差、无法形成精准的指标及结果,需要利用一种模型辅助量化,形成精准的监测分析结果,帮助提升企业监管的效率与质量。企业活跃度是一个能够衡量企业发展现状的重要维度。目前我国暂时没有出台统一的关于企业活跃度的标准评价体系,因此现有技术中对于企业活跃度的评测办法多是建立一套指标体系来对企业活跃度值进行指标评判,具有一定的局限性和不完全性,数据范围覆盖不足、质量不高、计算过程复杂,使用的参数指标不完全贴合现如今市场现状,为评估或制定决策依据做出数据支撑的作用较低,难以适应新形势下企业活跃度监测的需要。
3.现有技术为充分发挥大数据技术的比较优势和企业信用信息公示系统的重要作用,改进经济运行监测预测和风险预警,合理引导市场预期,提高服务水平和监管效率,构建了企业活跃度模型。该模型主要涵盖企业属性信息、经营状态信息和经营活动信息三类,共计18个指标。随着机构改革、新形势新业态的发展,以及整体企业运行环境的变化,该模型已无法反应企业活跃度的真实情况,故依据当前现实情况,针对企业活跃度模型进行优化重构。
4.通过上述分析,现有技术存在的问题及缺陷为:(1)现有的企业监管方式无法与企业形成多方位涉联,也无法构建全流程管控,效率低、数据利用率差、无法形成精准的指标及结果。
5.(2)现有技术中对于企业活跃度的评测办法多是建立一套指标体系来对企业活跃度值进行指标评判,具有一定的局限性和不完全性。
6.(3)现有企业活跃度模型只能得出数据结论,对结果没有进行进一步分类分析,无法客观详实反应整体企业活跃度的真实情况。
7.(4)现有的企业活跃度分析系统多用给定的指标体系做蓝本,没有结合实际数据及市场状况,不能反应更全面、更符合企业运行状态、更贴合当下市场情况的企业活跃度状况。


技术实现要素:

8.针对现有技术存在的问题,本发明提供了一种基于大数据的企业活跃度监测方法、系统。
9.本发明是这样实现的,一种基于大数据的企业活跃度监测方法,应用于客户端,所述基于大数据的企业活跃度监测方法包括:
客户端通过优化企业经营状态与企业经营活动指标以及计算权重,提升企业活跃度数值的可信度;结合经济环境、市场运行现状、产业行业现状、区域差异、企业年龄以及企业规模的影响因素,优化行业调节参数与规模调节参数,利用优化后的企业活跃度模型进行企业活跃度数据的计算与监测。
10.进一步,所述基于大数据的企业活跃度监测方法包括以下步骤:步骤一,获取企业活跃度测评资源分布以及市场监管部门基本数据;步骤二,确定业务逻辑和计算逻辑,并构建企业活跃度指标数据模型;步骤三,处理指标中的异常值,并计算行业调节参数和规模调节参数;步骤四,采用min-max标准化方法对调节后的指标值进行归一化处理;步骤五,分别进行单个企业活跃度测算以及总活跃度测算;步骤六,计算行业活跃度以及其他维度活跃度,确定活跃度等级。
11.进一步,所述步骤一中的企业基本属性数据包括企业状态、行业门类、注册资本、企业年报数据,年报状态、纳税、净利润、社会保险、企业变更备案数据、企业迁移数据、企业注吊销数据、企业投资人信息数据、企业分支机构数据、动产抵押数据、处罚数据和企业异常名录数据;作为维度的补充引入外厅局数据中的纳税数据、社保缴存数据、公积金缴存数据和互联网数据。
12.进一步,所述步骤二中的业务逻辑是业务数据的应用逻辑,社保数据需明确社保缴存状态和缴费日期;若存在缴费记录,则缴费状态为正;若缴费日期月份出现间断,则视为欠缴,欠缴月份根据时间计算。税务数据需明确是否存在纳税,若有指标得分;年报数据需明确企业的年报时间,在规定的时间内进行年报得分。
13.所述计算逻辑中计算判定体现在注吊销的判定、新登记判定、期末实有企业数的处理、活跃度计算时间段,其中活跃度时间段计算贯穿整个计算逻辑。
14.注吊销判别时,判断企业是否有计算时间段内的记录;若有,则获取记录的时间,构造时间序列,传入记录时间,同时在计算间段内删除所述企业;如果没有记录,则在全量更新数据后,构造时间序列设置起止时间,同时让注吊销时间大于开始时间、小于等于终止时间。
15.新登记判别时,判断企业是否有计算时间段内的记录;若有,则获取记录的时间,构造时间序列,传入记录时间,同时在计算间段内删除所述企业;如果没有记录,则在全量更新数据后,构造时间序列设置起止时间,同时让登记时间大于开始时间、小于等于终止时间。
16.期末实有判断时,判断企业是否有计算时间段内的记录;若有,则获取记录的时间,构造时间序列,传入记录时间,同时在计算间段内删除所述企业;如果没有记录,则在全量更新数据后,构造时间序列设置起止时间,同时让登记时间大于开始时间、小于等于终止时间。
17.进一步,所述步骤二中的企业活跃度指标模型通过系列指标项评价企业的真实生产经营状况。指标分配包括企业属性指标、经营状态指标和经营活动指标三大类,所述企业活跃度指标模型的构建包括:1)数据资源梳理:根据评测目标从官方平台、互联网平台收集有关活跃度数据,包括市场监管、税务、社保、统计、公积金、电力、水务和天然气数据。
18.2)数据接入:获取目标后初步分类为企业登记注册信息、企业许可信息、企业经营行为信息、企业信用信息、企业日常监管信息和企业其他信息;对收集数据进行目标值提取,构建具有特征标签的目标大数据。
19.3)数据处理:数据传入后对数据进行逻辑关系处理,根据各类数据特点利用数据提取和清洗工具,对各类数据进行提取、清洗、挖掘和标准化的处理;包括市场登记数据需要提取企业信用代码、企业市场登记主体名称、登记注册的时间;许可信息需要提取许可类别、有效期;市场主体信用信息需要提取信用信息有效时间、企业日常监管信息需要提取监管记录。
20.4)数据存储:将处理完成的数据分为三类,分别构建始数据库、基础库、主题库,并将对应的数据按照数据分类存放;原始数据库用于存放最为原始的数据,保留原获取方式的数据形式,包括年报数据、市场主体登记注册原始数据;基础库是经过一定处理后的数据,在经过数据清洗,加工后将原始书数据转化为企业及其对应字段的信息集合;主题库用于存放经过活跃度模型计算后的结果数据,具有不同的维度,各个维度显示不同的计算层级结果。
21.5)活跃度模型:活跃度模型是活跃度的计算单元,活跃度结果经过计算后以不同的维度出现;根据建立的企业活跃度模型算法编写数据测算和数据分析程序,并进行基础库数据接入与数据测算,得出测算结果,按照展示维度的不同存入对应的主题库中。
22.进一步,所述步骤三中的指标中的异常值处理包括:部分企业在某些指标的值会特别高,会对其他企业造成干扰,为降低异常值的干扰,特对数据做以下处理:指标中数据高于平均值+1.5倍标准差的,令其等于平均值+1.5倍标准差;指标中数据低于平均值-1.5倍标准差的,令其等于平均值-1.5倍标准差。
23.所述行业调节参数的计算包括:企业的经营状态指标和社保缴存不受行业影响,在指标中调节参数为1,在其他指标上行业调节参数的计算方式如下:其中,为指标均值,为指标的行业均值。示例,以企业变更备案次数指标为例,是在营企业的变更备案总次数除以在营企业的总数,从而得到指标均值,是各行业中在营企业的变更备案总次数除以相同行业中在营企业的总数,从而得到各行业均值,将结果和结果代入公式进行计算,最终得到企业变更备案次数指标的行业调节参数。
24.所述规模调节参数的计算包括:企业的经营状态指标和社保缴存不受规模影响,在指标中调节参数为1,在其他指标上规模调节参数的计算方式如下:其中,为指标均值,为指标的不同企业规模下均值。示例,以企业变更备案次数指标为例,是在营企业的变更备案总次数除以在营企业的总数,从而得到指标均
值,是各规模中在营企业的变更备案总次数除以相同规模中在营企业的总数,从而得到各规模均值,将结果和结果代入公式进行计算,最终得到企业变更备案次数指标的规模调节参数。
25.调节参数调整后单个企业的指标值计算方法如下:;其中,为某个企业第k个指标调节后的指标值,为该企业行业调节参数,为该企业规模调节参数,为该企业第k个指标的指标值。示例,以单个企业的变更备案次数指标为例,是该企业所属行业的调节参数,是该企业所属规模的调节参数,是该企业变更备案次数,代入公式进行计算,最终得到该企业的变更备案次数指标调节后的指标值。
26.所述步骤四中的归一化处理包括:采用min-max标准化方法对调节后的指标值进行归一化处理,将指标值变换为0~100的分值,处理后的指标分值按照指标体系进行单个企业活跃度计算;其中,为各企业的中最小的值,为各企业的中最大的值。示例,以单个企业的变更备案次数指标为例,是该企业的变更备案次数指标调节后的指标值,是各企业的变更备案次数指标调节后的指标值中最小的值,是各企业的变更备案次数指标调节后的指标值中最大的值,代入公式计算,最终得到该企业变更备案次数指标的分值。
27.所述步骤五中的单个企业活跃度测算包括:计算企业个体活跃度的方法如下:;其中,ea为单个企业的活跃度,为该企业在第k个指标的值,k=1,2,

,17,为第k个指标的权重。示例,以单个企业的变更备案系数指标为例,是变更备案次数指标的权重,是该企业变更备案次数指标的分值,代入公式计算,最终得到该企业的活跃度值。
28.所述总活跃度的测算包括:企业的经营状态反映是否活跃,企业进行正常的生产经营行为,经营状态指标中纳税、社保、医保均为正常的;在没有任何其他附加活动下,企业的活跃度为60,所以定义活跃度大于等于60的企业为正常活跃,定义整体活跃度为这部分企业占参与分析的全部的比例,模型如下:;
其中,gea为企业总体活跃度,ea为单个企业活跃度,n为企业个数。
29.所述步骤六中的行业活跃度的计算方法为:;其中,为第i个行业的活跃度,i=1,2,

,n,ea为单个企业的活跃度,为第i个行业的企业个数。
30.所述其他维度活跃度的计算方法为:根据企业活跃度计算方法,计算一定范围和维度的企业活跃度,包括区域活跃度和产业活跃度。
31.所述步骤六中的活跃度等级的确定包括:根据单个企业活跃度得分设置非常活跃、比较活跃度、一般活跃、欠活跃和不活跃五个级别,步骤六行业活跃度计算流程包括数据汇聚整合、数据清洗加工、算法模型构建和实现。
32.1)数据汇聚整合:采用数据抽取、共享交换平台数据交换和互联网数据动态采集方式对原始数据库、基础数据库的数据进行整合;汇聚企业活跃度分析所涉及的税务、社保、公积金、市场监管业务和网络新闻数据,实现对数据的全量、动态、统一的归集,为模型处理和分析提供基础数据资源。
33.2)数据清洗加工:用于优化数据质量,对过程中收集到的冗余信息、缺失信息、异常值进行处理;对于冗余的信息,编写相应脚本,设置冗余条件,触发条件清洗;对于缺失的信息,借助统一社会信用代码身份数据,建立数据与数据之间的联系,在原始数据库、基础库共同执行查询,当筛选到同类型结果时,返回结果补足缺失信息;对于数据异常值,设置数据范围,定义标准,对超出标准范围的数据进行处理,用于满足合理计算需要。
34.3)算法模型构建和实现:企业海量数据信息是数据汇聚整合和数据清洗加工的结果,企业活跃度指标模型需要根据实际情况构建指标;在构建具体指标任务完成后,进入实现阶段,处理平衡行业属性、规模属性、指标的归一化、单一活跃度测算、总体活跃度测算和活跃度等级划分的问题。
35.引入调节参数,通过归一化将数据映射到一定的范围内,将一组数据按照一定的比例放缩;单一活跃度测算是计算单个企业的活跃度情况,逻辑参照整体活跃度测算指标;总体活跃度测算是将每个企业活跃度进行计算后,再计算特定时间段内表现出市场行为和经营管理行为的企业数量与企业总体数量的比率;总体活跃度测算是活跃度结果的最终依据。活跃度等级划分,用定量的方法分析企业活跃度计算的结果,根据得分的不同赋予不同活跃度等级。
36.本发明的另一目的在于提供一种应用所述基于大数据的企业活跃度监测方法的基于大数据的企业活跃度监测系统,所述基于大数据的企业活跃度监测系统包括:数据获取模块,用于获取企业活跃度测评资源分布以及市场监管部门基本数据;模型构建模块,用于确定业务逻辑和计算逻辑,构建企业活跃度指标模型;异常值处理模块,用于处理指标中的异常值,并计算行业调节参数和规模调节参数;指标归一化处理模块,用于采用min-max标准化方法对调节后的指标值进行归一化处理;
活跃度测算模块,用于分别进行单个企业活跃度测算以及总活跃度测算;活跃度等级确定模块,用于计算行业活跃度以及其他维度活跃度,确定活跃度等级。
37.本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述基于大数据的企业活跃度监测方法的步骤。
38.本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述基于大数据的企业活跃度监测方法的步骤。
39.本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述基于大数据的企业活跃度监测系统。
40.结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:1.提高监测效率以及监测时效性,形成一套完整的企业监测体系,丰富了企业监管手段,实现对企业运行情况监测效率的提升,帮助形成企业运行情况监测信息化量化手段,依靠该指标体系可实现对企业运行情况的实时监控,通过活跃度的持续或可比性变动情况,揭示企业生产经营活动的变化趋势,提升企业运行情况监测的时效性。
41.2.提高监测可信度、增加了监管监测维度,本发明通过优化构建企业活跃度算法模型,同时通过对数据的加工清洗,从两方面保障了结果的真实性精准性,帮助提升监管可信度;不仅用于单个市场主体的历史、趋势、现状的评估与分析,还可在宏观层面,对特定区域、行业的全部企业的活跃度进行汇总计算,得出该范围内企业活跃情况,同时还可针对企业年龄、注册资本、产业、类型等方面进行分类运用,丰富了监测维度。
42.3.减少数据冗余,本发明与之前相对比,合并了部分因机构调整引发的指标变化,删除了部分因业务变动导致的真实数据不完整而导致的指标变化,新增了因企业经营活动及市场经济环境发展而增加的反应企业真实状况、活动的指标;同时,填补了负面动态空白,通过对负面指标进行负值加权,一方面在企业成果统计结果失真,或其经营未取得活跃性结果的情形下,通过负面指标信息仍可透视企业活跃度情况;另一方面也可借助负面指标发现企业经营过程中的违法违规行为,实现对市场进行监测的目的。
附图说明
43.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
44.图1是本发明实施例提供的基于大数据的企业活跃度监测方法流程图;图2是本发明实施例提供的活跃度构建方法流程图;图3是本发明实施例提供的基于大数据的企业活跃度监测方法原理图。
具体实施方式
45.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
46.针对现有技术存在的问题,本发明提供了一种基于大数据的企业活跃度监测方法、系统,下面结合附图对本发明作详细的描述。
47.一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
48.如图1所示,本发明实施例提供的基于大数据的企业活跃度监测方法包括以下步骤:s101,获取企业活跃度测评资源分布以及市场监管部门基本数据;s102,确定业务逻辑和计算逻辑,并构建企业活跃度指标模型;s103,处理指标中的异常值,并计算行业调节参数和规模调节参数;s104,采用min-max标准化方法对调节后的指标值进行归一化处理;s105,分别进行单个企业活跃度测算以及总活跃度测算;s106,计算行业活跃度以及其他维度活跃度,确定活跃度等级。
49.在本发明实施例中,图2是提供的基于大数据的企业活跃度监测方法原理。
50.实施例1如图2所示,在步骤s102中确定业务逻辑和计算逻辑,并构建企业活跃度指标模型包括以下步骤:(1)数据资源梳理:根据评测目标从官方平台、互联网平台收集有关活跃度数据,主要数据包括市场监管、税务、社保、统计、公积金、电力、水务、天然气等数据。
51.表1企业活跃度测评数据来源表2企业活跃度测评补充数据参考
数据来源数据内容税务局纳税数据人社局和医保局社保缴存数据公积金管理中心公积金缴存数据互联网数据网络新闻、招聘等(2)数据接入:获取目标后将其初步分类为企业登记注册信息、企业许可信息、企业经营行为信息、企业信用信息、企业日常监管信息、企业其他信息。对收集数据进行目标值提取,构建具有特征标签的目标大数据。
52.(3)数据处理:数据传入后对数据进行逻辑关系处理,根据各类数据特点利用数据提取、清洗等工具,对各类数据进行提取、清洗、挖掘、标准化等处理。例如,市场登记数据需要提取企业信用代码、企业市场登记主体名称、登记注册的时间;许可信息需要提取许可类别、有效期;市场主体信用信息需要提取信用信息有效时间、企业日常监管信息需要提取监管记录。
53.(4)数据存储:将处理完成的数据分为三类,分别构建始数据库、基础库、主题库,并将对应的数据按照数据分类存放。原始数据库用于存放最为原始的数据,保留原获取方式的数据形式,比如年报数据,市场主体登记注册原始数据等。基础库是经过一定处理后的数据,在经过数据清洗,加工后将原始书数据转化为企业及其对应字段的信息集合。主题库用于存放经过活跃度模型计算后的结果数据,它具有不同的维度,各个维度显示不同的计算层级结果。
54.(5)活跃度模型:活跃度模型是活跃度的计算单元,活跃度结果经过计算后以不同的维度出现。根据建立的企业活跃度模型算法编写数据测算和数据分析程序,并进行基础库数据接入与数据测算,得出测算结果,按照展示维度的不同存入对应的主题库中。
55.实施例2在步骤s106中计算行业活跃度包括:活跃度模型计算是构建模型的重要步骤,其核心包括数据汇聚整合、数据清洗加工、算法模型构建和实现三大板块。
56.1)数据汇聚整合:采用数据抽取、共享交换平台数据交换、互联网数据动态采集等方式对原始数据库、基础数据库的数据进行整合。汇聚企业活跃度分析所涉及的税务、社保、公积金、市场监管业务、网络新闻等数据,实现对数据的全量、动态、统一的归集,为模型处理和分析提供基础数据资源。
57.2)数据清洗加工:目的是优化数据质量,对过程中收集到的冗余信息、缺失信息、异常值进行处理。对于冗余的信息,编写相应脚本,设置冗余条件,触发条件清洗。对于缺失的信息,借助统一社会信用代码身份数据,建立数据与数据之间的联系,在原始数据库、基础库共同执行查询,当筛选到同类型结果时,返回结果补足缺失信息。对于数据异常值,设置数据范围,定义标准,对超出标准范围的数据进行处理,目的是使其能够满足合理计算需要。
58.3)算法模型构建和实现:企业海量数据信息是数据汇聚整合和数据清洗加工的结果,企业活跃度指标模型需要根据实际情况构建指标。在构建具体指标任务完成后,进入实现阶段,需要处理平衡行业属性、规模属性、指标的归一化、单一活跃度测算、总体活跃度测
算、活跃度等级划分的问题。
59.行业属性是由于企业所属门类不同,活跃度会存在差异。为了消除这种差异需要引入的调节参数。例如,零售业引入0.95的调节参数,在计算活跃度时需乘以此调节参数。
60.规模属性是由于企业规模不同,活跃度会存在差异。为了消除这种差异需要引入调节参数。例如,100万以下注册资本企业计算活跃度时引入1.15的调节参数,在计算活跃度时需乘以此调节参数。
61.归一化问题是将数据映射到一定的范围内便于进行计算,即将一组数据按照一定的比例放缩,例如,将(75,100)转化为(0.75,1)。
62.单一活跃度测算是计算单个企业的活跃度情况,其逻辑参照整体活跃度测算指标。
63.总体活跃度测算是将每个企业活跃度计算出来后,计算特定时间段内表现出市场行为和经营管理行为的企业数量与企业总体数量的比率。总体活跃度测算是活跃度结果的最终依据。
64.活跃度等级划分,用定量的方法研究企业活跃度计算的结果,根据得分的不同赋予不同活跃度等级。
65.实施例3作为优选实施例,如图3所示,本发明实施例提供的基于大数据的企业活跃度监测方法,具体包括以下步骤:1、企业活跃度测评资源分布,市场监管部门基本数据企业的基本属性数据,如企业状态、行业门类、注册资本、企业年报数据,年报状态、纳税、净利润、社会保险、企业变更备案数据、企业迁移数据、企业注吊销数据、企业投资人信息数据、企业分支机构数据、动产抵押数据、处罚数据、企业异常名录数据。作为维度的补充引入外厅局数据中的纳税数据、社保缴存数据、公积金缴存数据、互联网数据等。
66.2、业务逻辑业务逻辑是业务数据的应用逻辑,社保数据需明确社保缴存状态,缴费日期。若存在缴费记录,缴费状态为正,若缴费日期月份出现间断,即视为欠缴,欠缴月份根据时间计算。税务数据需明确是否存在纳税,若有该指标得分。年报数据需明确企业的年报时间,在规定的时间内进行年报即得分。
67.3、计算逻辑计算判定主要体现在注吊销的判定、新登记判定、期末实有企业数的处理、活跃度计算时间段等。其中活跃度时间段计算贯穿整个计算逻辑。
68.注吊销判别时,首先判断企业是否有计算时间段内的记录,如果有,获取记录的时间,构造一个时间序列,传入记录时间,同时在计算间段内删除该企业。如果没有记录,全量更新数据后,构造一个时间序列设置起止时间,同时让注吊销时间大于开始时间、小于等于终止时间。
69.新登记判别时,首先判断企业是否有计算时间段内的记录,如果有,获取记录的时间,构造一个时间序列,传入记录时间,同时在计算间段内删除该企业。如果没有记录,全量更新数据后,构造一个时间序列设置起止时间,同时让登记时间大于开始时间、小于等于终止时间。
70.期末实有判断时,先判断企业是否有计算时间段内的记录,如果有,获取记录的时间,构造一个时间序列,传入记录时间,同时在计算间段内删除该企业。如果没有记录,全量更新数据后,构造一个时间序列设置起止时间,同时让登记时间大于开始时间、小于等于终止时间。
71.4、构建和应用企业活跃度指标体系,活跃度指标体系是通过一系列的指标项来评价企业的真实生产经营状况。指标分配上共有三个大类,分别为企业属性指标、经营状态指标、经营活动指标。具体指标介绍见表3。
72.表3企业活跃度模型指标体系
73.5、指标中的异常值处理部分企业在某些指标的值会特别高,会对其他企业造成干扰,为降低异常值的干扰,特对数据做以下处理:指标中数据高于平均值+1.5倍标准差的,令其等于平均值+1.5倍标准差;指标中数据低于平均值-1.5倍标准差的,令其等于平均值-1.5倍标准差。
73.6、行业调节参数企业的经营状态指标和社保缴存不受行业影响,在指标中调节参数为1,在其他指标上行业调节参数的计算方式如下:其中,为指标均值,为指标的行业均值。示例,以企业变更备案次数指标为例,是在营企业的变更备案总次数除以在营企业的总数,从而得到指标均值,是各行业中在营企业的变更备案总次数除以相同行业中在营企业的总数,从而得到各行业均值,将结果和结果代入公式进行计算,最终得到企业变更备案次数指标的行业调节参数。
74.7、规模调节参数企业的经营状态指标和社保缴存不受规模影响,在指标中调节参数为1,在其他指标上规模调节参数的计算方式如下:其中,为指标均值,为指标的不同企业规模下均值。示例,以企业变更备案次数指标为例,是在营企业的变更备案总次数除以在营企业的总数,从而得到指标均值,是各规模中在营企业的变更备案总次数除以相同规模中在营企业的总数,从而得到各规模均值,将结果和结果代入公式进行计算,最终得到企业变更备案次数指标的规模调节参数。
75.调节参数调整后单个企业的指标值计算方法如下:;其中,为某个企业第k个指标调节后的指标值,为该企业行业调节参数,为该企业规模调节参数,为该企业第k个指标的指标值。示例,以单个企业的变更备案次数指标为例,是该企业所属行业的调节参数,是该企业所属规模的调节参数,是该企业变更备案次数,代入公式进行计算,最终得到该企业的变更备案次数指标调节后的指标值。
76.8、归一化处理为消除数量级的差异,采用min-max标准化方法对调节后的指标值进行归一化处理,将指标值变换为0~100的分值。处理后的指标分值按照指标体系进行单个企业活跃度计算。
77.其中,为各企业的中最小的值,为各企业的中最大的值。示例,以单个企业的变更备案次数指标为例,是该企业的变更备案次数指标调节后的指标值,
是各企业的变更备案次数指标调节后的指标值中最小的值,是各企业的变更备案次数指标调节后的指标值中最大的值,代入公式计算,最终得到该企业变更备案次数指标的分值。
78.9、单个企业活跃度测算计算企业个体活跃度。计算方法如下:;其中,ea为单个企业的活跃度,为该企业在第k个指标的值,k=1,2,

,17,为第k个指标的权重。示例,以单个企业的变更备案系数指标为例,是变更备案次数指标的权重,是该企业变更备案次数指标的分值,代入公式计算,最终得到该企业的活跃度值。
79.10、总活跃度测算企业的经营状态反映是否活跃,企业进行正常的生产经营行为(即:经营状态指标中纳税、社保、医保均为正常的),在没有任何其他附加活动下,企业的活跃度为60,所以定义活跃度大于等于60的企业为正常活跃,定义整体活跃度为这部分企业占参与分析的全部的比例,模型如下:;其中,gea为企业总体活跃度,ea为单个企业活跃度,n为企业个数。
80.11、行业活跃度(iea)计算方法;其中,为第i个行业的活跃度,i=1,2,

,n,ea为单个企业的活跃度,为第i个行业的企业个数。
81.12、其他维度活跃度计算方法根据以上企业活跃度计算方法,可以计算一定范围和维度的企业活跃度,例如:区域活跃度、产业活跃度等。
82.13、活跃度等级为了能够进一步体现和分析企业活跃程度的差别,根据单个企业活跃度得分设置了非常活跃、比较活跃度、一般活跃、欠活跃和不活跃五个级别,具体等级划分见表4。
83.表4单个企业活跃度等级分类单个企业活跃度(ea)活跃度等级ea≥75非常活跃60<ea<75比较活跃ea=60一般活跃0<ea<60欠活跃ea=0不活跃
本发明实施例提供的企业规模属性调节参数如表5所示,行业属性调节参数见如表6所示。
84.表5企业规模属性调节参数 x5x6x7x8x9x
10
x
11
x
12
x
13
x
14
x
15
x
17
100万以内1.081.081.141.241.981.0033.011.001.010.921.302.80100-500万0.970.971.021.134.471.005.661.031.040.980.910.56500-1000万0.920.931.011.144.181.001.870.960.961.021.0013.351000-2000万0.890.890.851.102.401.000.971.021.021.020.5311.332000-5000万0.840.850.570.961.601.000.410.950.930.971.0614.705000-10000万0.840.861.290.910.851.000.180.950.930.991.0810.6810000万以上0.840.850.820.690.231.000.030.910.871.211.220.16其他1.411.401.300.000.001.002.150.000.001.131.581.48
表6行业属性调节参数实施例4本发明实施例提供的基于大数据的企业活跃度监测系统包括:数据获取模块,用于获取企业活跃度测评资源分布以及市场监管部门基本数据;模型构建模块,用于确定业务逻辑和计算逻辑,构建企业活跃度指标模型;异常值处理模块,用于处理指标中的异常值,并计算行业调节参数和规模调节参数;
指标归一化处理模块,用于采用min-max标准化方法对调节后的指标值进行归一化处理;活跃度测算模块,用于分别进行单个企业活跃度测算以及总活跃度测算;活跃度等级确定模块,用于计算行业活跃度以及其他维度活跃度,确定活跃度等级。
85.二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
86.本发明建立了一种用于监测企业活跃度的大数据模型,在实施例中为实现检测功能构建了企业活跃度监测系统。应用实施例描述如下:步骤s101,获取企业活跃度测评资源分布以及市场监管部门基本数据,具体过程如下:对市场监管部门进行采集,对其他部门开展资源交换工作。开展从数据中心到创建的监测原始库的抽取工作,搭建clickhouse数据库(包括原始库、主题库)用于存放相应数据,写入速度达到50-200m/s。并在数据抽取与交换完成后进行原始数据的清洗及入库工作,构建数据库8项,专题库与主题库26类,汇聚数据511678578条。
87.市场监管部门基本数据包括企业基本属性数据(如企业状态、行业门类、注册资本)、企业变更备案数据、企业迁移数据、企业注吊销数据、开业企业数据、企业投资人信息数据、企业分支机构数据;作为维度的补充引入其他部门涉企数据,包括纳税状态数据、社保缴存数据、公积金缴存数据、对外贸易数据、水电气使用数据;还有关于互联网数据(如网络新闻、招聘)的补充。
88.步骤s102,确定业务逻辑和计算逻辑,并构建企业活跃度指标模型,具体过程如下:在实施例中,将上述获取的基本数据初步分类为企业登记注册信息、企业许可信息、企业经营行为信息、企业信用信息、企业日常监管信息和企业其他信息几大类;再利用程序对数据库表关键字段进行抽取,构建具有特征标签的目标大数据。数据抽取与交换完成后,对数据进行清洗及入库工作,根据实际需求编写针对性脚本,涉及迁入迁出、投资、被投资、小微企业、企业活跃度、市场主体总量等方面,实现企业活跃度分析的基本数据获取。
89.企业活跃度指标模型的构建,需要确定业务逻辑的应用逻辑,并对计算判断的条件做出定义。具体来说,在实施例中根据实际数据得出,社保数据的业务逻辑应用逻辑判断重点在社保缴存状态和缴费日期。若存在缴费记录,则缴费状态为正;若缴费日期月份出现间断,则视为欠缴,欠缴月份根据时间计算等等,由此建立了针对性的企业活跃度模型算法,用于进行数据测算和分析。
90.步骤s103,处理指标中的异常值,并计算行业调节参数和规模调节参数,具体过程如下:在实施例中,针对异常值情况引入规则,上下限都以1.5倍标准差为基准,指标中数据高于平均值+1.5倍标准差的,令其等于平均值+1.5倍标准差;指标中数据低于平均值-1.5倍标准差的,令其等于平均值-1.5倍标准差。
91.在本实施例中,根据实际行业情况的不同活跃度基础情况也有所不同,要根据实际数据代入行业调节公式得出行业调节参数,例如将零售业数据引入,得出0.95的调节参
数。规模调节参数与此相同,在实施例中,将100万以下注册资本企业数据代入规模调节参数公式,得出1.15的调节参数,将所有行业与规模分别代入公式后得出行业调节参数与规模调节参数,根据计算结果表明,有两种参数进行加权调节计算得出的结果符合实际状况。
92.步骤s104,采用min-max标准化方法对调节后的指标值进行归一化处理,具体过程如下:将上述步骤确定的调节参数进行引入,在本实施例中,采用min-max标准化方法对调节后的指标值进行归一化处理,(75,100)经过min-max标准化方法转化后变为(0.75,1)。
93.步骤s105及s106,分别进行单个企业活跃度测算以及总活跃度测算,计算行业活跃度以及其他维度活跃度,确定活跃度等级。具体过程如下:在实施例中,参照整体活跃度测算指标计算单一活跃度,将所有数据经过企业活跃度监测系统进行计算后,系统会得出每个企业的活跃度情况,在此基础上,进行对特定时间段内的总体活跃度测算,将其结果作为最终依据。在实施例中,将数据交由系统处理后得出所有企业的单一活跃度与整体活跃度,以此为基础,根据计算所得结合实施例数据涉及企业实际情况,确定了ea大于75时为非常活跃,ea大于60小于75时为比较活跃,ea等于60时为一般活跃,ea大于0小于60时为欠活跃,ea=0时为不活跃的活跃度等级。最后形成企业活跃度分析结果表明,实施例成功实现了企业活跃度模型构建及计算的功能,并此基础上对市场监管工作进行支撑。
94.三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
95.本实施例为实现基础数据获取功能,形成数据抽取及清洗加工程序(脚本)7类,涵盖:迁入迁出、投资、被投资、小微企业、企业活跃度、市场主体总量。从图中可直观看出,相比于现有技术,本脚本更具有针对性,提高了应用实施例数据抽取、清洗加工的速度。
96.为实现市场监管功能,本实施例在构建用于监管的市场活跃度大数据模型后,构建市场监管监测系统,包含市场主体发展概况、市场主体新登记情况、市场主体注吊销情况、市场主体产业行业发展情况、市场主体地区发展情况、市场主体迁入迁出情况等6个监测分析维度可视化大屏可视化,同时实现了数据自动化报销导出功能,以此支撑市场监管工作,更直观的实现对企业活跃度结果的展示。
97.应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
98.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所
作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1