本发明涉及人工智能技术领域,尤其涉及一种数据分析方法、装置、设备及计算机可读存储介质。
背景技术:
随着目前人工智能的不断发展,尤其是对于企业的数据统计和业务规划中,人工智能会给企业节省不少人力资源,而在目前的技术中,对于企业的规划分析的系统来说,由于系统是在企业的内部设置,并且要求数据的保密性,通常不能进行外网的连接,因此,系统在进行数据的分析时,其通常使用分析的数据是企业当年内部的历史数据来进行规划,并且还是收益数据,因为外部信息需要不断地从外部网络中导入,从而使得数据的更新并不及时,从而导致了分析的差异和不准确性;同时系统在分析时,也并没有过多的进行大规模的资产和最大能力的分析,这样就会导致了企业的自身规划会极容易走向两极化,要不就是过饱,要不就是过剩,而过饱会大大影响了企业的生存,而过剩会限制了企业的发展。
尤其是在企业需要进行筹资时,如果数据更新的不及时的话,会导致系统的分析不全面,容易出现分析由于企业自发展与资本的局限性,导致分析超过企业承受能力,从而造成规划的不精准。可见目前并没有形成一种高层级的筹资制度分析的系统和方法,使得数据分析的不准确性和效率低,使得筹资不能合理满足不同规模企业筹资对应的回馈机制,导致企业的运营不佳,给企业带来了较大的筹资风险,降低了企业筹资和收益匹配的可能性。
技术实现要素:
本发明的主要目的在于提供一种数据分析方法、装置、设备及计算机可读存储介质,旨在解决由于现有的数据更新不及时而导致系统对企业筹资规划分析不准确的技术问题。
为实现上述目的,本发明提供一种数据分析方法,所述数据分析方法包括:
接收终端发送的数据分析请求,并基于所述数据分析请求中待分析对象,获取对应的对象数据集,所述对象数据集至少包括对象内部画像数据和外部画像数据;
将对象内部画像数据和外部画像数据按照预设的筹资等级划分等级,得至少一个数据子集,所述数据子集与所述待分析对象一一对应;
根据所述数据子集,计算所述待分析对象对应的最大筹资范围以及其资产的最大承受能力等级;
根据所述最大筹资范围以及其资产的最大承受能力等级,选择对应的模型训练算法;
根据所述模型训练算法对所述数据子集进行筹资预测的训练,得到筹资预测模型,并基于所述筹资预测模型对待预测对象进行生态均衡预测,输出筹资预测结果。
可选地,在所述基于所述数据分析请求中待分析对象,获取对应的对象数据集的步骤之后,还包括:
获取用于训练所述筹资预测模型时所使用的数据集的数据格式,所述数据格式包括标签列、标签列的排序顺序和数据的存放位置;
根据所述数据格式对所述内部画像数据和外部画像数据中标签列按照所述排序顺序进行调整,并检测其中是否存在缺失或者冗余的标签列;
若所述外部画像数据和内部画像数据中存在缺失的标签列,则在所述内部画像数据和外部画像数据中对应的位置上增加缺失的标签列,并填充空白数据,以形成标准化的对象数据集;
若所述外部画像数据和内部画像数据中存在冗余的标签列,则将所述内部画像数据和外部画像数据中冗余的标签列及其对应的数据从数据集中删除或者屏蔽设置为无效,以形成标准化的对象数据集。
可选地,在所述将对象内部画像数据和外部画像数据按照预设的筹资等级划分等级,得至少一个数据子集之后,还包括:
通过预置的打分模型中的权重比系数对所述至少一个数据子集进行打分,得到打分结果;
根据所述打分结果,对所述数据子集按照从大到小的顺序进行排序,并选择打分靠前的n个数据子集作为所述筹资预测模型训练的有效数据集,其中n≥1。
可选地,在所述将对象内部画像数据和外部画像数据按照预设的筹资等级划分等级,得至少一个数据子集之后,还包括:
所述数据子集进行特征分析,得到所述数据子集中各个数据相同的数据特征;
对所述数据特征进行特征衍化,得到与所述数据子集中的数据相似的数据,其中,所述特征衍化为对所述数据特征做进一步的细分或者是扩展相似特征。
可选地,所述根据所述模型训练算法对所述数据子集进行筹资预测的训练,得到筹资预测模型,并基于所述筹资预测模型对所述待对象的生态均衡预测,输出筹资预测结果包括:
采用lightgbm模型的训练算法进行训练时,根据所述数据子集的等级划分结果匹配与所述数据子集的等级对应的lightgbm模型训练构架,并将所述数据子集输入至所述模型构架中进行训练,得到所述筹资预测模型,其中,所述筹资预测模型为:
其中,obj为所述筹资预测模型的输出结果,n>1,yi为画像数据进行规范化处理后的标签列的标签值,
获取待预测对象的内部画像数据和外部画像数据,并输入至所述筹资预测模型中,输出与所述待预测对象对应的筹资等级;
根据所述筹资等级,从预设的筹资等级与筹资评估报告的对应系表查询与之对应的筹资评估报告。
可选地,在所述根据所述筹资等级,从预设的筹资等级与筹资评估报告的对应系表查询与之对应的筹资评估报告之后,还包括:
计算所述筹资预测模型的最小值,并基于所述最小值判断生成的所述筹资报告的可行性,其求最小值的公式为:
其中,r1(j,s)={x|x(j)≤s},r2(j,s)={x|x(j)>s}分别为画像数据中的维度区间取值,i为所述标签列的项数,j为画像数据的分割特征,s为分割点,ci为与yi对应的绝对值。
数据获取模块,用于接收终端发送的数据分析请求,并基于所述数据分析请求中待分析对象,获取对应的对象数据集,所述对象数据集至少包括对象内部画像数据和外部画像数据;
数据分级模块,用于将对象内部画像数据和外部画像数据按照预设的筹资等级划分等级,得到至少一个数据子集,所述数据子集与所述待分析对象一一对应;
计算模块,用于根据所述数据子集,计算所述待分析对象对应的最大筹资范围以及其资产的最大承受能力等级;
预测模块,用于根据所述最大筹资范围以及其资产的最大承受能力等级,选择对应的模型训练算法;根据所述模型训练算法对所述至少一个数据子集进行筹资预测的训练,得到筹资预测模型,并基于所述筹资预测模型对待预测对象进行生态均衡预测,输出筹资预测结果。
可选地,所述数据分析装置还包括格式转换模块,获取用于训练所述筹资预测模型所使用的数据集的数据格式,所述数据格式包括标签列、标签列的排序顺序和数据的存放位置;根据所述数据格式对所述内部画像数据和外部画像数据中标签列按照所述排序顺序进行调整,并检测其中是否存在缺失或者冗余的标签列;若所述外部画像数据和内部画像数据中存在缺失的标签列,则在所述内部画像数据和外部画像数据中对应的位置上增加缺失的标签列,并填充空白数据,以形成标准化的对象数据集;若所述外部画像数据和内部画像数据中存在冗余的标签列,则将所述内部画像数据和外部画像数据中冗余的标签列及其对应的数据从数据集中删除或者屏蔽设置为无效,以形成标准化的对象数据集。
可选地,所述数据分析装置还包括打分模块,用于通过预置的打分模型中的权重比系数,对所述数据子集进行打分,得到打分结果;根据所述打分结果,对所述数据子集按照从大到小的顺序进行排序,并选择打分靠前的n个数据子集作为所述筹资预测模型训练的有效数据集,其中n≥1。
可选地,所述数据分析装置还包括衍化模块,用于对所述数据子集进行特征分析,得到所述数据子集中各个数据相同的数据特征;对所述数据特征进行特征衍化,得到与所述数据子集中的数据相似的数据,其中,所述特征衍化为对所述数据特征做进一步的细分或者是扩展相似特征。
可选地,所述预测模块包括模型训练单元和报告生成单元;
所述模型训练单元,用于当采用lightgbm模型的训练算法进行训练时,根据所述数据子集的等级划分结果匹配与所述数据子集的等级对应的lightgbm模型训练构架,并将所述数据子集输入至所述模型构架中进行训练,得到所述筹资预测模型,其中,所述筹资预测模型为:
其中,obj为所述筹资预测模型的输出结果,n>1,yi为画像数据进行规范化处理后的标签列的标签值,
所述报告生成单元,用于获取待预测对象的内部画像数据和外部画像数据,并输入至所述筹资预测模型中,输出与所述待预测对象对应的筹资等级;根据所述筹资等级,从预设的筹资等级与筹资评估报告的对应系表查询与之对应的筹资评估报告。
可选地,所述数据分析装置还包括判断模块,用于计算所述筹资预测模型的最小值,并基于所述最小值判断生成的所述筹资报告的可行性,其求最小值的公式为:
其中,r1(j,s)={x|x(j)≤s},r2(j,s)={x|x(j)>s}分别为画像数据中的维度区间取值,i为所述标签列的项数,j为画像数据的分割特征,s为分割点,ci为与yi对应的绝对值。
此外,为实现上述目的,本发明还一种数据分析设备,所述数据分析设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据分析程序,所述数据分析程序被所述处理器执行时实现如上述任一项所述的数据分析方法的步骤。
此外,为实现上述目的,本发明还一种计算机可读存储介质,所述计算机可读存储介质上存储有数据分析程序,所述数据分析程序被处理器执行时实现如上述任一项所述的数据分析支付方法的步骤。
本发明通过根据数据分析请求获取企业的内部画像数据和外部画像数据来进行筹资数据的规划分析,形成初步筹资分析结果,然后根据分析结果极性企业生态均衡的推演,生成企业对应的筹资计划,以形成企业在筹资过程中筹资与收益均衡的筹资机制,基于该筹资机制进行资金的筹划,从而避免了企业的盲目筹资规划而导致的筹资与收益不匹配的情况,同时基于企业内部和外部的数据来形成筹集规划,大大提高的系统在规划分析时的精准度,保证了企业筹资的最大利益,也提高了企业对扶贫筹资的积极性。
附图说明
图1为本发明提供的数据分析方法第一实施例的流程示意图;
图2为本发明提供的数据分析方法第二实施例的流程示意图;
图3为本发明提供的数据分析装置一实施例的功能模块示意图;
图4为本发明实施例方案涉及的服务器运行环境的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在本发明中,其提供的数据分析方法主要指的是用于实现对企业的扶贫筹资收益均衡的筹资数据规划的一种筹资规划的预测方法,当然可以用于实现其他的业务的规划分析,该方法具体可以是通过目前的筹资扶贫系统来实现的,优选的,是在现有的筹资扶贫系统中增加实现本方法的软件代码数据即可实现,该系统的物理实现可以是个人计算机(pc)、服务器、智能手机等。基于这样的硬件结果,提出本发明数据分析方法的各个实施例。
参照图1,图1为本发明实施例提供的数据分析方法的流程图。在本实施例中,所述数据分析方法具体包括以下步骤:
步骤s110,接收终端发送的数据分析请求,并基于所述数据分析请求中待分析对象,获取对应的对象数据集;
在该步骤中,所述对象数据集至少包括对象内部画像数据和外部画像数据;该对象数据集具体可以从现有的企业信用系统中获取,也可以从互联网的评论网站中获取,其主要是用于对企业的资源和承受能力的判断,所述画像数据包括企业排名、企业影响指数、企业规模、企业年收入、企业类型、企业类别、企业历史年度筹资力度、筹资类别、企业所需宣传力度、宣传市场、以及一些营销或展览举办场地等等。
而企业排名包括针对企业所在地的运营状况排名、纳税排名、总资产排名、信誉度排名,甚至还可以是盈利的排名等等,根据实际应用还可以是获取该企业在全国上的排名。
步骤s120,将对象内部画像数据和外部画像数据按照预设的筹资等级划分等级,得至少一个数据子集,所述数据子集与所述待分析对象一一对应;
步骤s130,根据所述数据子集计算所述待分析对象对应的最大筹资范围和其资产的最大承受能力等级;
在本实施例中,所述对象指的是企业,也即是说步骤s120和s130的执行即是对企业数据集进行筹资数据的规划分析,得到企业的初步筹资分析结果,所述初步筹资分析结果包括企业的最大筹资范围以及其资产的最大承受能力等级;在该步骤的筹资的规划分析中,主要是分析企业的资产承受力,而该资产承受力是相对比较能体现企业的发展状况的数据,也便于对企业的未来发展规划做准备,筹资是企业发展的一种方式,既可以实现企业自身的发展,也可以实现对外部的扶持帮助。
资产承受力的计算需要结合企业的有形资产和无形资产来计算,无形资产的由于经营得当而得到的外界给予的财产,可以说是一种企业信用度,这是保证企业在实际筹资时的一种信赖资源。
对于最大筹资范围和承受能力等级的还是需要结合该企业本身所涉及的领域,例如该企业主要发展的方向或者是生产的产品等等,需要根据企业类型和其服务的行业来进行计算,并不是任何一个企业都可以在任何一个行业或者领域中进行随意地筹资。
例如,根据企业当前的纯收入以及负债情况判断企业当前所能承受的最大筹资能力,基于能力的等级来确定筹集额度,在确定筹资额度的基础上,再确定该企业的承受能力等级,该承受能力等级可以结合企业当前的营业趋势、实际收支和企业的发展状态等因素综合考虑计算得到。
步骤s140,根据所述最大筹资范围以及其资产的最大承受能力等级选择对应的模型训练算法;
在实际应用中,对于模型训练算法的选择,具体可以通过对应对关系表的方式来进行选择,即是说,用户预先根据实际筹资的情况,预先根据公司的资产和收入等等因素来估算出公司的筹资范围,并对筹资范围进行等级的划分,该等级包括低、中、高多种等级,然后选择对应的模型训练算法,最后创建一个对应关系表,在实际使用时,通过以最大筹资范围和资产的最大承受能力等级作为检索的条件,从对应关系表中选择对应的模型训练算法进行使用。
当然,在该步骤中,除了通过对应关系的方式来选择之外,还可以是根据公司的历史筹资记录来确定,例如根据最大筹资范围和资产的最大承受能力等级搜索公司内部的筹资历史记录,选择与之等级差不多的记录,并提取记录中的模型训练算法,从而实现模型训练算法的选择。
步骤s150,根据所述模型训练算法对所述至少一个数据子集进行筹资预测的训练,得到筹资预测模型,并基于所述筹资预测模型对待预测对象进行生态均衡预测,输出筹资预测结果。
在本实施例中,这里的待预测对象指的是用户需要进行筹资规划预测的企业名称;而待分析对象指的是用于进行模型训练的企业名称,可以是多个,主要用于获取训练模型的数据;通过模型来实现筹资的预测实质上是对企业的整个收支平衡的生态推演的过程,实施企业生态均衡的推演指的是企业的筹资与收益之间的平衡度的推演,即是根据初步筹资分析结果模拟推演企业基于当前的分析结果来筹资,是否可以满足在保证企业生存的前提下的最大筹资饱和度,其具体的实现方式可以是通过根据最大筹资范围和资产的最大承受能力等级来推演计算出筹资与收益的平衡等级,根据所述平衡等级确定对应的筹资额度,甚至是预先规划好的筹集计划,直接根据筹资规模进行筹集的准备或者开始筹资。
在本实施例中,对于步骤s120具体是通过根据企业的画像数据中的企业排名、企业影响指数、企业规模、企业年收入、企业类型、企业类别、企业历史年度筹资力度、筹资类别、企业所需宣传力度、宣传市场等数据可以对企业进行初步的评级,比如根据企业影响指数、企业年收入、企业历史年度筹资力度和企业的宣传情况这些数据对企业进行运营状况的初步分析,若运营状况良好,则进行更深入的计算分析,即是结合更多的企业的画像数据进行机损分析,得出最终的筹资力度和基于该筹资力度前提下,该企业资产的最大承受力度等级。
通过上述的方式对一个企业的评估来确定对应分筹资规划,使得企业可以更好的进行筹资的运营,从而提高了企业对于扶贫筹资的积极性;也保证了扶贫筹资的充分落实和使用。
在本实施例中,在步骤s110中,在所述基于所述数据分析熙请求中待分析对象,获取对应的对象数据集之后,还包括:
对所述对象数据集中的画像数据进行预处理,所述预处理为将所述画像数据按照数据分析系统中要求的数据格式进行格式转换,得到规范化的对象数据集。
在实际应用中,对于将数据格式规范化实质上是将这些对象数据集中的企业的画像数据转换为固定格式的数据,目的是为了便于后续的计算,通过这样对数据进行简单化的处理,可以避免了由于数据的杂乱化而影响计算的结果,从而提高了计算的基准度,也提高了最后对企业数据的筹资规模的预测。
在本实施例中,所述对所述对象数据集中的画像数据进行预处理包括:
获取用于训练所述筹资预测模型所使用的数据集的数据格式,所述数据格式包括标签列、标签列的排序顺序和数据的存放位置;
根据所述数据格式对所述内部画像数据和外部画像数据中标签列按照所述排序顺序进行调整,并检测其中是否存在缺失或者冗余的标签列;
若所述外部画像数据和内部画像数据中存在缺失的标签列,则在所述内部画像数据和外部画像数据中对应的位置上增加缺失的标签列,并填充空白数据,以形成标准化的对象数据集;
若所述外部画像数据和内部画像数据中存在冗余的标签列,则将所述内部画像数据和外部画像数据中冗余的标签列及其对应的数据从数据集中删除或者屏蔽设置为无效,以形成标准化的对象数据集。
即是通过屏蔽label列,而对缺失列进行树模型预测的缺失值填充方法,以及箱线图异常检验等,对原始数据进行规范化。不是增列,而是对原始数据进行数据清洗,借助一些数据清洗的方法。屏蔽label列是因为label列是标签列,除了进行模型训练和验证以外,我们尽可能小心地使用label列,因为这列数据非常重要。因此在用树模型进行缺失值填充的时候,我们更希望把这一列去掉,减少这列数值的影响,而仅仅考虑其他画像数据。因此并不是使用label列,而是很多情况下数据梳理和特征工程要屏蔽label列。
在实际应用中,对获取到的画像数据集一般的格式都是会是比较规范的通过数据表格存储的数据,而对于数据表格会在企业或者是一些统计公司输出时,就具备了设置有各种label列标签,而这些label列在本申请中的筹资规划的预测中不需要的,对此,这里的预处理,具体可以是通过将屏蔽获取的画像数据中的标签列(label列),或者是通过检查画像数据中的缺失或者冗余的方式来对数据进行格式修改。
比如:若检查的数据存在缺失的情况时,则选择通过增加label列的方式对画像数据进行空参数的增加,从而使得画像数据满足预设的格式要求,优选的可以选择通过对缺失列进行树模型预测的缺失值填充方法,以及箱线图异常检验等方式对画像数据进行规范化处理;若检查到数据为冗余时,则通过屏蔽label列的方式对数据进行删减剔除冗余信息。
通过上述的方式来对原始数据进行同一格式处理,实现了数据的标准化,可以避免由于数据的格式多样化,导致后面的等级评估出现偏差。
在本实施例中,所述根据获取到的所述对象数据集进行筹资数据的规划分析,得到企业的初步筹资分析结果包括:
将进行预处理后的所述画像数据按照预设的等级进行数据分级处理,得多个数据子集,所述数据子集与所述企业一一对应;
根据所述数据子集计算所述画像数据中企业对应的最大筹资范围和资产的最大承受能力等级。
所述画像数据实质上也是一个数据集,其包括外部画像数据和内部画像数据,具体可以通过特征分桶来实现对画像数据集进行数据分级,在实际应用中,通过预先针对每个等级设置对应的数据特征,而在分级时,通过预先设置好的数据特征与所述画像数据集中的数据特征进行比对即可实现对所述画像数据集的分级处理。
在实际应用中,所述每个等级对应的数据特征是与不同筹资等级对应的,比如说对企业的筹资等级划分为10个等级,在分级处理时,首先将转换为规定格式后的画像数据中的关键词分别与10个等级的数据特征进行比对,然后根据比对的结果来确定等级数,假设所述画像数据是囊括了一段时间长的该企业的统一类型的企业数据,在分级处理时,首先将画像数据按照小时间间隔进行分段,得到对个多个小集合,然后将每个小集合分别于10等级对应的数据特征进行比对,确定数据特征达到该等级对应的数值时,则将该小集合划分到该等级中,直到比对完成后,将所述小集合组成至少一个数据子集。
下面以获取到的画像数据集是企业的连续年收入等数据,我们可以进行数据分级,譬如将连续年收入按照年份进行划分,得到多个小集合,而每个等级对应的就是年收入的平均收入金额,将小集合中的平均值与等级对应的金额进行比对,比对结果在1000w以上对应的因子变量是10(即是10级),500w以上是8,以此类推。
当然上面只是为了便于理解列举的金额的例子,有一些数据并不一定是金额的,还有一些是文本类型的数据,其也需要按照上述的方式进行文本匹配之后进行分级或者离散化,只是文本的可能是具体的关键系的对比了。当然,对于上述的等级划分,是根据实际的筹资的企业情况来进行划分的,比如当前参与筹资评估的企业的整体实力都比较高时,其等级可以划分少点,每个等级的要求就相对高了;当参与筹资评估的企业的整体实力都比较低时,其等级划分就多点,且低等级的要求也相对低,主要可以针对一些小企业来提供,有助于扶贫的全面化。
当然,对于上述的分级一些分级模型来实现分级处理,而分析模型的训练是通过进行规范化的数据进行训练,也即是说在进行模型训练是可以直接使用该数据标签进行训练,也可以是根据分级中的数据特征来实现。
在本实施例中,在所述将对象内部画像数据和外部画像数据按照预设的筹资等级划分等级,得至少一个数据子集之后,还包括:
基于所述数据子集进行特征分析,提取出所述数据子集中各个数据相同的数据特征;
根据所述数据特征进行数据特征的衍化,以扩展出与所述数据子集中的数据相似的数据,其中,所述衍化指的是对所述数据特征做进一步的细分或者是扩展相似特征,从而使得对画像数据集的划分更加准确。
在实际应用中,并不需要对所有的数据特征进行衍化,可以是只对其中的一部分进行,其衍化具体可以根据对企业的数据的实际分类的确定,优选的对预设的分级数据特征进行衍化,假设对某一列特征进行衍生分化,譬如将特征改成one-hot类型等。并不是每个数据都要做,而是根据数据本身的特性有序地筛选,这些都是实验的过程。我们可以采取多种不同的画像数据的特征处理方法进行实验,最终基于结果来选择最优的特征工程算法。
进一步的,在进行特征衍化的步骤中,具体的实现过程为:首先在进行分级的对比处理的通过还对每个数据特征进行判断是否可以进行相应的衍化,当然这里的衍化还是基于同等级的数据特征进行衍化,若可以进行衍化,这根据等级中的数据特征的类型和场景进行验证,当然在衍化的过程中还需要结合画像数据本身的合理性进行衍化,不可超出企业的画像数据的实际发展进行衍化,若过度的衍化会导致后续训练模型的偏差,使得对企业的筹资评估不准确。例如,数据特征当前的类型是a,与a类型相近的类型有b类型,则结合到画像数据的发展情况判断是否可以衍化至相近的b类型,若可以则进行衍化,并获取该b类型下的其他特征作为本次特征比对的特征,从而扩展了特征的数量,同时还满足企业的推演要求,大大提高的评估的准确性。
在本实施例中,对于特行衍化其包括特征分化和特征搜索添加两种,其中,对于特征分化,具体实现可以是根据数据特征的类型或者数据子集的类别选择对应的分化方法,基于该分化方法对每个数据特征进行拆分,但是拆分出来的每个小特征都是与原来的数据特征属于同一类型或者是具有相同的含义意思的词组。
对于特征搜索添加,具体实现可以是通过根据数据特征在数据子集中的语义来组词,从而得到更多的类似特征,然后从这些类似特证中选择属于数据子集中的数据统一类别的特征。
在本实施例中,在生成大腿推荐筹资计划的步骤中,还可以通过根据获取到的对象数据集进行模型训练的方式来进行筹资计划的生成,具体是通过训练得到一个推演的筹资模型,基于该模型输入对应的企业数据进行预测即可输出对应的筹资计划。
在实际应用中,根据数据分级处理后的画像数据进行模型训练,以得到筹资预测模型。
在本案中,对于所述模型的训练,具体是通过获取到的已知的企业画像数据,经过企业本身或者专家打过标签的从而输出对应的数据表格。譬如a企业,画像维度从f1-fn,label是1,有一个企业筹资、宣传力度、宣传市场的映射;同样,b,f1-fn,label是2,以此类推,我们可收集得到一部分已经知道标签的数据集,我们搭建模型是为了训练模型,从这些标签数据集中去学习规律,如最简单的线性模型,y=a1f1+a2f2+a3f3…,我们通过标签数据去训练模型,得到a1、a2、a3的数值,其中f(n)为画像数据,得到的a(n)为模型函数的系数。
在本案中,除了采用上述的线性模型进行训练推演之外,优选的选择使用lightgbm模型进行训练,该种模型的训练采用梯度对特征数据的分割和选择,可减少数据量的计算,大大提高训练模型的效率,对于该模型的训练,具体如下,首先将对象数据集进行分割成多个数据子集,而基于数据子集进行输入训练。
输入:训练数据,迭代步数d,大梯度数据的采样率a,小梯度数据的采样率b,损失函数和若干学习器的类型(一般为决策树);
输出:训练好的强学习器;
(1)根据样本点的梯度的绝对值对它们进行降序排序;
(2)对排序后的结果选取前a*100%的样本生成一个大梯度样本点的子集;
(3)对剩下的样本集合(1-a)*100%的样本,随机的选取b*(1-a)*100%个样本点,生成一个小梯度样本点的集合;
(4)将大梯度样本和采样的小梯度样本合并;
(5)将小梯度样本乘上一个权重系数(1-a)/b;
(6)使用上述的采样的样本,学习一个新的弱学习器;
(7)不断地重复(1)~(6)步骤直到达到规定的迭代次数或者收敛为止。
通过上面的算法可以在不改变数据分布的前提下损失学习器精度的同时大大的减少模型学习的速率。
在本实施例中,根据所述模型训练算法对所述至少一个数据子集进行筹资预测的训练,得到筹资预测模型,并基于所述筹资预测模型对所述待对象的生态均衡预测,输出筹资预测结果包括:
当采用lightgbm模型的训练算法进行训练时,根据所述数据子集的等级划分结果匹配与所述数据子集的等级对应的lightgbm模型训练构架,并将所述数据子集输入至所述模型构架中进行训练,得到所述筹资预测模型,其中,所述筹资预测模型为:
其中,obj为所述筹资预测模型的输出结果,n>1,yi为画像数据进行规范化处理后的标签列的标签值,
获取待预测对象的内部画像数据和外部画像数据,并输入至所述筹资预测模型中,输出与所述待预测对象对应的筹资等级;
根据所述筹资等级,从预设的筹资等级与筹资评估报告的对应系表查询与之对应的筹资评估报告。
在所述根据所述筹资等级,从预设的筹资等级与筹资评估报告的对应系表查询与之对应的筹资评估报告之后,还包括:
计算所述筹资预测模型的最小值,并基于所述最小值判断生成的所述筹资报告的可行性,其求最小值的公式为:
其中,r1(j,s)={x|x(j)≤s},r2(j,s)={x|x(j)>s}分别为画像数据中的维度区间取值,i为所述标签列的项数,j为画像数据的分割特征,s为分割点,ci为与yi对应的绝对值。
具体的,对于采用lightgbm模型对获取到的对象数据集训练得到筹资预测模型的实现过程具体如下:
假设对象数据集有n个实例x1,…,xn{x1…,xn}x1,…,xn,特征维度为s。每次梯度迭时,模型数据变量的损失函数的负梯度方向表示为g1,…,gn,决策树通过最优切分点(最大信息增益点)将数据分到各个节点,然后将这些分割后的数据通过lightgbm模型的预设模型构架中进行训练,从而得到最终的筹资规划预测模型,该模型的函数公式如下:
其中,yi为画像数据数据进行规范化处理后的标签列的标签值;ft(xt)为对获取的画像数据中的特征值的近似计算函数;xt为yi对应的特征值;j为画像数据的分割特征;s为分割点;constant表示的是常数项。
进一步的,基于上述的筹资规划预测模型进行泰勒展开计算从而得到企业筹资计划的近似目标值,其计算公式如下:
然后,求得上述模型的函数的最小值,基于该最小值来判断企业的筹资计划的可行性,其求最小值的公式如下:
其中,r1(j,s)={x|x(j)≤s},r2(j,s)={x|x(j)>s}分别为画像数据中的维度区间取值;ci为与yi对应的绝对值。
lightgbm采用leaf-wise生长策略,每次从当前所有叶子中找到分裂增益最大(一般也是数据量最大)的一个叶子,然后分裂,如此循环;但会生长出比较深的决策树,产生过拟合(因此lightgbm在leaf-wise之上增加了一个最大深度的限制,在保证高效率的同时防止过拟合)。lightgbm优化了对类别特征的支持,可以直接输入类别特征,不需要额外的0/1展开。并在决策树算法上增加了类别特征的决策规则。在数据并行中使用分散规约(reducescatter)把直方图合并的任务分摊到不同的机器,降低通信和计算,并利用直方图做差,进一步减少了一半的通信量。基于投票的数据并行(parallelvoting)则进一步优化数据并行中的通信代价,使通信代价变成常数级别。
综合上述,lightgbm模型有很好的鲁棒性,能很好地防止过拟合,且在性能上又加速优化,使得运算速度更快,内存消耗更低,这也是我们选择lightgbm这一模型的重要原因。
根据最大筹资范围以及其资产的最大承受能力等级,结合筹资计划预测模型生成对应的筹资规模。
在本实施例中,对于该筹资计划预测模型可以通过大量的筹资规划数据来预先训练得到,当然这个模型也可以是通过需求理论建立,然后在实际的预测应用中不断地训练得到,从而提高了模型的精准度。
进一步的,在所述将对象内部画像数据和外部画像数据按照预设的筹资等级划分等级,得至少一个数据子集之后,还包括:
通过打分模型中的权重比系数对所述至少一个数据子集进行打分;
根据打分结果从所述至少一个数据子集选择打分较高的数据子集作为所述筹资预测模型训练的有效数据集。
在实际应用中,在训练预测模型时,通过引入权重比来对数据进行打分筛选,当然给权重比也可以设置在对数据预处理的步骤中实现,这样也可以提前对数据的筛选,具体可以通过结合打分模型来实现,可以基于已知企业筹资、宣传力度、宣传市场等具体指标,其中,我们认为企业筹资和宣传力度是最重要的打分指标,我们假设权重各设为0.3,因此这两个指标达到权重0.6,其余的指标平均分配权重且权重累加和为0.4。其次,我们基于各指标的具体数值进行归一化后,再进行加权计算。最终每个企业我们都能量化得到一个l个具体的label数值。以上,label列的梳理完毕(即是数据的预处理完毕)。
在本实施例中,除了通过上述的模型的方式来实现筹资规模的预测之外,还可以选择简单地运用一些分析机制进行简单地归类,在数据量较大的情况下是比较不适用的,而且逻辑的严谨性也存在一定的漏洞。但是如果存在资源、时间的限制,可以抽取部分画像数据进行简单分类,通过对标签数据进行一些相关性检验,相关性较高的画像数据作为划分的依据,这样也是一种简便方案。
如图2所示,为本发明实施例基于lightgbm模型进行训练、筹资预测的数据分析方法的具体实现流程图,该方法具体包括以下步骤:
步骤s210,通过互联网的通信连接,从与企业相关的数据系统和网站上获取待进行筹资规划预测的企业的画像数据;
在该步骤中,获取的画像数据具体是企业排名、企业影响指数、企业规模、企业年收入、企业类型、企业类别、企业历史年度筹资力度、筹资类别、企业所需宣传力度、宣传市场、举办地等。
步骤s220,对所述画像数据进行数据格式和特征衍化的处理;
在该步骤中,首先将获取到的数据先进行表格化处理,即是根据数据的不同在表格中生成抬头标签归类到数据表格中进行存储,但是获取到的数据并不是所有的数据信息都使能,可能会存在一些不需要或者冗余的信息,这时再通过屏蔽label列,而对缺失列进行树模型预测的缺失值填充方法,以及箱线图异常检验等,对画像数据进行规范化。
进一步的,对各类画像数据中的特征数据进行分桶化,如对企业年收入等连续数据进行分档计数,并对应具体数值。对企业纯收入、负债等进行同比、环比的特征衍生。
在该步骤中,对于没有类型标签的数据还可以通过label列构造的方式整理的数据表格中,具体将不同的企业筹资、宣传力度、宣传市场、举办地等企业画像,通过打分模型梳理出量化label。
在本实施例中,还可以根据数据本身的性质不同来进行特征进行分类。如果是连续数据,譬如说企业年收入等数据,我们可以进行数据分级,譬如1000w以上对应的因子变量是10,500w以上是8,以此类推。有一些文本类型的数据也要进行文本匹配之后进行分级或者离散化。
步骤s230,基于lightgbm模型对处理后的画像数据进行筹资预测模型的训练。
在实际应用中,首先通过分切的方式对所述画像数据进行分割处理,得到对个数据子集,并确定每个子集的分割点,基于分割点结合子集进行使用lightgbm模型训练,例如使用lightgbm的切分策略,以红、黄、绿、蓝颜色集为例进行说明,就是将红、黄、蓝、绿对应的四类样本分为两类的所有可能策略,比如:红黄一类,蓝绿一类。那么就会有种策略,这样才能充分的挖掘该维特征所包含的信息,找到最优的分割策略。但是这样寻找最优分割策略的时间复杂度就会很大。对于回归树有个有效的解决方案。为了寻找最优的划分需要大约。基本的思想是根据训练目标的相关性对类别进行重排序。更具体的说,根据累加值()重新对(类别特征的)直方图进行排序,然后在排好序的直方图中寻找最好的分割点。基于该分割点将数据集输入到lightgbm模型的训练构架中,得到如下的模型公式:
基于上述的筹资规划预测模型进行泰勒展开计算从而得到企业筹资计划的近似目标值,其计算公式如下:
然后,求得上述模型的函数的最小值,基于该最小值来判断企业的筹资计划的可行性,其求最小值的公式如下:
其中,r1(j,s)={x|x(j)≤s},r2(j,s)={x|x(j)>s}分别为画像数据中的维度区间取值。
s240,获取企业的当前数据,输出到筹资预测模型中,输出预测的筹集规划结果。
进一步的,在进行分割点的处理训练模型时,还包括引入权重比来对分割后的数据子集进行打分筛选,当然给权重比也可以设置在对数据预处理的步骤中实现,这样也可以提前对数据的筛选,具体可以通过结合打分模型来实现,可以基于已知企业筹资、宣传力度、宣传市场等具体指标,其中,我们认为企业筹资和宣传力度是最重要的打分指标,我们假设权重各设为0.3,因此这两个指标达到权重0.6,其余的指标平均分配权重且权重累加和为0.4。其次,我们基于各指标的具体数值进行归一化后,再进行加权计算。最终每个企业我们都能量化得到一个l个具体的label数值。以上,label列的梳理完毕,然后在进行模型的训练,这样进一步提高了模型的预测结果的准确度。
为了解决上述的问题,本发明还提供一种数据分析设备,该数据分析设备可以用于实现本发明实施例提供的数据分析方法,其物理实现以服务器的方式存在,该服务器的具体硬件实现如图1所示。
参见图3,该移动设备包括:处理器301,例如cpu,通信总线302、用户接口303,网络接口304,存储器305。其中,通信总线302用于实现这些组件之间的连接通信。用户接口303可以包括显示屏(display)、输入单元比如键盘(keyboard),网络接口304可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器305可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器305可选的还可以是独立于前述处理器301的存储装置。
本领域技术人员可以理解,图3中示出的设备的硬件结构并不构成对数据分析装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机可读存储介质的存储器305中可以包括操作系统、网络通信模块、用户接口模块以及基于数据分析程序。其中,操作系统是管理和数据分析装置和软件资源的程序,支数据分析程序以及其它软件和/或程序的运行。
在图3所示的服务器的硬件结构中,网络接口104主要用于接入网络;用户接口103主要用于与外界互联网或者是与提供企业数据的服务器进行通信,调取对于的企业的各种信用和资产信息,而处理器301可以用于调用存储器305中存储的数据分析程序,并执行以下数据分析方法的各实施例的操作。
在本大明实施例中,对于图3的实现还可以是一种手机等可以触控操作的移动终端,该移动终端的处理器通过读取存储在缓存器或者存储单元中的可以实现数据分析方法的程序代码来进行对企业的筹资计划进行推演预测。
为了解决上述的问题,本发明实施例还提供了一种数据分析装置,参照图4,图4为本发明实施例提供的数据分析装置的功能模块的示意图。在本实施例中,该装置包括:
数据获取模块41,用于接收终端发送的数据分析请求,并基于所述数据分析请求中待分析对象,获取对应的对象数据集,所述对象数据集至少包括对象内部画像数据和外部画像数据;
数据分级模块42,用于将对象内部画像数据和外部画像数据按照预设的筹资等级划分等级,得至少一个数据子集,所述数据子集与所述待分析对象一一对应;
计算模块43,用于根据所述数据子集,计算所述待分析对象对应的最大筹资范围和其资产的最大承受能力等级;
预测模块44,用于根据所述最大筹资范围以及其资产的最大承受能力等级,选择对应的模型训练算法;根据所述模型训练算法对所述数据子集进行筹资预测的训练,得到筹资预测模型,并基于所述筹资预测模型对待预测对象的生态均衡预测,输出筹资预测结果。
在本实施例中,所述数据分析装置还包括格式转换模块,用于对所述对象数据集中的画像数据进行预处理,所述预处理为将所述画像数据按照数据分析系统中要求的数据格式进行格式转换,得到规范化的对象数据集。
在本实施例中,所述装置还包括判断模块,用于计算所述筹资预测模型的最小值,并基于所述最小值判断生成的所述推荐筹资计划的可行性。
基于与上述本发明实施例的数据分析方法相同的实施例说明内容,因此本实施例对数据分析装置的实施例内容不做过多赘述。
本实施例根据数据分析请求获取企业的内部画像数据和外部画像数据来进行筹资数据的规划分析,形成初步筹资分析结果,然后根据分析结果极性企业生态均衡的推演,生成企业对应的筹资计划,以形成企业在筹资过程中筹资与收益均衡的筹资机制,基于该筹资机制进行资金的筹划,从而避免了企业的盲目筹资规划而导致的筹资与收益不匹配的情况,同时基于企业内部和外部的数据来形成筹集规划,大大提高的系统在规划分析时的精准度,保证了企业筹资的最大利益,也提高了企业对扶贫筹资的积极性。
本发明还提供一种计算机可读存储介质。
本实施例中,所述计算机可读存储介质上存储有数据分析程序,所述h5网页的扫码支付程序被处理器执行时实现如上述任一项实施例中所述的数据分析方法的步骤。其中,数据分析程序被处理器执行时所实现的方法可参照本发明数据分析方法的各个实施例,因此不再过多赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。