一种金融大数据分析与挖掘算法

文档序号:29229230发布日期:2022-03-12 13:29阅读:174来源:国知局
一种金融大数据分析与挖掘算法

1.本发明涉及数据分析与挖掘技术领域,更具体的是涉及一种金融大数据分析与挖掘算法。


背景技术:

2.金融市场有很强的不确定性,金融投资者和市场管理部门需要对风险进行评估。本发明基于通过大数据分析与挖掘技术,建立金融风险评估和金融欺诈等识别算法。当前金融风险评估的主要方法为:以机器学习算法进行分类和回归,通过对特征进行提取和选择来对模型进行优化,建立识别或回归框架对整体进行调优,建立风险评估模型。
3.但是现有技术中由于实际问题的数据分布不均衡,特征选择和用户画像的准确度不高,造成学习效果偏低,影响风险评估算法的稳定性,并且小样本、不平衡样本以及高维样本问题难以解决,难以理解各特征之间的内在联系和因果关系,风险识别能力不高,需要对模型和算法整体框架进行优化。


技术实现要素:

4.本发明的目的在于:为了解决上述技术问题,本发明提供一种金融大数据分析与挖掘算法,能够利用图模型对特征进行选择,并且能够训练和优化多种模型解对应解决不同问题。
5.本发明为了实现上述目的具体采用以下技术方案:一种金融大数据分析与挖掘算法,包括以下步骤:
6.步骤s1:对金融数据进行采集;
7.步骤s2:对采集到的金融数据进行处理,包括数据的探索、数据的分布及数据的异常检测;
8.步骤s3:通过特征工程对金融数据局进行特征提取,得到特征信息;
9.步骤s4:利用图模型对所述特征信息进行选取,得到目标特征信息;
10.步骤s5:基于所述目标特征信息以及预设问题信息,对模型进行训练,直至得到目标模型,预设问题包括以下至少一种:产品定价问题、金融欺诈识别问题、金融客户流失预警问题及股票涨跌预测与投资收益问题;
11.步骤s6:对金融市场进行风险评估;
12.步骤s7:对三类问题进行模型训练与优化,三类问题包括回归和分类问题、时间序列预测问题及金融市场风险问题。
13.进一步的:当预设问题为产品定价问题时,所述目标特征信息为金融产品的属性及价格,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
14.进一步的:当预设问题为金融欺诈识别问题时,所述目标特征信息为金融客户信息,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
15.进一步的:当预设问题为金融客户流失预警问题时,所述目标特征信息为金融客
户信息,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
16.进一步的:当预设问题为股票涨跌预测与投资收益问题时,所述目标特征信息为金融产品的属性及价格,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
17.进一步的:所述步骤s3包括以下步骤:
18.步骤s31:去除无用特征;
19.步骤s32;去除冗余特征;
20.步骤s33:利用存在的特征、转换特征、内容中的特征及其他数据源生成新特征;
21.步骤s34:对特征进行转换,包括数值化、类别转换及归一化;
22.步骤s35:对特征进行处理,包括异常值、最大值、最小值及缺失值。
23.进一步的:在步骤s6中利用图模型对特征进行选择,并且所述步骤s6包括以下步骤:
24.步骤s61:将金融市场数据按不同时间段进行数据的分割;
25.步骤s62:计算每部分数据所对应的各个特征间的相似性;
26.步骤s63:分析特征点之间的联系,同时选择一个相似性的阈值分别建立复杂网络,用临接矩阵表示;
27.步骤s64:对每部分数据生成最小生成树,计算每个节点的度;
28.步骤s65:计算相邻不同时间区间节点度的变化值;
29.步骤s66:对比某个相邻时间区间,对每个节点度的辩护之做平均,得到度变化的平均值,同时对度变化从大到小进行排序,度变化超过平均值的节点重要性进行提取;
30.步骤s67:提取每个时间区间的重要节点,以最重要的中心节点利用时间区间建立金融风险传导路径,以可视化形式展现。
31.进一步的:所述回归用户分类问题包括产品定价、金融欺诈、客户流失及投资收益,利用逻辑斯蒂回归、决策树、支持向量机、adaboost、xgboost、lightgbm及人工神经网络算法对特征工程后的数据进行训练,并利用stacking的集成模型或贝叶斯优化器对学习过程进行优化。
32.进一步的:所述时间序列预测问题包括股票价格预测及投资收益预测,利用循环神经网络算法,构建lstm、gru模型,对特征工程后的数据进行训练,利用贝叶斯优化器对模型进行优化。
33.进一步的:所述金融市场风险问题时对整体风险的评估,利用图模型的最小生成树得到的重要节点及建立的节点传导路径,利用优化器对相似性阈值的选取和时间区间的划分标准进行优化,优化器包括贝叶斯优化器、粒子群算法、遗传算法及模拟退火算法,构建整体学习框架,提升学习效果,以实际金融市场的变化来对数据分析结果进行评估。
34.本发明的有益效果如下:
35.1:本发明利用特征工程,有效的改善乐回归或分类模型的精度,提升了整体学习效果。
36.2:利用重采样技术,有效解决了数据分类不平衡问题。
37.3:利用图模型的最小生成树等算法,有效发现特征股票之间的相互作用,对提取特征股票阶段具有重要价值,有效防范金融市场的风险。
38.4:利用数据处理、特征工程、算法设计、模型优化及模型融合来构建分类识别回归
分析的整体框架,综合对金融数据分析和挖掘算法的性能进行整合优化。
附图说明
39.图1是本发明的整体流程示意图;
40.图2是本发明中金融市场节点度在四个时间段的最小生成树图像。
具体实施方式
41.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
42.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
43.实施例1
44.如图1-图2所示,本实施例提供一种金融大数据分析与挖掘算法,包括以下步骤:
45.步骤s1:对金融数据进行采集,生成xlsx或csv文档或json文档,数据采集可以通过tushare或requests库在正规网站获取;
46.步骤s2:对采集到的金融数据进行处理,包括数据的探索、数据的分布及数据的异常检测,通常可以利用pandas库进行数据的处理工作;
47.步骤s3:通过特征工程对金融数据局进行特征提取,得到特征信息,特征提取就是从原始数据提取特征的过程,这些特征可以很好地描述数据,并且利用特征建立的模型在未知数据上的性能表现可以达到最优(或者接近最优),特征工程一般包括特征使用、特征获取、特征处理、特征选择和特征监控;其具体的实施包括以下步骤:
48.步骤s31:去除无用特征;
49.步骤s32;去除冗余特征;
50.步骤s33:利用存在的特征、转换特征、内容中的特征及其他数据源生成新特征;
51.步骤s34:对特征进行转换,包括数值化、类别转换及归一化;
52.步骤s35:对特征进行处理,包括异常值、最大值、最小值及缺失值。
53.步骤s4:利用图模型对所述特征信息进行选取,得到目标特征信息;
54.步骤s5:基于所述目标特征信息以及预设问题信息,对模型进行训练,直至得到目标模型,预设问题包括以下至少一种:产品定价问题、金融欺诈识别问题、金融客户流失预警问题及股票涨跌预测与投资收益问题;
55.当预设问题为产品定价问题时,所述目标特征信息为金融产品的属性及价格,对其进行特征构造及特征提取,进行构建回归模型,做特征选择;当预设问题为金融欺诈识别问题时,所述目标特征信息为金融客户信息,对其进行特征构造及特征提取,进行构建回归模型,做特征选择;当预设问题为金融客户流失预警问题时,所述目标特征信息为金融客户信息,对其进行特征构造及特征提取,进行构建回归模型,做特征选择;当预设问题为股票
涨跌预测与投资收益问题时,所述目标特征信息为金融产品的属性及价格,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
56.步骤s6:对金融市场进行风险评估,以每只股票作为金融股市数据的一个特征;其具体的实施包括以下步骤:
57.步骤s61:将金融市场数据按不同时间段进行数据的分割;
58.步骤s62:计算每部分数据所对应的各个特征间的相似性;
59.步骤s63:分析特征点之间的联系,同时选择一个相似性的阈值分别建立复杂网络,用临接矩阵表示(如果相似性大于该阈值的则这两个点连接,在邻接矩阵中用1表示;反之如果相似性小于该阈值的则这两个点不连接,在邻接矩阵中用0表示);
60.步骤s64:对每部分数据生成最小生成树,计算每个节点(特征)的度;
61.步骤s65:计算相邻不同时间区间节点度的变化值;
62.步骤s66:对比某个相邻时间区间,对每个节点度的辩护之做平均,得到度变化的平均值,同时对度变化从大到小进行排序,度变化超过平均值的节点重要性进行提取;
63.步骤s67:提取每个时间区间的重要节点,以最重要的中心节点利用时间区间建立金融风险传导路径,以可视化形式展现。
64.步骤s7:对三类问题进行模型训练与优化,三类问题包括回归和分类问题、时间序列预测问题及金融市场风险问题。
65.所述回归用户分类问题包括产品定价、金融欺诈、客户流失及投资收益,利用逻辑斯蒂回归、决策树、支持向量机、adaboost、xgboost、lightgbm及人工神经网络算法对特征工程后的数据进行训练,并利用stacking的集成模型或贝叶斯优化器对学习过程进行优化。
66.所述时间序列预测问题包括股票价格预测及投资收益预测,利用循环神经网络算法,构建lstm、gru模型,对特征工程后的数据进行训练,利用贝叶斯优化器对模型进行优化。
67.所述金融市场风险问题时对整体风险的评估,利用图模型的最小生成树得到的重要节点及建立的节点传导路径,利用优化器对相似性阈值的选取和时间区间的划分标准进行优化,优化器包括贝叶斯优化器、粒子群算法、遗传算法及模拟退火算法,构建整体学习框架,提升学习效果,以实际金融市场的变化来对数据分析结果进行评估。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1