本发明涉及计算机应用技术领域,尤其涉及一种基于深度神经网络的互金企业评级模型。
背景技术:
互金企业,即互联网金融企业,不论从客户对互金企业的选择,还是互金企业同业拆就借等业务,互金企业的评级都能起到指导性作用。然而,目前市面上没有一个针对互联网金融企业评级的技术方案及评分标准,因现在万网数据质量并不高,且不是真实环境产生数据。
市面上已有的部分企业评级,也只是按照人为定死的规则走,这部分评级所使用到的评级因子在100个以内,非常粗浅,效果较差,无法动态变化、评级标准一致,无法千人千面,参照这些数据来的互金企业评级是不科学的。
cnn卷积神经网络:cnn是一种多层神经网络,基于人工神经网络,在人工神经网络前,用滤波器进行特征抽取,使用卷积核作为特征抽取器,自动训练特征抽取器,就是说卷积核以及阈值参数这些都需要由网络去学习。
前馈神经网络(feedforwardneuralnetwork):简称前馈网络,是人工神经网络的一种。在此种神经网络中,各神经元从输入层开始,接收前一级输入,并输入到下一级,直至输出层。整个网络中无反馈,可用一个有向无环图表示。
nlp是神经语言程序学(neuro-linguisticprogramming)的英文缩写。在香港,也有意译为身心语法程式学的。n(neuro)指的是神经系统,包括大脑和思维过程。l(linguistic)是指语言,更准确点说,是指从感觉信号的输入到构成意思的过程。
余弦相似度模型:余弦相似度,又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。
技术实现要素:
本发明的目的在于:为解决目前部分的互进企业评级效果不好,没有一个完整、准确的互金企业评级模型,本发明提供一种基于深度神经网络的互金企业评级模型。
本发明的技术方案如下:
一种基于深度神经网络的互金企业评级模型,包括如下步骤:
s1:挖掘互金企业信息数据;主要会运用到爬虫技术,nlp技术等,数据来源主要是万网数据,以及我行内部资产生数据。
s2:挖掘互金企业经营数据;数据来源主要是接入我行存管的真实线上运营的数据,互企业对外发布的数据,万网数据金等。
s3:挖掘互金企业舆情信息;这部分信息主要来自于各大监管机构、各大新闻媒体的数据挖掘。
s4:挖掘互金企业存管真实数据;互金企业接入到我行存管系统后,会产生大量的真实生成数据,含用户基本信息、标的基本信息、资金流、现金流、信息流等,这部分信息需要重点深入挖掘,在模型建设中权重较大。
s5:挖掘互金企业其他渠道数据;含数据交换、数据购买等等。
s6:找出正负样本数据;根据网上公开的已有的企业评分选出topn互金企业作为正向样本;根据目前已倒闭、查封、负面舆情企业、经营情况倒数数据,综合抽取倒数n家互金企业负向样本。
s7:根据样本数据,结合时间序列、政策影响、经营数据、舆情数据等,通过cnn卷积神经网络抽取出s6中的topn互金企业和倒数n家互金企业的各企业特征群。
计算详情如下:
通过计算即可从样本数据中抽取出对应有效特征;x随样本量的变化会进行动态调整。
s8:通过fnn前驱馈神经网络,对有效特征进行分类并科学计算出所占权重。
上式中,sj和θj代表有效特征向量,x=[x1,x2,...,xn]t是输入特征向量,wji是xi到yj的连接权,输出量yj(j=1,2,...,m)是按照不同特征的分类结果,可计算出对应评分,权重数据即为评分数据。
s9:结合不同应用场景、政策影响、黑名单、人为鲜艳知识等作为强规则。
s10:根据强规则和模型训练,根据不同需求找出不同的互金企业评级模型;
s11:根据历史数据,对评级效果进行验证,历史数据为在外部挖掘的互经企业评级数据;
s12:根据不同的应用场景,产出对应的互金企业应用模型。
如企业经营表现资产评级、企业信用表现评级、互金企业投资价值评级等等。
s13:模型需要时刻补充数据调优,人为标注badcase法进行学习调优。
这里会用到机器学习的方法来自动学习调优。
进一步地,s8中,计算出有效特征并计算出所占权重的方法也可采用基于余弦相似度的分类预测方法,步骤如下:
s81:提取样本数据,包括基于互金企业经营数据、舆情情况、工商数据、标的数据,提取对应的评分偏好,计算公式如下:
s82:将互金企业每一个特征偏好组合表示为特征偏好向量:
v1=(p1,p2,p3,...,pn)
s83:将企业评级特征表示为向量:
v2=(1,0,1,...,0)
特征向量维度值取值为0或者1。
s84:计算余弦相似度:
其中simi值越大表示越相似。
s85:根据simi值进行排序,取与正负样本最相似的企业数据进行排序。
采用上述方案后,本发明的有益效果在于:本发明的互进企业评级模型代替了人工判断,以及传统的规则模型。使用人工智能相关算法所建立起来的企业评级模型更加准确,并且能够实时变化,在不同时间点、不同条件下随时变化。
附图说明
图1为本发明的流程图。
具体实施方式
实施例1
一种基于深度神经网络的互金企业评级模型,包括如下步骤:
s1:挖掘互金企业信息图谱;主要会运用到爬虫技术,nlp技术等,数据来源主要是万网数据,以及我行内部资产生数据。
s2:挖掘互金企业经营图谱;数据来源主要是接入我行存管的真实线上运营的数据,互企业对外发布的数据,万网数据金等。
s3:挖掘互金企业舆情信息;这部分信息主要来自于各大监管机构、各大新闻媒体的数据挖掘。
s4:挖掘互金企业存管真实数据;互金企业接入到我行存管系统后,会产生大量的真实生成数据,含用户基本信息、标的基本信息、资金流、现金流、信息流等,这部分信息需要重点深入挖掘,在模型建设中权重较大。
s5:挖掘互金企业其他渠道数据;含数据交换、数据购买等等。
s6:找出正负样本数据;根据网上公开的已有的企业评分选出topn互金企业作为正向样本;根据目前已倒闭、查封、负面舆情企业、经营情况倒数数据,综合抽取倒数n家互金企业负向样本。
s7:根据样本数据,结合时间序列、政策影响、经营数据、舆情数据等,通过cnn卷积神经网络抽取出s6中的topn互金企业和倒数n家互金企业的各企业特征群。
计算详情如下:
通过计算即可从样本数据中抽取出对应有效特征;x随样本量的变化会进行动态调整。
s8:通过fnn前驱馈神经网络,对有效特征进行分类并科学计算出所占权重。
上式中,sj和θj代表有效特征向量,x=[x1,x2,...,xn]t是输入特征向量,wji是xi到yj的连接权,输出量yj(j=1,2,...,m)是按照不同特征的分类结果,可计算出对应评分,权重数据即为评分数据。
s9:结合不同应用场景、政策影响、黑名单、人为鲜艳知识等作为强规则。
s10:根据强规则和模型训练,根据不同需求找出不同的互金企业评级模型;
s11:根据历史数据,对评级效果进行验证,历史数据为在外部挖掘的互经企业评级数据;
s12:根据不同的应用场景,产出对应的互金企业应用模型。
如企业经营表现资产评级、企业信用表现评级、互金企业投资价值评级等等。
s13:模型需要时刻补充数据调优,人为标注badcase法进行学习调优。
这里会用到机器学习的方法来自动学习调优。
进一步地,s8中,计算出有效特征并计算出所占权重的方法也可采用基于余弦相似度的分类预测方法,步骤如下:
s81:提取样本数据,包括基于互金企业经营数据、舆情情况、工商数据、标的数据,提取对应的评分偏好,计算公式如下:
s82:将互金企业每一个特征偏好组合表示为特征偏好向量:
v1=(p1,p2,p3,...,pn)
s83:将企业评级特征表示为向量:
v2=(1,0,1,...,0)
特征向量维度值取值为0或者1。
s84:计算余弦相似度:
其中simi值越大表示越相似。
s85:根据simi值进行排序,取与正负样本最相似的企业数据进行排序。
目前,互金企业评级模型中用到的因子,即用到的数据包含209万网页数据,200万新网数据,涵盖4557家互金平台25项经营数据,5大类16小类企业信息,85万的企业信息,主要类型有:
1.企业工商信息,例如“法定代表人”、“注册号”、“公司闺蜜”、“所属行业”、“企业地址”等。
2.企业股东信息,例如“所属企业”、“股东”、“持有比率”、“认缴出资额”、“股东类型”、“认缴出资日期”等。
3.企业变更记录信息,例如“所属企业”、“变更项目”、“变更日期”等。
4.企业年报信息,例如“时间”、“级别”、“金融”、“投资方”、“新闻来源”等。
5.企业商标信息,例如“商标”、“商标名”、“状态”申请时间“等。
6.企业高管信息,例如“姓名”、“职位”、“照片”、“简介”等。
7.企业经营信息,例如“评级收益率”、“预期投资期限”、“上线时间”、“注册资本”、“注册地”、“状态”等。
8.企业核心经营数据,例如“平均预期收益率”、“预期投资期限”、“成交量”、“成交量变化情况”、“投资人数”、“投资人数变化情况”、“日资金净流入”、“日资金净流入变化情况”、“日待换余额变化情况”等。
9.用户评分信息,例如“总分”、“点评人数”、“提现按评分”、“体验评分”等。
10.互金关键数据信息,例如“数据月份”、“发展排名”、“平台名称”、“发展指数”、“发展指数较上月变化”、“成交”、“流动性”、“透明度”等等。
11.其他数据,例如“企业招聘信息”、“企业网站备案信息”、“企业经营异常信息”、“企业舆情信息”、“法院公告信息”、“区域占比数据”、“平台数量”、“平台类型占比信息”、“行业成交信息”、“投资人数分级”、“借款人数分级”、“不同标的预期收益”、“不同期限标的标满用时”等。
实施例2
一种基于深度神经网络的互金企业评级模型,包括如下步骤:
s1:挖掘互金企业信息图谱;主要会运用到爬虫技术,nlp技术等,数据来源主要是万网数据,以及我行内部资产生数据。
s2:挖掘互金企业经营图谱;数据来源主要是接入我行存管的真实线上运营的数据,互企业对外发布的数据,万网数据金等。
s3:挖掘互金企业舆情信息;这部分信息主要来自于各大监管机构、各大新闻媒体的数据挖掘。
s4:挖掘互金企业存管真实数据;互金企业接入到我行存管系统后,会产生大量的真实生成数据,含用户基本信息、标的基本信息、资金流、现金流、信息流等,这部分信息需要重点深入挖掘,在模型建设中权重较大。
s5:挖掘互金企业其他渠道数据;含数据交换、数据购买等等。
s6:找出正负样本数据;根据网上公开的已有的企业评分选出topn互金企业作为正向样本;根据目前已倒闭、查封、负面舆情企业、经营情况倒数数据,综合抽取倒数n家互金企业负向样本。
s7:根据样本数据,结合时间序列、政策影响、经营数据、舆情数据等,通过cnn卷积神经网络抽取出s6中的topn互金企业和倒数n家互金企业的各企业特征群。
计算详情如下:
通过计算即可从样本数据中抽取出对应有效特征;x随样本量的变化会进行动态调整。
s8:采用基于余弦相似度的分类预测方法计算出有效特征并计算出所占权重的方法,步骤如下:
s81:提取样本数据,包括基于互金企业经营数据、舆情情况、工商数据、标的数据,提取对应的评分偏好,计算公式如下:
s82:将互金企业每一个特征偏好组合表示为特征偏好向量:
v1=(p1,p2,p3,...,pn)
s83:将企业评级特征表示为向量:
v2=(1,0,1,...,0)
特征向量维度值取值为0或者1。
s84:计算余弦相似度:
其中simi值越大表示越相似。
s85:根据simi值进行排序,取与正负样本最相似的企业数据进行排序
s9:结合不同应用场景、政策影响、黑名单、人为鲜艳知识等作为强规则。
s10:根据强规则和模型训练,根据不同需求找出不同的互金企业评级模型;
s11:根据历史数据,对评级效果进行验证,历史数据为在外部挖掘的互经企业评级数据;
s12:根据不同的应用场景,产出对应的互金企业应用模型。
如企业经营表现资产评级、企业信用表现评级、互金企业投资价值评级等等。
s13:模型需要时刻补充数据调优,人为标注badcase法进行学习调优。
这里会用到机器学习的方法来自动学习调优。