一种基于知识图谱和图深度学习的金融信用风险评估方法与流程

文档序号:22189070发布日期:2020-09-11 21:59阅读:522来源:国知局

本发明涉及金融信用风险评估相关领域,具体为一种基于知识图谱和图深度学习的金融信用风险评估方法。



背景技术:

21世纪以来,随着计算机技术的日新月异和数据挖掘技术的兴起,个人信用评估正朝着数据库化,系统化,高精度量化的方向发展。采用数据挖掘技术进行的信用评估研究目前逐渐被国内外学术机构和商业银行所重视。数据挖掘技术不但可以从客观数据出发,总结出规律,建立个人信用评分模型,通过定性和定量两个角度,更加全面、科学的进行个人信用评估;而且能够充分利用计算机的快速处理的特点,极大的加快整个信用评估的过程,缩短信贷决策的时间。



技术实现要素:

本发明的目的在于提供一种基于知识图谱和图深度学习的金融信用风险评估方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

一种基于知识图谱和图深度学习的金融信用风险评估方法,包括如下步骤:

s1:获取用户历史信用数据;

s2:根据信用数据构建用户知识图谱;

s3:利用图神经网络对用户知识图谱进行图深度学习,得到知识图谱的特征;

s4:利用知识图谱的特征表征用户的信用特征;

s5:基于所述用户信用特征,通过风险评估模型对所述用户进行金融信用风险评估,并通过softmax函数判别用户是否存在风险。

作为本发明一种优选的技术方案,s1中历史信用数据包括结构化数据、半结构化数据和非结构化数据。

作为本发明一种优选的技术方案,s2中具体包括:s21:对结构化数据、半结构化数据和非结构化数据进行处理预处理;s22:对预处理后的非结构化数据、半结构化和结构化信用数据进行知识抽取,并将抽取后的数据加入数据库;s23:对知识库进行知识融合,包括实体消歧、共指消解;s24:采用自底向上构建数据模型,完成结构化、网络化的知识表示;s25:根据已有的数据模型进行知识推理、知识发现,完成用户知识图谱的构建。

作为本发明一种优选的技术方案,s21中数据预处理包括:s211:读取文本:获得字的部首的全集chars_set,bios_set,relations_set;s212:遍历训练数据:将每个句子中token_id,token,bio,relations,heads作为列表封装到该句子中;s213:遍历当前句子将样本数据id化,将句子中字列表embedding_ids,偏旁部首id的列表char_ids,实体标签的列表bio_ids,关系的列表scoringmatrixheads封装到句子中;s214:处理句子id化的数据,使其在一个批量数据内每个句子的维度相等,已最长句子的维度作为最大维度,不足的填充0;上述token为句子中的字,relations为实体关系,heads为对应关系下标位置。

作为本发明一种优选的技术方案,s22中对非结构化数据进行知识抽取包括:s221:从所述非结构化数据中基于相关度提取关键数据,

相关度为其中,k(wi,wj)为数据wi与数据wj的相关度,tfid(wi)为wi的词频与逆向频率值,d为关于数据wi与数据wj关于词向量的欧式距离;s222:使用深度学习对提取的关键数据中的句子进行实体识别和关系抽取。

作为本发明一种优选的技术方案,s22中对结构化数据进行知识抽取包括:使用d2r技术对半结构化数据进行转换处理,将数据转换为关联数据。

作为本发明一种优选的技术方案,s22中对半结构化数据处理基于属性抽取、ontolog信息抽取、开放信息抽取。

作为本发明一种优选的技术方案,s23中对知识库进行知识融合,包括实体消歧、共指消解,实体消歧、共指消解用于判断知识库中的同名实体与之是否代表不同的含义,以及知识库中是否存在其他命名实体与之表示相同的含义,共指消解采用决策树算法确定实体共指消解的特征,并基于相似度值比较计算。

作为本发明一种优选的技术方案,s25中知识推理为使用描述逻辑进行推理。

作为本发明一种优选的技术方案,s3中具体包括:s31:利用deepwalk算法对所述用户信用知识图谱图做图嵌入,获得知识图谱各节点和边的向量表征;s32:将所述各节点和边的向量表征输入图神经网络中训练,学习各节点的特征,得到用户节点的特征向量表征。

作为本发明一种优选的技术方案,s5中风险评估模型是一个多分类模型,模型函数为softmax分类器模型输入用户信用特征,根据输出值大小判断风险等级。

与现有技术相比,本发明的有益效果是:

本发明采用知识图谱和图深度学习的方式对用户的金融信用风险进行评估,能够对用户历史信用数据中的结构化数据、半结构化数据和非结构化数据进行预处理、提取、分析,并将其作为评价用户金融信用的重要依据,提高评估质量,评估效率高,针对三种不同的数据采用不同的处理、提取方法,能有效的对数据中的关键数据进行提取,进一步提升处理的效率及识别率。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1:本发明提供一种技术方案:一种基于知识图谱和图深度学习的金融信用风险评估方法,包括如下步骤:

s1:获取用户历史信用数据;

s2:根据信用数据构建用户知识图谱;

s3:利用图神经网络对用户知识图谱进行图深度学习,得到知识图谱的特征;

s4:利用知识图谱的特征表征用户的信用特征;

s5:基于所述用户信用特征,通过风险评估模型对所述用户进行金融信用风险评估,并通过softmax函数判别用户是否存在风险。

在本实施例中,s1中历史信用数据包括结构化数据、半结构化数据和非结构化数据。

在本实施例中,s2中具体包括:s21:对结构化数据、半结构化数据和非结构化数据进行处理预处理;s22:对预处理后的非结构化数据、半结构化和结构化信用数据进行知识抽取,并将抽取后的数据加入数据库;s23:对知识库进行知识融合,包括实体消歧、共指消解;s24:采用自底向上构建数据模型,完成结构化、网络化的知识表示;s25:根据已有的数据模型进行知识推理、知识发现,完成用户知识图谱的构建。

在本实施例中,s21中数据预处理包括:s211:读取文本:获得字的部首的全集chars_set,bios_set,relations_set;s212:遍历训练数据:将每个句子中token_id,token,bio,relations,heads作为列表封装到该句子中;s213:遍历当前句子将样本数据id化,将句子中字列表embedding_ids,偏旁部首id的列表char_ids,实体标签的列表bio_ids,关系的列表scoringmatrixheads封装到句子中;s214:处理句子id化的数据,使其在一个批量数据内每个句子的维度相等,已最长句子的维度作为最大维度,不足的填充0;上述token为句子中的字,relations为实体关系,heads为对应关系下标位置。

在本实施例中,s22中对非结构化数据进行知识抽取包括:s221:从所述非结构化数据中基于相关度提取关键数据,

相关度为其中,k(wi,wj)为数据wi与数据wj的相关度,tfid(wi)为wi的词频与逆向频率值,d为关于数据wi与数据wj关于词向量的欧式距离;s222:使用深度学习对提取的关键数据中的句子进行实体识别和关系抽取。

在本实施例中,s22中对结构化数据进行知识抽取包括:使用d2r技术对半结构化数据进行转换处理,将数据转换为关联数据。

在本实施例中,s22中对半结构化数据处理基于属性抽取、ontolog信息抽取、开放信息抽取。

在本实施例中,s23中对知识库进行知识融合,包括实体消歧、共指消解,实体消歧、共指消解用于判断知识库中的同名实体与之是否代表不同的含义,以及知识库中是否存在其他命名实体与之表示相同的含义,共指消解采用决策树算法确定实体共指消解的特征,并基于相似度值比较计算。

在本实施例中,s24中还包括对数据模型进行处理,具体包括:词嵌入,通过双向lstm提取特征得到char_logitics,加载skip-gram模型预训练的字向量,得到wordembedding,将wordembedding和char_logitics拼接作为模型的输入inputs;通过三个隐藏层的双向lstm对输入的inputs进行特征提取得到lstm_out;对lstm_out做激活函数为relu的全连接,进行实体分类,得到nerscores,其中relu激活函数为如下式所示:

f(x)=max(0,x);

通过bio标记策略,使用crf引入标签间的依赖关系。计算每个词得到不同标签的分数;计算句子的标签序列概率。通过最小化交叉熵损失函数得到ner_loss。最后使用viterbi算法得到分数最高的标签preners;对上述得到的labels进行词嵌入得到labelembedding,将上述中输出的lstm_out和labelembedding拼接得到rel_inputs,作为实体关系预测的输入。

在本实施例中,s25中知识推理为使用描述逻辑进行推理。

在本实施例中,s3中具体包括:s31:利用deepwalk算法对所述用户信用知识图谱图做图嵌入,获得知识图谱各节点和边的向量表征;s32:将所述各节点和边的向量表征输入图神经网络中训练,学习各节点的特征,得到用户节点的特征向量表征。

在本实施例中,s5中风险评估模型是一个多分类模型,模型函数为softmax分类器模型输入用户信用特征,根据输出值大小判断风险等级,风险等级包括高、中、低。

本发明采用知识图谱和图深度学习的方式对用户的金融信用风险进行评估,能够对用户历史信用数据中的结构化数据、半结构化数据和非结构化数据进行预处理、提取、分析,并将其作为评价用户金融信用的重要依据,提高评估质量,评估效率高,针对三种不同的数据采用不同的处理、提取方法,能有效的对数据中的关键数据进行提取,进一步提升处理的效率及识别率。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1