基于模型的金融领域交易文件表格日期提取方法与流程

文档序号：28809036发布日期：2022-02-09 03:23阅读：72来源：国知局

基于模型的金融领域交易文件表格日期提取方法
【技术领域】
1.本发明涉及金融领域表格日期提取技术领域，尤其涉及一种基于模型的金融领域交易文件表格日期提取方法。

背景技术：

2.在实际业务中，用户上传的贸易合同文件具有多样化，有pdf格式的也有以图片的合适上传的。目前的技术存在处理文件格式单一，仅能针对一种文件格式进行处理，兼容性较差，提取出的内容还不够精确具体，导致无法对表格的关键信息进行分析。
3.因此，现有技术存在不足，需要改进。

技术实现要素：

4.为克服上述的技术问题，本发明提供了一种基于模型的金融领域交易文件表格日期提取方法。
5.本发明解决技术问题的方案是提供一种基于模型的金融领域交易文件表格日期提取方法，包括如下步骤：
6.步骤s1：获取文件的训练样本；
7.步骤s2：对训练样本进行标签标注；
8.步骤s3：对训练样本进行模型训练；
9.步骤s4：对训练完成的模型进行应用。
10.优选地，在步骤s1中，所述文件为图片或者pdf电子件格式。
11.优选地，所述步骤s1包括如下步骤：
12.步骤s11：获取文件；
13.步骤s12：对文件进行预处理并转成可识别的图片格式或png格式文件；
14.步骤s13：通过表格ocr将可识别的图片格式或png格式文件识别出表格信息，对未识别出表格信息的文件返回文本信息以及对应文本在图片中的坐标。
15.优选地，在步骤s12中，通过python的pypdf2模块将pdf电子件格式文件的每一页处理成每一张可识别的图片格式文件；对不能读取的图片格式文件转成png格式文件。
16.优选地，在步骤s2中，对识别出表格信息的文件标注每个单元格的位置及对为日期的单元格标注标签；对未识别出表格信息的文件标注每个文本在图中的坐标及对为日期的文本标注标签。
17.优选地，在步骤s3中，采用深度神经网络分类模型进行训练。
18.优选地，所述步骤s3包括如下步骤：
19.步骤s31：将所有数据随机打乱，分成多个批次；
20.步骤s32：把数据按批次输入模型计算损失函数；
21.步骤s33：根据反向传播算法更新模型参数；
22.步骤s34：重复执行步骤s32、s33至模型收敛。
23.相对于现有技术，本发明的基于模型的金融领域交易文件表格日期提取方法具有如下优点：
24.可以对多种不同类型的文件进行识别处理，具有较好的兼容性，可对文件中较为具体的表格日期进行智能化提取，而不是仅提取出表格，有利于工作人员对表格进行具体的分析，为后续自动化合同审核工作提供了较大便利。
【附图说明】
25.图1是本发明基于模型的金融领域交易文件表格日期提取方法的具体流程示意图。
【具体实施方式】
26.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。
27.请参阅图1,本发明提供一种基于模型的金融领域交易文件表格日期提取方法，包括如下步骤：
28.步骤s1：获取文件的训练样本。
29.具体地，在步骤s1中，文件为图片或者pdf电子件格式。
30.进一步地，步骤s1包括如下步骤：
31.步骤s11：获取文件；
32.步骤s12：对文件进行预处理并转成可识别的图片格式或png格式文件；
33.步骤s13：通过表格ocr将可识别的图片格式或png格式文件识别出表格信息，对未识别出表格信息的文件返回文本信息以及对应文本在图片中的坐标。
34.具体地，在步骤s2中，通过python的pypdf2模块将pdf电子件格式文件的每一页处理成每一张可识别的图片格式文件；对不能读取的图片格式文件转成png格式文件。
35.进一步地，步骤s2：对训练样本进行标签标注。
36.具体地，在步骤s2中，对识别出表格信息的文件标注每个单元格的位置及对为日期的单元格标注标签；对未识别出表格信息的文件标注每个文本在图中的坐标及对为日期的文本标注标签。
37.步骤s3：对训练样本进行模型训练。
38.优选地，在步骤s3中，采用深度神经网络分类模型进行训练，如cnn、rnn、bert等深度模型。
39.进一步地，步骤s3包括如下步骤：
40.步骤s31：将所有数据随机打乱，分成多个批次；
41.步骤s32：把数据按批次输入模型计算损失函数；
42.步骤s33：根据反向传播算法更新模型参数；
43.步骤s34：重复执行步骤s32、s33至模型收敛。
44.具体地，损失函数为交叉熵损失，具体公式为：
[0045][0046]
其中，yi是样本对应的one-hot标签，pi是模型对应的输出概率向量。
[0047]
进一步地，步骤s4：对训练完成的模型进行应用。
[0048]
相对于现有技术，本发明的基于模型的金融领域交易文件表格日期提取方法具有如下优点：
[0049]
可以对多种不同类型的文件进行识别处理，具有较好的兼容性，可对文件中较为具体的表格日期进行智能化提取，而不是仅提取出表格，有利于工作人员对表格进行具体的分析，为后续自动化合同审核工作提供了较大便利。
[0050]
以上所述仅为本发明的较佳实施例，并非因此限制本发明的专利范围，凡是在本发明的构思之内所作的任何修改，等同替换和改进等均应包含在本发明的专利保护范围内。

技术特征：
1.一种基于模型的金融领域交易文件表格日期提取方法，其特征在于：所述基于模型的金融领域交易文件表格日期提取方法包括如下步骤：步骤s1：获取文件的训练样本；步骤s2：对训练样本进行标签标注；步骤s3：对训练样本进行模型训练；步骤s4：对训练完成的模型进行应用。2.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法，其特征在于：在步骤s1中，所述文件为图片或者pdf电子件格式。3.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法，其特征在于：所述步骤s1包括如下步骤：步骤s11：获取文件；步骤s12：对文件进行预处理并转成可识别的图片格式或png格式文件；步骤s13：通过表格ocr将可识别的图片格式或png格式文件识别出表格信息，对未识别出表格信息的文件返回文本信息以及对应文本在图片中的坐标。4.如权利要求3所述的基于模型的金融领域交易文件表格日期提取方法，其特征在于：在步骤s12中，通过pyt hon的pypdf2模块将pdf电子件格式文件的每一页处理成每一张可识别的图片格式文件；对不能读取的图片格式文件转成p ng格式文件。5.如权利要求3所述的基于模型的金融领域交易文件表格日期提取方法，其特征在于：在步骤s2中，对识别出表格信息的文件标注每个单元格的位置及对为日期的单元格标注标签；对未识别出表格信息的文件标注每个文本在图中的坐标及对为日期的文本标注标签。6.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法，其特征在于：在步骤s3中，采用深度神经网络分类模型进行训练。7.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法，其特征在于：所述步骤s3包括如下步骤：步骤s31：将所有数据随机打乱，分成多个批次；步骤s32：把数据按批次输入模型计算损失函数；步骤s33：根据反向传播算法更新模型参数；步骤s34：重复执行步骤s32、s33至模型收敛。

技术总结
本发明涉及金融领域表格日期提取技术领域，尤其涉及一种基于模型的金融领域交易文件表格日期提取方法，包括如下步骤：步骤S1：获取文件的训练样本；步骤S2：对训练样本进行标签标注；步骤S3：对训练样本进行模型训练；步骤S4：对训练完成的模型进行应用。本发明的基于模型的金融领域交易文件表格日期提取方法可以对多种不同类型的文件进行识别处理，具有较好的兼容性，可对文件中较为具体的表格日期进行智能化提取，而不是仅提取出表格，有利于工作人员对表格进行具体的分析，为后续自动化合同审核工作提供了较大便利。同审核工作提供了较大便利。同审核工作提供了较大便利。

技术研发人员：陈加杰
受保护的技术使用者：深圳前海环融联易信息科技服务有限公司
技术研发日：2021.11.05
技术公布日：2022/2/8

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈加杰
技术所有人：深圳前海环融联易信息科技服务有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。