一种基于深度学习针对表格统计类型特征的风险评估方法与流程

文档序号:38281022发布日期:2024-06-12 23:29阅读:17来源:国知局
本发明涉及信息处理,具体为一种基于深度学习针对表格统计类型特征的风险评估方法。
背景技术
::1、信息高度精炼集中,方便信息的检索和比较。表格被广泛用于表示结构和功能信息,它们出现在不同种类的文献中,包括报纸、研究论文和科学文件等。表格使读者能够快速地比较、分析和理解文件中出现的事实。表格识别的目的是获取图像中的表格并访问其数据,是文档分析与识别领域的一个重要分支,表格在生成或存储过程中往往以图片或pdf(portabledocument format)文件的形式存在,会丢失易于计算机理解的原有结构信息。若是采用人工手段对表格进行重新处理录入,会面临效率低下、数据量大导致出错等问题,因此,如何高效地从文档或图像中找到表格区域,同时有效地提取表格中的结构信息和数据内容,成了一个亟待解决的问题。技术实现思路1、为了解决上述技术问题,本发明提供一种基于深度学习针对表格统计类型特征的风险评估方法,由以下具体技术手段所达成:2、本发明为实现技术目的采用如下技术方案:一种基于深度学习针对表格统计类型特征的风险评估方法,包含以下步骤:3、s101、对原始大量未标注的源数据流进行行程切分,剔除gps超过5000个点的行程;4、s102、使用transformer预训练模型进行训练,使用轨迹还原,事故行程预测等预训练任务训练至模型收敛,保存该自监督模型参数,提取模型最后4层的输出特征,将数层特征拼接到一起作为行程特征;5、s103、将行程特征与行程所对应的车辆信息进行拼接,作为模型输入;6、s104、构建深度网络;7、s105、重复步骤s102与s103至模型收敛;8、s106、建立一个深度学习的表格,深度学习表格中具体包含:数据集种类、模型准确度、数据探索以及时间开销,所述深度学习的表格检测与识别基于多层神经网络技术;9、优选的,所述步骤s102中使用transformer预训练模型进行训练,使用轨迹还原,事故行程预测的预训练任务训练至模型收敛,保存预训练模型的参数,提取模型最后4层的输出特征,将数层特征拼接到一起作为行程特征。10、优选的,所述步骤s104中构建深度网络在深度模型每一层前增加门控结构,当数据经过使用sparsemax层稀疏化特征,使得门控结构起到树节点选择单一特征的效果。11、优选的,所述数据集种类基于机器学习的检测识别方法主要面向标注了表格位置的数据集,使用这类数据来训练模型,从而可以提高检测识别精度;而基于深度学习的检测识别方法则面向标注了表格元素位置的数据集,这类数据集可以更详细地描述文档中的表格,可以有效抵挡干扰。12、优选的,所述模型准确度,基于机器学习的表格检测识别方法主要依赖于模型的改进,因而能够在模型准确度上把控较高的水准,即使对于较小的数据集来说;而基于深度学习的表格检测识别方法则更加取决于数据的种类基于更加详细的数据描述,可以使模型的精度提升到更高的水准。13、优选的,所述数据探索,基于机器学习的表格检测识别方法主要针对已有数据对模型进行训练,以提高检测识别的效率;而基于深度学习的检测识别方法则能够在完整的文本中探索出详细的表格信息,从而获取更多的有用技术特征。14、优选的,所述时间开销,基于机器学习的表格检测识别方法常常比较容易受到训练数据和模型规模等因素的影响,而基于深度学习的表格检测识别方法则更加容易进行识别和检测,所需时间大幅缩短。15、有益效果16、与现有技术相比,本发明提供了一种基于深度学习针对表格统计类型特征的风险评估方法,具备以下有益效果:17、1、该基于深度学习针对表格统计类型特征的风险评估方法,针对表格型数据设计深度模型结构,使深度模型同时达到易于在不同车辆群体间迁移,预测风险,同时效果超过xgboost,修改深度模型结构,模拟树模型,筛选特定特征,提高深度模型效果,同时便于迁移。技术特征:1.一种基于深度学习针对表格统计类型特征的风险评估方法,其特征在于:包含以下步骤:2.根据权利要求1所述的一种基于深度学习针对表格统计类型特征的风险评估方法,其特征在于:所述步骤s102中使用transformer预训练模型进行训练,使用轨迹还原,事故行程预测的预训练任务训练至模型收敛,保存预训练模型的参数,提取模型最后4层的输出特征,将数层特征拼接到一起作为行程特征。3.根据权利要求1所述的一种基于深度学习针对表格统计类型特征的风险评估方法,其特征在于:所述步骤s104中构建深度网络,在所述行程特征与行程对应的车辆信息拼接后的模型中,在模型的每一层前增加门控结构,当数据经过门控结构时,使用sparsemax层对经过的数据进行稀疏化,使得门控结构起到树节点选择单一特征的效果。4.根据权利要求1所述的一种基于深度学习针对表格统计类型特征的风险评估方法,其特征在于:所述数据集种类基于机器学习的检测识别方法标注了表格位置的数据集,使用表格位置的数据集来训练模型,从而可以提高检测识别精度。5.根据权利要求1所述的一种基于深度学习针对表格统计类型特征的风险评估方法,其特征在于:所述步骤s106中模型准确度,基于机器学习的表格检测识别方法主要依赖于模型的改进。6.根据权利要求1所述的一种基于深度学习针对表格统计类型特征的风险评估方法,其特征在于:所述步骤s106中数据探索,基于机器学习的表格检测识别方法主要针对已有数据对模型进行训练,以提高检测识别的效率。7.根据权利要求1所述的一种基于深度学习针对表格统计类型特征的风险评估方法,其特征在于:所述步骤s106中时间开销,基于机器学习的表格检测识别方法受到训练数据和模型规模等因素的影响,而基于深度学习的表格检测识别方法则更加容易进行识别和检测,所需时间大幅缩短。技术总结本发明涉及信息处理
技术领域
:,并提供一种基于深度学习针对表格统计类型特征的风险评估方法,其中深度学习具有高精度和强大的表示能力,能够有效处理复杂的数据,并能够准确地从不同的数据中学习新特征,能够更好地处理一些模糊,复杂和非线性的数据,深度学习能够捕获表格的复杂结构信息,并能够从图像获得更多更有用的技术特征,因其可以解决数据量小、模型效果不理想等问题,基于深度学习的方法可以提供完整的特征描述以及更强大的抗干扰能力,针对表格型数据设计深度模型结构,使深度模型同时达到易于在不同车辆群体间迁移,预测风险,同时效果超过xgboost,修改深度模型结构,模拟树模型,筛选特定特征,提高深度模型效果,同时便于迁移。技术研发人员:鲁鑫受保护的技术使用者:北京宏瓴科技发展有限公司技术研发日:技术公布日:2024/6/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1