本申请涉及自然语言处理,尤其涉及一种基于深度学习的行业报告生成方法及系统。
背景技术:
1、传统的行业报告生成方法主要依赖于人工收集、整理和分析数据,这一过程不仅耗时耗力,而且容易受到主观因素的影响,导致报告的质量和效率难以保证。因此,如何自动化、高效且准确地生成行业报告成为业界亟待解决的问题。在自然语言处理(nlp)领域,深度学习技术的兴起为文本数据的自动化处理和分析提供了新的可能。在将深度学习技术应用于行业报告生成时,也面临着一系列挑战。行业文本数据通常具有多样性、复杂性和海量性的特点,这使得模型在训练过程中容易遇到数据分布不均、特征稀疏等问题,导致模型泛化能力不足。
技术实现思路
1、有鉴于此,本申请提供一种基于深度学习的行业报告生成方法及系统。
2、本申请的技术方案是这样实现的:一方面,本申请提供一种基于深度学习的行业报告生成方法,包括:获取原始行业文本数据的段落集合隐式表示;将所述段落集合隐式表示进行隐式表示强化操作得到拟加载段落集合隐式表示;将所述拟加载段落集合隐式表示加载到自然语言处理网络,得到所述原始行业文本数据的行业文本质量,其中,所述自然语言处理网络为依据隐式表示推理学习以及文本质量推理学习进行有标签调校获得,所述自然语言处理网络的输入为第一文本模板库,所述第一文本模板库包括第一文本模板隐式表示和所述第一文本模板隐式表示的先验标记,所述先验标记表征所述第一文本模板隐式表示的行业文本质量,所述第一文本模板隐式表示是执行完隐式表示强化操作的文本隐式表示;将满足预设行业文本质量条件的原始行业文本数据作为行业报告的参考数据,以便根据所述参考数据进行行业报告生成。
3、第二方面,本申请提供一种计算机系统,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上所述方法中的步骤。
4、本申请的有益效果:本申请提供一种基于深度学习的行业报告生成方法及系统,在自然语言处理网络在调校环节中,引入了隐式表示推理的协同训练任务。根据此,令自然语言处理网络在进行文本质量推理学习的过程中,根据隐式表示推理学习,获得各个文本段落更加丰富的文本隐式表示,帮助缓解质量划分网络出现过度训练产生的高方差问题和早停现象,如此,增加神经网络对行业文本的质量识别能力和普适性,帮助在海量的行业文本中确定高质量的行业文本,以生成准确可靠且高质量的行业报告。
1.一种基于深度学习的行业报告生成方法,其特征在于,包括:获取原始行业文本数据的段落集合隐式表示;将所述段落集合隐式表示进行隐式表示强化操作得到拟加载段落集合隐式表示;将所述拟加载段落集合隐式表示加载到自然语言处理网络,得到所述原始行业文本数据的行业文本质量,其中,所述自然语言处理网络为依据隐式表示推理学习以及文本质量推理学习进行有标签调校获得,所述自然语言处理网络的输入为第一文本模板库,所述第一文本模板库包括第一文本模板隐式表示和所述第一文本模板隐式表示的先验标记,所述先验标记表征所述第一文本模板隐式表示的行业文本质量,所述第一文本模板隐式表示是执行完隐式表示强化操作的文本隐式表示;将满足预设行业文本质量条件的原始行业文本数据作为行业报告的参考数据,以便根据所述参考数据进行行业报告生成。
2.如权利要求1所述的方法,其特征在于,所述将所述段落集合隐式表示进行隐式表示强化操作得到拟加载段落集合隐式表示包括:将所述段落集合隐式表示加载到隐式表示强化组件,得到所述拟加载段落集合隐式表示,所述隐式表示强化组件通过第二文本模板隐式表示、模板强化隐式表示以及第一隐式表示进行伪标签调校生成得到;或者;将所述段落集合隐式表示进行屏蔽操作得到所述拟加载段落集合隐式表示;所述获取原始行业文本数据的段落集合隐式表示包括:对所述原始行业文本数据进行段落划分得到多个文本段落;对所述多个文本段落进行隐式表示挖掘得到所述段落集合隐式表示。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:获取第二文本模板库和基础隐式表示强化组件,所述第二文本模板库包括所述第二文本模板隐式表示、所述模板强化隐式表示以及所述第一隐式表示;将所述第二文本模板库加载到所述基础隐式表示强化组件,推理获得第二隐式表示,所述第二隐式表示根据所述第二文本模板隐式表示和所述模板强化隐式表示进行模拟得到;根据所述第二隐式表示和所述第一隐式表示确定第一训练误差;依据所述第一训练误差调校所述基础隐式表示强化组件得到隐式表示强化组件。
4.如权利要求3所述的方法,其特征在于,所述获取第二文本模板库包括:获取第一行业文本模板,强化文本模板和第一行业文本,所述第一行业文本为所述第一行业文本模板和所述强化文本模板拼接得到;对所述第一行业文本模板进行隐式表示挖掘,得到所述第二文本模板隐式表示,以及对所述强化文本模板进行隐式表示挖掘,得到所述模板强化隐式表示,对所述第一行业文本进行隐式表示挖掘,得到所述第一隐式表示。
5.如权利要求4所述的方法,其特征在于,所述获取第一行业文本模板,强化文本模板和第一行业文本,包括:获取所述第一行业文本模板,以及任意构建得到扰动文本,将所述扰动文本确定为所述强化文本模板;将所述扰动文本与所述第一行业文本模板进行拼接以得到所述第一行业文本;或者;获取所述第一行业文本模板,以及对所述第一行业文本模板进行字符乱序排布以得到所述第一行业文本模板的字符乱序文本,将所述字符乱序文本确定为所述强化文本模板;将所述字符乱序文本与所述第一行业文本模板进行拼接得到所述第一行业文本;或者;获取所述第一行业文本模板,以及对所述第一行业文本模板进行段落截取生成所述第一行业文本模板的段落截取文本,将所述段落截取文本确定为所述强化文本模板;将所述段落截取文本与所述第一行业文本模板进行拼接得到所述第一行业文本;或者;获取所述第一行业文本模板,以及对所述第一行业文本模板的文本字符进行任意替换以得到所述第一行业文本模板的字符替换文本,将所述字符替换文本确定为所述强化文本模板;将所述字符替换文本与所述第一行业文本模板进行拼接得到所述第一行业文本。
6.如权利要求3~5任一项所述的方法,其特征在于,所述方法还包括:获取第一文本模板库和基础自然语言处理网络,其中,所述第二文本模板库包括所述第一文本模板隐式表示和所述第一文本模板隐式表示的先验标记,所述基础自然语言处理网络包括基础组件、基础文本质量分类组件和一个或多个基础推理组件,所述先验标记表征所述第一文本模板隐式表示的行业文本质量,所述第一文本模板隐式表示是执行完隐式表示强化操作的文本隐式表示,所述一个或多个基础推理组件的执行结果用于调校所述基础组件和所述基础文本质量分类组件,所述基础文本质量分类组件的执行结果为所述基础自然语言处理网络的执行结果,所述第一文本模板隐式表示表征文本段落的段落集合隐式表示;将所述第一文本模板库加载到所述基础自然语言处理网络,依据所述文本质量推理学习和所述隐式表示推理学习进行有标签调校得到所述自然语言处理网络。
7.如权利要求6所述的方法,其特征在于,所述将所述第一文本模板库加载到所述基础自然语言处理网络,依据所述文本质量推理学习和所述隐式表示推理学习进行有标签调校得到所述自然语言处理网络包括:将所述第一文本模板隐式表示加载到所述基础组件和所述基础文本质量分类组件得到推理行业文本质量;依据所述推理行业文本质量与所述先验标记确定第二训练误差;依据所述第二训练误差循环调校所述基础组件和所述基础文本质量分类组件得到第一组件和第一文本质量分类组件;在所述第一文本模板隐式表示中任意确定n个段落隐式表示,以及依据段落的先后次序对所述n个段落隐式表示进行组合以获得第一待加载隐式表示,n≥1;将所述第一待加载隐式表示加载到所述第一组件和所述一个或多个基础推理组件中的第一基础推理组件得到第一推理隐式表示;依据所述第一推理隐式表示与所述第一文本模板隐式表示中的第m个段落隐式表示确定第三训练误差,m=n+1;依据所述第三训练误差调校所述第一组件和所述第一文本质量分类组件得到第二组件和第二文本质量分类组件;在所述第一文本模板隐式表示中任意确定h个第一隐式表示元素进行屏蔽操作得到第二待加载隐式表示,h≥1;将所述第二待加载隐式表示加载到所述第二组件和所述一个或多个基础推理组件中的第二基础推理组件得到第二推理隐式表示;依据所述第二推理隐式表示和所述第一隐式表示元素的实际值确定第四训练误差;依据所述第四训练误差调校所述第二组件和所述第二文本质量分类组件获得所述自然语言处理网络。
8.如权利要求6所述的方法,其特征在于,所述将所述第一文本模板库加载到所述基础自然语言处理网络,依据所述文本质量推理学习和所述隐式表示推理学习进行有标签调校得到所述自然语言处理网络包括:将所述第一文本模板隐式表示加载到所述基础组件和所述基础文本质量分类组件得到推理行业文本质量;依据所述推理行业文本质量与所述先验标记确定第二训练误差;在所述第一文本模板隐式表示中任意确定n个段落隐式表示,以及依据段落的先后次序对所述n个段落隐式表示进行组合以获得第一待加载隐式表示,n≥1;将所述第一待加载隐式表示加载到所述第一组件和所述一个或多个基础推理组件中的第一基础推理组件得到第一推理隐式表示;依据所述第一推理隐式表示与所述第一文本模板隐式表示中的第m个段落隐式表示确定第三训练误差,m=n+1;在所述第一文本模板隐式表示中任意确定h个第一隐式表示元素进行屏蔽操作得到第二待加载隐式表示;将所述第二待加载隐式表示加载到所述第二组件和所述一个或多个基础推理组件中的第二基础推理组件得到第二推理隐式表示;依据所述第二推理隐式表示和所述第一隐式表示元素的实际值确定第四训练误差;依据所述第二训练误差、所述第三训练误差和所述第四训练误差调校所述基础组件和所述基础文本质量分类组件得到首轮调校环节中的过渡网络;循环调校直到达到收敛要求时,得到所述自然语言处理网络。
9.如权利要求6所述的方法,其特征在于,所述将所述第一文本模板库加载到所述基础自然语言处理网络,依据所述文本质量推理学习和所述隐式表示推理学习进行有标签调校得到所述自然语言处理网络包括:在所述第一文本模板隐式表示中任意确定n个段落隐式表示,以及依据段落的先后次序对所述n个段落隐式表示进行组合以获得第一待加载隐式表示,n≥1;将所述第一待加载隐式表示加载到所述基础组件和所述一个或多个基础推理组件中的第一基础推理组件得到第一推理隐式表示;依据所述第一推理隐式表示与所述第一文本模板隐式表示中的第m个段落隐式表示确定第三训练误差,m=n+1;在所述第一文本模板隐式表示中任意确定h个第一隐式表示元素进行屏蔽操作得到第二待加载隐式表示;将所述第二待加载隐式表示加载到所述基础组件和所述一个或多个基础推理组件中的第二基础推理组件得到第二推理隐式表示;依据所述第二推理隐式表示和所述第一隐式表示元素的实际值确定第四训练误差;依据所述第三训练误差和所述第四训练误差调校所述基础组件、所述基础文本质量分类组件、所述第一基础推理组件、所述第二基础推理组件得到第一组件、第一文本质量分类组件,所述第一推理组件和所述第二推理组件;将所述第一文本模板隐式表示加载到所述第一组件和所述第一文本质量分类组件得到推理行业文本质量;依据所述推理行业文本质量与所述先验标记确定第二训练误差;在所述第一文本模板隐式表示中任意确定n个段落隐式表示,以及依据段落的先后次序对所述n个段落隐式表示进行组合以获得第三待加载隐式表示;将所述第三待加载隐式表示加载到所述第一组件和所述第一推理组件得到第三推理隐式表示;依据所述第三推理隐式表示与所述第一文本模板隐式表示中的第m个段落隐式表示确定第五训练误差;在所述第一文本模板隐式表示中任意确定h个第二隐式表示元素进行屏蔽操作得到第四待加载隐式表示;将所述第四待加载隐式表示加载到所述第一组件和所述第二推理组件得到第四推理隐式表示;依据所述第四推理隐式表示和所述第二隐式表示元素的实际值确定第六训练误差;依据所述第二训练误差、所述第五训练误差和所述第六训练误差调校所述第一组件和所述第一文本质量分类组件得到首轮调校环节中的过渡网络;循环调校直到达到收敛要求时,得到所述自然语言处理网络。
10.一种计算机系统,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至9任一项所述方法中的步骤。