一种信息分析模型的训练方法及信息分析方法与流程

文档序号：37114225发布日期：2024-02-22 21:13阅读：17来源：国知局

本申请涉及数据分析领域，特别是涉及一种信息分析模型的训练方法及信息分析方法。

背景技术：

1、transformer是一种基于注意力机制的神经网络架构，它在自然语言处理和其他序列数据处理任务中取得了巨大成功，并成为了许多最先进的nlp模型的基础。transformer已经成为自然语言处理和其他序列任务的重要基础架构，如bert、gpt等模型都是基于transformer进一步发展和优化的，信息分析旨在了解和分析公众对特定话题、品牌、产品或事件的情感和态度，通过对社交媒体、新闻文章、论坛帖子等大量文本数据进行分析，可以帮助企业了解公众对他们的看法，及时掌握和应对可能出现的声誉危机或问题，t5模型是以transformer为基础的模型，t5模型作为一种强大的文本到文本转换模型，具有统一的框架、自注意力机制、强大的语言表示能力和处理大规模数据的能力等优势，使得它在信息分析领域具有广泛的应用前景，并能够帮助提高信息分析的准确性和效率，但t5模型具有大量的隐藏层及亿级参数，所以无法在小成本、轻资源的基础上进行训练和应用。

2、传统的信息分析方法在处理大规模、多样化的文本数据时存在一些缺陷，主要问题包括：

3、1.特征工程复杂：传统的信息分析方法通常需要手动进行特征工程，提取适合于情感分析或主题分类的特征，这些特征可能涉及词袋模型、tf-ide、词性标注等，但对于大规模文本数据来说，特征工程非常复杂和耗时。

4、2.无法捕捉长距离依赖：传统的信息分析方法通常是基于传统的序列模型（如rnn和lstm）或基于n-gram的方法，这些方法在处理长文本时很难捕捉长距离的依赖关系，导致模型性能受限。

5、3.对文本顺序敏感：传统的序列模型对于输入文本的顺序敏感，这意味着输入文本的排列顺序可能影响最终的分析结果，然而，信息分析中的文本通常是无序的，因此这样的敏感性会导致结果不稳定。

6、4.处理大规模数据效率低：传统的信息分析方法通常需要处理大规模的文本数据，但由于特征工程复杂和序列模型的限制，处理大规模数据的效率较低，导致处理时间长。

7、5.无法应对多样化任务：传统的信息分析方法通常是针对特定任务（如情感分析或主题分类）设计的，不具备通用性和灵活性，难以应对多样化的信息分析需求。

8、6.针对特定领域的模型人工微调数据集存在很大的局限性，如：人工微调过程通常是时间密集型和资源密集型的，需要大量的人工劳动和专业知识。不同标注者之间可能存在主观性差异，导致数据标注的一致性问题。

9、7.过拟合风险：过度依赖特定的微调数据集可能导致模型过拟合，影响其在新数据上的泛化能力。

10、8.人工微调数据集可能缺乏足够的多样性，特别是在处理广泛或多样化的应用场景时。

11、所以，亟需一种可以解决上述缺陷并能以较小的资源成本对多样化文本数据进行信息分析的方法。

技术实现思路

1、本申请实施例提供了一种信息分析模型的训练方法及信息分析方法，通过t5模型的预测结果构建一个自建模型，通过对自建模型的迭代训练得到信息分析模型，从而使用所述信息分析模型可以使用更小的计算资源来进行信息分析。

2、第一方面，本申请实施例提供了一种信息分析模型的训练方法，所述方法包括：

3、获取至少一与信息分析相关的信息分析数据并标记对应的情感标签作为训练样本，将训练样本输入到预训练好的t5模型中得到第一信息分析结果；

4、构建以transfomer架构为基础的自建模型，在所述训练样本中获取至少一信息分析数据组成信息分析集合，以信息分析集合为输入数据，以信息分析集合对应的第一信息分析结果为训练目标对所述自建模型进行训练得到普适模型；

5、构建识别数据集错误的数据校正模型并获取标记有情感标签的微调数据集，冻结预训练好的普适模型的部分层级并新增分类头，将标记有情感标签的微调数据集输入到普适模型中进行迭代训练得到信息分析模型，其中在迭代训练过程中将普适模型输出的结果输入到数据校正模型中更新微调数据集，并将更新的微调数据集再输入到普适模型进行迭代。

6、第二方面，本申请实施例提供了一种信息分析方法，包括：

7、获取信息分析数据，将信息分析数据输入到信息分析模型中得到由事件关键字、事件内容概括以及事件情感分析字段构成的输出结果；

8、其中信息分析模型采用特定领域的微调数据集根据第一方面所述的信息分析模型的训练方法训练得到。

9、第三方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行一种信息分析模型的训练方法以及一种信息分析方法。

10、第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据一种信息分析模型的训练方法以及一种信息分析方法。

11、本发明的主要贡献和创新点如下：

12、本申请实施例基于t5模型的输出来对构建的自建模型进行训练，并再次对预训练好的自建模型进行迭代训练从而可以使用更小的计算资源来进行信息的分析；本方案在进行迭代训练时冻结自建模型中的部分层级，使自建模型可以保留大部分在t5模型中学习的参数，并减少迭代训练时出现的过拟合情况；本方案中的自建模型以t5模型的输出作为训练目标进行训练，使自建模型在参数量小于t5模型的前提下也尽可能达到与t5模型一样的效果；本方案构建一个数据校正模型来根据每次迭代训练的结果对微调数据集合进行更新，使每次迭代训练所使用的微调数据集合更加准确；本方案在迭代训练时在自建模型中额外添加了一个分类头，从而可以使模型更好的适应特定任务。

13、本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

技术特征：

1.一种信息分析模型的训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种信息分析模型的训练方法，其特征在于，在“构建以transfomer架构为基础的自建模型”步骤中，所述自建模型包括两个编码器层和两个解码器层，所述自建模型的参数量小于t5模型。

3.根据权利要求1所述的一种信息分析模型的训练方法，其特征在于，在“以信息分析集合为输入数据，以信息分析集合对应的第一信息分析结果为训练目标对所述自建模型进行训练得到普适模型”步骤中，当所述自建模型的输出结果与对应第一信息分析结果的相似度大于设定阈值时，完成自建模型的训练得到所述普适模型。

4.根据权利要求1所述的一种信息分析模型的训练方法，其特征在于，在“构建识别数据集错误的数据校正模型并获取标记有情感标签的微调数据集”步骤中，所述数据校正模型以transformer架构为基础进行构建，并在所述数据校正模型中配置多头注意力、前馈网络和归一化层。

5.根据权利要求1所述的一种信息分析模型的训练方法，其特征在于，所述数据校正模型以带有情感标签的数据作为训练样本进行训练得到，训练好的数据校正模型用于预测标记有情感标签的微调数据集中的数据不一致性或标注错误的情况，且所述数据校正模型以交叉熵损失和预测不准确样本数量的加权和作为目标函数进行训练。

6.根据权利要求1所述的一种信息分析模型的训练方法，其特征在于，在“在迭代训练过程中将普适模型输出的结果输入到数据校正模型中更新微调数据集”步骤中，基于所述数据校正模型的输出对所述微调数据集的数据分布进行调整或对微调数据集的标签进行重新标注完成更新。

7.根据权利要求1所述的一种信息分析模型的训练方法，其特征在于，在“将更新的微调数据集再输入到普适模型进行迭代”步骤中，当达到最大迭代次数或所述普适模型的预测输出与真实标签的残差小于设定阈值时停止迭代得到信息分析模型。

8.一种信息分析方法，其特征在于，包括：

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1-7任一项所述的一种信息分析模型的训练方法以及权利要求8所述的一种信息分析方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1-7任一项所述的一种信息分析模型的训练方法以及权利要求8所述的一种信息分析方法。

技术总结
本申请提出了一种信息分析模型的训练方法及信息分析方法，包括以下步骤：获取信息分析数据并输入到预训练好的T5模型中得到第一信息分析结果；构建自建模型，在所述训练样本中获取至少一信息分析数据组成信息分析集合，以第一信息分析结果为训练目标，以信息分析集合为训练数据对所述自建模型进行训练得到普适模型；构建数据校正模型并获取微调数据集，使用微调数据集对自建模型进行迭代训练得到信息分析模型，所述数据校正模型在迭代训练过程中对微调数据集进行更新。本方案以T5模型的输出为训练目标来构建自建模型，并对其进行迭代训练得到信息分析模型，从而使用信息分析模型以更小的计算资源来进行信息分析。

技术研发人员：郁强,黄宸,曹鹏寅,李斌,任通
受保护的技术使用者：城云科技（中国）有限公司
技术研发日：
技术公布日：2024/2/21

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郁强,黄宸,曹鹏寅,李斌,任通
技术所有人：城云科技（中国）有限公司
我是此专利的发明人

上一篇：一种商用混凝土零排放处理系统的制作方法
上一篇：一种玻璃生产用淬火装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。