用于文本处理模型的训练方法、装置、电子设备、介质与流程

文档序号：35870447发布日期：2023-10-28 03:38阅读：59来源：国知局

本公开涉及人工智能，尤其涉及自然语言处理，具体涉及一种用于文本处理模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术：

1、人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术：人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

2、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

1、本公开提供了一种用于文本处理模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

2、根据本公开的一方面，提供了一种用于文本处理模型的训练方法，包括：获得原始样本集合，所述原始样本集合包括多个样本文本；基于所述原始样本集合获得第一样本集合和第二样本集合，所述第一样本集合和第二样本集合中的样本分别一一对应；基于所述第一样本集合和所述第二样本集合获得两个或更多个样本对，其中所述两个或更多个样本对包括至少一个正样本对，每个正样本对包括所述第一样本集合和所述第二样本集合中的关联的两个样本；基于所述两个或更多个样本对和文本处理模型，获得所述两个或更多个样本对的每个文本距离，其中，每个文本距离表示样本对中的两个样本之间的特征距离；以及基于至少一个策略调整所述文本处理模型的参数，所述至少一个策略包括用于减少所述至少一个正样本对的相应的文本距离的第一策略。

3、根据本公开的另一方面，提供了一种用于文本处理模型的训练装置，包括：第一样本获得单元，用于获得原始样本集合，所述原始样本集合包括多个样本文本；第二样本获得单元，用于基于所述原始样本集合获得第一样本集合和第二样本集合，所述第一样本集合和第二样本集合中的样本分别一一对应；第三样本获得单元，用于基于所述第一样本集合和所述第二样本集合获得两个或更多个样本对，其中所述两个或更多个样本对包括至少一个正样本对，每个正样本对包括所述第一样本集合和所述第二样本集合中的关联的两个样本；距离获得单元，用于基于所述两个或更多个样本对和文本处理模型，获得所述两个或更多个样本对的每个文本距离，其中，每个文本距离表示样本对中的两个样本之间的特征距离；以及调整单元，用于基于至少一个策略调整所述文本处理模型的参数，所述至少一个策略包括用于减少所述至少一个正样本对的相应的文本距离的第一策略。

4、根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据本公开的一个或多个实施例的用于文本处理模型的训练方法。

5、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开的一个或多个实施例的用于文本处理模型的训练方法。

6、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现根据本公开的一个或多个实施例的用于文本处理模型的训练方法。

7、根据本公开的一个或多个实施例，可以更有效地获得语义表示。

8、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种用于文本处理模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，基于原始样本集合获得第一样本集合和第二样本集合包括：

3.根据权利要求2所述的方法，其中，所述第一样本集合和所述第二样本集合中的关联的两个样本包括对所述原始样本集合中的同一原始样本分别增强获得的两个样本。

4.根据权利要求2或3所述的方法，其中，所述多个样本文本中的每个样本文本包括一个或多个分词，并且其中，所述第一样本增强操作和所述第二样本增强操作中的每个增强操作选自包括以下各个操作的组：

5.根据权利要求1-4中任一项所述的方法，其中，所述多个样本文本中的每个样本文本是句子，并且其中，每个文本距离表示样本对中的两个样本之间的句子级别的特征距离。

6.根据权利要求1-5中任一项所述的方法，其中，所述两个或更多个样本对包括至少一个负样本对，并且其中，每个负样本对包括所述第一样本集合和所述第二样本集合中的不关联的两个样本。

7.根据权利要求1-6中任一项所述的方法，其中，所述至少一个策略还包括用于降低掩码语言模型损失函数的第二策略。

8.一种用于文本处理模型的训练装置，包括：

9.根据权利要求8所述的装置，其中，所述第二样本获得单元包括：

10.根据权利要求9所述的装置，其中，所述第一样本集合和所述第二样本集合中的关联的两个样本包括对所述原始样本集合中的同一原始样本分别增强获得的两个样本。

11.根据权利要求9或10所述的装置，其中，所述多个样本文本中的每个样本文本包括一个或多个分词，并且其中，所述第一样本增强操作和所述第二样本增强操作中的每个增强操作选自包括以下各个操作的组：

12.根据权利要求8-11中任一项所述的装置，其中，所述多个样本文本中的每个样本文本是句子，并且其中，每个文本距离表示样本对中的两个样本之间的句子级别的特征距离。

13.根据权利要求8-12中任一项所述的装置，其中，所述两个或更多个样本对包括至少一个负样本对，并且其中，每个负样本对包括所述第一样本集合和所述第二样本集合中的不关联的两个样本。

14.根据权利要求8-13中任一项所述的装置，其中，所述至少一个策略还包括用于降低掩码语言模型损失函数的第二策略。

15.一种电子设备，包括：

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-7中任一项所述的方法。

技术总结
本公开提供了一种用于文本处理模型的训练方法、装置、电子设备和介质，涉及人工智能领域，尤其涉及自然语言处理领域。方法可以包括：获得原始样本集合，原始样本集合包括多个样本文本；基于原始样本集合获得第一样本集合和第二样本集合，第一样本集合和第二样本集合中的样本分别一一对应；基于第一样本集合和第二样本集合获得两个或更多个样本对，包括至少一个正样本对，每个正样本对包括第一和第二样本集合中关联的样本；基于两个或更多个样本对和文本处理模型，获得两个或更多个样本对的每个文本距离；以及基于至少一个策略调整文本处理模型的参数，至少一个策略包括用于减少至少一个正样本对的相应的文本距离的第一策略。

技术研发人员：念天磊
受保护的技术使用者：北京度商软件技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：念天磊
技术所有人：北京度商软件技术有限公司
我是此专利的发明人

上一篇：应变值测量方法、OFDR应变测量方法
上一篇：一种煤气管道停送气方法、装置、介质及电子设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。