一种大型语言模型的训练数据集筛选方法、装置、电子设备、存储介质与流程

文档序号：38202022发布日期：2024-06-03 13:54阅读：20来源：国知局

本说明书的一个或多个实施例涉及语言模型，具体涉及一种大型语言模型的训练数据集筛选方法、装置、电子设备、存储介质。

背景技术：

1、大型语言模型(large language models，llm)是指：将大量文本数据作为训练数据集进行训练、学习语言使用的模式进行工作的深度学习模型。大型语言模型可以生成自然语言文本或理解语言文本的含义，从而处理多种自然语言任务，如文本分类、问答、对话等。通过不同类型的文本数据训练得到的大型语言模型在不同场景下的效果是有区别的，例如：使用金融任务数据训练得到的大型语言模型对于金融场景文本的理解和生成能力较强，对于体育场景文本的理解和生成能力较弱。因此，大型语言模型的训练数据集的筛选是影响大型语言模型使用效果的重要因素。

2、相关技术中，通过搜索各个场景对应的关键词来实现训练数据集的筛选，例如：在金融场景下，将包含“金融”、“经济”、“股票”等关键词的数据作为训练数据。然而，该方法中的关键词是人工确定，效率低且无法保证准确率，此外还容易遗漏很多不包含关键词的金融场景的数据。

技术实现思路

1、本说明书实施例提供了一种大型语言模型的训练数据集筛选方法、装置、电子设备、存储介质，其技术方案如下：

2、第一方面，本说明书实施例提供了一种大型语言模型的训练数据集筛选方法，包括：

3、确定待训练模型的目标应用场景，并获取待筛选数据集和所述目标应用场景对应的样本数据；

4、将所述样本数据和所述待筛选数据集输入至所述待训练模型，并分别计算所述待筛选数据集中各份待筛选数据对所述待训练模型在所述目标应用场景上的影响程度；其中，所述影响程度用于表征所述各份待筛选数据与所述样本数据的相似程度；

5、根据所述各份待筛选数据对应的影响程度从所述待筛选数据集中筛选出目标数据集。

6、第二方面，本说明书实施例提供了一种大型语言模型的训练数据集筛选装置，包括：

7、获取单元，用于确定待训练模型的目标应用场景，并获取待筛选数据集和所述目标应用场景对应的样本数据；

8、计算单元，用于将所述样本数据和所述待筛选数据集输入至所述待训练模型，并分别计算所述待筛选数据集中各份待筛选数据对所述待训练模型在所述目标应用场景上的影响程度；其中，所述影响程度用于表征所述各份待筛选数据与所述样本数据的相似程度；

9、筛选单元，用于根据所述各份待筛选数据对应的影响程度从所述待筛选数据集中筛选出目标数据集。

10、第三方面，本说明书实施例提供了一种电子设备，包括处理器以及存储器；所述处理器与所述存储器相连；所述存储器，用于存储可执行程序代码；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行上述实施例第一方面所述的大型语言模型的训练数据集筛选方法的步骤。

11、第四方面，本说明书实施例提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述实施例第一方面所述的大型语言模型的训练数据集筛选方法的步骤。

12、本说明书一些实施例提供的技术方案带来的有益效果至少包括：

13、为应用于目标应用场景的待训练模型进行训练数据集的筛选，通过将待筛选数据集和目标应用场景下的样本数据输入至待训练模型，并分别计算待筛选数据集中各份待筛选数据对待训练模型在目标应用场景上的影响程度，由于该影响程度可以用于表征各份待筛选数据与样本数据的相似程度，因此基于该影响程度从待筛选数据集中筛选出的目标数据集与样本数据更加相似。相对于通用数据集，根据该目标数据集对待训练模型进行训练，不仅训练效率更高、而且训练出的模型对于目标应用场景的数据的处理结果更加准确。

技术特征：

1.一种大型语言模型的训练数据集筛选方法，包括：

2.根据权利要求1所述的一种大型语言模型的训练数据集筛选方法，所述分别计算所述待筛选数据集中各份待筛选数据对所述待训练模型在所述目标应用场景上的影响程度，包括：

3.根据权利要求2所述的一种大型语言模型的训练数据集筛选方法，所述影响程度为相应的待筛选数据对所述样本数据在迭代过程中的损失的影响程度；所述分别计算所述待筛选数据集中各份待筛选数据对所述待训练模型在所述目标应用场景上的影响程度，包括：

4.根据权利要求1所述的一种大型语言模型的训练数据集筛选方法，所述目标应用场景为金融场景，所述样本数据为金融数据。

5.根据权利要求1所述的一种大型语言模型的训练数据集筛选方法，还包括步骤：

6.根据权利要求5所述的一种大型语言模型的训练数据集筛选方法，还包括步骤：

7.根据权利要求5所述的一种大型语言模型的训练数据集筛选方法，还包括步骤：

8.一种大型语言模型的训练数据集筛选装置，包括：

9.根据权利要求8所述的一种大型语言模型的训练数据集筛选装置，所述计算单元，包括：

10.根据权利要求9所述的一种大型语言模型的训练数据集筛选装置，所述影响程度为相应的待筛选数据对所述样本数据在迭代过程中的损失的影响程度；所述计算单元，包括：

11.根据权利要求8所述的一种大型语言模型的训练数据集筛选装置，所述目标应用场景为金融场景，所述样本数据为金融任务数据。

12.根据权利要求8所述的一种大型语言模型的训练数据集筛选装置，还包括：

13.根据权利要求12所述的一种大型语言模型的训练数据集筛选装置，还包括：

14.根据权利要求12所述的一种大型语言模型的训练数据集筛选装置，还包括：

15.一种电子设备，包括处理器以及存储器；

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～7任一项所述的方法。

技术总结
本说明书实施例公开了一种大型语言模型的训练数据集筛选方法、装置、电子设备、存储介质。所述方法包括：确定待训练模型的目标应用场景，并获取待筛选数据集和所述目标应用场景对应的样本数据；将所述样本数据和所述待筛选数据集输入至所述待训练模型，并分别计算所述待筛选数据集中各份待筛选数据对所述待训练模型在所述目标应用场景上的影响程度；其中，所述影响程度用于表征所述各份待筛选数据与所述样本数据的相似程度；根据所述各份待筛选数据对应的影响程度从所述待筛选数据集中筛选出目标数据集。

技术研发人员：周玮康,邓佳佶,于飞
受保护的技术使用者：蚂蚁财富（上海）金融信息服务有限公司
技术研发日：
技术公布日：2024/6/2

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周玮康,邓佳佶,于飞
技术所有人：蚂蚁财富（上海）金融信息服务有限公司
我是此专利的发明人

上一篇：一种视频编码方法、装置、视频解码方法、装置及设备与流程
上一篇：一种三相异步电动机改造优化方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。