本申请涉及数据处理,尤其涉及一种数据标注方法、装置、终端设备以及存储介质。
背景技术:
1、随着大数据时代的到来,人们越来越意识到数据在自然语言处理领域中的重要性。高质量且数量众多的数据对于大模型训练和应用起到了至关重要的作用。在传统的标注模式下,通常需要花费大量的人力来保证标注质量和数量,这将导致标注成本异常高昂、标注效率极其低下。
2、例如,基于规则的数据标注方法需要投入大量的时间和人力来制定和更新标注方案,难以应对复杂的语义关系;基于统计学习的数据标注方法需要处理特征提取、大模型调参等问题,且对不同领域、不同场景的适应能力较差;基于深度学习的数据标注方法需要耗费大量的标注数据和计算资源,且大模型的训练与调试过程需要专业知识和技能;混合方法虽然能够结合不同方法的优势,但设计和调整不同方法的参数也需要投入大量的时间和人力,且难以实现统一的优化和调试。
3、因此,有必要提出一种提升标注效率、降低标注成本的数据标注方案。
技术实现思路
1、本申请的主要目的在于提供一种数据标注方法、装置、终端设备以及存储介质,旨在解决数据标注效率低、标注成本高的技术问题。
2、为实现上述目的,本申请提供一种数据标注方法,所述数据标注方法包括:
3、在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;
4、在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;
5、通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。
6、可选地,所述通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果的步骤包括:
7、通过所述语言大模型,确定与所述标注模板中的内容存在包含关系和/或关联关系的提示词;
8、根据所述提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果。
9、可选地,所述根据所述提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果的步骤包括:
10、发送所述提示词给所述用户,以供所述用户对所述提示词进行修正,得到修正后的提示词;
11、根据所述修正后的提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果。
12、可选地,所述在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据的步骤包括:
13、在接收所述用户的第一对话信息时,解析所述第一对话信息中的内容;
14、在所述第一对话信息中的内容为标注请求时,向所述用户询问标注字段和标注范围问题;
15、在接收所述用户的第二对话信息时,解析所述第二对话信息中的内容,若所述第二对话信息中的内容为标注字段和标注范围答案,则根据所述标注字段和标注范围答案,生成所述标注模板;
16、向所述用户询问所述初始待标注数据,以通过预设文件服务器,获得所述初始待标注数据。
17、可选地,所述目标待标注数据的标注过程包括:
18、获取标注进度;所述标注进度包括已标注数据的数量、准确性、错误比例;
19、将所述标注进度发送给所述用户。
20、可选地,所述通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果的步骤之后,还包括:
21、确定所述标注结果的标注状态;所述标注状态包括已确认、未标注、标注失败;
22、采用不同的标签对所述标注状态进行标识,得到标识后的标注结果。
23、可选地,所述在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据的步骤之前,还包括:
24、基于预设的可插拔模式,接入所述语言大模型。
25、本申请实施例还提出一种数据标注装置,所述数据标注装置包括:
26、解析模块,用于在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;
27、提取模块,用于在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;
28、标注模块,用于通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。
29、本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据标注程序,所述数据标注程序被所述处理器执行时实现如上所述的数据标注方法的步骤。
30、本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据标注程序,所述数据标注程序被处理器执行时实现如上所述的数据标注方法的步骤。
31、本申请实施例提出的数据标注方法、装置、终端设备以及存储介质,通过在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。基于本方案,通过生成式语言大模型的理解文本能力,并在待标注数据的长度超出阈值时,进行摘要提取,进而可以根据文本内容进行标注,无需人工制定标注方案、处理特征提取或大模型调参等,有效解决数据标注效率低、标注成本高的技术问题。
1.一种数据标注方法,其特征在于,所述数据标注方法包括以下步骤:
2.如权利要求1所述的数据标注方法,其特征在于,所述通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果的步骤包括:
3.如权利要求2所述的数据标注方法,其特征在于,所述根据所述提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果的步骤包括:
4.如权利要求1所述的数据标注方法,其特征在于,所述在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据的步骤包括:
5.如权利要求1所述的数据标注方法,其特征在于,所述目标待标注数据的标注过程包括:
6.如权利要求1所述的数据标注方法,其特征在于,所述通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果的步骤之后,还包括:
7.如权利要求1所述的数据标注方法,其特征在于,所述在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据的步骤之前,还包括:
8.一种数据标注装置,其特征在于,所述数据标注装置包括:
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据标注程序,所述数据标注程序被所述处理器执行时实现如权利要求1-7中任一项所述的数据标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据标注程序,所述数据标注程序被处理器执行时实现如权利要求1-7中任一项所述的数据标注方法的步骤。