本技术涉及数据处理领域,特别是涉及一种数据处理方法和相关装置。
背景技术:
1、目前在很多线上客服、问答场景下都应用了智能客服为用户提供服务,来作为人工服务的一种替代。
2、相关技术中,一般采用小模型来承载智能客服,小模型主要依靠语料库来为用户提供服务。语料库中包括有大量的问题答案对,可称为常见问题解答(frequently-askedquestions,faq)作为小模型的训练样本,其中faq中的问题作为训练样本的模型输入,答案作为训练样本的样本标签。通过语料库中的训练样本对小模型进行训练,使得小模型学习到语料库的知识,能够在语料库提供的知识内来和用户进行交互。
3、由此可见,语料库的丰富和准确程度,直接会影响到小模型作为智能客服所能提供的服务质量,目前主要通过人工的方式来维护语料库,导致语料库的更新效率和语料质量都难以满足智能客服的服务需求。
技术实现思路
1、为了解决上述技术问题,本技术提供了一种数据处理方法和相关装置,通过大模型能有效提升语料库的构建效率和更新效率,降低了人工维护带来的高成本和质量波动影响。
2、本技术实施例公开了如下技术方案:
3、一方面,本技术实施例提供了一种数据处理方法,所述方法包括:
4、获取与目标问答任务相关的原始数据;
5、根据所述原始数据,通过大模型确定对应的初始语料,所述初始语料包括标准问和所述标准问对应的答案;
6、根据所述标准问,通过所述大模型确定对应的相似问,所述相似问与对应的所述标准问间的文本相似度符合相似条件;
7、基于所述初始语料和所对应相似问生成语料库,所述语料库中的目标语料包括标准问、所述标准问对应的答案和相似问,所述目标语料用于作为训练样本,对所述目标问答任务对应的小模型进行训练,其中,所述训练样本的模型输入包括所述标准问或所述相似问,所述训练样本的样本标签包括所述标准问对应的答案,所述小模型用于在所使用训练样本的知识内提供问答交互服务,所述大模型提供的模型服务不局限于所使用训练样本的知识内;
8、通过所述语料库生成的训练样本训练所述小模型,完成训练的所述小模型用于对通过所述目标问答任务获取的用户问题,生成对应的回复答案。
9、一方面,本技术实施例提供了一种数据处理装置,所述装置包括获取单元、确定单元、生成单元和训练单元:
10、所述获取单元,用于获取与目标问答任务相关的原始数据;
11、所述确定单元,用于根据所述原始数据,通过大模型确定对应的初始语料,所述初始语料包括标准问和所述标准问对应的答案;
12、所述确定单元还用于根据所述标准问,通过所述大模型确定对应的相似问,所述相似问与对应的所述标准问间的文本相似度符合相似条件;
13、所述生成单元,用于基于所述初始语料和所对应相似问生成语料库,所述语料库中的目标语料包括标准问、所述标准问对应的答案和相似问,所述目标语料用于作为训练样本,对所述目标问答任务对应的小模型进行训练,其中,所述训练样本的模型输入包括所述标准问或所述相似问,所述训练样本的样本标签包括所述标准问对应的答案,所述小模型用于在所使用训练样本的知识内提供问答交互服务,所述大模型提供的模型服务不局限于所使用训练样本的知识内;
14、所述训练单元,用于通过所述语料库生成的训练样本训练所述小模型,完成训练的所述小模型用于对通过所述目标问答任务获取的用户问题,生成对应的回复答案。
15、在一种可能的实现方式中,所述确定单元还用于:
16、对所述原始数据进行数据过滤,从所述原始数据中过滤掉与问答知识无关的无效文本,得到第一文本数据;
17、对所述第一文本数据进行关键词识别,从所述第一文本数据中过滤掉包括所述关键词的对象信息,得到第二文本数据;
18、通过大模型确定所述第二文本数据对应的初始语料。
19、在一种可能的实现方式中,所述原始数据包括与所述目标问答任务相关领域的历史问答文本数据和领域知识文本数据中的至少一种。
20、在一种可能的实现方式中,所述文本相似度包括语义相似度或表征相似度中的至少一种;
21、当所述文本相似度包括所述语义相似度时,对应的相似条件为所述语义相似度大于第一相似度阈值;
22、当所述文本相似度包括所述表征相似度时,对应的相似条件为所述表征相似度小于第二相似度阈值。
23、在一种可能的实现方式中,所述确定单元还用于:
24、将所述语料库中任意两个标准问作为标准问对,确定所述两个标准问的语义相似度;
25、响应于所述两个标准问的语义相似度大于调整阈值,对所述两个标准问涉及的两个目标语料进行调整,将所述两个目标语料调整为一个目标语料。
26、在一种可能的实现方式中,所述确定单元还用于:
27、根据更新的所述原始数据,通过所述大模型确定对应的待定初始语料;
28、响应于所述待定初始语料中的待定标准问,与所述语料库中的目标标准问间的语义相似度大于调整阈值,根据所述待定初始语料更新所述目标标准问涉及的目标语料;
29、响应于所述待定初始语料中的待定标准问,与所述语料库中任意标准问间的语义相似度小于或等于所述调整阈值,确定所述待定标准问符合加入所述语料库的条件,将所述待定初始语料作为所述初始语料,执行所述根据所述标准问,通过所述大模型确定对应的相似问的操作。
30、在一种可能的实现方式中,所述确定单元还用于:
31、从所述语料库中任意选取第一目标语料和第二目标语料;
32、确定所述第一目标语料中相似问与所述第二目标语料中相似问间的文本相似度;
33、响应于相似问间的文本相似度满足相似问混淆条件,确定所述第一目标语料和第二目标语料具备混淆问题,将所述第一目标语料和所述第二目标语料移出所述语料库。
34、在一种可能的实现方式中,所述确定单元还用于:
35、基于所述目标语料应用于问答交互场景中的可解决性,将所述语料库中的所述目标语料分为可解决语料集合和不可解决语料集合,所述可解决语料集合包括第一标准问,所述不可解决语料集合包括第二标准问;
36、确定所述可解决语料集合和所述不可解决语料集合的标准问间的文本相似度;
37、响应于所述第一标准问和所述第二标准问间的文本相似度满足标准问混淆条件,确定所述第一标准问涉及的目标语料具备混淆问题,将所述第一标准问涉及的目标语料移出所述语料库。
38、在一种可能的实现方式中,所述确定单元还用于:
39、确定所述语料库中目标语料包括的相似问数量;
40、响应于所述目标语料中的第一目标语料包括的相似问数量比训练要求少了目标数量,根据所述第一目标语料的标准问,通过所述大模型确定所述目标数量的相似问。
41、在一种可能的实现方式中,所述装置还包括显示单元,所述显示单元用于:
42、根据所述目标语料中的相似问的文本相似度,确定所述目标语料中的相似问的质量参数;
43、在目标语料管理界面显示所述目标语料和所述质量参数。
44、另一方面,本技术实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
45、所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
46、所述处理器用于根据所述计算机程序执行以上方面所述的方法。
47、另一方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序在被计算机设备执行以上方面所述的方法。
48、另一方面,本技术实施例提供了一种包括计算机程序的计算机程序产品,当其在计算机设备上运行时,使得所述计算机设备执行以上方面所述的方法。
49、由上述技术方案可以看出,在为目标问答任务提供问答交互服务时,需要构建语料库来训练对应的小模型,基于与目标问答任务相关的原始数据,通过大模型确定标准问、与标准问文本相似度符合相似条件的相似问,以及标准问的答案。由于相对于小模型来说,大模型提供的模型服务不局限于所使用训练样本的知识内,具有高效的语义理解和归纳能力,能够准确从原始数据中提炼出标准问和答案,并基于本文相似度创造出符合语言表达习惯的相似问。基于标准问、相似问和答案构成的目标语料生成语料库,并以此训练小模型,由于小模型只能局限在所使用训练样本的知识内提供问答交互服务,而通过大模型提炼、创造,可得到具备准确性和全面性的高质量目标语料,降低了人工维护带来的高成本和质量波动影响,使得小模型可对通过所述目标问答任务获取的用户问题,生成高质量的回复答案,而且通过大模型能有效提升语料库的构建效率和更新效率。