本申请涉及数据处理,特别涉及一种数据处理方法和装置。
背景技术:
1、随着信息技术的发展,目前一些电子设备能够利用数据处理模型分析用户输入的问题,并结合预先建立的知识库所含数据输出对问题的答复。
2、相关技术中,在利用数据处理模型输出答复时,可以先根据问题在知识库中搜索和该问题相关的数据,将问题和问题相关的数据一并输入数据处理模型,从而获得问题的答复。
3、这种方案的问题在于,知识库不同数据和问题的相关程度不同,将问题相关的数据一并输入数据处理模型,会导致模型输出的答复准确度较低。
技术实现思路
1、为此,本申请公开如下技术方案:
2、本申请第一方面提供一种数据处理方法,包括:
3、获得问题数据;
4、根据所述问题数据在知识库中检索得到与所述问题数据匹配的多个目标备选数据,所述知识库包括对参考文件进行处理得到的多个备选数据;
5、利用评分模型的目标输出模块确定各个所述目标备选数据的评分,所述评分模型具有多个用于输出评分的输出模块,所述目标输出模块为多个所述输出模块中根据所述问题数据的类型确定的一个;
6、处理对应的评分满足筛选条件的所述目标备选数据,得到所述问题数据对应的答复数据。
7、可选的,根据所述问题数据的类型确定所述目标输出模块,包括:
8、获得与所述问题数据的类型对应的评测数据集,所述评测数据集包括样本问题数据和所述样本问题数据对应的参考答复数据;
9、根据所述评测数据集确定多个所述输出模块的准确度;
10、根据多个所述输出模块的准确度在多个所述输出模块中确定目标输出模块。
11、可选的,所述知识库的备选数据由词嵌入模型对所述参考文件进行处理得到;
12、所述词嵌入模型的训练过程包括:
13、获得第一数据集,所述第一数据集包括第一语种的第一语料数据和从所述第一语料数据翻译得到的第二语种的第二语料数据;
14、根据所述第一数据集获得包含随机噪声的词嵌入模型输入数据;
15、根据所述词嵌入模型输入数据对所述词嵌入模型进行训练。
16、可选的,所述处理对应的评分满足筛选条件的所述目标备选数据,得到所述问题数据对应的答复数据,包括:
17、利用大语言模型处理对应的评分满足筛选条件的所述目标备选数据,得到所述问题数据对应的答复数据;
18、所述大语言模型的训练过程包括:
19、获得第二数据集;
20、根据所述第二数据集对所述大语言模型进行权重分解低秩自适应训练;
21、调整所述第二数据集中不同类别的数据的比例,得到调整后第二数据集;
22、根据所述调整后第二数据集对所述大语言模型进行低秩自适应训练。
23、可选的,所述评分模型包括第二基座模型和评分适配器,所述第二基座模型和所述评分适配器均具有多个输出模块;
24、训练所述评分模型的过程包括:
25、根据第三数据集对所述第二基座模型的输出模块和所述评分适配器的输出模块进行训练,得到训练后的输出模块;
26、对包含所述训练后的输出模块所述第二基座模型和包含所述训练后的输出模块所述评分适配器进行训练,得到所述评分模型。
27、可选的,所述知识库的备选数据由词嵌入模型对所述参考文件进行处理得到;
28、所述处理对应的评分满足筛选条件的所述目标备选数据,得到所述问题数据对应的答复数据,包括:
29、利用大语言模型处理对应的评分满足筛选条件的所述目标备选数据,得到所述问题数据对应的答复数据;
30、所述词嵌入模型包括词嵌入适配器,所述评分模型包括评分适配器,所述大语言模型包括第一基座模型和大语言适配器;
31、所述大语言适配器用于调整所述第一基座模型,以得到所述大语言模型;
32、所述词嵌入适配器用于调整所述第一基座模型,以得到所述词嵌入模型的输出;
33、所述评分适配器用于调整所述第一基座模型,以得到所述评分模型。
34、可选的,还包括:
35、获得历史数据,所述历史数据包括在历史问题数据和历史答复数据利用评分模型的目标输出模块确定各个所述历史数据的评分;
36、所述处理对应的评分满足筛选条件的所述目标备选数据,得到所述问题数据对应的答复数据,包括:
37、处理对应的评分满足筛选条件的所述目标备选数据和所述历史数据,得到所述问题数据对应的答复数据。
38、可选的,所述利用评分模型的目标输出模块确定各个所述目标备选数据的评分,包括:
39、在所述目标备选数据的数据量大于数据量阈值的情况下,对所述目标备选数据进行压缩处理,得到压缩后目标备选数据;
40、利用评分模型的目标输出模块确定各个所述压缩后目标备选数据的评分;
41、所述处理对应的评分满足筛选条件的所述目标备选数据,得到所述问题数据对应的答复数据,包括:
42、处理对应的评分满足筛选条件的所述压缩后目标备选数据,得到所述问题数据对应的答复数据。
43、可选的,所述处理对应的评分满足筛选条件的所述目标备选数据,得到所述问题数据对应的答复数据,包括:
44、将提示模板和对应的评分满足筛选条件的所述目标备选数据输入大语言模型,使所述大语言模型根据所述提示模板处理所述目标备选数据,得到所述问题数据对应的答复数据,所述提示模板用于指示所述大语言模型的处理方式。
45、本申请第二方面提供一种数据处理装置,包括:
46、获得单元,用于获得问题数据;
47、检索单元,用于根据所述问题数据在知识库中检索得到与所述问题数据匹配的多个目标备选数据,所述知识库包括对参考文件进行处理得到的多个备选数据;
48、确定单元,用于利用评分模型的目标输出模块确定各个所述目标备选数据的评分,所述评分模型具有多个用于输出评分的输出模块,所述目标输出模块为多个所述输出模块中根据所述问题数据的类型确定的一个;
49、处理单元,用于处理对应的评分满足筛选条件的所述目标备选数据,得到所述问题数据对应的答复数据。
1.一种数据处理方法,包括:
2.根据权利要求1所述的方法,根据所述问题数据的类型确定所述目标输出模块,包括:
3.根据权利要求1所述的方法,所述知识库的备选数据由词嵌入模型对所述参考文件进行处理得到;
4.根据权利要求1所述的方法,所述处理对应的评分满足筛选条件的所述目标备选数据,得到所述问题数据对应的答复数据,包括:
5.根据权利要求1所述的方法,所述评分模型包括第二基座模型和评分适配器,所述第二基座模型和所述评分适配器均具有多个输出模块;
6.根据权利要求1所述的方法,所述知识库的备选数据由词嵌入模型对所述参考文件进行处理得到;
7.根据权利要求1所述的方法,还包括:
8.根据权利要求1所述的方法,所述利用评分模型的目标输出模块确定各个所述目标备选数据的评分,包括:
9.根据权利要求1所述的方法,所述处理对应的评分满足筛选条件的所述目标备选数据,得到所述问题数据对应的答复数据,包括:
10.一种数据处理装置,包括: