测试集数据处理方法、服务器及存储介质与流程

文档序号:37311591发布日期:2024-03-13 21:01阅读:11来源:国知局
测试集数据处理方法、服务器及存储介质与流程

本申请涉及车载语音,具体涉及一种测试集数据处理方法、服务器以及计算机可读存储介质。


背景技术:

1、在目前的相关技术中,根据语音请求的历史记录来生成针对车机的测试集时,一般不会区分车辆,而是直接统计服务器上记录的全部语音请求文本,并按照频次输出为上述测试集。但由于语音请求的历史记录中存在大量的句式相同甚至完全相同的语音请求,在测试时存在大量的重复情况,而且不利于高频句式的统计。


技术实现思路

1、本申请提供了一种测试集数据处理方法、服务器以及计算机可读存储介质。

2、本申请实施方式涉及的测试集数据处理方法,包括如下步骤:

3、根据历史语音请求,确定归一化语音请求,其中所述归一化语音请求对应了多个语句结构相同的所述历史语音请求;

4、根据所述归一化语音请求以及出现频次满足预设条件的所述历史语音请求,确定包含于所述测试集的测试用语音请求。

5、如此,本申请能够根据大量的语音请求的历史记录进行归一化,将句子结构相同的历史语音请求通过归一化的方式保存为一个框架性的归一化语音请求,并根据历史语音请求的出现频次以及归一化语音请求还原出形成测试集、用于车辆功能测试的测试用语音请求,从而避免大量的重复数据、同时通过归一化对高频句式进行统计,便于对历史语音请求的进行语料特征的统计。

6、在某些实施方式中,所述根据历史语音请求,确定归一化语音请求,包括:

7、根据所述历史语音请求以及预设的大语言模型,确定所述历史语音请求中的槽位值以及第一槽位名,其中所述第一槽位名用于替换对应的所述槽位值;

8、根据所述第一槽位名以及所述历史语音请求,确定与所述历史语音请求对应的所述归一化语音请求。

9、如此,本申请能够通过预设的大语言模型识别出每条历史语音请求中的槽位部分,同时根据槽位值与槽位名的对应关系将历史语音请求转化为框架性的归一化语音请求。

10、在某些实施方式中,所述根据所述历史语音请求以及预设的大语言模型,确定每条所述历史语音请求中的槽位值以及第一槽位名,包括:

11、根据所述历史语音请求以及预设的大语言模型,确定每条所述历史语音请求中的槽位值以及与所述槽位值对应的候选槽位名;

12、根据不同所述候选槽位名下的所述槽位值的个数,确定所述第一槽位名。

13、如此,本申请能够大量历史语音请求中同一个槽位名下槽位值的个数,从各个槽位名中筛选出有价值用于替换槽位值以实现归一化的槽位名。

14、在某些实施方式中,所述根据所述历史语音请求以及预设的大语言模型,确定每条所述历史语音请求中的槽位值以及第一槽位名,还包括:

15、根据不同所述候选槽位名下的所述槽位值的个数与种类数,确定所述第一槽位名。

16、如此,本申请能够大量历史语音请求中同一个槽位名下槽位值的个数以及种类数,从各个槽位名中筛选出有价值用于替换槽位值以实现归一化的槽位名。

17、在某些实施方式中,所述根据所述槽位名以及所述历史语音请求,确定与所述历史语音请求对应的所述归一化语音请求,包括:

18、在所述槽位值对应的槽位名为所述第一槽位名的情况下,将所述历史语音请求中的所述槽位值替换为所述槽位名,确定与所述历史语音请求对应的所述归一化语音请求。

19、如此,本申请能够通过利用槽位名替换槽位值的方式,将拥有相同语句结构的大量历史语音请求归一化,保存为同一个具有框架性的归一化语音请求,大幅降低测试集的数据量。

20、在某些实施方式中,所述根据所述槽位名以及所述历史语音请求,确定与所述历史语音请求对应的所述归一化语音请求,还包括:

21、在所述槽位值对应的槽位名不为所述第一槽位名的情况下,将所述历史语音请求确定为对应的所述归一化语音请求。

22、如此,本申请还能够在确定某历史语音请求不具有实现归一化的价值时,将历史语音请求直接归为对应的归一化语音请求,以在测试集中单独针对该历史语音请求增加一个测试条目。

23、在某些实施方式中,所述根据所述历史语音请求以及预设的大语言模型,确定所述历史语音请求中的槽位值以及第一槽位名,还包括:

24、获取语音请求日志中与所述历史语音请求对应的条目中的首个非空槽位字段,其中所述语音请求日志记录有多条所述历史语音请求,其中所述语音请求日志由所述预设的大语言模型根据所述历史语音请求确定;

25、根据所述非空槽位字段,确定所述历史语音请求中待替换的槽位值。

26、如此,本申请能够从语音请求日志中针对各个历史语音请求的数据记录,确定历史语音请求的语句中待替换的槽位值。

27、在某些实施方式中,所述根据所述归一化语音请求以及出现频次满足预设条件的所述历史语音请求,确定包含于所述测试集的测试用语音请求,包括:

28、在与所述归一化语音请求对应的所述历史语音请求中,确定第一历史语音请求确定为所述测试用语音请求,其中所述第一历史语音请求的独立访客数量在与所述归一化语音请求对应的所述历史语音请求中符合预设条件。

29、如此,本申请能够根据每条历史语音请求的独立访客数量(uv,unique visitors)进行聚合,将框架性的归一化语音请求还原为与归一化语音请求对应的、独立访客数量满足要求的历史语音请求,并将其作为测试集的其中一个测试条目。

30、本申请实施方式中的服务器,包括存储器与处理器,所述存储器存储有计算机程序,在所述计算机程序被所述处理器执行的情况下,实现上述的方法。

31、本申请实施方式中的计算机可读存储介质存储有计算机程序,在所述计算机程序被一个或多个处理器执行的情况下,实现上述的方法。

32、本申请的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实施方式的实践了解到。



技术特征:

1.一种测试集数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据历史语音请求,确定归一化语音请求,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述历史语音请求以及预设的大语言模型,确定每条所述历史语音请求中的槽位值以及第一槽位名,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述历史语音请求以及预设的大语言模型,确定每条所述历史语音请求中的槽位值以及第一槽位名,还包括:

5.根据权利要求2或3所述的方法,其特征在于,所述根据所述槽位名以及所述历史语音请求,确定与所述历史语音请求对应的所述归一化语音请求,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述槽位名以及所述历史语音请求,确定与所述历史语音请求对应的所述归一化语音请求,还包括:

7.根据权利要求5所述的方法,其特征在于,所述根据所述历史语音请求以及预设的大语言模型,确定所述历史语音请求中的槽位值以及第一槽位名,还包括:

8.根据权利要求2所述的方法,其特征在于,所述根据所述归一化语音请求以及出现频次满足预设条件的所述历史语音请求,确定包含于所述测试集的测试用语音请求,包括:

9.一种服务器,其特征在于,所述服务器包括存储器与处理器,所述存储器存储有计算机程序,在所述计算机程序被所述处理器执行的情况下,实现权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,在所述计算机程序被一个或多个处理器执行的情况下,实现权利要求1-8任一项所述的方法。


技术总结
本申请公开了一种测试集数据处理方法、服务器及存储介质,包括:根据历史语音请求,确定归一化语音请求,其中归一化语音请求对应了多个语句结构相同的历史语音请求;根据归一化语音请求以及出现频次满足预设条件的历史语音请求,确定包含于测试集的测试用语音请求。本申请能够根据大量的语音请求的历史记录进行归一化,将句子结构相同的历史语音请求通过归一化的方式保存为一个框架性的归一化语音请求,并根据历史语音请求的出现频次以及归一化语音请求还原出形成测试集、用于车辆功能测试的测试用语音请求,从而避免大量的重复数据、同时通过归一化对高频句式进行统计,便于对历史语音请求的进行语料特征的统计。

技术研发人员:孙亮,曹川
受保护的技术使用者:肇庆小鹏新能源投资有限公司
技术研发日:
技术公布日:2024/3/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1