无人值守的云端语音库采集与智能产品测试的系统与方法与流程

文档序号:14572980发布日期:2018-06-01 23:44阅读:373来源:国知局
无人值守的云端语音库采集与智能产品测试的系统与方法与流程

本公开涉及语音数据采集领域,尤其涉及一种无人值守的云端语音库采集与智能产品测试的系统与方法。



背景技术:

语音识别技术经过漫长的酝酿和积累,在近几年达到了大规模商用水平,掀起了智能家居、智能车载系统及一系列语音识别软件研发狂潮。实现人机之间智能化,人性化的有效交互,构建高效自然的人机交流环境,已经成为当前信息技术应用和发展的迫切需求。深度神经元网络是现如今语音识别的重要研究方向,它需要海量的训练集语音数据才能训练出更为精准的声学模型,提高识别的正确率。且构建大规模、高精细度、高自然度以及高准确度的语音库对语音合成系统的稳定性也有着重要影响。随着语音识别产品越来越多,测试人员也需要大量的语音数据进行测试来保证产品质量,对语音数据的处理也需要耗费测试人员大量精力。综上,高效率、高质量的采集语音数据构建语音库,批量化对语音数据的处理变得尤为重要。

首先,传统语音库的采集方式需要录音人员在特定的录音环境指导发音人完成录音语料的音库录制,这种采集方式依赖大量的人工操作,例如需要录音人员操作软件配置声卡设置进行录音,后期要进行长时间的剪辑和标注工作,如手工修改录音出错的位置,调节每段音频的音量平衡,这就导致了录音效率和质量都会大大折扣。其次,这种采集方式通常把数据存储在采集设备上,再整体上传至云端服务器,这其中就存在着很多风险,如果录制过程中出现突发状况,如突然断电或者设备突然损坏,而导致采集的数据没有保存下来。或者人为整理时出现了误删除操作,导致数据丢失等问题。最后,传统的测试方式要求测试人员将语音库的每条音频文件进行拼接作为播放音源,并对被测智能产品进行长时间录音,由于设备产品硬件问题或者内部音频处理算法问题经常会遇到录音数据与原始语音数据对不齐的问题,这对智能产品语音识别率检测、唤醒率检测或者机器学习训练模型的准确度都有很大影响。而且由于不同产品的内存不同,录音时间有限,所以播放音源文件的占用空间大小也需要针对不同产品做相应调整,这就增大了测试人员及研发人员的工作量。

公开内容

(一)要解决的技术问题

本公开提供了一种无人值守的云端语音库采集与智能产品测试的系统与方法,以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面,提供了一种无人值守的云端语音库采集与智能产品测试的系统,包括:音库数据采集与存储单元,用于完成原始音频数据的采集,并存储至云端,包括:录音装置,用于采集发音人的音频;自助采集模块,通过声卡获取录音装置采集的音频,并与语料文本进行匹配生成原始音频数据;云端服务器,与自助采集模块连接,用于将原始音频数据保存在云端;测试数据生成与使用单元,用于通过云端的原始音频数据批量化生成指定规格的测试音频信号对被测智能产品进行测试,包括:处理模块,连接到云端服务器,用于获取云端的原始音频数据,生成测试音频信号;播放装置,连接到处理模块,用于在处理模块的控制下播放测试音频信号,供被测智能产品测试。

在本公开一些实施例中,所述处理模块,还用于将采集回来的设备音频数据自动对齐标注,包括:获取被测智能产品通过采集测试音频信号生成的设备音频数据,并将原始音频数据的时间标注文件里的所有时间坐标与比值α相乘得到新的时间坐标,生成设备音频数据的时间标注文件,其中,所述比值α为设备音频数据与原始音频数据时长的比值。

在本公开一些实施例中,所述自助采集模块,还用于显示已读文本数和剩余文本数,并判断发音人是否读错;以及根据发音人操作,在录音过程中控制录音暂停和继续。

根据本公开的另一个方面,提供了一种无人值守的云端语音库采集与智能产品测试的方法,包括:

步骤S1,发音人通过录音装置及自助采集模块自助完成音库采集,音频数据实时上传到云端服务器;

步骤S2,处理模块提取云端原始音频数据,生成测试音频信号,并通过播放装置播放;

步骤S3,被测智能产品采集到播放装置播放的音频,并生成设备音频数据回传至处理模块,处理模块进行计算处理生成设备音频数据的时间标注文件,输出测试结果。

在本公开一些实施例中,所述步骤S2进一步包括:

步骤S21,配置默认测试数据时长,每段音频中间要插入的静音时长,并初始化缓存;

步骤S22,随机抽取音库里的音频,与前一音频拼接,并将静音与每段音频循环累积拼接,计算音频总长度;

步骤S23,计算并记录循环中每次音频的时长作为时间标注Tk,生成标注文本文件;

步骤S24,判断音频总长度是否大于设置长度,若大于设置长度则转至步骤S25,若未超过设置长度则判断是否有新的音频文件,如果有则转世步骤S22,如果没有则结束生成测试音频信号;

步骤S25,给总的信号首尾端插入chirp信号,chirp信号表达式为:

其中fl为扫频信号的起始频率,fh为扫频信号的终止频率;φ0表示扫频信号的相位,T为时长,A为幅度,保存测试音频,初始化缓存,并转至步骤S22。

在本公开一些实施例中,所述步骤S3进一步包括:

步骤S31,被测智能产品采集到播放装置播放的音频,并生成设备音频数据回传至处理模块,处理模块读取生成的原始音频数据与设备音频数据;

步骤S32,处理模块检测音频中chirp信号首尾端点;

步骤S33,利用时间坐标计算设备采集音频数据时长与原始测试音频数据时长比值:

其中,α即为设备采集音频与测试音频采样率之比;Tybeg为设备音频开始时间,Tyend为设备音频结束时间;Txbeg为原始测试音频开始时间,Txend为设备原始测试音频结束时间。

步骤S34,将原始时间标注文件里的所有时间坐标与α相乘得到新的时间坐标,生成设备音频数据的时间标注文件。

在本公开一些实施例中,所述步骤S33进一步包括:

子步骤S321,生成与测试音频信号相同的chirp信号,将该chirp信号进行时域倒转得到匹配滤波器h(t)=x(T-t);

子步骤S322,将设备采集音频数据y(t)和原始音频数据x(t)前几十秒数据分别与该匹配滤波器进行卷积,得到匹配滤波器的输出信号r1(t)=h(t)*y(t),r2(t)=h(t)*x(t);

子步骤S323,查找匹配滤波器的输出信号r1(t),r2(t)的信号最大值点的时间坐标即为信号起始点时间坐标,同理检测出信号尾端点时间坐标。

在本公开一些实施例中,所述步骤S1进一步包括:

步骤S11,读取语料文本文件信息,

步骤S12,并判断录音是否结束,若结束则录音完成,若未结束则转至步骤S13;

步骤S13,交替显示唤醒词与语料文本供发音人进行录音,根据文本长度自动计算每段文本录音时长;

步骤S14,每采集一段音频就计算时域平局能量与设定归一化能量值做差并求出放大倍数最终归一化音频yn=a·xn存储上传至云端服务器,其中,N为采集回音频总采样点数,xn为采集回的音频波形序列,Yrms为设定归一化后平均能量值,yn为归一化后的音频波形序列;

步骤S15,录音过程中实时显示已读和剩余文本数目;

步骤S16,判断发音人是否读错,录音出错控制重录覆盖之前数据,返回步骤S12。

在本公开一些实施例中,所述读取语料文本之前,还包括步骤:

步骤S10,采集发音人的姓名信息用于保存录音文件的命名;设置唤醒词,配置录音默认参数,包括录音采样频率与量化精度。

在本公开一些实施例中,录音过程中,发音人通过自助采集模块控制录音暂停和继续。

(三)有益效果

从上述技术方案可以看出,本公开无人值守的云端语音库采集与智能产品测试的系统与方法至少具有以下有益效果其中之一:

1)由于在采集过程中,每采集到一条新数据便自动保存,程序自动将文本分段采集,并将音频音量归一化存储,并将保存的信号通过WIFI上传至同一局域网下的指定的云端服务器。该结构的改进解决了采集过程中,采集出现意外中断导致采集数据没有保存下来的现象,达到了边录边上传的效果;

2)在采集结束后,研发人员可直接从云端服务器生成并下载加入了首尾标记信号的自定义时长语音数据,并且生成对应的时间标注文本,使用该语音数据作为播放音源对被测智能产品进行录音后,可以自动生成新的标注文件;

3)由于采用录音装置,不需要与发音人实时沟通,让发音人自己完成采集工作,从而实现了无人值守的采集方式,当发音人朗读出错时可实时控制重录,提高了采集效率与采集质量。

附图说明

图1为本公开实施例无人值守的云端语音库采集与智能产品测试的系统的结构示意图。

图2为本公开实施例无人值守的云端语音库采集与智能产品测试的方法流程图。

图3为本公开实施例自动采集程序流程图。

图4为本公开实施例测试音频信号生成流程图。

图5为本公开实施例设备音频数据的时间标注文件生成流程图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。

本公开某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本公开的各种实施例可以许多不同形式实现,而不应被解释为限于此数所阐述的实施例;相对地,提供这些实施例使得本公开满足适用的法律要求。

在本公开的第一个示例性实施例中,提供了一种无人值守的云端语音库采集与智能产品测试的系统。图1为本公开第一实施例无人值守的云端语音库采集与智能产品测试的系统的结构示意图。如图1所示,本公开无人值守的云端语音库采集与智能产品测试的系统包括:音库数据采集与存储单元、测试数据生成与使用单元。

以下分别对本实施例无人值守的云端语音库采集与智能产品测试的系统的各个组成部分进行详细描述。

所述音库数据采集与存储单元,用于完成原始音频数据的采集,并存储至云端,包括:

录音装置,用于采集发音人的音频,生成语料文本,优选地,所述录音装置采用录音话筒及电脑声卡;

自助采集模块,通过声卡获取录音装置采集的语料文本,生成原始音频数据;优选地,所述自助采集模块为自助采集PC;

云端服务器,与自助采集模块连接,用于将原始音频数据保存在云端,所述云端服务器与自助采集模块的连接采用WIFI或有线连接;

所述测试数据生成与使用单元的主要原理为批量化生成指定规格的测试音频信号对被测智能产品进行测试,采集回来的数据自动对齐标注;包括:

播放装置,与处理模块相连,用于播放测试数据;

处理模块,与所述云端服务器连接,用于获取云端的原始音频数据,生成的测试音频信号,并获取回传的设备音频数据,生成设备音频数据的时间标注文件。优选地,所述处理模块为研发人员的PC电脑;所述处理模块与云端服务器采用WIFI、蓝牙、红外或有线方式连接。

被测智能产品连接到处理模块,其采集播放装置输出的音频,并回传至处理模块;所述处理模块将原始音频数据的时间标注文件里的所有时间坐标与比值α相乘得到新的时间坐标,生成设备音频数据的时间标注文件,所述比值α为设备音频数据与原始音频数据时长的比值。

所述自助采集模块,还用于显示已读文本数和剩余文本数,并判断发音人是否读错;以及根据发音人操作,在录音过程中控制录音暂停和继续。

至此,本公开第一实施例无人值守的云端语音库采集与智能产品测试的系统介绍完毕。

在本公开的第二个示例性实施例中,提供了一种无人值守的云端语音库采集与智能产品测试的方法,图2为本公开实施例无人值守的云端语音库采集与智能产品测试的方法流程图。如图2所示,该方法包括:

步骤S1,发音人通过录音装置及自助采集模块自助完成音库采集,音频数据通过WIFI实时上传到云端服务器。

步骤S2,处理模块提取云端原始音频数据,生成测试音频信号,并通过播放装置播放。

步骤S3,被测智能产品采集到播放装置播放的音频,并生成设备音频数据回传至处理模块,通过处理模块计算原始音频数据与设备音频数据时长的比值,并生成设备音频数据的时间标注文件,输出测试结果。

图3为本公开实施例音库采集的流程图,如图3所示,所述步骤S1进一步包括:

步骤S11,读取语料文本文件信息,

步骤S12,并判断录音是否结束,若结束则录音完成,若未结束则转至步骤S13;

步骤S13,发音人观察交替显示唤醒词与语料文本进行录音,程序根据文本长度自动计算每段文本录音时长;

步骤S14,每采集一段音频就计算时域平局能量与设定归一化能量值做差并求出放大倍数最终归一化音频yn=a·xn存储上传至云端服务器,其中,N为采集回音频总采样点数,xn为采集回的音频波形序列,Yrms为设定归一化后平均能量值,yn为归一化后的音频波形序列;

步骤S15,录音过程中实时显示已读和剩余文本数目;

步骤S16,判断发音人是否读错,录音出错可控制重录覆盖之前数据,返回步骤S12,优选地,所述重录覆盖之前数据包括清除云端上一条数据,并重新读取上一条语料文本。

上述录音过程中,发音人可以控制暂停和继续。

所述读取语料文本之前,还包括步骤:

步骤S10,采集发音人的姓名信息用于保存录音文件的命名;设置唤醒词,配置录音默认参数,如录音采样频率与量化精度等。

图4为本公开实施例测试音频信号生成流程图,如图4所示,所述步骤S2进一步包括:

步骤S21,配置默认测试数据时长,每段音频中间要插入的静音时长,并初始化缓存;

步骤S22,随机抽取音库里的音频,与前一音频拼接,并将静音与每段音频循环累积拼接,计算音频总长度;

步骤S23,计算并记录循环中每次音频的时长作为时间标注Tk,生成标注文本文件;

步骤S24,判断音频总长度是否大于设置长度,若大于设置长度则转至步骤S25,若未超过设置长度则判断是否有新的音频文件,如果有则转世步骤S22,如果没有则结束生成测试音频信号;

步骤S25,给总的信号首尾端插入线性扫频信号,即chirp信号,chirp信号表达式为其中fl为扫频信号的起始频率,fh为扫频信号的终止频率,φ0表示扫频信号的相位,T为时长,本实施例中选取fl从2000Hz到fh8000Hz,时长T为500ms,幅度A为1,φ0为0,保存测试音频,初始化缓存,并转至步骤S22。

图5为本实施例被测智能产品的设备音频数据的时间标注文件生成流程图,如图5所示,所述步骤S3进一步包括:

步骤S31,被测智能产品采集到播放装置播放的音频,并生成设备音频数据回传至处理模块,处理模块读取生成的原始音频数据与设备音频数据;本实施例中,所述播放装置为扬声器;

步骤S32,处理模块检测音频中chirp信号首尾端点;

步骤S33,利用时间坐标计算设备采集音频时长与原始测试音频数据时长比值

这即为设备采集音频与测试音频采样率之比;Tybeg为设备音频开始时间,Tyend为设备音频结束时间;Txbeg为原始测试音频开始时间,Txend为设备原始测试音频结束时间;

步骤S34,读取原始音频对应文本标注的长度信息,即原始时间标注文件里的时间坐标,将所有时间坐标与α相乘得到新的时间坐标,生成设备音频数据的时间标注文件。

其中,所述步骤S32进一步包括:

子步骤S321,生成与测试音频信号相同的chirp信号,将该chirp信号进行时域倒转得到匹配滤波器h(t)=x(T-t);

子步骤S322,将设备采集音频数据y(t)和原始音频数据x(t)前几十秒数据分别与该匹配滤波器进行卷积,得到匹配滤波器的输出信号r1(t)=h(t)*y(t),r2(t)=h(t)*x(t);

子步骤S323,查找匹配滤波器的输出信号r1(t),r2(t)的信号最大值点的时间坐标即为信号起始点时间坐标,同理可以检测出信号尾端点时间坐标。

通过本发明的音库采集方法,有效数据占总数据的80%以上,采集效率也大大提高;并且发音人可自主完成采集过程,做到了无人值守,节省了录音的人工成本;同时实现了数据实时上传云端,避免了数据的意外丢失;并且能够自动批量化生成指定格式的测试数据,智能语音产品采集的回的数据可以实现与测试数据对齐,并生成精确的标注信息。

为了达到简要说明的目的,上述实施例1中任何可作相同应用的技术特征叙述皆并于此,无需再重复相同叙述。

至此,本公开第二实施例无人值守的云端语音库采集与智能产品测试的方法介绍完毕。

至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。

并且图中各部件的形状和尺寸不反映真实大小和比例,而仅示意本公开实施例的内容。另外,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。

再者,单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。

此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且,在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1