一种数据收集方法、装置、电子设备和存储介质与流程

文档序号：36219355发布日期：2023-11-30 10:14阅读：52来源：国知局

本公开涉及语音，尤其涉及一种数据收集方法、装置、电子设备和存储介质。

背景技术：

1、语音合成(text-to-speech，tts)技术是将文字转化为语音的一种技术。在商用tts系统发布前，通常会针对应用场景做大量优化测试，以确保合成结果正确。目前通常是由企业内部人员针对特定场景采集有限数据集作为tts系统的优化数据。

2、这种数据采集方式存在以下缺点：一是使得测试具有局限性，在有限数据集下进行测试，会使得通用的tts系统经常有难以发现的坏例(bad case)，导致用户使用时合成结果不准确；二是反馈链路长，无法及时收集到用户发现的bad case；三是优化周期长，如果没有发现大量bad case，很难在tts系统的一次迭代里解决大量问题。

技术实现思路

1、有鉴于此，本公开提出了一种数据收集方法、装置、电子设备和存储介质，可以基于对用户交互动作的分析收集tts系统的优化数据，及时收集到用户侧产生的数据，从而可以对tts系统进行快速优化；可以从真实应用场景中过滤出数据，使得收集到的数据更贴合应用场景，从而可以快速地提升tts系统的鲁棒性。

2、根据本公开的一方面，提供了一种数据收集方法，应用于语音合成tts系统，所述方法包括：根据初始输入的第一文本数据，生成第一音频数据；响应于所述第一文本数据对应的至少一次调整操作，得到调整后的第二文本数据；根据所述第二文本数据，生成第二音频数据；在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下，利用第一数据和/或第二数据得到用于训练所述tts系统的数据集；其中，所述第一数据包括所述第一文本数据和所述第一音频数据；所述第二数据包括所述第二文本数据和所述第二音频数据。

3、在一种可能的实现方式中，所述调整操作的结果包括所述第一文本数据和所述第二文本数据的文本数据相似度；在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下，利用第一数据和/或第二数据得到用于训练所述tts系统的数据集，包括：在所述文本数据相似度高于相似度阈值的情况下，利用所述第一数据和/或所述第二数据得到所述数据集；所述文本数据相似度为所述第一文本数据和所述第二文本数据的相似度。

4、在一种可能的实现方式中，所述调整操作的结果包括发音调整和/或停顿调整；在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下，利用第一数据和/或第二数据得到用于训练所述tts系统的数据集，包括：在所述调整操作的结果包括发音调整和/或停顿调整的情况下，利用所述第一数据和/或所述第二数据得到所述数据集。

5、在一种可能的实现方式中，所述响应于所述第一文本数据对应的至少一次调整操作，得到调整后的第二文本数据，包括：在检测到调整操作的情况下，基于调整操作对所述第一文本数据进行调整处理，直至得到所述第二文本数据；其中，所述调整处理包括：确定目标文本数据；所述目标文本数据为第一文本数据或中间文本数据，所述中间文本数据为对所述第一文本数据执行至少一次调整操作后得到的文本数据；基于所述调整操作和所述目标文本数据，得到新的中间文本数据；响应于满足调整结束条件，将中间文本数据确定为第二文本数据。

6、在一种可能的实现方式中，所述基于所述调整操作和所述目标文本数据，得到新的中间文本数据，包括：获取提交操作，并利用所述提交操作得到对应的输入文本数据；响应于所述输入文本数据与所述目标文本数据的相似度高于第一预设阈值，和/或，所述操作前后对应的两个文本数据之间的编辑距离低于第二预设阈值，确定所述提交操作为调整操作，确定所述输入文本数据为新的中间文本数据。

7、在一种可能的实现方式中，所述响应于满足调整结束条件，包括：获取提交操作，并利用所述提交操作得到对应的输入文本数据；响应于所述输入文本数据与所述目标文本数据的相似度低于第一预设阈值，和/或，所述操作前后对应的两个文本数据之间的编辑距离高于第二预设阈值，确定满足所述调整结束条件；或，响应于预设时间间隔内未获取到提交操作，确定满足所述调整结束条件。

8、在一种可能的实现方式中，所述方法还包括：从所述数据集中获取目标用户标识对应的至少一个目标用户数据；根据所述目标用户数据，对所述tts系统进行训练，得到适用于所述目标用户标识的目标tts系统。

9、在一种可能的实现方式中，所述方法还包括：对所述数据集中的数据进行共性分析，得到共性分析结果；根据所述共性分析结果，从所述数据集中获取多个共性数据；根据所述共性数据，对所述tts系统进行训练。

10、根据本公开的另一方面，提供了一种数据收集装置，所述装置包括：第一生成模块，用于根据初始输入的第一文本数据，生成第一音频数据；调整模块，用于响应于所述第一文本数据对应的至少一次调整操作，得到调整后的第二文本数据；第二生成模块，用于根据所述第二文本数据，生成第二音频数据；数据集获取模块，用于在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下，利用第一数据和/或第二数据得到用于训练tts系统的数据集；其中，所述第一数据包括所述第一文本数据和所述第一音频数据；所述第二数据包括所述第二文本数据和所述第二音频数据。

11、在一种可能的实现方式中，所述调整操作的结果包括所述第一文本数据和所述第二文本数据的文本数据相似度；所述数据集获取模块，还用于：在所述文本数据相似度高于相似度阈值的情况下，利用所述第一数据和/或所述第二数据得到所述数据集；所述文本数据相似度为所述第一文本数据和所述第二文本数据的相似度。

12、在一种可能的实现方式中，所述调整操作的结果包括发音调整和/或停顿调整；所述数据集获取模块，还用于：在所述调整操作的结果包括发音调整和/或停顿调整的情况下，利用所述第一数据和/或所述第二数据得到所述数据集。

13、在一种可能的实现方式中，所述调整模块，还用于：在检测到调整操作的情况下，基于调整操作对所述第一文本数据进行调整处理，直至得到所述第二文本数据；其中，所述调整处理包括：确定目标文本数据；所述目标文本数据为第一文本数据或中间文本数据，所述中间文本数据为对所述第一文本数据执行至少一次调整操作后得到的文本数据；基于所述调整操作和所述目标文本数据，得到新的中间文本数据；响应于满足调整结束条件，将中间文本数据确定为第二文本数据。

14、在一种可能的实现方式中，所述调整模块，还用于：获取提交操作，并利用所述提交操作得到对应的输入文本数据；响应于所述输入文本数据与所述目标文本数据的相似度高于第一预设阈值，和/或，所述操作前后对应的两个文本数据之间的编辑距离低于第二预设阈值，确定所述提交操作为调整操作，确定所述输入文本数据为新的中间文本数据。

15、在一种可能的实现方式中，所述调整模块，还用于：获取提交操作，并利用所述提交操作得到对应的输入文本数据；响应于所述输入文本数据与所述目标文本数据的相似度低于第一预设阈值，和/或，所述操作前后对应的两个文本数据之间的编辑距离高于第二预设阈值，确定满足所述调整结束条件；或，响应于预设时间间隔内未获取到提交操作，确定满足所述调整结束条件。

16、在一种可能的实现方式中，所述装置还包括：目标用户数据获取模块，用于从所述数据集中获取目标用户标识对应的至少一个目标用户数据；第一训练模块，用于根据所述目标用户数据，对所述tts系统进行训练，得到适用于所述目标用户标识的目标tts系统。

17、在一种可能的实现方式中，所述装置还包括：共性分析模块，用于对所述数据集中的数据进行共性分析，得到共性分析结果；共性数据获取模块，用于根据所述共性分析结果，从所述数据集中获取多个共性数据；第二训练模块，用于根据所述共性数据，对所述tts系统进行训练。

18、根据本公开的另一方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为在执行所述存储器存储的指令时，实现上述数据收集方法。

19、根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述数据收集方法。

20、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述数据收集方法。

21、本公开提供的数据收集方法，根据用户的调整操作结果判断是否利用初始输入的文本-音频数据对和/或经过调整后最终得到的文本-音频数据得到用于训练tts系统的数据集，可以基于对用户交互动作的分析收集tts系统的优化数据，及时收集到用户侧产生的数据，从而可以对tts系统进行快速优化；可以从真实应用场景过滤出数据，使得收集到的数据更贴合应用场景，从而可以快速地提升tts系统的鲁棒性。

22、根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：请求不公布姓名
技术所有人：摩尔线程智能科技（北京）有限责任公司
我是此专利的发明人