一种多人合唱方法、装置及存储设备与流程

文档序号：35219878发布日期：2023-08-24 19:20阅读：37来源：国知局

本申请涉及音视频数据处理领域，尤其涉及一种多人合唱方法、装置及存储介质。

背景技术：

1、线上多人合唱是互联网泛娱乐k歌场景下的一种创新形态的应用方向的尝试，线上多人合唱是指：多个演唱者通过应用软件，线上录制同一首歌曲的相同段落亦或是前后相接的段落，共同完成一首歌曲的演唱并形成对应歌曲的合唱作品。不同于传统k歌业态下的单人驱动单人发布作品，多人合唱允许多个用户共同完成同一首歌曲的演唱，形成合唱作品并产生多人同窗的演唱短视频。相比普通k歌应用，多人合唱的作品内容具有更强的感染力、作品风格独特易于传播；多人合唱的参与方式具有丰富的社交契机，利于发展社群，拓展音乐同好好友；多人合唱具有灵活的运营空间，既可以展现丰富的音视频形式，也可以追击时事热点产生充满活力的内容。

2、线上多人合唱的效果依赖于多个音视频数据混音的智能制作技术，现广泛应用在k歌类app应用中，例如：“全民k歌”、“唱吧”、“回森”等，是k歌类目软件下一种重要应用场景。现有线上多人合唱方法中为了实现多人共唱一首歌的功能，主要采用两类方法，第一类是将多个用户的录制音频不加处理得直接在时间轴上对齐，多条音频合并，再进行基础混音加入伴奏，对齐准确度不够，导致合唱效果不佳；第二类是在对齐合并之前还会为使用者提供修音功能，但现有技术中已有的合唱领域修音技术仅仅是对音高进行微调，无法有效调整节奏；现有技术中产生的合唱作品效果不足够震撼，往往不具备多人合唱带来的强大感染力。

技术实现思路

1、有鉴于此，本申请提供一种多人合唱方法、装置及存储介质，以解决现有技术中多人合唱音频对齐不准、合成效果不佳的技术问题。

2、本发明第一方面提供一种多人合唱方法，具体包括：将多个待处理音频中各个待处理音频分别与其对应的原唱音频构成音频数据对，所述原唱音频为所述多人合唱方法中演唱者演唱歌曲的原唱音频；

3、对于每一个音频数据对，基于原唱音频曲谱和待处理音频中的发音信息对待处理音频进行修音处理，得到多个待处理音频对应的待混音音频；

4、其中，构建原唱音频曲谱和待处理音频中对应位置的发音信息之间的映射关系，以重建修音模板，基于修音模板对待处理音频进行音速和音调的处理；

5、对多个待混音音频进行混音处理，得到初始合唱音频。

6、优选的，所述将多个待处理音频中各个待处理音频分别与其对应的原唱音频构成音频数据对之前，还包括，

7、响应于用户触发合唱生成请求，通过合唱终端获取多个用户针对同一首曲目的歌唱视频，多个用户中各个用户的歌唱视频为当前合唱曲目的片段，

8、多个用户中各个用户的歌唱内容位于合唱曲目中的位置不完全相同，且多个用户中各个用户的歌唱内容存在重叠部分；

9、从多个用户的歌唱视频中提取对应的音频，以作为多个待处理音频。

10、优选的，所述将多个待处理音频中各个待处理音频分别与其对应的原唱音频构成音频数据对之后，还包括：

11、对各个待处理音频进行降噪和回声消除处理；

12、对各个待处理音频进行降噪处理，包括基于突发噪音的频率范围拓展降噪模块的子带数，设置多个维度的隐藏层以构建改进的降噪模块，

13、基于改进的降噪模块过滤突发噪音和持续时间到达阈值的持续噪音；

14、基于神经网络模型对各个待处理音频的背景音乐进行回声消除处理。

15、优选的，构建原唱音频曲谱和待处理音频中对应位置的发音信息之间的映射关系，以重建修音模板，具体包括：

16、对于每一个音频数据对，基于原唱音频曲谱构建参考信息集；

17、识别待处理音频中的发音信息；

18、匹配对齐参考信息集与发音信息以获得原唱音频曲谱和待处理音频中对应位置的发音信息之间的映射关系，重建得到修音模板。

19、优选的，所述参考信息集至少包括：原唱音频曲谱的歌曲旋律、和弦、段落结构、风格分类和和声信息；

20、识别待处理音频中的发音信息，包括基于音频数据的预训练语音识别模型识别待处理音频中的声母和韵母，获得声母和韵母所在位置及发音音调。

21、优选的，重建修音模板具体包括：

22、基于原唱音频曲谱构建参考信息集，基于参考信息集在原唱音频曲谱中的每个点中计算替代音符，以实现曲谱重建；

23、计算每个点的替代音符与待处理音频中的声母、韵母之间的音调和时间位置数据组的dtw距离，

24、以整个待处理音频中dtw距离之和最小的映射方式为修音模板，重建得到修音模板，

25、所述修音模板包括原唱音频和待处理音频之间的位置映射关系和音调映射关系。

26、优选的，获得初始合唱音频之后，还包括：

27、提取多个待混音音频对应的视频，

28、按照预设格局排布多个待混音音频对应的视频，

29、基于初始合唱音频的混音方式播放多个待混音音频对应的视频画面及初始合唱音频。

30、优选的，基于修音模板中的映射关系，调整待处理音频中的音调和音速获得初始待混音音频后，还包括：

31、将初始待混音音频输入平滑模块以输出小粒度音频序列，

32、将待处理音频输入至降噪滤波模块以获得待处理参考音频，

33、将小粒度音频序列和所述待处理参考音频输入至降速降调模块，获得待混音音频。

34、本发明第二方面示例性地提供一种多人合唱装置，包括：

35、配对模块，用于将多个待处理音频中各个待处理音频分别与其对应的原唱音频构成音频数据对，所述原唱音频为所述多人合唱方法中演唱者演唱歌曲的原唱音频；

36、修音模块，用于对于每一个音频数据对，基于原唱音频曲谱和待处理音频中的发音信息对待处理音频进行修音处理，得到多个待处理音频对应的待混音音频；

37、所述修音模块被配置为用于构建原唱音频曲谱和待处理音频中对应位置的发音信息之间的映射关系，以重建修音模板，基于修音模板对待处理音频进行音速和音调的处理；

38、混音模块，用于对多个待混音音频进行混音处理，得到初始合唱音频。

39、本发明第三方面提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于所述程序被处理器执行时实现上述任一项所述多人合唱方法的步骤。

40、本发明提供的多人合唱方法、装置及存储介质，构建原唱音频曲谱和待处理音频中对应位置的发音信息之间的映射关系，以重建修音模板，能够利用曲谱和发音这一个信息的对应关系同时实现音速和音调的对齐，将所有的用户唱歌音频均与原唱音频曲谱相对应，提高了修音处理的效果，在保证音质质量，不过分修音的情况下，尽可能保证合唱音频的真实性，同时从速度和音调两个方面同时保证了合音音频的标准性，提高了合音的效果。

技术特征：

1.一种多人合唱方法，其特征在于，所述多人合唱方法具体包括：

2.根据权利要求1所述的多人合唱方法，其特征在于，所述将多个待处理音频中各个待处理音频分别与其对应的原唱音频构成音频数据对之前，还包括，

3.根据权利要求1所述的多人合唱方法，其特征在于，所述将多个待处理音频中各个待处理音频分别与其对应的原唱音频构成音频数据对之后，还包括：

4.根据权利要求1所述的多人合唱方法，其特征在于，

5.根据权利要求4所述的多人合唱方法，其特征在于，

6.根据权利要求1所述的多人合唱方法，其特征在于，

7.根据权利要求1所述的多人合唱方法，其特征在于，

8.根据权利要求1所述的多人合唱方法，其特征在于，

9.一种多人合唱装置，其特征在于，所述多人合唱装置具体包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于所述程序被处理器执行时实现权利要求1-8任一项所述多人合唱方法的步骤。

技术总结
本申请提供一种多人合唱方法、装置及存储介质，将多个待处理音频中各个待处理音频分别与其对应的原唱音频构成音频数据对，所述原唱音频为所述多人合唱方法中演唱者演唱歌曲的原唱音频；对于每一个音频数据对，基于原唱音频曲谱和待处理音频中的发音信息对待处理音频进行修音处理，得到多个待处理音频对应的待混音音频；对多个待混音音频进行混音处理，得到初始合唱音频。提高了多人合唱歌曲的质量和效果，增加了多人合唱歌曲的趣味性和吸引力。

技术研发人员：侯跃然,王标,李松,刘凯,邓翀,陈维平,麦麦提明·阿不都喀迪尔,吴东岳,王曦赫,张逸铭
受保护的技术使用者：北京陌陌信息技术有限公司
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：侯跃然王标李松刘凯邓翀陈维平麦麦提明
技术所有人：北京陌陌信息技术有限公司
我是此专利的发明人

上一篇：一种绞车电缆张力稳定调整机构的制作方法
上一篇：一种单瓦纠偏导正装置的制作方法