一种音频数据处理方法以及装置与流程

文档序号：11434080阅读：264来源：国知局

本发明涉及计算机技术领域，尤其涉及一种音频数据处理方法以及装置。

背景技术：

目前大多数唱歌软件都具备打分功能，具体的打分过程可以为：通过对比录音的频谱波形与对应歌曲的midi(musicalinstrumentdigitalinterface，音乐设备数字接口)曲线的拟合度，对该歌曲的演唱水平进行打分。虽然通过对歌曲演唱进行打分可以提高用户对唱歌的积极性，但是单单通过一个分数展示，只能笼统地告知用户唱歌的大概水平，而用户依然不知道自己唱错的地方，更不知道自己应该如何改进，由此可见，现有的歌唱打分功能在展示时内容过于单一，无法真正给到用户合理的改进建议。

技术实现要素：

本发明实施例提供一种音频数据处理方法以及装置，可丰富唱歌展示内容，并真正给到用户合理的改进建议。

本发明实施例提供了一种音频数据处理方法，包括：

获取录音音频数据，并识别所述录音音频数据中的每个录音单字；

按照所述每个录音单字将所述录音音频数据拆分为多个单字音频数据；

在与所述录音音频数据对应的歌词文件中获取与每个所述单字音频数据对应的歌词单字；

将所述单字音频数据的实际演唱参数和所述歌词单字对应的标准原唱参数进行比较，确定所述单字音频数据与所述歌词单字对应的标准原唱参数之间的参数对比信息；所述参数对比信息包括时间重合度和/或音调偏差值；

根据所述参数对比信息生成所述单字音频数据对应的错误类型标识，并在显示所述歌词单字的范围区域内显示所述错误类型标识。

相应地，本发明实施例还提供了一种音频数据处理装置，包括：

获取识别模块，用于获取录音音频数据，并识别所述录音音频数据中的每个录音单字；

拆分模块，用于按照所述每个录音单字将所述录音音频数据拆分为多个单字音频数据；

单字获取模块，用于在与所述录音音频数据对应的歌词文件中获取与每个所述单字音频数据对应的歌词单字；

比较确定模块，用于将所述单字音频数据的实际演唱参数和所述歌词单字对应的标准原唱参数进行比较，确定所述单字音频数据与所述歌词单字对应的标准原唱参数之间的参数对比信息；所述参数对比信息包括时间重合度和/或音调偏差值；

生成显示模块，用于根据所述参数对比信息生成所述单字音频数据对应的错误类型标识，并在显示所述歌词单字的范围区域内显示所述错误类型标识。

本发明实施例通过识别所获取到的录音音频数据中的每个录音单字，可以按照每个录音单字将录音音频数据拆分为多个单字音频数据，并在歌词文件中获取与多个单字音频数据中的单字音频数据对应的歌词单字，再根据单字音频数据对应的实际演唱参数和歌词单字对应的标准原唱参数确定单字音频数据与歌词单字对应的标准原唱参数之间的参数对比信息，以生成单字音频数据对应的错误类型标识，并在显示歌词单字的范围区域内显示错误类型标识，从而可丰富唱歌展示内容，而且可以精确到每个有问题的歌词单字都显示对应的错误类型标识，从而真正给到用户合理的改进建议。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频数据处理方法的流程示意图；

图1a是本发明实施例提供的一种歌词标识展示的界面图；

图2是本发明实施例提供的另一种音频数据处理方法的流程示意图；

图3是本发明实施例提供的又一种音频数据处理方法的流程示意图；

图4是本发明实施例提供的一种音频数据处理装置的结构示意图；

图5是本发明实施例提供的一种比较确定模块的结构示意图；

图6是本发明实施例提供的一种单字获取模块的结构示意图；

图7是本发明实施例提供的另一种音频数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，是本发明实施例提供的一种音频数据处理方法的流程示意图，所述方法可以包括：

s101，获取录音音频数据，并识别所述录音音频数据中的每个录音单字；

具体的，音频数据处理装置可以通过麦克风获取用户的录音音频数据，并基于语音识别算法识别出所述录音音频数据中的每个录音单字，所述音频数据处理装置还可以根据所识别出的所述每个录音单字的发音起始时刻和发音结束时刻记录所述每个录音单字分别对应的实际演唱时间信息，所述实际演唱时间信息包括录音单字起始时间戳和录音单字结尾时间戳，所述录音单字起始时间戳即为该录音单字的发音起始时刻，所述录音单字结尾时间戳即为该录音单字的发音结束时刻。例如，所述音频数据处理装置获取到的录音音频数据为用户唱的某一首歌中的一句话“满天都是小星星”，则所述音频数据处理装置可以识别出每个录音单字分别为“满”、“天”、“都”、“是”、“小”、“星”、“星”，所述音频数据处理装置还可以进一步根据所识别出的所述每个录音单字的发音起始时刻和发音结束时刻记录所述每个录音单字分别对应的实际演唱时间信息，如若识别出“满”字的发音起始时刻为1分2.37秒，发音结束时刻为1分3.11秒，即“满”字的完整发音时间是从1分2.37秒到1分3.11秒，则可以将1分2.37秒作为该录音单字对应的实际演唱时间信息中的录音单字起始时间戳，并将1分3.11秒作为该录音单字对应的实际演唱时间信息中的录音单字结尾时间戳。

s102，按照所述每个录音单字将所述录音音频数据拆分为多个单字音频数据；

具体的，所述音频数据处理装置识别出所述每个录音单字，并获取到所述每个录音单字分别对应的实际演唱时间信息后，即可根据所述每个录音单字分别对应的实际演唱时间信息中的录音单字起始时间戳和录音单字结尾时间戳，将所述录音音频数据拆分为多个单字音频数据；每个所述单字音频数据均对应一个录音单字，即每个所述单字音频数据均为对应的所述录音单字起始时间戳到对应的所述录音单字结尾时间戳内的音频数据。例如，若所述音频数据处理装置识别出每个录音单字分别为“满”、“天”、“都”、“是”、“小”、“星”、“星”，并获取到所述每个录音单字分别对应的实际演唱时间信息，则所述音频数据处理装置进一步根据所述每个录音单字分别对应的实际演唱时间信息将所述录音音频数据拆分为多个单字音频数据，如若“满”字的完整发音时间为从1分2.37秒到1分3.11秒，即1分2.37秒为该录音单字对应的实际演唱时间信息中的录音单字起始时间戳，1分3.11秒为该录音单字对应的实际演唱时间信息中的录音单字结尾时间戳，则所述音频数据处理装置可以根据该录音单字对应的实际演唱时间信息将所述录音音频数据中1分2.37秒到1分3.11秒时段的音频数据拆分出来，并将拆分出来的音频数据作为“满”字对应的单字音频数据。

s103，在与所述录音音频数据对应的歌词文件中获取与每个所述单字音频数据对应的歌词单字；

具体的，所述音频数据处理装置可以在与所述录音音频数据对应的歌词文件中获取每个歌词单字分别对应的标准原唱时间信息；所述标准原唱时间信息包括歌词单字起始时间戳和歌词单字结尾时间戳；所述歌词文件可以为qrc歌词文件，所述qrc歌词文件中的每个歌词单字都分别对应有时间标签，所述时间标签包括歌词单字的起始时间和歌词单字的持续时长；其中，所述每个歌词单字分别对应的标准原唱时间信息是根据所述每个歌词单字分别对应的时间标签计算得到的，例如，歌词单字a对应的时间标签包括歌词单字a的起始时间t1和歌词单字a的持续时长t2，则可以计算出歌词单字a对应的歌词单字起始时间戳为t1，歌词单字a对应的歌词单字结尾时间戳为t1+t2。

所述音频数据处理装置进一步根据所述每个录音单字分别对应的录音单字起始时间戳和录音单字结尾时间戳，以及所述每个歌词单字分别对应的歌词单字起始时间戳和歌词单字结尾时间戳，获取所述每个录音单字与所述每个歌词单字之间的时间匹配结果。其中，通过将所述每个录音单字对应的录音单字起始时间戳和录音单字结尾时间戳与所述每个歌词单字对应的歌词单字起始时间戳和歌词单字结尾时间戳进行对比，可以生成所述每个录音单字与所述每个歌词单字之间的时间匹配结果，并将所述时间匹配结果中与录音单字的录音单字起始时间戳和录音单字结尾时间戳最接近的歌词单字确定为与该录音单字时间匹配成功的歌词单字。当确定出与某录音单字时间匹配成功的歌词单字时，可以将该歌词单字确定为与该录音单字对应的歌词单字，即包含该录音单字的单字音频数据与该歌词单字对应，因此，根据所述时间匹配结果可以为每个所述单字音频数据分别确定对应的歌词单字。

s104，将所述单字音频数据的实际演唱参数和所述歌词单字对应的标准原唱参数进行比较，确定所述单字音频数据与所述歌词单字对应的标准原唱参数之间的参数对比信息；

具体的，所述实际演唱参数包括所述单字音频数据对应的实际演唱时间信息；所述标准原唱参数包括所述歌词单字对应的标准原唱时间信息；所述音频数据处理装置可以根据所述单字音频数据对应的实际演唱时间信息中的所述录音单字起始时间戳和所述录音单字结尾时间戳，以及所述歌词单字对应的标准原唱时间信息中的所述歌词单字起始时间戳和所述歌词单字结尾时间戳，计算所述单字音频数据与所述歌词单字之间的重合时长和非重合时长，并计算所述非重合时长与所述重合时长之间的比值，以得到所述单字音频数据对应的时间重合度，并将所述时间重合度作为所述参数对比信息。例如，单字音频数据中的录音单字“爱”对应的实际演唱时间信息为(01:02.37,01:03.02)(即1分2.37秒为所述录音单字起始时间戳，1分3.02秒为所述录音单字结尾时间戳)，所述单字音频数据对应的歌词单字“爱”的标准原唱时间信息为(01:02.39，01:03.21)(即1分2.39秒为歌词单字起始时间戳，1分3.21秒为歌词单字结尾时间戳)；其中，非重合时长为(2.39-2.37)+(3.21-3.02)＝0.21秒，重合时长为3.02-2.39＝0.63秒，因此，所述单字音频数据对应的时间重合度可以为z＝[(2.39-2.37)+(3.21-3.02)]/(3.02-2.39)。其中，z的符号标明“偏快”或“偏慢”的属性，当z为正数时，表示用户唱慢了，当z为负数时，表示用户唱快了；z的绝对值大小标明偏快或偏慢的程度，数值越大，偏差越大。

或者，所述实际演唱参数包括所述单字音频数据对应的实际演唱音调值；所述标准原唱参数包括所述歌词单字对应的标准原唱音调值；所述音频数据处理装置可以将所述单字音频数据对应的实际演唱音调值与所述歌词单字对应的标准原唱音调值相减，以得到所述单字音频数据对应的音调偏差值，并将所述音调偏差值作为所述参数对比信息；其中，所述歌词单字对应的标准原唱音调值是在音乐设备数字接口midi文件中根据所述歌词单字对应的标准原唱时间信息获取到的，例如，若所述歌词单字对应的标准原唱时间信息为(01:02.39，01:03.21)(即1分2.39秒为歌词单字起始时间戳，1分3.21秒为歌词单字结尾时间戳)，则可以获取所述midi文件中的1分2.39秒到1分3.21秒的时段内的标准原唱音调值，并将获取到的所述标准原唱音调值作为所述歌词单字对应的标准原唱音调值。又例如，若实际演唱音调值为y，标准原唱音调值为y，则可以计算出所述单字音频数据对应的音调偏差值k＝y-y；k的符号标明“偏高”或“偏低”的属性，当k为正数时，表示用户唱高了；当k为负数时，表示用户唱低了；k的绝对值大小表明了偏高和偏低的程度，数值越大，偏差越大。

又或者，所述实际演唱参数包括所述单字音频数据对应的实际演唱时间信息和实际演唱音调值；所述标准原唱参数包括所述歌词单字对应的标准原唱时间信息和标准原唱音调值；因此，所述音频数据处理装置可以一并计算出所述时间重合度和所述音调偏差值，并将所述时间重合度和所述音调偏差值均作为所述参数对比信息。

s105，根据所述参数对比信息生成所述单字音频数据对应的错误类型标识，并在显示所述歌词单字的范围区域内显示所述错误类型标识；

具体的，所述音频数据处理装置可以根据所述参数对比信息中的所述时间重合度和/或所述音调偏差值生成所述单字音频数据对应的唱歌质量分数，当所述唱歌质量分数低于预设的分数阈值，且所述参数对比信息包括所述时间重合度和音调偏差值时，可以进一步检测是时间重合度占低分主要因素还是音调偏差值占低分主要因素，若是所述时间重合度占低分主要因素，且所述时间重合度表明的是唱快了，则可以生成所述单字音频数据对应的错误类型标识为“唱快了”，并在显示所述歌词单字的范围区域内显示所述错误类型标识“唱快了”所对应的图标；若是所述音调偏差值占低分主要因素，且所述音调偏差值表明的是唱高了，则可以生成所述单字音频数据对应的错误类型标识为“唱高了”，并在显示所述歌词单字的范围区域内显示所述错误类型标识“唱高了”所对应的图标。可选的，若所述时间重合度和所述音调偏差值都偏差比较大，则也可以在显示所述歌词单字的范围区域内同时显示所述时间重合度对应的错误类型标识和所述音调偏差值对应的错误类型标识。又或者，当所述唱歌质量分数低于预设的分数阈值，且所述参数对比信息包括所述时间重合度或音调偏差值时，可以直接根据所述参数对比信息生成对应的错误类型标识。由此可见，本发明实施例可以精确到每个有问题的歌词单字都显示对应的错误类型标识，从而真正给到用户合理的改进建议。

进一步的，再请一并参见图1a，是本发明实施例提供的一种歌词标识展示的界面图。图1a中所展示的歌词单字分别为“我”、“想”、“带”、“你”、“回”、“我”、“的”、“外”、“婆”、“家”，且图1a是通过箭头的不同指向来表示不同的错误类型标识，箭头向上的错误类型标识表示“唱高了”，箭头向下的错误类型标识表示“唱低了”，箭头向右的错误类型标识表示“唱快了”，箭头向左的错误类型标识表示“唱慢了”。首先，根据获取到的录音音频数据、qrc文件以及midi文件可以分析出用户在唱第一个“我”字时唱高了，在唱“你”字时唱低了，在唱“回”字时唱高了，在唱“婆”字时唱低了，在唱“家”字时唱快了，然后即可在“我”(第一个)、“你”、“回”、“婆”、“家”这些歌词单字的上方分别展示对应的错误类型标识，以告知用户在唱哪些字时应该如何改进。

再请参见图2，是本发明实施例提供的另一种音频数据处理方法的流程示意图，所述方法可以包括：

s201，获取录音音频数据，并识别所述录音音频数据中的每个录音单字；

s202，根据所述每个录音单字分别对应的实际演唱时间信息将所述录音音频数据拆分为多个单字音频数据；

s203，在与所述录音音频数据对应的歌词文件中获取每个歌词单字分别对应的标准原唱时间信息；

s204，根据所述每个录音单字分别对应的录音单字起始时间戳和录音单字结尾时间戳，以及所述每个歌词单字分别对应的歌词单字起始时间戳和歌词单字结尾时间戳，获取所述每个录音单字与所述每个歌词单字之间的时间匹配结果；

具体的，所述音频数据处理装置进一步根据所述每个录音单字分别对应的录音单字起始时间戳和录音单字结尾时间戳，以及所述每个歌词单字分别对应的歌词单字起始时间戳和歌词单字结尾时间戳，获取所述每个录音单字与所述每个歌词单字之间的时间匹配结果。其中，通过将所述每个录音单字对应的录音单字起始时间戳和录音单字结尾时间戳与所述每个歌词单字对应的歌词单字起始时间戳和歌词单字结尾时间戳进行对比，可以生成所述每个录音单字与所述每个歌词单字之间的时间匹配结果，并将所述时间匹配结果中与录音单字的录音单字起始时间戳和录音单字结尾时间戳最接近的歌词单字确定为与该录音单字时间匹配成功的歌词单字。

s205，根据所述时间匹配结果和所述每个录音单字与所述每个歌词单字之间的识别顺序匹配结果，为每个所述单字音频数据分别确定对应的歌词单字；

具体的，所述音频数据处理装置通过先后顺序识别出的每个录音单字与先后顺序识别出的每个歌词单字进行对比，可以生成所述每个录音单字与所述每个歌词单字之间的识别顺序匹配结果，并将与录音单字相同顺位且识别的内容相同的歌词单字确定为与该录音单字顺序匹配成功的歌词单字，例如，若录音单字“天”是第二个识别出的字，而同样处于第二个位置的歌词单字也为“天”，则可以将歌词单字“天”确定为与该录音单字顺序匹配成功的歌词单字。因此，当确定出与某录音单字时间匹配成功的歌词单字，且该歌词单字也为与该录音单字顺序匹配成功的歌词单字时，可以将该歌词单字确定为与该录音单字对应的歌词单字，即包含该录音单字的单字音频数据与该歌词单字对应，因此，根据所述时间匹配结果和所述识别顺序匹配结果可以为每个所述单字音频数据分别确定对应的歌词单字。

例如，若拆分得到7个单字音频数据，且分别识别出单字音频数据a中的发音为“满”字、单字音频数据b中的发音为“天”字、单字音频数据c中的发音为“都”字、单字音频数据d中的发音为“是”字、单字音频数据e中的发音为“小”字、单字音频数据f中的发音为“星”字、单字音频数据g中的发音为“星”字，且在所述qrc歌词文件中的与所述7个单字音频数据的实际音频时间信息相对应的标准音频时间信息处识别出7个歌词单字，分别为“满”、“天”、“都”、“是”、“小”、“星”、“星”，则可以根据顺序识别出的各单字音频数据中的单字发音，确定单字音频数据a对应的歌词单字为“满”、单字音频数据b对应的歌词单字为“天”、单字音频数据c对应的歌词单字为“都”、单字音频数据d对应的歌词单字为“是”、单字音频数据e对应的歌词单字为“小”、单字音频数据f对应的歌词单字为“星”、单字音频数据g对应的歌词单字为“星”，即可以确定出所述每个单字音频数据分别对应的歌词单字。

s206，根据所述单字音频数据对应的实际演唱时间信息中的所述录音单字起始时间戳和所述录音单字结尾时间戳，以及所述歌词单字对应的标准原唱时间信息中的所述歌词单字起始时间戳和所述歌词单字结尾时间戳，计算所述单字音频数据与所述歌词单字之间的重合时长和非重合时长；

s207，计算所述非重合时长与所述重合时长之间的比值，以得到所述单字音频数据对应的时间重合度，并将所述时间重合度作为所述参数对比信息；

例如，单字音频数据中的录音单字“爱”对应的实际演唱时间信息为(01:02.37,01:03.02)(即1分2.37秒为所述录音单字起始时间戳，1分3.02秒为所述录音单字结尾时间戳)，所述单字音频数据对应的歌词单字“爱”的标准原唱时间信息为(01:02.39，01:03.21)(即1分2.39秒为歌词单字起始时间戳，1分3.21秒为歌词单字结尾时间戳)；其中，非重合时长为(2.39-2.37)+(3.21-3.02)＝0.21秒，重合时长为3.02-2.39＝0.63秒，因此，所述单字音频数据对应的时间重合度可以为z＝[(2.39-2.37)+(3.21-3.02)]/(3.02-2.39)。其中，z的符号标明“偏快”或“偏慢”的属性，当z为正数时，表示用户唱慢了，当z为负数时，表示用户唱快了；z的绝对值大小标明偏快或偏慢的程度，数值越大，偏差越大。

s208，根据所述参数对比信息生成所述单字音频数据对应的错误类型标识，并在显示所述歌词单字的范围区域内显示所述错误类型标识；

具体的，所述音频数据处理装置可以根据所述参数对比信息中的所述时间重合度生成所述单字音频数据对应的唱歌质量分数，当所述唱歌质量分数低于预设的分数阈值，且所述时间重合度为负数时，可以生成所述单字音频数据对应的错误类型标识为“唱快了”，并在显示所述歌词单字的范围区域内显示所述错误类型标识“唱快了”所对应的图标；由此可见，本发明实施例可以精确到每个有问题的歌词单字都显示对应的错误类型标识，从而真正给到用户合理的改进建议。

请参见图3，是本发明实施例提供的另一种音频数据处理方法的流程示意图，所述方法可以包括：

s301，获取录音音频数据，并识别所述录音音频数据中的每个录音单字；

s302，根据所述每个录音单字分别对应的实际演唱时间信息将所述录音音频数据拆分为多个单字音频数据；

s303，在与所述录音音频数据对应的歌词文件中获取每个歌词单字分别对应的标准原唱时间信息；

s304，根据所述每个录音单字分别对应的录音单字起始时间戳和录音单字结尾时间戳，以及所述每个歌词单字分别对应的歌词单字起始时间戳和歌词单字结尾时间戳，获取所述每个录音单字与所述每个歌词单字之间的时间匹配结果；

s305，根据所述时间匹配结果和所述每个录音单字与所述每个歌词单字之间的识别顺序匹配结果，为每个所述单字音频数据分别确定对应的歌词单字；

其中，s301-s305步骤可以参见上述图2对应实施例中的s201-s205，这里不再进行赘述。

s306，将所述单字音频数据对应的实际演唱音调值与所述歌词单字对应的标准原唱音调值相减，以得到所述单字音频数据对应的音调偏差值，并将所述音调偏差值作为所述参数对比信息；

具体的，所述音频数据处理装置可以将所述单字音频数据对应的实际演唱音调值与所述歌词单字对应的标准原唱音调值相减，以得到所述单字音频数据对应的音调偏差值，并将所述音调偏差值作为所述参数对比信息；其中，所述歌词单字对应的标准原唱音调值是在音乐设备数字接口midi文件中根据所述歌词单字对应的标准原唱时间信息获取到的，例如，若所述歌词单字对应的标准原唱时间信息为(01:02.39，01:03.21)(即1分2.39秒为歌词单字起始时间戳，1分3.21秒为歌词单字结尾时间戳)，则可以获取所述midi文件中的1分2.39秒到1分3.21秒的时段内的标准原唱音调值，并将获取到的所述标准原唱音调值作为所述歌词单字对应的标准原唱音调值。又例如，若实际演唱音调值为y，标准原唱音调值为y，则可以计算出所述单字音频数据对应的音调偏差值k＝y-y；k的符号标明“偏高”或“偏低”的属性，当k为正数时，表示用户唱高了；当k为负数时，表示用户唱低了；k的绝对值大小表明了偏高和偏低的程度，数值越大，偏差越大。

s307，根据所述参数对比信息生成所述单字音频数据对应的错误类型标识，并在显示所述歌词单字的范围区域内显示所述错误类型标识。

具体的，所述音频数据处理装置可以根据所述参数对比信息中的所述音调偏差值生成所述单字音频数据对应的唱歌质量分数，当所述唱歌质量分数低于预设的分数阈值，且所述音调偏差值为负数时，可以生成所述单字音频数据对应的错误类型标识为“唱低了”，并在显示所述歌词单字的范围区域内显示所述错误类型标识“唱低了”所对应的图标；由此可见，本发明实施例可以精确到每个有问题的歌词单字都显示对应的错误类型标识，从而真正给到用户合理的改进建议。

可选的，所述音频数据处理装置在计算所述音调偏差值时，还可以一并计算如上述图2对应实施例中的s207中的时间重合度，即可以将所述音调偏差值和所述时间重合度均作为所述参数对比信息，此时，所述音频数据处理装置可以根据所述参数对比信息中的所述时间重合度和所述音调偏差值生成所述单字音频数据对应的唱歌质量分数，当所述唱歌质量分数低于预设的分数阈值时，可以进一步检测是时间重合度占低分主要因素还是音调偏差值占低分主要因素，若是所述时间重合度占低分主要因素，且所述时间重合度表明的是唱快了，则可以生成所述单字音频数据对应的错误类型标识为“唱快了”，并在显示所述歌词单字的范围区域内显示所述错误类型标识“唱快了”所对应的图标；若是所述音调偏差值占低分主要因素，且所述音调偏差值表明的是唱高了，则可以生成所述单字音频数据对应的错误类型标识为“唱高了”，并在显示所述歌词单字的范围区域内显示所述错误类型标识“唱高了”所对应的图标。可选的，若所述时间重合度和所述音调偏差值都偏差比较大，则也可以在显示所述歌词单字的范围区域内同时显示所述时间重合度对应的错误类型标识和所述音调偏差值对应的错误类型标识。

请参见图4，是本发明实施例提供的一种音频数据处理装置的结构示意图，所述音频数据处理装置1可以包括：获取识别模块10、拆分模块20、单字获取模块30、比较确定模块40、生成显示模块50；

所述获取识别模块10，用于获取录音音频数据，并识别所述录音音频数据中的每个录音单字；

具体的，所述获取识别模块10可以通过麦克风获取用户的录音音频数据，并基于语音识别算法识别出所述录音音频数据中的每个录音单字，所述获取识别模块10还可以根据所识别出的所述每个录音单字的发音起始时刻和发音结束时刻记录所述每个录音单字分别对应的实际演唱时间信息，所述实际演唱时间信息包括录音单字起始时间戳和录音单字结尾时间戳，所述录音单字起始时间戳即为该录音单字的发音起始时刻，所述录音单字结尾时间戳即为该录音单字的发音结束时刻。例如，所述获取识别模块10获取到的录音音频数据为用户唱的某一首歌中的一句话“满天都是小星星”，则所述获取识别模块10可以识别出每个录音单字分别为“满”、“天”、“都”、“是”、“小”、“星”、“星”，所述获取识别模块10还可以进一步根据所识别出的所述每个录音单字的发音起始时刻和发音结束时刻记录所述每个录音单字分别对应的实际演唱时间信息，如若识别出“满”字的发音起始时刻为1分2.37秒，发音结束时刻为1分3.11秒，即“满”字的完整发音时间是从1分2.37秒到1分3.11秒，则可以将1分2.37秒作为该录音单字对应的实际演唱时间信息中的录音单字起始时间戳，并将1分3.11秒作为该录音单字对应的实际演唱时间信息中的录音单字结尾时间戳。

所述拆分模块20，用于按照所述每个录音单字将所述录音音频数据拆分为多个单字音频数据；

具体的，所述获取识别模块10识别出所述每个录音单字，并获取到所述每个录音单字分别对应的实际演唱时间信息后，所述拆分模块20具体可以根据所述每个录音单字分别对应的实际演唱时间信息中的录音单字起始时间戳和录音单字结尾时间戳，将所述录音音频数据拆分为多个单字音频数据；每个所述单字音频数据均对应一个录音单字，即每个所述单字音频数据均为对应的所述录音单字起始时间戳到对应的所述录音单字结尾时间戳内的音频数据。例如，若所述获取识别模块10识别出每个录音单字分别为“满”、“天”、“都”、“是”、“小”、“星”、“星”，并获取到所述每个录音单字分别对应的实际演唱时间信息，则所述拆分模块20进一步根据所述每个录音单字分别对应的实际演唱时间信息将所述录音音频数据拆分为多个单字音频数据，如若“满”字的完整发音时间为从1分2.37秒到1分3.11秒，即1分2.37秒为该录音单字对应的实际演唱时间信息中的录音单字起始时间戳，1分3.11秒为该录音单字对应的实际演唱时间信息中的录音单字结尾时间戳，则所述拆分模块20可以根据该录音单字对应的实际演唱时间信息将所述录音音频数据中1分2.37秒到1分3.11秒时段的音频数据拆分出来，并将拆分出来的音频数据作为“满”字对应的单字音频数据。

所述单字获取模块30，用于在与所述录音音频数据对应的歌词文件中获取与每个所述单字音频数据对应的歌词单字；

具体的，所述单字获取模块30可以在与所述录音音频数据对应的歌词文件中获取每个歌词单字分别对应的标准原唱时间信息；所述标准原唱时间信息包括歌词单字起始时间戳和歌词单字结尾时间戳；所述歌词文件可以为qrc歌词文件，所述qrc歌词文件中的每个歌词单字都分别对应有时间标签，所述时间标签包括歌词单字的起始时间和歌词单字的持续时长；其中，所述每个歌词单字分别对应的标准原唱时间信息是根据所述每个歌词单字分别对应的时间标签计算得到的，例如，歌词单字a对应的时间标签包括歌词单字a的起始时间t1和歌词单字a的持续时长t2，则可以计算出歌词单字a对应的歌词单字起始时间戳为t1，歌词单字a对应的歌词单字结尾时间戳为t1+t2。

所述单字获取模块30可以进一步根据所述每个录音单字分别对应的录音单字起始时间戳和录音单字结尾时间戳，以及所述每个歌词单字分别对应的歌词单字起始时间戳和歌词单字结尾时间戳，获取所述每个录音单字与所述每个歌词单字之间的时间匹配结果。其中，通过将所述每个录音单字对应的录音单字起始时间戳和录音单字结尾时间戳与所述每个歌词单字对应的歌词单字起始时间戳和歌词单字结尾时间戳进行对比，所述单字获取模块30可以生成所述每个录音单字与所述每个歌词单字之间的时间匹配结果，并将所述时间匹配结果中与录音单字的录音单字起始时间戳和录音单字结尾时间戳最接近的歌词单字确定为与该录音单字时间匹配成功的歌词单字。当确定出与某录音单字时间匹配成功的歌词单字时，所述单字获取模块30可以将该歌词单字确定为与该录音单字对应的歌词单字，即包含该录音单字的单字音频数据与该歌词单字对应，因此，根据所述时间匹配结果可以为每个所述单字音频数据分别确定对应的歌词单字。

所述比较确定模块40，用于将所述单字音频数据的实际演唱参数和所述歌词单字对应的标准原唱参数进行比较，确定所述单字音频数据与所述歌词单字对应的标准原唱参数之间的参数对比信息；所述参数对比信息包括时间重合度和/或音调偏差值；

具体的，当所述实际演唱参数包括所述单字音频数据对应的实际演唱时间信息，且所述标准原唱参数包括所述歌词单字对应的标准原唱时间信息时，请一并参见图5，是所述比较确定模块40的结构示意图，所述比较确定模块40可以包括：时长计算单元401、计算确定单元402；

所述时长计算单元401，用于根据所述单字音频数据对应的实际演唱时间信息中的所述录音单字起始时间戳和所述录音单字结尾时间戳，以及所述歌词单字对应的标准原唱时间信息中的所述歌词单字起始时间戳和所述歌词单字结尾时间戳，计算所述单字音频数据与所述歌词单字之间的重合时长和非重合时长；

所述计算确定单元402，用于计算所述非重合时长与所述重合时长之间的比值，以得到所述单字音频数据对应的时间重合度，并将所述时间重合度作为所述参数对比信息。

例如，单字音频数据中的录音单字“爱”对应的实际演唱时间信息为(01:02.37,01:03.02)(即1分2.37秒为所述录音单字起始时间戳，1分3.02秒为所述录音单字结尾时间戳)，所述单字音频数据对应的歌词单字“爱”的标准原唱时间信息为(01:02.39，01:03.21)(即1分2.39秒为歌词单字起始时间戳，1分3.21秒为歌词单字结尾时间戳)；其中，所述时长计算单元401计算出的非重合时长为(2.39-2.37)+(3.21-3.02)＝0.21秒，重合时长为3.02-2.39＝0.63秒，因此，所述计算确定单元402可以计算出所述单字音频数据对应的时间重合度可以为z＝[(2.39-2.37)+(3.21-3.02)]/(3.02-2.39)。其中，z的符号标明“偏快”或“偏慢”的属性，当z为正数时，表示用户唱慢了，当z为负数时，表示用户唱快了；z的绝对值大小标明偏快或偏慢的程度，数值越大，偏差越大。

或者，当所述实际演唱参数包括所述单字音频数据对应的实际演唱音调值，且所述标准原唱参数包括所述歌词单字对应的标准原唱音调值时；所述比较确定模块40具体用于将所述单字音频数据对应的实际演唱音调值与所述歌词单字对应的标准原唱音调值相减，以得到所述单字音频数据对应的音调偏差值，并将所述音调偏差值作为所述参数对比信息；其中，所述歌词单字对应的标准原唱音调值是在音乐设备数字接口midi文件中根据所述歌词单字对应的标准原唱时间信息获取到的，例如，若所述歌词单字对应的标准原唱时间信息为(01:02.39，01:03.21)(即1分2.39秒为歌词单字起始时间戳，1分3.21秒为歌词单字结尾时间戳)，则可以获取所述midi文件中的1分2.39秒到1分3.21秒的时段内的标准原唱音调值，并将获取到的所述标准原唱音调值作为所述歌词单字对应的标准原唱音调值。又例如，若实际演唱音调值为y，标准原唱音调值为y，则可以计算出所述单字音频数据对应的音调偏差值k＝y-y；k的符号标明“偏高”或“偏低”的属性，当k为正数时，表示用户唱高了；当k为负数时，表示用户唱低了；k的绝对值大小表明了偏高和偏低的程度，数值越大，偏差越大。

又或者，所述实际演唱参数包括所述单字音频数据对应的实际演唱时间信息和实际演唱音调值；所述标准原唱参数包括所述歌词单字对应的标准原唱时间信息和标准原唱音调值；因此，所述比较确定模块40可以一并计算出所述时间重合度和所述音调偏差值，并将所述时间重合度和所述音调偏差值均作为所述参数对比信息。

所述生成显示模块50，用于根据所述参数对比信息生成所述单字音频数据对应的错误类型标识，并在显示所述歌词单字的范围区域内显示所述错误类型标识；

具体的，所述生成显示模块50可以根据所述参数对比信息中的所述时间重合度和/或所述音调偏差值生成所述单字音频数据对应的唱歌质量分数，当所述唱歌质量分数低于预设的分数阈值，且所述参数对比信息包括所述时间重合度和音调偏差值时，可以进一步检测是时间重合度占低分主要因素还是音调偏差值占低分主要因素，若是所述时间重合度占低分主要因素，且所述时间重合度表明的是唱快了，则可以生成所述单字音频数据对应的错误类型标识为“唱快了”，并在显示所述歌词单字的范围区域内显示所述错误类型标识“唱快了”所对应的图标；若是所述音调偏差值占低分主要因素，且所述音调偏差值表明的是唱高了，则可以生成所述单字音频数据对应的错误类型标识为“唱高了”，并在显示所述歌词单字的范围区域内显示所述错误类型标识“唱高了”所对应的图标。可选的，若所述时间重合度和所述音调偏差值都偏差比较大，则也可以在显示所述歌词单字的范围区域内同时显示所述时间重合度对应的错误类型标识和所述音调偏差值对应的错误类型标识。又或者，当所述唱歌质量分数低于预设的分数阈值，且所述参数对比信息包括所述时间重合度或音调偏差值时，可以直接根据所述参数对比信息生成对应的错误类型标识。由此可见，本发明实施例可以精确到每个有问题的歌词单字都显示对应的错误类型标识，从而真正给到用户合理的改进建议。

进一步的，再请参见图6，是单字获取模块30的结构示意图，所述单字获取模块30可以包括：时间信息获取单元301、匹配结果获取单元302、单字确定单元303；

所述时间信息获取单元301，用于在与所述录音音频数据对应的歌词文件中获取每个歌词单字分别对应的标准原唱时间信息；所述标准原唱时间信息包括歌词单字起始时间戳和歌词单字结尾时间戳；

具体的，所述时间信息获取单元301可以在与所述录音音频数据对应的歌词文件中获取每个歌词单字分别对应的标准原唱时间信息；所述标准原唱时间信息包括歌词单字起始时间戳和歌词单字结尾时间戳；所述歌词文件可以为qrc歌词文件，所述qrc歌词文件中的每个歌词单字都分别对应有时间标签，所述时间标签包括歌词单字的起始时间和歌词单字的持续时长；其中，所述每个歌词单字分别对应的标准原唱时间信息是根据所述每个歌词单字分别对应的时间标签计算得到的，例如，歌词单字a对应的时间标签包括歌词单字a的起始时间t1和歌词单字a的持续时长t2，则可以计算出歌词单字a对应的歌词单字起始时间戳为t1，歌词单字a对应的歌词单字结尾时间戳为t1+t2。

所述匹配结果获取单元302，用于根据所述每个录音单字分别对应的录音单字起始时间戳和录音单字结尾时间戳，以及所述每个歌词单字分别对应的歌词单字起始时间戳和歌词单字结尾时间戳，获取所述每个录音单字与所述每个歌词单字之间的时间匹配结果；

具体的，所述匹配结果获取单元302进一步根据所述每个录音单字分别对应的录音单字起始时间戳和录音单字结尾时间戳，以及所述每个歌词单字分别对应的歌词单字起始时间戳和歌词单字结尾时间戳，获取所述每个录音单字与所述每个歌词单字之间的时间匹配结果。其中，通过将所述每个录音单字对应的录音单字起始时间戳和录音单字结尾时间戳与所述每个歌词单字对应的歌词单字起始时间戳和歌词单字结尾时间戳进行对比，所述匹配结果获取单元302可以生成所述每个录音单字与所述每个歌词单字之间的时间匹配结果，并将所述时间匹配结果中与录音单字的录音单字起始时间戳和录音单字结尾时间戳最接近的歌词单字确定为与该录音单字时间匹配成功的歌词单字。

所述单字确定单元303，用于根据所述时间匹配结果和所述每个录音单字与所述每个歌词单字之间的识别顺序匹配结果，为每个所述单字音频数据分别确定对应的歌词单字；

具体的，所述单字确定单元303通过先后顺序识别出的每个录音单字与先后顺序识别出的每个歌词单字进行对比，可以生成所述每个录音单字与所述每个歌词单字之间的识别顺序匹配结果，并将与录音单字相同顺位且识别的内容相同的歌词单字确定为与该录音单字顺序匹配成功的歌词单字，例如，若录音单字“天”是第二个识别出的字，而同样处于第二个位置的歌词单字也为“天”，则所述单字确定单元303可以将歌词单字“天”确定为与该录音单字顺序匹配成功的歌词单字。因此，当确定出与某录音单字时间匹配成功的歌词单字，且该歌词单字也为与该录音单字顺序匹配成功的歌词单字时，所述单字确定单元303可以将该歌词单字确定为与该录音单字对应的歌词单字，即包含该录音单字的单字音频数据与该歌词单字对应，因此，根据所述时间匹配结果和所述识别顺序匹配结果可以为每个所述单字音频数据分别确定对应的歌词单字。

请参见图7，是本发明实施例提供的另一种音频数据处理装置的结构示意图。如图7所示，所述音频数据处理装置1000可以包括：至少一个处理器1001，例如cpu，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(display)、键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图7所示的音频数据处理装置1000中，用户接口1003主要用于为用户提供录音音频输入的接口，获取用户输出的录音音频数据；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，并具体执行以下步骤：

获取录音音频数据，并识别所述录音音频数据中的每个录音单字；

按照所述每个录音单字将所述录音音频数据拆分为多个单字音频数据；

在与所述录音音频数据对应的歌词文件中获取与每个所述单字音频数据对应的歌词单字；

根据所述参数对比信息生成所述单字音频数据对应的错误类型标识，并在显示所述歌词单字的范围区域内显示所述错误类型标识。

在一个实施例中，所述处理器1001在执行按照所述每个录音单字将所述录音音频数据拆分为多个单字音频数据时，具体执行以下步骤：

根据所述每个录音单字分别对应的实际演唱时间信息将所述录音音频数据拆分为多个单字音频数据；所述实际演唱时间信息包括录音单字起始时间戳和录音单字结尾时间戳；每个所述单字音频数据均对应一个录音单字。

在一个实施例中，所述处理器1001在执行在与所述录音音频数据对应的歌词文件中获取与每个所述单字音频数据对应的歌词单字时，具体执行以下步骤：

在与所述录音音频数据对应的歌词文件中获取每个歌词单字分别对应的标准原唱时间信息；所述标准原唱时间信息包括歌词单字起始时间戳和歌词单字结尾时间戳；

根据所述每个录音单字分别对应的录音单字起始时间戳和录音单字结尾时间戳，以及所述每个歌词单字分别对应的歌词单字起始时间戳和歌词单字结尾时间戳，获取所述每个录音单字与所述每个歌词单字之间的时间匹配结果；

根据所述时间匹配结果和所述每个录音单字与所述每个歌词单字之间的识别顺序匹配结果，为每个所述单字音频数据分别确定对应的歌词单字。

在一个实施例中，所述实际演唱参数包括所述单字音频数据对应的实际演唱时间信息；所述标准原唱参数包括所述歌词单字对应的标准原唱时间信息；

所述处理器1001在执行将所述单字音频数据的实际演唱参数和所述歌词单字对应的标准原唱参数进行比较，确定所述单字音频数据与所述歌词单字对应的标准原唱参数之间的参数对比信息时，具体执行以下步骤：

根据所述单字音频数据对应的实际演唱时间信息中的所述录音单字起始时间戳和所述录音单字结尾时间戳，以及所述歌词单字对应的标准原唱时间信息中的所述歌词单字起始时间戳和所述歌词单字结尾时间戳，计算所述单字音频数据与所述歌词单字之间的重合时长和非重合时长；

计算所述非重合时长与所述重合时长之间的比值，以得到所述单字音频数据对应的时间重合度，并将所述时间重合度作为所述参数对比信息。

在一个实施例中，所述实际演唱参数包括所述单字音频数据对应的实际演唱音调值；所述标准原唱参数包括所述歌词单字对应的标准原唱音调值；

将所述单字音频数据对应的实际演唱音调值与所述歌词单字对应的标准原唱音调值相减，以得到所述单字音频数据对应的音调偏差值，并将所述音调偏差值作为所述参数对比信息；

其中，所述歌词单字对应的标准原唱音调值是在音乐设备数字接口midi文件中根据所述歌词单字对应的标准原唱时间信息获取到的。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory， rom)或随机存储记忆体(randomaccessmemory，ram)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈雪琪;赵伟峰
技术所有人：广州酷狗计算机科技有限公司
我是此专利的发明人

上一篇：一种应用于音乐喷泉的音乐开始和结束检测方法及系统与流程
上一篇：一种可调式多智能档案柜的制造方法与工艺