专利名称:一种韵律标注的方法及专用标注设备的制作方法
技术领域:
本发明一般地涉及语音数据处理技术领域,尤其是一种韵律标注的方法及专用标注设备。
背景技术:
带有韵律标注的声音资源库,是语音识别或者从文本到语音(Text ToSpeech,TTS)领域不可或缺的知识训练源。目前现有技术在进行韵律标注时,有一种是利用生语料和标点符号信息生成统计概率模型,再根据该模型进行韵律标注;但是因为生成的统计概率模型不够准确,所以进行韵律标注的结果也不够精确;还有一种现有技术将用户的真实声音作为训练数据,根据发声规则和统计出的音素长度来生成规则韵律信息;但是用户会出现疲累的状态,这样就会 使得生成的规则韵律信息不够通用。总之,采用现有技术进行韵律标注都不能有效生成准确的音频标注信息,进而也使得语音合成的准确度或者流畅程度都不满足实际需求。
发明内容
有鉴于此,本发明实施例提供了一种韵律标注的方法及专用标注设备,能够方便得生成准确的音频标注信息,进而也使得语音合成的准确度或者流畅程度都能够满足实际需求。根据本发明实施例的一个方面,提供一种专用标注设备,包括接收模块,用于接收待标注的音频数据标识,所述音频数据标识包括音频数据的批次和/或数据条目号;播放模块,用于依据所述音频数据标识向标注者播放相对应的音频数据;记录模块,用于在检测到所述标注者触发了标注过程的情况下,记录与所述标注者的标注行为相关的信息;生成模块,用于根据所述与标注者的标注行为相关的信息生成所述音频数据的音频标注信肩、O根据本发明实施例的另一个方面,提供一种韵律标注的方法,包括接收待标注的音频数据标识,所述音频数据标识包括音频数据的批次和/或数据条目号;依据所述音频数据标识向标注者播放相对应的音频数据;在检测到所述标注者触发了标注过程的情况下,记录与标注者的标注行为相关的信息;根据所述与标注者的标注行为相关的信息生成所述音频数据的音频标注信息。另外,根据本发明实施例的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述一种韵律标注的方法。此外,根据本发明实施例的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述一种韵律标注的方法。
根据本发明实施例的上述方法,可以通过多次向标注者播放音频数据的方式,能够在标注者熟悉音频数据之后,再触发音频数据的标注过程,并且通过重复标注的方式,可以使得采用本实施例得到的音频标注数据更准确,进而也使得采用音频标注数据进行语音合成的准确度或者流畅程度都能够满足实际需求。并且,还能够对某一个标注者所标注的所有音频标注信息进行可信权重处理,这样就能进一步评估音频标注信息的精确度和准确性,从而为后续的语音合成等应用打下基础。在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。
下面结合具体的实施例,并参照附图,对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。
图I是示出作为本发明实施例提供的第一种韵律标注的方法流程图;图2是示出作为第一种方法实施例中步骤S102的流程图;图3是示出作为第一种方法实施例中步骤S103的流程图;图4是示出作为本发明实施例提供的第二种韵律标注的方法流程图;图5是示出作为本发明实施例提供的第三种韵律标注的方法流程图;图6是示出作为第三种方法实施例中步骤S506的流程图;图7是示出作为第三种方法实施例中步骤S507的流程图;图8是示出作为本发明实施例提供的韵律标注的装置的示意图;图9是示出作为韵律装置实施例中专用标注设备的界面的示意图;图10是示出作为韵律装置实施例中记录模块603的示意图;图11是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。
具体实施例方式下面参照附图来说明本发明的实施例。具体的,参见图1,本发明实施例提供的第一种韵律标注的方法可以包括SlOl :接收待标注的音频数据标识,所述音频数据标识包括音频数据的批次和/或数据条目号。在本发明实施例中,待标注的音频数据标识可以采用音频数据的批次或者数据条目号来表示,这样就可以通过选择需要标注的批次和/或数据条目号来确定出待标注的音频数据。其中,待标注的音频数据可以使用无线上网模块从互联网进行下载,或者可以使用USB模块从本地下载,待标注的音频数据的获取方式可以有多种,本发明实施例中对此不做限定。S102 :依据所述音频数据标识向标注者播放相对应的音频数据。当选择音频数据标识之后,就可以确定出待标注的音频数据,此时,再向标注者播放选择的音频数据。需要说明的是,这里的标注者可以由自然人来实现,也可以采用具有标注功能的实体来实现。具体的,参考图2所示,所述步骤S102在实际应用中可以包括S201 :依据所述音频数据标识向标注者第一次播放相对应的音频数据。在播放音频数据过程中,可以采取反复播放的方式,这样可以提高标注的准确度。因此首先向标注者第一次播放相对应的音频数据。S202 :在停顿第一预定时间段之后,向标注者第二次播放所述音频数据。所述第一预定时间段可以设置为两秒,这样就可以给标注者一个适应时间,提高标注的注意力。S203 :在停顿第二预定时间段之后,向标注者第三次播放所述音频数据。 所述第二预定时间段可以设置为三秒,其与第一预定时间段起到相同的作用。回到图1,在步骤S103 :在检测到所述标注者触发了标注过程的情况下,记录与标注者的标注行为相关的信息。在向标注者播放两次待标注的音频数据的情况下,检测标注者是否触发了标注过程,如果标注者触发了标注过程,则记录与标注者的标注行为相关的信息,所述与标注者的标注行为相关的信息具体可以为触发时间点和停顿时长信息,即是标注者触发标注按键的时间点和每一次触发的时长。在标注者没有触发标注过程的情况下,则不做任何其他的相关处理,继续播放所述音频数据,直至标注者触发了标注过程再开始记录标注信息,例如初始触发时间点和初始停顿时长信息等等。具体的,参考图3所示,所述步骤S103在实际应用中可以包括S301 :在第三次播放所述音频数据的过程中,检测标注者是否触发了标注过程,如果是,则进入步骤S302,如果否,则进入步骤S304。需要说明的是,检测标注者是否触发了标注过程,可以通过检测标注者是否触发标注按键来实现,具体的介绍可以参考下一个实施例。S302 :记录初始触发时间点和初始停顿时长信息。记录初始触发时间点和初始停顿时长信息,需要说明的是,在S302中记录的初始触发时间点和初始停顿时长信息可以认为是模拟过程,因为在第四次播放音频数据的过程中记录的触发时间点和停顿时长信息作为最终的音频标注数据。S303:第三次播放音频数据完毕时,停顿第三预定时间段,并在向标注者第四次播放所述音频数据的过程中,记录最终触发时间点和最终停顿时长信息。所述第三预定时间段具体可以设置为一秒。需要说明的是,在S303中记录的最终触发时间点和最终停顿时长信息也可以与S302中的初始触发时间点和初始停顿时长信息进行比较,或者取其平均值作为最终的音频标注数据都是可行的,具体可以根据实际情况或者用户需求适应性调整。S304 :不做任何其他的相关处理,继续播放所述音频数据。回到图1,在步骤S104 :根据所述与标注者的标注行为相关的信息生成所述音频数据的音频标注信息。在本实施例中,可以采用将在第四次播放所述音频数据过程中记录的所述最终触发时间点和最终停顿时长信息作为音频标注信息的方式。
需要说明的是,在本申请实施例中提及的预定时间段,都可以根据不同的实际需求进行适应性调整,本申请实施例就不再进行限定。通过上述第一种韵律标注的方法,可以通过多次向标注者播放音频数据的方式,能够在标注者熟悉音频数据之后,再触发音频数据的标注过程,并且通过重复标注的方式,可以使得采用本实施例得到的音频标注数据更准确,进而也使得采用音频标注数据进行语音合成的准确度或者流畅程度都能够满足实际需求。具体的,参见图4,本发明实施例提供了另一种韵律标注的方法,可以包括
S401 :通过专用标注设备的界面接收待标注的音频数据标识,所述音频数据标识包括音频数据的批次和/或数据条目号。在本实施例中,具体可以通过专用设备的界面来接收待标注的音频数据标识,所述音频数据标识也可以包括音频数据的批次和/或数据条目号。S402 :依据所述音频数据标识向标注者播放相对应的音频数据。本步骤与第一种韵律标注的方法实施例类似,在此不再赘述。S403:通过检测标注者是否触发所述专用标注设备的界面上的标注按钮来检测是否触发了标注过程。在本实施例中,具体通过检测标注者是否触发了专用标注设备的界面上的标注按钮来检测是否触发了标注过程。如果能够接收到标注者在标注按钮上的触发信息,则认为标注者已经触发了标注过程,这样就可以通过检测标注按钮的触发信息来检测是否开始进行标注。S404:在检测到所述标注者触发了标注过程的情况下,记录与标注者的标注行为相关的信息。S405:根据所述与标注者的标注行为相关的信息生成所述音频数据的音频标注信
肩、OS406:将所述记录的音频标注信息保存为可以用于网络传输的数据格式。在生成所述音频数据的音频标注信息之后,还将所述音频标注信息保存为可以用于网络传输的数据格式,例如可扩展标记语言(XML,Extensible Markup Language)格式的文件,可以将音频标注信息保存在存储器中,每条声音数据可以只保留最新的标注记录。通过本实施例中,如果待标注的音频数据有更新,则可以通过网络下载或者本地下载重复执行标注流程,最后保存的音频标注信息可以通过USB接口导出或者通过网络上传到服务端。本实施例除了能够方便得生成准确的音频标注信息,进而也使得语音合成的准确度或者流畅程度都能够满足实际需求之外,还可以方便得通过检测标注按钮的触发信息来监控是否需要进行标注,以及能够方便的在网络上实现音频标注信息的共享和发布。具体的,参见图5,本发明实施例提供了第三种韵律标注的方法,可以包括S501 :接收待标注的音频数据标识,所述音频数据标识包括音频数据的批次和/或数据条目号。S502 :依据所述音频数据标识向标注者播放相对应的音频数据。S503 :在检测到所述标注者触发了标注过程的情况下,记录与标注者的标注行为相关的信息。S504:根据所述与标注者的标注行为相关的信息生成所述音频数据的音频标注信息。S505 :从任一标注者的音频标注信息集合中抽取出至少两个音频标注信息样本。在本实施例中,在生成音频标注信息之后,针对任一个标注者,还可以对其所有的音频标注信息进行可信权重处理,用来检测音频标注信息的可信程度。首先需要从任一标注者的音频标注信息集合中抽取出至少两个音频标注信息样本。S506:依据所述至少两个音频标注信息样本获取所述任一标注者的标准基准时长。在本步骤中需要依据抽取出的至少两个音频标注信息样本计算该任一标注者的标准基准时长。参考图6所示,具体的,所述步骤S506在实际应用中可以包括S601 :获取每一个音频标注信息样本中子标注时长的最小值。在实际应用中,假设抽取出N条音频标注信息样本,而每条标注信息则有M个子标注时长,则本步骤分别获取N个子标注时长集合的最小值Min (T1, T2. . . Tn),获取N个最小时长信息。S602:依据获取到的最小值计算每条音频标注信息中子标注时长的标准差值。依据所述N个最小的子标注时长信息,计算子标注时长的标准差值E。在本步骤中计算标准差值可以采用现有的计算公式,在此不再一一列举额。S603:将最小的标准差值所对应的音频标注信息中最小的子标注时长作为所述任一标注者的标准基准时长。因为计算出的标准差值有N个,所以将N个标准差值中最小的那个标准差值Min(E)所对应的音频标注信息中最小的子标注时长作为所述任一标注者的标准基准时长Pi0S507:利用所述标准基准时长对所述任一标注者的音频标注信息集合进行可信权
重处理。在步骤S603得到标注者的标注基准时长之后,利用标准基准时长对该标注者的音频标注信息集合进行可信权重处理。参考图7,所述步骤S507具体可以包括S701 :依据该标注者的前N条音频标注信息的N个最小子标注时长,计算所述N个最小子标注时长与所述基准标注时长的标准差;其中,N为大于I的自然数。在本步骤中,每个用户有一个标准基准时长Pi,再根据每个用户标注N条音频数据的N条最小子标注时长Ti计算该N条最小子标注时长的标准差,计算公式如下
权利要求
1.一种专用标注设备,包括 接收模块,用于接收待标注的音频数据标识,所述音频数据标识包括音频数据的批次和/或数据条目号; 播放模块,用于依据所述音频数据标识向标注者播放相对应的音频数据; 记录模块,用于在检测到所述标注者触发了标注过程的情况下,记录与所述标注者的标注行为相关的信息; 生成模块,用于根据所述与标注者的标注行为相关的信息生成所述音频数据的音频标注信息。
2.根据权利要求I所述的设备,所述与标注者的标注行为相关的信息具体为触发时间点和停顿时长信息。
3.根据权利要求2所述的设备,所述播放模块具体配置为 依据所述音频数据标识向标注者第一次播放相对应的音频数据; 在停顿第一预定时间段之后,向标注者第二次播放所述音频数据;以及 在停顿第二预定时间段之后,向标注者第三次播放所述音频数据。
4.根据权利要求2所述的设备,所述记录模块包括 检测子模块,用于在第三次播放所述音频数据时,检测标注者是否触发了标注过程; 第一记录子模块,用于在所述检测子模块的结果为是时,记录初始触发时间点和初始停顿时长信息; 第二记录子模块,用于在第三次播放音频数据完毕时,停顿第三预定时间段,并在向标注者第四次播放所述音频数据的过程中,记录最终初始触发时间点和停顿时长信息。
5.根据权利要求2所述的设备,所述生成模块具体配置为 将在第四次播放所述音频数据过程中记录的所述最终触发时间点和最终停顿时长信息作为音频标注信息。
6.根据权利要求I所述的设备,所述接收模块具体配置为 通过专用标注设备的界面接收待标注的音频数据标识。
7.根据权利要求4所述的设备,所述检测子模块具体配置为 通过检测标注者是否触发所述专用标注设备的界面上的标注按钮来检测是否触发了标注过程。
8.根据权利要求I所述的设备,所述专用标注设备的界面的长宽比例为2 1,所述标注按钮在所述专用标注设备的界面上的位置采用黄金分割比设置,至少一个播放控制按钮位于所述标注按钮下方2-3厘米处呈正方形排列,该播放控制按钮用于控制所述音频数据的播放顺序;除所述播放控制按钮之外的其他按键设置在所述专用标注设备的界面的四周。
9.一种韵律标注的方法,包括 接收待标注的音频数据标识,所述音频数据标识包括音频数据的批次和/或数据条目号; 依据所述音频数据标识向标注者播放相对应的音频数据; 在检测到所述标注者触发了标注过程的情况下,记录与标注者的标注行为相关的信息;根据所述与标注者的标注行为相关的信息生成所述音频数据的音频标注信息。
10.根据权利要求I所述的方法,所述与标注者的标注行为相关的信息具体为触发时间点和停顿时长信息。
全文摘要
本发明实施例公开了一种韵律标注的方法及专用标注设备,所述方法包括接收模块,用于接收待标注的音频数据标识,所述音频数据标识包括音频数据的批次和/或数据条目号;播放模块,用于依据所述音频数据标识向标注者播放相对应的音频数据;记录模块,用于在检测到所述标注者触发了标注过程的情况下,记录与所述标注者的标注行为相关的信息;生成模块,用于根据所述与标注者的标注行为相关的信息生成所述音频数据的音频标注信息。通过本发明实施例,能够使标注的音频标注数据更准确,进而也使得采用音频标注数据进行语音合成的准确度或者流畅程度都能够满足实际需求。本发明实施例提供的专用标注设备也更适合盲人使用。
文档编号G10L15/22GK102881285SQ20111020428
公开日2013年1月16日 申请日期2011年7月15日 优先权日2011年7月15日
发明者张波, 孟遥, 于浩 申请人:富士通株式会社