音质变换装置及其方法、元音信息制作装置及音质变换系统的制作方法

文档序号：2832681阅读：154来源：国知局

专利名称：音质变换装置及其方法、元音信息制作装置及音质变换系统的制作方法
技术领域：
本发明涉及将声音的音质变换的音质变换装置。特别涉及通过将声道信息变换来变换声音的音质的音质变换装置。
背景技术：
近年来，因为声音合成技术的发展，能够制作非常高音质的合成音。但是，以往的合成音的用途中，将新闻文章以播音员语调朗读等的统一的用途为中心。另一方面，在便携电话的服务等中，提供了代替便携电话的来电音而使用名人的声音消息的服务。这样，有特征的声音作为内容流通。例如，所谓有特征的声音，是个人再现性较高的合成音、因儿童等的年岁、或者地域特有的方言等而具有特征性的韵律及音质的合成音等。这样，为了增加个人间的通讯的乐趣，对于制作特征性的声音的要求提高。人的声音如图17所示，通过声带1601的振动生成的音源波形当通过由声门1602 到口唇1603构成的声道1604时、通过受到舌等调音器官的缩窄等的影响而生成。分析合成型声音合成法通过基于这样的声音的生成原理分析声音，将声音分离为声道信息和音源信息，通过将分离的声道信息和音源信息变形，能够变换合成音的音质。例如，作为声音的分析方法，使用称作声道音源模型的模型。在通过声道音源模型的分析中，将声音基于其生成过程分离为音源信息和声道信息。通过将分离的音源信息和声道信息分别变形，能够变换音质。以往，作为使用少量的声音变换讲话者特征的方法，已知有按每个元音准备多个用来将元音谱包络变换的映射函数、使用基于前后音素的种类(音韵环境)选择的映射函数将谱包络变换来进行音质变换的音质变换装置(例如，参照专利文献1)。在图18中表示专利文献1中记载的以往的音质变换装置的功能性结构。图18所示的以往的音质变换装置具备谱包络提取部11、谱包络变换部12、声音合成部13、声音标签赋予部14、声音标签信息存储部15、变换标签制作部16、音素间变换表推测部17、变换表选择部18和谱包络变换表存储部19。谱包络提取部11从变换源讲话者的输入声音中提取谱包络。谱包络变换部12将由谱包络提取部11提取的谱包络变换。声音合成部13根据由谱包络变换部12变换后的谱包络合成变换目标讲话者的声音。声音标签赋予部14赋予声音标签信息。声音标签信息存储部15将由声音标签赋予部14赋予的上述声音标签信息存储。变换标签制作部16基于存储在声音标签信息存储部15中的上述声音标签信息，制作表示用来变换谱包络的控制信息的变换标签。音素间变换表推测部17推测构成变换源讲话者的输入声音的音素间的谱包络变换表。变换表选择部18基于由变换标签制作部16制作的变换标签，从后述的谱包络变换表存储部19中选择谱包络变换表。谱包络变换表存储部19存储有作为已学习的元音的谱包络变换规则的元音谱包络变换表19a以及作为辅音的谱包络变换规则的辅音谱包络变换表1%。
变换表选择部18从元音谱包络变换表19a及辅音谱包络变换表19b中分别选择与构成变换源讲话者的输入声音的音素的元音及辅音对应的谱包络变换表。音素间变换表推测部17基于所选择的谱包络变换表，推测构成变换源讲话者的输入声音的音素间的谱包络变换表。谱包络变换部12基于上述选择的谱包络变换表和推测的音素间的谱包络变换表，将由谱包络提取部11从变换源讲话者的输入声音提取的谱包络变换。声音合成部13 根据变换后的谱包络合成变换目标讲话者的音质的声音。现有技术文献专利文献专利文献1 特开2002-215198号公报

发明内容
发明要解决的课题在上述专利文献1的音质变换装置中，为了进行音质变换，基于变换源讲话者发声的声音的前后的音素的信息即音韵环境选择用来变换谱包络的变换规则，通过将所选择的变换规则适用于输入声音的谱包络，将输入声音的音质变换。但是，仅通过音韵环境决定作为目标的声音应拥有的音质是困难的。自然的发声的音质受到声音的讲话速度、讲话中的位置、或者重音句内的位置等各种各样的因素影响。例如，在自然的讲话中，有句首清楚且高清晰度地发声、而在句尾发生发音的慵懒而清晰度下降的倾向。或者，在变换源讲话者的讲话中强调了某个单词的情况下，该单词的音质与没有协调的情况相比有清晰度变高的倾向。图19是表示由同一讲话者进行的之前的音素为同一个的相同元音的声道传递特性的曲线图。在图19中，横轴表示频率，纵轴表示谱强度。曲线201 表示发声“趵 t 0 力、‘L· t t (/memaigashimasxu/) ”时的“趵 t ^ ” 的 / ma/的/a/具有的声道传递特性。曲线202表示发声“杉湯力、‘出t # & (/oyugademaseN/)，，时的/ma/的/a/具有的声道传递特性。根据该曲线图可知，即使在具有表示共振频率的共振峰(上方向的峰值)的位置及强度相同的之前的音素的元音彼此中比较，声道传递特性也较大地不同。作为其原因，可以举出，具有由曲线201表示的声道传递特性的元音/a/接近于句首、并且是包含在内容词(content word)中的音素，相对于此，具有由曲线202表示的声道传递特性的元音/a/接近于句尾、并且是包含在功能词(function word)中的音素。此外，在听感上，具有由曲线201表示的声道传递特性的元音/a/听起来更清晰。这里，所谓功能词，是具有语法性的作用的词，在英语中包括前置词(pr印osition)、连接词 (conjunction)、冠词(article)、助动词(adverb)等。此外，所谓内容词，是除此以外的一般性的意思的词，在英语中包括名词(noun)、形容词(adjective)、动词(verb)、副词 (adverb)等。这样，在自然的讲话中，根据文章内的位置而发声方法不同。即，存在“干脆地发声、清晰的声音”或“慵懒地发声、不清晰的声音”等有意识或无意识的发声方法的差异。将这样的发声方法的差异以后称作“发声形态”。发声形态不仅受到音韵环境、而且受到其他各种各样的语言性及生理性的影响而变动。专利文献1的音质变换装置由于没有考虑这样的发声形态的变动、而使用音韵环境选择映射函数并进行音质变换，所以音质变换后的声音的发声形态与变换源讲话者的发声具有的发声形态不同。结果，音质变换后的声音的发声形态的时间变化模式与变换源讲话者的发声的时间变化模式不同，成为非常不自然的声音。对于该发声形态的时间变化，使用图20的概念图进行说明。图20(a)对于作为输入声音发声的声音“力t 0力5 L· t t /memaigashimasxu/”表示包含在声音中的各元音的发声形态(清晰度)的变化。X的区域是清楚的发声，表示清晰度较高的音韵。Y的区域是慵懒的发声，表示清晰度较低的音韵。例如，这样前半是清晰度较高的发声形态、后半是清晰度较低的发声形态。另一方面，图20 (b)是仅根据音韵环境选择变换规则而进行音质变换的情况下的变换声音具有的发声形态的时间变化的示意图。由于仅以音韵环境为基准选择变换规则，所以发声形态与输入声音的特征无关地变动。例如，在如图20(b)那样发声形态变动的情况下，能够得到清楚而清晰度较高地发声的元音(/a/)和慵懒而清晰度较低地发声的元音 (/e/、/i/)交替地反复那样的发声形态的变换声音。此外，图21表示对于发声“杉湯力5出t姑九(/oyugademaseN/) ”的声音使用清楚而清晰度较高地发声的情况下的/a/进行音质变换的情况下的共振峰401的运动的一例。在图21中，横轴表示时刻，纵轴表示共振峰频率，从频率较低一方起，表示第1、第 2及第3共振峰。可知在/ma/中，进行了向别的发声形态(清楚而清晰度较高地发声)的元音/a/的变换后的共振峰402与原来的发声的共振峰401相比频率较大地不同。在这样实施共振峰频率较大地不同的变换的情况下，如图中的虚线所示，各共振峰402的时间性的运动变大，所以不仅音质不同，音质变换后的音质也变差。如果这样发声形态的时间变化模式与输入声音的时间变化模式不同，则不能保持音质变换后的声音中的发声形态的变化的自然性，结果具有音质变换声音的自然性大为恶化的问题。本发明是解决上述问题的，目的是提供一种通过一边保持变换源讲话者的发声拥有的发声形态的时间性变动一边变换音质、由此音质变换时的自然性即流畅度不下降的音质变换装置。用于解决课题的手段有关本发明的一技术方案的音质变换装置，是变换输入声音的音质的音质变换装置，具备声道音源分离部，将输入声音分离为声道信息和音源信息；开口度计算部，根据由上述声道音源分离部分离的上述输入声音所包含的元音的声道信息，计算与口腔内的容积对应的开口度；目标元音数据库存储部，存储有多个元音信息，该元音信息与作为变换上述输入声音的音质的目标的目标讲话者相关，且包括元音种类、开口度的信息和声道信息；开口度一致度计算部，计算元音种类相互一致的、上述开口度计算部计算出的开口度、与包含在存储于上述目标元音数据库存储部中的各上述元音信息中的开口度的一致度；目标元音选择部，基于上述开口度一致度计算部计算出的一致度，从存储在上述目标元音数据库存储部中的多个元音信息之中选择元音信息；元音变形部，使用包含在上述目标元音选择部选择的元音信息中的声道信息，将包含在上述输入声音中的元音的声道信息变形；合成部，使用在上述元音变形部中将元音的声道信息变形后的上述输入声音的声道信息和由上述声道音源分离部分离后的上述音源信息，将声音合成。根据该结构，选择具有与输入声音的开口度一致的开口度的元音信息。因此，能够选择发声形态(清楚与清晰度较高的发声或慵懒的清晰度较低的发声)与输入声音相同的元音。因而，在将输入声音的音质变换为目标音质时，能够在保存输入声音的发声形态的时间性变化模式的同时变换为目标的音质。结果，音质变换后的声音保存有发声形态的变化的时间模式，所以能够进行不使音质变换时的自然性(流畅度)变差的音质变换。优选的是，上述元音信息还包括元音的音韵环境；上述音质变换装置还具备计算元音种类相互一致的、上述输入声音的音韵环境与包含在存储于上述目标元音数据库存储部中的各上述元音信息中的音韵环境之间的距离的音韵环境距离计算部；上述目标元音选择部使用上述开口度一致度计算部计算出的一致度和上述音韵环境距离计算部计算出的距离，从存储在上述目标元音数据库存储部中的多个元音信息之中选择用来将包含在上述输入声音中的元音的声道信息变换的元音信息。根据该结构，通过在考虑音韵环境的距离和开口度的一致度的两者的同时选择目标元音的元音信息，能够在考虑音韵环境的基础上、还考虑开口度。因此，与仅根据音韵环境选择元音信息的情况相比，能够将自然的发声形态的时间变化模式再现，所以能够得到自然性较高的音质变换声音。更优选的是，上述目标元音选择部使用上述开口度一致度计算部计算出的一致度和上述音韵环境距离计算部计算出的距离，使得存储在上述目标元音数据库存储部中的上述元音信息的数量越多、则上述距离对于上述一致度的权重越大，基于被加权的上述一致度及上述距离，从存储在上述目标元音数据库存储部中的多个元音信息之中选择用来将包含在上述输入声音中的元音的声道信息变换的元音信息。根据该结构，在选择元音信息时，存储在目标元音数据库存储部中的元音信息的数量越大，使音韵环境的距离的权重越大。由此，通过在存储在目标元音数据库存储部中的元音信息的数量较少的情况下以开口度的一致度为优先，在没有音韵环境的类似性较高的元音的情况下，也通过选择开口度一致度较高的元音的元音信息，由此选择发声形态一致的元音信息。由此，整体上能够再现自然的发声形态的时间变化模式，所以能够得到自然性较高的音质变换声音。另一方面，在存储在目标元音数据库存储部中的元音信息的数量较多的情况下，通过在考虑音韵环境的距离和开口度的一致度的两者的同时选择目标元音的元音信息，能够在考虑到音韵环境的基础上、还考虑开口度。因此，与以往的仅根据音韵环境选择元音信息的情况相比，能够将自然的发声形态的时间变化模式再现，所以能够得到自然性较高的
音质变换声音。优选的是，上述开口度一致度计算部将元音种类相互一致的、上述开口度计算部计算出的开口度和包含在存储于上述目标元音数据库存储部中的各上述元音信息中的开口度按照讲话者归一化，作为上述一致度，计算归一化后的开口度彼此的一致度。根据该结构，使用按照讲话者归一化的开口度计算开口度的一致度。因此，能够在区别发声形态不同的讲话者(例如清楚、清晰地讲话的讲话者和以模糊的声音叽叽咕咕讲话的讲话者)的基础上计算一致度。由此，能够选择与讲话者的发声形态相匹配的适当的元音信息，所以能够按照讲话者再现自然的发声形态的时间变化模式，能够得到自然性较
高的音质变换声音。此外，也可以是，上述开口度一致度计算部将元音种类相互一致的、上述开口度计算部计算出的开口度和包含在存储于上述目标元音数据库存储部中的各上述元音信息中的开口度按照元音的种类归一化，作为上述一致度，计算归一化后的开口度彼此的一致度。根据该结构，使用按照元音的种类归一化的开口度计算开口度的一致度。因此，能够在区别元音的种类的基础上计算一致度。由此，能够按照元音选择适当的元音信息，所以能够再现自然的发声形态的时间变化模式，能够得到自然性较高的音质变换声音。还可以是，上述开口度一致度计算部作为上述一致度，计算元音种类相互一致的、上述开口度计算部计算出的开口度的时间方向的差、与包含在存储于上述目标元音数据库存储部中的各上述元音信息中的开口度的时间方向的差的一致度。根据该结构，能够基于开口度的变化计算开口度的一致度。因此，能够在兼顾之前的元音的开口度的基础上选择元音信息，所以能够再现自然的发声形态的时间变化模式，能够得到自然性较高的音质变换声音。有关本发明的另一技术方案的音质变换装置，是变换输入声音的音质的音质变换装置，具备声道音源分离部，将输入声音分离为声道信息和音源信息；开口度计算部，根据由上述声道音源分离部分离的上述输入声音所包含的元音的声道信息，计算与口腔内的容积对应的开口度；开口度一致度计算部，参照存储在目标元音数据库存储部中的、分别关于作为将上述输入声音的音质变换的目标的目标讲话者的、包括元音种类、开口度的信息和声道信息的多个元音信息，计算元音种类相互一致的、上述开口度计算部计算出的开口度与包含在各上述元音信息中的开口度的一致度；目标元音选择部，基于上述开口度一致度计算部计算出的一致度，从存储在上述目标元音数据库中的多个元音信息之中选择元音信息；元音变形部，使用包含在上述目标元音选择部选择的元音信息中的声道信息，将包含在上述输入声音中的元音的声道信息变形；合成部，使用在上述元音变形部中将元音的声道信息变形后的上述输入声音的声道信息和由上述声道音源分离部分离后的上述音源信息，将声音合成。根据该结构，选择具有与输入声音的开口度一致的开口度的元音信息。因此，能够选择发声形态(清楚、清晰度较高的发声或者慵懒的清晰度较低的发声)与输入声音相同的元音。因而，在将输入声音的音质变换为目标音质时，能够在保存输入声音的发声形态的时间性变化模式的同时变换为目标的音质。结果，音质变换后的声音保存有发声形态的变化的时间模式，所以能够进行不使音质变换时的自然性(流畅度)变差的音质变换。有关本发明的再另一技术方案的元音信息制作装置，是制作在输入声音的音质变换中使用的目标讲话者的元音信息的元音信息制作装置，具备声道音源分离部，将目标讲话者的声音分离为声道信息和音源信息；开口度计算部，根据由上述声道音源分离部分离后的上述目标讲话者的声音的声道信息，计算与口腔内的容积对应的开口度；目标元音信息制作部，制作关于上述目标讲话者的、包括元音种类、上述开口度计算部计算出的上述开口度的信息和上述声道音源分离部分离后的上述声道信息的元音信息。根据该结构，能够制作在音质变换中使用的元音信息。因此，能够将目标音质随时更新。
有关本发明的再另一技术方案的音质变换系统，具备上述音质变换装置和上述目标元音信息制作装置。根据该结构，选择具有与输入声音的开口度一致的开口度的元音信息。因此，能够选择发声形态(清楚、清晰度较高的发声或者慵懒的清晰度较低的发声)与输入声音相同的元音。因而，在将输入声音的音质变换为目标音质时，能够在保存输入声音的发声形态的时间性变化模式的同时变换为目标的音质。结果，音质变换后的声音保存有发声形态的变化的时间模式，所以能够进行不使音质变换时的自然性(流畅度)变差的音质变换。此外，能够制作在音质变换中使用的元音信息。因此，能够将目标音质随时更新。另外，本发明不仅能够作为具备这样的特征性的处理部的音质变换装置实现，还能够作为以包含在音质变换装置中的特征性的处理部执行的处理为步骤的音质变换方法实现。此外，也可以作为使计算机执行包含在音质变换方法中的特征性的步骤的程序实现。并且，当然可以使这样的程序经由CD-R0M(Compact Disc-Read Only Memory)等计算机可读取的非易失性的记录媒体或因特网等的通信网络流通。发明效果根据有关本发明的音质变换装置，在将输入声音的音质变换为目标音质时，能够维持输入声音的发声形态的时间性变化模式。即，在音质变换后的声音中，保存有发声形态的变化的时间模式，所以能够进行不使自然性(流畅度)变差的音质变换。

图1是表示由发声形态引起的声道截面积函数的差异的图。图2是表示有关本发明的实施方式的音质变换装置的功能性结构的框图。图3是表示声道截面积函数的例子的图。图4是表示发声内的开口度的时间变化模式的图。图5是表示存储在目标元音DB存储部中的目标元音的构建方法的流程图。图6是表示存储在目标元音DB存储部中的元音信息的例子的图。图7是表示通过元音变形部变换的元音区间的PARCOR系数的图。图8是表示通过元音变形部变换的元音的声道截面积函数的图。图9是表示有关本发明的实施方式的音质变换装置执行的处理的流程图。图10是表示有关本发明的实施方式的变形例1的音质变换装置的功能性结构的框图。图11是表示有关本发明的实施方式的变形例1的音质变换装置执行的处理的流程图。图12是表示有关本发明的实施方式的变形例2的音质变换系统的功能性结构的框图。图13是表示用来实施本发明的音质变换装置的最小结构的框图。图14是表示存储在目标元音DB存储部中的元音信息的最小结构的图。图15是表示音质变换装置的外观图。图16是表示音质变换装置的硬件结构的框图。图17是表示人的面部的剖视图。
图18是表示以往的音质变换装置的功能性结构的框图。图19是表示由发声形态引起的声道传递特性的差异的图。图20是表示发声形态的时间性变动的概念图。图21是表示由发声形态的差异引起的共振峰频率的差异的一例的图。
具体实施例方式以下，参照附图对本发明的实施方式进行说明。这里，以选择具有作为目标的声音(目标声音)的特性的元音的元音信息、对变换源的声音(输入声音)的元音区间的特性进行规定的运算来进行音质变换的方法为例进行说明。如已经叙述那样，当进行音质变换时，保持输入声音中的发声形态(清楚和清晰度较高的发声或慵懒的清晰度较低的发声)的时间性变动是重要的。发声形态例如受到声音的讲话速度、讲话内的位置、或者重音句内的位置影响。例如，在自然的讲话中，有句首清楚而清晰地发声、但在句尾发生慵懒而清晰度下降的倾向。此外，在变换源讲话者的讲话中，强调了某个单词的情况下的发声形态与没有强调的情况下的发声形态不同。但是，实现在如以往技术那样考虑到输入声音的音韵环境的基础上、除此以外还全部考虑讲话内位置、重音句内位置、单词的强调等的信息的元音选择法是困难的。这是因为，如果涵盖这些全部的模式，则需要大量地准备目标声音的信息。例如，在片段连接型的声音规则合成系统中，当构建片段数据库时准备几小时到几十小时的声音的情况也不少。在音质变换中也可以考虑收集这样的大量的目标声音。但是，如果这样是可能的，则根本不用使用音质变换技术，只要使用收集到的目标声音构建片段连接型声音合成系统就可以。S卩，音质变换技术的优点在于，与片段连接型声音合成系统相比使用少量的目标声音得到目标音质的合成音。根据本实施方式所示的音质变换装置，能够使用少量的目标声音并且考虑上述的发声形态而克服其反面的课题。图1(a)表示发声上述的“趵t 0力？ L· t t (/memaigashimasxu/)，，时的“趵 i。，，的/ma/的/a/的对数声道截面积函数，图1(b)表示发声“杉湯力5出t姑九(/ oyugademaseN/)，，时的/ma/的/a/的对数声道截面积函数。图1(a)的/a/由于接近于句首、此外是内容词(自立语)，所以作为发声形态被清楚和清晰地讲话。另一方面，图1(b)的/a/接近于句尾，作为发声形态而发生慵懒，清晰度较低。本发明者们通过着意观察这样的发声形态的差异和对数声道截面积函数的关系，得到了发声形态与口腔内的容积有关联的认识。即，有口腔内的容积越大则发声形态越清楚和清晰的倾向，反之，有口腔内的容积越小、则发声形态伴随着慵懒而清晰度越低的倾向。通过将能够根据声音计算的口腔内容积作为开口度的指标，能够从目标声音数据中找出具有希望的发声形态的元音。通过将发声形态用称作口腔内容积的一个值表示，不再需要考虑讲话内位置、重音句内位置、或强调的有无等多种多样的组合的信息，所以能够从少量的目标声音数据中找出具有希望的特性的元音。进而，通过不是在全部的音素中区别音韵环境、而将特性接近的音素作为一个类别削减音韵环境的种类，能够减少目标声音数据的需要量。用一句话讲，在本发明中，通过使用口腔内的容积而保存发声形态的时间性变动，实现自然性的恶化较少的音质变换。图2是表示有关本发明的实施方式的音质变换装置的功能性结构的框图。音质变换装置具备声道音源分离部101、开口度计算部102、目标元音DB (数据库) 存储部103、开口度一致度计算部104、目标元音选择部105、元音变形部106、音源生成部 107和合成部108。声道音源分离部101将输入声音分离为声道信息和音源信息。开口度计算部102使用由声道音源分离部101分离后的元音的声道信息，根据输入声音的各时刻的声道截面积计算开口度。即，开口度计算部102根据由声道音源分离部 101分离的输入声音的声道信息计算对应于口腔内的容积的开口度。目标元音DB存储部103是存储有多个作为目标的音质的元音信息的存储装置。艮口，目标元音DB存储部103存储有多个关于作为变换输入声音的音质的目标的目标讲话者的、包括元音种类、开口度的信息和声道信息的元音信息。元音信息的详细情况在后面叙述。开口度一致度计算部104计算元音种类相互一致的、开口度计算部102计算出的开口度、与包含在存储在目标元音数据库存储部103中的各元音信息中的开口度的一致度。目标元音选择部105基于由开口度一致度计算部104计算出的一致度，从存储在目标元音DB存储部103中的元音信息之中，选择用来将包含在输入声音中的元音的声道信息变换的元音信息。元音变形部106通过使用包含在由目标元音选择部105选择的元音信息中的声道信息将输入声音的各元音的声道信息变形，将音质变换。音源生成部107使用由声道音源分离部101分离的音源信息生成音源波形。合成部108使用由元音变形部106音质变换后的声道信息和由音源生成部107生成的音源波形，生成合成音。通过以上那样构成的音质变换装置，能够在保持输入声音的发声形态的时间性变动的同时进行向目标元音DB存储部103保持的音质的变换。以下，对各个构成单元详细地说明。〈声道音源分离部101>声道音源分离部101对输入声音使用声道音源模型(将声音的发声机构模型化的声音生成模型)，进行声道信息和音源信息的分离。对于在分离中使用的声道音源模型没有限制，是怎样的模型都可以。例如，在作为声道音源模型而使用线性预测模型(LPC模型)的情况下，是将声音波形的某个标本值s(n)根据比其靠前的ρ个标本值预测的模型，标本值s (η)如式1那样表不。
[数式1]
权利要求
1.一种音质变换装置，变换输入声音的音质，具备声道音源分离部，将输入声音分离为声道信息和音源信息；开口度计算部，根据由上述声道音源分离部分离的上述输入声音所包含的元音的声道信息，计算与口腔内的容积对应的开口度；目标元音数据库存储部，存储有多个元音信息，该元音信息与作为变换上述输入声音的音质的目标的目标讲话者相关，且包括元音种类、开口度的信息和声道信息；开口度一致度计算部，计算元音种类相互一致的、由上述开口度计算部计算出的开口度与存储在上述目标元音数据库存储部中的各上述元音信息所包含的开口度之间的一致度；目标元音选择部，基于上述开口度一致度计算部计算出的一致度，从存储在上述目标元音数据库存储部中的多个元音信息之中选择元音信息；元音变形部，使用由上述目标元音选择部选择的元音信息所包含的声道信息，将上述输入声音所包含的元音的声道信息变形；以及合成部，使用在上述元音变形部中将元音的声道信息变形后的上述输入声音的声道信息、以及由上述声道音源分离部分离的上述音源信息，合成声音。
2.如权利要求1所述的音质变换装置，其中，上述目标元音选择部基于上述开口度一致度计算部计算出的一致度，从存储在上述目标元音数据库存储部中的多个元音信息之中，选择具有与上述输入声音所包含的元音的开口度最一致的开口度的元音信息。
3.如权利要求1所述的音质变换装置，其中，上述元音信息还包括元音的音韵环境；上述音质变换装置还具备音韵环境距离计算部，该音韵环境距离计算部计算元音种类相互一致的、上述输入声音的音韵环境与存储于上述目标元音数据库存储部中的各上述元音信息所包含的音韵环境之间的距离；上述目标元音选择部使用上述开口度一致度计算部计算出的一致度、以及上述音韵环境距离计算部计算出的距离，从存储在上述目标元音数据库存储部中的多个元音信息之中，选择用于变换上述输入声音所包含的元音的声道信息的元音信息。
4.如权利要求3所述的音质变换装置，其中，上述目标元音选择部使用上述开口度一致度计算部计算出的一致度、以及上述音韵环境距离计算部计算出的距离，若存储在上述目标元音数据库存储部中的上述元音信息的数量越多，则使上述距离相对于上述一致度的权重越大，基于被加权的上述一致度及上述距离，从存储在上述目标元音数据库存储部中的多个元音信息之中，选择用于变换上述输入声音所包含的元音的声道信息的元音信息。
5.如权利要求1所述的音质变换装置，其中，上述开口度计算部根据由上述声道音源分离部分离的上述输入声音所包含的元音的声道信息计算声道截面积函数，作为由计算出的上述声道截面积函数表示的声道截面积的和来计算上述开口度。
6.如权利要求5所述的音质变换装置，其中，上述开口度计算部根据由上述声道音源分离部分离的上述输入声音所包含的元音的声道信息计算声道截面积函数，在将声道划分为多个区间的情况下，作为用计算出的上述声道截面积函数表示的各区间的声道截面积的和来计算上述开口度。
7.如权利要求1所述的音质变换装置，其中，上述开口度一致度计算部按讲话者，将元音种类相互一致的、由上述开口度计算部计算出的开口度和存储于上述目标元音数据库存储部中的各上述元音信息所包含的开口度归一化，作为上述一致度而计算归一化后的开口度彼此的一致度。
8.如权利要求1所述的音质变换装置，其中，上述开口度一致度计算部按元音的种类，将元音种类相互一致的、由上述开口度计算部计算出的开口度和存储于上述目标元音数据库存储部中的各上述元音信息所包含的开口度归一化，作为上述一致度而计算归一化后的开口度彼此的一致度。
9.如权利要求1所述的音质变换装置，其中，上述开口度一致度计算部作为上述一致度，计算元音种类相互一致的、由上述开口度计算部计算出的开口度的时间方向的差与存储于上述目标元音数据库存储部中的各上述元音信息所包含的开口度的时间方向的差之间的一致度。
10.如权利要求1所述的音质变换装置，其中，上述元音变形部以规定的变换比率，将上述输入声音所包含的元音的声道信息，变形为上述目标元音选择部选择的元音信息所包含的声道信息。
11.一种音质变换装置，变换输入声音的音质，具备声道音源分离部，将输入声音分离为声道信息和音源信息；开口度计算部，根据由上述声道音源分离部分离的上述输入声音所包含的元音的声道信息，计算与口腔内的容积对应的开口度；开口度一致度计算部，参照存储在目标元音数据库存储部中的多个元音信息，计算元音种类相互一致的、由上述开口度计算部计算出的开口度与各上述元音信息所包含的开口度之间的一致度，该多个元音信息分别与作为变换上述输入声音的音质的目标的目标讲话者相关，且包括元音种类、开口度的信息和声道信息；目标元音选择部，基于上述开口度一致度计算部计算出的一致度，从存储在上述目标元音数据库中的多个元音信息之中选择元音信息；元音变形部，使用由上述目标元音选择部选择的元音信息所包含的声道信息，将上述输入声音所包含的元音的声道信息变形；以及合成部，使用在上述元音变形部中将元音的声道信息变形后的上述输入声音的声道信息、以及由上述声道音源分离部分离的上述音源信息，合成声音。
12.—种元音信息制作装置，制作在输入声音的音质变换中使用的目标讲话者的元音信息，具备声道音源分离部，将目标讲话者的声音分离为声道信息和音源信息；开口度计算部，根据由上述声道音源分离部分离的上述目标讲话者的声音的声道信息，计算与口腔内的容积对应的开口度；以及目标元音信息制作部，制作元音信息，该元音信息与上述目标讲话者相关，且包括元音种类、上述开口度计算部计算出的上述开口度的信息、以及上述声道音源分离部分离的上述声道信息。
13.一种音质变换系统，具备权利要求1所述的音质变换装置；以及权利要求12所述的元音信息制作装置。
14.一种音质变换方法，变换输入声音的音质，包括声道音源分离步骤，将输入声音分离为声道信息和音源信息；开口度计算步骤，根据上述声道音源分离步骤中分离的上述输入声音所包含的元音的声道信息，计算与口腔内的容积对应的开口度；开口度一致度计算步骤，计算元音种类相互一致的、在上述开口度计算步骤中计算出的开口度与存储有多个元音信息的目标元音数据库存储部中存储的各上述元音信息所包含的开口度之间的一致度，该元音信息与作为变换上述输入声音的音质的目标的目标讲话者相关，且包括元音种类、开口度的信息和声道信息；目标元音选择步骤，基于在上述开口度一致度计算步骤中计算出的一致度，从存储在上述目标元音数据库存储部中的多个元音信息之中，选择用于变换上述输入声音所包含的元音的声道信息的元音信息；元音变形步骤，使用上述目标元音选择步骤中选择的元音信息所包含的声道信息，将上述输入声音所包含的元音的声道信息变形；以及合成步骤，使用在上述元音变形步骤中将元音的声道信息变形后的上述输入声音的声道信息、以及在上述声道音源分离步骤中分离的上述音源信息，合成声音。
15.如权利要求14所述的音质变换装置，其中，在目标元音选择步骤中，基于在上述开口度一致度计算步骤中计算出的一致度，从存储在上述目标元音数据库存储部中的多个元音信息之中，选择具有与上述输入声音所包含的元音的开口度最一致的开口度的元音信息。
16.一种程序，是用于变换输入声音的音质的计算机可执行的程序，上述计算机具备目标元音数据库存储部，该目标元音数据库存储部存储有多个元音信息，该元音信息包括元音种类、开口度的信息和声道信息；上述程序用于使计算机执行以下步骤声道音源分离步骤，将输入声音分离为声道信息和音源信息；开口度计算步骤，根据在上述声道音源分离步骤中分离的上述输入声音所包含的元音的声道信息，计算与口腔内的容积对应的开口度；开口度一致度计算步骤，计算元音种类相互一致的、在上述开口度计算步骤中计算出的开口度与存储于上述目标元音数据库存储部中的与作为变换上述输入声音的音质的目标的目标讲话者相关的各上述元音信息所包含的开口度之间的一致度；目标元音选择步骤，基于在上述开口度一致度计算步骤中计算出的一致度，从存储在上述目标元音数据库存储部中的多个元音信息之中选择元音信息；元音变形步骤，使用上述目标元音选择步骤中选择的元音信息所包含的声道信息，将上述输入声音所包含的元音的声道信息变形；以及合成步骤，使用在上述元音变形步骤中将元音的声道信息变形后的上述输入声音的声道信息、以及在上述声道音源分离步骤中分离的上述音源信息，合成声音。
全文摘要
音质变换装置具备声道音源分离部(101)，将输入声音分离为声道信息和音源信息；开口度计算部(102)，根据元音的声道信息计算开口度；目标元音数据库存储部(103)，存储有多个关于目标讲话者的、包括元音种类、开口度的信息和声道信息的元音信息；开口度一致度计算部(104)，计算所计算出的开口度与存储于目标元音数据库存储部(103)中的各元音信息所包含的开口度的一致度；目标元音选择部(105)，基于一致度，从存储在目标元音数据库存储部(103)中的多个元音信息之中选择元音信息；元音变形部(106)，使用包含在所选择的元音信息中的声道信息，将包含在输入声音中的元音的声道信息变形；以及合成部(108)，使用将元音的声道信息变形后的输入声音的声道信息和音源信息，将声音合成。
文档编号G10L13/02GK102473416SQ201180002648
公开日2012年5月23日申请日期2011年3月16日优先权日2010年6月4日
发明者广濑良文, 釜井孝浩申请人:松下电器产业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：广濑良文;釜井孝浩
技术所有人：松下电器产业株式会社
我是此专利的发明人

上一篇：声音分类装置、方法、程序及集成电路的制作方法
上一篇：声音识别装置以及声音识别方法