专利名称:音质编辑装置及音质编辑方法
技术领域:
本发明涉及对声音的音质进行编辑的装置及方法。
背景技术:
近几年,随着声音合成技术的发展,已经能够制作出极高音质的合成
音
但是,以往的合成音的用途主要以播音员的风格朗读新闻等用途为中心。
另一方面,在移动电话服务等领域,提供使用名人的声音信息来代替 铃声之类的服务等,有特征的声音(个人再现性高的合成音,以及女高中 生腔调或者关西方言腔调等具有特征性的韵律和音质的合成音)作为一个 内容开始流通。为了增加这样的人际交流中的乐趣,可以想像对于制作给 对方听的特征性的声音的需求今后会更高。
再者,作为合成声音的方法,大致分为以下两种。即,从预先准备好
的声音单元DB (数据库)中选择适当的声音单元,并通过将其进行连接来 合成声音的波形连接型声音合成方法,和对声音参数进行分析,以分析后 的参数为基础来合成声音的分析合成型声音合成方法。
如果考虑使上述合成音的音质进行各种各样的变化,则在波形连接型 声音合成方法中,需要尽量准备必要的声音单元DB,并切换声音单元DB, 同时需要对单元进行连接。因此,为了制作各种各样音质的合成音,需要 庞大的费用。
另 一方面,分析合成型声音合成方法通过使分析后的声音参数进行变 形,从而能够转换合成音的音质。
而且,存在利用讲话者适应技术来转换音质的方法。即为通过使预先 准备的其他的讲话者的声音的特征适用于分析后的声音参数,来转换音质 的方法。为了改变声音的音质,需要以某种方法使用户指定想改变为怎样的音 质。例如,作为指定音质的方法,存在如图1所示的,使用几个感性轴的 滑动器,来使用户指定音质的方法。但是,缺乏有关声音的预备知识的用 户,通过这样调节滑动器难以得到想要的音质。这是因为,用户将自己想 制作的音质通过感性语言来语言化的事情本身就很难。例如,在图1的例
子中,"年龄在30岁左右,非常女性化,但是,稍带阴郁,无感情, 等之类的,必须根据自己设想的音质来调节滑动器,但是,这样的操作在 缺乏声音的预备知识的情况下很难。而且,反过来,根据滑动器的状态来 想起此状态所表示的音质的情况同样是困难的。
另一方面,平时,在听到了未知的音质的声音的情况下,进行如下的 表现是自然的。即,听到了未知的音质的声音的用户,所谓"象X先生一 样的声音,不过,又有点象Y先生的声音"(在此,X、 Y表示用户知道的 个人)等那样,利用用户已经知道的具体的人名来表现未知的音质是自然 的。在此,可以考虑到通过将具体的个人(具备某种特征的个人所具有的 音质)进行组合,从而能够直观地指定音质。
这样,在通过对系统预先保持的具体的个人的音质进行组合,来使用 户编辑音质的情况下,系统以容易理解的方法来出示所保持的音质的出示 方法变得重要。并且,通过利用编辑后的音质的声音特征来进行依据讲话 者适应技术的音质转换,能够生成具有用户所期望的音质的合成声音。
再者,具有如专利文献l那样的,向用户出示登记在数据库的声信息, 以供选择的方法。专利文献1公开了一种从各种各样的效果音中,使用户 选择所期望的效果音的方法。在专利文献1所记载的方法中,根据声特征 和感性信息,将所保有的效果音配置在声空间中,并出示与效果音的声特 征对应的图标。
图2是专利文献1所记载的声浏览装置的框图。
声浏览装置包括声数据存储部l、声空间坐标数据生成部2、声空间 坐标数据存储部3、图标图像生成部4、声数据显示部5、声空间坐标输入 部6、立体声再生处理部7、声数据再生部8。
声数据存储部1,将声数据本身、在画面上显示该声数据吋使用的图标 图像、有关该声数据的声特征量作为一组来存储。声空间坐标数据生成部2
9根据被存储在声数据存储部1的声特征量,生成应该显示在画面上的声空 间中的该声数据的坐标数据。即,算出在声空间中,该声数据应该被显示 在哪个位置上。
在画面上显示的图标图像根据声特征量,在图标图像生成部4被生成。 具体而言,根据该效果音的频谱分布和感性参数,来生成图标图像。
在专利文献1中,通过这样的在空间中配置个别的效果音,从而使用 户容易指定效果音。然而,出示效果音的坐标是由声空间坐标数据生成部2 决定了的坐标,是固定的。因此,未必是与用户的感觉相符的声空间。
另一方面,具有如专利文献2那样的,在数据显示处理系统中,按照 用户的输入来修正信息的重要度的方法。专利文献2所记载的数据显示处 理系统是按照该系统保有的信息的重要度,来改变信息的显示大小的系统。 数据显示处理系统接受依据用户的重要度的修正,并根据修正后的信息, 对算出重要度时的权重进行修正。
图3是专利文献2的数据显示处理系统的框图。在图3中,编辑处理 部11是进行有关作为成为显示对象的有意义的数据的单位的数据元素的集 合的编辑处理的处理部。编辑数据记忆部14是记忆编辑对象及显示对象的 文章或图解数据的记忆装置。加权系数记忆部15是记忆用于预先决定了的 几个基本重要度函数的结合的加权系数的记忆装置。重要度计算部16是通
过根据加权系数结合了基本重要度函数的函数,计算成为显示对象的各个 数据元素的重要度的处理部。加权描绘处理部17是按照计算后的各个数据 元素的重要度,决定各个数据元素的显示大小或者是否显示,并通过进行 各个数据元素的显示布局,来制作显示数据的处理部。显示控制部18进行 使显示装置20显示加权描绘处理部17制作的显示数据的控制。编辑处理 部11具有加权系数变更单元12,该加权系数变更单元12根据来自输入装 置19的输入,对加权系数记忆部15所记忆的与各个基本重要度函数对应 的加权系数进行变更。而且,数据显示处理系统还包括机械学习处理部13。 机械学习处理部13根据伴随由编辑处理部11通知的用户指示的显示大小 的变更等的操作信息,通过学习加权系数记忆部15记忆的加权系数来进行 自动变更的处理。加权描绘处理部17按照各个数据元素的重要度,进行可 见度型加权描绘处理、两数值大小型加权描绘处理或比例大小型加权描绘处理,或者进行对其中的几个进行组合后的加权描绘处理。
专利文献l:(日本)特开2001—5477号公报 专利文献2:(日本)特开平6—130921号公报
但是,在试图将专利文献2的技术利用于音质编辑的情况下,存在如 何构成适合用户的感性的音质空间的问题,以及如何生成被用户指定了的 音质的问题。
艮P,虽然在专利文献2中对各个数据的重要度进行调节,但是,对于 声音难以适用同样的想法。换言之,数据的重要度作为单一的指标,能够 依据个人的价值观来决定。但是,在试图将声音的特征配合个人的要求进 行编辑的情况下,这样的一个指标是不够的。
对此问题进行具体的说明。例如设针对声音决定一个指标。作为此指 标,设选择了所谓声音的高低的轴。在此情况下,用户能够改变声音的高 低,而即使感到的是同样高度的声音也存在无数的音质。因此,只根据一 个指标来进行音质的编辑是困难的。另一方面,如果选择所谓重要度或好 感度等综合性的指标,则对于每个声音能够如专利文献2那样,根据个人 的价值观来数值化。但是,即使感到的是同样重要的声音,也存在无数音 质不同的例子。
这个问题是,若不深入考虑到如何重要、为什么感到好感度高的层次, 就不能接近目标音质的本质性的问题。因此,归根到底,需要对如图1那 样的多个参数进行调节,从而需要关于声音的专门知识。
而且,在专利文献1的出示方法中,能够选择被配置在向用户出示的 音质空间的声音。但是,若只切换适合用户的感觉的音质空间的构成方法, 则具有在从于音质空间内选择了的声音位置稍微移动后的位置而得到的所 期望的音质和,系统生成的音质之间产生乖离的问题。这是因为,不具有 将以此感觉尺度构成的空间对应于系统所具有的内部参数的空间的方案。
并且,在专利文献1中,通过图标图像出示声音,此图标图像根据声 特征量来制作。因此,存在为了进行音质的编辑,需要关于声音的专门知 识的问题
发明内容
本发明就是为了解决上述的问题,其目的在于,提供一种即使是不具 备关于声音的专门知识的用户,也能够容易地进行音质的编辑的音质编辑 装置。
为了达到上述目的,本发明的某个局面所涉及的音质编辑装置通过对 各自由多个音质的声特征量构成的多个音质特征进行编辑,从而生成新的 音质特征,所述音质编辑装置包括音质特征数据库,记忆多个音质特征; 讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个音质特征 的每一个,记忆用户能够想起的与该音质特征对应的音质的标识符;权重 设定部,按每个音质的声特征量来设定权重;显示坐标算出部,关于所述 音质特征数据库所记忆的所述多个音质特征的每一个,根据构成该音质特 征的所述多个声特征量和所述权重设定部所设定的权重,算出该音质特征 的显示坐标;显示部,关于所述音质特征数据库所记忆的所述多个音质特 征的每一个,在所述显示坐标算出部所算出的显示坐标上显示与该音质特 征对应的、并被记忆在所述讲话者属性数据库中的标识符;位置输入部, 接受坐标的输入;以及音质混合部,关于所述音质特征数据库所记忆的所 述多个音质特征的一部分或者全部的每一个,通过算出该音质特征的显示 坐标与由所述位置输入部接受了的所述坐标之间的距离,根据算出的距离 的比率,混合所述多个音质特征的一部分或者全部的声特征量,从而生成 新的音质特征。
根据此构成,显示部所显示的标识符是用户能够想起音质的标识符。 因此,用户通过观察被显示的标识符,能够想起音质。因此,即使是没有 对声音的专门的知识的用户,也能够容易地进行音质特征的编辑。而且, 根据由权重设定部设定的权重,算出音质特征的显示坐标。因此,能够在 有关音质特征间的距离的与用户的感觉相符的显示坐标上,显示与音质特 征相对应的标识符。
最好是,所述讲话者属性数据库,关于所述音质特征数据库所记忆的 所述多个音质特征的每一个,记忆具有该音质特征的声音的讲话者的面部 图像、肖像画或名字、或者发出具有该音质特征的声音的角色的图像或名 字,所述显示部,关于所述音质特征数据库所记忆的所述多个音质特征的 每一个,在所述显示坐标算出部所算出的显示坐标上显示讲话者的面部图像、肖像画或名字、或者角色的图像或名字,所述讲话者的面部图像、肖 像画或名字、或者角色的图像或名字与该音质特征对应、并被记忆在所述 讲话者属性数据库中。
根据此构成,用户根据被显示的面部图像等,能够直接想起音质。
最好,所述音质编辑装置还包括用户信息管理数据库,记忆与用户所 知道的音质相对应的音质特征的识别信息,所述显示部,关于在所述音质 特征数据库所记忆的所述多个音质特征之中的、识别信息被记忆在所述用 户信息管理数据库中的音质特征的每一个,将与该音质特征对应的、并被 记忆在所述讲话者属性数据库中的标识符,显示在所述显示坐标算出部所 算出的显示坐标上。
根据此构成,与显示部所显示的标识符对应的所有的音质都是用户知 道的音质。因此,用户通过观察被显示的标识符,能够确实想起音质。因 而,即使是没有对声音的专门的知识的用户,也能够容易地进行音质特征 的编辑,从而能够减轻音质特征的编辑所需要的用户的负荷。
进而最好,所述音质编辑装置还包括个人特征输入部,接受用户的 性别或年龄的输入;以及用户信息管理数据库,按每个用户的性别或年龄,
记忆该性别或该年龄的用户有可能知道的音质的音质特征的识别信息,所 述显示部,关于在所述音质特征数据库所记忆的所述多个音质特征之中的、 识别信息与被记忆在所述用户信息管理数据库中的、与所述个人特征输入 部所接受的用户的性别或年龄对应的识别信息一致的音质特征的每一个, 将与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识符, 显示在所述显示坐标算出部所算出的显示坐标上。
根据此构成,用户只需输入自己的性别或年龄,就能够限制与自己可 能不知道的音质相对应的标识符的显示。因此,能够减轻音质编辑所需要 的用户的负荷。
本发明的其他局面所涉及的音质编辑系统,通过对各自由多个音质的 声特征量构成的多个音质特征进行编辑,从而生成新的音质特征,通过网 络而互相连接的第一终端、第二终端以及服务器,所述第一终端及所述第
二终端分别具有音质特征数据库,记忆多个音质特征;讲话者属性数据
库,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,记忆用户能够想起的与该音质特征对应的音质的标识符;权重设定部,按每个 音质的声特征量来设定权重,并发送到所述服务器;音质间距离算出部, 从所述音质特征数据库所记忆的多个音质特征之中抽取由任意两个音质特 征组成的音质特征组,按每个被抽取的音质特征组,对构成该组所包含的 音质特征的声特征量,以所述服务器所保持的权重进行加权,并算出加权 后的所述音质特征间的距离;尺度构成部,根据由所述音质间距离算出部 算出的音质特征间的距离,算出所述音质特征数据库所记忆的所述多个音 质特征的显示坐标;显示部,关于所述音质特征数据库所记忆的所述多个 音质特征的每一个,在所述尺度构成部所算出的显示坐标上显示与该音质 特征对应的、并被记忆在所述讲话者属性数据库中的标识符;位置输入部, 接受坐标的输入;以及音质混合部,关于所述音质特征数据库所记忆的所 述多个音质特征的一部分或者全部的每一个,通过算出该音质特征的显示 坐标与由所述位置输入部接受了的所述坐标之间的距离,并根据算出的距 离的比率,混合所述多个音质特征的一部分或者全部的声特征量,从而生 成新的音质特征,所述服务器具有权重记忆部,记忆从所述第一终端或者 所述第二终端发送的权重。
根据此构成,第一终端及第二终端能够共有服务器所管理的权重。因 此,在第一终端及第二终端保持相同的音质特征的情况下,能够在相同的 显示坐标上显示音质特征的标识符。因而,第一终端和第二终端能够进行 相同的工作。并且,不需要按每个终端进行权重的设定。因此,与按每个 终端进行权重设定的情况相比,能够大幅度削减权重设定所需要的负担。
并且,本发明不仅可以作为具备如此特征性单元的音质编辑装置来实 现,还可以作为将音质编辑装置所包括的特征性单元作为歩骤的音质编辑 方法来实现,并作为使计算机执行音质编辑方法中所包括的特征性步骤的 程序来实现。并且,不言而喻,能够使这样的程序通过CD—ROM (Compact Disc—Read Only Memory:只读存储光盘)等记录介质或互联网等通信网 络流通。
根据本发明的音质编辑装置,即使是没有对声音的专门的知识的用户, 也能够容易地进行音质的编辑。
而且,通过由权重设定部调节权重,音质间距离算出部能够算出反映了用户感到的距离感的音质间距离。并且,根据距离感觉,尺度构成部算 出各个音质的标识符的显示坐标。因此,显示部能够显示与用户的感觉相 符的音质空间。而且,此音质空间是与用户的感觉相符的距离空间。因此, 与利用预先决定的距离尺度来显示音质的情况相比,能够容易地设想位于 被显示的音质之间的音质。因此,用户容易利用位置输入部来指定与所期 望的音质相对应的坐标。
进而,在以音质混合部混合音质之时,取得使用了权重的音质空间中 的接近音质候选,并进一步根据此音质空间上的距离,能够决定被选择了 的各个音质候选的混合比率。能够使决定后的混合比率与用户设想的音质 的混合比率一致。并且,在生成与用户所指定的坐标相对应的音质之时, 使用权重记忆部所保持的、由用户通过权重设定部设定的权重。因此,能 够生成与用户共有的、音质编辑装置中的与音质空间上的位置相对应的音 质。
艮P,将权重作为媒介,能够共有用户设想的音质空间和音质编辑装置 所保持的音质空间。因此,只要输入音质编辑装置出示的音质空间上的坐 标,就能够指定并生成用户所期望的音质。
图1是表示音质编辑界面的一个例子的图。
图2是表示专利文献1所记载的声浏览装置的构成的框图。 图3是表示专利文献2所记载的数据显示装置的构成的框图。 图4是本发明的实施例1所涉及的音质编辑装置的轮廓图。 图5是表示本发明的实施例1所涉及的音质编辑装置的构成的框图。 图6是表示声道截面面积函数和PARCOR系数(偏相关系数)的关系 的图。
图7是表示音质特性DB所存储的音质特性的抽取方法的图。 图8A是表示根据元音/a/的一次反射系数的声道信息的一个例子的图。 图8B是表示根据元音/a/的二次反射系数的声道信息的一个例子的图。 图8C是表示根据元音/a/的三次反射系数的声道信息的一个例子的图。 图8D是表示根据元音/a/的四次反射系数的声道信息的一个例子的图。
15图8E是表示根据元音/a/的五次反射系数的声道信息的一个例子的图。 图8F是表示根据元音/a/的六次反射系数的声道信息的一个例子的图。 图8G是表示根据元音/a/的七次反射系数的声道信息的一个例子的图。 图8H是表示根据元音/a/的八次反射系数的声道信息的一个例子的图。 图81是表示根据元音/a/的九次反射系数的声道信息的一个例子的图。 图8J是表示根据元音/a/的十次反射系数的声道信息的一个例子的图。 图9是表示音质特性DB所存储的音质特性的一个例子的图。 图10是表示讲话者属性DB所存储的讲话者属性的一个例子的图。 图11是表示在本发明的施实例1中的音质编辑装置的基本操作的流程图。
图12是表示由音质间距离算出部算出的距离矩阵的数据结构的图。 图13是表示由尺度构成部算出的各个音质的坐标位置的一个例子的图。
图14是表示由显示部显示的讲话者属性的一个例子的图。
图15是表示音质混合部的具体构成的框图。
图16是将由接近音质候选选择部选择的音质模式化表现的图。
图17是表示权重设定部的具体构成的框图。
图18是权重设定方法的流程图。
图19是表示由权重设定部设定的权重的数据结构的图。 图20是权重设定方法的流程图。
图21是表示显示部所显示的多个音质空间的一个例子的图。 图22是表示权重设定部的具体构成的框图。 图23是权重设定方法的流程图。
图24是用于说明关于根据音质出示部的音质的出示的图。 图25是表示权重设定部的具体构成的框图。 图26是表示由主观轴出示部出示的主观轴的一个例子的图。 图27是权重设定方法的流程图。
图28是表示利用由音质编辑装置生成的音质特征进行音质转换的音质 转换装置的构成的图。
图29A是表示被多项式近似后的元音的声道形状的一个例子的图。图29B是表示被多项式近似后的元音的声道形状的一个例子的图。 图29C是表示被多项式近似后的元音的声道形状的一个例子的图。 图29D是表示被多项式近似后的元音的声道形状的一个例子的图。 图30是用于对关于通过元音转换部的元音区间的PARCOR系数的转
换处理进行说明的图。
图31A是表示转换前的男性讲话者的声道截面面积的情况的图。
图3IB是表示目标讲话者的女性的声道截面面积的情况的图。
图31C是表示与以转换率50%转换要转换的PARCOR系数之后的
PARCOR系数相对应的声道截面面积的情况的图。
图32是用于说明通过子音选择部选择子音声道信息的处理的模式图。 图33是表示本发明的实施例1所涉及的音质编辑装置的在计算机上的
构成的图。
图34是表示涉及本发明的实施例1的变形例中的音质编辑装置的构成 的框图。
图35是表示用户信息管理DB501管理的信息数据结构的一个例子的图。
图36是表示本发明的实施例2所涉及的音质编辑系统的构成的图。 图37是表示本发明的实施例2所涉及的音质编辑系统所具备的终端进 行处理的流程图。
附图标记说明101音质特征DB
102音质间距离算出部
103权重设定部
104输入部
105尺度构成部
106讲话者属性DB
107显示部
108位置输入部
109权重记忆部
110音质混合部201接近音质候选选择部
202混合比率算出部
203特征量混合部
301元音稳定区间抽取部
302音质特征算出部
401权重DB
402权重选择部
403音质代表DB
404音质出示部
405、407权重算出部
406主观轴出示部
501用户信息管理DB
601元音转换部
602子音声道信息保持部
603子音选择部
604子音变形部
605声源变形部
606合成部
701、702 终端
703服务器
704网络
具体实施例方式
以下,参照附图来说明本发明的具体实施方式
。 (实施例1)
图4是表示本发明的实施例1所涉及的音质编辑装置的轮廓图。音质 编辑装置是利用个人电脑或EWS (Engineering Workstation:工程工作站) 等普通的计算机被实现的。
图5是表示本发明的实施例1所涉及的音质编辑装置的构成的框图。
音质编辑装置是对多个音质进行编辑从而生成新的音质的装置,包括:音质特征DB (数据库)101、音质间距离算出部102、权重设定部103、输 入部104、尺度构成部105、讲话者属性DB106、显示部107、位置输入部 108、权重记忆部109、音质混合部IIO。
音质特征DB101是保持音质编辑装置所保有的多个声音的声特征量的 记忆装置,由硬盘或存储器等构成。以下,将"声音的声特性量"称为适 宜的"音质"或"音质特性"。
音质间距离算出部102是计算音质特征DBIOI所保有的音质间的距离 的处理部。权重设定部103是在音质间距离算出部102计算音质间距离时, 设定表示被重视的物理参数的权重的处理部。输入部104是在由权重设定 部103决定权重之时,接受来自用户的输入的输入装置,例如,为键盘或 滑鼠等。尺度构成部105是根据音质间距离算出部102计算的音质间距离, 决定音质特征DB101所保持的各个音质的空间坐标的处理部。
讲话者属性DB106是保持与音质特征DB101所保持的各个音质相关 联的讲话者属性信息的记忆装置,由硬盘或存储器等构成。显示部107是 针对音质特征DBIOI所保持的各个音质,在由尺度构成部105决定了的坐 标上显示与讲话者属性DB106所保持的各个音质相对应的讲话者属性信息 的显示装置,例如,为LCD (Liquid Crystal Display:液晶显示器)等。位 置输入部108是从用户接受由显示部107出示了的在音质空间中的位置的 输入装置,例如,为键盘或滑鼠等。
权重记忆部109是记忆由权重设定部103设定的权重的记忆装置,例 如,由硬盘或存储器等构成。音质混合部110是根据由位置输入部108输 入的音质空间上的坐标及权重记忆部109所保持的权重,通过混合音质特 征DB101所保持的音质,从而生成与用户通过位置输入部108输入的音质 空间上的坐标相对应的音质的处理部。
音质间距离算出部102、权重设定部103、尺度构成部105以及音质混 合部110,通过在计算机的CPU (Central Processing Unit)上执行程序而被 实现。
其次,关于音质特征DB101进行详细的说明。
音质特征DB101在是日语的情况下,按每个音质,保持至少五个元音 (/aiueo/)的、来自目标讲话者的声道形状的声道的信息。再者,在其他的
19语言的情况下,与日语的情况相同,音质特征DB101按每种元音的种类来
保持来自声道形状的声道的信息即可。音质特征DB101还可以设计成保持
后述的声源的信息。
作为声道信息的表现方式,例如存在声道截面面积函数。声道截面面
积函数表述如图6 (a)所示的,在以可变圆形截面面积的声管来模拟声道
的声管模型中的各个声管的截面面积。众所周知,此截面面积与基于LPC
(Linear Predictive Coding:线性预测编码)分析的PARCOR (Partial Auto
Correlation:偏自相关)系数一一对应,并能够通过公式1来转换。在本实
施例中,设通过PARCOR系数kj来表现声道信息。以后,虽然利用PARCOR
系数来说明声道信息,但是,声道信息并不只限定于PARCOR系数,也可
以利用与PARCOR系数等价的LSP (Line Spectrum Pairs:线谱对)或LPC
等。而且,所述声管模型中的声管之间的反射系数和PARCOR系数的关系,
仅在于符号是相反的。因此,利用反射系数本身也没关系。 4- — 1 —A
4+1 (公式i)在此,An表示如图4 (b)所示的第i区间的声管的截面面积,ki表示 第i区间和第(i+1)区间的边界的PARCOR系数(反射系数)。
禾拥根据LPC分析被分析出的线性预测系数,能够算出PARCOR系数。 具体而言,通过利用Levinson—Durbin—Itakura算法,能够算出PARCOR系数。
再者,不仅限于根据LPC分析的PARCOR系数,也可以根据ARX分 析(非专利文献「音源八。》7列^考虑l^c:顽健&ARX音声分析法」("考 虑了声源脉冲串的强健的ARX声音分析法"),日本声学学会会刊58巻7 号(2002年)、pp.386—397、大冢等)算出PARCOR系数。
其次,关于音质特征DB101所保持的音质特征(声音的声特征量)的 制作方法, 一边举例一边进行说明。例如,音质特征能够通过由目标讲话 者发出了的孤立发音元音来构筑。
图7是表示根据由某个讲话者发出了的孤立发音元音抽取音质特征的 处理部的构成的图。
元音稳定区间抽取部301从被输入的孤立发音元音中抽取孤立的元音的区间。并不特别限定抽取方法。例如,也可以将一定功率以上的区间作 为稳定区间,并将该稳定区间作为孤立的元音的区间来抽取。
音质特征算出部302针对由元音稳定区间抽取部301抽取的孤立的元 音的区间,算出上述PARCOR系数。通过针对音质编辑装置保有的所有的 音质进行以上的处理,音质特征DB101被构筑。
再者,抽取音质特征的声音数据不限于孤立发音元音,在日语中只要 是至少包含五个元音(/aiueo/)的某些声音即可。例如,可以是目标讲话者 临时自由地讲话后的声音,也可以是预先被收录的声音。另外,还可以利 用歌唱数据等的声乐音带的声音。
在此情况下,为了抽取元音区间,通过对于声音数据进行音素识别, 来检测元音的声音数据。其次,元音稳定区间抽取部301依据元音的声音 数据抽取稳定的元音区间。作为抽取的方法,例如,能够将音素识别结果 的可靠性高的区间(似然高的区间)作为稳定的元音区间来使用。如此通 过抽取稳定的元音区间,能够排除由音素识别错误产生的影响。
音质特征算出部302通过在抽取后的元音的稳定区间制作声道信息, 从而能够构筑音质特征DB101。例如,由音质特征算出部302进行的音质 特征的算出,通过算出前述的PARCOR系数来进行。
并且,音质特征DBIOI所保持的音质特征的制作方法,并不限定于此, 只要是从稳定的元音区间抽取音质特征的方法,则也可以为其他的方法。
图8A至图8J是表示以十次反射系数表现的针对元音/a/的声道信息的 一个例子的图。
在各图所示的各个图形中,纵座标轴表示反射系数,横坐标轴表示时 间。从kl至klO表示反射系数的次数。通过利用象这样被孤立发音的且稳 定的元音区间的声音数据,能够将依据反射系数的声道信息作为在时间上 稳定的参数来算出。而且,在将反射系数登记在音质特征DB101之时,既 可以直接登记如图8A至图8J所示的反射系数,也可以将元音区间内的平 均值或者中值作为代表值来登记。
作为声源信息,例如也能够利用Rosenberg—Klatt (RK)模型,在利 用RK模型的情况下,能够将对于有声声源振幅(AV)、基频(FO)以及 音调周期(基频的倒数)的声门打开的时间的比率(声门开放比率)(OQ)等作为声源信息来利用。并且,也能够将声源所具有的非周期成分(AF) 作为声源信息来利用。
若汇集音质特征DB101所保持的音质特征,就会得到如图9所示的信 息。即,作为音质特征,声道信息和声源信息被保持。作为声道信息,在 是日语的情况下,有关五个元音的声道形状的信息(例如,反射系数)被 保持。另一方面,作为声源信息,基频(F0)、有声声源振幅(AV)、声门 开放比率(OQ)、声源的非周期成分边界频率(AF)等被保持。再者,音 质特征DB101所存储的音质特征并不限定于此,只要是关于音质的特征量 则在此以外的也可以。
图10是表示讲话者属性DB106所保持的讲话者属性的一个例子的图。 讲话者属性DB106所保持的讲话者属性是作为,不用直接听取音质特征 DB101所保持的音质特征,就能够理解此音质特征的信息,即、只要看见 此信息用户就能够想起与此信息相关联的音质的信息。作为具体的例子, 是能够对发出了在抽取音质特征DB101所保持的音质特征之时所使用了的 声音的人物进行特定的讲话者属性,例如,面部图像、人名等。如此,通 过利用能够特定人物的讲话者属性,如果用户知道被出示的个人,则只看 到面部图像就能够容易地想起此面部图像的人物具有怎样的音质。即,通 过利用这样的讲话者属性,关于出示的音质,则不需要使用各种各样的评 价尺度来定义此音质。
再者,讲话者属性不仅限于讲话的人物的面部图像、人名,只要能够 直接想起讲话的人的声音的讲话者属性,则也可以是其他的形式。例如, 在是卡通人物或吉祥物的情况下,不仅利用以后期录音的方式发出此卡通 人物或吉祥物的声音的人物的面部图像或名字,还可以将卡通人物或吉祥 物的图像或角色名字等作为讲话者属性来利用。并且,例如,在是外国影 片的演员等的情况下,不仅利用进行配音的讲话者的属性,还可以利用被 配音的演员的讲话者属性。而且,在讲话的人物是解说员的情况下,不仅 利用解说员本人的讲话者属性,还可以将解说员出场的节目的节目名或节 目标志作为讲话者属性来利用。
根据以上的构成,能够生成用户指定了的音质。
其次,关于音质编辑装置的工作,使用图11的流程图来进行说明。
22权重设定部103接受来自输入部104的输入,以决定在算出音质间的 距离时的声参数的权重(步骤SOOl)。权重设定部103将决定了的权重保 存在权重记忆部109。权重的具体的决定方法以后再述。
音质间距离算出部102利用在步骤S001设定的权重,算出音质特征 DB101所保持的所有的音质间的距离(步骤S002)。具体而言,音质间的 距离的定义如下所述。即,在将登记在音质特征DBIOI中的音质以矢量表 现的情况下,两个矢量之间的距离(音质间的距离)能够作为如公式2所 述的加权欧几里得距离来定义。但是,权重w,必需满足公式3所示的条件。 距离的计算方法不仅限于此,也可以利用余弦相似度来算出距离。在此情 况下,需要将余弦相似度变换为距离,例如也可以将矢量之间形成的角度 作为距离来定义。在此情况下,对于余弦相似度能够根据反余弦函数算出 距离。
'=i (公式2)
tr (公式3)
在此w,是表示针对音质特征DB101所保持的各个参数(声道形状参数、 基频等)的重要度的权重参数,音质特征DB101所保持的音质特征Vj表示
第i个的音质特征,Vil表示音质特征Vj的第1个参数的物理量。
如上所述,通过制作音质特征DB101所保持的音质间的距离,能够制 作如图12所示的距离矩阵。距离矩阵中的i行j列的元素dij表示音质特征
Vi和音质特征Vj之间的距离。
其次,尺度构成部105利用在步骤S002计算了的音质特征DB101所 保持的音质间的距离(距离矩阵),算出各个音质在音质空间上的坐标(步 骤S003)。并不特别限定计算坐标的方法,例如,通过利用多维标度法 (MDS),能够在二维或三维空间上建立与各自的音质的对应关系。
图13是表示利用多维标度法,在二维空间上配置音质特征DBIOI所 保持的音质特征的一个例子的图。
例如,在权重设定部103中,与基频(FO)对应的音质参数的权重被设定得大的情况下,将某音质特征作为基准,基频(F0)接近的音质特征 在二维平面上被靠近配置。另一方面,在基频(F0)大不相同的情况下, 则在二维平面上的离得远的位置上被配置。通过这样地配置音质特征,用 户所重视的音质参数相近的音质特征,彼此在音质空间上被靠近配置。因 此,用户能够容易地想起位于被配置的多个音质特征之间的音质。
再者,不仅利用多维标度法,还可以通过对音质特征DB101所保持的 各个物理参数进行主要成分分析,来抽取主要成分,并在成为代表的贡献 度大的主要成分之中,由2—3个主要成分构成空间,算出各个音质的坐标。
其次,显示部107针对音质特征DB101所保持的各个音质,在步骤S003 所生成的坐标位置上显示讲话者属性DB106所保持的与该音质对应的讲话 者属性(步骤S004)。图14表现被显示的音质空间的例子。虽然在图14 中,使用作为讲话者属性信息的、具有音质的讲话者的面部图像,但是也 可以不限于面部图像,只要是能够想起此音质的讲话者属性即可。例如, 可以是讲话者的名字、角色图像或者角色名字等。
通过这样显示讲话者属性信息,用户通过观察被显示的讲话者属性信 息,能够直观地想起讲话者的音质,并且能够直观地掌握所出示的音质空 间。
而且,在图14中,虽然显示部107在一个显示区域中显示着所有的音 质,但是不言而喻,也可以只显示特定的一部分音质,还可以设计成另外 接受来自用户的输入,并按照该输入进行放大、縮小或滚动显示。
其次,用户利用位置输入部108,输入具有所期望的音质的坐标位置(步 骤S005)。具体的输入方法并不特别限定。例如,可以是用户使用滑鼠来 指定显示部107所显示的音质空间上的一个点,还可以使用键盘来输入坐 标值。进而,也可以使用滑鼠以外的指点器来输入坐标值。
其次,音质混合部110生成与在步骤S005中指定的坐标相对应的音质 (步骤S006)。关于具体的生成方法使用图15进行说明。
图15是表示音质混合部110的详细的构成的图。音质混合部110包括 接近音质候选选择部201、混合比率算出部202、特征量混合部203。
接近音质候选选择部201选择与在步骤S005中被输入的坐标位置相接 近的音质。对选择时的工作进行详细的说明。设在步骤S004中如图16所示的音质空间被显示,并且在步骤S005中坐标位置801被指定。接近音质 候选选择部201在音质空间中,选择与坐标位置801相距预先设定的距离 以内的音质。例如,在图16所示的音质空间中,选择位于与坐标位置801 相距预先设定的距离的范围802之内的音质803、 804及805。
其次,混合比率算出部202,针对由接近音质候选选择部201选择的音 质,算出进行混合的比率。在图16的例子的情况下,混合比率算出部202 分别算出由用户输入的坐标位置801与由接近音质候选选择部201选择的 音质803、 804及805之间的距离。混合比率算出部202,根据算出的距离 的倒数,来算出混合比率。在图16的例子的情况下,例如,如果设坐标位 置801与音质803、 804及805之间的距离的比率为"1:2:2",则混合比率 为"2:1:1"。
其次,特征量混合部203根据由混合比率算出部202算出的混合比率, 将由接近音质候选选择部201选择的音质,按每一个音质特征DBIOI所保 持的声特征量进行混合。
例如,通过将表示声道形状的反射系数以上述比率进行混合,能够制 作新的声道形状。在此之外还可以将反射系数的各个因次依据函数进行近 似,并通过混合近似后的函数,制作新的声道形状。例如,作为函数能够 使用多项式。在此情况下,函数的混合能够通过多项式的系数的加权平均 来进行混合。
而且,关于作为声源信息的基频(FO)、有声声源振幅(AV)、声门开 放比率(OQ)、非周期成分边界频率(AF),通过以上述的比率取得加权平 均从而能够制作新的声源信息。
在图16的例子的情况下,特征量混合部203将音质803、 804及805 的音质特征以"2:1:1"的比率进行混合。
具体的混合方法并不特别限定,例如,也可以根据混合比率,通过求 出音质特征DBIOI所保持的音质特征的各个参数的加权平均,来混合音质 特征。
再者,也可以使接近音质候选选择部201选择音质空间内的所有的音 质。在此情况下,混合比率算出部202以所有的音质特征为对象来决定混 合比率。通过以上的处理,音质混合部110能够生成与在步骤S005中指定的坐 标相对应的音质。
(权重设定方法l)
其次,关于在步骤S001中权重设定部103进行的具体的权重设定方法 进行说明。在权重设定时,权重设定部103以外的处理部也工作。
图17是表示权重设定部103的详细的构成的框图。权重设定部103包 括权重DB401、权重选择部402。
权重DB401是保持系统设计员预先设计了的多个权重的记忆装置,由 硬盘或存储器等构成。权重选择部402是根据来自输入部104的指示,从 权重DB401选择权重,并保存在权重记忆部109的处理部。关于各个部的 工作,使用图18所示的流程图来进行说明。
权重选择部402从权重DB401所保持的权重之中,选择一个利用输入 部104由用户选择了的权重(步骤SIOI)。
音质间距离算出部102利用在步骤S101选择的权重,算出音质特征 DB101所保持的各个音质间的距离,以制作距离矩阵(步骤S102)。
尺度构成部105利用在步骤S102制作的距离矩阵,算出音质特征 DB101所保持的各个音质的在音质空间上的坐标(步骤S103)。
显示部107针对音质特征DB101所保持的各个音质,在步骤S103算 出的音质空间上的坐标上,显示讲话者属性DB106所保持的与该音质对应 的讲话者属性信息(步骤S104)。
用户对在步骤S104被布置在音质空间上的音质特征DB101所保持的 各个音质位置的状况进行观察,从而确认此音质空间是否符合自己的感觉 (步骤S105)。即,判断自己感觉到相似的音质是否被彼此靠近配置,且 判断自己感觉到不相似的音质是否被彼此远离配置。用户利用输入部104 输入判断结果。
在用户不满足当前显示的音质空间的情况下(步骤S105的"否"),则 直到用户满意为止,重复从步骤S101至步骤S105的处理。
在用户满足当前显示的音质空间的情况下(步骤S105的"是"),权重 选择部402将在步骤S101选择的权重登记在权重记忆部109,以结束权重 设定处理(步骤S106)。图19表示权重记忆部109中保存的权重的一个例子。在图19中,wl、 w2、、 wn是针对音质特征DB101所存储的各个 音质特性(例如作为声道信息的反射系数、基频等)的权重参数。
这样,通过直到用户满意为止重复从步骤S101至步骤S105的处理, 从而能够设定符合用户对于音质的感觉的权重。而且,通过根据此权重生 成音质空间,从而能够构筑与用户的感觉相符的音质空间。
以上说明了的权重设定方法中,在用户选择权重之后,虽然根据选择 的权重进行音质的显示,但是,也可以在根据权重DB401所登记的多个权 重显示音质之后,选择与用户的感觉最接近的权重。图20是这样的权重设 定方法的流程图。
音质间距离算出部102利用权重DB401所保持的多个权重的每一个, 算出音质特征DB101所保持的各个音质间的距离,以制作距离矩阵(步骤 Slll)。
尺度构成部105按每个权重,利用在步骤S111制作的距离矩阵,算出 音质特征DBIOI所保持的各个音质的在音质空间上的坐标(歩骤S112)。
显示部107按每个权重,针对音质特征DB101所保持的各个音质,在 步骤S112算出的音质空间上的坐标上,显示讲话者属性DB106所保持的 与该音质对应的讲话者属性信息(步骤S113)。图21是表示步骤S113中 的显示的一个例子的图。在该图中,关于四个权重的每一个,都表示着讲 话者属性信息。四个权重是指,例如,针对基频(表示是高音还是低音的 音质特征)的权重,针对声道形状(表示是粗声还是细声的音质特征)的 权重,针对非周期成分(表示是沙哑的声音还是清晰悦耳的声音的音质特 征)的权重,针对声门开放比率(表示是生硬的声音还是柔和的声音的音 质特征)的权重。在图21中,显示着分别针对这四个权重的四个音质空间, 在各个音质空间中显示着讲话者属性信息。
用户对在步骤S113中被布置在四个音质空间上的音质特征DB101所 保持的各个音质位置的状况进行观察,从而选择最符合自己的感觉的音质 空间(步骤S114)。权重选择部402从权重DB401选择与被选择的音质空 间相对应的权重。权重选择部402将选择了的权重存储在权重记忆部109 (步骤S106)。
而且,也可以使权重记忆部109按每个用户来记忆权重。通过按每个用户记忆权重,在其他的用户编辑音质时,从权重记忆部109取得与此用 户对应的权重,并通过在音质间距离算出部102以及音质混合部110使用, 从而能够出示符合此用户的感觉的音质空间。
如上所述的权重设定,因为能够从预先决定了的候选中选择性地决定, 所以即使在用户没有特别的知识的情况下,也能够适当地决定权重。而且, 还能够减少用户为决定权重所需要的工作量。 (权重设定方法2)
其次,关于另外的权重设定方法进行说明。
权重设定部103也可以通过以下的方法来设定权重。图22是用于实现 权重设定部103的框图。权重设定部103包括音质代表DB403、音质出 示部404、权重算出部405。
音质代表DB403是从音质特征DB101所保持的音质特征数据中预先 抽取代表性的音质特征,并保持音质特征代表的数据库。因此,并不一定 需要设置新的记忆部以保持音质特征代表,也可以只保持音质特征DB101 内的音质特征代表的标识符。音质出示部404向用户出示音质代表DB403 所保持的音质特征。出示方法并不特别限定,也可以通过再生在制作音质 特征DB101时使用了的声音来出示。此外,还可以从讲话者属性DB106 中选择与音质代表DB403所保持的音质代表相对应的讲话者属性,并利用 显示部107来出示。
输入部104从由音质出示部404出示的音质代表中,接受用户判断为 相似的音质的音质组的输入。具体的输入方法并不特别限定。例如,可以 在设想将滑鼠作为输入部104的情况下,通过用户使用滑鼠指定判断为相 似的音质的音质特征,来接受音质组的输入。而且,输入部104并不限于 滑鼠,也可以是其他的指点器。
权重算出部405根据由输入部104指定的用户感觉到相似的音质组, 算出权重。
其次,使用图23所示的流程图,关于权重设定处理进行说明。 音质出示部404向用户出示音质代表DB403所登记的音质特征(步骤 S201)。例如,音质出示部404也可以是如图24所示的在显示部107显示 画面。在图24所示的画面中,显示了五名讲话者信息(面部图像),在其旁边显示着五个再生按钮901。用户操作输入部104,按下与想要再生的讲 话者声音对应的再生按钮901。音质出示部404再生与被押下的再生按钮 901相对应的讲话者的声音。
其次,用户利用输入部104,输入感觉到音质相似的音质特征组(步骤 S202)。例如,在图24所示的例子中,通过在复选框902中划勾,来指定 两个相似的音质。
其次,权重算出部405利用在步骤S202中输入的音质组,来决定权重 (步骤S203)。具体而言,以被指定了的音质组中的公式2,使算出的音质 间距离在公式3的限定下成为最小,来决定各个音质i的权重wi即可。
以下表述具体的权重决定方法的一个例子。在本决定方法中,进一步 设置如公式4所示的限定,使公式2最小化。
W,々AW (公式4)
具体而言,首先根据公式5决定两组的各个因次的差分的平方成为最
小的因数Un。
,
/m;T1 二 arg min (v,7 _ v ,7)
并且,根据公式6决定各个权重Wj。
△w ; otherelse
(公式6)
权重算出部405将在步骤S203中设定了的权重保存在权重记忆部109 (步骤S204)。
并不限定权重的决定方法。例如,不是根据公式5,决定一个两组的各 个因次的差分的平方成为最小的因数,也可以决定多个。
而且,若使所选择的两个音质之间的距离变小来决定权重,则并不特 别限定权重决定方法。
再者,被输入的声音组存在多组的情况下,也可以同样地使从各组求 出的距离之和为最小来设定权重。
29如上所述,通过设定权重,从而能够设定符合用户对于音质的感觉的 权重。同时,通过根据此权重生成音质空间,从而能够构筑符合用户对于 音质的感觉的音质空间。
此权重设定方法与权重设定方法1相比,能够更详细地设定用户对于 音质的感觉。即,不是选择预先决定了的权重,而是通过选择用户感到相 似的音质,来增大针对此音质间的共同的特征量的权重。因此,能够抽取 为了用户感到相似的重要的特征量。
(权重设定方法3) 其次,关于另外的权重设定方法进行说明。
权重设定部103也可以通过以下的方法来设定权重。图25是用于实5见 权重设定部103的框图。权重设定部103包括主观轴出示部406、权重算 出部407。
主观轴出示部406向用户出示如图26所示的"高音一低音"等主观性 的主观轴。输入部104接受,由主观轴出示部406出示了的针对各个时间 轴的重要度的输入。例如,在图26所示的例子中,通过对输入栏903输入 数值,或操作标度盘904,能够进行所谓如"高音一低音"的主观轴的重要 度为"1","沙哑的声音一清晰悦耳的声音"的主观轴的重要度为"3","粗 声一细声"的主观轴的重要度为"3"等的输入。在此例中为用户进行了所 谓"沙哑的声音一清晰悦耳的声音"的主观轴是重要的输入。权重算出部 407根据由输入部104输入的主观轴的重要度来决定权重。
其次,使用图27所示的流程图,关于权重设定处理进行说明。 主观轴出示部406向用户出示音质编辑装置能够使用的主观轴(步骤 S301)。出示方法并不特别限定,例如,通过如图26所示的,同时出示各 个主观轴的名称及能够输入此重要度的输入栏903或标度盘904,能够出示 主观轴。另外,并不限定于此出示方法,也可以出示表现各自的主观轴的 图标。
用户输入针对在步骤S301出示的各自的主观轴的重要度(步骤S302)。 并不特别限定输入方法,也可以如图26所示,通过对输入栏903输入数值, 或旋转标度盘904来进行指定,还可以设置滑动器以代替标度盘904,并通 过调节滑动器的位置输入重要度。权重算出部407根据在步骤S302中被输入的各个主观轴的重要度,算 出在音质间距离算出部102算出距离时使用的权重(步骤S303)。
具体而言,设定权重,以使主观轴出示部406所出示的主观轴与音质 特征DBIOI所保存的物理参数相对应,并使主观轴的重要度与物理参数的 重要度相对应。
例如,主观轴"高音一低音"与音质特征DBIOI所保持的"基频"相 对应。因此,如果用户输入的是主观轴"高音一低音"重要,则可以设定 权重,以使物理参数"基频"的重要度增大。
而且,在主观轴为"沙哑的声音一清晰悦耳的声音"的情况下,与物 理参数"非周期成分(AF)"相对应。并且,主观轴"粗声一细声"与物 理参数"声道形状(k)"相对应。
再者,在公式3所示的权重的和为1的条件下,具体的权重可以根据 各个主观轴的重要度的比率来决定。
依据此方法的权重设定方法,能够根据主观轴来决定权重。因此,与 权重设定方法2相比,能够简单地设定权重。即,在用户能够理解各个主 观轴的情况下,不用听取一个一个的声音,只需决定所重视的主观轴即可。
再者,这些权重设定方法可以按照用户所具有的对于声音的知识或为 设定权重而能够使用的时间,来有选择性地切换。例如,在完全没有对声 音的知识的情况下,可以使用权重设定方法1。而且,在虽然具有对声音的 知识,但是,想要迅速决定的情况下,可以使用权重设定方法3。并且,在 具有对声音的知识,并想要详细地设定权重的情况下,可以使用权重设定 方法2。权重设定方法的选择并不限定于此。
通过以上的方法,能够设定用于生成与用户的感觉相符的音质空间的 权重。再者,权重的设定方法并不限于上述方法,只要是将用户的感觉信 息作为输入来调节权重即可。
其次,利用由本发明的音质编辑装置制作的音质特征,关于实际的转 换音质的方法进行说明。
图28是表示利用由本发明所涉及的音质编辑装置生成的音质特征,进 行音质转换的音质转换装置的构成的图。音质转换装置能够利用普通的计 算机来构成。音质转换装置包括元音转换部601、子音声道信息保持部602、子音 选择部603、子音变形部604、声源变形部605、合成部606。
元音转换部601是将附带音素边界信息的声道信息和由本发明所涉及 的音质编辑装置生成的音质特征作为输入,并根据所生成的音质特征,对 附带音素边界信息的声道信息所包含的元音的声道信息进行转换的处理 部。附带音素边界信息的声道信息是指,在输入声音的声道信息中附带了 音素标记的信息。音素标记是指,包含与输入声音相对应的音素信息和各 个音素的时间长度的信息的信息。
子音声道信息保持部602是预先保持由与输入声音的讲话者不同的另 外的讲话者发音的子音的声道信息的记忆装置,由硬盘或存储器等构成。
子音选择部603是针对由元音转换部601转换了元音区间的声道信息 的附带音素边界信息的声道信息,从子音声道信息保持部602中选择适合 转换后的元音区间的声道信息的子音的声道信息。
子音变形部604是进行变形,以使由子音选择部603选择的子音的声 道信息与位于该子音的前后的元音的声道信息之间的连接变形变小的处理 部。
声源变形部605是利用在由本发明的音质编辑装置生成的音质特征之 中有关声源的信息,进行变形的处理部。
合成部606是利用由子音变形部604变形的声道信息和由声源变形部 605变形的声源信息,来合成声音的处理部。
元音转换部601、子音声道信息保持部602、子音选择部603、子音变 形部604、声源变形部605及合成部606,通过以计算机的CPU执行程序 来实现。
根据以上的构成,能够利用由本发明的音质编辑装置生成的音质特征, 对被输入的声音的音质进行转换。
元音转换部601通过将被输入的附带音素边界信息的声道信息的元音 区间的声道信息和由本发明的音质编辑装置生成的声道信息,根据被输入 的变形比率进行混合,来转换附带音素边界信息的声道信息的元音区间的 声道信息。以下对详细的转换方法进行说明。
首先,附带音素边界信息的声道信息通过,从转换前的声音取得依据前述的PARCOR系数的声道信息,并且将音素标记付与该声道信息而被生 成。
进而,在输入声音是通过从文本合成声音的文本合成装置合成的声音 的情况下,能够通过文本合成装置取得音素标记。而且,还能够容易地,人 合成后的声音算出PARCOR系数。并且,在以脱机的状态使用音质转换装 置的情况下,当然也可以预先通过手动将音素边界信息付与声道信息。
图8A至图8J表示以十次反射系数表现的元音/a/的声道信息的例子。 在该图中,纵座标轴表示反射系数,横坐标轴表示时间。由此图可知, PARCOR系数比较平滑的随时间进行变动。
元音转换部601如上所述,对被输入的附带音素边界信息的声道信息 所包含的元音的声道信息进行转换。
首先,元音转换部601根据由本发明的音质编辑装置生成的音质特征, 取得与转换对象的元音相对应的目标的声道信息(目标元音声道信息)。在 存在多个成为对象的目标元音声道信息的情况下,配合成为转换对象的元 音的音韵环境(例如前后的音素种类等)的状况,取得最合适的目标元音 声道信息。
元音转换部601根据输入的转换比率,将转换对象的元音转换为目标 元音声道信息。
在被输入的附带音素边界信息的声道信息中,根据公式7所示的多项 式,对以成为转换对象的元音区间的PARCOR系数表现的声道信息的各因 次的时间序列进行近似。例如,在声道信息为十次PARCOR系数的情况下, 根据公式7所示的多项式,对各自的次数的PARCOR系数进行近似。 P
<formula>formula see original document page 33</formula>
不过,& 表示被近似的输入声音的PARCOR系数,ai表示被近似的 PARCOR系数的多项式的系数。
因此,能够得出十种多项式。多项式的次数没有特别的限定,并能够 设定适当的次数。
此时作为适用多项式近似的单位,例如,能够将一个音素区间设为近似的单位。而且,也可以不是音素区间,而可以是从音素中心到下一个音 素中心为止的时间范围。另外,在以下的说明中,设音素区间为单位来进 行说明。
图29A至图29D是分别表示,根据五次多项式对PARCOR系数进行 近似,并以音素单位在时间方向上进行平滑化时的从一次至四次PARCOR 系数的图。各图中的纵座标轴表示反射系数,横坐标轴表示时间。
在本实施例中,作为多项式的次数虽然以五次为例进行了说明,但是 多项式的次数也可以不是五次。并且,在根据多项式近似之外,也可以根 据按每个音素单位时间的回归线,对PARCOR系数进行近似。
同样,元音转换部601根据公式8所示的多项式,对以由本发明的音 质编辑装置生成的音质特征所包含的PARCOR系数表现的目标元音声道信 息进行近似,从而取得多项式的系数bi。
<formula>formula see original document page 34</formula> (公式8)
其次,元音转换部601利用被转换参数Ui)、目标元音声道信息(bi)、 转换比率(r),根据公式9求出转换后的声道信息(PARCOR系数)的多
项式的系数Ci。
<formula>formula see original document page 34</formula>(公式9)
元音转换部601利用算出的转换后的多项式的系数Ci,根据公式10求 出转换后的声道信息& 。
/=0 (公式10) 元音转换部601对于各因次的PARCOR系数进行以上的转换处理。通 过此处理,能够以指定的转换比率,实现从表示被转换声音的元音声道信 息的PARCOR系数向表示目标声音的元音声道信息的PARCOR系数的转 换。
图30表示实际上针对元音/a/进行了上述转换的例子。在该图中,横坐 标轴表示被归一化了的时间,纵座标轴表示第一次PARCOR系数。图中的(a)表示被转换声音的男性讲话者的/a/的发音的系数的推移。同样,(b) 表示目标声音的女性讲话者的/a/的发音的系数的推移。(c)表示利用上述 转换方法,将男性讲话者的系数以转换比率0.5转换为女性讲话者的系数时 的系数的推移。从该图可知,通过上述的转换方法,即能够对讲话者之间 的PARCOR系数进行插值。
图31A至图31C是表示在转换后的元音区间的时间上的中心的声道截 面面积的图。此图是根据公式l,将图30所示的在PARCOR系数的时间上 的中心点的PARCOR系数转换为声道截面面积的图。在图31A至图31C 的各个图形中,横坐标轴表示在声管中的位置,纵座标轴表示声道截面面 积。图31A是转换前的男性讲话者的声道截面面积,图31B是目标讲话者 的女性的声道截面面积,图31C是以转换比率50X,将转换前的PARCOR 系数对应于转换后的PARCOR系数的声道截面面积。从这些的图也可得知, 图31C所示的声道截面面积为转换前和转换后之间的中间的声道截面面 积。
为了将音质转换为目标讲话者,虽然将在元音转换部601被输入的附 带音素边界信息的声道信息所包含的元音转换为目标讲话者的元音声道信 息,但是,由于转换元音声道信息,因而在子音和元音的连接边界上发生 声道信息的不连续。
图32是在VCV (V表示元音,C表示子音)音素列中,将元音转换部 601进行元音的转换之后的某个PARCOR系数模式化表示的图。
在该图中,横坐标轴表示时间轴,纵座标轴表示PARCOR系数。图32 (a)是输入声音的声道信息。在此之中的元音部分的PARCOR系数通过 元音转换部601,利用图32 (b)所示的目标讲话者的声道信息被变形。其 结果为,得到如图32 (c)所示的元音部分的声道信息10a及10b。但是, 子音部分的声道信息10c未被转换,表示出输入声音的声道信息。因此, 元音部分的声道信息和子音部分的声道信息之间的边界发生不连续性。因 而子音部分的声道信息也需要转换。
以下关于子音区间的转换方法进行说明。声音的个人特性在考虑元音 和子音的持续时间和稳定性等的情况下,可以考虑为主要根据元音来表现 的。
35于是,关于子音,能够不使用目标讲话者的声道信息,而从预先准备
好的子音的多个声音信息之中,通过选择适合由元音转换部601转换后的 元音声道信息的子音的声道信息,来缓和与转换后的元音在连接边界上的 不连续性。在图32 (c)中,从子音声道信息保持部602所记忆的子音的声 道信息中,通过选择与前后的元音的声道信息10a及10b的连接性好的子 音的声道信息10d,能够实现缓和在音素边界上的不连续性。
为了实现以上的处理,预先从多个讲话者的多个发音中提出子音区间, 并通过从各个子音区间的声道信息算出PARCOR系数,来制作记忆在子音 声道信息保持部602的子音声道信息。
子音选择部603从子音声道信息保持部602,选择适合由元音转换部 601转换了的元音声道信息的子音的声道信息。子音的选择标准是根据子音 的种类(音素),以及子音的始点及终点的连接点中的声道信息的连续性。 即,能够根据PARCOR系数的连接点中的声道信息的连续性,来评价被选 择的子音。具体而言,子音选择部603进行满足公式11的子音声道信息(Ci) 的检索。
C, = arg min[(頻'g/if xCc(f/", , q) + (1 — wf洲Cc(Qt, f/,+,)]" (公式ll)
在此,Ui-,表示前面的音素的声道信息,Uw表示后续的音素的声道信 息。而且,weight是前面的音素与选择对象的子音之间的连续性和选择对 象的子音与后续的音素之间的连续性的权重。权重被适当地设定,以便重 视与后续音素的连接性。之所以重视与后续音素的连接性,是因为子音与 后续的元音的结合比前面的音素强。
并且,函数Cc是表示两个音素的声道信息的连续性的函数,例如,该 函数的值能够通过两个音素的边界上的PARCOR系数的差的绝对值来表 现。而且,也可以设计成PARCOR系数越是低次的系数,权重就越大。
这做,子音选择部603从子音声道信息保持部602,选择适合于向目标 音质的转换后的元音的声道信息的子音的声道信息。因此,能够变成声道 信息的平滑的连接,并且能够提高合成声音的自然性。
再者,也可以设计成设子音选择部603中的进行选择的子音只是有声 子音,无声子音使用被输入的附带音素边界信息的声道信息所包含的声道 信息。这是因为,无声子音是不伴随声带的振荡的发音,声音的生成过程与生成元音或有声子音时不同。
虽然子音选择部603能够取得适合由元音转换部601转换后的元音声 道信息的子音声道信息,但是,存在连接点的连续性并不一定充分的情况。 因此,子音变形部604将选择了的子音的声道信息进行变形,以使子音选 择部603所选择的子音的声道信息和后续元音的声道信息在后续元音的连 接点上连续地连接。
具体而言,子音变形部604使子音的PARCOR系数移动,以便在与后 续元音的连接点上,PARCOR系数和后续元音的PARCOR系数一致。但是, 为了保证稳定性,PARCOR系数必须在[一l,l]的范围内。因此,暂且根据 tanh—l函数等将PARCOR系数映射在[一°°,~]的空间上,并在映射后的 空间上进行线性移动之后,再次根据tanh函数返回[一l,l]的范围。因此, 既保证了稳定性,又能够改善子音区间与后续元音区间的声道形状的连续 性。
声源变形部605使用由本发明的音质编辑装置生成的音质特征所包含 的声源信息,对转换前声音(输入声音)的声源信息进行变形。通常,在 LPC系统的分析合成中,作为激励声源使用脉冲串的情况较多。因此,也 可以在根据预先设定了的基频等信息将声源信息(FO、功率等)进行变形 之后,合成声源信息。据此,在音质转换装置中,不仅能够进行依据声道 信息的声调的转换,也能够进行依据基频等的韵律或者声源信息的转换。
而且,例如,也能够在合成部606,利用Rosenberg—Klatt模型等的声 门声源模型。在使用了这样的构成的情况下,还能够使用利用从被转换声 音的Rosenberg—Klatt模型的参数(OQ、 TL、 AV、 F0等)向目标声音移 动后的值等方法。
合成部606利用音质转换后的声道信息和在声源变形部605被变形后 的声源信息来合成声音。虽然没有特别限定合成的方法,但是,在利用 PARCOR系数作为声道信息的情况下,利用PARCOR合成即可。或者,也 可以在从PARCOR系数转换成LPC系数之后,合成LPC系数;还可以从 PARCOR系数中抽取共振峰,从而进行共振峰合成。进而,也可以从 PARCOR系数算出LSP系数,从而进行LSP合成。
通过使用如上所述的音质转换装置,能够生成具有由本发明的音质编辑装置生成的音质特征的合成音。再者,音质转换方法并不限于上述的方 法,只要是使用由本发明的音质编辑装置生成的音质特征来进行音质转换, 则也可以是其他的方法。 (效果)
而且,通过由权重设定部103调节权重,音质间距离算出部102能够 算出反映了用户感到的距离感的音质间距离。并且,根据用户的距离感觉, 尺度构成部105算出各个音质的坐标位置。因此,显示部107能够显示与 用户的感觉相符的音质空间。进而,此音质空间是与用户的感觉相符的距 离空间。因此,设想位于被显示的多个音质之间的音质的情况,与使用预 先决定的距离尺度来设想音质的情况相比,变得容易。因而,容易利用位 置输入部108来指定与用户所期望的音质相对应的坐标。
进而,以音质混合部110混合音质之时,如下所述,来决定音质候选 的混合比率。即,在使用了由用户决定的权重的音质空间中,接近音质候 选被选择。而且,根据此音质空间上的音质间的距离,来决定被选择的各 个音质候选的混合比率。因此,能够使所决定的混合比率与用户设想的音 质的混合比率一致。并且,在利用位置输入部108生成与用户所指定的坐 标相对应的音质之时,也使用权重记忆部109所保持的由用户设定的权重。 因此,能够生成与用户共有的、音质编辑装置中的与音质空间上的位置相 对应的音质。
艮P,将权重记忆部109所保持的权重作为媒介,能够共有用户所设想 的音质空间和音质编辑装置所保持的音质空间。因此,只要输入音质编辑 装置出示的音质空间上的坐标,就能够指定并生成用户所期望的音质。
进而,通常,如果不实际听取声音,则很难使用户想起此声音是怎样 的音质。但是,在对用户显示音质空间之时,显示部107显示讲话者属性 DB106所保持的面部图像等讲话者属性信息。因此,用户通过观察面部图 像,能够容易地想起该面部图像的个人的音质。因此,即使是没有对声音 的专门的知识的用户,也能够容易地进行音质的编辑。
进而,本发明的音质编辑装置利用音质特征DB101所保持的音质特征, 只进行生成用户所期望的音质特征的音质编辑处理,与利用音质特征进行 声音的音质转换的音质转换装置是分开的。因此,能够暂且通过本发明的音质编辑装置来决定音质,并仅将决定后的音质特征另外保存。据此,之 后,在利用此音质特征进行声音的音质转换之时,具有只要再次利用保存 着的音质特征即可,而不需要每次都进行重新编辑音质的工作的效果。
再者,本发明的音质编辑装置的各个构成部分,例如,如图33所示, 由计算机来实现。即,显示部107由显示器来实现,输入部104及位置输 入部108由键盘或滑鼠等输入装置来实现。而且,权重设定部103、音质间 距离算出部102、尺度构成部105、音质混合部110通过在CPU上执行程 序来实现。并且,音质特征DBIOI、讲话者属性DB106、权重记忆部109 能够通过计算机内的内存来实现。
再者,作为依据本发明的音质编辑装置的音质空间的显示例,虽然记 述了在二维平面上布置各个音质特征,但是,并不限于此显示方法,也可 以设计成在伪三维空间上配置,还可以在球面上配置。 (变形例)
在实施例1中,利用所有的音质特征DBIOI所保持的音质特征来编辑 用户所期望的音质,而本变形例的特征是,则利用音质特征DB101所保持 的音质特征的一部分来使用户编辑音质。
在本发明的实施例1中,显示部107显示与音质特征DBIOI所保持的 音质特征相对应的讲话者属性。但是,在用户不知道被显示的讲话者属性 的情况下,存在即使音质编辑装置向用户出示讲话者属性,用户也不能想 起此音质的问题。本变形例就是要解决这个问题。
图34是表示本变形例所涉及的音质编辑装置的构成的框图。在图34 中,关于与图5相同的构成部分使用同样的标记,并省略对其的说明。图 34所示的音质编辑装置具有,在图5所示的音质编辑装置上又增加了用户 信息管理DB501的构成。
用户信息管理DB501是管理用户己知的音质的信息的数据库。图35 是表示用户信息管理DB501管理的信息的一个例子的图。用户信息管理 DB501至少保持利用音质编辑装置的用户的用户ID和按每个用户保持用 户所知道的已知音质ID。在该图的例子中,可知用户1知道保持音质1及 音质2的音质的人物。并且,可知用户2知道保持音质1、音质3及音质5 的音质的人物。通过利用这样的信息,显示部107能够仅向用户出示用户
39所知道的音质的信息。
再者,在上述说明中,虽然说明的是用户所知道的音质为几个,但是 也可以指定更多数量的音质。
同时,被用户信息控制数据库501保持的资料项目的作成方式不是特 别被限定,不过,譬如,根据请选择预先用户从被被声音性质特性数据库101 保持的声音性质及讲话人属性数据库106保持的讲话人属性,自己知道的 声音性质及讲话人属性的事制作就行了 。
或者,也可以决定按每个音质编辑装置所预先设想的用户的属性来显 示的音质及讲话者属性。例如,按每一性别或年龄定义用户组以代替用户 ID。并且,预先设定可以想象到的属于此组的性别或年龄的人所知道的音 质及讲话者属性。音质编辑装置通过使用户输入性别或年龄,能够决定利 用用户信息管理DB501所应该显示的音质。通过采用这样的构成,可以预 先不使用户指定自己所知道的音质数据,就能够特定被认为是用户所知道 的音质。
或者,也可以不使用户指定已知音质ID,而从用户使用的外部数据库 中取得该外部数据库所保持的讲话者识别信息,并仅将所取得的与讲话者 识别信息相对应的讲话者的音质作为已知音质来管理。作为外部数据库, 例如,能够利用用户所有的音乐内容的演唱者的信息。或者,能够利用在 用户所保有的影像内容中出场的演员的信息,来制作外部数据库。再者, 讲话者识别信息的制作方法并不仅限于此,只要制作能够从音质特征 DB101所保持的音质中特定用户所知道的音质的信息即可。
因而,用户只要将自己所保持的声音内容的数据提供给音质编辑装置, 则音质编辑装置就能够自动取得用户所知道的音质的信息,从而能够制作 用户信息管理DB501。因此,能够减小用户的处理负荷。 (效果)
通过构成如上所述的音质编辑装置,显示部107所出示的音质空间仅 由用户所知道的音质构成。因此,进一步能够构成与用户的感觉相符的音 质空间。因而,在指定用户所期望的音质之时,由于所出示的空间与用户 的感觉相符,所以能够简单地设定想要指定的坐标。
再者,在通过音质混合部110混合音质特征DB101所登记的多个音质
40之时,也可以不仅利用由用户信息管理DB501管理的用户所知道的音质特 征,而是利用音质特征DB101所登记的所有的音质特征,来生成用户所指 定的坐标位置的音质。
在此情况下,用户所指定的坐标位置和由接近音质候选选择部201选 择的接近音质之间的距离,与只利用由用户信息管理DB501管理的音质信 息的情况相比,能够变小,其结果是,不需大幅度改变音质就能够混合用 户所指定的坐标位置的音质。因此,音质的变形量少,则音质的劣化也能 够减少,从而具有能够生成高音质的音质特征的效果。
再者,也可以是权重设定部103利用由权重设定部103设定的权重, 对音质特征DB101所保持的音质特征进行分群,用户信息管理DB501保 持代表群的音质。
据此,能够在保持与用户的感觉相符的音质空间的同时,抑制音质空 间所显示的音质数量。因此,具有容易把握向用户出示的音质空间的效果。 (实施例2)
本发明的实施例1所涉及的音质编辑装置以一台计算机进行音质编辑。 但是,常有一个人使用多台计算机的情况。而且,如今各种各样的服务不 仅针对计算机,并且面向移动电话或移动终端。因此,还能够考虑将在某 台计算机上构筑了的自己的环境,在其他的计算机、移动电话、移动终端 上利用。因此,在实施例2中,关于能够在多个终端上实现同样的编辑环 境的音质编辑系统进行说明。
图36是表示本发明的实施例2所涉及的音质编辑系统的构成的图。音 质编辑系统包括与网络704互相连接的终端701、终端702及服务器703。 终端701是编辑音质的装置。终端702是编辑另外的音质的装置。服务器 703是管理由终端701及终端702编辑后的音质的装置。而且,终端的数量 并不限于此。
终端701及终端702包括音质特征DBIOI、音质间距离算出部102、 权重设定部103、输入部104、尺度构成部105、讲话者属性DB106、显示 部107、位置输入部108以及音质混合部110。
服务器703包括权重记忆部109。
在由终端701的权重设定部103设定了权重的情况下,终端701通过网络将权重发送到服务器703。
服务器703的权重记忆部109按每个用户保存并管理权重。 在用户使用终端702 (设定了权重的终端之外的终端)编辑音质的情况
下,通过网络取得服务器703所保持的用户的权重。
通过使用终端702的音质间距离算出部102取得的权重,算出音质间
距离,以作为另外的终端的终端702再现与以终端701设定了的音质空间
相同的音质空间。
关于以终端701设定权重,使用所设定的权重以终端702编辑音质的 例子,对其工作进行说明。
首先,终端701的权重设定部103决定权重。例如,图17所示的构成 的权重设定部103以图18所示的流程图的流程来进行处理。
艮卩,终端701的权重设定部103,从权重DB401所保持的权重之中,选 择一个利用输入部104由用户选择了的权重(步骤SIOI)。
利用在步骤S101选择的权重,音质间距离算出部102算出音质特征 DB101所保持的各个音质间的距离,以制作距离矩阵(步骤S102)。
利用在步骤S102制作的距离矩阵,尺度构成部105算出音质特征 DB101所保持的各个音质的在音质空间上的坐标(步骤S103)。
显示部107针对音质特征DB101所保持的各个音质,在步骤S103算 出的音质空间上的坐标上,显示讲话者属性DB106所保持的与该音质对应 的讲话者属性信息(步骤S104)。
用户对在步骤S104被布置在音质空间上的音质特征DB101所保持的 各个音质位置的状况进行观察,从而确认此音质空间是否符合自己的感觉 (步骤S105)。即,判断自己感觉到相似的音质是否被彼此靠近配置,且 判断自己感觉到不相似的音质是否被彼此远离配置。
在用户不满足当前显示的音质空间的情况下(步骤S105的"否"),则 直到用户满意为止,重复从步骤S101至步骤S105的处理。
在用户满足当前显示的音质空间的情况下(步骤S105的"是"),权重 选择部402将在步骤S101选择的权重通过网络704发送到服务器703,在 权重记忆部109登记服务器703接收的权重,以结束权重设定处理(步骤 S106)o这样,通过直到用户满意为止重复从步骤S101至步骤S105的处理, 从而能够设定对于音质的符合用户的感觉的权重。而且,通过根据此权重 生成音质空间,从而能够构筑与用户的感觉相符的音质空间。
再者,在上述的说明中,虽然以图17的构成对权重设定部103进行了 说明,但是也可以通过图22或图25的构成来实现。
其次,关于利用另外的终端702编辑音质的处理,使用图37的流程图 来进行说明。
音质间距离算出部102通过网络704取得被登记在服务器703上的权 重信息(步骤S401)。音质间距离算出部102利用在步骤S101取得的权重, 算出音质特征DBIOI所保持的所有的音质间的距离(步骤S002)。 -
其次,尺度构成部105利用在步骤S002计算了的音质特征DB101所 保持的音质间的距离(距离矩阵),算出音质的音质空间上的坐标(步骤 S003)o
其次,显示部107针对音质特征DB101所保持的各个音质,在由步骤 S003生成的坐标位置上显示讲话者属性DB106所保持的与该音质对应的 讲话者属性(步骤S004)。
其次,用户利用位置输入部108,输入具有所期望的音质的坐标位置(步 骤S005)。
其次,音质混合部110生成与在步骤S005中指定的坐标相对应的音质 (步骤S006)。
通过以上的处理,能够利用以终端701设定的权重,以终端702进行 音质编辑的工作。 (效果)
根据所涉及的构成,能够在多个终端的共同的音质空间上,进行音质 的编辑。例如,实施例1所涉及的音质编辑装置中,在用户以计算机或移 动终端等多个终端来决定音质的情况下,需要在各个终端决定权重。但是, 通过使用实施例2所涉及的音质编辑系统,通过在一个终端决定权重,并 将决定了的权重保存在服务器中,从而不需要在其他的终端决定权重。艮卩, 其他的终端只需从服务器中取得权重即可。因此具有,与在每个终端都进 行音质编辑中的音质空间的构成所需要的权重设定工作量的情况相比,能够大幅度削减用户决定音质之时的负担的效果。
应该能够认识到,此次公开的实施例的所有内容都是例示而非限制性 的内容。本发明的范围并非上述说明的范围,而是根据权利要求的范围来 表述的,并试图包含与权利要求的范围同等的意思以及在范围内的所有的 变更。
本发明所涉及的音质编辑装置通过制作与用户的感觉相符的音质空 间,从而能够出示直观的容易理解的音质空间,并且,具有通过输入所出 示的音质空间上的坐标位置,从而生成用户所期望的音质的功能。因此, 作为需要各种各样的音质的用户界面或娱乐等非常有用。并且,还能够应 用于通过移动电话等的声音通信中的语音变换器等音质指定的用途上。
权利要求
1、一种音质编辑装置,通过对各自由多个音质的声特征量构成的多个音质特征进行编辑,从而生成新的音质特征,所述音质编辑装置包括音质特征数据库,记忆多个音质特征;讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,记忆用户能够想起的与该音质特征对应的音质的标识符;权重设定部,按每个音质的声特征量来设定权重;显示坐标算出部,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,根据构成该音质特征的所述多个声特征量和所述权重设定部所设定的权重,算出该音质特征的显示坐标;显示部,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,在所述显示坐标算出部所算出的显示坐标上显示与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识符;位置输入部,接受坐标的输入;以及音质混合部,关于所述音质特征数据库所记忆的所述多个音质特征的一部分或者全部的每一个,通过算出该音质特征的显示坐标与由所述位置输入部接受了的所述坐标之间的距离,并根据算出的距离的比率,混合所述多个音质特征的一部分或者全部的声特征量,从而生成新的音质特征。
2、 如权利要求1所述的音质编辑装置,所述讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个 音质特征的每一个,记忆具有该音质特征的声音的讲话者的面部图像、肖 像画或名字、或者发出具有该音质特征的声音的角色的图像或名字,所述显示部,关于所述音质特征数据库所记忆的所述多个音质特征的 每一个,在所述显示坐标算出部所算出的显示坐标上显示讲话者的面部图 像、肖像画或名字、或者角色的图像或名字,所述讲话者的面部图像、肖 像画或名字、或者角色的图像或名字与该音质特征对应、并被记忆在所述 讲话者属性数据库中。
3、 如权利要求1所述的音质编辑装置, 所述显示坐标算出部包括音质间距离算出部,从所述音质特征数据库所记忆的多个音质特征之 中抽取由任意两个音质特征组成的音质特征组,按每个被抽取的音质特征 组,对构成该组所包含的音质特征的声特征量,以所述权重设定部所设定 的权重进行加权,并算出加权后的所述音质特征间的距离;以及尺度构成部,根据由所述音质间距离算出部算出的音质特征间的距离, 算出所述音质特征数据库所记忆的所述多个音质特征的显示坐标,所述显示部,关于所述音质特征数据库所记忆的所述多个音质特征的 每一个,在所述尺度构成部所算出的显示坐标上显示与该音质特征对应的、 并被记忆在所述讲话者属性数据库中的标识符。
4、 如权利要求1所述的音质编辑装置, 所述权重设定部包括权重记忆部,记忆权重信息,所述权重信息由在所述多个音质的声特 征量的加权中分别使用的多个权重组成; 权重指定部,指定权重信息;以及权重选择部,通过从所述权重记忆部之中选择所述权重指定部所指定 的权重信息,从而设定每个音质的声特征量的权重。
5、 如权利要求1所述的音质编辑装置, 所述权重设定部包括音质代表记忆部,记忆在所述音质特征数据库所记忆的所述多个音质 特征之中预先选择的两个以上的音质特征;音质出示部,对用户出示所述音质代表记忆部所记忆的音质特征;音质特征组输入部,从由所述音质出示部出示的音质特征之中,接受 音质特征组的输入;以及权重算出部,算出多个音质的声特征量的权重,所述多个音质的声特 征量的权重使由所述输入部输入的所述音质特征组中包含的音质特征间的 距离为最小。
6、 如权利要求1所述的音质编辑装置,所述权重设定部包括主观性表现出示部,按每个音质的声特征量,出示表现该声特征量的 主观性表现;重要度输入部,按每个由所述主观性表现出示部出示的主观性表现, 接受针对该主观性表现的重要度的输入;以及权重算出部,通过根据所述重要度输入部所接受的重要度,决定权重, 从而算出每个音质的声特征量的权重,所述权重以该重要度越高针对该重要度的音质的声特征量的权重就越高的方式被决定。
7、 如权利要求1所述的音质编辑装置,还包括用户信息管理数据库,记忆与用户所知道的音质相对应的音质特征的 识别信息,所述显示部,关于在所述音质特征数据库所记忆的所述多个音质特征 之中的、识别信息被记忆在所述用户信息管理数据库中的音质特征的每一 个,将与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识 符,显示在所述显示坐标算出部所算出的显示坐标上。
8、 如权利要求1所述的音质编辑装置, 还包括个人特征输入部,接受用户的性别或年龄的输入;以及 用户信息管理数据库,按每个用户的性别或年龄,记忆该性别或该年 龄的用户有可能知道的音质的音质特征的识别信息,所述显示部,关于在所述音质特征数据库所记忆的所述多个音质特征 之中的、识别信息与被记忆在所述用户信息管理数据库中的、与所述个人 特征输入部所接受的用户的性别或年龄对应的识别信息一致的音质特征的 每一个,将与该音质特征对应的、并被记忆在所述讲话者属性数据库中的 标识符,显示在所述显示坐标算出部所算出的显示坐标上。
9、 一种音质编辑方法,通过音质编辑装置,对各自由多个音质的声特 征量构成的多个音质特征进行编辑,从而生成新的音质特征,所述音质编辑装置包括 音质特征数据库,记忆多个音质特征;讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个音质 特征的每一个,记忆用户能够想起的与该音质特征对应的音质的标识符, 所述音质编辑方法包括以下步骤 按每个音质的声特征量来设定权重的步骤;关于所述音质特征数据库所记忆的所述多个音质特征的每一个,根据 构成该音质特征的所述多个声特征量和所述被设定的权重,算出该音质特征的显示坐标的步骤;关于所述音质特征数据库所记忆的所述多个音质特征的每一个,在显 示装置的所述算出的显示坐标上显示与该音质特征对应的、并被记忆在所 述讲话者属性数据库中的标识符的步骤;接受坐标的输入的步骤;以及关于所述音质特征数据库所记忆的所述多个音质特征的一部分或者全 部的每一个,通过算出该音质特征的显示坐标与所述接受了的坐标之间的 距离,并根据算出的距离的比率,混合所述多个音质特征的一部分或者全 部的声特征量,从而生成新的音质特征的步骤。
10、 一种计算机能够执行的程序,通过对各自由多个音质的声特征量 构成的多个音质特征进行编辑,从而生成新的音质特征,所述计算机包括音质特征数据库,记忆多个音质特征;讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个音质 特征的每一个,记忆用户能够想起的与该音质特征对应的音质的标识符; 所述程序使计算机执行以下步骤 按每个音质的声特征量来设定权重的步骤;关于所述音质特征数据库所记忆的所述多个音质特征的每一个,根据 构成该音质特征的所述多个声特征量和所述被设定的权重,算出该音质特征的显示坐标的步骤;关于所述音质特征数据库所记忆的所述多个音质特征的每一个,在显 示装置的所述算出的显示坐标上显示与该音质特征对应的、并被记忆在所 述讲话者属性数据库中的标识符的步骤;接受坐标的输入的步骤;以及关于所述音质特征数据库所记忆的所述多个音质特征的一部分或者全 部的每一个,通过算出该音质特征的显示坐标与所述接受了的坐标之间的 距离,并根据算出的距离的比率,混合所述多个音质特征的一部分或者全 部的声特征量,从而生成新的音质特征的步骤。
11、 一种音质编辑系统,通过对各自由多个音质的声特征量构成的多 个音质特征进行编辑,从而生成新的音质特征, 所述音质编辑系统包括通过网络而互相连接的第一终端、第二终端以及服务器, 所述第一终端及所述第二终端分别具有-音质特征数据库,记忆多个音质特征;讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个音质 特征的每一个,记忆用户能够想起的与该音质特征对应的音质的标识符; 权重设定部,按每个音质的声特征量来设定权重,并发送到所述服务器',音质间距离算出部,从所述音质特征数据库所记忆的多个音质特征之 中抽取由任意两个音质特征组成的音质特征组,按每个被抽取的音质特征 组,对构成该组所包含的音质特征的声特征量,以所述服务器所保持的权 重进行加权,并算出加权后的所述音质特征间的距离;尺度构成部,根据由所述音质间距离算出部算出的音质特征间的距离, 算出所述音质特征数据库所记忆的所述多个音质特征的显示坐标;显示部,关于所述音质特征数据库所记忆的所述多个音质特征的每一 个,在所述尺度构成部所算出的显示坐标上显示与该音质特征对应的、并 被记忆在所述讲话者属性数据库中的标识符;位置输入部,接受坐标的输入;以及音质混合部,关于所述音质特征数据库所记忆的所述多个音质特征的 一部分或者全部的每一个,通过算出该音质特征的显示坐标与由所述位置 输入部接受了的所述坐标之间的距离,并根据算出的距离的比率,混合所 述多个音质特征的一部分或者全部的声特征量,从而生成新的音质特征,所述服务器具有权重记忆部,记忆从所述第一终端或者所述第二终端 发送的权重。
全文摘要
本发明的音质编辑装置包括音质特征DB(101),记忆多个音质特征;讲话者属性DB(106),关于各个音质特征,记忆用户能够想起的与该音质特征对应的音质的标识符;权重设定部(103),按每个音质的声特征量设定权重;尺度构成部(105),关于各个音质特征,根据构成该音质特征的多个声特征量和权重设定部(103)所设定的权重,算出该音质特征的显示坐标;显示部(107),关于各个音质特征,在算出的显示坐标上显示与该音质特征对应的标识符;位置输入部(108),接受坐标的输入;音质混合部(110),关于多个音质特征的一部分或全部的每一个,通过算出该音质特征的显示坐标与所述接受了的坐标之间的距离,并根据算出的距离的比率,混合多个音质特征的一部分或全部的声特征量,生成新的音质特征。
文档编号G10L13/06GK101622659SQ20088000166
公开日2010年1月6日 申请日期2008年6月4日 优先权日2007年6月6日
发明者广濑良文, 釜井孝浩 申请人:松下电器产业株式会社