相关申请的交叉引用
本申请要求2018年8月22日提交的题为“systemsandmethodsforsoundenhancementinaudiosystems(用于在音频系统中进行声音增强的系统和方法)”的美国临时专利申请第62/721,417号和2019年3月19日提交的题为“systemsandmethodsforsoundenhancementinaudiosystems(用于在音频系统中进行声音增强的系统和方法)”的欧洲专利申请第19163624.0号的优先权,上述申请的公开内容均通过引用以其整体并入本文。
所公开的技术总体上涉及数字信号处理(dsp)、音频工程和听力学领域,并且更具体地涉及用于在音频系统上处理音频信号以为用户(包括那些健康的用户和那些听觉不好的用户)提供增强的听觉体验的系统和方法。
背景技术:
音频系统(包括家庭娱乐和扬声器消费产品)目前处于“一个声音适合所有人”的现状,并且不向用户提供最佳声音质量。与用户的群体相关联的不同听觉简况(profile)的多样性与报告听觉问题的个人的比例增加一同使得通用或默认音频信号将不太可能提供最佳声音质量并且将不太可能在其充分潜力下被所有用户(甚至大多数用户)感知到。该问题在一般音频内容的广泛环境下是明显的,并且在音乐内容和言语内容的环境下(例如,在电影或音频书籍中)通常更加特别明显。
因此,将期望提供用于增强音频系统(诸如电视、扬声器系统、家庭影院、智能扬声器、可听设备、智能手机、平板电脑、计算机、汽车和机上娱乐系统)上的声音信号的更容易使用的技术,以便因此提供更有效的言语清晰度、更好的声音质量,并最终使给定用户更好地享受声音内容。
技术实现要素:
在如下所述的本公开中将至少部分地解决已知现有技术中提出的问题。在独立权利要求中指定了本公开的多个特征,其某些进一步的实施方式将在从属权利要求中示出。权利要求的特征可以以任何技术上有意义的方式组合,并且可以考虑来自以下说明书的解释以及示出本公开技术的附加实施例的附图中的特征。
通过创建能够为用户实现无缝声音个性化的更方便和有效的处理方法,本公开的技术解决了传统解决方案带来的成本、不便和/或污点的问题。就此而言,本公开的方面通过音频系统个性化为一个或多个用户提供增强的听觉体验。
通常,本公开的技术的特征在于用于娱乐系统中的音频信号适配的系统和方法。特别地,该方法可以是用以为一个或多个用户提供增强的听觉体验的声音个性化的方法。
根据本公开的一个方面,音频处理方法可以包括从一个或多个用户接收适于导出一个或多个用户的听觉能力指示的信息。音频处理方法还可以包括:确定用于一个或多个用户的代表性听觉能力指示;确定用于代表性听觉能力指示的音频处理参数集;以及基于该音频处理参数集配置声音个性化信号处理算法。用于一个或多个用户的代表性听觉能力指示可以是用于一个或多个用户的代表性听觉年龄。音频处理方法还可以包括:在娱乐系统上接收音频信号;使用声音个性化信号处理算法来处理音频信号;并且从娱乐系统输出经处理的音频信号。这允许基于一个或多个用户的听觉能力的个性化音频信号处理以及用于一个或多个用户的增强的听觉体验。
在一个实施例中,适于导出听觉能力指示的信息包括一个或多个用户的人口统计信息,并且从人口统计信息确定代表性听觉能力指示(例如,听觉年龄)。
在一个实施例中,一个或多个用户的人口统计信息包括一个或多个用户的(生物)性别、年龄和出生日期中的至少一者。
在一个实施例中,适于导出听觉能力指示的信息包括一个或多个用户的音乐偏好。音乐偏好可以基于统计数据给出关于用户的年龄的指示,并且因此给出关于用户的听觉年龄的指示。
在一个实施例中,适于导出听觉能力指示的信息包括一个或多个用户的听觉测试结果。然后可以使用听觉测试结果来导出用于一个或多个用户的听觉年龄。
在一个实施例中,人口统计信息由一个或多个用户手动输入。例如,用户输入他的性别、年龄和/或出生日期。
在一个实施例中,从一个或多个用户的社交媒体帐户或从一个或多个用户的支持视频、照片、音乐回放、视频记录功能的个人帐户检索人口统计信息。这些数据源允许轻松访问可以自动提取和检索的人口统计信息。
在一个实施例中,使用语音识别算法或面部识别算法来确定一个或多个用户的人口统计信息。这种算法允许自动导出用于用户的人口统计信息。
在一个实施例中,声音个性化信号处理算法是多频带压缩算法。多频带压缩算法允许基于可控参数的多种信号操纵,所述可控参数可以基于代表性听觉能力指示(例如听觉年龄)来个性化。也可以使用其他参数化信号处理算法,例如,频率相关均衡器。
在一个实施例中,多频带压缩算法的参数包括在每个子带中提供的动态范围压缩器的阈值以及在每个子带中提供的动态范围压缩器的比率值。
在一个实施例中,多频带压缩算法的参数还包括在每个子带中提供的增益值。
在一个实施例中,接收音频信号包括从存储设备或从发射器接收音频信号。存储设备可以是娱乐系统的固定存储设备(例如,硬盘或固态存储器)。可替代地,可以经由无线或有线通信系统(诸如无线电波、单播、多播或广播传输、线缆系统、互联网等)接收音频信号。
在一个实施例中,确定用于代表性听觉能力指示的音频处理参数集包括从用于不同锚定听觉能力指示的预先存储的音频处理参数的表中导出该音频处理参数集。在实施例中,该表存储用于不同听觉年龄的音频处理参数。
在一个实施例中,确定用于代表性听觉能力指示的音频处理参数集还包括基于用于不同锚定听觉能力指示的预先存储的音频处理参数来内插用于该听觉能力指示的该音频处理参数集。
在一个实施例中,基于一个或多个用户的听觉测试结果,特别是通过将听觉测试结果与用于不同听觉能力指示的参考或代表性听觉测试结果进行比较并确定最接近的匹配,来确定代表性听觉能力指示。参考或代表性听觉测试结果可以是对应于特定的一个或多个年龄的标准听觉测试结果。通过收集大型数据集,可以确定主要年龄趋势,从而允许对个性化dsp算法的准确参数化。听觉测试结果可以基于超阈值测试、心理物理调谐曲线、掩蔽阈值测试或涉及掩蔽范例、阈值测试和听力图的进一步测试中的至少一者。也可以使用允许驱动听觉能力指示(例如听觉年龄)的其他听觉测试。
在一个实施例中,确定音频处理参数集包括通过基于听觉测试结果而优化用于一个或多个用户的感知相关信息来确定该音频处理参数集。例如,可以使用基于用户的听觉能力指示而对音频样本的感知熵进行的优化来确定音频处理参数。
在一个实施例中,在服务器处接收适于导出听觉能力指示的信息,在服务器处确定代表性听觉能力指示和该音频处理参数集。该方法还可以包括将该音频处理参数集传输到娱乐系统。
在一个实施例中,娱乐系统包括控制单元和耳机,音频信号在控制单元或耳机上处理并从耳机输出。本文将控制单元定义为处理模块,该音频处理参数集被传递到该处理模块以配置信号处理算法,然后该信号处理算法处理该音频信号。
在一个实施例中,接收用以导出用于多个用户的听觉能力指示的信息,并且特别是通过选择多个用户的最年轻的听觉能力指示(例如,为多个用户选择最年轻的听觉年龄)来确定用于多个用户的代表性听觉能力指示。如平均听觉年龄的其他方法也是可能的。
根据本公开的一方面,用于多个用户的系统可以包括存储的程序,该存储的程序在娱乐系统的处理器上被执行时使处理器根据音频处理方法执行音频处理。
根据本公开的一方面,一种包括指令的计算机程序产品,该指令在娱乐系统上被执行时使处理器执行音频处理方法。
针对方法公开的上述方面同样可以以相同的方式应用于系统和计算机程序产品。
除非另外定义,否则本文使用的所有技术术语具有与该技术所属领域的普通技术人员通常理解的含义相同的含义。
本文使用的术语“听觉简况”被定义为反映用户的听觉能力的代表性听觉数据。听觉简况可以从个人的人口统计信息或从听觉测试(例如从听力图或从超阈值数据,诸如跨听觉谱的心理物理调谐曲线)导出。
本文使用的术语“声音个性化”被定义为处理音频信号以增强信号对用户的清晰度的任何数字信号处理(dsp)算法。例如,dsp算法可以包括多频带压缩系统和/或采用根据计算的用户的听觉简况进行参数化的均衡技术。
本文使用的短语“人口统计信息”被定义为个人的具有用于统计目的的信息值(例如,听觉能力)的特性,诸如年龄、(生物)性别和种族。已知个人的听觉能力与个人的年龄相关。个人的听觉能力可能与个人的生物性别相关:通常,男性个人的听觉可能比女性个人稍差。
本文使用的术语“音频娱乐系统”可以指家庭娱乐系统,诸如电视、家庭影院、家庭剧场、使用视频和音频设备再现电影院体验和情绪的系统、家庭剧场个人计算机、媒体中心电器、将个人计算机的能力与支持视频、照片、音乐回放、视频记录功能、hi-fi系统和扬声器系统的软件应用程序相结合的设备。音频娱乐系统还可以指汽车中的娱乐系统、后座中的机上娱乐系统,或者一般地指输出音频信号的任何设备,诸如智能手机、平板电脑、可听设备、智能扬声器或计算机。
附图说明
为了描述可以获得本公开的上述和其他优点和特征的方式,将通过参考其具体实施例来呈现对上面简要描述的原理的更具体的描述,这些具体实施例在附图中示出。应理解,这些附图仅描绘了本公开的示例性实施例,并且因此不应视为对其范围的限制,通过使用附图进行的附加特征和细节来描述和解释本文的原理,其中:
图1示出根据本公开的一个或多个方面的音频处理方法的示例方法;
图2示出根据本公开的一个或多个方面的音频处理方法的示例实施例;
图3示出根据本公开的一个或多个方面的音频处理方法的另一示例实施例;
图4a-图4c示出从ptc和mt数据集中提取的年龄趋势;
图5示出用于接收用户的适于导出听觉能力指示的信息并确定听觉能力指示的示例性数据源;
图6示出用于设置个人用户简况的示例界面;
图7示出用于设置一个或多个用户简况的示例界面;
图8示出用于群组设置的示例界面;
图9示出从伴随应用程序设置听觉简况的方法;
图10示出从听觉测试结果(更具体地,涉及掩蔽范例的听觉测试的结果)确定音频参数的一种方式;
图11示出用于通过优化感知相关信息从人口统计数据获得dsp参数的方法;
图12示出根据本公开的一个或多个方面的示例多频带压缩系统;并且
图13示出如何使用人口统计群组的代表性听觉数据来计算参数预设,然后将参数预设存储在数据库中。
具体实施方式
以下详细讨论本公开的多种示例实施例。虽然讨论了具体实施方式,但应该理解,这仅出于说明目的而进行。相关领域的技术人员将认识到,在不脱离本公开的精神和范围的情况下可以使用其他组件和配置。因此,以下描述和附图是说明性的,并且不应被解释为限制本文描述的实施例的范围。描述了许多具体细节以提供对本公开的透彻理解。然而,在某些情况下,没有描述众所周知的或常规细节以避免使描述模糊。对本公开中的一个或一实施例的引用可以是对相同实施例或任何实施例的引用;并且,此类引用意味着实施例中的至少一者。
对“一个实施例”或“一实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本公开的至少一个实施例中。在说明书中的多处出现的短语“在一个实施例中”不一定都指代相同的实施例,也不是与其他实施例互斥的单独或替代实施例。此外,描述了可以由一些实施例展示但不由其他实施例展示的各种特征。
本说明书中使用的术语在本公开的上下文中以及在使用每个术语的特定上下文中通常具有其在本领域中的普通含义。替代语言和同义词可以用于本文所讨论的术语中的任何一个或多个,并且对于是否在本文中详述或讨论术语,不应给予特别重要的意义。在某些情况下,提供了某些术语的同义词。一个或多个同义词的叙述不排除使用其他同义词。本说明书中任何地方的示例(包括本文所讨论的任何术语的示例)的使用仅是说明性的,并且不旨在进一步限制本公开或任何示例术语的范围和含义。同样地,本公开不限于本说明书中给出的多种实施例。
在不意图限制本公开的范围的情况下,下面给出根据本公开的实施例的仪器、装置、方法及其相关结果的示例。注意,为了方便读者,可以在示例中使用标题或副标题,这绝不应限制本公开的范围。除非另外定义,否则本文使用的技术和科学术语具有本公开所属领域的普通技术人员通常理解的含义。在发生冲突的情况下,本文件(包括定义)将进行控制。
本发明的附加特征和优点将在下面的描述中阐述,并且部分地将从描述中显而易见,或者可以通过实践本文公开的原理来学习。借助于所附权利要求中特别指出的仪器和组合,可以实现和获得本公开的特征和优点。根据以下描述和所附权利要求,本公开的这些和其他特征将变得更加明显,或者可以通过实践本文阐述的原理来学习本公开的这些和其他特征。
以下详细讨论本公开的多种示例实施例。虽然讨论了具体实施方式,但应该理解,这仅出于说明目的而进行。相关领域的技术人员将认识到,在不脱离本公开的精神和范围的情况下可以使用其他组件和配置。
示例实施例
现在转到图1,图1是示出根据本公开的方面的音频处理方法的连续步骤的流程图。
在步骤101中,接收来自一个或多个用户的适于导出一个或多个用户的听觉能力指示的信息。适于导出听觉能力指示的信息可以包括人口统计信息,诸如一个或多个用户的生物性别、年龄、出生日期或出生年份。适于导出听觉能力指示的信息还可以包括一个或多个用户的音乐偏好。此外,适于导出听觉能力指示的信息可以包括一个或多个用户的听觉测试结果。听觉测试结果可以包括超阈值测试结果,诸如涉及掩蔽范例(诸如掩蔽阈值测试或心理声学测试)的测试结果、听力图或其他听觉测试结果。
可以在设备上手动输入信息。该信息还可以通过语音识别软件获得,该语音识别软件被配置为通过用户的语音识别用户并访问用户的相应个人简况,个人简况包括适于导出用户的听觉能力指示的信息。该信息也可以存储在设备的存储器中。该信息还可以从一个或多个用户的社交媒体帐户或从一个或多个用户的支持视频、照片、音乐回放或视频记录功能的个人帐户获得。接收适于导出听觉能力指示的信息的其他方式是通过语音识别算法、面部识别算法、用户的生理参数、用户的音乐偏好或访问用户的时间和位置。步骤101可以发生在服务器上或发生在位于诸如智能电话、平板电脑或任何娱乐设备的用户设备上的离线模块上。
在步骤102中,为一个或多个用户确定听觉能力指示。可以从在步骤101中接收的信息中导出听觉能力指示。听觉能力指示可以是假设的听觉年龄,即与具有健康听觉的用户相比反映用户的听觉能力的年龄。可以假设听觉年龄对应于用户的实际年龄。即,可以通过将用户的出生日期减去当天的日期来计算用户的实际年龄。听觉年龄也可以从一个或多个听觉测试结果来确定。在这种情况下,听觉年龄可以与用户的实际年龄相似或不同。在一个实施例中,可以计算用户的听觉年龄和实际年龄的平均值,以便获得用户的听觉能力指示。听觉能力指示可以是静态的,即生成一次然后保存,或者可以是动态的,即,生成并且然后每当接收到与给定听觉能力指示(例如听觉简况)及其相关联的用户相关的新信息时更新。在使用预先构建的听觉能力指示的情况下,该指示可以远程存储(例如,存储在服务器上)、本地存储(例如,存储在位于设备上(例如在娱乐系统上)的离线模块上),或者以两者的某种组合存储。
在步骤103中,为该听觉能力指示确定音频处理参数集。在一个实施例中,可以从用于不同锚定听觉能力指示的预先存储的音频处理参数的表中导出音频处理参数集。锚定听觉能力指示可以是听觉年龄的选择,每个听觉年龄具有其相关联的音频处理参数集。具体地,可以基于此类预先存储的音频处理参数的表来内插音频处理参数集。例如,如果用户的听觉能力指示不对应于锚定听觉能力指示(例如,锚定听觉年龄),则可以从相邻的听觉能力指示内插该音频处理参数集。在一个实施例中,内插可以是线性内插。在一个实施例中,可以将用户的听觉测试结果与用于不同听觉能力指示(例如听觉年龄)的参考或代表性听觉测试结果进行比较,以便确定最接近的匹配。听觉测试结果可以基于超阈值测试、心理物理调谐曲线、掩蔽阈值测试或涉及掩蔽范例、阈值测试和听力图的进一步测试中的至少一者。也可以使用允许驱动听觉能力指示(例如听觉年龄)的其他听觉测试。通过收集大型数据集,可以探知主要年龄趋势,从而允许对个性化dsp算法的准确参数化。然后可以使用匹配最接近的参考或代表性听觉测试结果来确定用于用户的听觉能力指示。例如,参考或代表性听觉测试结果用相应的听觉年龄标记,并且匹配最接近的参考/代表性听觉测试结果的听觉年龄被指定为用于用户的听觉年龄。可以通过对与最接近的匹配相对应的音频参数集的内插来导出该音频处理参数集。该音频参数集也可以从用户的听觉测试结果中导出。例如,掩蔽轮廓曲线数据(诸如掩蔽阈值数据或心理声学调谐曲线数据)可以用于计算用于给定频率子带的比率和阈值参数,而听力图数据可以用于计算给定频率子带内的增益。在一个实施例中,基于以下方式来确定该音频处理参数集:基于听觉测试结果优化用于一个或多个用户的感知相关信息。
在步骤104中,可以基于该音频处理参数集来配置声音个性化信号处理算法。声音个性化信号处理算法可以在音频娱乐系统上执行。
在步骤105中,在音频娱乐系统上接收音频信号,该音频娱乐系统诸如电视、家庭影院、家庭剧场、媒体中心电器、将个人计算机的能力与支持视频、照片、音乐回放、视频录制功能、hi-fi系统和扬声器系统的软件应用相结合的设备、汽车中的娱乐系统、后座中的机上娱乐系统、智能手机、平板电脑、可听设备、智能扬声器或计算机。应当注意,音频娱乐系统不是实时拾取声音并且经由入耳设备将经处理的声音播放给用户的助听器。
可以从音频娱乐系统的诸如硬盘或音乐cd/dvd的存储设备接收音频信号。可替代地,可以由音频娱乐系统的接收器经由诸如音频流路径或无线电广播服务的有线或无线传输路径从外部发射器接收音频信号。通常,音频信号不是由娱乐系统实时记录的,而是从存储音频信号的本地或远程存储设备接收的。
在步骤106中,使用声音个性化信号处理算法来处理音频信号。换句话说,声音个性化信号处理算法应用于音频信号并改变信号特性,以便为一个或多个用户提供增强的听觉体验。在实施例中,声音个性化信号处理算法是多频带动态范围压缩算法。
在步骤107中,经处理的音频信号从娱乐系统输出并且例如经由诸如扬声器或耳机的换能器回放给一个或多个用户。
图2描绘了结合本公开的方面的示例实施例,其中在用户设备上输入(例如,手动输入)人口统计信息201。用户手动输入他/她的出生年份并且可选地手动输入他/她的生物性别。用户设备可以是娱乐系统207的一部分,或者可以是单独的设备。
在202处,将输入的信息传输到拟合模块203。拟合模块具有离线工作的能力并且可以集成到娱乐系统207中。可以通过在拟合模块203上对当前年份(或当天的日期)减去出生年份或出生日期来计算用户的年龄。
在拟合模块203上存储多个锚定年龄,每个锚定年龄对应于音频处理参数集。
通过将用户的年龄与两个最接近的锚定年龄相匹配来导出对应于用户的年龄的音频处理参数集。通过线性内插方法确定对应于用户年龄的音频参数集204。该步骤也发生在拟合模块203上。
锚定年龄可以是例如18岁、45岁、60岁和75岁。将从对应于锚定年龄45岁和60岁的参数线性内插用于年龄为55岁的用户的音频处理参数集。
在步骤205中,然后将对应于用户年龄的音频处理参数集204传递到处理模块206。在实施例中,处理模块206也被集成到娱乐系统207中。
音频输入信号进入208娱乐系统上的处理模块206,音频输入信号在该处理模块206中被处理。然后,从娱乐系统207输出209经处理的音频信号。
图3描绘了结合本公开的方面的示例实施例,其中用户可以通过输入诸如他/她的姓名、电子邮件地址和/或个人口令来创建或登录他/她的个人用户简况201。在步骤202中,将输入的信息或来自个人用户简况201的信息传输到拟合模块203。拟合模块位于服务器210上。服务器210访问来自用户的数据,例如他/她的年龄、出生日期、生物性别和/或听觉测试结果。
根据用户的年龄,通过锚定年龄及其对应的音频处理参数集(诸如上面参考图2所描述的)之间的线性内插,或者通过直接从用户的听觉测试结果导出音频处理参数集,在拟合模块203上确定音频处理参数204。在步骤205中,将音频处理参数204传递到处理模块206。处理模块位于娱乐系统207上。
在208处,音频输入信号进入娱乐系统207上的处理模块206,音频输入信号在该处理模块206中被处理。然后,从娱乐系统207输出209经处理的音频信号。
图4a示出用户的听觉能力随时间的典型退化。在20岁以后,人类开始失去听到较高频率(虽然高于人类语音的频谱)的能力。随着年龄的增长,这种情况会逐渐恶化,因为在50或60岁左右出现言语频谱中的明显下降。然而,这些纯音听力测试的检查结果掩蔽了一个更复杂的问题,因为人类理解言语的能力实际上可能早就开始下降了。尽管听觉损失通常始于较高频率,但是意识到他们有听觉损失的用户通常不会抱怨没有高频率声音。相反,他们报告在嘈杂的环境中聆听困难以及在复杂的声音混合中(诸如在电话中)听出细节。本质上,截止频率的声音更容易掩蔽听觉受损个人感兴趣的频率——曾经清晰且细节丰富的对话变得混乱。随着听觉退化,耳朵的信号调节能力开始下降,并且因此听觉受损的用户需要花费更多的心理努力来理解复杂声学场景中的感兴趣的声音(或完全错过信息)。听力图中提高的阈值不仅仅是听觉灵敏度的降低,而且是听力系统内某些深层过程失灵的结果,该深层过程具有超出微弱声音检测的意义。在这个意义上,言语清晰度问题相当普遍。
图4b-图4c示出大型听觉数据集如何实现对用户的听觉能力的更准确的人口统计估计。ptc测试(图4b)是超阈值测试,其测量个人相对于可变频率和幅度的扫描掩蔽噪声辨别探测音调(或脉冲信号音调)的能力。例如,这里,在存在用于频率在500hz和4khz之间并且声级在20dbsl和40dbsl之间的信号音调的从该信号音调频率的50%扫描到该信号音调频率的150%的掩蔽信号的情况下,可以针对该信号音调测量心理物理调谐曲线测试。通过收集大型数据集,诸如图4b中所示的数据集,可以探知主要年龄趋势,从而允许对个性化dsp算法的准确参数化。例如,在多频带压缩系统中,可以修改每个子带信号动态范围压缩器(drc)的阈值和比率值,以减少频率掩蔽的问题区域,同时可以在相关区域进一步应用压缩后的子带信号增益。掩蔽阈值曲线202表示用于测量掩蔽阈值的类似范例。在这种情况202下,约4khz的窄带噪声被固定,而探测音调从噪声带中心频率的50%扫描到噪声带中心频率的150%。同样,可以从大型mt数据集的集合中探知主要年龄趋势。在一些实施例中,可以预处理或以其他方式分析和修改诸如图4c中所描绘的数据集的数据集,从而准备原始输入数据以用于上述对个性化dsp算法的参数化。例如,在一些实施例中,可以分析数据集以检测和移除各种异常值数据条目,其中异常值数据条目是被确定为构成无效测试结果的条目。可以基于统计因素来识别或以其他方式检测无效测试结果,诸如测试的长度(例如,非常长或非常短的测试时段更可能是无效测试)、从被测试的用户接收的按钮或ui输入(例如,不成比例地大或小数量的按钮按压或ui输入)等都可以在该分析中使用。
图5示出可以获得用户的人口统计信息510的各种输入源。人口统计信息510可以包括但不限于:年龄、性别、居住国、出生国等。尽管分开描述,但是应当理解,在不脱离本公开的范围的情况下,这些输入源中的一个或多个可以单独地或协作地组合使用。在一个实施例501中,可以通过使用言语识别算法来处理用户的语音以获得一个或多个用户的年龄和性别人口统计信息。这种言语识别算法可以基本上实时地应用,可以应用于先前记录的用户说话的样本,或两者。更具体地,可以根据声道长度(vtl)和音高的组合来估计给定用户的年龄和性别,声道长度和音高都可以从用户的言语样本中的元音声音中提取。例如,儿童通常具有短的vtl和高的音高,成年男性通常具有低的音高和长的vtl,并且成年女性通常具有相当长的声道长度和更高的音高(参见例如metze,f.、ajmera,j.、englert,r.、bub,u.、burkhardt,f.、stegmann,j.、...&little,b.,“电话应用年龄和性别识别四种方法的比较”,2007ieee国际会议声学,语音和信号处理,icassp'07第4卷,第iv-1089页(metze,f.,ajmera,j.,englert,r.,bub,u.,burkhardt,f.,stegmann,j.,...&littel,b.,‘comparisonoffourapproachestoageandgenderrecognitionfortelephoneapplications’,2007ieeeinternationalconferenceonacoustics,speechandsignalprocessing,icassp'07vol.4,pp.iv-1089))。
在另一个实施例502中,可以从娱乐系统的存储的存储器中检索一个或多个用户的年龄和性别人口统计信息。例如,可以从与娱乐系统上提供的或以其他方式可访问的联系人卡片、联系人列表、日历条目等相关联的出生日期检索用户的年龄数据。在一些实施例503中,可以在使用娱乐系统之前,由预期用户手动输入用户的年龄和性别人口统计信息。在一些实施例504中,可以通过面部识别技术(诸如从移动电话的相机或娱乐系统)获得预期用户的年龄和性别人口统计信息。在一些实施例505中,可以使用生理测量,诸如心率、血压和/或手的颤抖。在一些实施例506中,可以使用阈值和超阈值听觉测试结果。在一些实施例507中,可以从服务器(例如,无线网络连接)(例如,从用户或预期用户的社交媒体帐户(facebook、twitter、linkedin等))获得用户或预期用户的人口统计信息。在一些实施例508中,用户的时间和位置可以用于确定dsp参数化,例如,如果个人处于嘈杂的位置,则应用更多的增益。在一些实施例509中,用户的人口统计信息可以从他的音乐偏好中导出。这可以基于音乐类型和某个音乐类型的听众的平均人口统计信息(即年龄)。其还可以基于关于艺术家、专辑或曲目的听众的平均人口统计信息(即年龄)的统计数据。
图6示出本公开的示例用户界面。例如,可以在家庭娱乐系统的屏幕上示出示例用户界面以创建新的用户简况。根据本公开的一个或多个方面,可以采用此类用户简况来提供一个或多个音频信号(独立的或者从诸如视频、电视广播、电影等的多媒体内容导出)的声音个性化。如图所示,用户界面可以提示用户创建新的简况,即“创建新的米米(mimi)简况”。在第一输入字段601中,给定用户输入他或她的姓名,并且在第二输入字段602中,给定用户输入他或她的出生年份。在一些实施例中,用户界面可以提供提示和/或阐明信息,例如,提供“你的出生年份作为用于你的独特声音的标准”的保证。以这种方式,通过提供保证并阐明将以适当的方式使用该个人信息(或给定用户的其他人口统计信息),可以增加用户顺应性。在一些实施例中,输入字段601、602中的一个或多个可以由给定用户使用硬件输入设备(电视遥控器、智能电话、专用控制器)或软件输入机构(语音识别等)手动填充。
图7示出本公开的附加示例用户界面。如图所示,该用户界面允许在不同的存储或已配置的用户简况(诸如图6的那些用户简况)之间进行选择。在一些实施例中,用户界面可以用于仅选择单个用户的简况(对应于“谁正在看电视?-只有我”的选项)。在一些实施例中,用户界面可用于选择多用户用户简况或多用户聆听体验(对应于“谁正在看电视?-更多人”的选项)。用户的数量可以手动输入,或者可以例如通过联接到本公开的电视和/或声音个性化系统的相机系统或其他(一个或多个)外部传感器自动导出。
图8示出对应于多用户用户简况或多用户聆听体验的选择(即,图7的“谁正在看电视?-更多人”选项的选择)的示例用户界面。特别地,图8描绘了对应于群组声音个性化的两个另外的选项。在第一选项(示出为两者中最左侧选项)中,用户可以选择快速群组预设,其为标准群组预设集中的一个。该选项可以最适合新的、未知的或以其他方式未注册的(使用声音个性化系统)个人的大群组。在第二选项(示出为两者中最右侧的选项)中,用户可以选择添加新的简况,即,使得存在用于该群组中的所有个人(或大多数个人)的简况。该选项可以最适合群组的成员通常将一起观看或聆听的群组观看和聆听场景,例如,该群组主要由同一家庭中共同生活的家庭成员或个人组成。实现群组个性化的一种方式是创建对应于群组的成员或群组的大多数成员出生的年代(七十年代、八十年代、九十年代等)的群组预设。在一个实施例中,用于该群组的参考听觉年龄可以对应于该年代的中间(即用于七十年代的1975年、用于八十年代的1985年等)。在用户出生在不同的年代中的另一个实施例中,最佳预设将是导致最少处理的预设,以避免任何过多的可能破坏任何一个用户的信号质量的处理。通常,这些将是最近一年出生的预设。在一个实施例中,用户的听觉简况(听力图或掩蔽曲线)是已知的,并且计算两个或更多个简况的平均值。
图9示出预设公开的示例方法,该示例性方法用于从伴随应用程序(例如,在智能手机、移动计算设备或与执行听觉简况设置的用户相关联的其他计算设备上运行的伴随应用)设置听觉简况。该示例方法可以提供先前关于图3描述的过程的特定实施例。返回图9,如图所示,伴随应用程序在智能手机上运行。在第一步骤901中,输入关于用户的基本信息(诸如年龄、姓名)、联系信息、关于用户听觉的信息(预测试)。在进一步的步骤902中,用户有可能进行听觉测试。可以对双耳进行测试。在进一步的步骤903中,验证听觉数据,并且用户接收他的简况被更新的信息。生成音频处理参数集,然后在步骤904中将音频处理参数传递到娱乐系统905。
图10示出从听觉测试结果(更具体地,从涉及掩蔽范例的听觉测试的结果)确定音频参数的一种方式。图10给出了在多频带压缩系统中设置用于信道(或频带)的比率和阈值参数的一种方式(例如,在步骤103处)。图10组合了在中心频率1008下的恒定音调或噪声1005的用户掩蔽轮廓曲线1006和目标掩蔽轮廓曲线1007的可视化(x轴1001是频率、y轴1002是以dbspl或hl为单位的声级)和示出声音信号的输入水平1003对输出水平1004的输入/输出曲线图(以相对于满量程的分贝(dbfs)为单位)。输入/输出曲线图中的二等分线表示具有增益1的输入信号的1:1(未处理)输出。频带1010中的多频带压缩系统的参数是阈值1011和增益1012。这两个参数是从用于用户的人口统计估计的掩蔽轮廓曲线1006和目标掩蔽轮廓曲线1007确定的。
在本公开的上下文中,选择应当为之获得参数集的频带1010,并且针对该频带1010执行图1的方法。如上所述,(一个或多个)掩蔽轮廓曲线优选地选择成使得它们的中心频率处于与讨论中的频带相邻的频带中。
在本公开的上下文中,可以通过依赖于掩蔽范例的超阈值测试来获得掩蔽轮廓曲线,诸如获得个人的心理声学调谐曲线或掩蔽阈值曲线。例如,可以通过掩蔽噪声掩蔽恒定音调或噪声1005来进行心理声学测试,从而获得用户掩蔽轮廓曲线1006。用户掩蔽轮廓曲线的至少一部分应该在应当为之获得参数集的频带1010中。用户掩蔽轮廓曲线1006也可以被存储并可从数据库或服务器访问,并且基于统计平均值与个人的听觉年龄匹配。目标掩蔽轮廓曲线1007通常比具有轻度、中度、重度或深度听觉损失的用户的掩蔽轮廓曲线“更锐利”,并且因此对应于个人的听觉能力的改善。
根据用户的初始听觉能力,根据参考曲线拟合处理可能导致过多的处理以破坏信号的质量。目标是处理信号以便在客观利益和良好声音质量之间获得良好平衡。
然后在频带1010内选择给定频率1009。这可以在与恒定音调或噪声的中心频率1008相距一定距离处(优选地在相邻频带或另一个附近频带中)任意选择。在任何情况下,如上所述,优选的是给定频率1009处于与中心频率1008不同的另一频带1010中。在该给定频率1009处确定用户和目标掩蔽轮廓曲线的对应声级。可以在y轴1002上以图形方式确定这些声级的值。
阈值1011和比率1012必须满足以下条件:通过应用压缩系统,使得在给定频率1009下的用户掩蔽轮廓曲线的信噪比1021(snr)与相同的给定频率1009下的目标掩蔽轮廓曲线的snr1022匹配。snr在本文中定义为信号音调相对于(即除以)掩蔽噪声水平的水平。因此,曲线“越尖锐”,噪声值越高,而信号值保持不变。
通常,在确定相应的掩蔽轮廓曲线时,信号音调的声级不变,并且噪声水平变化(噪声在频率和水平上扫过恒定的音调)。在这种情况下,噪声水平越高,snr将越小(并且噪声水平越低(宽ptc的情况),snr将越高。换句话说,曲线将越宽,snr越高。噪声水平固定并且信号音调变化的反向配置也是可能的配置。在这种情况下,掩蔽轮廓曲线应围绕中心点旋转180°。
给定频率1009下的目标掩蔽轮廓曲线的以db为单位的声级1030对应于(参见图10中的弯曲箭头1031)进入压缩系统的输入声级1041。目标是由压缩系统输出的声级1042将在相同的给定频率1009下匹配用户掩蔽轮廓曲线1006,即,他的声级1042基本上等于在给定频率1009下的用户掩蔽轮廓曲线的以db为单位的声级。该条件允许导出阈值1011(其必须低于输入声级,如果不是,则当低于压缩机的阈值时没有变化,系统是线性的)和比率1012。换句话说,输入声级1041和输出声级1042确定压缩曲线的参考点。必须将阈值1011选择为低于输入声级1041。一旦选择了阈值,就可以从阈值和参考点确定比率1012。
图10中的右侧面板(参见连续曲线图)示出断裂的杆drc(或弯曲膝盖或硬膝盖drc),其中阈值1011和比率1012作为需要确定的参数。在给定频率1009下具有声级1030/1041的输入声音信号进入压缩系统。声音信号应由drc以一定方式处理,使得输出的声级是在给定频率1009下的用户掩蔽轮廓曲线1006的声级。阈值1011不应超过输入声级1041,否则压缩将不会发生。多个阈值和比率参数集是可能的。可以根据拟合算法和/或客观拟合数据来选择优选集,该拟合算法和/或客观拟合数据已被证明在声音质量方面显示出最大益处。例如,可以选择阈值1011和比率1012中的任何一个具有默认值,然后可以通过施加上述条件来确定相应的另一个参数。选择优选集的另一种方式是在信道或频带中的一个或多个其他给定频率下重复步骤103(见图1)。对于输入的声级具有两个或更多个输出的声级值集可以允许更准确地确定参数集(阈值和比率,例如阈值1011和比率1012)。
优选地,该比率高于0.2(1:5),以避免过度压缩导致改变的音频信号。该比率不应超过1(1:1),1:1的比率对应于无压缩。
对于扫描噪声掩蔽轮廓曲线和扫描信号音调掩蔽轮廓曲线之间没有区别的一般情况,确定压缩系统的参数,使得将压缩系统应用于在给定频率1009下的用户掩蔽轮廓曲线的信号水平和在给定频率1009下的目标掩蔽轮廓曲线的信号水平中较高的一个产生在给定频率1009下的用户掩蔽轮廓曲线的信号水平和在给定频率1009下的目标掩蔽轮廓曲线的水平中的较低的一个。
在一些实施例中,人口统计估计的听力图的结果可以用于计算子带信号内的增益。例如,可以通过相应的频率增益来补偿升高的阈值。
在如图11所示的另一实施例中,可以通过经由使用人口统计估计的阈值和超阈值信息进行的参数化而优化感知相关信息(例如,感知熵)来计算多频带动态处理器中的dsp参数(参见共同拥有的申请us16/206,376和ep18208020.0)。简而言之,为了通过感知相关信息对多频带动态处理器进行最佳参数化,音频样本1101或音频样本的主体首先由参数化多频带动态处理器1102处理,并且根据人口统计学估计阈值和超阈值信息1107计算1103文件的感知熵。在计算之后,根据从优化导出的给定的参数启发法集重新参数化1111多频带动态处理器,并且由此-(一个或多个)音频样本被重新处理1102并且进行pri计算1103。换句话说,考虑到个人用户的人口统计估计的阈值和超阈值信息1107,多频带动态处理器被配置为处理音频样本,使得其具有用于特定用户的较高pri值。为此,参数化多频带动态处理器适用于相对于未经处理的音频样本增加经处理的音频样本的pri。多频带动态处理器的参数由使用pri作为其优化标准的优化过程确定。
pri可以根据各种方法计算。一种这样的方法(也称为感知熵)由贝尔实验室(belllabs)的jamesd.johnston开发,通常包括:将音频信号的采样窗口变换到频域,通过执行临界频带分析使用心理声学规则来获得掩蔽阈值,确定音频信号的类似噪声或类似音调的区域,应用信号的阈值规则,并且然后考虑绝对听觉阈值。在此之后,确定在不引入可感知的量化误差的情况下量化频谱所需的比特数。例如,painter&spanias公开了以比特/秒为单位的感知熵的公式,这与iso/iecmpeg-1心理声学模型2密切相关[painter&spanias,数字音频的感知编码,ieee,第88卷,no.4(2000)(painter&spanias,perceptualcodingofdigitalaudio,proc.ofieee,vol.88,no.4(2000));通常还参见移动图像专家组(movingpictureexpertgroup)标准https://mpeg.chiariglione.org/standards;这两份文件都包含在参考文献中]。
取决于所应用的音频处理功能的类型,诸如上述多频带动态处理器,多种优化方法可以最大化音频样本的pri。例如,子带动态压缩器可以通过用于每个子带的压缩阈值、起音时间、增益和压缩比率来参数化,并且这些参数可以由优化过程确定。在某些情况下,多频带动态处理器对音频信号的影响是非线性的,并且需要适当的优化技术,诸如梯度下降。需要确定的参数的数量可能变大,例如,如果在许多子带中处理音频信号且需要为每个子带确定多个参数。在这种情况下,同时优化所有参数可能是不切实际的,并且可以应用用于参数优化的顺序方法。尽管顺序优化过程不一定导致最佳参数,但是获得的参数值导致相对于未处理的音频样本的pri增加,从而改善了用户的聆听体验。
图12示出能够提供本公开的音频信号处理的个性化的多频带压缩dsp系统。传入信号1201(例如,原始或预处理的音频信号)由相应的多个带通滤波器1202在频谱上分解成多个子带信号。随后,每个子带信号被传输到动态范围压缩器(drc)1203。如图所示,存在为每个子带信号提供的drc,然而在不脱离本公开的范围的情况下,可以根据需要相对于子带信号的数量提供更多或更少数量的drc1203。取决于配置或以其他方式期望的特定声音个性化,drc1203中的一个或多个可以是相同的、相似的或不同的。在一些实施例中,对于每个子带信号,drc1203中的对应的一个的特征在于阈值变量tx(即,drc压缩启动时的阈值)和比率变量rx(即,由高于阈值tx的drc提供的增益减少量)。随后,在drc1203处压缩之后,每个子带信号可以经受可变增益gx1204。对于每个子带信号,变量可以根据接收器的人口统计信息而不同。
图13示出如何根据预期用户的年龄来配置或预设参数集,但是应当理解,示例性参数预设也可以应用于预期用户的性别或其他人口统计信息。在图13的特定示例中,对于年龄为20岁且为男性的预期用户,包括可听频率范围上的阈值和超阈值信息的听觉数据1301用于计算1302参数预设1303。然后将该预设存储在根据特定人口统计群组的数据库1304中。在另一示例中,从70岁男性的模型的听觉数据1305计算1306预设1307并将预设存储在预设数据库1308中。因此,当探知1301、1305用户的人口统计信息时,然后可以从数据库1304、1308检索1303、1307这些预设1304、1308。如该示例所示,这些参数预设1304、1308包括针对x的多个值的tx、rx和gx值,其中每个单独的值也通过年龄参数化,例如,{t1,20岁年龄、r1,20岁年龄、g1,20岁年龄}和{t1,70岁年龄、r1,70岁年龄、g1,70岁年龄}。
在一些实施例中,用于给定用户或给定听觉简况的一个或多个参数可以从最近的相关年龄预设中内插,例如,可以从现有的45岁和50岁参数预设中内插47岁的听觉预设。在不脱离本公开的范围的情况下,多频带压缩系统的其他配置是可能的(参见例如共同拥有的美国专利第10,19,9047号和美国申请第16/244,727号),具有相关的相关联的参数。
所提出的技术提供了一种新颖且方便的方式,用以通过根据(一个或多个)给定聆听个人的(一个或多个)特定听觉简况来无缝地个性化电视、视频或多媒体内容的音频部分,为可能遭受已知或未确诊的听觉缺陷的个人的电视、视频或多媒体消费品提供增加的清晰度。应理解,本公开考虑了许多变化、可选项和替代方案。为了解释清楚,在一些实例中,本技术可以被呈现为包括独立功能块,这些功能块包括包含以下的功能块:设备、设备组件、在软件中体现的方法中的步骤或例程、或者硬件和软件的组合。
可以使用存储在计算机可读介质中或以其他方式从计算机可读介质可获得的计算机可执行指令来实现根据上述示例的方法。这样的指令可以包括例如引起或以其他方式配置通用计算机、专用计算机或专用处理设备以执行特定功能或功能群组的指令和数据。使用的计算机资源的一部分可以通过网络可访问。计算机可执行指令可以是例如二进制文件、中间格式指令(诸如汇编语言)、固件或源代码。可以用于存储指令、所使用的信息和/或在根据所述示例的方法期间创建的信息的计算机可读介质的示例包括磁盘或光盘、闪存、提供有非易失性存储器的usb设备、网络存储设备,等等。
实现根据这些公开的方法的设备可以包括硬件、固件和/或软件,并且可以采用各种形状因子中的任何一种。这种形状因子的典型示例包括膝上型电脑、智能电话、小型个人计算机、个人数字助理、机架设备、独立设备等。本文描述的功能也可以体现在外围设备或附加卡中。作为另一示例,此类功能还可以在不同芯片之间的电路板上或在单个设备中执行的不同处理上实现。指令、用于传送这些指令的介质、用于执行它们的计算资源以及用于支持这种计算资源的其他结构是用于提供这些公开中描述的功能的装置。
尽管使用各种示例和其他信息来解释所附权利要求范围内的方面,但是不应基于这些示例中的特定特征或布置来暗示对权利要求的限制,因为普通技术人员将能够使用这些示例来导出各种各样的实施方式。此外,尽管可能已经用对结构特征和/或方法步骤的示例特有的语言描述了一些主题,但是应该理解,所附权利要求中限定的主题不必限于这些描述的特征或动作。例如,这种功能可以不同地分布或者在除了本文标识的那些之外的组件中执行。相反,所描述的特征和步骤被公开为所附权利要求的范围内的系统和方法的组件的示例。