声响串扰抑制装置和声响串扰抑制方法与流程

文档序号:30712341发布日期:2022-07-10 23:09阅读:148来源:国知局
声响串扰抑制装置和声响串扰抑制方法与流程

1.本发明涉及声响串扰抑制装置和声响串扰抑制方法。


背景技术:

2.专利文献1公开了一种声响去除装置,在该声响去除装置中,预先假定乘员的布置模式作为乘舱内的状况,针对各布置模式测量声音传输特性,并且通过使用通过测量获得的并存储在存储器等中的各传输特性来估计和去除从扬声器输出的语音信号中所包括的声响。根据该声响去除装置,只要乘员的布置满足这些布置模式中的任一个,就可以去除或抑制声响。
3.现有技术文献
4.专利文献
5.专利文献1:日本特开2009-216835


技术实现要素:

6.发明要解决的问题
7.在专利文献1的结构中,在驾驶员前方仅放置用于收集驾驶员的发出语音的一个麦克风,并且例如,在其他乘员前方没有放置用于收集这些乘员的语音的麦克风。由于充分考虑到在乘舱内存在多个乘员,因此在不仅驾驶员说话、而且其他乘员基本上同时与驾驶员说话的情况下,驾驶员的麦克风还收集到除驾驶员以外的其他乘员的发出语音。因此,在专利文献1的结构中,不能抑制基于其他乘员的发声且包括在由驾驶员的麦克风收集到的语音信号中的串扰分量。这是因为驾驶员的麦克风难以收集其他乘员发出的清楚语音,并且不能学习用于将其他乘员的发出语音作为串扰分量进行抑制的自适应滤波器的滤波器系数。
8.本发明是有鉴于上述相关技术的情形而设计的,并且本发明的目的是提供一种声响串扰抑制装置和声响串扰抑制方法,其根据存在于诸如乘舱等的封闭空间内的多个乘员的说话者状况,自适应地抑制主说话者的发出语音中可能包括的声响串扰分量,并且改善主说话者的发出语音的声音质量。
9.用于解决问题的方案
10.本发明提供一种声响串扰抑制装置,其包括:说话者分析单元,其被配置为基于存在包括主说话者的多个人的封闭空间内所布置的多个麦克风分别收集的语音信号来分析所述封闭空间内的说话者状况;滤波器更新单元,其包括被配置为生成其他说话者的发声引起的且包括在所述主说话者的语音信号中的串扰分量的抑制信号的滤波器,其中所述滤波器更新单元被配置为更新用于抑制所述串扰分量的所述滤波器的参数并且被配置为将所述滤波器的参数的更新结果存储在存储器中;重置单元,其被配置为在判断为所述说话者状况的分析结果从紧前的说话者状况切换的情况下,重置所述存储器中所存储的所述滤波器的参数;以及串扰抑制单元,其被配置为通过使用所述滤波器所生成的抑制信号来抑
制所述主说话者的语音信号中所包括的串扰分量,其中,在所述滤波器的参数被重置之后,所述滤波器更新单元基于所述其他说话者的语音信号来更新所述滤波器的参数。
11.本发明提供一种声响串扰抑制装置,其包括:说话者分析单元,其被配置为基于存在包括主说话者的多个人的封闭空间内所布置的多个麦克风分别收集的语音信号来分析所述封闭空间内的说话者状况;滤波器更新单元,其包括被配置为生成其他说话者的发声引起的且包括在所述主说话者的语音信号中的串扰分量的抑制信号的滤波器,其中所述滤波器更新单元被配置为更新用于抑制所述串扰分量的所述滤波器的参数并且被配置为将所述滤波器的参数的更新结果与所述说话者状况相关联地存储在存储器中;以及串扰抑制单元,其被配置为通过使用所述滤波器所生成的抑制信号来抑制所述主说话者的语音信号中所包括的串扰分量,其中,在判断为所述说话者状况的分析结果从紧前的说话者状况切换的情况下,所述滤波器更新单元通过使用与所述说话者状况的分析结果相对应的所述滤波器的参数,利用所述滤波器生成所述抑制信号。
12.本发明提供一种声响串扰抑制方法,其由声响串扰抑制装置执行,所述声响串扰抑制方法包括:基于存在包括主说话者的多个人的封闭空间内所布置的多个麦克风分别收集的语音信号来分析所述封闭空间内的说话者状况;更新用于生成其他说话者的发声引起的且包括在所述主说话者的语音信号中的串扰分量的抑制信号的滤波器的参数,并且将所述滤波器的参数的更新结果存储在存储器中;在判断为所述说话者状况的分析结果从紧前的说话者状况切换的情况下,重置所述存储器中所存储的所述滤波器的参数;以及通过使用所述滤波器所生成的抑制信号来抑制所述主说话者的语音信号中所包括的串扰分量,其中,在所述滤波器的参数被重置之后,基于所述其他说话者的语音信号来更新所述参数。
13.本发明提供一种声响串扰抑制方法,其由声响串扰抑制装置执行,所述声响串扰抑制方法包括:基于存在包括主说话者的多个人的封闭空间内所布置的多个麦克风分别收集的语音信号来分析所述封闭空间内的说话者状况;更新用于生成其他说话者的发声引起的且包括在所述主说话者的语音信号中的串扰分量的抑制信号的滤波器的参数,并且将所述滤波器的参数的更新结果与所述说话者状况相关联地存储在存储器中;以及通过使用所述滤波器所生成的抑制信号来抑制所述主说话者的语音信号中所包括的串扰分量,其中,在判断为所述说话者状况的分析结果从紧前的说话者状况切换的情况下,使用与所述说话者状况的分析结果相对应的所述滤波器的参数来执行所述抑制信号的生成。
14.发明的效果
15.根据本发明,可以根据存在于诸如乘舱等的封闭空间内的多个乘员的说话者状况,自适应地抑制主说话者的发出语音中可能包括的声响串扰分量,并且改善主说话者的发出语音的声音质量。
附图说明
16.图1是示出安装有根据第一实施例的声响串扰抑制装置的运载工具的乘舱内的乘员和麦克风的布置示例的图。
17.图2是示出根据第一实施例的声响串扰抑制装置的功能结构示例的框图。
18.图3a是示出在变化量小的情况下的滤波器系数中的时间变化的示例的曲线图。
19.图3b是示出在变化量小的情况下的滤波器系数中的时间变化的示例的曲线图。
20.图4a是示出在变化量大的情况下的滤波器系数中的时间变化的示例的曲线图。
21.图4b是示出在变化量大的情况下的滤波器系数中的时间变化的示例的曲线图。
22.图5是示出根据第一实施例的声响串扰抑制装置的操作过程的示例的流程图。
23.图6是示出根据第二实施例的声响串扰抑制装置的功能结构示例的框图。
24.图7是示出根据第二实施例的声响串扰抑制装置的操作过程的示例的流程图。
25.图8是示出根据第一实施例的变形例的声响串扰抑制装置的功能结构示例的框图。
26.图9是示出根据第一实施例的变形例的声响串扰抑制装置的操作过程的示例的流程图。
27.图10是示出根据第二实施例的变形例的声响串扰抑制装置的功能结构示例的框图。
28.图11是示出根据第二实施例的变形例的声响串扰抑制装置的操作过程的示例的流程图。
29.图12是示出根据第三实施例的声响串扰抑制装置的功能结构示例的框图。
30.图13是示出根据第三实施例的声响串扰抑制装置的操作过程的示例的流程图。
具体实施方式
31.在下文,将适当地参考附图来详细说明具体公开根据本发明的声响串扰抑制装置和声串扰抑制方法的实施例。然而,可能省略不必要详细的说明。例如,可以省略对众所周知的事项的详细说明或对基本上相同的结构的重复说明。这是为了避免以下说明中的不必要冗余,并且便于本领域技术人员的理解。附图和以下的说明是为了本领域技术人员全面理解本发明而提供的,而并不旨在限制权利要求书中的主题。
32.(第一实施例)
33.图1是示出安装有根据第一实施例的声响串扰抑制装置105的运载工具108的乘舱108z内的乘员和麦克风的布置示例的图。运载工具108是多达7至8个人的小型货车,其在乘舱108z内例如包括驾驶员座椅、前排乘员座椅、第二排的后排座椅和第三排的后排座椅。应当注意,运载工具108不限于多达7至8个乘员的小型货车,并且例如可以采用5个乘员的乘用车或公共汽车,特别地,乘员的数量或运载工具类型不受限制。
34.在图1中,在与运载工具108的驾驶员相对应的乘员a就座的驾驶员座椅前方放置有麦克风ma。在乘员d就座的第三排的后排座椅的左侧前方放置有麦克风md。可以可选地改变乘员的数量和布置以及麦克风的数量和布置。例如,在图1中,通过在前排乘员座椅前方和在第三排的后排座椅的右侧前方布置麦克风,麦克风的数量可以为四个。
35.麦克风ma是用于主要收集乘员a发出的语音的麦克风。麦克风md是用于主要收集乘员d发出的语音的麦克风。尽管为了便于理解说明、图1示出没有乘员坐在前排乘员座椅、第二排的后排座椅和第三排的后排座椅的右侧的示例,但乘员可以坐在各个座椅上。
36.麦克风ma和md例如可以是定向麦克风或非定向麦克风。此外,麦克风ma和md各自可以配置有例如高质量和小尺寸的驻极体电容麦克风(ecm)的单体、或者配置有多个ecm的麦克风阵列等。麦克风ma和md连接到声响串扰抑制装置105,但为了避免图1的复杂化,未示出麦克风ma和md与声响串扰抑制装置105之间的布线。
37.声响串扰抑制装置105包括容纳各种电子组件的壳体,并且例如放置在运载工具108的乘舱108z内的仪表板内侧。声响串扰抑制装置105抑制由麦克风ma或麦克风md收集的语音中的除作为语音识别对象的乘员以外的乘员发出的语音(所谓的串扰分量)。不是语音识别对象的乘员发出的语音相对于作为语音识别对象的乘员发出的语音成为作为语音识别对象的语音中所包括的串扰分量。例如,在需要识别乘员a发出的语音的情况下,由用于收集乘员a发出的语音的麦克风ma收集的声音中所包括的串扰分量是由麦克风ma收集的乘员d发出的语音。
38.(声响串扰抑制装置的结构)
39.图2是示出根据第一实施例的声响串扰抑制装置105的功能结构示例的框图。声响串扰抑制装置105通过对如下语音的语音信号进行卷积处理,来生成再现了由麦克风ma收集的乘员d的发声的串扰分量的串扰抑制信号(抑制信号的示例),其中该语音的语音信号由麦克风md收集的乘员d发出,包括在由想要进行语音识别的乘员a发出的语音的语音信号中,并且由麦克风ma收集。声响串扰抑制装置105通过从由麦克风ma收集的语音信号中抑制(具体地,去除或减去)乘员d的串扰抑制信号来生成串扰抑制之后的语音信号。这里,声响串扰抑制装置105通过作为语音识别对象的主乘员的发声所生成的语音信号被称为主信号,并且生成串扰抑制信号所根据的原始语音信号(即,由除作为串扰分量的发声源的主乘员以外的其他乘员的发声所生成的语音信号)被称为参考信号。
40.声响串扰抑制装置105例如配置有数字信号处理器(dsp)110以及存储器150和152作为硬件结构。除了dsp 110以及存储器150和152之外,声响串扰抑制装置105还可以包括麦克风ma和md。此外,尽管这里例示了用于麦克风ma的声响串扰抑制装置105,但这同样适用于用于麦克风md的声响串扰抑制装置105。也就是说,将通过将由麦克风ma收集的主乘员a的语音信号例示为主信号并且将由麦克风md收集的副乘员d的语音信号例示为参考信号来给出说明,但反过来,由麦克风md收集的主乘员d的语音信号可以是主信号并且由麦克风ma收集的副乘员a的语音信号可以是参考信号。
41.存储器150包括作为声响串扰抑制装置105的工作存储器的随机存取存储器(ram)、以及用于存储与声响串扰抑制装置105的处理有关的程序的只读存储器(rom)。存储器150例如将由麦克风md收集的副乘员d的发声的语音的语音信号作为参考信号进行存储。此外,存储器152存储语音识别单元146的语音识别结果(例如包括语音识别数据和得分值)以及经滤波器更新单元125更新的滤波器系数。语音识别数据例如是将由主乘员a (主说话者的示例)发出的语音的内容转换为文本的文本数据。得分值是表示作为由语音识别单元146进行的语音识别的处理结果的文本数据的可靠度(准确度)的评估值。
42.dsp 110例如是进行以下处理的处理器:从由麦克风ma收集的主乘员a的发声的语音的语音信号中抑制副乘员d的发声的语音的串扰分量。此外,dsp 110对串扰抑制之后的语音信号进行语音识别处理。这里,使用dsp作为处理器,但例如,可以使用中央处理单元(cpu)或图形处理单元(gpu)等。此外,可以使用由专用集成电路(asic)等设计的专用电子电路、或者被设计为可重配置的电子电路(诸如现场可编程门阵列(fpga)等)。
43.dsp 110包括加法器122、滤波器更新单元125、延迟器129、声压分析单元142、抑制量分析单元143、说话者分析单元144、滤波器重置单元145和语音识别单元146。
44.作为串扰抑制单元的示例的加法器122从由麦克风ma收集的主乘员a的发声的语
音的语音信号中减去由滤波器更新单元125生成的串扰抑制信号,由此抑制由麦克风ma收集的主乘员a的发声的语音中所包括的串扰分量。如上所述,由加法器122进行的处理严格来说是减法,但即使减去串扰抑制信号的处理也可被认为基本上等同于反转串扰抑制信号然后在加法器122中加上经反转的串扰抑制信号的处理。因此,在本说明书中,将串扰分量的抑制处理描述为由加法器122进行的处理。
45.将详细说明滤波器更新单元125的处理。由声响串扰抑制装置105抑制的串扰分量例如是在作为语音识别对象的主说话者是乘员a的情况下、由其他乘员d发出的语音到达放置在乘员a前方的麦克风ma的语音。语音经由乘舱108z内的传输路径到达麦克风ma。因此,麦克风ma收集的语音是存在乘员d发出的语音通过传输路径所需的时滞(所谓的延迟时间)的、与乘员a发出的语音混合的语音。
46.滤波器更新单元125基于由麦克风ma收集的串扰抑制之后的语音信号以及由麦克风md收集并偏移了延迟时间的参考信号,来生成用于抑制(减去)由麦克风ma收集的语音中所包括的串扰分量的串扰抑制信号。滤波器更新单元125包括卷积信号生成单元123、滤波器系数监视单元141、更新量计算单元126、非线性转换单元127和范数计算单元128。
47.作为滤波器的示例的卷积信号生成单元123配置有例如自适应滤波器,通过使用由更新量计算单元126计算出的滤波器系数(参数的示例)对参考信号进行卷积处理,并且进行通过使用参考信号生成串扰抑制信号的处理。作为自适应滤波器,例如,使用专利文献1或日本特开2007-19595等中描述的有限脉冲响应(fir)滤波器。自适应滤波器再现麦克风ma和麦克风md之间的传输特性,并且通过处理参考信号来生成串扰抑制信号。然而,由于乘舱108z内的传输特性不稳定,因此自适应滤波器的特性也需要随时改变。在第一实施例中,通过控制自适应滤波器的系数或抽头数,改变自适应滤波器的特性,以接近麦克风ma和麦克风md之间的最新传输特性。在下文,自适应滤波器的更新可被称为学习。
48.由麦克风ma收集的副乘员d的语音相对于由麦克风md收集的副乘员d的语音延迟了语音从麦克风md传输到麦克风ma所持续的时间。由于参考信号由麦克风md收集并被存储在存储器150中,因此没有反映从麦克风md到麦克风ma的延迟时间。因此,在第一实施例中,作为延迟装置的延迟器129吸收时间差。也就是说,延迟器129利用上述时间差(简言之,语音从麦克风md到麦克风ma的传输路径所需的时间)对参考信号进行延迟处理,并将参考信号输出到滤波器更新单元125。因此,滤波器更新单元125可以获得与由麦克风ma收集语音的定时匹配的参考信号。可以通过近似地测量麦克风md和麦克风ma之间的距离并将该距离除以声速来获得延迟器129的值。例如,在基于乘舱108z内的温度的声速为340m/s并且麦克风md与麦克风ma之间的距离约为3.4m的情况下,延迟器129的值约为10msec。
49.更确切地说,延迟器的值(延迟时间)针对各参考信号是不同的,并且按照如下获得。例如,假定在乘舱108z内,在乘员a前方放置麦克风ma,并且在乘员d前方放置麦克风md。在乘员d发声并且麦克风ma中所包括的乘员d的语音被抑制的情况下,当使用由麦克风md收集的语音作为参考信号时,基于从乘员d的嘴到麦克风md的距离与从乘员d的嘴到麦克风ma的距离之间的差来计算延迟器的值。相比之下,在乘员a发声并且麦克风md中所包括的乘员a的语音被抑制的情况下,当使用由麦克风ma收集的语音作为参考信号时,基于从乘员a的嘴到麦克风ma的距离与从乘员a的嘴到麦克风md的距离之间的差来计算延迟器的值。
50.非线性转换单元127对串扰分量的抑制之后的语音信号进行非线性转换。非线性
转换是将串扰分量的抑制之后的语音信号转换成表示要更新自适应滤波器的方向(正或负)的信息的处理。非线性转换单元127将非线性转换之后的信号输出到更新量计算单元126。
51.范数计算单元128计算由麦克风md收集的语音的语音信号的范数。语音信号的范数是过去预定时间内的语音信号的大小的总和,并且是表示该时间内的信号的大小程度的值。更新量计算单元126使用范数以归一化过去由麦克风md收集的语音的音量的影响。通常,由于随着音量更大、自适应滤波器的更新量可被计算为更大,因此在不进行归一化的情况下,自适应滤波器的特性可能受到大语音的特性的过度影响。在第一实施例中,通过使用由范数计算单元128计算出的范数归一化从延迟器129输出的语音信号来稳定自适应滤波器的更新量。
52.更新量计算单元126通过使用从非线性转换单元127、范数计算单元128和延迟器129接收到的信号来计算卷积信号生成单元123的自适应滤波器特性的更新量(具体为自适应滤波器的系数或抽头数的更新量)。更新量计算单元126基于由范数计算单元128计算出的范数来归一化经由延迟器129的由麦克风md收集的语音的语音信号。更新量计算单元126通过将基于从非线性转换单元127获得的信息的正信息或负信息与归一化由麦克风md收集的语音的语音信号的结果相加来确定更新量。在第一实施例中,更新量计算单元126通过独立分量分析(ica)算法来计算滤波器特性的更新量。这里,示出更新量计算单元126更新自适应滤波器的系数(以下称为滤波器系数)的情况,但可以代替滤波器系数或连同滤波器系数一起更新抽头数。
53.滤波器更新单元125通过随时间执行更新量计算单元126、非线性转换单元127和范数计算单元128的处理,使卷积信号生成单元123的特性接近麦克风md和麦克风ma之间的传输特性。
54.滤波器系数监视单元141监视由更新量计算单元126计算出的卷积信号生成单元123的滤波器系数(例如,滤波器系数的变化宽度),并且将该滤波器系数输出到说话者分析单元144。说话者分析单元144监视滤波器系数的变化量(例如,滤波器系数在时间轴上的一定时间段内的变化宽度),并且在该变化量超过与在切换说话者的情况下的变化量的值相对应的第一阈值的情况下,判断为发生了说话者的切换。
55.声压分析单元142输入由麦克风ma收集的语音和由麦克风md收集的语音,并将这些语音的声压输出到说话者分析单元144。在由于超过与在切换由麦克风ma收集的语音的声压和由麦克风md收集的语音的声压中的至少一个的说话者的情况下的变化量的值相对应的第二阈值、得到说话者改变的情况下,扬声器分析单元144判断为发生了说话者的切换。
56.抑制量分析单元143计算从加法器122输出的串扰分量的抑制之后的语音信号与由麦克风ma收集的语音的语音信号之间的差作为抑制量,并将所计算出的差输出到说话者分析单元144。说话者分析单元144将抑制量的数据存储预定时间段,并且在新计算出的抑制量相对于过去的抑制量由于超过表示切换说话者状况的第三阈值而改变的情况下,判断为发生了说话者的切换。该判断基于以下事实:在切换说话者的情况下,串扰的抑制量随着紧挨在该时刻之前使用的滤波器系数而减小。
57.说话者分析单元144基于来自滤波器系数监视单元141、声压分析单元142和抑制
量分析单元143的输入中的至少一个来判断说话者的切换(即,说话者状况的变化),并将其判断结果输出到滤波器重置单元145。
58.这里,在乘舱108z内所布置的麦克风的数量为两个的情况下,说话者状况(场景)的数量为四个(=22)。仅在作为语音识别对象的乘员a发声的场景中,当乘员d发声时和当乘员d不发声时,其他乘员的说话者状况的数量为两个(=21)。
59.可以将利用拍摄乘员的图像的乘舱108z内的照相机(未示出)得到的拍摄图像输入到说话者分析单元144。说话者分析单元144可以对该拍摄图像进行面部识别,将例如张开嘴的乘员识别为说话者,并且判断为发生了说话者的切换。此外,说话者分析单元144可以通过将基于拍摄图像的说话者切换信息与从滤波器系数监视单元141、声压分析单元142和抑制量分析单元143输入的至少一个或多于一个说话者切换信息组合来综合地判断为发生了说话者的切换。此外,在使用基于拍摄图像的说话者切换信息的情况下,可以省略滤波器系数监视单元141、声压分析单元142和抑制量分析单元143中的全部或至少一个。
60.在从说话者分析单元144输入说话者的切换的判断结果的情况下,作为重置单元的示例的滤波器重置单元145将卷积信号生成单元123的滤波器系数重置为初始值(例如,值0)。在滤波器重置单元145重置滤波器系数之后,滤波器更新单元125重新开始被重置为初始值的卷积信号生成单元123的学习。
61.语音识别单元146基于从加法器122输出的串扰分量的抑制之后的语音信号进行语音识别,输出语音识别数据(例如,文本数据)和评估值(得分值)作为语音识别结果,并将语音识别数据和评估值存储在存储器152中。例如,在语音识别单元146连接到监视器(未示出,例如,运载工具108上所安装的汽车导航装置的显示器)的情况下,将语音识别结果作为文本显示在画面上。此外,在语音识别单元146连接到通信装置的情况下,将语音识别结果作为通信数据进行发送。此外,在语音识别单元146连接到扬声器的情况下,将语音识别结果作为语音输出。
62.代替包括语音识别单元146,声响串扰抑制装置105可以包括可连接到网络的通信单元,将基于串扰分量的抑制之后的语音信号的语音数据经由网络发送到云服务器(未示出),由云服务器进行语音识别,从云服务器接收语音识别结果,并将语音识别结果输出到监视器或扬声器等。
63.图3a和图3b是示出在变化量ar1小的情况下的滤波器系数的时间变化的示例的曲线图。该曲线图的纵轴表示滤波器系数,并且横轴表示时间(换句话说,构成卷积信号生成单元123的自适应滤波器的抽头长度)。由更新量计算单元126计算出的卷积信号生成单元123的滤波器系数由滤波器系数监视单元141监视。例如,在由麦克风ma收集的乘员a的语音信号是主信号的情况下,由麦克风ma收集的乘员d的语音成为由麦克风ma收集的语音的串扰分量。图3a和图3b所示的特性g2表示时间点(t-δt)处的滤波器系数,该滤波器系数用于基于由麦克风md收集的乘员d的语音将由麦克风ma收集的乘员d的语音作为由麦克风ma收集的语音的串扰分量减去。图3a和图3b所示的特性g1表示时间点t处的滤波器系数,该滤波器系数用于基于由麦克风md收集的乘员d的语音将由麦克风ma收集的乘员d的语音作为由麦克风ma收集的语音的串扰分量减去。也就是说,在图3a和图3a中,特性g1和g2这两者都被示出为:作为从滤波器系数的更新开始的时间点起直到滤波器系数的更新收敛的时间点为止的时间段(换句话说,混响时间)内的滤波器系数的波形,时间轴的值彼此一致。δt是作
为设置值的一定时间段,并且例如表示将自适应滤波器的滤波器系数更新至少一次所需的时间,并且这同样适用于以下说明。
64.在图3b中,在从时间点(t-δt)到时间点t的时间段期间,滤波器系数的变化量ar1小于在切换说话者的情况下的第一阈值。由于滤波器系数的变化量ar1小于第一阈值,因此说话者分析单元144可以判断为没有切换说话者,即乘员d不发声,并且说话者状况没有改变。
65.图4a和图4b是示出在变化量ar2大的情况下的滤波器系数的时间变化的示例的曲线图。曲线图的纵轴表示滤波器系数,并且横轴表示时间(换句话说,构成卷积信号生成单元123的自适应滤波器的抽头长度)。图4a和图4b所示的特性g4表示时间点(t-δt)处的滤波器系数,该滤波器系数用于基于由麦克风md收集的乘员d的语音将由麦克风ma收集的乘员d的语音作为由麦克风ma收集的语音的串扰分量减去。图4a和图4b所示的特性g3表示时间点t处的滤波器系数,该滤波器系数用于基于由麦克风md收集的乘员d的语音将由麦克风ma收集的乘员d的语音作为由麦克风ma收集的语音的串扰分量减去。也就是说,在图4a和图4b中,特性g3和g4这两者都被示出为:作为从滤波器系数的更新开始的时间点起直到滤波器系数的更新收敛的时间点为止的时间段(换句话说,混响时间)内的滤波器系数的波形,时间轴的值彼此一致。
66.在图4b中,从时间点(t-δt)到时间点t的时间段期间的特性g3和g4之间的滤波器系数的变化量ar2与图3b所示的从时间点(t-δt)到时间点t的时间段期间的特性g1和g2之间的滤波器系数的变化量ar1相比由于超过第一阈值而变大。由于滤波器系数的变化量ar2大于第一阈值,因此说话者分析单元144可以判断为由于说话者的切换(即,乘员d的发声)而导致用于减去作为由麦克风ma收集的语音的串扰分量的乘员d的语音的滤波器系数的变化量增加。因此,说话者分析单元144可以判断为说话者状况改变。
67.(声响串扰抑制装置的操作)
68.接着,将说明根据第一实施例的声响串扰抑制装置105的操作。
69.这里,如上所述,将说明如下情况作为示例:将由麦克风ma收集的作为主说话者的乘员a发出的语音设置为语音识别对象,并且将由麦克风ma收集的副乘员d发出的语音设置为串扰分量。由乘员d发出并由麦克风md收集的语音可以是语音识别对象,并且由乘员a发出并由麦克风md收集的语音可以是串扰。此外,可以在运载工具108中放置用于指示乘员的哪个发出语音是语音识别对象的按钮,并且另外,例如,在乘员所拥有的智能电话或平板终端等中的专用应用中,可以进行用于指示语音识别对象的乘员的操作以指定语音识别对象的乘员。
70.图5是示出根据第一实施例的声响串扰抑制装置105的操作过程的示例的流程图。图5的处理由构成声响串扰抑制装置105的dsp 110执行,并且针对由麦克风ma收集并输入到声响串扰抑制装置105的语音的语音信号的各样本重复执行。
71.在图5中,dsp 110获取由主乘员a发出并由麦克风ma收集的语音的语音信号作为期望语音识别的主信号(s101)。声压分析单元142输入麦克风ma的主信号,并将主信号的声压级输出到说话者分析单元144。
72.dsp 110获取由副乘员d发出并由麦克风md收集的语音的语音信号作为参考信号(s102)。dsp 110将由麦克风md收集的语音的数据存储在存储器150中。此外,声压分析单元
142输入麦克风md的参考信号,并将参考信号的声压级输出到说话者分析单元144。
73.说话者分析单元144将主信号的声压级与第二阈值进行比较(参见以上说明),并将参考信号的声压级与第二阈值进行比较(参见以上说明),以分析说话者状况(s103)。
74.滤波器系数监视单元141获取由更新量计算单元126计算出的卷积信号生成单元123的滤波器系数(s104)。
75.说话者分析单元144基于在步骤s103中分析的说话者状况和在步骤s104中获取到的滤波器系数来判断是否切换了说话者(s105)。在切换了说话者的情况下(s105中为“是”),滤波器重置单元145将卷积信号生成单元123的滤波器系数重置为初始值(s106)。另一方面,在s105中没有切换说话者状况的情况下(s105中为“否”),dsp 110直接进入步骤s107的处理。
76.卷积信号生成单元123通过使用如下的参考信号来进行卷积处理,并且生成串扰抑制信号(s107),其中由延迟器129通过使用更新量计算单元126计算出的滤波器系数对该参考信号进行了与延迟时间相对应的延迟处理。加法器122将由卷积信号生成单元123生成的串扰抑制信号从由主乘员a发出并由麦克风ma收集的语音的语音信号中减去,并且抑制由主乘员a发出并由麦克风ma收集的语音中所包括的串扰分量。
77.随后,声响串扰抑制装置105判断是否是滤波器学习时间段(s108)。滤波器学习时间段例如是除作为主说话者的乘员a以外的某人发声以学习用于抑制作为主说话者的乘员a的语音中所包括的串扰分量的滤波器系数的时间段。此外,不是滤波器学习时间段的时间段是除乘员a以外的乘员没有发声的时间段。在时间段是滤波器学习时间段的情况下(s108中为“是”),滤波器更新单元125利用更新量计算单元126计算出的滤波器系数来更新卷积信号生成单元123的滤波器系数,并且将其更新结果存储在存储器152中(s109)。另一方面,在时间段不是滤波器学习时间段的情况下(s108中为“否”),声响串扰抑制装置105直接结束图5的处理。
78.在判断为在运载工具108内的环境中切换了说话者的情况下,根据第一实施例的声响串扰抑制装置105在该定时将滤波器系数重置为初始值(例如,值0),并且重新学习并使用该滤波器系数。因此,可以根据新的说话者状况来重新学习滤波器系数,以高准确度根据说话者状况抑制串扰分量,并且改善主说话者(例如,乘员a)发出的语音的声音质量。此外,根据运载工具108内的环境和说话者状况,可以预期与在说话者的切换之前所学习的滤波器系数即使在说话者的切换之后也在被学习的同时继续使用的情况下相比,直到说话者的切换之后的滤波器系数收敛为止的时间变短。因此,声响串扰抑制装置105可以自适应地抑制由其他乘员(例如,乘员d)的发声所产生并包括在主说话者(例如,乘员a)的发出语音中的串扰分量,并且可以改善作为语音识别对象的乘员a的输出语音的声音质量。
79.以这种方式,声响串扰抑制装置105利用说话者分析单元144基于由存在包括作为主说话者的乘员a的多个乘员(多个人)的乘舱108z内(封闭空间内)所布置的两个麦克风ma和md收集的各个语音信号来分析乘舱108z内的说话者状况。声响串扰抑制装置105包括用于生成由其他乘员d的发声所引起并包括在作为主说话者的乘员a的语音信号中的串扰分量的抑制信号(即,串扰抑制信号)的卷积信号生成单元123,更新用于抑制串扰分量的卷积信号生成单元123的滤波器系数,并且利用滤波器更新单元125将其更新结果存储在存储器152中。在判断为说话者状况的分析结果从紧前的说话者状况切换的情况下,声响串扰抑制
装置105利用滤波器重置单元145重置存储器152中所存储的滤波器系数。声响串扰抑制装置105利用加法器122,通过使用由卷积信号生成单元123生成的串扰分量的抑制信号来抑制乘员a的语音信号中所包括的串扰分量。在重置了卷积信号生成单元123的滤波器系数之后,滤波器更新单元125基于乘员d的语音信号来更新滤波器系数。
80.因此,声响串扰抑制装置105可以根据乘舱108z内的多个乘员(例如,乘员a和d)的说话者状况来自适应地抑制作为主说话者的乘员a的发出语音中可能包括的声响串扰分量,并且可以改善乘员a的发出语音的声音质量。此外,与滤波器系数未被重置而继续使用的情况相比,可以预期,通过在每次判断为切换了说话者状况时重置滤波器系数来加速由更新引起的滤波器系数的收敛。
81.在判断为说话者状况的分析结果没有从紧前的说话者状况切换的情况下,卷积信号生成单元123通过使用存储器150中所存储的最新滤波器系数来生成串扰分量的抑制信号。因此,在相同的说话者状况继续的情况下,声响串扰抑制装置105可以继续获得根据说话者状况已计算出的自适应串扰分量,因此可以有效地抑制主说话者的发出语音中所包括的串扰分量。
82.说话者分析单元144根据由两个麦克风ma和md收集的语音信号的声压级与第二阈值(阈值的示例)之间的比较来分析乘舱108z内(封闭空间内)的说话者状况是否存在变化。因此,声响串扰抑制装置105考虑到麦克风ma和md的布置位置以及运载工具108内的乘员的位置,根据由麦克风ma和md收集的语音信号的大小,除了可以估计是否切换说话者状况之外,还可以以高准确度估计主说话者。
83.说话者分析单元144基于卷积信号生成单元123的滤波器系数在时间轴上的变化量来分析乘舱108z内的说话者状况是否存在变化。因此,在滤波器系数由于新的发声(换句话说,在切换后的新说话者状况下的主说话者的发声)而相当大地改变的情况下(例如,在滤波器系数在时间轴上的一定时间段内的变化宽度超过第一阈值的情况下),声响串扰抑制装置105可以以高准确度判断为发生了说话者的切换。
84.说话者分析单元144根据乘员a的语音信号中所包括的串扰分量的抑制量与第三阈值(阈值的示例)之间的比较来分析乘舱108z内的说话者状况是否存在变化。因此,假定串扰分量的抑制量由于新的发声(换句话说,在切换后的新说话者状况下的主说话者的发声)而减小(换句话说,到目前为止的串扰抑制信号无效),声响串扰抑制装置105可以以高准确度判断为发生了说话者的切换。
85.(第二实施例)
86.在第一实施例中,在判断为切换了说话者的定时重置经学习的滤波器系数,并且从初始值重新学习滤波器系数并使用该滤波器系数。在第二实施例中,将说明从存储器读取与说话者的切换之后的说话者状况相对应的滤波器系数并使用该滤波器系数的示例。
87.(声响串扰抑制装置的结构)
88.图6是示出根据第二实施例的声响串扰抑制装置105a的功能结构示例的框图。在根据第二实施例的声响串扰抑制装置105a中,与根据第一实施例的声响串扰抑制装置105的组件相同的组件由相同的附图标记表示,将简化或省略其说明,并且将说明不同的内容。
89.根据第二实施例的声响串扰抑制装置105a类似地配置有dsp 110a。与根据第一实施例的声响串扰抑制装置105相比,声响串扰抑制装置105a包括滤波器系数读取单元151而
没有滤波器重置单元145。此外,滤波器更新单元125a与滤波器更新单元125相比还包括滤波器系数收敛判断单元154和滤波器系数存储单元153。
90.滤波器系数收敛判断单元154判断由更新量计算单元126计算出的滤波器系数是否收敛。例如,在一定时间段内的滤波器系数的变化宽度收缩在预定值内的情况下,判断为滤波器系数收敛。因此,声响串扰抑制装置105a可以判断为在滤波器系数的变化收缩的阶段滤波器系数收敛,并且可以在适当定时掌握滤波器系数的收敛。在作为由语音识别单元146对串扰分量的抑制之后的语音进行的语音识别的结果、得分值超过阈值的情况下,可以判断为滤波器系数收敛。
91.作为存储器的示例的滤波器系数存储单元153将由滤波器系数收敛判断单元154判断为收敛的滤波器系数与说话者状况相关联地进行存储。滤波器系数存储单元153例如配置有高速缓冲存储器。这里,在乘员前方所布置的麦克风的数量为两个的情况下,说话者状况(场景)的数量为四个。因此,滤波器系数存储单元153存储四个滤波器系数。
92.滤波器系数读取单元151从滤波器系数存储单元153读取与由说话者分析单元144分析的说话者状况相对应的滤波器系数,并将该滤波器系数设置为由滤波器更新单元125顺次更新的滤波器系数的值。
93.(声响串扰抑制装置的操作)
94.接着,将说明根据第二实施例的声响串扰抑制装置105a的操作。
95.图7是示出根据第二实施例的声响串扰抑制装置105a的操作过程的示例的流程图。在图7的说明中,与根据第一实施例的声响串扰抑制装置105的操作相同的处理由相同的步骤编号表示,将简化或省略其说明,并且将说明不同的内容。
96.在图7中,在步骤s104之后,在说话者分析单元144判断为说话者状况改变的情况下(s105中为“是”),滤波器系数读取单元151读取与说话者状况相对应且存储在滤波器系数存储单元153中的滤波器系数(s106a)。
97.在步骤s106a之后,卷积信号生成单元123通过使用与在步骤s106a中读取的说话者状况相对应的滤波器系数来对参考信号进行卷积处理,并且生成串扰抑制信号。加法器122将由卷积信号生成单元123生成的串扰抑制信号从由麦克风ma收集的主乘员a发出的语音的语音信号中减去,并且抑制由麦克风ma收集的主乘员a发出的语音中所包括的串扰分量(这里为乘员d的语音)。
98.在抑制了串扰分量并且在步骤s109中更新了卷积信号生成单元123的滤波器系数之后,滤波器系数收敛判断单元154判断更新后的滤波器系数是否收敛(s110)。作为该判断的结果,滤波器系数收敛判断单元154判断滤波器系数是否收敛(s111)。在滤波器系数收敛的情况下(s111中为“是”),滤波器系数存储单元153存储与更新后的说话者状况相对应的滤波器系数(s112)。滤波器系数通过重写来存储,但代替重写,可以附加地存储。另一方面,在滤波器系数不收敛的情况下(s111中为“否”),滤波器系数存储单元153不存储滤波器系数。之后,dsp 110结束图7的处理。
99.紧接在切换了说话者之后,根据第二实施例的声响串扰抑制装置105a读取与切换之后的说话者状况相关联地过去学习的滤波器系数,并使用该滤波器系数作为卷积信号生成单元123的滤波器系数。因此,可以紧接在说话者的切换之后预期一定程度上的串扰分量的抑制。此外,当例如在滤波器系数的变化宽度等于或小于预定值的情况下、滤波器系数收
敛并持续了一定时间段时,声响串扰抑制装置105a将收敛的滤波器系数作为下次要读取的滤波器系数的候选存储在滤波器系数存储单元153中。因此,声响串扰抑制装置105a可以将滤波器系数存储单元153中所存储的滤波器系数登记为与说话者状况相对应的最新学习的滤波器系数。因此,可以紧接在说话者的切换之后进一步预期串扰分量的抑制。
100.这样,声响串扰抑制装置105a利用说话者分析单元144,基于由存在包括作为主说话者的乘员a的多个乘员(多个人)的乘舱108z内(封闭空间内)所布置的两个麦克风ma和md收集的各个语音信号来分析乘舱108z内的说话者状况。声响串扰抑制装置105a包括用于生成由其他乘员d的发声引起且包括在作为主说话者的乘员a的语音信号中的串扰分量的抑制信号(即,串扰抑制信号)的卷积信号生成单元123,更新用于抑制串扰分量的卷积信号生成单元123的滤波器系数,并且利用滤波器更新单元125a将其更新结果与说话者状况相关联地存储在滤波器系数存储单元153中。在判断为说话者状况的分析结果从紧前的说话者状况切换的情况下,声响串扰抑制装置105a利用加法器122,通过使用由卷积信号生成单元123生成的串扰分量的抑制信号来抑制乘员a的语音信号中所包括的串扰分量。在判断为说话者状况的分析结果从紧前的说话者状况切换的情况下,滤波器更新单元125a利用卷积信号生成单元123,通过使用与说话者状况的分析结果相对应的滤波器系数来生成串扰分量的抑制信号。
101.因此,声响串扰抑制装置105a可以根据乘舱108z内的多个乘员(例如,乘员a和d)的说话者状况来自适应地抑制作为主说话者的乘员a的发出语音中可能包括的声响串扰分量,并且可以改善乘员a的发出语音的声音质量。此外,通过从高速缓冲存储器读取与说话者状况相对应的滤波器系数,与不论说话者状况如何都继续更新相同的滤波器系数的情况相比,可以预期通过使用与说话者状况相对应的滤波器系数来改善主说话者的发出语音的声音质量、并且加速了更新后的滤波器系数的收敛。
102.在判断出基于其他乘员d的语音信号的滤波器系数的更新的收敛的情况下,滤波器更新单元125a将滤波器系数的更新的收敛结果与来自说话者分析单元144的当前说话者状况相关联地存储在滤波器系数存储单元153中。因此,声响串扰抑制装置105a可以在下次发生相同的说话者状况的情况下,通过使用收敛的滤波器系数来实时地抑制串扰分量。
103.滤波器系数收敛判断单元154基于时间轴上的一定时间段的滤波器系数的变化宽度来判断滤波器系数的更新是否收敛。因此,声响串扰抑制装置105a可以在滤波器系数的变化收缩的适当定时判断滤波器系数的收敛。
104.(第一实施例的变形例)
105.在第一实施例中,在切换说话者的情况下,始终重置滤波器系数,但假定没有必要一定根据诸如运载工具108等的封闭空间内的环境中的说话者状况来重置滤波器系数。例如,在乘员a的语音是语音识别对象并且乘员d的语音是串扰分量的说话者状况中,例示了其他乘员c以低语音加入的情况。在说话者状况中存在这种变化的情况下,在第一实施例的变形例中,可以在无需重置滤波器系数的情况下通过使用说话者状况改变之前的滤波器系数来抑制串扰分量。
106.(声响串扰抑制装置的结构)
107.图8是示出根据第一实施例的变形例的声响串扰抑制装置105b的功能结构示例的框图。在根据第一实施例的变形例的声响串扰抑制装置105b中,与根据第一实施例的声响
串扰抑制装置105的组件相同的组件由相同的附图标记表示,将简化或省略其说明,并且将说明不同的内容。
108.根据第一实施例的变形例的声响串扰抑制装置105b类似地配置有dsp110b。除根据第一实施例的dsp 110的功能结构之外,声响串扰抑制装置105b还包括加法器222、滤波器更新单元225和输出选择单元230。
109.与加法器122类似,作为串扰抑制单元的示例的加法器222通过将由滤波器更新单元225生成的串扰抑制信号从由主乘员a发出并由麦克风ma收集的语音的语音信号中减去来抑制由主乘员a发出并由麦克风ma收集的语音中所包括的串扰分量(例如,乘员d的语音)。
110.滤波器更新单元225基于由麦克风ma收集的串扰抑制之后的语音信号和由麦克风md收集并偏移了延迟时间的参考信号来生成用于抑制(减去)由麦克风ma收集的语音中所包括的串扰分量的串扰抑制信号。滤波器更新单元225包括卷积信号生成单元223、更新量计算单元226、非线性转换单元227和范数计算单元228。
111.由于卷积信号生成单元223、更新量计算单元226、非线性转换单元227和范数计算单元228的功能分别与卷积信号生成单元123、更新量计算单元126、非线性变换单元127和范数计算单元128的功能相同,因此将省略其说明。然而,即使在判断为切换了说话者的情况下,滤波器更新单元225也在无需重置滤波器系数的情况下使用卷积信号生成单元223的滤波器系数。
112.在判断为未切换说话者的情况下,输出选择单元230选择使用由滤波器更新单元125或滤波器更新单元225生成的串扰抑制信号进行抑制的串扰抑制之后的语音信号。在判断为切换了说话者的情况下,输出选择单元230基于切换之后的说话者状况,选择使用用于重置滤波器系数的根据第一实施例的滤波器更新单元125的串扰分量的抑制之后的语音信号、或者使用不重置滤波器系数的滤波器更新单元225的串扰分量的抑制之后的语音信号。
113.在选择串扰分量的抑制之后的语音信号时,输出选择单元230基于预定判断标准来选择使用滤波器更新单元225的串扰分量的抑制之后的语音信号和使用滤波器更新单元125的串扰分量的抑制之后的语音信号中的任一个。例如,输出选择单元230可以选择具有更高得分值的串扰分量的抑制之后的语音信号作为利用语音识别单元146的语音识别的结果。此外,输出选择单元230可以选择直到滤波器系数收敛为止的时间更短的串扰分量的抑制之后的语音信号。输出选择单元230可以根据用户的切换操作来预先选择使用滤波器更新单元225的串扰分量的抑制之后的语音信号和使用滤波器更新单元125的串扰分量的抑制之后的语音信号中的任一个。
114.输出选择单元230可以根据说话者状况来选择串扰分量的抑制之后的语音信号。例如,在乘员a的语音是语音识别对象并且乘员d的语音是串扰的说话者状况中,在其他乘员c添加低语音等的情况下,输出选择单元230选择使用由滤波器更新单元225生成的串扰抑制信号进行抑制的串扰分量的抑制之后的语音信号。另一方面,在乘员c的语音的音量与乘员d的语音的音量之间不存在大的差异的情况下,输出选择单元230选择使用由滤波器更新单元125生成的串扰抑制信号进行抑制的串扰分量的抑制之后的语音信号。
115.(声响串扰抑制装置的操作)
116.图9是示出根据第一实施例的变形例的声响串扰抑制装置105b的操作过程的示例
的流程图。在图9的说明中,与根据第一实施例的声响串扰抑制装置105的操作相同的处理由相同的步骤编号表示,将简化或省略其说明,并且将说明不同的内容。
117.在图9中,在步骤s102之后,在利用说话者分析单元144分析说话者状况时,与第一实施例一样,声响串扰抑制装置105b执行步骤s104至s109的一系列处理。也就是说,在判断为说话者状况改变(切换)的情况下,声响串扰抑制装置105b将滤波器系数重置为初始值,并且在根据切换后的说话者状况重新学习滤波器系数的同时,通过使用卷积信号生成单元123来从由麦克风ma收集的语音信号(主信号)中抑制串扰分量。
118.声响串扰抑制装置105b与步骤s104至s109的一系列处理并行地进行步骤s121至s124的处理。也就是说,即使在判断为说话者状况改变(切换)的情况下,声响串扰抑制装置105b也在无需重置滤波器系数的情况下,在根据需要学习滤波器系数的同时,通过使用卷积信号生成单元223来从由麦克风ma收集的语音信号(主信号)中抑制串扰分量。
119.具体地,滤波器更新单元225获取由更新量计算单元226计算出的卷积信号生成单元223的滤波器系数(s121)。卷积信号生成单元223通过使用由更新量计算单元226计算出的滤波器系数对参考信号进行卷积处理,并且生成串扰抑制信号(s122)。加法器222从由麦克风ma收集的语音的语音信号中抑制(减去)由卷积信号生成单元223生成的串扰抑制信号,并且抑制由麦克风ma收集的语音中所包括的串扰分量。
120.随后,声响串扰抑制装置105b判断时间段是否是滤波器学习时间段(s123)。滤波器学习时间段例如是除作为主说话者的乘员a以外的某人发声以学习用于抑制作为主说话者的乘员a的语音中所包括的串扰分量的滤波器系数的时间段。此外,并非滤波器学习时间段的时间段是没有除乘员a以外的乘员发声的时间段。在时间段是滤波器学习时间段的情况下(s123中为“是”),滤波器更新单元225利用由更新量计算单元226计算出的滤波器系数来更新卷积信号生成单元223的滤波器系数,并且将其更新结果存储在存储器152中(s124)。另一方面,在时间段不是滤波器学习时间段的情况下(s123中为“否”),声响串扰抑制装置105b不更新卷积信号生成单元223的滤波器系数。
121.输出选择单元230选择使用卷积信号生成单元123的串扰分量的抑制之后的语音信号和使用卷积信号生成单元223的串扰分量的抑制之后的语音信号中的任一个(s125)。之后,声响串扰抑制装置105b结束图9的操作。
122.根据第一实施例的变形例的声响串扰抑制装置105b可以选择使用滤波器更新单元225的串扰抑制之后的语音信号和使用滤波器更新单元125的串扰抑制之后的语音信号中的任一个。因此,例如,声响串扰抑制装置105b选择具有更高得分值的串扰抑制之后的语音信号作为利用语音识别单元146的语音识别的结果,使得可以提高语音识别率并且改善了发出语音的声音质量。此外,声响串扰抑制装置105b选择直到滤波器系数收敛为止的时间更短的串扰抑制之后的语音信号,使得可以缩短直到对象语音的声音质量稳定为止的时间。
123.这样,声响串扰抑制装置105b包括用于生成由乘员d的发声引起且包括在乘员a的语音信号中的串扰抑制信号(串扰分量的第二抑制信号的示例)的卷积信号生成单元223(第二滤波器的示例),更新用于抑制串扰分量的卷积信号生成单元223的滤波器系数,并且利用滤波器更新单元225(第二滤波器更新单元的示例)将其更新结果存储在存储器152中。声响串扰抑制装置105b利用加法器222(第二串扰抑制单元的示例),通过使用由卷积信号
生成单元223生成的串扰抑制信号来抑制乘员a的语音信号中所包括的串扰分量。声响串扰抑制装置105b利用输出选择单元230,选择并输出来自加法器122的串扰抑制之后的语音信号(第一输出信号的示例)和来自加法器222的串扰抑制之后的语音信号(第二输出信号的示例)中的任一个。
124.因此,声响串扰抑制装置105b可以选择并输出使用说话者状况改变时所重置的滤波器系数来抑制串扰分量的串扰抑制之后的语音信号、以及使用说话者状况改变时未重置的滤波器系数来抑制串扰分量的串扰抑制之后的语音信号。因此,声响串扰抑制装置105b例如可以选择乘员a的语音的声音质量更好的串扰抑制之后的语音信号。
125.输出选择单元230基于串扰分量被抑制的乘员a的语音信号的语音识别的结果来选择并输出串扰抑制之后的语音信号。因此,声响串扰抑制装置105b可以选择具有更高得分值的信号来进行语音识别。因此,改善了乘员a的发出语音的声音质量。
126.(第二实施例的变形例)
127.在第二实施例的变形例中,与第一实施例的变形例类似,根据诸如运载工具108等的封闭空间内的环境中的说话者状况,在判断为切换了说话者的情况下,声响串扰抑制装置105c可以在无需从滤波器系数存储单元153b(参见图12)读取与改变之后的说话者状况相对应的滤波器系数的情况下,通过使用说话者状况改变之前的滤波器系数来抑制串扰分量。
128.(声响串扰抑制装置的结构)
129.图10是示出根据第二实施例的变形例的声响串扰抑制装置105c的功能结构示例的框图。在根据第二实施例的变形例的声响串扰抑制装置105c中,与根据第二实施例的声响串扰抑制装置105a和根据第一实施例的变形例的声响串扰抑制装置105b的组件相同的组件由相同的附图标记表示,将简化或省略其说明,并且将说明不同的内容。
130.根据第二实施例的变形例的声响串扰抑制装置105c类似地配置有dsp110c。与第一实施例的变形例类似,除了根据第二实施例的dsp 110a的功能结构之外,声响串扰抑制装置105c还包括加法器222、滤波器更新单元225和输出选择单元230。
131.输出选择单元230通过与第一实施例的变形例中相同的方法,选择使用滤波器更新单元225的串扰分量的抑制之后的语音信号和使用滤波器更新单元125a的串扰分量的抑制之后的语音信号中的任一个。
132.输出选择单元230基于预定判断标准来选择使用滤波器更新单元225的串扰分量的抑制之后的语音信号和使用滤波器更新单元125a的串扰分量的抑制之后的语音信号中的任一个。例如,输出选择单元230可以选择具有更高得分值的串扰分量的抑制之后的语音信号作为利用语音识别单元146的语音识别的结果。此外,输出选择单元230可以选择直到滤波器系数收敛为止的时间更短的串扰分量的抑制之后的语音信号。此外,与第一实施例的变形例一样,输出选择单元230可以根据说话者状况来选择串扰分量的抑制之后的语音信号。输出选择单元230可以根据用户的切换操作来预先选择使用滤波器更新单元225的串扰分量的抑制之后的语音信号和使用滤波器更新单元125a的串扰分量的抑制之后的语音信号中的任一个。
133.(声响串扰抑制装置的操作)
134.图11是示出根据第二实施例的变形例的声响串扰抑制装置105c的操作过程的示
例的流程图。在图11的说明中,与根据第二实施例的声响串扰抑制装置105a的操作或根据第一实施例的变形例的声响串扰抑制装置105b的操作相同的处理由相同的步骤编号表示,将简化或省略其说明,并且将说明不同的内容。
135.在图11中,在步骤s102之后,在利用说话者分析单元144分析说话者状况时,与第二实施例一样,声响串扰抑制装置105c执行步骤s104至s112的一系列处理。也就是说,在判断为说话者状况改变(切换)的情况下,声响串扰抑制装置105c读取过去学习的滤波器系数,并且通过使用卷积信号生成单元123来抑制串扰分量。此外,与第一实施例的变形例一样,声响串扰抑制装置105c与步骤s104至s112的一系列处理并行地进行步骤s121至s124的一系列处理。也就是说,声响串扰抑制装置105c在无需读取过去学习的滤波器系数的情况下,通过使用卷积信号生成单元223来抑制串扰分量。
136.在步骤s125中,输出选择单元230选择使用滤波器更新单元125a的串扰分量的抑制之后的语音信号和使用滤波器更新单元225的串扰分量的抑制之后的语音信号中的任一个。
137.根据第二实施例的变形例的声响串扰抑制装置105c可以选择使用滤波器更新单元125a的串扰分量的抑制之后的语音信号和使用滤波器更新单元225的串扰分量的抑制之后的语音信号中的任一个。因此,例如,声响串扰抑制装置105c选择具有更高得分值的串扰分量的抑制之后的语音信号作为利用语音识别单元146的语音识别的结果,使得可以提高语音识别率并且改善了发出语音的声音质量。此外,声响串扰抑制装置105c选择直到滤波器系数收敛为止的时间更短的串扰分量的抑制之后的语音信号,使得可以缩短直到作为语音识别对象的主说话者(例如,乘员a)发出的语音的声音质量稳定为止的时间。
138.这样,声响串扰抑制装置105c包括用于生成由乘员d的发声引起且包括在乘员a的语音信号中的串扰抑制信号(串扰分量的第二抑制信号的示例)的卷积信号生成单元223(第二滤波器的示例),更新用于抑制串扰分量的卷积信号生成单元223的滤波器系数,并且利用滤波器更新单元225将其更新结果存储在存储器152中。声响串扰抑制装置105c利用加法器222,通过使用由卷积信号生成单元223生成的串扰抑制信号来抑制乘员a的语音信号中所包括的串扰分量。声响串扰抑制装置105c利用输出选择单元230选择并输出来自加法器122的串扰抑制之后的语音信号(第一输出信号的示例)和来自加法器222的串扰抑制之后的语音信号(第二输出信号的示例)中的任一个。
139.因此,声响串扰抑制装置105c可以选择并输出使用说话者状况改变时滤波器系数存储单元153(例如,高速缓冲存储器)中所存储的与说话者状况相对应的滤波器系数来抑制串扰分量的串扰抑制之后的语音信号、以及使用说话者状况改变时未读取的滤波器系数来抑制串扰分量的串扰抑制之后的语音信号。因此,声响串扰抑制装置105c例如可以选择乘员a的语音的声音质量更好的串扰抑制之后的语音信号。
140.输出选择单元230基于串扰分量被抑制的乘员a的语音信号的语音识别的结果来选择并输出串扰抑制之后的语音信号。因此,声响串扰抑制装置105c可以选择具有更高得分值的信号来进行语音识别。因此,改善了乘员a的发出语音的声音质量。
141.(第三实施例)
142.在第三实施例中,说明如下的情况:声响串扰抑制装置可以在如第一实施例所述的在切换说话者的情况下将滤波器系数重置为初始值并重新学习滤波器系数的方法和如
第二实施例所述的读取过去学习的滤波器系数的方法之间进行选择。
143.(声响串扰抑制装置的结构)
144.图12是示出根据第三实施例的声响串扰抑制装置105d的功能结构示例的框图。除了根据第一实施例的声响串扰抑制装置105和根据第二实施例的声响串扰抑制装置105a的功能结构之外,声响串扰抑制装置105d还包括输出选择单元230。在声响串扰抑制装置105d中,与根据第一实施例的声响串扰抑制装置105和根据第二实施例的声响串扰抑制装置105a的组件相同的组件由相同的附图标记表示,将简化或省略其说明,并且将说明不同的内容。例如,第二实施例的加法器122和第三实施例的加法器122b具有相同的结构。此外,第二实施例的滤波器更新单元125a和第三实施例的滤波器更新单元125b具有相同的结构。这同样适用于其他单元,并且将省略对其的说明。
145.输出选择单元230基于预定判断标准来选择使用滤波器更新单元125的串扰分量的抑制之后的语音信号和使用滤波器更新单元125b的串扰分量的抑制之后的语音信号中的任一个。例如,输出选择单元230可以选择具有更高得分值的串扰抑制之后的语音信号作为利用语音识别单元146的语音识别的结果。此外,输出选择单元230可以选择直到滤波器系数收敛为止的时间更短的串扰分量的抑制之后的语音信号。此外,与第一实施例的变形例一样,输出选择单元230可以根据说话者状况来选择串扰分量的抑制之后的语音信号。输出选择单元230可以根据用户的切换操作来预先选择使用滤波器更新单元125的串扰分量的抑制之后的语音信号和使用滤波器更新单元125b的串扰分量的抑制之后的语音信号中的任一个。
146.(声响串扰抑制装置的操作)
147.图13是示出根据第三实施例的声响串扰抑制装置105d的操作过程的示例的流程图。在图13的说明中,与根据第一实施例的声响串扰抑制装置105的操作或根据第二实施例的声响串扰抑制装置105a的操作相同的处理由相同的步骤编号表示,将简化或省略其说明,并且将说明不同的内容。
148.在图13中,在步骤s102之后,在利用说话者分析单元144分析说话者状况时,声响串扰抑制装置105d执行第一实施例的步骤s104至s109的一系列处理。也就是说,在判断为说话者状况改变(切换)时,声响串扰抑制装置105d将滤波器系数重置为初始值,并且在重新学习滤波器系数的同时通过使用卷积信号生成单元123来抑制串扰分量。此外,声响串扰抑制装置105d与第二实施例一样,与步骤s104至s109的一系列处理并行地进行步骤s104b至s112b的一系列处理。也就是说,在判断为说话者状况改变(切换)的情况下,声响串扰抑制装置105d读取过去学习的滤波器系数,并且通过使用卷积信号生成单元123b来抑制串扰分量。
149.在步骤s125中,输出选择单元230选择使用卷积信号生成单元123的第一实施例的串扰分量的抑制之后的语音信号和使用卷积信号生成单元123b的第二实施例的串扰分量的抑制之后的语音信号中的任一个。
150.根据第三实施例的声响串扰抑制装置105d可以选择第一实施例的串扰分量的抑制之后的语音信号和第二实施例的串扰分量的抑制之后的语音信号中的任一个。因此,例如,声响串扰抑制装置105d选择具有更高得分值的串扰分量的抑制之后的语音信号,使得可以提高语音识别率并且改善了发出语音的声音质量。此外,声响串扰抑制装置105d选择
直到滤波器系数收敛为止的时间更短的串扰分量的抑制之后的语音信号,使得可以缩短直到对象语音的声音质量稳定为止的时间。
151.这样,声响串扰抑制装置105d包括用于生成由乘员d的发声引起且包括在乘员a的语音信号中的串扰抑制信号(串扰分量的第二抑制信号的示例)的卷积信号生成单元123b(第二滤波器),更新用于抑制串扰分量的卷积信号生成单元123b的滤波器系数,并且利用滤波器更新单元125b将其更新结果与说话者状况相关联地存储在滤波器系数存储单元153b(第二存储器的示例)中。声响串扰抑制装置105d利用加法器122b(第二串扰抑制单元的示例),通过使用由卷积信号生成单元123b生成的串扰抑制信号来抑制乘员a的语音信号中所包括的串扰分量。声响串扰抑制装置105d利用输出选择单元230选择并输出来自加法器122的串扰抑制之后的语音信号(第一输出信号的示例)和来自加法器122b的串扰抑制之后的语音信号(第二输出信号的示例)中的任一个。在判断为说话者状况的分析结果从紧前的说话者状况切换的情况下,滤波器更新单元125b利用卷积信号生成单元123b,通过使用与说话者状况的分析结果相对应的卷积信号生成单元123b的滤波器系数来生成串扰抑制信号。
152.因此,声响串扰抑制装置105d可以选择并输出使用说话者状况改变时所重置的滤波器系数来抑制串扰分量的串扰抑制之后的语音信号、以及使用说话者状况改变时高速缓冲存储器中所存储的与说话者状况相对应的滤波器系数来抑制串扰分量的串扰抑制之后的语音信号。因此,声响串扰抑制装置105d例如可以选择乘员a的语音的声音质量更好的串扰抑制之后的语音信号。
153.输出选择单元230基于串扰分量被抑制的乘员a的语音信号的语音识别结果来选择并输出串扰抑制之后的语音信号。因此,声响串扰抑制装置105d可以选择具有更高得分值的信号来进行语音识别。因此,改善了乘员a的发出语音的声音质量。
154.尽管以上参考附图说明了各种实施例,但无需说明,本发明不限于这些示例。本领域技术人员将显而易见,可以在权利要求书的范围内设想各种改变、修改、替换、添加、删除和等同物,并且应当理解,这些改变也属于本发明的技术范围。此外,可以在未背离本发明的精神的范围内可选地组合上述各种实施例中的组件。
155.例如,在上述实施例中,说明了乘舱内所布置的麦克风的数量为两个的情况,但可以在乘舱内布置三个或多于三个麦克风。在这种情况下,声响串扰抑制装置105、105a、105b、105c和105d各自均包括与除输入主信号的麦克风以外的麦克风的数量一样多的延迟器和滤波器更新单元的组。例如,在麦克风的数量为四个的情况下,声响串扰抑制装置105、105a、105b、105c和105d各自均配备有与三组延迟器和滤波器更新单元的组合相对应的结构。
156.本技术基于2019年11月21日提交的日本专利申请(日本专利申请2019-210689),其内容通过引用而被包含于此。
157.产业上的可利用性
158.本技术作为如下的声响串扰抑制装置和声响串扰抑制装置中的声响串扰抑制方法是有用的,其根据存在于诸如乘舱等的封闭空间内的多个乘员的说话者状况,自适应地抑制主说话者的发出语音中可能包括的声响串扰分量,并且改善主说话者的发出语音的声音质量。
159.附图标记说明
160.105,105a,105b,105c,105d 声响串扰抑制装置
161.108 运载工具
162.108z 乘舱
163.122,222 加法器
164.123,123b,223 卷积信号生成单元
165.125,125a,125b,225 滤波器更新单元
166.126,126b,226 更新量计算单元
167.127,127b,227 非线性转换单元
168.128,128b,228 范数计算单元
169.129 延迟器
170.141,141b 滤波器系数监视单元
171.142 声压分析单元
172.143 抑制量分析单元
173.144 说话者分析单元
174.145 滤波器重置单元
175.146 语音识别单元
176.150,152 存储器
177.151,151b 滤波器系数读取单元
178.153 滤波器系数存储单元
179.154,154b 滤波器系数收敛判断单元
180.230 输出选择单元
181.ma,md 麦克风
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1