用于电子设备的个性化说话检测器的制作方法

文档序号:27388299发布日期:2021-11-15 21:52阅读:74来源:国知局
用于电子设备的个性化说话检测器的制作方法
用于电子设备的个性化说话检测器
1.本技术要求2019年4月23日提交的美国临时专利申请no.62/837,443的申请日期的权益,其公开内容通过引用的方式并入本文中。


背景技术:

2.电子设备可以并入热词检测,其中该设备响应于用户说出的特定单词或短语(例如,“hey,assistant(嘿,助手)”),而无需任何其他手动输入,诸如按钮按压。由于此类设备始终处于开启,因此支持热词检测所需的功耗可能很大。此外,由于存储空间有限,很难训练设备检测仅特定用户的语音。因此,热词检测特征经常被其他人的语音错误地触发。


技术实现要素:

3.本公开提供了电子设备——特别是诸如可穿戴设备的小型设备——中的改进的热词检测。该设备包括机载加速度计,以在嘈杂的条件下拾取语音,并利用加速度计来确认特定用户打算激活热词检测,从而减少对其他人语音的错误检测。
4.本公开的一个方面提供一种由电子设备检测特定用户是否正在说话的方法。该方法包括:由一个或多个处理器从加速度计接收加速度计信号;由一个或多个处理器从麦克风接收语音信号;基于该语音信号和加速度计信号确定特定用户是否正在说话;当该特定用户正在说话时,由一个或多个处理器通过麦克风收听命令;以及当特定用户不在说话时,由一个或多个处理器忽略所接收的语音信号。
5.根据一些示例,该方法可以还包括响应于接收到加速度计信号,激活麦克风,诸如通过将麦克风从低功率或断电状态转变到通电状态。
6.根据一些示例,确定特定用户是否正在说话包括比较该所接收的加速度计信号与预定阈值。预定阈值可以基于来自特定用户的历史加速度计信号来更新。
7.本公开的另一方面提供一种电子设备,包含加速度计、麦克风和与该加速度计和麦克风通信的一个或多个处理器。一个或多个处理器被配置成:从加速度计接收加速度计信号;从麦克风接收语音信号;基于语音信号和加速度计信号确定特定用户是否正在说话;当该特定用户正在说话时,通过麦克风收听命令;以及当特定用户不在说话时,忽略所接收的语音信号。
8.例如,电子设备可以是可穿戴设备,其中特定用户正佩戴着该电子设备。例如,电子设备可以是头戴式设备,诸如耳塞、耳机或智能眼镜。
9.本公开的另一方面提供一种存储可由一个或多个处理器执行的指令的计算机可读介质,用于执行检测特定用户是否正在说话的方法。该方法包括:接收加速度计信号;接收语音信号;基于语音信号和加速度计信号确定特定用户是否正在说话;当该特定用户正在说话时收听命令;以及当特定用户不在说话时忽略所接收的语音信号。
附图说明
10.图1是根据本公开各方面的在使用中的示例性系统的示意图。
11.图2是示出根据本公开各方面的示例性电子设备的功能框图。
12.图3是示出根据本公开各方面的示例性系统的功能框图。
13.图4是示出根据本公开各方面的由具有激活的麦克风的音频设备执行的示例性方法的流程图。
14.图5是示出根据本公开各方面的示例性加速度计读数的波形图。
具体实施方式
15.图1是在使用中的示例性系统的示意图。第一用户101佩戴着用于检测用户语音输入的电子设备180。虽然电子设备180在图1中被示为耳塞,但应理解,电子设备180可以是许多其他类型的设备中的任一者,诸如耳机、智能眼镜、智能摩托车头盔、智能手表等。此外,电子设备810可以包括彼此通信的多个设备,诸如与无线耳塞通信的智能手表。
16.如图1中所示,电子设备180无线地耦合到移动计算设备170。移动计算设备170可以是例如,移动电话、平板型计算机、膝上型计算机、游戏系统或任何其他类型的移动计算设备。在一些示例中,移动计算设备170可以耦合到网络,诸如蜂窝式网络、无线因特网网络等。例如,用户101可以通过电子设备180向移动计算设备170提供话音输入120,用于通过网络向另一设备进一步传输。然而,在其他示例中,电子设备180可以在没有移动计算设备170的情况下通过网络直接通信。
17.在一些场景中,诸如图1中所示,第二用户102也可以与第一用户101说话或在第一用户101附近说话。此类话音110可以由电子设备180和/或移动电话170检测到并被感知为输入。因此,电子设备180的麦克风可以继续接收第二用户102的话音110,因此耗尽电子设备180的电池并可能触发错误命令。为了避免这种情况,电子设备180可以检测特定于第一用户101的话音120。例如,电子设备180可以包括一个或多个加速度计,该加速度计检测第一用户101的与用户的嘴的移动一致的移动,这将在用户说话时发生。当检测到此类移动时,麦克风可以自动打开以接收第一用户101的话音120。
18.图2示出了电子设备180的示例性结构组件,其提供了特定用户何时开始提供话音输入的此类检测。虽然示出了多个示例性组件,但是应理解,可以包括附加的或更少的组件。此外,可以包括相同类型的多个组件,诸如多个处理器、麦克风、加速度计等,尽管图2中仅示出了一个。
19.如图1中所示,电子设备180包括与各种其他组件通信的一个或多个处理器281,诸如电池210、麦克风220、传感器230、加速度计240、输出250、发射器/接收器260等。例如,如下文更详细描述,一个或多个处理器281可以包括语音活动检测器382,其使用来自传感器230和/或加速度计240的读数来检测特定用户何时在说话,并使电池210给麦克风供电以接收由特定用户发出的话音。该话音可以是语音命令,诸如“turn up the volume(调高音量)”或“shuffle songs on my favorite playlist(在我最喜欢的播放列表中随机播放歌曲)”。在其他示例中,话音可以是要在网络上传输的对话,诸如在与另一用户的电话谈话期间。对输入的响应可以输出给用户,诸如通过扬声器播放声音。在一些情况下,输出可以包括显示器,诸如用于显示图像、文本、视频、状态信息或任何其他类型的信息。
20.电池210可以是用于给电子设备180的组件供电的任何类型的小形状因子电源。电池210可以单独地向处理器281、麦克风220、加速度计240等供电,使得任何单独的组件可以
断电,以保持电池210的寿命,而其他组件保持通电。
21.例如,可以由处理器281自动确定向哪些组件供电。例如,处理器281可以包括语音活动检测器290,其检测特定用户何时在说话。例如,语音活动检测器290可以是由处理器281执行的软件模块,其使用来自传感器230、加速度计240或其他组件的信息来确定特定用户何时提供输入。例如,语音活动检测器290可以将来自加速度计240的读数与阈值进行比较。
22.阈值可以对应于与用户说话相一致的移动水平。当读数达到或超过阈值时,可以确定用户正在说话。具体阈值可以根据例如加速度计所在的可穿戴设备的类型而变化。例如,针对耳塞的阈值可以与针对头戴式显示器的阈值不同。根据一些示例,阈值可以相对于噪声基底来定义。例如,阈值可以高于噪声基底6db,高于本底噪声10db,等等。
23.麦克风220可以是能够接收声音作为输入的任何麦克风。除了从用户接收话音输入之外,麦克风220可以接收其他声音,诸如背景噪声、其他人说话等。在一些示例中,麦克风220可以包括定位在电子设备180的不同部分的多个麦克风。仅作为示例,当电子设备180被佩戴时,第一波束成形麦克风可以朝向用户的嘴倾斜,以便接收用户的语音输入,而第二麦克风定位在电子设备180的外部,以便从与用户交互的其他人接收背景噪声或语音输入。
24.传感器230可以包括多种类型传感器中的任一者。根据一个示例,传感器230可以检测用户是否正佩戴着电子设备180。例如,传感器230可以包括电容传感器、热传感器或用于检测电子设备180是否与皮肤接触的其他传感器,从而指示电子设备180是否正被佩戴。
25.加速度计240可以包括一个或多个用于检测与用户说话一致的用户移动的设备。例如,返回参考图1,当佩戴电子设备180的用户101开始说话时,他的嘴、下巴和他身体的其他部分移动。此类移动可以指示说话。加速度计240还可以检测可以与用户说话区分的其他类型的移动。诸如,虽然加速度计240可以检测与用户行走、打字、驾驶等一致的移动,但此类移动可以与说话的移动区分开来,并且可以被忽略。例如,与说话相比,运动可能具有较慢的频率响应。当一个人跑步时可以转换到大约3hz的频率,而一个人说话时可以转换到大约100hz或更高。因此,低通滤波器可以放置在例如10hz或更低。
26.图5示出指示用户正在说话的示例性加速度计读数。波形510表示在办公室环境中通过麦克风接收的用户话音。波形520表示通过麦克风接收的背景办公室噪声,其对应于此示例中的噪声基底。波形512、514、516分别表示对应于用户话音的z、x和y方向上的加速度计读数。波形522、524、526分别表示对应于办公室噪声的z、x和y方向上的加速度计读数。观察大约200hz和700hz之间的频带,当用户说话时,话音加速度计读数512、514、516比噪声基底加速度计读数522、524、526高大约30db。
27.根据一些示例,电子设备180中可以包括多个加速度计240。例如,多个加速度计240中的每个可以具有不同的灵敏度,或者可以适于检测不同类型的用户活动。此外,多个加速度计中的每个可以以不同的方式定位,以优化对不同类型的用户活动的检测。
28.当加速度计读数与说话不一致时,麦克风220可以断电或者可以在低功率模式下操作。例如,当用户不提供话音输入时,可以关闭麦克风。然而,当加速度计读数指示用户正在说话时,麦克风可以被打开以接收用户语音输入。如果用户被确定正在进行谈话,诸如如果加速度计读数的模式指示用户说话持续了一段时间、停止、且然后恢复说话的活动,则在一些示例中,麦克风可以在用户已停止说话的时间期间以降低功率模式操作。根据一些示
例,加速度计可以总是由电池210供电,使得来自加速度计240的信号可以用来确定何时开启其他组件,诸如麦克风220。就此而言,加速度计240仍然可以通过保持在低功率模式直到检测到移动,且然后切换到全功率操作模式来保持电池寿命。
29.输出250可以包括例如显示器、扬声器或这些或其他输出的任何组合。根据一些示例,当麦克风通电并接收语音输入时,该输出可以向用户提供指示。
30.发射器/接收器260可以用于与其他设备通信。例如,在用户正在进行谈话的情况下,发射器/接收器260可以用来将所接收的用户语音发送到另一设备,并从另一设备接收信号以便通过输出250输出给用户。
31.根据一些示例,除了加速度计读数之外,处理器281可以基于其他信息来确定用户是否正在说话。仅通过示例来说,处理器281可以被训练,诸如通过机器学习,以辨识用户的语音。例如,可以要求用户提供样本话音输入,该样本话音输入被存储在设备180的存储器中,并用于与所接收的话音进行比较。
32.图3提供与移动设备170通信的电子设备180的示例性功能框图。每个设备包括一个或多个处理器371、381、存储器372、382以及通常存在于移动计算设备和电子设备中的其他组件。虽然展示了多个组件,但应理解此类组件仅仅是非限制性示例,并且可以另外地或替代地包括其他组件。
33.如上文提及,电子设备180可以是诸如耳塞、头戴式设备、智能手表等的各种类型设备中的任一个。移动设备170也可以采用多种形式,诸如智能电话、平板型计算机、膝上型计算机、游戏控制台等。
34.一个或多个处理器371、381可以是任何常规处理器,诸如市售的微处理器。可替代地,一个或多个处理器可以是专用设备,诸如专用集成电路(asic)或其他基于硬件的处理器。尽管图3在功能上将电子设备180和移动计算设备170的处理器、存储器和其他元件示出为在同一相应块内,但本领域普通技术人员将理解,处理器或存储器实际上可以包括多个处理器或存储器,这些处理器或存储器可以存储在或不存储在同一物理壳体内。类似地,存储器可以是位于不同于电子设备180或移动计算设备170的壳体中的硬盘驱动器或其他存储介质。因此,对处理器或计算设备的引用将被理解为包括对可能并行或不可并行操作的处理器或计算设备或存储器的集合的引用。
35.存储器382可以存储可由处理器381访问的信息,包括可以由处理器381执行的指令383和数据384。存储器382可以是可操作来存储处理器381可访问的信息的存储器类型,包括非暂时性计算机可读介质,或者存储可以借助于电子设备读取的数据的其他介质,诸如硬盘驱动器、存储卡、只读存储器(“rom”)、随机存取存储器(“ram”)、光盘以及其他可写和只读存储器。本文公开的主题可以包括前述内容的不同组合,由此指令383和数据384的不同部分被存储在不同类型的介质上。
36.处理器381可以根据指令383检索、存储或修改数据384。例如,尽管本公开不受特定数据结构的限制,但是数据384可以存储在计算机寄存器中、关系数据库中作为具有多个不同字段和记录的表、xml文档或平面文件。数据384也可以用计算机可读格式格式化,诸如但不限于二进制值、ascii或unicode。仅作为进一步的示例,数据384可以被存储为位图,该位图包含以压缩或未压缩形式存储的像素,或者各种图像格式(例如,jpeg)、基于向量的格式(例如,svg)或者用于绘制图形的计算机指令。此外,数据384可以包含足以识别相关信息
的信息,诸如数字、描述性文本、专有代码、指针、对存储在其他存储器中的数据的引用(包括其他网络位置),或函数用来计算相关数据的信息。
37.可以执行指令383以检测用户何时在说话并接收用户的语音输入。例如,指令383提供例如通过麦克风320收听和接收用户话音。麦克风320可以被波束成形,使得它被引导来从用户嘴的方向接收音频。就此而言,电子设备180可以将所接收的话音辨识为用户的话音,而不是没有佩戴电子设备180的其他说话人或其他背景噪声。
38.根据一些示例,指令383可以进一步提供检测所接收话音中的端点。例如,可以基于话音中的停顿、关键词、语调、变调或这些或其他因素的任意组合来自动确定端点。一旦检测到端点,电子设备180可以缓冲所接收的话音,同时立即恢复收听。在其他示例中,作为缓冲的替代或补充,电子设备180可以将所接收的话音传输到移动设备170。例如,电子设备180可以经由rfcomm或其他通信链路来传输话音。在一些示例中,此类端点指示可以由移动设备170执行。在此类示例中,电子设备180可以将所有音频流式传输到移动设备170,移动设备170处置端点指示、语音辨识等。
39.当电子设备180正在执行指令383时,移动设备170也可以执行与数据374一起存储在存储器372中的指令373。例如,类似于电子设备180,移动设备170还可以包括存储可由一个或多个处理器371执行的数据374和指令373的存储器372。存储器372可以是多种类型中的任一个,且数据374可以是多种格式中的任一个,类似于电子设备180的存储器382和数据384。虽然电子设备180收听和接收来自佩戴电子设备180的用户的话音,移动设备170也可以通过麦克风378来收听和接收话音。根据一些示例,移动设备170所接收的话音可以用来过滤通过电子设备180接收的输入。例如,通过移动设备170接收的输入可以与通过电子设备180接收的输入进行比较,以确定它是来自佩戴电子设备180的用户还是另一用户。就此而言,可以使用多种语音辨识技术中的任一个。作为一个示例,移动设备170可以交叉引用电子设备麦克风320和移动设备麦克风378之间的音量水平。如果通过麦克风320接收的声音是安静的,并且通过麦克风378接收的声音很大,则可以确定另一人正在提供话音输入。相反,如果通过两个麦克风320、378接收的声音很大,则可以确定电子设备180的用户/佩戴者正在说话。作为另一示例性技术,可以使用语音辨识单元。可以训练语音辨识单元以辨识电子设备180和移动设备170的用户的语音。作为另一示例性技术,可以使用音频回声消除技术。例如,移动设备170可以收听麦克风388、378两者,检测重叠音频,并且辨识出重叠音频属于所有者。重叠的音频可以通过识别声音输入的相似波形或模式,或者检测相似的爆破声或瞬态攻击来检测。在一些示例中,可以使用前述或其他技术的任何组合。
40.当确定用户正在说话时,指令373可以进一步提供持续收听,例如,直到检测到端点为止。如上文提及,可以基于停顿、关键字、变调或其他因素来检测端点。在其他示例中,可以基于加速度计检测到的活动减少来检测端点。例如,当加速度计读数下降时,指示用户已停止说话,麦克风可能停止收听话音输入,直到加速度计读数再次回升。
41.应理解,电子设备180和移动设备170可以各自包括未示出的其他组件,诸如电池的充电输入、信号处理组件等。此类组件也可以用于指令383、373的执行。
42.示例性方法
43.除了上述和附图中所示的操作之外,现在将描述各种操作。应理解,以下操作不必按照下文描述的精确顺序执行。相反,可以按不同的顺序或同时处置多个步骤,并且还可以
添加或省略步骤。
44.图4示出用于检测用户是否正在说话的方法400。在块410中,在来自加速度计的一个或多个处理器处接收加速度计信号。在一些示例中,加速度计信号可以包括来自一个设备内部或不同耦合设备内部的多个加速度计的多个信号。
45.在块420中,将所接收的加速度计信号与阈值进行比较,其中阈值指示与说话一致的用户活动。在块430,确定所接收的加速度计信号是否满足阈值。如果否,过程可以返回到块410,其中处理器继续监控加速度计信号。然而,如果是,在块440中激活麦克风。
46.麦克风的激活可以包括从低功率或无功率状态开启麦克风,或者以其他方式准备麦克风以接收用户语音。因此,麦克风可以接收用户语音作为输入。
47.在块450,处理器通过激活的麦克风接收用户语音。根据一些示例,在块460,处理器可以确认所接收的使用语音是否来自预期用户,诸如佩戴电子设备的特定用户。例如,处理器可以使用语音辨识技术或者所接收的语音信号与在相同时间段接收到的加速度计信号的进一步比较来确定语音和加速度计信号是否彼此对应。根据其他示例,可以使用其他分析技术来确定所接收的语音信号是否是用户的语音信号。例如,可以使用信号与在诸如移动设备的第二设备处接收的信号的比较。在其他示例中,可以使用话音辨识来确定所接收的语音信号是包括语音还是仅仅包括背景噪声。
48.如果在块450中确定所接收的语音是预期用户的语音,则在块460中,处理器可以继续收听通过麦克风输入的语音。如果否,在块465中,处理器可以忽略所接收的信号,并在块410中继续监控加速度信号。
49.前述技术可能是有利的,因为它们仅在需要时提供组件的激活,诸如麦克风。通过监控加速度信号,可以关闭麦克风和接收语音输入所需的其他组件,或者将它们置于低功率模式,直到检测到用户正在说话。此外,此类检测是自动的,且因此不会因为要求用户在说话之前按下按钮或键入一些其他输入而给用户带来不便。
50.除非另有说明,否则前述替代示例并不相互排斥,而是可以以各种组合来实现,以实现独特的优点。由于在不脱离由权利要求限定的主题的情况下,可以利用上面讨论的特征的这些和其他变体和组合,所以应当以说明的方式而不是通过对由权利要求限定的主题的限制的方式来采取实施例的上述描述。另外,本文描述的示例的提供以及被表述为“诸如”、“包括”等等的从句不应被解释为将权利要求的主题限制于特定示例;相反,这些示例仅意图示出许多可能的实施例中的一个。此外,不同绘图中的相同附图标记可以识别相同或类似的元件。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1