使用互连电子设备进行音频修改的制作方法

文档序号:29453949发布日期:2022-03-30 12:24阅读:100来源:国知局
使用互连电子设备进行音频修改的制作方法
使用互连电子设备进行音频修改
1.相关申请的交叉引用
2.本专利申请要求2020年9月22日提交的名称为“audio modification using interconnected electronic devices”的美国临时专利申请号63/081,658的优先权,该美国临时专利申请的全部公开内容据此以引用方式并入本文。
技术领域
3.所述实施方案整体涉及用于移除不期望的声音的音频修改。更具体地讲,本文实施方案涉及使用多个互连的电子设备来改善对不期望的噪声的减少。


背景技术:

4.电话会议和视频会议正成为越来越流行的用于沟通的机制。如今,许多便携式计算机设备诸如膝上型电脑、平板电脑和智能电话具有可用于这些目的的内置麦克风。此外,许多便携式计算机设备具有内置相机(或者可容易地添加低成本的外部相机,诸如网络摄像头)。这允许非常低成本、高度普及地参与电话会议和视频会议。
5.在会议期间通常出现背景噪声,诸如参与者在用于会议的设备上打字。例如,参与者可能在说话时或在听其他人说话时对会议记笔记或进行多任务。由于便携式计算机设备上的键盘与也可在便携式计算机设备上的麦克风的物理接近,所以麦克风可容易地拾取来自击键的噪声并将噪声传输到会议,从而对其他参与者造成分心和烦扰。
6.虽然许多产品和方案已被设计用于噪声消除,包括专门消除计算机电话会议中由键盘打字所产生的噪声,但这些系统在消除噪声时常常缺乏精度和准确性。此外,可通过去除不期望的声音来改善许多其他种类的音频记录,诸如乐器的录制。因此,一直需要对音频修改系统和技术进行改进。


技术实现要素:

7.本公开的一个方面涉及用于管理电话会议的计算设备。该计算设备可包括处理器和被配置用于与处理器电通信的存储器设备。存储器设备可包括编码在其上的指令,所述指令当由处理器执行时使得处理器从源计算机的麦克风接收音频信号,从源计算机处的相机、移动传感器、位置传感器或第二麦克风中的至少一者接收传感器信号,使用传感器信号检测麦克风的音频信号中的声音的来源,修改音频信号以减少音频信号中的所述声音,并且将修改后的音频信号发送到目标计算机。
8.在一些示例中,检测所述来源可包括在从相机获得的图像中标识计算机输入设备,并且所述声音可包括由人使用计算机输入设备产生的噪声。所述指令还可使得处理器检测用户相对于源计算机的位置,其中可基于用户相对于源计算机的位置来修改音频信号。检测所述来源可包括经由移动传感器或位置传感器检测源计算机的移动或位置变化。相机、移动传感器、位置传感器或第二麦克风可附接到源计算机。在一些示例中,相机、移动传感器、位置传感器或第二麦克风可以是与源计算机分开并与源计算机电通信的设备的一
部分。
9.本公开的另一方面涉及一种在电话会议时管理声音和噪声的方法。该方法可包括经由源计算机的麦克风记录音频信号,经由包括相机、移动传感器或第二麦克风的传感器感测声音源,检测音频信号中的期望声音和音频信号中的不期望声音,其中期望声音由经由传感器检测的声音源产生,相对于不期望声音放大音频信号中的期望声音,以及将放大后的音频信号传输给目标计算机。
10.在一些实施方案中,检测声音源包括经由传感器检测人,并且其中期望声音包括嗓音,并且不期望声音包括非嗓音。相机、移动传感器或第二麦克风可以是与源计算机分开并与源计算机电通信的设备的一部分。检测声音源可包括在从相机获得的图像中标识计算机输入设备,并且不期望声音可包括由人使用计算机输入设备产生的噪声。
11.在一些实施方案中,该方法还可包括经由传感器检测用户相对于源计算机的位置,其中基于用户相对于源计算机的位置来放大期望声音。在一些实施方案中,检测声音源包括经由移动传感器检测源计算机的移动或位置变化。
12.本公开的另一方面涉及计算设备,该计算设备包括成像设备、麦克风、与成像设备并且与麦克风电子通信的处理器、以及与处理器电子通信的存储器设备。存储器设备可包括编码在其上的指令,该指令在由处理器执行时使得计算设备经由成像设备获取图像,在图像中标识目标噪声的来源,接收由麦克风产生的音频信号,并且修改音频信号以改变音频信号中目标噪声的表示。
13.修改音频信号可包括至少部分地消除音频信号中目标噪声的表示。修改音频信号还可包括隔离音频信号中目标噪声的表示。在一些示例中,隔离目标噪声的表示包括将麦克风波束形成到目标噪声的来源。标识所述来源可包括在图像中标识对象。对象可包括人的身体部分。目标噪声可包括人嗓音,并且标识所述来源可包括在图像中检测人的发声动作。
14.本公开的又一方面涉及一种用于减少电子音频信号中的不期望噪声的系统,其中该系统包括计算设备和电子设备,该计算设备包括处理器、存储器设备和麦克风,该电子设备与该计算设备电通信并且与该计算设备分开,该电子设备包括传感器。存储器设备可包括编码在其上的电子指令,该电子指令在由处理器执行时使得计算设备:使用电子设备的传感器检测目标噪声的来源,接收由计算设备的麦克风产生的音频信号,其中该音频信号包括该目标噪声的表示,并且修改音频信号以减少音频信号中该目标噪声的表示。
15.在一些示例中,该计算设备包括键盘,该目标噪声是源自键盘的声音,目标噪声的表示是目标噪声的记录,并且修改音频信号包括至少部分地消除音频信号中目标噪声的记录。传感器可包括成像设备,并且检测目标噪声的来源可包括在由成像设备感测的图像中检测对象。传感器可包括被配置为检测目标噪声的第二麦克风,并且检测目标噪声的产生可包括接收由第二麦克风产生的包括目标噪声的第二表示的音频信号。传感器可被配置为检测电子设备的位置或移动,并且检测目标噪声的产生可包括经由传感器检测电子设备的位置变化或电子设备的移动。电子设备可包括可穿戴电子设备。电子设备可包括用于计算设备的外围输入设备。
附图说明
16.通过以下结合附图的详细描述,将容易理解本公开,其中类似的附图标号指代类似的结构元件,并且其中:
17.图1示出了例示本公开的环境的图示。
18.图2示出了本公开的计算系统的示意图。
19.图3示出了表示本公开的实施方案的相机图像的图示。
20.图4示出了本公开的方法的流程图。
21.图5示出了表示本公开的由麦克风获得的音频信号的图示。
22.图6示出了根据本公开的实施方案的表示噪声来源的声音信息的图示。
23.图7示出了表示本公开的修改后的音频信号的图示。
24.图8示出了例示本公开的另一环境的图示。
25.图9示出了本公开的另一计算系统的示意图。
26.图10示出了表示本公开的实施方案的另一相机图像的图示。
27.图11示出了例示本公开的另一环境的图示。
28.图12示出了本公开的另一计算系统的示意图。
29.图13示出了表示本公开的由麦克风获得的音频信号的图示。
30.图14示出了表示本公开的实施方案的由第二麦克风获得的第二音频信号的图示。
31.图15示出了表示本公开的修改后的音频信号的图示。
32.图16示出了本公开的另一方法的流程图。
33.图17示出了本公开的另一方法的流程图。
34.图18示出了本公开的各种实施方案的计算系统的框图。
具体实施方式
35.现在将具体地参考在附图中示出的代表性实施方案。应当理解,以下描述不旨在将实施方案限制于一个优选实施方案。相反,以下描述旨在涵盖可被包括在由所附权利要求书限定的所述实施方案的实质和范围内的另选方案、修改和等同物。
36.以下公开涉及使用麦克风、相机、位置和移动传感器以及相关设备来标识音频信号中的不期望声音,或在音频信号、图像或位置/运动信号中标识不期望声音的来源,以及修改音频信号或静音记录设备以减少输出音频信号中不期望声音的出现、音量或发生率。因此,通过使用本公开的原理,可从为电话会议、视频会议、音乐录制、语音消息和相关活动记录的音频信号中移除不期望声音。
37.尽管已设计了包括主动消除音频信号中的频带的常规系统和方法,诸如在主动噪声消除耳机中,该主动噪声消除耳机至少部分地反转所记录的音频信号并经由扬声器向用户提供修改后的信号,但是这些系统和方法在清除落在预定义频率极限之外的独特声音和噪声方面表现不佳。另外,尽管已提出了一些声称消除与特定波形相关的噪声(诸如键盘打字声音)的系统和方法,但检测该声音的产生通常是反应性的或基于从该声音的来源获得直接信号,诸如通过由于键盘本身的开关被触发而检测到键盘正被操作。
38.可通过本公开的原理和方面来改进常规系统和方法,本公开的原理和方面涉及使用设备的系统,这些设备使用一个或多个设备上的多个不同传感器和/或多个不同类型的
传感器来协调以更好地标识、隔离和减少音频信号中的声音。另外,本公开的各方面涉及预期音频信号中声音的出现,以预先移除不期望的噪声或向本文所述系统的用户提供信息诸如警告。
39.一些实施方案可包括用于管理电话会议的计算设备,诸如服务器或客户端设备,该服务器或客户端设备被配置为从源计算机的麦克风接收音频信号并且从作为源计算机的一部分或在源计算机附近的单独传感器诸如相机、移动传感器、位置传感器或第二麦克风接收传感器信号。传感器信号可来自在电话会议参与者的环境中常用的电子设备,诸如智能电话、平板电脑、智能手表或其他可穿戴智能设备、头戴式耳机或耳机设备、智能扬声器或其他记录设备、相关设备以及它们的组合。因此,这些附近设备上的相机和其他传感器可用于帮助收集参与者环境中的信号、图像和其他信息,以比使用单个设备更有效且最佳地标识和移除不期望的声音。然后可将修改后的音频信号发送给其他设备,诸如目标计算机,并且目标计算机处的参与者可享受与源计算机处的参与者的更清楚的、更少让人分散注意力的通信。
40.相机或其他图像传感器可用于减少不期望的噪声、对象、人和形状识别技术,这是通过分析来自相机的图像以其外观、其在图像或视频中的移动、其距相机的距离等来确定不期望的声音的来源来实现。例如,在一个实施方案中,相机可用于观察和确定参与者的嘴部是否正在移动,并且可修改由参与者的设备记录的音频信号(例如,当嘴部不移动时可对音频静音,并且当嘴部移动时对音频取消静音)。此外,相机可观察参与者的位置和/或取向,以使得系统能够智能地确定参与者是否打算向麦克风提供输入(例如,正面向麦克风),从而可减少或完全静音有意的通信。
41.在另一示例中,相机可用于观察对象诸如计算机输入设备(例如,外围输入设备)的位置和状况,以确定用户是否正在打字、点击鼠标、调节麦克风、等等,并且音频信号可通过使麦克风静音或取消静音以避免声音或者通过滤除/消除与相机图像中存在的对象所产生的噪声对应的某些波形或频率来修改。在这种情况下,系统可访问包含由对象产生的声音的代表性记录的数据库,并且可由此在那些声音被主麦克风记录时有效地标识和消除那些声音,从而使得能够使用相机标识哪些声音需要被消除来实现对特定声音的噪声消除。
42.在使用多个麦克风的实施方案中,可使用计算设备来记录主麦克风信号,并且可使用计算设备的环境中的单独设备来记录辅麦克风信号。该单独设备诸如与计算设备在同一房间中的智能电话或可穿戴设备可获取具有存在于主麦克风信号中的波形但具有不同幅值并且可能具有不同频率的辅麦克风信号。计算设备可分析这多个麦克风信号之间的差异以标识和移除特定的不期望声音(或对麦克风进行波束形成以隔离来自目标源(例如,用户面部)的期望的声音)。隔离来自声音源的期望声音可包括相对于声音源环境中记录的其他不期望声音放大那些声音,诸如通过衰减除期望声音中的那些之外的频率、增大对应于期望声音的波形或频率的音量或幅值、类似的方法以及它们的组合。
43.在使用位置或移动传感器的实施方案中,计算设备或辅助设备(例如,可穿戴设备)的移动或位置改变可用于确定某些不期望的噪声何时在用户的环境中产生。例如,智能手表中的加速度计可输出信号,该信号表明用户正在键盘上打字或抬起他或她的肘部打喷嚏,并且该数据可用于预测和降低与所检测到的活动相对应的不期望噪声的音量或发生率。
44.以下参考附图讨论这些和其他实施方案。然而,本领域的技术人员将容易地理解,本文相对于这些附图所给出的详细描述仅出于说明性目的,而不应被理解为是限制性的。
45.图1是示出本公开的各方面的视频会议环境100的例示。应当理解,尽管在图1中示出了视频会议环境100,但本公开的原理和方面可应用于正在进行和/或传输音频记录的许多不同的情境,诸如在电话会议(包括电话呼叫)、工作室录制(例如,音乐录制)、实时记录、电影摄制、远程交互、机器人控制、相关情境和应用领域,以及它们的组合中。这同样适用于结合其他附图所公开的其他实施方案。此外,如本文所用,包括第一选项(例如,相机)、第二选项(例如,移动传感器)或第三选项(例如,第二麦克风)中至少一者的设备(例如,传感器)应被理解为是指可包括每个所列选项的一个(例如,仅一个第一选项、仅一个第二选项、仅一个第三选项)、单个所列选项的多个(例如,两个或更多个第一选项)、同时两个选项(例如,一个第一选项和一个第二选项)、或它们的组合(例如,两个第一选项和一个第二选项)。
46.如视频会议环境100中所示,用户102(即,会议参与者)与计算设备104交互。计算设备104可包括一组计算机输入设备(例如,键盘116和触控板118)、显示器120和相机122(或其他成像设备)。
47.当用户102与计算设备104交互时,用户102可发声或用他或她的身体进行其他发声动作或产生噪声的声音,象征性地表示为声音124,并且可在与环境100中的物品诸如键盘116和触控板118交互时发出声音,象征性地表示为声音126。用户102使用的麦克风诸如计算设备104的麦克风(参见图2)可记录声音124、126并且可产生由波形128示意性地表示的音频信号。该信号可将所记录的波形128发送给另一设备,诸如另一计算设备(即,目标计算设备),另一用户在那里可经由扬声器(例如,该另一计算设备上的扬声器)在另一位置处收听由波形128表示的声音。因此,用户102可经由计算设备104向一个或多个其他用户发送可听消息,诸如在电话会议中。在电话会议中还可记录其他声音,诸如非嗓音(例如,扬声器、扬声器附近的其他设备等的由其他身体部分产生的噪声)。这些其他声音诸如电话会议中不期望的非嗓音可被检测并移除,或者相对于记录中的嗓音不那么突出。
48.另外,计算设备104的相机122可获取环境100中的用户102、其他人、动物、设备(例如如,106、108、110、112、116、118)和其他对象(例如,不与计算设备104电通信的无生命对象或有生命对象)的图像130或一系列图像(例如,静止图像或视频记录)。在视频会议时,相机122因此可获取传送给其他用户的图像130或视频馈送。
49.图2示出了用于减少电子音频信号中的不期望的噪声的系统200的示意图。系统200可包括计算设备202,诸如例如图1的计算设备104或图18的计算系统1800。计算设备202可被称为源设备或源计算机,并且计算设备202将音频信号发送给的设备可被称为目标设备或目标计算机。计算设备202可包括计算部件,诸如下文结合图18描述的那些(例如,处理器201或1802)。因此,在图2的框图中仅示出了计算设备202的有限数量的部件。计算设备202可包括数据库204(例如,在存储器设备上)、网络连接206、麦克风208、相机210(例如,相机122)和键盘212(例如,键盘116)。
50.麦克风208可对来自用户214位于计算设备202附近的环境的声波进行转换,如箭头216所示。因此,用户可在计算设备202附近发声或以其他方式发出噪声,以使用麦克风208记录波形。所记录的波形可被转换并经由网络连接206发送给其他计算设备,如箭头218所示。
51.有时,用户214所发出的声音或用户214的环境中的声音不想要或不期望发送给其他计算设备。例如,用户214可在麦克风208正活跃地记录环境中的声音时操作键盘212,如箭头220所示,并且键盘212所产生的噪声可分散其他计算设备处的收听者的注意力或以其他方式使其他计算设备处的收听者感到烦人。在这些情况下,计算设备202可被配置为使用相机210来标识所记录的波形中的不期望的噪声(例如,箭头220所表示的所记录的声音)。
52.相机210可以被配置为观察和记录计算设备202周围的典型发声对象、人和动物的图像(如箭头222所示)的方式定位和取向在计算设备202上或附近。因此,在一些实施方案中,相机210可面向用户的面部或手部、面向键盘212、面向另一计算机输入设备或外部设备、或面向不期望的声音的另一典型来源。如箭头224所示,相机210可接收该示例性系统200中的键盘212的图像。
53.图3示出了本公开的由相机(例如,相机122或210)捕获的示例图像300。图像300可具有相机在其中能够辨别进入相机中的传感器的光的边界、框或其他外极限,如图像300的大致矩形形状所表示。在其它实施方案中,图像300可包括另选的纵横比和形状(例如,圆角矩形、方形、广角/鱼眼、椭圆形、或圆形)。
54.图像300可包括相机视图内的人和对象的表示,诸如用户302的图像或用户的身体部分或肢体的图像(例如,其嘴部304的图像或其手部306的图像)。图像300还可包括相机视场内的其他人(例如,交谈的两个人308)和对象(例如,风扇310)的表示。因此,可将图像300中来自相机的信息提供给计算设备202的处理器以供分析。
55.图4是示出处理和分析图像和音频信号以便减少音频记录中不期望的噪声的方法400的流程图。在该方法400中,计算设备可接收图像和音频信号,如框402所示。例如,计算设备可从相机(例如,122和210)接收图像(例如,300),并且可从麦克风(例如,208)接收音频信号。相机或麦克风可以是操作方法400的计算设备的一部分,或者可以从具有相机或麦克风的单独的计算设备或其他电子设备传输给计算设备。
56.如框404所示,计算设备可在图像中标识噪声的来源。例如,如图3所示,图像300可包括作为相机视场中的人和物的所记录表示的形状、颜色、色调等。因此,在执行框404时,计算设备可分析图像300中的信息,并且将图像中的信息与作为噪声来源的人和物相关联。例如,计算设备可使用本领域已知的对象识别技术(例如,边缘检测、形状检测等)来标识图像300中的特定形状和其他图像信息表示什么。面部识别算法可用于从用户的图像302中标识用户214或从交谈的两个人的表示308中标识其他人,并且形状识别算法可用于从嘴部和手部的图像表示304、306中标识嘴部或手部或者从风扇的图像表示310中标识风扇。另外,框404的执行可包括分析视频或一系列图像以基于视频或该一系列图像中的人或物的移动来确定其正在生成声音,诸如通过经由计算设备确定人的嘴部正在以与发声运动相关的方式移动、风扇打开并且正在旋转、用户的手部正在以打字方式触摸键盘等。
57.方法400还可包括标识与所标识的噪声的来源相关的声音信息(例如,波形或声音图案),如框406所示。标识声音信息可包括访问存储表示各种对象的所记录声音或其他声音信息的数据库(例如,204或网络连接的数据库)。因此,标识声音信息可包括标识数据库中对应于结合框404所标识的对象或人的一个或多个所记录声音。例如,下文结合图6示出并讨论此类所记录的声音信息。框406中所标识的波形或声音图案可以是框404的来源的记录,或者可以是一般性地定义由与框404的来源类似的对象产生的噪声的一组声音特性(例
如,频率、节律、协调、调制等)。因此,波形或声音图案不一定必须是框404的来源的精确表示或记录,并且可以是其近似或类似表示。另外,如果在同一图像中检测到多个不同的噪声来源,则计算设备可确定每个来源的声音信息,诸如对应于图像300中的不同噪声来源(例如,304、306、308、310)的图3所示的不同波形312。
58.方法400还可包括使用在框406中标识的声音信息来修改框402的音频信号。例如,计算设备可分析框402的音频信号以标识波形和声音图案,波形和声音图案指示在框404中标识的来源所产生的噪声(即,目标噪声)的所记录存在。在一些示例中,音频信号可包括与音频信号中所记录的时间跨度内的目标噪声类似或作为该目标噪声的副本的声音信息(例如,图案或频率),并且计算设备可修改该所记录的时间跨度内的音频信号以改变目标噪声的表示,如框408所示。
59.修改音频信号可包括减小音频信号中的波形或频率组的音量或幅值,以使得在回放音频信号时,目标噪声对于目标计算机处或计算设备处的音频信号的收听者不那么普遍或明显。例如,如图5所示,音频信号(例如,波形128)可包括随时间记录的各种频率和幅值。图6示出了与(框406中所标识和确定的)特定对象产生的噪声相关的波形或声音图案的表示。因此,在框408中,计算设备可分析图5的音频信号以检测与图6的波形类似或匹配的波形的存在。在该示例中,在时间跨度500内标识图6的波形。因此,计算设备可修改时间跨度500内的音频信号以衰减某些频率(或所有频率),从而在修改后的音频信号中最小化或消除目标噪声的出现,如图7所示。类似地,麦克风可在那些声音发生时被静音,或者那些声音可在所记录的音频信号被发送给另一设备时被移除。这样,计算设备可产生不太分散人注意力并且包含更少或更安静的不期望噪声的修改后的音频信号,从而对于电话会议或视频会议中的演示者并且也对于观看者或收听者得到改善的用户体验。
60.再次参见图4,在相关的实施方案中,计算设备可在框408中通过基于框406的声音信息将滤波器应用于整个音频信号来修改音频信号。因此,框406的声音信息可包括用于总体上修改整个音频信号的一些属性,而不是标识所记录的音频信号的特定时间跨度中的特定波形。例如,如果图像包含产生噪声的对象诸如风扇,则与风扇相关联的频率可被衰减并且从整个音频信号中去除,即使是在风扇未被检测到时或在风扇已被相机检测到之前的时候也如此,而不是仅在风扇对于相机是可见时才移除那些频率,或者而不是仅在音频信号中标识出特定的风扇代表性波形时才移除那些频率。类似地,如果在相机图像中标识出键盘,则可检测并移除音频信号中的任何打字声音图案或相关频率,而无论在打字声音发生时键盘对于相机是否是可见的。
61.图8示出了类似于环境100的另一环境800,其中示出了本公开的系统和设备。在该环境800中,对于已经结合环境100描述的元素重复参考标号。除了那些元素之外,环境800可包括具有图像传感器(例如,监控摄像头、网络摄像头、智能电话(例如,图11中的1110)、第二计算设备、平板电脑、类似设备以及它们的组合)的外部设备802,该图像传感器被配置为从与计算设备104分开的环境800收集图像数据,诸如图像804。因此,外部设备802可被定位和取向用于获取与计算设备104的相机122相比不同的视场或不同的图像信息。此外,在一些示例中,计算设备104没有相机122,并且外部设备802是环境800中唯一的图像捕获设备。外部设备802可与计算设备104电子通信,以将其图像信息804提供给计算设备。在一些示例中,外部设备可与计算设备104电子通信到的网络电子通信,使得图像804可经由网络
中继到计算设备104。例如,设备可经由网络接口1812和网络1805进行通信,如下文结合图18所述。
62.图9示出了对应于环境800并类似于系统200的系统900。在该系统900中,对于已经结合系统200描述的元素重复参考标号。外部设备902(例如,外部设备802)具有相机904或其他图像捕获设备。相机904可被配置为从环境(例如,800)接收图像信息,诸如通过使键盘212或用户214在相机904的视场内,分别如箭头906和908所示。如结合图2所讨论的,麦克风208可接收音频信号,如箭头216所表明的。外部设备902可输出传送给计算设备202的信号,如箭头910所示。在一些示例中,来自外部设备902的信号经由网络连接206传送给计算设备202。因此,设备202和902可彼此电通信。
63.图10示出了从外部设备的相机(诸如例如外部设备902的相机904)采集的示例性图像1000。类似于图像300,图像1000可包括表示相机视场内的人和对象的形状、线和其他图像信息。另外,图像1000可从与计算设备自身(例如,122)上的相机的视角不同的角度查看用户及其计算设备,这可潜在地允许图像1000检测计算设备的否则不会能被计算设备上的相机查看的部分的图像信息。例如,计算设备上的相机常被定位成邻近显示屏并且与显示屏共面,从而使得显示屏不可能用相机查看。使用外部设备,图像1000可包括显示显示屏、正在显示屏上操作的应用程序、计算设备上的另一相机、相机或显示器外壳的背面等的图像信息。因此,外部设备的图像1000中的图像信息可用于代替或补充由计算设备的相机获得的图像信息。该图像信息可允许计算设备标识计算设备外部的其他噪声来源,并且标识与那些来源相关联的声音信息,诸如图10所示的声音信息1002的示例。该图像信息可结合方法400使用,以使用基于图像1000中的噪声来源检测到的声音信息来修改音频信号,如结合图4所述。
64.另外,使用来自外部设备的图像信息可有利于确定用户与计算设备之间或用户与用户环境中的其他产生噪声的对象之间的距离。因此,在一些实施方案中,框408的执行可包括基于用户或其他产生噪声的对象与麦克风相距多远或彼此相距多远来修改音频信号。例如,如果可确定产生某些频率的噪声来源远离获取音频信号的麦克风,则音频信号对于那些频率可较少衰减,从而限制会不必要地干扰在音频信号中记录的其他声音的衰减量。对于更靠近麦克风的噪声来源,可更激进地减少、静音或消除声音,以帮助确保保留音频信号中的用户语音内容。
65.图11示出了类似于环境100和800的又一环境1100,其中示出了本公开的系统和设备。在该环境1100中,对于已经结合环境100描述的元素重复参考标号。除了那些元素之外,环境1100可包括外部设备,诸如例如用户102穿戴的一组可穿戴设备,在该示例中包括智能腕表1106或耳机1108。环境1100中的其他设备可包括外部或辅助计算设备,诸如智能电话或平板计算设备1110、“智能扬声器”1112、另一计算设备、另一记录设备、相关设备以及它们的组合。
66.其他设备诸如腕表1106、耳机1108、平板设备1110和智能扬声器1112可具有其自身的与计算设备104的麦克风分开的麦克风。因此,如智能扬声器1112所示,例如,声音124、126可由智能扬声器1112记录并转换成波形1132。在一些实施方案中,波形1132可被发送给计算设备104。类似地,类似于波形1132的音频数据可由环境1100中的其他设备(例如,1106、1108、1110)采集。
67.所述其他设备可在环境1100中具有图像捕获能力,诸如平板设备1110、用户102穿戴的头戴式耳机或护目镜。那些设备可捕获可与图像804类似地使用的图像(或一系列图像/视频),如上所述。此外,成像设备诸如相机802可与图11所示的其他设备结合使用。
68.图12示出了对应于环境1100并且类似于系统200和900的系统1200。在该实施方案中,对于已经结合系统200和900描述的元素重复参考标号。在一些实施方案中,可将来自系统200和900的元素结合到系统1200中。例如,计算设备202可包括被配置为执行上文结合图2所述的功能的相机(例如,210),并且外部设备1202可包括被配置为执行上文结合图9所述的功能的相机(例如,904)。外部设备1202可输出传送给计算设备202的信号,如箭头1216所示。在一些示例中,来自外部设备1202的信号经由网络连接206传送给计算设备202。另外,在一些示例中,计算设备202可用于控制外部设备1202(或外部设备902)。
69.外部设备1202(例如,外部设备1110、1112或可穿戴设备1106、1108中的一者)可包括与计算设备202的麦克风208分开的麦克风1208。因此,麦克风208可被称为第一麦克风,并且麦克风1208可被称为第二麦克风、外部麦克风或环境麦克风。
70.第二麦克风1208可用于记录音频并且创建和产生附加或辅助音频信号,该附加或辅助音频信号不同于由麦克风208生成的主要音频信号或主音频信号。因此,如图13中示意性地示出,主麦克风或第一麦克风(例如,208)可产生第一音频信号。图12示出了该动作的示例性图示,如箭头216和220所示,其中来自键盘212和用户214的声音被第一麦克风208记录。同时,外部设备1202的附加或第二麦克风1208可被定位在键盘212和用户214的环境内,并且可产生第二音频信号,如图14中示意性地示出并且如图12中的箭头1210和1212所示。图13的第一音频信号和图14的第二音频信号可用于产生修改后的音频信号,如图15所示,如下所述。
71.图16是示出处理和分析多个音频信号以便减少音频记录中的不期望噪声的方法1600的流程图。在该方法1600中,计算设备可接收至少两个音频信号,如框1602中所示。例如,计算设备可从第一麦克风(例如,208)接收第一音频信号(例如,如图13所示并经由箭头220),并且可从第二麦克风(例如,1208)接收第二音频信号。第一麦克风可以是操作方法1600的计算设备的一部分,并且第二麦克风可以是被配置为与操作方法1600的计算设备电子通信的外部设备(例如,1202)的一部分。
72.如框1604所示,计算设备可使用第二音频信号来标识噪声的来源。例如,如图14所示,波形可包括由第二麦克风的感测范围内的人和物(例如,键盘212)产生的声音的记录表示。因此,在执行框1604时,计算设备可分析第二音频信号中的信息,并将第二音频信号中的音频信息与作为噪声来源的人和物相关。例如,计算设备可使用本领域已知的声音识别技术(例如,音乐识别、语音识别、声学指纹、频谱图数据处理、特征提取、分类算法等)来标识什么噪声来源生成第二音频信号中表示的某些形式、频率、节律和其他音频信息。在一些示例中,语音识别算法可用于从第二麦克风所记录的人语音的嗓音中标识用户214,并且声学指纹识别算法可用于标识第二音频信号中的键盘上的打字声音。
73.在一些实施方案中,可向计算设备提供音频信号,以供计算设备记录/“学习”并与第一音频信号和第二音频信号中的声音图案进行比较。另外,在一些实施方案中,框1604的执行可包括分析第二音频信号以识别由特定用户产生的或在用户周围产生的非嗓音,诸如通过检测特定用户的打字节奏、咳嗽声音、其环境中的常见声音(例如,其狗吠叫的声音)
等。因此,执行框1604可包括随时间推移跟踪在第一音频信号或第二音频信号中的声音的发生,以在随时间推移对于特定用户发生时帮助标识噪声来源。
74.计算设备可分析由第一麦克风和第二麦克风记录的波形,并且检测目标噪声的表示(例如,声音图案1400)。目标噪声可发生在第一麦克风和第二麦克风的音频信号两者中,其中声音图案1400发生在与第一麦克风所记录的总时间跨度重叠的时间跨度期间(即,其中发生图13中的声音图案1300)。第二麦克风获得的目标噪声的表示可有利地在被第二麦克风记录时(即,在图案1400中)与由第一麦克风记录的目标噪声(即,在图案1300中)相比或相对于由第二麦克风记录的其他声音(即,图14中的图案1400之外的其余音频信号)更响亮或更突出。在这种情况下,计算设备可具有更清晰的信号,利用该信号标识第一麦克风和第二麦克风的总体音频记录中的目标噪声的表示。更清晰的信号可允许计算设备更准确地标识目标噪声的来源。因此,在一些实施方案中,方法1600可包括将第二麦克风定位在用户的环境中相对于第一麦克风更可能记录环境中的不期望噪声的位置,诸如通过将第二麦克风定位成更靠近预期发生打字的键盘或更靠近预期附近的交通产生分散人注意力的声音的窗口。在这种情况下,第一麦克风可被定位成相对更靠近主音频源,诸如通过在电话会议中更靠近预期扬声器,以相对于第一麦克风的音频信号中的不期望的声音强调期望的声音。
75.方法1600还可包括标识与所标识的噪声的来源相关的声音信息(例如,波形、频率、节律或声音图案),如框1606所示,该框以虚线示出以指示其是在一些实施方案中执行的任选步骤。标识声音信息可包括访问存储表示噪声来源的所记录声音或其他声音信息的数据库(例如,204或使用网络连接206能访问的信息的网络连接数据库)。因此,标识声音信息可包括标识数据库中对应于结合框1604所标识的噪声来源的一个或多个所记录声音。例如,结合图6示出并讨论此类所记录的声音信息。框1606中所标识的波形或声音图案可以是框1604的来源的记录,或者可以是一般性地定义由与框1604的来源类似的对象产生的噪声的一组声音特性(例如,频率、节律、协调、调制等)。因此,波形或声音图案不一定必须是框1604的来源的精确表示或记录,并且可以是其近似或类似表示。另外,如果在同一声音记录中检测到多个不同的噪声来源,则计算设备可确定每个来源的声音信息。
76.方法1600还可包括基于框1604中所标识的来源或框1606中所标识的声音信息修改框1602的音频信号,如框1608所示。例如,计算设备可(在标识图案1400之后)基于在框1604中所标识的噪声来源产生的声音在由第二麦克风进行的记录中的出现来关联该声音,然后在由第一麦克风进行的记录中减少或衰减那些声音(即,在图案1300的时间段内),如图15中的修改后的声音图案1500所示。
77.此外,在一些实施方案中,音频信号可包括声音信息(例如,图案或频率),该声音信息具有与在第一音频信号或第二音频信号中的记录时间跨度内在框1606中确定的声音信息类似的特征或具有该声音信息的副本,并且计算设备可修改该记录时间跨度内的第一音频信号以改变目标噪声的表示,如图案1500所示。
78.在任何实施方案中,修改音频信号可包括减小音频信号中的波形或一组频率的音量或幅值,以使得目标噪声(或与其类似的其他噪声)在音频信号被回放时对于目标计算机处或计算设备处的音频信号的收听者较不普遍或明显。例如,如图13所示,音频信号(例如,图11中的波形128)可包括随时间记录的各种频率和幅值。图14示出了由第二麦克风记录的
波形或声音图案的表示(例如,波形1132)。因此,在框1608中,计算设备可分析图13的音频信号,以检测与出现在图14的波形中的目标噪声的表示(即,1400)类似或匹配的波形的存在。因此,计算设备可修改与图案1400相关的时间跨度内的音频信号1300以衰减某些频率(或所有频率),从而在修改后的音频信号中最小化或消除目标噪声的出现,如图15中的图案1500所示。在其他实施方案中,第一麦克风和第二麦克风可用于波束形成以相对于不期望的声音隔离和增强或增大期望的声音的音量。例如,麦克风的两个音频信号共有的发音可通过消除或静音不被确定为是该发音的一部分的声音来隔离。因此,系统可关注传输通常是电话会议的音频信号的最重要部分的发声,同时允许其他不期望的声音在电话会议中逐渐消失和减弱。此外,由于这些操作中的任意者,计算设备可产生不太分散人注意力并且包含更少或更安静的不期望噪声的修改后的音频信号,从而对于电话会议或视频会议中的演示者并且也对于观看者或收听者得到改善的用户体验。
79.再次参见图16,在相关的实施方案中,计算设备可在框1608中通过基于框1606的声音信息将滤波器应用于整个音频信号来修改音频信号。因此,框1606的声音信息可包括用于总体上修改整个音频信号的一些属性,而不是标识所记录的音频信号的特定时间跨度中的特定波形。例如,如果第二音频信号包含与产生噪声的对象诸如风扇相关的所记录噪声,则与风扇相关联的频率可被衰减并且从整个音频信号中移除,而不是仅在风扇能够清楚地被第二麦克风听到时移除那些频率,或者而不是仅在第一音频信号或第二音频信号中标识出特定的风扇代表性波形时移除那些频率。类似地,如果在第二音频信号中标识出键盘的声音,则可检测并移除第一音频信号中的任何打字声音图案或相关频率以用于修改后的音频信号,而无论在键盘能被第一麦克风听到的所有时间是否键盘都能被第二麦克风听到。
80.再次参见图12,在一些实施方案中,除了第二麦克风1208之外或代替第二麦克风1208,外部设备1202可包括移动传感器1214。移动传感器1214可包括被配置为转换外部设备1202的位置或移动的位置或移动感测设备,诸如加速度计、陀螺仪、惯性测量单元(imu)、罗盘、取向传感器、类似设备以及它们的组合。当外部设备1202移动时,移动传感器1214可输出直接或经由网络连接206中继到计算设备202的信号,如箭头1216所示。
81.移动传感器1214的信号可以与方法4和16中所述的声音信息类似的方式使用。例如,如图17所示,本公开的方法1700可包括接收移动信号和音频信号,如框1702所示。移动信号可为由移动传感器1214提供的信号,并且音频信号可由计算设备202的麦克风提供。移动信号的定时可与音频信号的定时相关,使得可将来自移动传感器1214的所检测到的移动与麦克风208的音频信号进行比较。
82.在框1704中,方法1700可包括在移动信号中标识噪声的来源。在这种情况下,不是使用图像识别或声音识别技术来检测噪声的来源,计算设备而是可采用与用于检测脚步、跑步、游泳和传感器在用户上运动的其他活动的技术类似的移动模式识别技术。因此,该方法1700可有利地在移动传感器1214定位在可穿戴设备(例如,1106、1108)上的实施方案中实现,该可穿戴设备由与计算设备202交互的用户穿戴。因此,框1704的执行可包括标识用户手臂上(诸如在腕表中)的运动传感器的移动模式,以确定用户手臂相对于计算设备202的位置,从而确定用户是否使其手部紧邻计算设备的键盘,用户是否正在键盘上活跃地打字,从而以打字方式移动其手臂,或者用其手臂进行另一动作,该动作指示其正用其手臂或
其一部分产生噪声。类似地,框1704的执行可包括标识用户头部上的运动传感器(诸如在头戴式耳机、耳机、护目镜、头盔或其他头戴式设备中)的移动模式,以确定用户是否正面向计算设备202,用户的嘴部或下巴是否正在移动,用户的颅骨或下巴的振动是否指示他或她正在讲话,或者表明用户正在发出声音或以被配置为避免向麦克风208提供声音的方式取向或移动的其他检测到的用户的移动或位置变化。因此,框1704中在移动信号中标识噪声来源可包括标识该噪声来源的表示在修改后的音频信号中是否应当减小/消除(参见框1708)或者该噪声来源的表示在修改后的音频信号中是否应当隔离或突出。
83.在一些实施方案中,计算设备可采用移动模式识别技术来检测由作为计算设备202的一部分的移动传感器输出的模式,以确定计算设备202正在移动,诸如当用户102正在键盘116上打字、正在使用触控板118、正抬起计算设备202、正调节显示器120、或正用计算设备本身发出其他声音时。
84.方法1700还可包括标识在框1704中所标识的噪声来源的声音信息,如框1706所示。换句话讲,计算设备可标识在框1704中所标识的噪声来源产生的声音的记录中典型的声音特性。这可使用上文结合框406和1606所述的方法来完成。例如,如果计算设备经由运动传感器信号确定噪声来源是用户的手在键盘212上打字,则可对于该键盘212或对于该用户的打字方式标识打字声音信息,使得计算设备可在框1708中修改麦克风208的音频信号以消除音频信号中的打字声音。
85.因此,方法1700可包括通过使用上文结合框408和1608所述的方法使用声音信息来修改音频信号,如框1708所示。例如,计算设备可在框1704中检测到特征移动模式之后减小或衰减麦克风208的音频信号中对应于具有在框1706中确定的声音信息的特征的打字声音的声音,即使麦克风208在由麦克风208进行的记录中未检测到清晰、隔离的打字声音。因此,通过利用多个设备诸如计算设备202和外部设备1202的使用,在单个麦克风或甚至单个计算设备上的多个麦克风将不那么有效的情况下,修改后的音频信号可减少或消除不期望的噪声。
86.图18是示出可在本文所公开的计算设备(例如,计算设备104、202和外部设备902、1202)的实施方案中使用的计算系统1800的元件的框图。另选地,计算系统1800可以是体现在能连接到本文所公开的计算设备的远程设备中的单独系统。计算系统1800可体现为个人计算机、服务器、便携式计算设备、一组计算设备、类似设备以及它们的组合。
87.因此,图18是根据本公开的实施方案的计算机系统1800或计算设备的框图。在各种示例中,计算机系统1800可包括图18所示的部件的各种集合和子集。因此,图18示出了基于不同实施方案中系统1800执行的操作和功能可被包括在各种组合和子集中的各种部件。应当注意,当在本文描述或叙述时,除非本文另有特别说明,否则诸如“一个”或“一种”之类的冠词的使用不视为限于仅一个,而是旨在表示一个或多个。
88.计算机系统1800可包括经由总线1804连接的中央处理单元(cpu)或处理器1802,用于电通信到存储器设备1806、电源1808、电子存储设备1810、网络接口1812、输入设备适配器1816和输出设备适配器1820。例如,这些部件中的一者或多者可经由支撑总线1804的基板(例如,印刷电路板或其他基板)和提供部件之间的电连通的其他电连接器彼此连接。总线1804可包括用于在系统1800的部件之间传送信息的通信机构。
89.处理器1802可以是微处理器、中央处理单元或被配置为接收和执行存储器1806所
存储的指令集1824的类似设备。存储器1806可被称为主存储器,诸如随机存取存储器(ram)或用于存储信息和将由处理器1802执行的指令的另一动态电子存储设备。存储器1806还可用于在处理器1802执行的指令执行期间存储临时变量或其他中间信息。存储设备1810可包括只读存储器(rom)或耦接到总线1804的另一类型的静态存储设备,用于存储用于处理器1802的静态或长期(即,非动态)信息和指令。例如,存储设备1810可包括磁盘或光盘(例如,硬盘驱动器(hdd))、固态存储器(例如,固态盘(ssd))或类似设备。电源1808可包括能够向处理器1802和连接到总线1804的其他部件提供功率的电源,诸如与公用电网或自主设备(例如,100)的电池系统的连接。
90.指令1824可包括用于使用系统1800的部件和连接到系统1800的其他部件来执行过程和方法的信息。此类过程和方法可包括例如本文别处所述的方法,诸如例如结合图1至图17所述的方法。
91.网络接口1812可包括用于经由有线或无线连接将系统1800连接到外部设备的适配器。例如,网络接口1812可提供与计算机网络1805的连接,计算机网络诸如是蜂窝网络、互联网、局域网(lan)、网络连接206、能够与网络接口1812无线通信的独立设备(例如,计算设备202或外部设备902和1202)、其他外部设备或网络位置、以及它们的组合。在一个示例性实施方案中,网络接口1812是无线联网适配器,其被配置为经由wi-fi、蓝牙(r)、蓝牙低功耗(ble)、长期演进(lte)、5g、网状网络或相关无线通信协议连接到具有使用相同协议的接口能力的另一设备。在一些实施方案中,网络1805中的网络设备或一组网络设备可被认为是系统1800的一部分。在一些示例中,网络设备可被认为连接到系统1800,但不是其一部分。
92.输入设备适配器1816可被配置为向系统1800提供与各种输入设备的连接性,输入设备诸如是例如计算机输入设备1814(例如,键盘116或212或鼠标118)、相机1815(例如,122、210、802或904)、麦克风1817(例如,208或1208)、移动传感器1819(例如,1214)、一个或多个其他传感器、相关设备以及它们的组合。
93.输出设备适配器1820可被配置为向系统1800提供向用户输出信息的能力,诸如通过使用一个或多个显示器1832提供视觉输出以及通过使用一个或多个扬声器1835提供可听输出。处理器1802可被配置为控制输出设备适配器1820以经由连接到适配器1820的输出设备向用户提供信息。
94.指令1824可包括电子指令,该电子指令在由处理器1802执行时可执行如本文别处进一步详细描述的方法和过程。指令1824可被存储或编码在非暂态计算机可读介质上,并且指令1824在由计算设备诸如例如处理器1802执行时使得计算设备执行如本文其他地方进一步详细描述的方法和过程。参见例如图4、图16和图17。
95.在适用于本技术的限度内,采集和使用得自各种来源的数据可以被用于改进向用户递送其可能感兴趣的启发内容或任何其他内容。本公开预期,在一些实例中,这些所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口统计数据、基于位置的数据、电话号码、电子邮件地址、id、家庭地址、与用户的健康或健康级别相关的数据或记录(例如,生命体征测量、药物信息、锻炼信息)、出生日期或任何其他识别信息或个人信息。
96.本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,
该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得用户能够对所递送的内容进行有计划的控制。此外,本公开还预期个人信息数据有益于用户的其他用途。例如,健康和健身数据可用于向用户的总体健康状况提供见解,或者可用作使用技术来追求健康目标的个人的积极反馈。
97.本公开设想负责采集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。此类政策应该能被用户方便地访问,并应随着数据的采集和/或使用变化而被更新。来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。此外,应在收到用户知情同意后进行此类采集/共享。此外,此类实体应考虑采取任何必要步骤,保卫和保障对此类个人信息数据的访问,并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。此外,应当调整政策和实践,以便采集和/或访问的特定类型的个人信息数据,并适用于包括管辖范围的具体考虑的适用法律和标准。例如,在美国,对某些健康数据的收集或获取可能受联邦和/或州法律的管辖,诸如健康保险流通和责任法案(hipaa);而其他国家的健康数据可能受到其他法规和政策的约束并应相应处理。因此,在每个国家应为不同的个人数据类型保持不同的隐私实践。
98.不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明技术可被配置为在注册服务期间或之后任何时候允许用户选择“选择加入”或“选择退出”参与对个人信息数据的收集。在另一示例中,用户可以选择不为目标内容递送服务提供情绪相关数据。在另一个示例中,用户可选择限制情绪相关数据被保持的时间长度,或完全禁止基础情绪状况的开发。除了提供“选择加入”和“选择退出”选项外,本公开设想提供与访问或使用个人信息相关的通知。例如,可在下载应用时向用户通知其个人信息数据将被访问,然后就在个人信息数据被应用访问之前再次提醒用户。
99.此外,本公开的目的是应管理和处理个人信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据,通过限制数据收集和删除数据可最小化风险。此外,并且当适用时,包括在某些健康相关应用程序中,数据去标识可用于保护用户的隐私。可在适当时通过移除具体标识符(例如,出生日期等)、控制所存储数据的量或特异性(例如,在城市级别而不是在地址级别收集位置数据)、控制数据如何被存储(例如,在用户上聚集数据)、和/或其他方法来促进去标识。
100.因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的实施方案,但本公开还预期各种实施方案也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种实施方案不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如,可通过基于非个人信息数据或绝对最低数量的个人信息诸如与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用的信息来推断偏好,从而选择内容并将该内容递送至用户。
101.为了说明的目的,前述描述使用具体命名以提供对所述实施方案的彻底理解。然
而,对于本领域的技术人员而言将显而易见的是,不需要具体细节,以便实践所述实施方案。因此,出于例示和描述的目的,呈现了对本文所述的具体实施方案的前述描述。它们并非意在穷举或将实施方案限制到所公开的精确形式。对于本领域的普通技术人员而言将显而易见的是,鉴于上面的教导内容,许多修改和变型是可行的。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1