用于控制演播室设备的方法、装置、设备和存储介质与流程

文档序号：30838194发布日期：2022-07-22 23:39阅读：200来源：国知局

1.本公开涉及演播室设备控制技术，更具体地，涉及一种计算机实现的用于控制演播室设备的方法、电子设备、存储介质和计算机程序产品。

背景技术：

2.随着信息时代的发展，信息加工和处理的效率和安全性显得尤为重要。电视台演播室内的设备集控系统是常见的信息加工和处理设备，其可用于控制多类演播室设备的开启与关闭，并可用于设置这些演播室设备的相关参数。
3.现有控制演播室设备的方法主要是人工手动在电脑或手机上进行设置和操作(例如图形界面操作、按键操作)。由于演播室设备的开关和参数调整的复杂性，例如不同节目对设备的开关与设备相关参数具有不一样的要求，因此上述手动对演播室设备进行控制的方式容易因操作繁琐而导致效率低下，同时还可能导致因设备参数错误而影响节目效果。
4.此外，也存在使用语音指令对演播室设备进行控制的方法。但是语音指令的识别准确率和安全性有待提高。
5.在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现要素：

6.根据本公开的一方面，提供一种计算机实现的用于控制演播室设备的方法，该方法包括：获取表示用户发出的语音的语音数据；基于语音数据使用语音识别库识别用户的身份，其中，语音识别库包括语音数据与用户身份的映射关系和语音数据与控制指令的映射关系；响应于确定用户的身份为语音识别库中存储的多个用户身份之一，执行以下操作：从语音识别库中获取与语音数据对应的控制指令；获取与控制指令对应的控制方案；以及响应于获取到控制方案，基于控制方案对演播室设备进行控制；响应于确定用户的身份不为语音识别库中存储的多个用户身份中的任一个，拒绝用户对演播室设备的控制。
7.根据本公开的另一方面，提供一种计算机实现的用于控制演播室设备的装置，该装置包括：第一模块，用于获取表示用户发出的语音的语音数据；第二模块，用于基于语音数据使用语音识别库识别用户的身份，其中，语音识别库包括语音数据与用户身份的映射关系和语音数据与控制指令的映射关系；第三模块，用于响应于确定用户的身份为语音识别库中存储的多个用户身份之一，执行以下操作：从语音识别库中获取与语音数据对应的控制指令；获取与控制指令对应的控制方案；以及响应于获取到控制方案，基于控制方案对演播室设备进行控制；第四模块，用于响应于确定用户的身份不为语音识别库中存储的多个用户身份中的任一个，拒绝用户对演播室设备的控制。
8.根据本公开的另一方面，提供一种电子设备，该电子设备包括：存储器、处理器以及存储在该存储器上的计算机程序，其中，该处理器被配置为执行所述计算机程序以实现
如本公开中所述的方法的步骤。
9.根据本公开的又一方面，提供一种非暂态计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现如本公开中所述的方法的步骤。
10.根据本公开的又一方面，提供一种计算机程序产品，包括计算机程序，其中，该计算机程序被处理器执行时实现如本公开中所述的方法的步骤。
11.根据本公开的一个或多个实施例，基于用户语音的语音数据对用户进行身份识别，当确定用户为授权用户后才允许其对演播室设备进行控制，因此提高了设备控制的安全性。然后为授权用户确定语音数据对应的控制指令，基于该控制指令对应的专用控制方案实现对演播室设备的控制，因此提升了用户控制演播室设备的效率和便捷度。
12.根据在下文中所描述的实施例，本公开的这些和其它方面将是清楚明白的，并且将参考在下文中所描述的实施例而被阐明。
附图说明
13.附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。
14.图1是根据本公开的示例性实施例的演播室集控系统的示意图；
15.图2是根据本公开的示例性实施例的计算机实现的用于控制演播室设备的方法的流程图；
16.图3是根据本公开另一些示例性实施例的计算机实现的用于控制演播室设备的方法的流程图；
17.图4是根据本公开的示例性实施例的对语音识别库进行更新的示例过程的流程图；
18.图5是根据本公开的示例性实施例的计算机实现的用于控制演播室设备的装置的示意性框图；以及
19.图6是根据本公开的示例性实施例的计算机实现的用于控制演播室设备的电子设备的示意性框图。
具体实施方式
20.在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。
21.在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
22.在介绍本公开的各种实施例之前，首先对一些术语进行解释。
23.如本文所用，“语音指令”是指由用户发出的意图对演播室设备进行控制的语音信
息，示例性的语音指令可以是用户发出的短语“打开主持人麦克风”。
24.如本文所用，“语音数据”是指与语音指令对应的可以保存在存储介质上的数据。
25.如本文所用，“语音数据库”包含各种不同的语音数据。
26.如本文所用，“语音识别库”包含语音数据与用户身份的映射关系和语音数据与控制指令的映射关系。
27.如本文所用，“控制方案”包含用户所设置的演播室设备的开关状态和参数数值。
28.如本文所用，“方案执行库”包含各种不同的控制方案。
29.下面结合附图详细描述本公开的示例性实施例。
30.图1示出了根据本公开的示例性实施例的演播室集控系统100的示意图。
31.演播室集控系统100可以与多种不同种类的设备相连接并对其进行控制。如图1所示，演播室集控系统100可以与主持人麦克风102、嘉宾麦克风104、背景灯106、扬声器108以及其他设备(图中未示出)相关联，并且控制上述设备的开启/关闭，以及对上述设备的设备参数进行设置。示例性地，主持人麦克风102和嘉宾麦克风104的设备参数可以包括麦克风的音量，背景灯106的设备参数可以包括背景灯的颜色、亮度。可以通过演播室集控系统100对多种不同种类的设备中的单独一个设备进行控制，也可以对多种不同种类的设备中的几个设备同时进行控制。该演播室集控系统100包含语音控制的功能，使得用户可以通过语音指令对与演播室集控系统100相关联的设备进行控制，因此可以实现用户对演播室设备进行灵活高效的控制。
32.图2示出了根据本公开的示例性实施例的计算机实现的用于控制演播室设备的方法200的流程图。
33.参考图2，该方法200包括以下步骤：
34.在步骤202处，获取表示用户发出的语音的语音数据。为了提高获取该语音数据的准确性，可以使用多个阵列麦克风采集用户发出的语音。
35.在步骤204处，基于语音数据使用语音识别库识别用户的身份，其中，该语音识别库包括语音数据与用户身份的映射关系和语音数据与控制指令的映射关系。
36.在一些实施例中，语音识别库包括为多个用户身份中的每一个用户身份所配置的专用语音识别库。应当注意，这些多个用户身份具有对演播室设备进行控制的权限。
37.在一些实施例中，语音识别库中可以包含为节目组a的用户a所配置的用户a的专用语音识别库a’，该语音识别库a’包括用户a的语音数据与其身份的映射关系以及用户a的语音数据与其对应的控制指令的映射关系。也就是说，当获取到用户a的某条语音指令后，不仅可以使用语音识别库a’识别出该用户的身份为用户a，还可以识别出该语音指令所指示的控制指令。类似地，语音识别库中可以包含为节目组b的用户b所配置的用户b的专用语音识别库b’。
38.下面结合一些实施例介绍生成语音识别库的方法。
39.以节目组a的用户a为例，用户a可以给出针对目标设备的具体语音指令或抽象语音指令。例如，在目标设备是主持人麦克风的情况下，示例性的具体语音指令可以是“打开主持人麦克风(开启到默认或由用户a设置的音量)”“关闭主持人麦克风”；“将主持人麦克风的音量调到28％(指最大音量的28％)”“将主持人麦克风的音量调到50％(指最大音量的50％)”等等，示例性的抽象语音指令可以是“将主持人麦克风的音量调到高水平(可由用户
a设置高水平的音量、例如最大音量的80％)”“将主持人麦克风的音量调到低水平(可由用户a设置低水平的音量、例如最大音量的20％)”等等。对于包括嘉宾麦克风、背景灯、扬声器在内的其他目标设备，用户a可以以类似的方式设置具体语音指令或抽象语音指令。
40.此外，用户a还可以设置综合语音指令(例如“开始录制节目a”)。此时，该语音指令可以包括多个不同设备的语音指令的组合，以对多个不同的设备进行控制(开关或调整设备参数)，这些特定设置专用于节目a的录制需求。在一些实施例中，综合语音指令“开始录制节目a”可以包含以下语音指令：“打开主持人麦克风”“将嘉宾麦克风的音量调到50％”“将背景灯换成黄色”“将扬声器的音量调到20％”。
41.在一些实施例中，为了生成用户a的专用语音识别库a’，需要获取用户a的多条语音指令(针对同一设备或不同设备)的语音数据，然后需要将用户a的多条语音数据与用户身份的映射关系和该多条语音数据与控制指令的映射关系存入该专用语音识别库a’。以“打开主持人麦克风(开启到默认或由用户a设置的音量)”的语音指令为例，用户a需要多次重复录制该语音指令，例如可以重复录制该语音指令20次，应当理解的是这20条语音指令的语音数据包含相同的语义内容，但是在用户语气、语调、语速，周围环境噪声方面可能存在差异。这些语音数据将被存储在语音数据库中。以这样的方式，通过增加语音数据样本数量的方式，可以以减轻周围环境噪声、用户的语气、语调等对语音指令识别准确性的影响。
42.然后需要为该语音数据设立指示用户身份的身份标签(即身份标签：用户a)和指示控制指令的指令标签(即指令标签：主持人麦克风，打开)。示例性的语音指令还可以是“将主持人麦克风的音量调到50％(指最大音量的50％)”，在这样的实例中，在标签设立的环节可以为该语音指令的语音数据设立指示用户身份的身份标签(即身份标签：用户a)和指示控制指令的指令标签(即指令标签：主持人麦克风，音量50％)。
43.回到“打开主持人麦克风(开启到默认或由用户a设置的音量)”的语音指令的例子中，在完成标签设立后，将重复录制语音指令所得的语音数据(带有身份标签和指令标签)送入机器学习或神经网络模型以进行语音识别训练。该训练过程可以在本地进行，也可以在云服务器上进行。训练过程中将会提取语音数据中的特征，然后基于这些特征，经训练后可以得到该语音数据与用户身份(即身份标签：用户a)的映射关系和该语音指令与控制指令(即指令标签：主持人麦克风，打开)的映射关系。将该多个重复的语音指令进行语音识别训练后，实现了该语音数据(即“打开主持人麦克风”)与其对应的身份标签和指令标签的相互关联。上述的两个映射关系将被保存到语音识别库。当用户再次发出相同的语音指令时，系统可以通过语音识别库a’识别出该语音指令的语音数据所对应的身份标签和指令标签，从而识别出用户的身份以及用户的意图。
44.基于类似的方式，用户a还可以针对主持人麦克风录制其他的语音指令，或者针对其他设备录制语音指令从而扩充用户a的专用语音识别库a’。类似地，节目组b的用户b也可以以类似的方式配置其专用的语音识别库b’。应当注意，即使用户a和用户b在各自专用的语音识别库中设置了相同的语音指令，例如“将主持人麦克风的音量调到低水平”，该语音指令可以针对不同用户包含不同的设备参数。例如，对于用户a主持人麦克风的音量的最低水平为20％，对于用户b主持人麦克风的音量的最低水平为30％。
45.如本文所使用的，短语“相同的语音指令”是指内容相同的语音指令，但是其可以包含不同的环境噪音、该用户的不同语气、该用户的不同语调等。
46.在步骤206处，确定用户的身份是否为语音识别库中存储的多个用户身份之一。其中，语音识别库中存储的多个用户身份被授予权限以对演播室设备进行控制。
47.响应于确定所述用户的身份不为所述语音识别库中存储的所述多个用户身份中的任一个，执行步骤214，拒绝用户对演播室设备的控制。以这样的方式，可以避免无关人员对设备进行控制，提高了设备使用的安全性和隐私性。
48.响应于确定所述用户的身份为所述语音识别库中存储的多个用户身份之一，则执行步骤208至步骤212。
49.在步骤208处，从语音识别库中获取与语音数据对应的控制指令。该控制指令可以理解为上述的指令标签。如果未能从语音识别库中获取到与语音数据对应的控制指令，用户无法对演播室设备进行控制。
50.在步骤210处，获取与控制指令对应的控制方案。在一些实施例中，控制方案包括演播室设备的开关状态和参数数值，并且控制方案被存储在方案执行库中。在一些实施例中，控制方案包括为多个用户身份中的每一个用户身份所配置的专用控制方案。
51.下面结合一些实施例介绍生成包含控制方案的方案执行库的方法。再次以节目组a的用户a为例，介绍生成用户a的专用方案执行库a”的方法。在目标设备是主持人麦克风的情况下，用户a可以设置具体的控制方案。
52.在一些实施例中，用户a可以将主持人麦克风的打开状态设置为如下的控制方案，其包含用户标签(用户a)以及指令标签(主持人麦克风，打开)。该控制方案对应于前述的语音指令“打开主持人麦克风”，因此它们两者具有相同的用户标签和指令标签。
53.在另一些实施例中，用户a可以将主持人麦克风的音量为50％的状态设置为如下的控制方案，其包含用户标签(用户a)以及指令标签(主持人麦克风，音量50％)，该控制方案对应于前述的语音指令“将主持人麦克风的音量调到50％”，因此它们两者具有相同的用户标签和指令标签。
54.此外，用户a还可以设置抽象的控制方案，在一些实施例中，户a可以将主持人麦克风的音量为80％的状态设置为如下的控制方案，其包含用户标签(用户a)以及指令标签(主持人麦克风，高水平)，该控制方案对应于前述的语音指令“将主持人麦克风的音量调到高水平”。对于包括嘉宾麦克风、背景灯、扬声器在内的其他目标设备，用户a可以类似地设置具体的控制方案或抽象的控制方案。
55.此外，在一些实施例中，用户a还可以设置综合的控制方案。例如对应于前述的语音指令“开始录制节目a”，此时，该控制方案可以包括多个不同设备的特定设置(开关及设备参数)的组合，这些特定设置专用于节目a的录制需求。
56.基于类似的方式，用户a还可以针对主持人麦克风配置其他的控制方案，例如音调、音色的控制方案，或者针对其他设备配置控制方案从而扩充用户a的专用方案执行库a”。可以理解的是，当具有相同的指令标签时，专用方案执行库a”中的控制方案与专用语音识别库a’中的控制指令相互对应。
57.类似地，节目组b的用户b也可以以相同的方式配置其专用的专用方案执行库b”。应当注意，即使用户a和用户b在各自的专用方案执行库中设置了相同的设备参数(例如“主持人麦克风的音量为50％”)，该设备参数可以被配置为不同的控制方案。例如，对于用户a控制方案可以包含指令标签(主持人麦克风，高水平)，对于用户b控制方案可以包含指令标
签(主持人麦克风，低水平)。
58.在步骤212处，响应于获取到控制方案，基于控制方案对演播室设备进行控制。如果未能从方案执行库中获取到与控制指令对应的控制方案，用户无法对演播室设备进行控制。
59.根据上述的一些实施例，方法200至少可以实现以下的一些有利技术效果：
60.1)基于用户发出的语音指令对用户的身份进行判断，只允许具有权限的用户对演播室设备进行控制，因此可以防止无关人员对设备的误操作，从而提高了设备控制的安全性。
61.2)为特定的授权用户配置专用的语音识别库，该语音识别库包括语音数据与用户身份的映射关系和语音数据与控制指令的映射关系，因此可以基于所判断的用户身份使用与该用户对应的语音识别库获取与语音指令对应的控制指令，从而实现了不同用户对不同设备的个性化控制(即实现设备的专人专控)，避免了不同用户之间的指令干扰问题。
62.图3示出了根据本公开另一些示例性实施例的计算机实现的用于控制演播室设备的方法300的流程图。
63.参考图3，该方法300在前述的步骤212之后执行，并且包括以下步骤：
64.在步骤310处，响应于获取到控制方案，将语音数据加入语音数据库以更新语音数据库。
65.由于能够获取到控制方案，说明该语音数据能够被用于对演播室设备进行控制，因此属于有训练价值的样本数据。将该语音数据加入语音数据库后，更新后的语音数据库具有了更多的可用于语音识别训练的语音数据样本。
66.在步骤312处，发起使用更新后的语音数据库对语音识别库进行更新。
67.如本文所使用的，短语“实体a发起动作b”可以是指实体a发出执行动作b的指令，但实体a本身并不一定执行该动作b。也就是说，可以在本地进行更新，也可以由其他执行主体(例如云服务器)进行更新。
68.根据上述的一些实施例，方法200至少可以实现以下的一些有利技术效果：将能够获取到控制方案的音数据加入语音数据库，因此扩充了语音数据库中的语音数据样本数量。用更多的语音数据样本进行语音识别训练后，可以使得语音识别库中语音数据与用户身份的映射关系和该语音指令与控制指令的映射关系更加准确。也就是说，再下一次获取到相同的语音指令的语音数据时，可以使用语音识别库更准确地识别出用户的身份以及用户的意图。从而更好地实现演播室设备的专人专控。
69.图4示出了根据本公开的示例性实施例的对语音识别库进行更新的步骤312的示例过程流程图。
70.参考图4，该示例过程包括以下步骤：
71.在步骤410处，提取语音数据的特征，该特征指示用户身份和控制指令。
72.在步骤420处，基于特征对语音识别库中的语音数据与用户身份的映射关系进行更新。因此，借助更新后的语音识别库可以提升根据语音指令识别用户身份的准确性。
73.在步骤430处，基于特征对该语音识别库中的语音数据与控制指令的映射关系进行更新。因此，借助更新后的语音识别库可以提升根据语音指令识别控制指令的准确性。
74.根据上述的一些实施例，经过步骤410至430所得到的更新后的语音识别库中具有
更准确的语音数据与用户身份的映射关系和更准确的语音数据与控制指令的映射关系。通过用户的不断使用可以持续地将有训练价值的语音数据加入语音数据库，并使用不断更新的语音数据库对语音识别库进行更新，因此可以提高使用语音识别库识别用户并进行设备控制的准确率。
75.图5示出了根据本公开的示例性实施例的计算机实现的用于控制演播室设备的装置500的示意性框图。
76.如图5所示，装置500可以包括：第一模块510，用于获取表示用户发出的语音的语音数据；第二模块520，用于基于语音数据使用语音识别库识别用户的身份，其中，语音识别库包括语音数据与用户身份的映射关系和语音数据与控制指令的映射关系；第三模块530，用于响应于确定用户的身份为语音识别库中存储的多个用户身份之一，执行以下操作：从语音识别库中获取与语音数据对应的控制指令；获取与控制指令对应的控制方案；以及响应于获取到控制方案，基于控制方案对演播室设备进行控制；第四模块540，用于响应于确定用户的身份不为语音识别库中存储的多个用户身份中的任一个，拒绝用户对演播室设备的控制。
77.应当理解，图5中所示装置500的各个模块可以与参考图2描述的方法200或图3描述的方法300中的各个步骤相对应。由此，上面针对方法200和方法400描述的操作、特征和优点同样适用于装置500及其包括的模块。为了简洁起见，某些操作、特征和优点在此不再赘述。
78.根据本公开中的示例性实施例，提供了一种电子设备(例如下文参照图6描述的电子设备600)，电子设备应用于演播室集控系统(例如，图1中的演播室集控系统100)，包括：处理器(如下文参照图6描述的处理器602)；以及存储程序的存储器(如下文参照图6描述的存储器604)，程序包括指令，指令在由处理器执行时使处理器执行如本公开中所述的方法。
79.根据本公开中的示例性实施例，提供了一种存储程序的非暂态计算机可读存储介质(如下文参照图6描述的大容量存储装置612或其他类型的存储介质)，程序包括指令，指令在由一个或者多个处理器(如下文参照图6描述的处理器602)执行时，致使一个或者多个处理器执行根据如本公开中所述的方法。
80.根据本公开中的示例性实施例，提供了一种计算机程序产品，包括计算机程序，其中，该计算机程序被处理器执行时实现如本公开中所述的方法的步骤。
81.下面结合图6来描述这样的电子设备、计算机可读存储介质和计算机程序的示例。
82.图6示出了根据本公开的示例性实施例的计算机实现的用于控制演播室设备的电子设备600的示意性框图。
83.电子设备600可以是各种不同类型的设备，例如服务提供商的服务器、与客户端(例如，客户端设备)相关联的设备、片上系统、和/或任何其它合适的电子设备或计算系统。电子设备600的示例包括但不限于：台式计算机、服务器计算机、笔记本电脑或上网本计算机、移动设备(例如，平板电脑或者phablet设备、蜂窝或其他无线电话(例如，智能电话)、记事本计算机、移动台)、可穿戴设备(例如，眼镜、手表)、娱乐设备(例如，娱乐器具、通信地耦合到显示设备的机顶盒、游戏机)、电视或其他显示设备、汽车计算机等等。因此，电子设备600的范围可以从具有大量存储器和处理器资源的全资源设备(例如，个人计算机、游戏控制台)到具有有限的存储器和/或处理资源的低资源设备(例如，传统的机顶盒、手持游戏控
802.11无线lan(wlan))无线接口、全球微波接入互操作(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、bluetoothtm接口、近场通信(nfc)接口等。通信接口606可以促进在多种网络和协议类型内的通信，其中包括有线网络(例如lan、电缆等等)和无线网络(例如wlan、蜂窝、卫星等等)、因特网等等。通信接口606还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置(未示出)的通信。
92.在一些示例中，可以包括诸如监视器之类的显示设备608，以用于向用户显示信息和图像。其他i/o设备610可以是接收来自用户的各种输入并且向用户提供各种输出的设备，并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。
93.虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：殷元江
技术所有人：北京七维视觉科技有限公司
我是此专利的发明人

上一篇：一种基于物联网的自动化消防隔离门的制作方法
上一篇：基于低功耗视频的SRAM架构、数据读写方法及装置与流程