语音控制方法、装置、计算机设备及计算机可读存储介质与流程

文档序号:32609909发布日期:2022-12-20 19:27阅读:69来源:国知局
语音控制方法、装置、计算机设备及计算机可读存储介质与流程

1.本技术涉及语音控制技术领域,具体涉及一种语音控制方法、装置、计算机设备及计算机可读存储介质。


背景技术:

2.建筑信息模型(building information modeling,bim),是一种建筑行业管理信息系统,基于智能三维模型的流程,能够使工程建设专业人员获取相关洞察分析和工具,从而更高效地规划、设计、构建和管理建筑及基础设施。在智慧园区中,bim系统可以作为园区信息展示的主要媒介,将园区的各种信息融合到bim系统,将系统置于园区大屏中显示,能够以bim系统作为信息中台,查询和控制园区,达到一站式控制和管理。
3.传统的智慧园区bim系统控制方法,主要包括键鼠控制和触屏控制这两种方式,但因其存在点选效率低、跨场景操作困难等缺点,逐渐被结合有语音识别技术的智慧园区bim系统所替代。然而,这类可应用于智慧园区bim系统的语音控制方法,虽然能够解决系统操作困难等问题,但仍难以应对园区和bim系统中复杂的专业词汇,致使用户语音输入的意图时常无法被准确判定,成为语音控制技术应用智慧园区bim系统的一项挑战。
4.因此,现有可应用于智慧园区bim系统的语音控制方法存在语音识别准确率低的技术问题。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种语音控制方法、装置、计算机设备及计算机可读存储介质,用以提高语音识别准确率、提升bim系统的控制效率及鲁棒性。
6.第一方面,本技术提供一种语音控制方法,包括:
7.获取用户音频信号;
8.对用户音频信号进行语音意图识别,得到意图类别信息和关键词信息;
9.对意图类别信息和关键词信息进行参数化映射处理,得到处理后的意图类别信息和处理后的关键词信息,处理后的意图类别信息和处理后的关键词信息用于对目标系统进行控制。
10.在本技术一些实施例中,对意图类别信息和关键词信息进行参数化映射处理,得到处理后的意图类别信息和处理后的关键词信息的步骤,包括:对意图类别信息进行参数化映射处理,得到预存的至少一个候选控制函数中的目标控制函数;对关键词信息进行参数化映射处理,得到预存的至少一个候选词标识中的目标词标识;将目标控制函数作为处理后的意图类别信息,以及,将目标词标识作为处理后的关键词信息。
11.在本技术一些实施例中,获取用户音频信号的步骤,包括:获取音频信号;对音频信号进行降噪处理,得到降噪后的音频信号;基于预设的自适应滤波算法,对降噪后的音频信号中的回声信号进行滤波处理,得到用户音频信号。
12.在本技术一些实施例中,对用户音频信号进行语音意图识别,得到意图类别信息
和关键词信息的步骤,包括:将用户音频信号输入至语音识别模型,得到音频文字信息;基于预设的文字映射对照表,获取音频文字信息对应的有效文字信息;将有效文字信息输入至意图识别模型,得到意图类别信息和关键词信息。
13.在本技术一些实施例中,语音识别模型包括第一识别模型和第二识别模型,将用户音频信号输入至语音识别模型,得到音频文字信息的步骤,包括:将用户音频信号输入至第一识别模型,得到拼音文字信息;其中,第一识别模型利用预先采集到的多个音频作为训练输入、多个音频分别进行拼音转换后得到的音频拼音作为目标输出,进行反向传播训练得到;将拼音文字信息输入至第二识别模型,得到音频文字信息。
14.在本技术一些实施例中,第一识别模型包括卷积模块、循环神经网络模块和全连接模块,将用户音频信号输入至第一识别模型,得到拼音文字信息的步骤,包括:将用户音频信号输入至第一识别模型,通过卷积模块提取用户音频信号中的音频特征,并获取音频特征对应的编码特征;通过循环神经网络模块对编码特征进行循环卷积序列处理,得到时序特征;通过全连接模块整合时序特征,得到拼音文字信息。
15.第二方面,本技术还提供一种语音控制方法,包括:
16.接收音频信号采集触发指令;
17.响应于音频信号采集触发指令,获取音频信号;
18.根据音频信号,获取处理后的意图类别信息和处理后的关键词信息;
19.基于处理后的意图类别信息和处理后的关键词信息,对目标系统进行控制。
20.在本技术一些实施例中,响应于音频信号采集触发指令,获取音频信号的步骤,包括:响应于音频信号采集操作指令;若音频信号采集操作指令为语音唤醒指令,则获取唤醒词,并在检测到唤醒词与预设的有效唤醒词相匹配之后,获取对应的音频信号;若音频信号采集操作指令为按键输入指令,则在检测到预置的语音输入按键被触发之后,获取对应的音频信号;若音频信号采集操作指令为语音识别指令,则获取待识别的音频帧,并筛选出不包含静默帧的音频帧,作为对应的音频信号。
21.在本技术一些实施例中,基于处理后的意图类别信息和处理后的关键词信息,对目标系统进行控制,包括:基于处理后的意图类别信息,确定目标控制函数;调用目标控制函数,并将处理后的关键词信息作为目标控制函数的信息输入,控制目标系统。
22.第三方面,本技术提供一种语音控制装置,包括:
23.信号获取模块,用于获取用户音频信号;
24.意图识别模块,用于对用户音频信号进行语音意图识别,得到意图类别信息和关键词信息;
25.参数处理模块,用于对意图类别信息和关键词信息进行参数化映射处理,得到处理后的意图类别信息和处理后的关键词信息,处理后的意图类别信息和处理后的关键词信息用于对目标系统进行控制。
26.第四方面,本技术还提供一种语音控制装置,包括:
27.指令接收模块,用于接收音频信号采集触发指令;
28.指令响应模块,用于响应于音频信号采集触发指令,获取音频信号;
29.信号发送模块,用于根据音频信号,获取处理后的意图类别信息和处理后的关键词信息;
30.系统控制模块,用于基于处理后的意图类别信息和处理后的关键词信息,对目标系统进行控制。
31.第五方面,本技术还提供一种计算机设备,包括:
32.一个或多个处理器;
33.存储器;以及一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现所述的语音控制方法。
34.第七方面,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的语音控制方法中的步骤。
35.第八方面,本技术实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面和/或第二方面提供的方法。
36.上述语音控制方法、装置、计算机设备及计算机可读存储介质,服务器通过对用户音频信号进行语音意图识别,可得到系统控制所需的意图类别信息和关键词信息,此时再进一步对意图类别信息和关键词信息进行参数化映射处理,即可得到系统控制指令如处理后的意图类别信息和处理后的关键词信息,进而实现对目标系统的精确控制。本技术提供的语音控制方法,通过识别音频信号中所包含的意图和关键词,并对意图和关键词进行参数化映射处理,使得音频信号可精确匹配上用于系统控制的控制函数,相比传统利用语音识别关键词进行系统控制的单一性方法,本技术提高了语音识别准确率、提升了系统控制可靠性。
附图说明
37.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
38.图1是本技术实施例中语音控制方法的场景示意图;
39.图2是本技术实施例中语音控制方法的流程示意图;
40.图3是本技术实施例中另一个语音控制方法的流程示意图;
41.图4是本技术实施例中语音控制装置的结构示意图;
42.图5是本技术实施例中另一个语音控制装置的结构示意图;
43.图6是本技术实施例中计算机设备的结构示意图。
具体实施方式
44.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
45.在本技术的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗
示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
46.在本技术的描述中,术语“例如”一词用来表示“用作例子、例证或说明”。本技术中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本技术所公开的原理和特征的最广范围相一致。
47.本技术实施例提供一种语音控制方法、装置、计算机设备及计算机可读存储介质,以下分别进行详细说明。
48.参阅图1,图1为本技术提供的语音控制方法的场景示意图,该语音控制方法可应用于语音控制系统中。其中,语音控制系统包括终端100和服务器200。终端100可以是既包括接收和发射硬件的设备,即具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。终端100具体可以是台式终端或移动终端,终端100具体还可以是手机、平板电脑、笔记本电脑等中的一种。服务器200可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(cloud computing)的大量计算机或网络服务器构成。
49.本领域技术人员应该理解,图1中示出的应用环境,仅仅是适用于本技术方案的一种应用场景,并不构成对本技术方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的计算机设备,例如图1中仅示出一个服务器200,可以理解的是,该语音控制系统还可以包括一个或多个其他服务器,或者一个或多个其他终端,具体此处不作限定。另外,该语音控制系统还可以包括存储器,用于存储数据,如存储音频数据。
50.本领域技术人员应该理解,图1所示的语音控制系统的场景示意图仅仅是一个示例,本发明实施例描述的语音控制系统以及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着语音控制系统的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
51.参阅图2,本技术实施例提供了一种语音控制方法,主要以该方法应用于上述图1中的服务器200来举例说明,该方法包括步骤s201至s203,具体如下:
52.s201,获取用户音频信号。
53.其中,用户音频信号可以是指带有用户声波频率、幅度变化的信息载体。
54.首先需要说明的是,本技术实施例应用的服务器200,可以是脱离于语音识别系统的远程服务器,也可以是与终端100共同组成语音控制系统的服务器,具体选择可视实际应用需求确定。但下文将从节省系统本地计算资源的角度出发,描述服务器200为远程服务器时的语音控制步骤。本技术实施例待控制的目标系统,可以是bim系统。
55.具体地,服务器200获取bim系统的控制指令之前,首先需获取用户音频信号,该用户音频信号可以是通过以下方式获得:(1)从终端100处获取,由终端100将采集到的用户音频信号发送至服务器200;(2)从同级服务器同步获取,即多个服务器和/终端可作为区块链节点构成区块链系统,例如公有链系统或私有链系统,虽然这两种区块链系统基本属性不同(公有链存储信息不可篡改、私有链存储信息可篡改),但相同的是存储在任意一个节点服务器处的音频信号,均可被系统内其他节点服务器请求获取;(3)从上级服务器请求得到,或是从下级服务器轮询得到,即多个服务器存在上下级关系,上级服务器更新数据之后下级服务器可实时请求获取,下级服务器更新数据之后上级服务器可定时轮询获取。
56.可以理解的是,上述公有链系统、私有链系统、请求获取方式或轮询获取方式的选取,可依据实际应用需求确定,本技术实施例不做具体限定。
57.此外,上述示例提供的用户音频信号获取方式,虽然是针对用户音频信号而言的,但不排除该用户音频信号是服务器200基于原始信号进行处理得到,而原始信号是通过上述示例提供的三种方式从其他设备获取得到。本实施例中涉及的用户音频信号获取步骤将在下文详细说明。
58.在一个实施例中,本步骤包括:获取音频信号;对音频信号进行降噪处理,得到降噪后的音频信号;基于预设的自适应滤波算法,对降噪后的音频信号中的回声信号进行滤波处理,得到用户音频信号。
59.其中,音频信号可以是指带有语音、音乐和/或音效的、有规律的声波的频率、幅度变化信息载体。
60.具体地,本实施例说明的方案即为上一个实施例提及的方案:用户音频信号是服务器200基于原始信号处理得到,而原始信号即为本实施例中提及的音频信号。也即是说,服务器200在获取用户音频信号进行分析之前,首先从终端100处获取到了音频信号,该音频信号可以是终端100实时发送的,也可以是服务器200定时获取的,还可以是通过中央服务器定时查询得到。服务器200获取到音频信号之后,为了对其进行语音识别以执行对bim系统的可靠控制,需要对音频信号进行预处理,包括降噪处理和滤波处理,以获取后续分析所需的用户音频信号。
61.进一步地,服务器200获取到音频信号之后,为确保语音识别准确率以及bim系统控制可靠性,首先需对音频信号进行降噪处理,消除环境噪声,提高信噪比,如采用最小均方算法(least mean square,lms)、递推最小二乘算法(recursive least squares method,rls)等自适应滤波算法进行降噪,或是采用基于qr分解的自适应rls(recursive least squares based on qr decomposition,qr-rls)算法,即平方根自适应滤波算法进行降噪,得到降噪后的音频信号。
62.进一步地,服务器200获取到降噪后的音频信号之后,为避免回声干扰而影响语音识别效果,故还需对降噪后的音频信号进行回声消除。针对回声消除,本实施例提出模拟回声产生的信道环境进行消除,即设计一个参数可调的滤波器,通过自适应算法(lms算法)来调整滤波器的迭代更新系数,估计出一个期望信号模拟回声信号,然后从降噪后的音频信号中减去这个模拟回声,即可达到回声消除的目的。
63.需要说明的是,本实施例提出的参数可调的滤波器,参数可调的意义在于对滤波器的输入信号进行处理并迭代学习,使得滤波器达到期望值而实现有效滤波。其中,滤波器
的迭代学习首先需设置目标函数为误差信号,即设置目标为最小化误差,多次迭代优化滤波器,得到最优的滤波器输出,实现回音消除。
64.s202,对用户音频信号进行语音意图识别,得到意图类别信息和关键词信息。
65.其中,意图类别信息可以是指适用于bim系统控制的意图信息,合计包括至少四类:

设备控制类、

页面及模型控制类、

子系统查询类、

导航类。
66.其中,关键词信息可以是对应各个意图类别设置的词槽关键词,词槽可以是指信息查询需要的条件,例如,“查询天气”需要获得时间和地点两个条件,则“时间”和“地点”即称为词槽。本实施例中涉及的关键词同样包括四类:

对应于“设备控制类”的控制方式、位置、设备名称等;

对应于“页面及模型控制类”的模型名称或页面名称等;

对应于“子系统查询类”的控制方法,子系统名称等;

对应于“导航类”的目的地等。
67.具体地,服务器200获取到用户音频信号之后,可采用已训练的神经网络模型对用户音频信号进行语音识别,得到用户音频信号对应的语音识别文本。进而对该语音识别文本进行意图识别,得到相互关联的意图类别信息和关键词信息,即可确定用户想要如何控制bim系统。例如,想要控制其某个设备、建筑三维信息、bim大屏页面、子系统信息数据库或是导航算法等子模块,而关键词信息可作为控制对象。本实施例中涉及的语音识别步骤和意图识别步骤,将分别在下文进行详细说明。
68.在一个实施例中,本步骤包括:将用户音频信号输入至语音识别模型,得到音频文字信息;基于预设的文字映射对照表,获取音频文字信息对应的有效文字信息;将有效文字信息输入至意图识别模型,得到意图类别信息和关键词信息。
69.其中,语音识别模型可以是采用deepspeech2结构的神经网络模型,用于将用户音频信号转换为音频文字信息,也即是上文提及的语音识别文本。
70.其中,文字映射对照表可以是包含错误文字与正确文字的对照表,错误文字与正确文字采用一对一的方式对照映射,用于供服务器200作用于音频文字信息进行查缺补漏。
71.其中,意图识别模型可以是一个语言表征模型,例如,bert(bidirectional encoder representations from transformer)模型。
72.具体地,服务器200需要获取的意图类别信息和关键词信息,并非是直接通过某一个算法或模型分析得到,而是顺序调用语音识别模型、文字映射对照表以及意图识别模型分析得到。其中,语音识别模型用于将用户音频信号转换为音频文字信息(语音识别文本),得到可深入分析的文字翻译信息。该信息原本可以再输入至意图识别模型进行意图识别,但由于各个意图类别信息对应的关键词信息(也称词槽)是有限个词组,直接输入会导致意图识别错误,例如,“shenme”可以被识别为“什么”,也可以被识别为“甚么”,甚至等等,若是在前序步骤中识别到音频文字信息为错误的“甚么”,那么极有可能会导致用户意图分析出错。所以,针对这类不可避免的语音错误识别情况,本技术实施例提出,采用文字映射对照表,将音频文字信息中的错误文字映射到正确文字,修正音频文字信息得到有效文字信息。
73.由此,意图识别模型即可将有效文字信息进行意图分类,并找出词槽关键词,得到意图类别信息和关键词信息,实现语音到专用词槽的精准映射,从而解决了现有语音控制技术难以应对bim系统中复杂专业词汇的问题,还改善了用户语音控制意图难以被准确判定,而导致系统控制有误的情况。最终,有效提高了语音识别准确率以及系统控制可靠性。
74.更具体地,调用语音识别模型进行的语音识别步骤将在下文详细说明,本段将重
点解释文字映射步骤的设置目的:考虑到实际应用中的词槽关键词是有限个词组,而在调用语音识别模型进行语音识别之后,可能会有错误识别的情况,因此提出设置二次映射步骤改善语音识别效果,即提高语音识别准确率。所谓“二次映射”是将错误的识别结果映射到正确的文字上。例如,“摄像头”这个关键词有时候会识别成“摄像统”,故此需要将“摄像统”二次映射到“摄像头”上,初步改善音频文字信息的正确率。
75.进一步地,bert模型的输入是有效文字信息,输出是意图类别信息和关键词信息。例如,有效文字信息为“从这里去五号楼六楼怎么走”,意图类别信息就是上文所述的

导航类,对应的关键词信息就是目的地“五号楼六楼”。
76.在一个实施例中,语音识别模型包括第一识别模型和第二识别模型,将用户音频信号输入至语音识别模型,得到音频文字信息的步骤,包括:将用户音频信号输入至第一识别模型,得到拼音文字信息;其中,第一识别模型利用预先采集到的多个音频作为训练输入、多个音频分别进行拼音转换后得到的音频拼音作为目标输出,进行反向传播训练得到;将拼音文字信息输入至第二识别模型,得到音频文字信息。
77.其中,第一识别模型可以是声音模型,主要用于将用户音频信号转换为带有声调的拼音,即用于获取拼音文字信号;第二识别模型可以是语言模型,主要用于将拼音对应到中文文字删,即用于获取音频文字信息。
78.具体地,服务器200利用第一识别模型和第二识别模型获取音频文字信息,首先需进行模型训练,使其具备分析能力。本实施例提出,本技术用于训练第一识别模型的数据是通过笛卡尔积算法预先采集到的多个音频信息,且多个音频信息是基于上文所述的四类意图有针对性的采集得到。同时,多个音频信息从时间扭曲、时间掩码和频谱掩码三个方向进行了数据扩展(也称数据增强或数据拓展),即轻微改变了音频扩充了样本数量。
79.例如,基于时间扭曲在图像水平直线上进行随机拉平移,基于时间掩码对音频某一个分段进行消除,基于频谱掩码抹除某个时间段的音频。
80.更具体地,服务器200利用训练后的第一识别模型分析用户音频信号,得到拼音文字信息之后,即可调用第二识别模型分析音频文字信息。在本实施例中,第二识别模型可采用隐马尔可夫模型(hidden markov model,hmm),hmm模型的作用是做到词组匹配更合理。
81.例如,带有声调的拼音文字信息“shen2 me5”对应的文字是“什么”,如果直接做表映射可能得到“甚么”等错误识别结果,而hmm模型会对前一个或两个字进行组合后计算一个概率,如第一个是“什”,第二个是“me5”会有更大概率匹配到“么”字,基于概率分析最终结果,可提升音频文字信息的识别准确率,进而提升语音识别准确率。
82.在一个实施例中,第一识别模型包括卷积模块、循环神经网络模块和全连接模块,将用户音频信号输入至第一识别模型,得到拼音文字信息的步骤,包括:将用户音频信号输入至第一识别模型,通过卷积模块提取用户音频信号中的音频特征,并获取音频特征对应的编码特征;通过循环神经网络模块对编码特征进行循环卷积序列处理,得到时序特征;通过全连接模块整合时序特征,得到拼音文字信息。
83.其中,卷积模块的卷积层数量可以是“2”、循环神经网络模块的循环神经网络层数量可以是“3”、全连接模块的全连接层数量可以是“1”。
84.具体地,服务器200将用户音频信号输入至第一识别模型中后,第一识别模型中的卷积模块首先对用户音频信号进行特征提取,得到音频特征,并对音频特征进行非线性编
码,得到编码特征。由于语音信号的输入输出序列之间具有高度相关性,因此由循环神经网络模块对编码特征进行循环卷积的序列处理,使得编码特征具有时序关联性,得到时序特征。最后将时序特征输入到全连接模块,由全连接模块整合前两个网络模块到编码特征并加以区分,将特征映射到带有声调的拼音中,得到拼音文字信息,完成语音识别。
85.s203,对意图类别信息和关键词信息进行参数化映射处理,得到处理后的意图类别信息和处理后的关键词信息,处理后的意图类别信息和处理后的关键词信息用于对目标系统进行控制。
86.其中,参数化设计是将工程编写为函数的过程,而本技术实施例涉及的参数化映射处理,可以是从信息条件到目标函数的查询处理过程。
87.具体地,服务器200获取到意图类别信息和关键词信息之后,为了实现对bim系统的控制,还需进一步确定能够执行相应控制的程序,而该各类程序被预先配置为了控制函数,服务器200分析意图类别信息和关键词信息确定了目标控制函数,即可促使终端100调用该目标控制函数执行响应控制步骤。因此,服务器200需将意图类别信息和关键词信息进行参数化映射处理,获取锁定目标控制函数所需的信息条件,即处理后的意图类别信息和处理后的关键词信息,进而将该信息条件发送至终端100。
88.在一个实施例中,本步骤包括:对意图类别信息进行参数化映射处理,得到预存的至少一个候选控制函数中的目标控制函数;对关键词信息进行参数化映射处理,得到预存的至少一个候选词标识中的目标词标识;将目标控制函数作为处理后的意图类别信息,以及,将目标词标识作为处理后的关键词信息。
89.具体地,服务器200预存有至少一个候选控制函数和至少一个候选词标识,各个候选控制函数可被调用执行一项控制任务,各个候选词标识对应一个关键词,服务器200将获取到的意图类别信息进行参数化映射处理,即可在至少一个候选控制函数中查询确定目标控制函数。同时,将获取到的关键词信息进行参数化映射处理,即可在至少一个候选词标识中查询确定目标词标识。最终,得到处理后的意图类别信息和处理后的关键词信息。
90.例如,上文提及本技术涉及四个类别的意图,因此控制函数(function)也包括四种,而关键词数量比较多,且对不同的意图有不同的关键词,因此本技术提出使用多个映射表来进行参数化,也就是把关键词信息与其全局唯一的标识绑定。比如,意图类别信息为“页面跳转”,对应的关键词信息是“首页”,此时可以调用控制函数function_two(uuid=0),这样就把一个音频内容映射到函数上了,终端100锁定该目标控制函数以及目标词标识,即可执行满足于用户需求的控制步骤。
91.具体地,服务器200获取到处理后的意图类别信息,以及处理后的关键词信息,即可将这两个信息发送至终端100,以供终端100在接收到信息之后查询获取目标控制函数和目标词标识,进而将目标词标识作为目标控制函数的输入,执行用户音频信号中提供的控制指令步骤。
92.此外,服务器200除了将处理后的意图类别信息和处理后的关键词信息发送至终端100之后,还可采用语音合成技术(text to speech,tts)获取音频文字信息对应的语音,进而将该语音反馈至终端100播放。
93.上述实施例所述的语音控制方法,服务器通过对用户音频信号进行语音意图识别,可得到系统控制所需的意图类别信息和关键词信息,此时再进一步对意图类别信息和
关键词信息进行参数化映射处理,即可得到系统控制指令如处理后的意图类别信息和处理后的关键词信息,,进而实现对目标系统的精确控制。本技术提供的语音控制方法,通过识别音频信号中所包含的意图和关键词,并对意图和关键词进行参数化映射处理,使得音频信号可精确匹配上用于系统控制的控制函数,相比传统利用语音识别关键词进行系统控制的单一性方法,本技术提高了语音识别准确率、提升了系统控制可靠性。
94.参阅图3,本技术实施例还提供了另一种语音控制方法,主要以该方法应用于上述图1中的终端100来举例说明,该方法包括步骤s301至s304,具体如下:
95.s301,接收音频信号采集触发指令。
96.其中,音频信号采集触发指令可以是语音唤醒指令、按键输入指令、语音识别指令中的任意一个。
97.具体地,终端100运行有bim系统,可控制bim系统的设备、建筑三维信息、bim大屏页面、子系统信息数据库、导航算法等子模块,但在响应用户指令执行相应控制之前,可采集用户发出的语音控制音频,而该语音控制音频可在检测并接收到音频信号采集触发指令时开始采集。因此,基于实际业务需求,可将音频信号采集触发指令设为语音唤醒指令、按键输入指令、语音识别指令中的任意一个,用于触发终端100启用音频采集功能。
98.s302,响应于音频信号采集触发指令,获取音频信号。
99.具体地,终端100接收到音频信号采集触发指令之后,可响应该指令,获取能够指示bim系统执行相应控制的音频信号,而该音频信号即为上文提及的用户发出的语音控制音频。本实施例中涉及的音频信号获取步骤将在下文详细说明。
100.在一个实施例中,本步骤包括:响应于音频信号采集操作指令;若音频信号采集操作指令为语音唤醒指令,则获取唤醒词,并在检测到唤醒词与预设的有效唤醒词相匹配之后,获取对应的音频信号;若音频信号采集操作指令为按键输入指令,则在检测到预置的语音输入按键被触发之后,获取对应的音频信号;若音频信号采集操作指令为语音识别指令,则获取待识别的音频帧,并筛选出不包含静默帧的音频帧,作为对应的音频信号。
101.具体地,终端100中可预置有至少一个有效唤醒词,如“你好园区”,当其采集到包含用户发出的唤醒词,并判定该唤醒词与有效唤醒词相匹配之后,即可开始采集用户后续发出的语音,作为当前所需的音频信号。
102.更具体地,终端100具有一个交互界面,交互界面中显示有一个虚拟按钮,用户长按触发该虚拟按钮后,终端100即可在按钮被按期间采集用户发出的语音,直至按钮不再被按后,判定当前采集到的语音作为后续所需的音频信号。
103.进一步地,终端100可实时采集周围环境发出的声音,并将该声音划分为音频帧后提取音频特征,进而识别分类出音频特征中的语音帧和静默帧,最终提取出语音帧作为后续所需的音频信号。
104.例如,一段声波曲线中的波峰部分可被判定为语音帧,而平滑部分可被判定为静默帧,截取波峰部分的声波即可得到当前所需的音频信号。
105.s303,根据音频信号,获取处理后的意图类别信息和处理后的关键词信息。
106.具体地,为了节省本地资源以及存储空间,终端100可将采集到音频信号发送至服务器200,以使服务器200根据音频信号获取用户音频,进而基于用户音频信号获取并反馈处理后的意图类别信息,以及处理后的关键词信息。本实施例涉及的信息反馈步骤已在上
文详细说明,在此不再赘述。
107.s304,基于处理后的意图类别信息和处理后的关键词信息,对目标系统进行控制。
108.在一个实施例中,在本步骤之后,还包括:基于处理后的意图类别信息,确定目标控制函数;调用目标控制函数,并将处理后的关键词信息作为目标控制函数的信息输入,控制目标系统。
109.具体地,终端100接收到服务器200反馈的处理后的意图类别信息,以及处理后的关键词信息之后,分析方式同服务器200分析方式一致,即基于处理后的意图类别信息确定目标控制函数,基于处理后的关键词信息确定目标词标识,进而调用目标控制函数执行关于目标词标识的控制逻辑,即可满足用户需求执行用户指示的目标系统(如bim系统)控制,包括但不限于对设备、页面、模型等进行控制,以及信息查询、导航展示等控制。
110.上述实施例所述的语音控制方法,终端通过接收并响应音频信号采集触发指令,可进一步获取音频信号,进而利用音频信号获取可精准控制目标系统的信息,不仅节省了本地资源,还强化了音频分析结果的可靠性与稳定性,使得目标系统的控制精准度更高。
111.为了更好实施本技术实施例中的语音控制方法,在语音控制方法基础之上,本技术实施例中还提供一种语音控制装置,如图4所示,该用于目标系统的语音控制400包括:
112.信号获取模块410,用于获取用户音频信号;
113.意图识别模块420,用于对用户音频信号进行语音意图识别,得到意图类别信息和关键词信息;
114.参数处理模块430,用于对意图类别信息和关键词信息进行参数化映射处理,得到处理后的意图类别信息和处理后的关键词信息,处理后的意图类别信息和处理后的关键词信息用于对目标系统进行控制。
115.在本技术一些实施例中,信号获取模块410还用于获取音频信号;对音频信号进行降噪处理,得到降噪后的音频信号;基于预设的自适应滤波算法,对降噪后的音频信号中的回声信号进行滤波处理,得到用户音频信号。
116.在本技术一些实施例中,意图识别模块420还用于将用户音频信号输入至语音识别模型,得到音频文字信息;基于预设的文字映射对照表,获取音频文字信息对应的有效文字信息;将有效文字信息输入至意图识别模型,得到意图类别信息和关键词信息。
117.在本技术一些实施例中,语音识别模型包括第一识别模型和第二识别模型,意图识别模块420,还用于将用户音频信号输入至第一识别模型,得到拼音文字信息;其中,第一识别模型利用预先采集到的多个音频作为训练输入、多个音频分别进行拼音转换后得到的音频拼音作为目标输出,进行反向传播训练得到;将拼音文字信息输入至第二识别模型,得到音频文字信息。
118.在本技术一些实施例中,第一识别模型包括卷积模块、循环神经网络模块和全连接模块,意图识别模块420,还用于将用户音频信号输入至第一识别模型,通过卷积模块提取用户音频信号中的音频特征,并获取音频特征对应的编码特征;通过循环神经网络模块对编码特征进行循环卷积序列处理,得到时序特征;通过全连接模块整合时序特征,得到拼音文字信息。
119.在本技术一些实施例中,参数处理模块430,还用于对意图类别信息进行参数化映射处理,得到预存的至少一个候选控制函数中的目标控制函数;对关键词信息进行参数化
映射处理,得到预存的至少一个候选词标识中的目标词标识;将目标控制函数作为处理后的意图类别信息,以及,将目标词标识作为处理后的关键词信息。
120.上述实施例中,服务器通过对用户音频信号进行语音意图识别,可得到系统控制所需的意图类别信息和关键词信息,此时再进一步对意图类别信息和关键词信息进行参数化映射处理,即可得到系统控制指令如处理后的意图类别信息和处理后的关键词信息,进而实现对目标系统的精确控制。本技术提供的语音控制方法,通过识别音频信号中所包含的意图和关键词,并对意图和关键词进行参数化映射处理,使得音频信号可精确匹配上用于系统控制的控制函数,相比传统利用语音识别关键词进行系统控制的单一性方法,本技术提高了语音识别准确率、提升了系统控制可靠性。
121.为了更好实施本技术实施例中的语音控制方法,在语音控制方法基础之上,本技术实施例中还提供了另一种语音控制装置,如图5所示,该用于目标系统的语音控制500包括:
122.指令接收模块510,用于接收音频信号采集触发指令;
123.指令响应模块520,用于响应于音频信号采集触发指令,获取音频信号;
124.信号发送模块530,用于根据音频信号,获取处理后的意图类别信息和处理后的关键词信息;
125.系统控制模块540,用于基于处理后的意图类别信息和处理后的关键词信息,对目标系统进行控制。
126.在本技术一些实施例中,指令响应模块520还用于响应于音频信号采集操作指令;若音频信号采集操作指令为语音唤醒指令,则获取唤醒词,并在检测到唤醒词与预设的有效唤醒词相匹配之后,获取对应的音频信号;若音频信号采集操作指令为按键输入指令,则在检测到预置的语音输入按键被触发之后,获取对应的音频信号;若音频信号采集操作指令为语音识别指令,则获取待识别的音频帧,并筛选出不包含静默帧的音频帧,作为对应的音频信号。
127.在本技术一些实施例中,系统控制模块540,用于基于处理后的意图类别信息,确定目标控制函数;调用目标控制函数,并将处理后的关键词信息作为目标控制函数的信息输入,控制目标系统。
128.上述实施例中,终端通过接收并响应音频信号采集触发指令,可进一步获取音频信号,进而利用音频信号获取可精准控制目标系统的信息,不仅节省了本地资源,还强化了音频分析结果的可靠性与稳定性,使得目标系统的控制精准度更高。
129.关于语音控制装置的具体限定可以参见上文中对于语音控制方法的限定,在此不再赘述。上述语音控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
130.在本技术一些实施例中,语音控制装置400可以实现为一种计算机程序的形式,计算机程序可在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成该语音控制装置400的各个程序模块,比如,图4所示的信号获取模块410、意图识别模块420以及参数处理模块430。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本技术各个实施例的语音控制方法中的步骤。
131.例如,图6所示的计算机设备可以通过如图4所示的语音控制装置400中的信号获取模块410执行步骤s201。计算机设备可通过意图识别模块420执行步骤s202。计算机设备可通过参数处理模块430执行步骤s203。。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现一种语音控制方法。
132.本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
133.在本技术一些实施例中,提供了一种计算机设备,包括一个或多个处理器;存储器;以及一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述语音控制方法的步骤。此处语音控制方法的步骤可以是上述各个实施例的语音控制方法中的步骤。
134.在本技术一些实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器进行加载,使得处理器执行上述语音控制方法的步骤。此处语音控制方法的步骤可以是上述各个实施例的语音控制方法中的步骤。
135.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
136.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
137.以上对本技术实施例所提供的一种语音控制方法、装置、计算机设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1