基于语音自动识别的对讲机实现系统及方法与流程

文档序号：17846579发布日期：2019-06-11 21:47阅读：677来源：国知局

本发明涉及对讲机领域，特别涉及基于语音自动识别的对讲机实现系统及方法。

背景技术：

对讲机的英文名称是twowayradio，它是一种双向移动通信工具，在不需要任何网络支持的情况下，就可以通话，没有话费产生，适用于相对固定且频繁通话的场合。对讲机目前有三大类:模拟对讲机、数字对讲机、ip对讲机。

传统的对讲机都是通过广播的方式，来将一定范围内的处于同一频段的对讲机建立分组，或者通过加密码的方式建立分组。对于公网对讲机，是通过对讲服务器来将指定的对讲设备分组，分组内的对讲设备可以进行对讲，所有的控制都是由对讲服务器来完成。

但是，现有技术在实现对对讲机的管理时，存在有如下缺陷：只能人工手动控制对讲机、人工手动进行分组管理等，而无法实现对讲机的智能控制；而通过远程平台来创建或者调整分组，则无法实现开机即用；同时，在操作对讲机(如调节音量等)时，需要人工手动进行调节，而此时如果操作人正在执行其它操作(例如在开车)，将会带来不便。

技术实现要素：

本发明要解决的技术问题之一，在于提供一种基于语音自动识别的对讲机实现系统，通过该系统可实现对讲机的智能化控制，而不需要通过人工手动去控制或者操控对讲机，可为对讲机的实际使用带来极大的方便。

本发明是这样实现技术问题之一的：基于语音自动识别的对讲机实现系统，所述系统包括语音采集模块、音频编解码模块、语音识别模块以及主控制模块：

所述语音采集模块，用于采集声音信号，将声音信号转换成模拟电信号；

所述音频编解码模块，用于将模拟电信号转换成数字音频信号；

所述语音识别模块，用于通过基于语音深度学习的神经网络模型，对数字音频信号进行识别，并获得识别结果；

所述主控制模块，用于控制将识别结果上传给远程服务器，由远程服务器根据识别结果执行对应的操作。

进一步地，所述系统还包括语音播放模块；

所述主控制模块，还用于接收远程服务器下发的语音消息或者反馈的语音指令；

所述语音识别模块，还用于将远程服务器下发的语音消息或者反馈的语音指令转换成数字语音；

所述音频编解码模块，还用于将数字语音转换成模拟语音；

所述语音播放模块，用于播放模拟语音。

进一步地，所述语音识别模块具体包括模型学习单元以及语音识别单元：

所述模型学习单元，用于预先录制并保存各个语音命令的语音片段，采用神经网络识别所述语音片段，进行深度学习训练所述神经网络，从而获得基于语音深度学习的神经网络模型；

所述语音识别单元，用于使用基于语音深度学习的神经网络模型来对上传的数字音频信号进行语音比较，且如果该数字音频信号与神经网络模型中学习过的某一语音命令的相似度超过设定的相似阈值，则将该数字音频信号识别成对应的语音命令；否则就将该数字音频信号识别为语音消息；

所述语音识别单元，还用于将远程服务器下发的语音消息转换成数字语音，或者将远程服务器反馈的语音命令与神经网络模型中学习过的对应语音命令进行匹配，并将该语音命令转换成数字语音。

进一步地，所述主控制模块具体包括主控制单元以及通讯单元；

所述主控制单元，用于控制将神经网络模型识别出的语音命令或者语音消息上传；

所述通讯单元，用于将神经网络模型识别出的语音命令或者语音消息传送给远程服务器，并由远程服务器执行对应的语音命令或者存储对应的语音消息；

所述主控制单元，还用于控制将远程服务器的语音命令或者语音消息下发；

所述通讯单元，还用于接收远程服务器下发的语音消息或者反馈的语音命令。

本发明要解决的技术问题之二，在于提供一种基于语音自动识别的对讲机实现方法，通过该方法可实现对讲机的智能化控制，而不需要通过人工手动去控制或者操控对讲机，可为对讲机的实际使用带来极大的方便。

本发明是这样实现技术问题之二的：基于语音自动识别的对讲机实现方法，所述方法包括如下步骤：

步骤s1、采集声音信号，将声音信号转换成模拟电信号；

步骤s2、将模拟电信号转换成数字音频信号；

步骤s3、通过基于语音深度学习的神经网络模型，对数字音频信号进行识别，并获得识别结果；

步骤s4、控制将识别结果上传给远程服务器，由远程服务器根据识别结果执行对应的操作。

进一步地，所述方法还包括步骤s5：

所述步骤s4还包括：接收远程服务器下发的语音消息或者反馈的语音指令；

所述步骤s3还包括：将远程服务器下发的语音消息或者反馈的语音指令转换成数字语音；

所述步骤s2还包括：将数字语音转换成模拟语音；

所述步骤s5：播放模拟语音。

进一步地，所述步骤s3具体包括包括：

步骤s31、预先录制并保存各个语音命令的语音片段，采用神经网络识别所述语音片段，进行深度学习训练所述神经网络，从而获得基于语音深度学习的神经网络模型；

步骤s32、使用基于语音深度学习的神经网络模型来对上传的数字音频信号进行语音比较，且如果该数字音频信号与神经网络模型中学习过的某一语音命令的相似度超过设定的相似阈值，则将该数字音频信号识别成对应的语音命令；否则就将该数字音频信号识别为语音消息；

所述步骤s32还包括：将远程服务器下发的语音消息转换成数字语音，或者将远程服务器反馈的语音命令与神经网络模型中学习过的对应语音命令进行匹配，并将该语音命令转换成数字语音。

进一步地，所述步骤s4具体包括：

步骤s41、控制将神经网络模型识别出的语音命令或者语音消息上传；

步骤s42、将神经网络模型识别出的语音命令或者语音消息传送给远程服务器，并由远程服务器执行对应的语音命令或者存储对应的语音消息；

所述步骤s41还包括：控制将远程服务器的语音命令或者语音消息下发；

所述步骤s42还包括：接收远程服务器下发的语音消息或者反馈的语音命令。

本发明具有如下优点：通过基于语音深度学习的神经网络模型来对操作者发出的语音片段进行识别，且将识别结果上传给远程服务器，使得远程服务器可以根据识别结果来执行对应的操作，实现对讲机的智能化控制，而不需要通过人工手动去控制或者操控对讲机，可为对讲机的实际使用带来极大的方便。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明基于语音自动识别的对讲机实现方法的执行流程图。

具体实施方式

本发明基于语音自动识别的对讲机实现系统的较佳实施例，所述系统包括语音采集模块、音频编解码模块、语音识别模块以及主控制模块：

所述语音采集模块，用于采集声音信号，将声音信号转换成模拟电信号；例如，当操作者对着对讲机说道“创建分组一”时，就将这段声音信号采集下来，并转化成模拟电信号；

所述音频编解码模块，用于将模拟电信号转换成数字音频信号；

所述语音识别模块，用于通过基于语音深度学习的神经网络模型，对数字音频信号进行识别，并获得识别结果；

所述主控制模块，用于控制将识别结果上传给远程服务器，由远程服务器根据识别结果执行对应的操作。

本发明通过基于语音深度学习的神经网络模型来对操作者发出的语音片段进行识别，且将识别结果上传给远程服务器，使得远程服务器可以根据识别结果来执行对应的操作，实现对讲机的智能化控制，而不需要通过人工手动去控制或者操控对讲机，可为对讲机的实际使用带来极大的方便。

在本发明中，所述系统还包括语音播放模块；

所述主控制模块，还用于接收远程服务器下发的语音消息或者反馈的语音指令；例如，当云服务器将某一个对讲机的语音消息下发给各个其它对讲机时，其它对讲机都会接收远程服务器下发的语音消息；又如，当云服务器向某一对讲机下发“操作成功”的反馈指令时，对应的对讲机就会接收该反馈指令；

所述语音识别模块，还用于将远程服务器下发的语音消息或者反馈的语音指令转换成数字语音；

所述音频编解码模块，还用于将数字语音转换成模拟语音；

所述语音播放模块，用于播放模拟语音，即将声音播放出来，以方便操作者可以听到。

所述语音识别模块具体包括模型学习单元以及语音识别单元：

所述模型学习单元，用于预先录制并保存各个语音命令的语音片段，采用神经网络识别所述语音片段，进行深度学习训练所述神经网络，从而获得基于语音深度学习的神经网络模型；例如，使用者录制的语音片段是“创建分组一”，在对神经网络进行深度学习训练获得基于语音深度学习的神经网络模型后，如果使用者对着对讲机说道“创建分组一”，神经网络模型就会自动将该语音片段自动识别为对应的操作指令；

所述语音识别单元，用于使用基于语音深度学习的神经网络模型来对上传的数字音频信号进行语音比较，且如果该数字音频信号与神经网络模型中学习过的某一语音命令的相似度超过设定的相似阈值(例如，可以将相似阈值设定为82％)，则将该数字音频信号识别成对应的语音命令；否则就将该数字音频信号识别为语音消息；

所述主控制模块具体包括主控制单元以及通讯单元；

所述主控制单元，用于控制将神经网络模型识别出的语音命令或者语音消息上传；在具体实施时，可以使用串口或者其它方式来上传语音命令或者语音消息；

所述通讯单元，用于将神经网络模型识别出的语音命令或者语音消息传送给远程服务器，并由远程服务器执行对应的语音命令或者存储对应的语音消息；在具体实施时，可以使用2g/3g/4g/5g/wifi/蓝牙等有线或者无线的方式来进行传送；

所述主控制单元，还用于控制将远程服务器的语音命令或者语音消息下发；

所述通讯单元，还用于接收远程服务器下发的语音消息或者反馈的语音命令。

请参阅图1所示，本发明基于语音自动识别的对讲机实现方法的较佳实施例，所述方法包括如下步骤：

步骤s1、采集声音信号，将声音信号转换成模拟电信号；例如，当操作者对着对讲机说道“增加音量”时，就将这段声音信号采集下来，并转化成模拟电信号；

步骤s2、将模拟电信号转换成数字音频信号；

步骤s3、通过基于语音深度学习的神经网络模型，对数字音频信号进行识别，并获得识别结果；

步骤s4、控制将识别结果上传给远程服务器，由远程服务器根据识别结果执行对应的操作。

本发明通过基于语音深度学习的神经网络模型来对操作者发出的语音片段进行识别，且将识别结果上传给远程服务器，使得远程服务器可以根据识别结果来执行对应的操作，而不需要通过人工手动去控制对讲机，可为对讲机的实际使用带来极大的方便。

在本发明中，所述方法还包括步骤s5：

所述步骤s4还包括：接收远程服务器下发的语音消息或者反馈的语音指令；例如，当云服务器将某一个对讲机的语音消息下发给各个其它对讲机时，其它对讲机都会接收远程服务器下发的语音消息；又如，当云服务器向某一对讲机下发“操作成功”的反馈指令时，对应的对讲机就会接收该反馈指令；

所述步骤s3还包括：将远程服务器下发的语音消息或者反馈的语音指令转换成数字语音；

所述步骤s2还包括：将数字语音转换成模拟语音；

所述步骤s5：播放模拟语音，即将声音播放出来，以方便操作者可以听到。

所述步骤s3具体包括包括：

步骤s31、预先录制并保存各个语音命令的语音片段，采用神经网络识别所述语音片段，进行深度学习训练所述神经网络，从而获得基于语音深度学习的神经网络模型；例如，使用者录制的语音片段是“增加音量”，在对神经网络进行深度学习训练获得基于语音深度学习的神经网络模型后，如果使用者对着对讲机说道“增加音量”，神经网络模型就会自动将该语音片段自动识别为对应的操作指令；

步骤s32、使用基于语音深度学习的神经网络模型来对上传的数字音频信号进行语音比较，且如果该数字音频信号与神经网络模型中学习过的某一语音命令的相似度超过设定的相似阈值(例如，可以将相似阈值设定为80％)，则将该数字音频信号识别成对应的语音命令；否则就将该数字音频信号识别为语音消息；

所述步骤s4具体包括：

步骤s41、控制将神经网络模型识别出的语音命令或者语音消息上传；在具体实施时，可以使用串口或者其它方式来上传语音命令或者语音消息；

步骤s42、将神经网络模型识别出的语音命令或者语音消息传送给远程服务器，并由远程服务器执行对应的语音命令或者存储对应的语音消息；在具体实施时，可以使用2g/3g/4g/5g/wifi/蓝牙等有线或者无线的方式来进行传送；

所述步骤s41还包括：控制将远程服务器的语音命令或者语音消息下发；

所述步骤s42还包括：接收远程服务器下发的语音消息或者反馈的语音命令。

下面结合一具体实例来对本发明的系统做进一步说明：

在使用者对着对讲机说到“创建分组一”时，所述语音采集模块就采集该声音信号，并将该声音信号转换成模拟电信号，且传输给所述音频编解码模块；

所述音频编解码模块将模拟电信号转换成数字音频信号，并传输给所述语音识别模块；

所述语音识别模块将接收到的数字音频信号与前期通过语音深度学习的神经网络模型中的语音进行比较，且如果该数字音频信号与学习过的某条语音命令的相似度超过80％，则将该数字音频信号识别成对应的操作命令，生成命令代码，并传输给所述主控制模块；

所述主控制模块接在收到命令代码后，通过所述通讯单元远程传输给远程服务器，远程服务器接收并执行命令，创建分组一，且将结果通过通讯单元反馈给所述主控制模块，所述主控制模块再反馈给所述语音识别模块，所述语音识别模块接收到后，生成一条数字语音“操作成功”，并通过所述语音编解码模块将数字语音转换成模拟语音，且输出给所述语音播放模块，由所述语音播放模块播放语音。

当然，当语音识别模块识别出的语音不是命令语音的时候，就不走上述的命令模式，而是走正常的语音对讲模式，即将语音消息上传给远程服务器后，由远程服务器将语音消息记录存储，并下发给处于同一分组内的其它对讲设备，其它对讲设备通过通讯单元接收语音消息，且在将语音消息转换成模拟语音后，通过所述语音播放模块进行播放。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈杰;林兆剑;陈春强;詹丽华;林静
技术所有人：福建天眼视讯网络科技有限公司
我是此专利的发明人

上一篇：一种免疫散射比浊法的光源功率的校准装置及方法与流程
上一篇：一种简易式组合计算机机柜的制作方法