一种面向智能机器人的音频处理方法和装置的制造方法

文档序号：9930291阅读：583来源：国知局

一种面向智能机器人的音频处理方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音识别及处理技术领域，具体地说，涉及一种面向智能机器人的音频处理方法和装置。
【背景技术】
[0002]智能机器人是一个多种高新技术的集合体，它融合了机械、电子、传感器、计算机硬件、软件、人工智能等许多学科的知识，涉及到当今许多前沿领域的技术。
[0003]在智能机器人在与用户交互过程中，通常先预设一个固定时间，在录音时，检测用户不说话的时间是否达到了这个预设的固定时间。如果达到了该预设的固定时间，则停止录音。
[0004]但是，以上通过预设固定时间停止录音的方式，会出现录音结束时机不准确的问题，进而影响智能机器人答案输出时机，降低应答时间准确性及用户体验。

【发明内容】

[0005]为解决以上问题，本发明提供了一种面向智能机器人的音频处理方法和装置，用以优化机器人答案输出时机，提高应答准确性。
[0006]根据本发明的一个方面，提供了一种面向智能机器人的音频处理方法，包括:
[0007]音频信息采集步骤，采集用户输入的音频信息；
[0008]音频信息处理步骤，对所述音频信息进行预处理，得到录音时间数据，所述录音时间数据包括平均单字时间t3和最大单字时间t4;
[0009]自然语言理解步骤，解析所述音频信息中的文字，得到自然语言理解结果；
[0010]录音时间判断步骤，对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断，当判断结果符合结束录音条件时，生成结束录音指示。
[0011]根据本发明的一个实施例，录音时间判断步骤包括:
[0012]比对零音量持续时间t5与预设音频结束时间t0，当t5>t0时，结束录音；
[0013]比对零音量持续时间t5与所述平均单字时间t3，当t5>t3且所述自然语言理解结果指不录首结束时，结束录首；
[0014]比对零音量持续时间t5与所述最大单字时间t4，当t5>t4时结束录音，以及，调整tO值趋近于所述最大单字时间t4。
[0015]根据本发明的一个实施例，得到所述最大单字时间t4，包括:
[0016]在单次录音中，根据有音量持续时间tl和语音识别得到的文字个数，计算单次录音中的单字时间t2;
[0017]根据连续η次录音中所有单次录音的单字时间t2，获取所述最大单字时间t4。
[0018]根据本发明的一个实施例，得到所述平均单字时间t3，包括:
[0019]在单次录音中，根据有音量持续时间tl和语音识别得到的文字个数，计算单次录音中的单字时间t2;
[0020]根据连续η次录音中所有单次录音的单字时间t2，获取所述平均单字时间t3。
[0021]根据本发明的一个实施例，所述单字时间t2通过下式计算得到:
[0022]t2 = tl/a 或t2 = (tl/a+tl/ (a_l ))/2
[0023]其中，a为有音量持续时间tl内识别出来的文字个数。
[0024]根据本发明的另一个方面，还提供了一种面向智能机器人的音频处理装置，包括:
[0025]音频信息采集模块，采集用户输入的音频信息；
[0026]音频信息处理模块，对所述音频信息进行预处理，得到录音时间数据，所述录音时间数据包括平均单字时间t3和最大单字时间t4;
[0027]自然语言理解模块，解析所述音频信息中的文字，得到自然语言理解结果。
[0028]录音时间判断模块，对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断，当判断结果符合结束录音条件时，生成结束录音指示。
[0029]根据本发明的一个实施例，所述录音时间判断模块用于:
[0030]比对零音量持续时间t5与预设音频结束时间t0，当t5>t0时，结束录音；
[0031]比对零音量持续时间t5与所述平均单字时间t3，当t5>t3且所述自然语言理解结果指不录首结束时，结束录首；
[0032]比对零音量持续时间t5与所述最大单字时间t4，当t5>t4时结束录音，以及，调整tO值趋近于所述最大单字时间t4。
[0033]根据本发明的一个实施例，所述音频信息处理模块包括:
[0034]第一单字时间计算单元，在单次录音中，根据有音量持续时间tl和语音识别得到的文字个数，计算单次录音中的单字时间t2;
[0035]最大单字时间计算单元，根据连续η次录音中所有单次录音的单字时间t2，获取所述最大单字时间t4。
[0036]根据本发明的一个实施例，所述音频信息处理模块包括:
[0037]第二单字时间计算单元，在单次录音中，根据有音量持续时间tl和语音识别得到的文字个数，计算单次录音中的单字时间t2;
[0038]平均单字时间计算单元，根据连续η次录音中所有单次录音的单字时间t2，获取所述平均单字时间t3。
[0039]根据本发明的又一个方面.还提供了一种面向智能机器人的音频处理装置，包括:
[0040]音频信息采集电路，采集用户输入的音频信息；
[0041]处理器，对所述音频信息进行预处理，得到录音时间数据，所述录音时间数据包括平均单字时间t3和最大单字时间t4，
[0042]解析所述音频信息中的文字，得到自然语言理解结果，
[0043]对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断，当判断结果符合结束录音条件时，生成结束录音指示，
[0044]其中，所述处理器对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断，包括:
[0045]比对零音量持续时间t5与预设音频结束时间t0，当t5>t0时，结束录音；
[0046]比对零音量持续时间t5与所述平均单字时间t3，当t5>t3且所述自然语言理解结果指不录首结束时，结束录首；
[0047]比对零音量持续时间t5与所述最大单字时间t4，当t5>t4时结束录音，以及，调整tO值趋近于所述最大单字时间t4。
[0048]本发明的有益效果:
[0049]本发明提供的一种面向智能机器人的音频处理方法和装置，通过判断多个表征语速的参量，通过对参量的判断，对录音停止时机进行精确控制，并根据不同用户说话语速及词句间隔针对个体用户进行语速学习，从而优化机器人答案输出时机，提高应答准确性。
[0050]本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
【附图说明】
[0051]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图做简单的介绍:
[0052]图1是根据本发明的一个实施例的方法流程图；
[0053]图2是根据本发明的一个实施例的平均单字时间t3确定步骤流程图；
[0054]图3是根据本发明的一个实施例的最大单字时间t4确定步骤流程图；
[0055]图4是根据本发明的一个实施例的一种面向智能机器人的音频处理装置结构示意图；
[0056]图5是根据本发明的一个实施例的音频信息处理模块中确定最大单字时间的结构示意图；
[0057]图6是根据本发明的一个实施例的音频信息处理模块中确定平均单字时间的结构不意图；以及
[0058]图7是根据本发明的一个实施例的一种面向智能机器人的音频处理装置中音频信息处理模块结构示意图。
【具体实施方式】
[0059]以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。
[0060]如图1所示为根据本发明的一个实施例的一种面向智能机器人的音频处理方法流程图，以下参考图1来对本发明进行详细说明。
[0061]首先，步骤S110，音频信息采集步骤，即采集用户输入的音频信息。具体的，在该步骤中，在用户说话时，智能机器人开始采集接收用户的语音信息。
[0062]接下来是步骤S120，音频信息处理步骤，即对接收的音频信息进行预处理，得到录音时间数据。该录音时间数据包括平均单字时间t3和最大单字时

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭家;
技术所有人：北京光年无限科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。