具有云端交互功能的智能机器人的制作方法

文档序号：10824587阅读：826来源：国知局

具有云端交互功能的智能机器人的制作方法
【专利摘要】本实用新型提供一种具有云端交互功能的智能机器人，包括机器人本体，以及在机器人本体上设置的语音输入单元、口令识别处理单元、云端识别单元、主控单元和执行机构，主控单元控制执行云端识别单元和口令识别处理单元，并根据识别处理结果驱动执行机构执行动作或给出提示信息。智能机器人会根据云端识别和口令识别的之一的执行结果，确定是否执行另一个识别单元。本实用新型的智能机器人和云端交互系统，集成了离线的口令识别处理和云端在线识别处理两种功能，并能够根据实际场景或其他策略确定适用的识别处理单元以及顺序，扩展了语音识别适用范围，同时在云端识别中增加了语音识别和语义理解，提高了机器人的智能性。
【专利说明】
具有云端交互功能的智能机器人
技术领域
[0001]本实用新型涉及语音识别和人工智能领域，具体涉及一种具有云端交互功能的智能机器人和云端交互系统。
【背景技术】
[0002]语音识别技术在过去二十年里获得了显著的进展，随着语音识别精度的提高，语音识别技术已经广泛地应用于不同的领域，也越来越为大众所熟悉和认可。
[0003]在智能机器人领域，语音识别技术的应用提高了机器人的交互能力。
[0004]目前比较流行的一种智能机器人，通过以硬件(语音识别类的处理器及相关信号处理电路)方式捕捉语音信号、处理信号、输出信号并驱动相关执行机构。这种机器人往往需要预先定义交互场景，根据交互场景开发响应的处理程序，因此只能提供有限的娱乐和智能功能。另外，进行语音识别需要在机器人内部存储语料库，通过语料库从输入的关键词的发音中捕捉信息，语料库的存储能力限制语音识别的范围和准确度。
[0005]目前有一种宠物机器人，具有交互模块，该模块能够感应外界环境参数、接收外界语音信息并输出语音信息、与移动终端进行数据交互，但该类宠物机器人虽然具备听觉能力，但不能和云端交互，因此能够识别的语音信息会受到本地存储资源的限制。
[0006]随着互联网技术的发展，一些科技公司开发出具有一定网络交互能力的系统，能够实现语音信息和互联网的实时互动，极大地扩展了语音系统的智能程度。该技术主要用于手机平板等手持设备的语音助手功能，根据输入的语音信息对文本内容进行简单逻辑的识别并给出合适的反馈。目前该技术未在消费型机器人市场体现，且只有在联网状态下才能工作，适用范围有限。
【实用新型内容】
[0007]有鉴于此，本实用新型提供具有云端交互功能的智能机器人和云端交互系统，在联网状态下获取云端语音服务，在网络中断时也具有一定的语音识别能力。
[0008]根据本实用新型的一个方面，提供一种具有云端交互功能的智能机器人，所述智能机器人包括机器人本体，所述机器人本体上设置有:语音输入单元，包括分别安装在所述机器人本体上的两个麦克风，用于获得外部输入的语音信号；云端识别单元，用于将所述语音信号发送至云端服务器并由所述云端服务器执行云端语音识别和云端语义理解至少之一，接收所述云端服务器发来的云端识别处理结果;主控单元，用于发送所述语音信号至云端识别单元，并根据所述云端识别处理结果控制执行机构；执行机构，用于执行机械动作和\或提供提不?目息。
[0009]优选地，所述执行机构为扬声器，用于以语音形式提供提示信息。
[0010]优选地，所述执行机构为运动部件，用于以动作方式提供机械动作。
[0011]优选地，所述智能机器人和所述云端服务器通过无线网络接口连接。
[0012]本实用新型提供的智能机器人和云端交互系统，集成了离线的口令识别和云端在线识别，并能够根据实际场景或其他策略确定适用的识别单元以及执行顺序，适用范围得到了极大的扩展，并且在云端识别中增加了语音识别和语义理解，提高了机器人的智能性。
【附图说明】
[0013]通过参照以下附图对本实用新型实施例的描述，本实用新型的上述以及其它目的、特征和优点将更为清楚，在附图中:
[0014]图1是本实用新型实施例的智能机器人的示意图；
[0015]图2是本实用新型实施例的智能机器人的结构框图；
[0016]图3是本实用新型另一个实施例的智能机器人的结构框图；
[0017]图4是本实用新型实施例的云端识别方法的流程图；
[0018]图5是本实用新型另一个实施例的云端识别方法的流程图；
[0019]图6是本实用新型另一个实施例的云端识别方法的流程图；
[0020]图7是本实用新型实施例的云端交互系统的示意图。
【具体实施方式】
[0021]以下基于实施例对本实用新型进行描述，但是本实用新型并不仅仅限于这些实施例。在下文对本实用新型的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本实用新型。为了避免混淆本实用新型的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。
[0022]附图中的流程图、框图图示了本实用新型实施例的系统、方法、装置的可能的体系框架、功能和操作，流程图和框图上的方框可以代表一个模块、程序段或仅仅是一段代码，所述模块、程序段和代码都是用来实现规定逻辑功能的可执行指令。也应当注意，所述实现规定逻辑功能的可执行指令可以重新组合，从而生成新的模块和程序段。因此附图的方框以及方框顺序只是用来更好的图示实施例的过程和步骤，而不应以此作为对实用新型本身的限制。
[0023]在本文中提到的声纹识别，指根据输入的声音信号，提取声纹特征，使用声纹特征辨识说话人。语音识别，指根据输入的声音信号经过一系列的声音算法提取出文本内容。语义理解，可以简单地看作是对声音信号所对应的现实世界中的事物所代表的概念的含义，以及这些含义之间的关系的理解，是声音信号在某个领域上的解释和逻辑表示。
[0024]图1给出了本实用新型实施例中的本体为企鹅形状的智能机器人的示意图，作为宠物机器人的一种，企鹅形态的机器人深受儿童的喜爱。
[0025]在企鹅机器人的头部左右耳处安装麦克风101，在企鹅机器人的内部控制板安装控制模块102。麦克风101通过信号线与控制模块102连接在一起。采用双耳的两个麦克风作为语音输入源，将采集到声音信息转为电信号，通过线束传输至位于企鹅腔体中的控制模块102中处理，控制模块102将声音信号信息提交到云端服务器，根据在云端的处理结果决定是否调用本地处理程序。
[0026]图2给出了本实用新型一个实施例的智能机器人的结构框图。箭头方向表示数据的流向。所述智能机器人包括语音输入单元210、主控单元220、口令识别处理单元230、云端识别单元240和执行机构250。
[0027]语音输入单元210接收外部输入的语音信号，该语音信号是自然语言的音频信息，需要进行降噪、过滤等处理。在优选实施例中，采用了智能化数字阵列降噪拾音器的麦克风，其具有2种降噪模式，最大可降低45dB噪音。另外，麦克风分别置于企鹅的双耳处，通过分散采集声音信号保证获取的音频信号的准确性和完整性。
[0028]语音输入单元210还可以具有语音预处理功能，外部输入的语音信号可能受环境、场景、相对位置等因素的影响，需要对音频信息进行调制解调、语音降噪、音频放大等多种方式的预处理。其中，语音降噪可以采用DSP降噪算法进行降噪，能够去除背景噪声、抑制外部人声干扰、抑制回声、抑制混响。DSP降噪算法对稳态和非稳态的噪音以及机械噪音都有非常强的抑制能力。双麦克风和语音预处理单元结合使用，能将噪音几乎完全消除，同时能保证正常语音的清晰度和自然度，并能无延时的输出。
[0029]主控单元220接收语音信号，根据预定策略确定适宜的语音识别单元。本实用新型实施例中提供的两种语音识别方式包括口令识别处理单元230和云端识别单元240，主控单元220确定一个具体的语音识别方式后将语音信息发送给它，并接收处理结果，根据处理结果驱动执行机构250工作或将该语音信号发送给另一个识别单元。其中可以设置多种类型的预定策略，例如，在语音信号中指定识别单元，或默认先执行口令识别，再执行云端识别，或者相反。策略的选择能够减少无用识别的时间，提高智能机器人的工作效率。例如，一般来说，本地识别的处理效率高于云端识别的处理效率，因此通常将语音信号先进行本地识另IJ，再进行云端识别。在一个示例中，主控单元220根据口令识别处理结果，决定是否将语音信号发送至云端服务器进行云端识别。进一步地，主控单元220根据口令识别处理结果来判定语音信号是否被本地口令识别成功，若是，则根据口令识别处理结果控制执行机构，若否，则将语音信号发送至云端服务器进行云端识别。
[0030]在另一个示例中，主控单元220根据云端识别处理结果，决定是否将语音信号进行本地口令识别。进一步地，主控单元220根据云端识别处理结果来判定语音信号是否被云端识别成功，若是，则根据云端识别处理结果控制执行机构，若否，则将语音信号进行本地口令识别。
[0031 ] 口令识别处理单元230在本地执行，从主控单元220读取语音信号，根据预定义的口令资料和语音信号比对，根据比对结果，执行一个适当处理模块。口令识别单元230同样将识别处理结果返回给主控单元220，由主控单元驱动执行机构工作。其中预定义的口令资料可以理解为存储在本地的一系列的语音信号，在所述口令处理单元230里集成了这些语音信号的处理模块，所述处理模块通过软件或者电路形式实现。例如，输入问候口令“你好”，对应的是问答模块，给出一个回答“你好”。当然，这些处理模块可以集成在一起，也可以分开实现。在此的示例性说明不用于限制实用新型本身。
[0032]云端识别单元240在云端服务器执行，云端服务器可以是一台服务器或多台服务器组成的集群，可以由智能机器人的厂商架设云端服务器或者获取网络提供商提供的服务接口。云端识别可以是云端语音识别和云端语义识别之一或包括两者的组合，云端处理则是根据提取的语言信息，进行相应的处理。目前很多互联网公司提供在线的语音识别和语义理解等云端软件功能服务，通过接入这些公司提供的API，即可获取相应的服务。例如，向在线的航班服务提供商上发送一条“北京到汉口的航班查询”的语音信号，则航班服务提供商对该语音信号进行语音识别，语音分析，语义理解等，从而得到一个语音信号的逻辑含义，根据逻辑含义，返回北京的汉口的当日航班信息。将云端识别处理结果返回给主控单元220，由主控单元驱动执行机构工作。
[0033]执行机构250负责执行机械动作或提供提示信息。执行机构可以包括扬声器和运动部件，用于播放语音提示信息或执行机械动作。例如，回答用户的问候信息，或者根据预先编辑的问答列表回答问题，或者根据用户的要求做一些简单动作。
[0034]参考图3所示的智能机器人的结构图，可以发现，和图2所示的智能机器人结构相比较，图3所示的智能机器人增加了声纹识别单元320和网络判断单元350。
[0035]声纹识别单元320位于语音处理单元310和主控单元330之间，声纹识别单元用于根据预存储的声纹资料对发出所述语音信号的人进行身份验证，其中声纹资料可以存储在本地，也可以利用云端的声纹资料进行身份验证。通过声纹识别让智能机器人只对固定人物的声音信号响应，以此增加智能机器人的安全性。
[0036]网络判断单元350在主控单元330和云端识别单元360之间，用以判断所述智能机器人与所述云端服务器的连接状态并根据该连接状态生成网络判断结果。为此，在将语音信号发送到云端服务器进行云端识别处理之前，先获取当前的网络状态，只有在网络判断结果为网络正常的情况下才将语音信号发送的云端服务器识别处理。目前现有的网络连接技术有无线和有线连接，考虑到智能机器人的需要移动的特点，优选的方式是无线连接，通过WIFI或蓝牙连接到互联网上。
[0037]应当理解，在图3中所示的智能机器人的智能语音输入单元310、主控单元330、口令识别处理单元340、云端识别单元360和执行机构370和图2的相应单元功能相同或相近，这里就不再赘述。
[0038]也应当理解，虽然在图2和图3所示的智能机器人结构图中同时包括云端识别单元和口令识别处理单元，但可能在一次语音识别过程中，只进行了一次语音识别即得到了预期结果。必要的时候，主控单元会根据当前识别处理单元的识别处理结果，确定是否调用另一个识别处理单元。
[0039]从上述实施例可知，本实用新型提供的智能机器人集成了离线的口令识别和云端在线识别，并能够根据实际场景或其他策略确定适用的识别单元以及执行顺序，扩展了机器人的使用范围。另外，随着网络服务商的发展，可根据需要扩展云端识别处理功能，使智能机器人的智能性得到增强。
[0040]相应的，本实用新型提供了一个云端交互方法，图4示出云端交互方法的一个实施例的流程图。如图4所示，所述云端交互方法包括步骤410-步骤460。
[0041]在步骤410中，获得外部输入的语音信号。例如，通过安装在智能机器人身体部位的麦克风接收外部输入的声音信号。在优选实施例中，采用了智能化数字阵列降噪拾音器的麦克风，其具有2种降噪模式，最大可降低45dB噪音。另外，麦克风分别置于企鹅形态的智能机器人的双耳处，通过分散采集声音信号保证获取的音频信号的准确性和完整性。
[0042]在步骤420中，将语音信号发送至服务器执行云端识别处理。利用云端的软件服务和云端语音存储功能，实现云端语音识别和云端语义理解，保证语音信号被最大限度的识别以及根据语音信号中提取的语言信息，获取相应的服务或信息。例如，目前很多互联网公司提供在线的语音识别和语义理解等云端软件功能服务，通过接入这些公司提供的API，即可获取相应的服务。
[0043]在步骤430中，判断语音信号是否能够云端识别处理。在本步骤中，对步骤420的云端识别结果进行判断，如果识别成功，则确定再启动执行部件或输出语音信息，并交给步骤460执行，否则执行步骤440，进行本地口令识别处理。
[0044]在步骤440中，进行本地口令识别处理。本地口令识别处理是对云端识别的补充，在云端识别失败后，启动本地口令识别处理，根据预存储在本地的口令和输入的口令进行比对以及调用相应的处理模块，并获取处理结果。
[0045]在步骤450中，判断口令是否能被识别处理。在本步骤中，如果口令识别处理成功，则根据处理结果，确定再启动执行部件或输出语音信息。如果口令识别处理失败，则不进行任何操作。
[0046]在步骤460中，驱动智能机器人的执行部件执行机械动作或提供信息。执行机构可以包括扬声器和运动部件，用于播放语音提示信息或执行机械动作。例如，回答用户的问候信息，或者根据预先编辑的问答列表回答问题，或者根据用户的要求做一些简单动作。
[0047]图5示出本实用新型的云端交互方法的另一个实施例的流程图。如图5所示，所述云端交互方法包括步骤510-步骤560。
[0048]从图5可以看出，图5所示的云端交互方法和图4所示的云端交互方法只在执行顺序上有区别，在图5中，接收到语音信号后，首先进行本地口令识别处理，再进行云端识别处理，图4则相反。在此仅描述与图4相区别的步骤520-550。
[0049]在步骤520中，进行本地口令识别处理。根据预存储在本地的口令和输入的口令进行比对以及调用相应的处理模块，并获取口令识别处理结果。
[0050]在步骤530中，判断语音信号是否能被识别处理。在本步骤中，对步骤520的口令识别处理结果进行判断，如果识别成功，则确定再启动执行部件或输出语音信息，并交给步骤560执行，否则执行步骤540。
[0051]在步骤540中，将语音信号发送至云端服务器进行云端识别。利用云端的软件服务和云端语音存储功能，实现云端语音识别和云端语义理解，保证语音信号被最大限度的识别以及根据语音信号中提取的语言信息，获取相应的服务或信息。例如，目前很多互联网公司提供在线的语音识别和语义理解等云端软件功能服务，通过接入这些公司提供的API，即可获取相应的服务。
[0052]在步骤550中，判断语音信号是否能够云端识别处理。在本步骤中，对步骤540的云端识别结果进行判断，如果识别成功，则确定再启动执行部件或输出语音信息，并交给步骤560执行。如果云端识别处理失败，则不进行任何操作。
[0053]图6示出本实用新型的云端交互方法的另一个实施例的流程图。如图6所示，所述云端交互方法包括步骤610-步骤670。和图5相比，增加了步骤640“判断云端网络状态”，在云端网络正常时候，才提交语音信号至云端服务器进行识别处理。此实施方式是为了提高云端识别的效率，减少网络等待时间。
[0054]在一个优选的实施例中，也可以根据预定义的优选策略确定识别执行优先级。例如，可以通过模糊匹配的方式确定那些语音信号首先发送到云端服务器处理，那些又必须在本地处理。又例如，可以通过枚举的方式确定处理优先级，在本地处理口令信息相对有限，不在这个范围内的语音信息都发送到云端服务器处理。
[0055]在另一个优选的实施例中，将语音信号发送至服务器执行云端识别前，对语音信号进行预处理，包括对语音进行调制解调、语音降噪、音频放大等多种方式预处理。
[0056]在另一个优选的实施例中，将语音信号发送至服务器执行云端识别前，还可以根据预存储的声纹资料对发出所述语音信号的人进行身份验证。
[0057]图7示出了本实用新型的云端交互系统的示意图。所述云端交互系统包括至少一个智能机器人(701?703)和至少一个云端服务器(704-705)。
[0058]智能机器人和云端服务器通信连接，智能机器人将语音信号发送至云端服务器并由云端服务器执行云端语音识别和云端语义理解至少之一，智能机器人接收云端服务器发来的云端识别处理结果并执行本地操作。
[0059]本实用新型实施例中提供的具有云端交互功能的智能机器人，所述智能机器人包括有机器人本体，所述机器人本体上设置有:语音输入单元，用于获得外部输入的语音信号；口令识别处理单元，用于根据预设的口令资料对所述语音信号进行本地口令识别并生成口令识别处理结果；云端识别单元，用于将所述语音信号发送至云端服务器执行云端语音识别和云端语义理解至少之一，并接收云端识别处理结果;主控单元，用于控制所述语音信号在所述口令识别处理单元和云端识别单元至少之一进行识别处理，并根据所述口令识别处理结果或云端识别处理结果控制执行机构;执行机构，用于执行机械动作和\或提供提示信息。本实用新型同时提供相应的云端交互系统。
[0060]相较于单一的网络交互式对话系统和语音识别的硬件模块，本实用新型实施例提供的智能机器人和云端交互方法的优点如下:
[0061](I)首先在功能上，集成了进行离线识别的口令识别单元和与基于云端在线识别单元，适用范围得到了极大的扩展;在云端识别中增加了语音识别和语义理解，提高了机器人的智能性;同时通过声纹识别，提高了智能机器人的安全性；
[0062](2)其次在设计上，增加了机器人的语音识别系统，使用分离式的至少两个麦克风接收语音。麦克风的自身的物理性能以及声音预处理的降噪功能提高了声音的准确和清晰，利于后续语音信号的声纹分析、语音分析、语义分析等；
[0063](3)在部署上，功能部署在云端，通过云端资源的优势保证机器人的智能性，同时部分功能部署在本地，考虑到网络连接的不确定性，在断网条件下，根据已经下载到本地的语音资料，智能机器人也能够完成一些预期的功能。
[0064]对于本领域技术人员而言，显然本实用新型不限于上述示范性实施例的细节，而且在不背离本实用新型的精神或基本特征的情况下，能够以其他的具体形式实现本实用新型。例如，在实际应用中，可以不同的需要将上述模块功能划分为和本实用新型实施例不同的功能结构，或将本实用新型实施例中的几个功能模块合并和分解成不同的功能结构。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本实用新型的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本实用新型内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。
[0065]以上所述仅为本实用新型的优选实施例，并不用于限制本实用新型，对于本领域技术人员而言，本实用新型可以有各种改动和变化。凡在本实用新型的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本实用新型的保护范围之内。
【主权项】
1.一种具有云端交互功能的智能机器人，其特征在于，所述智能机器人包括机器人本体，所述机器人本体上设置有: 语音输入单元，包括分别安装在所述机器人本体上的两个麦克风，用于获得外部输入的语音信号；云端识别单元，用于将所述语音信号发送至云端服务器并由所述云端服务器执行云端语音识别和云端语义理解至少之一，接收所述云端服务器发来的云端识别处理结果；主控单元，用于发送所述语音信号至云端识别单元，并根据所述云端识别处理结果控制执行机构；执行机构，用于执行机械动作和\或提供提示信息。2.根据权利要求1所述的智能机器人，所述执行机构为扬声器，用于以语音形式提供提示信息。3.根据权利要求1所述的智能机器人，其特征在于，所述执行机构为运动部件，用于以动作方式提供机械动作。4.根据权利要求1所述的智能机器人，其特征在于，所述智能机器人和所述云端服务器通过无线网络接口连接。
【文档编号】G10L15/30GK205508398SQ201520774370
【公开日】2016年8月24日
【申请日】2015年9月30日
【发明人】不公告发明人
【申请人】深圳光启合众科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：不公告发明人;
技术所有人：深圳光启合众科技有限公司;
我是此专利的发明人

上一篇：声音处理系统的制作方法
上一篇：语音识别急救药品定位及训练装置的制造方法