语音数据的处理方法及装置与流程

文档序号：11707161阅读：404来源：国知局

【技术领域】

本发明涉及通信技术，尤其涉及一种语音数据的处理方法及装置。

背景技术：

随着通信技术的发展，终端集成了越来越多的功能，从而使得终端的系统功能列表中包含了越来越多相应的应用(application，app)。有些应用中会涉及语音服务，例如，微信应用中的语音输入功能，百度搜索应用中的语音助手，等。在语音服务中，可以在指定界面的指定位置提供一个用于输入语音数据的功能控件。当用户利用输入设备操作这个功能控件时，则可以开始采集语音数据。

然而，由于用于输入语音数据的功能控件设置在指定界面的指定位置，因此，在用户需要输入语音数据时，需要根据用户的操作展现指定界面，并由用户在指定界面上寻找指定位置处的功能控件并操作，才能采集用户所提供的语音数据，操作繁琐，且不灵活，从而导致了语音数据处理的效率和灵活性的降低。

技术实现要素：

本发明的多个方面提供一种语音数据的处理方法及装置，用以提高语音数据处理的效率和灵活性。

本发明的一方面，提供一种语音数据的处理方法，包括：

获取用户对终端的开始操作手势；

若所述开始操作手势满足预先设置的指定开始手势，开启语音输入功能，以采集所述用户的语音数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获取用户对终端的开始操作手势，包括：

基于预先设置的指定界面，检测用户对终端的开始操作手势。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述用户对终端的开始操作手势，包括下列操作手势中的至少一项：

用户对所述终端的按键的操作；

用户在所述终端上方的悬空滑动；

用户在特定界面上的接触滑动；以及

用户带动所述终端的运动。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述用户在特定界面上的接触滑动，包括：

用户在特定界面上空白区域的长按操作。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述若所述开始操作手势满足预先设置的指定开始手势，开启语音输入功能，以采集所述用户的语音数据，包括：

若所述开始操作手势满足预先设置的指定开始手势，检测是否有语音数据输入，直至接收语音停止输入指令为止；

若检测到有语音数据输入，对所述语音数据进行处理。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述检测是否有语音数据输入之后，还包括：

获取用户对所述终端的结束操作手势；

若所述结束操作手势满足预先设置的指定结束手势，接收所述语音停止输入指令。

本发明的另一方面，提供一种语音数据的处理装置，包括：

获取单元，用于获取用户对终端的开始操作手势；

语音单元，用于若所述开始操作手势满足预先设置的指定开始手势，开启语音输入功能，以采集所述用户的语音数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获取单元，具体用于

基于预先设置的指定界面，检测用户对终端的开始操作手势。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述用户对终端的开始操作手势，包括下列操作手势中的至少一项：

用户对所述终端的按键的操作；

用户在所述终端上方的悬空滑动；

用户在特定界面上的接触滑动；以及

用户带动所述终端的运动。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述用户在特定界面上的接触滑动，包括：

用户在特定界面上空白区域的长按操作。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述语音单元，具体用于

若所述开始操作手势满足预先设置的指定开始手势，检测是否有语音数据输入，直至接收语音停止输入指令为止；

若检测到有语音数据输入，对所述语音数据进行处理。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述语音单元，还用于

获取用户对所述终端的结束操作手势；

若所述结束操作手势满足预先设置的指定结束手势，接收所述语音停止输入指令。

由上述技术方案可知，本发明实施例通过获取用户对终端的开始操作手势，若所述开始操作手势满足预先设置的指定开始手势，使得能够开启语音输入功能，以采集所述用户的语音数据，由于采用指定的开始操作手势触发执行语音服务，使得无需在指定界面的指定位置设置用于输入语音数据的功能控件，能够避免现有技术中由于用于输入语音数据的功能控件设置在指定界面的指定位置而导致的在用户需要输入语音数据时操作繁琐且不灵活的技术问题，从而提高了语音数据处理的效率和灵活性。

另外，采用本发明所提供的技术方案，由于采用指定的开始操作手势触发执行语音服务，使得操作区域不再受限于用于输入语音数据的功能控件的大小及位置，能够有效提高语音数据处理的可靠性和效率。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音数据的处理方法的流程示意图；

图2为本发明另一实施例提供的语音数据的处理装置的结构示意图。

【具体实施方式】

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

需要说明的是，本申请实施例中所涉及的终端可以包括但不限于手机、个人数字助理(personaldigitalassistant，pda)、无线手持装置、无线上网本、个人电脑、便携电脑、平板电脑、mp3播放器、mp4播放器、可穿戴设备(例如，智能眼镜、智能手表、智能手环等)等。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明一实施例提供的语音数据的处理方法的流程示意图，如图1所示。

101、获取用户对终端的开始操作手势。

102、若所述开始操作手势满足预先设置的指定开始手势，开启语音输入功能，以采集所述用户的语音数据。

需要说明的是，101～102的执行主体的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(softwaredevelopmentkit，sdk)等功能单元，或者还可以为位于网格侧服务器中的处理引擎，或者还可以为位于网格侧的分布式系统，本实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的本地程序(nativeapp)，或者还可以是终端上的浏览器的一个网页程序(webapp)，本实施例对此不进行特别限定。

这样，通过获取用户对终端的开始操作手势，若所述开始操作手势满足预先设置的指定开始手势，使得能够开启语音输入功能，以采集所述用户的语音数据，由于采用指定的开始操作手势触发执行语音服务，使得无需在指定界面的指定位置设置用于输入语音数据的功能控件，能够避免现有技术中由于用于输入语音数据的功能控件设置在指定界面的指定位置而导致的在用户需要输入语音数据时操作繁琐且不灵活的技术问题，从而提高了语音数据处理的效率和灵活性。

可选地，在本实施例的一个可能的实现方式中，在101中，具体可以检测用户对终端的开始操作手势。

具体地，所述用户对终端的开始操作手势，可以包括但不限于下列操作手势中的至少一项：

用户对所述终端的按键的操作；

用户在所述终端上方的悬空滑动；

用户在特定界面上的接触滑动；以及

用户带动所述终端的运动。

其中，

用户对所述终端的按键的操作，可以是指用户操作终端的某个按键的按键标识，或者用户操作终端的某个按键的按键标识和操作方向，或者用户操作终端的多个按键的按键标识和操作顺序，或者用户操作终端的多个按键的按键标识、操作顺序以及每个按键的操作轨迹，等等，本实施例对此不进行特别限定。

用户在所述终端上方的悬空滑动，可以是指用户在终端的图像传感器的采集范围之内，在终端上方的悬空滑动轨迹。其中，所述图像传感器可以为电荷耦合元件(chargecoupleddevice，ccd)传感器，或者还可以为金属氧化物半导体元件(complementarymetal-oxidesemiconductor，cmos)传感器，本实施例对此不进行特别限定。所述悬空滑动轨迹可以包括但不限于由若干个连续滑动事件对应的若干个停留点组成的直线或任意形状的曲线。

用户在特定界面上的接触滑动，可以是指用户在终端的显示装置所显示的特定界面上的接触滑动轨迹。通常，终端可以根据显示装置是否具有可触控的特性，分成两种类型，一种类型是触控式终端，另一种类型是非触控式终端。具体地，具体可以检测用户在触控式终端的触控屏所显示的特定界面上的接触滑动数据。所述接触滑动轨迹可以包括但不限于由若干个连续触摸事件对应的若干个触摸点组成的直线或任意形状的曲线。具体来说，具体可以为用户在特定界面上空白区域的长按操作。例如，即时通信类app的对话界面。

用户带动所述终端的运动，可以是指用户手持终端，带动终端所进行运动的运动轨迹，例如，晃动、翻转等。

在一个具体的实现方式中，具体可以利用传感器设备，检测用户对终端的开始操作手势。具体地，所述传感器设备可以包括但不限于重力传感器、加速度传感器、压力传感器、红外线传感器、距离传感器和图像传感器中的至少一个，本实施例对此不进行特别限定。

其中，所述距离传感器可以为超声波距离传感器，或者还可以为红外距离传感器，或者还可以为激光距离传感器，或者还可以为微波距离传感器，本实施例对此不进行特别限定。这些距离传感器都是现有的成熟技术，详细描述可以参见现有技术中的相关内容，此处不再赘述。

其中，所述图像传感器可以为电荷耦合元件(chargecoupleddevice，ccd)传感器，或者还可以为金属氧化物半导体元件(complementarymetal-oxidesemiconductor，cmos)传感器，本实施例对此不进行特别限定。

具体地，检测用户对终端的开始操作手势，具体可以是指检测用户对终端的开始操作手势的起始点、结束点以及由起始点到结束点所形成的轨迹，或者还可以进一步检测所述轨迹所对应的弧度数据。

可选地，在本实施例的一个可能的实现方式中，在101中，具体可以基于预先设置的指定界面，检测用户对终端的开始操作手势。

在一个具体的实现过程中，所述指定界面可以为终端的操作系统的桌面。其中，所述操作系统可以包括但不限于苹果的ios操作系统、谷歌的安卓操作系统或者微软的windows操作系统或其他的终端操作系统。

所谓的操作系统的桌面，是指终端所运行的操作系统所提供的桌面，是用户与终端进行交互的主要入口，也是人机交互的图形用户界面。操作系统的桌面可以设置为包括但不限于任意操作对象。例如，应用程序的图标如，电话、信息、备忘录、照片、微博、微信、手机管家和各种游戏中的一个图标或其任一图标组合等，或者，再例如，系统功能的图标如系统设置的图标或系统菜单等。

在另一个具体的实现过程中，所述指定界面可以为指定应用的任一页面。其中，所述指定应用可以包括但不限于终端中的任一app或预先设置的至少一个应用。例如，即时通信类app、搜索类app等。

在另一个具体的实现过程中，所述指定界面可以为指定应用的指定界面。其中，所述指定应用可以包括但不限于终端中的任一app或预先设置的至少一个应用。例如，即时通信类app、搜索类app等。所述指定界面可以包括但不限于指定应用的预先设置的至少一个页面。例如，即时通信类app的对话界面等。

本实施例中，为了缩短应用输入语音数据的时间，用户可以采用开始操作手势，进行触发，而无需像现有技术那样在用户需要输入语音数据时，需要根据用户的操作展现指定界面，并由用户在指定界面上寻找指定位置处的功能控件并操作，才能采集用户所提供的语音数据。这样，能够使得终端不再受页面的布局，以及当前所正在运行的其他应用的限制，能够有效提高语音数据处理的效率和灵活性。

为了实现上述功能，可选地，在本实施例的一个可能的实现方式中，在102之前，还可以进一步预先设置若干个指定开始手势。只有当所获取的用户对终端的开始操作手势满足预先设置的指定开始手势时，才执行后续的操作。

其中，所述指定开始手势的数据可以存储在终端的存储设备中。

在一个具体的实现过程中，所述终端的存储设备可以慢速存储设备，具体可以为计算机系统的硬盘，或者还可以为手机的非运行内存即物理内存，例如，只读存储器(read-onlymemory，rom)和内存卡等，本实施例对此不进行特别限定。

在另一个具体的实现过程中，所述终端的存储设备还可以为快速存储设备，具体可以为计算机系统的内存，或者还可以为手机的运行内存即系统内存，例如，随机存储器(randomaccessmemory，ram)等，本实施例对此不进行特别限定。

例如，若所获取的开始操作手势是用户对所述终端的按键的操作，则预先设置的指定开始手势则可以为一组按键的预设操作数据。

或者，再例如，若所获取的开始操作手势是用户在所述终端上方的悬空滑动，则预先设置的指定开始手势则可以为一个预设轨迹的轨迹数据，例如，各个方向的直线图案的轨迹数据、“z”图案或“l”图案的轨迹数据等。

或者，再例如，若所获取的开始操作手势是用户在特定界面上的接触滑动，则预先设置的指定开始手势则可以为一个预设轨迹的轨迹数据，例如，长按的轨迹数据、向指定方向滑动一定距离的轨迹数据等。

或者，再例如，若所获取的开始操作手势是用户带动所述终端的运动，则预先设置的指定开始手势则可以为一个预设事件的事件数据，例如，晃动事件。

可选地，在本实施例的一个可能的实现方式中，在102中，若所述开始操作手势满足预先设置的指定开始手势，说明可以开启语音输入功能。在开启语音输入功能之后，可以在当前界面上输出一话筒提示图标，以提示用户正在讲话，以及输出文本内容，以提示取消当前音频数据输入的操作手势。

此时，则可以检测是否有语音数据输入，直至接收语音停止输入指令为止。若检测到有语音数据输入，对所述语音数据进行处理。

这样，能够在整个会话即语音服务过程中，始终检测是否有语音数据输入，客户端无需反复获取用户对终端的开始操作手势，有效地减少了指令交互处理，从而进一步提高了语音输入的效率。

该实现方式中，可以采用现有技术中的任意语音处理技术，对语音数据进行处理，详细描述可以参见现有技术中的相关内容，此处不再赘述。

在一个具体的实现过程中，在检测是否有语音数据输入的同时，还可以进一步获取用户对所述终端的结束操作手势，若所述结束操作手势满足预先设置的指定结束手势，说明可以结束语音输入，则可以接收所述语音停止输入指令。

所述结束操作手势，可以为与所述开始操作手势所对应的相应手势，具体地，所述用户对终端的结束操作手势，也可以包括但不限于下列操作手势中的至少一项：

用户对所述终端的按键的操作；

用户在所述终端上方的悬空滑动；

用户在特定界面上的接触滑动；以及

用户带动所述终端的运动。

其具体描述也可以参见所述开始操作手势的具体描述，此处不再赘述。

本发明与现有技术的不同点主要在于，通过对终端进行功能热区的设置，对终端增加热区操作，例如，对特定界面上空白区域增加热区点击或对终端增加摇动事件等热点事件操作，等等，在输入过程中，简化语音输入的操作步骤，增加应用语音输入的方便快捷性。对搜索类应用的语音搜索功能、社交类应用的语音聊天功能等的使用效率，会大幅提升。

本实施例中，通过获取用户对终端的开始操作手势，若所述开始操作手势满足预先设置的指定开始手势，使得能够开启语音输入功能，以采集所述用户的语音数据，由于采用指定的开始操作手势触发执行语音服务，使得无需在指定界面的指定位置设置用于输入语音数据的功能控件，能够避免现有技术中由于用于输入语音数据的功能控件设置在指定界面的指定位置而导致的在用户需要输入语音数据时操作繁琐且不灵活的技术问题，从而提高了语音数据处理的效率和灵活性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2为本发明另一实施例提供的语音数据的处理装置的结构示意图，如图2所示。本实施例的语音数据的处理装置可以包括获取单元21和语音单元22。其中，获取单元21，用于获取用户对终端的开始操作手势；语音单元22，用于若所述开始操作手势满足预先设置的指定开始手势，开启语音输入功能，以采集所述用户的语音数据。

需要说明的是，本实施例的语音数据的处理装置的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(softwaredevelopmentkit，sdk)等功能单元，或者还可以为位于网格侧服务器中的处理引擎，或者还可以为位于网格侧的分布式系统，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，所述获取单元21，具体可以用于基于预先设置的指定界面，检测用户对终端的开始操作手势。

可选地，在本实施例的一个可能的实现方式中，所述用户对终端的开始操作手势，可以包括但不限于下列操作手势中的至少一项：

用户对所述终端的按键的操作；

用户在所述终端上方的悬空滑动；

用户在特定界面上的接触滑动；以及

用户带动所述终端的运动。

其中，所述用户在特定界面上的接触滑动，可以为用户在特定界面上空白区域的长按操作。

可选地，在本实施例的一个可能的实现方式中，所述语音单元22，具体可以用于若所述开始操作手势满足预先设置的指定开始手势，检测是否有语音数据输入，直至接收语音停止输入指令为止；若检测到有语音数据输入，则可以对所述语音数据进行处理。

在该实现方式中，所述语音单元22，还可以进一步用于获取用户对所述终端的结束操作手势；若所述结束操作手势满足预先设置的指定结束手势，则可以接收所述语音停止输入指令。

需要说明的是，图1对应的实施例中方法，可以由本实施例提供的语音数据的处理装置实现。详细描述可以参见图1对应的实施例中的相关内容，此处不再赘述。

本实施例中，通过获取单元获取用户对终端的开始操作手势，语音单元若所述开始操作手势满足预先设置的指定开始手势，使得能够开启语音输入功能，以采集所述用户的语音数据，由于采用指定的开始操作手势触发执行语音服务，使得无需在指定界面的指定位置设置用于输入语音数据的功能控件，能够避免现有技术中由于用于输入语音数据的功能控件设置在指定界面的指定位置而导致的在用户需要输入语音数据时操作繁琐且不灵活的技术问题，从而提高了语音数据处理的效率和灵活性。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，音频处理引擎，或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩璐
技术所有人：百度在线网络技术(北京)有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。