语音数据处理方法和装置及电子装置与流程

文档序号：20692158发布日期：2020-05-08 19:43阅读：143来源：国知局

本发明涉及语音处理领域，具体而言，涉及一种语音数据处理方法和装置及电子装置。

背景技术：

在世界上具有多种声调语言，声调语言的特点，是指只发同一个语音的时候，用不同长短、不同高低的声调，会构成不同的意思(即语意或语义)的话与涵义。在声调语言中，通常一个语音有多个声调，因此会产生许多的近音字，且各个近音字所表达出的意思也不相同。在对汉字的语音识别过程中，根据汉字的特性，有些近音字的声韵母相同但声调不同，同一汉字在不同的声调下代表不同的意义，而且相同的读音可能代表完全不同的汉字，所以导致语音识别装置对近音字的识别准确率很低。

针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种语音数据处理方法和装置及电子装置，以至少解决现有技术中，语音信息识别精确度低的技术问题。

根据本发明实施例的一个方面，提供了一种语音数据处理方法，包括：提取目标对象的语音信息中的无声调特征的音素和有声调特征的音素，其中，所述音素对应语音中待识别文字的音素，所述声调对应语音中待识别文字的声调；通过所述音素获取对应所述音素的目标音素库，其中，所述目标音素库中包括对应所述音素的n种声调音素，所述n为大于1的自然数；根据所述有声调特征与所述目标音素库中的音素进行匹配，确定出所述语音信息对应的文本音素，并根据所述文本音素识别出所述语音信息对应的文本。

根据本发明实施例的另一方面，还提供了一种语音数据处理装置，包括：提取单元，用于提取目标对象的语音信息中的无声调特征的音素和有声调特征的音素，其中，所述音素对应语音中待识别文字的音素，所述声调对应语音中待识别文字的声调；第一获取单元，用于通过所述音素获取对应所述音素的目标音素库，其中，所述目标音素库中包括对应所述音素的n种声调音素，所述n为大于1的自然数；确定单元，用于根据所述有声调特征与所述目标音素库中的音素进行匹配，确定出所述语音信息对应的文本音素，并根据所述文本音素识别出所述语音信息对应的文本。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述语音数据处理方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的语音数据处理方法。

在本发明实施例中，通过提取目标对象的语音信息中的无声调特征的音素和有声调特征的音素，其中，音素对应语音中待识别文字的音素，声调对应语音中待识别文字的声调；通过音素获取对应音素的目标音素库，其中，目标音素库中包括对应音素的n种声调音素，n为大于1的自然数；根据有声调特征与目标音素库中的音素进行匹配，确定出语音信息对应的文本音素，并根据文本音素识别出语音信息对应的文本，达到了分别根据音素和声调信息进行语音信息的识别的目的，从而实现了根据音素特征确定目标音素库，根据声调特征确定文本音素的技术效果，进而解决了现有技术中，语音信息识别精确度低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的语音数据处理方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的语音数据处理方法的流程图；

图3是根据本发明实施例的一种可选的语音数据处理装置的结构示意图；

图4是根据本发明实施例的一种可选的语音数据处理方法的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种语音数据处理方法，可选地，作为一种可选的实施方式，上述语音数据处理方法可以但不限于应用于如图1所示的硬件环境中的语音数据处理系统中，其中，该语音数据处理系统可以包括但不限于终端设备102、网络110及服务器112。

其中，上述终端设备102中可以包括但不限于：人机交互屏幕104，处理器106及存储器108。人机交互屏幕104用于通过人机交互接口获取人机交互指令；处理器106用于响应上述人机交互指令。存储器108用于存储目标对象的语音信息、目标音素库等属性信息。这里服务器可以包括但不限于：数据库114及处理引擎116，处理引擎116用于调用数据库114中存储的目标音素库，与语音信息中提取的音素进行比对，确定目标音素库，根据有声调特征与目标音素库中的音素进行匹配，确定出语音信息对应的文本音素，并根据文本音素识别出语音信息对应的文本。达到了分别根据音素和声调信息进行语音信息的识别的目的，从而实现了根据音素特征确定目标音素库，根据声调特征确定文本音素的技术效果，进而解决了现有技术中，语音信息识别精确度低的技术问题。

具体过程如以下步骤：在终端设备102中如步骤s102-s110，获取目标对象的语音信息，并将该语音信息通过网络110发送服务器112。在服务器112根据提取目标对象的语音信息中的无声调特征的音素和有声调特征的音素，其中，音素对应语音中待识别文字的音素，声调对应语音中待识别文字的声调，通过音素获取对应音素的目标音素库，其中，目标音素库中包括对应音素的n种声调音素，n为大于1的自然数；根据有声调特征与目标音素库中的音素进行匹配，确定出语音信息对应的文本音素，并根据文本音素识别出语音信息对应的文本。然后将上述确定出的结果返回终端设备102。

可选地，在本实施例中，上述语音数据处理方法可以但不限于应用于服务器104中，用于协助进行语音数据处理。其中，该终端设备102可以但不限于为手机、平板电脑、笔记本电脑、pc机等支持运行应用客户端的终端设备。上述服务器114和终端设备102可以但不限于通过网络实现数据交互，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、wifi及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图2所示，上述语音数据处理方法包括：

步骤s202，提取目标对象的语音信息中的无声调特征的音素和有声调特征的音素，其中，音素对应语音中待识别文字的音素，声调对应语音中待识别文字的声调。

步骤s204，通过音素获取对应音素的目标音素库，其中，目标音素库中包括对应音素的n种声调音素，n为大于1的自然数。

步骤s206，根据有声调特征与目标音素库中的音素进行匹配，确定出语音信息对应的文本音素，并根据文本音素识别出语音信息对应的文本。

可选的，在本实施例中，目标对象可以包括但不限于：与顾客对话的服务人员、商店的导购人员等等。目标音素库中可以包括但不限于4种不同的音调对应的音素。例如，在中文中通常包括4个声调，即一声、二声、三声以及四声。

具体的，在实际应用中，将同音字(ai)设置两个子模型，一个是无声调特征的子模型，一个是分别区分声调为一声、二声、三声和四声的子模型；识别时，先通过音素(ai)找到目标音素库，再通过声调特征(例如，一声)找到第二个子模型中声调为一声的同音字(哎、哀、诶、唉、娭、挨、埃、溾、嗳、锿、鎄)。

可选的，在本实施例中，通过音素获取对应音素的目标音素库，包括：

s1，获取目标行业目标对象的语音信息；

s2，从语音信息中提取目标语音信息对应的参考词库，根据参考词库创建目标音素库，其中，目标音素库中存储音素与对应不同声调之间的关系。

需要说明的是，目标行业可以包括但不现有餐饮行业、酒店行业等等。

其中，根据参考词库创建目标音素库，可以包括：

识别出参考词库中对应近音字的音素库和/或对应同音字的音素库；

将近音字的音素库和/或同音字的音素库确定为目标音素库。

需要说的是，根据文本音素识别出语音信息对应的文本，包括：

根据文本音素和语音信息对应的语义识别出语音信息对应的文本。

通过本申请提供的实施例，通过提取目标对象的语音信息中的无声调特征的音素和有声调特征的音素，其中，音素对应语音中待识别文字的音素，声调对应语音中待识别文字的声调；通过音素获取对应音素的目标音素库，其中，目标音素库中包括对应音素的n种声调音素，n为大于1的自然数；根据有声调特征与目标音素库中的音素进行匹配，确定出语音信息对应的文本音素，并根据文本音素识别出语音信息对应的文本，达到了分别根据音素和声调信息进行语音信息的识别的目的，从而实现了根据音素特征确定目标音素库，根据声调特征确定文本音素的技术效果，进而解决了现有技术中，语音信息识别精确度低的技术问题。

作为一种可选的方案，提取目标对象的语音信息中的无声调特征的音素和有声调特征的音素之前，还包括：

通过目标语音采集设备获取目标对象的语音信息，其中，目标语音采集设备设置在目标位置。

作为一种可选的实施方案，本申请提供了一种基于声调特征的语音识别方法。具体步骤如下：

步骤1，基于大数据，构建餐饮服务的行业词库，并提取出含有近音字的参考词库。

以餐饮行业为例，可通过去重、去噪、筛选、筛选敏感词反复去噪、规整的处理方式建立餐饮服务行业的行业词库。

将餐饮服务的行业词库进行数据整理得到参考词库，参考词库中包括若干个参考词组，参考词组是以拼音为分组依据，将餐饮服务的行业词库中有同音字和近音字的词划为一组。

根据参考词库生成参考词库音素表(相当于目标音素库)，该参考词库音素表中添加了声调音素；参考词库音素表中包括若干个音素子模型(每个参考词组对应一个音素子模型)；每个音素子模型中包括若干个有同音字和近音字的词的音素单元。

步骤2，特征提取：获取餐饮服务过程中服务人员与顾客之间的对话语音信号，将对话语音信号进行处理，得到无声调特征的声学单元；并采用现有的基频提取算法，得到有声调特征的声学单元(包括音素、声调等)。

步骤3，将无声调特征的声学单元与参考词库音素表进行第一次匹配，找到对应的音素子模型(相当于目标音素库)。

步骤4，将有声调特征的声学单元与音素子模型进行第二次匹配，根据声调特征进行区分，找到对应的音素单元，再由音素单元转换到具体的文字文本。

需要说明的是，可以构建一个“音素-声调表”，音素子模型中是音素加入了声调单元，在每个音素子模型中各个音素后面加上声调信息，声母不变。然后利用现有技术去训练一个语音识别模型，先对步骤3中的含无声调的音素单元进行训练，再将加入声调后的语音识别引擎对近音字进行识别。

在本实施例中的步骤3、步骤4进行举例：将同音字(ai)设置两个子模型，一个是无声调特征的子模型，一个是分别区分声调为一声、二声、三声和四声的子模型；识别时，先通过音素(ai)找到第一个子模型(目标音素库)，再通过声调特征(例如，一声)找到第二个子模型中声调为一声的同音字(哎、哀、诶、唉、娭、挨、埃、溾、嗳、锿、鎄)。

通过本申请提供的实施例可以达到的有益效果如下：添加了声调特征，能够提高语音识别的准确性；采用两次识别的方式，能够快速、精确地锁定到对应的音素单元；将音素模型和声调模型区分的方式，减小了每次进行模型匹配时的数据量，提升了识别速度。

即本实施例中，通过在近音字对应的词典音素中添加声调特征，提高语音识别装置对近音字的识别准确性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述语音数据处理方法的语音数据处理装置。如图3所示，该语音数据处理装置包括：提取单元31、第一获取单元33以及确定单元35。

提取单元31，用于提取目标对象的语音信息中的无声调特征的音素和有声调特征的音素，其中，音素对应语音中待识别文字的音素，声调对应语音中待识别文字的声调；

第一获取单元33，用于通过音素获取对应音素的目标音素库，其中，目标音素库中包括对应音素的n种声调音素，n为大于1的自然数；

确定单元35，用于根据有声调特征与目标音素库中的音素进行匹配，确定出语音信息对应的文本音素，并根据文本音素识别出语音信息对应的文本。

其中，第一获取单元33，包括：

获取模块，用于获取目标行业目标对象的语音信息；

创建模块，用于从语音信息中提取目标语音信息对应的参考词库，根据参考词库创建目标音素库，其中，目标音素库中存储音素与对应不同声调之间的关系。

其中，创建模块，包括：

识别子模块，用于识别出参考词库中对应近音字的音素库和/或对应同音字的音素库；

确定子模块，用于将近音字的音素库和/或同音字的音素库确定为目标音素库。

通过本申请提供的实施方案，提取单元31提取目标对象的语音信息中的无声调特征的音素和有声调特征的音素，其中，音素对应语音中待识别文字的音素，声调对应语音中待识别文字的声调；第一获取单元33通过音素获取对应音素的目标音素库，其中，目标音素库中包括对应音素的n种声调音素，n为大于1的自然数；确定单元35根据有声调特征与目标音素库中的音素进行匹配，确定出语音信息对应的文本音素，并根据文本音素识别出语音信息对应的文本。

作为一种可选的实施方案，上述装置还可以包括：

第二获取单元，用于提取目标对象的语音信息中的无声调特征的音素和有声调特征的音素之前，通过目标语音采集设备获取目标对象的语音信息，其中，目标语音采集设备设置在目标位置。

根据本发明实施例的又一个方面，还提供了一种用于实施上述语音数据处理方法的电子装置，如图4所示，该电子装置包括存储器402和处理器404，该存储器402中存储有计算机程序，该处理器404被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

s1，提取目标对象的语音信息中的无声调特征的音素和有声调特征的音素，其中，音素对应语音中待识别文字的音素，声调对应语音中待识别文字的声调；

s2，通过音素获取对应音素的目标音素库，其中，目标音素库中包括对应音素的n种声调音素，n为大于1的自然数；

s3，根据有声调特征与目标音素库中的音素进行匹配，确定出语音信息对应的文本音素，并根据文本音素识别出语音信息对应的文本。

可选地，本领域普通技术人员可以理解，图4所示的结构仅为示意，电子装置也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobileinternetdevices，mid)、pad等终端设备。图4其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图4中所示更多或者更少的组件(如网络接口等)，或者具有与图4所示不同的配置。

其中，存储器402可用于存储软件程序以及模块，如本发明实施例中的语音数据处理方法和装置对应的程序指令/模块，处理器404通过运行存储在存储器402内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音数据处理方法。存储器402可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器402可进一步包括相对于处理器404远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器402具体可以但不限于用于存储目标对象的语音信息、目标音素库等信息。作为一种示例，如图4所示，上述存储器402中可以但不限于包括上述语音数据处理装置中的提取单元31、第一获取单元33以及确定单元35。此外，还可以包括但不限于上述语音数据处理装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置406包括一个网络适配器(networkinterfacecontroller，nic)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置406为射频(radiofrequency，rf)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器408，用于显示上述确定的文本；和连接总线410，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

s2，通过音素获取对应音素的目标音素库，其中，目标音素库中包括对应音素的n种声调音素，n为大于1的自然数；

s3，根据有声调特征与目标音素库中的音素进行匹配，确定出语音信息对应的文本音素，并根据文本音素识别出语音信息对应的文本。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-onlymemory，rom)、随机存取器(randomaccessmemory，ram)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘洋;梁志婷
技术所有人：秒针信息技术有限公司
我是此专利的发明人

上一篇：单轴拧紧机的制作方法
上一篇：一种可控气弹簧的空心杆组件预装配设备的制作方法