语音处理方法及装置、计算机可读介质、电子设备与流程

文档序号：23890655发布日期：2021-02-09 09:42阅读：100来源：国知局

[0001]
本公开涉及人工智能技术领域，具体而言，涉及一种语音处理方法、语音处理装置、计算机可读介质及电子设备。

背景技术：

[0002]
语言是由词汇按一定的语法所构成的语音表义系统，世界各个民族都有自己的语言，即使是同一个民族也会衍生出多种不同的语言，并且各类语言中还会存在发音变异的现象，例如新疆维吾尔自治区有45％的居民是维吾尔族，维吾尔语是他们主要的沟通工具，目前维吾尔语方言分为中心方言、和田方言和罗布方言，其中中心方言对应标准音，是新疆通用的官方标准语，而和田方言和罗布方言对应变异音，只在局部地区被使用。
[0003]
随着人工智能技术的发展，人们主要通过机器学习模型进行语音处理任务。在对机器学习模型进行训练时，通常需要对具有变异音的语料进行标注，然后再根据标注的语料进行标注建模，但是由于语料标注难度大，并且对标注者的语言能力要求高，因此使得人工标注周期长，成本高，同时由于语料库有限，导致训练后的模型性能一般，无法有效识别具有变异音的语音信息，进而降低了用户体验。
[0004]
需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

[0005]
本公开的实施例提供了一种语音处理方法、语音处理装置、计算机可读介质及电子设备，进而至少在一定程度上可以基于语言规则直接建立具有标准音的语言和具有变异音的语言的发音变异规则，进而根据具有标准音的词汇和对应的具有变异音的词汇构建多发音词典，并根据多发音词典进行语音处理，避免了人工标注，降低了人工标注成本，并且基于多发音词典可以提高对具有变异音的语音信息的处理精度和处理效率。
[0006]
本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。
[0007]
根据本公开实施例的一个方面，提供了一种语音处理方法，包括：获取具有变异音的语音信息，对所述语音信息进行预处理以获取语音特征信息；对所述语音特征信息进行特征提取，以获取与所述语音特征信息对应的状态信息；根据所述状态信息和多发音词典确定与所述语音信息对应的具有标准音的文本信息，其中所述多发音词典是根据具有标准音的第一词汇和与所述第一词汇具有相同语义且具有变异音的第二词汇构建的，所述第一词汇和所述第二词汇为拼音文字。
[0008]
根据本公开实施例的一个方面，提供了一种语音处理装置，包括：预处理模块，用于获取具有变异音的语音信息，对所述语音信息进行预处理以获取语音特征信息；状态信息获取模块，用于对所述语音特征信息进行特征提取，以获取与所述语音特征信息对应的状态信息；文本获取模块，用于根据所述状态信息和多发音词典确定与所述语音信息对应
的具有标准音的文本信息，其中所述多发音词典是根据具有标准音的第一词汇和与所述第一词汇具有相同语义且具有变异音的第二词汇构建的，所述第一词汇和所述第二词汇为拼音文字。
[0009]
根据本公开实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述的可选实现方式中提供的语音处理方法。
[0010]
根据本公开实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的可选实现方式中提供的语音处理方法。
[0011]
根据本公开实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的可选实现方式中提供的语音处理方法。
[0012]
在本公开的一些实施例所提供的技术方案中，在获取具有变异音的语音信息后，首先对语音信息进行预处理获取语音特征信息，然后对语音特征信息进行特征提取获取与语音特征信息对应的状态信息，最后根据状态信息和多发音词典即可确定与语音信息对应的具有标准音的文本信息，其中多发音词典是根据具有标准音的第一词汇和与第一词汇具有相同语义且具有变异音的第二词汇构建形成的，具体地，在获取具有标准音的第一词汇后，根据发音变异规则集确定与第一词汇对应的规则链，接着根据规则链对第一词汇中的音素进行转换以获取与第一词汇对应的具有变异音的第二词汇，最后根据第一词汇和第二词汇构建多发音词典。本公开的技术方案一方面基于发音变异规则集确定能够获取与具有标准音的第一词汇对应的具有变异音的第二词汇，进而根据第一词汇和第二词汇构建多发音词典，避免了大量标注语料，节省了人工标注成本和时间；另一方面能够避免语料不足导致的语音处理系统的处理准确率低和效率低的问题。
[0013]
应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
[0014]
此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：
[0015]
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
[0016]
图2示意性示出了根据本公开的一个实施例的语音处理方法的流程示意图多发音词典构建方法的流程示意图。
[0017]
图3示意性示出了根据本公开的一个实施例的dfsmn子模型的结构示意图。
[0018]
图4示意性示出了根据本公开的一个实施例的多发音词典构建方法的流程示意图。
[0019]
图5示意性示出了根据本公开的一个实施例的一种获取规则链的流程示意图。
[0020]
图6示意性示出了根据本公开的一个实施例的另一种获取规则链的流程示意图。
[0021]
图7示意性示出了根据本公开的一个实施例的获取第二词汇的流程示意图。
[0022]
图8示意性示出了根据本公开的一个实施例的获取第二词汇的流程示意图。
[0023]
图9示意性示出了根据本公开的一个实施例的语音处理装置的框图。
[0024]
图10示意性示出了根据本公开的一个实施例的语音处理装置的框图。
[0025]
图11示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0026]
现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。
[0027]
此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
[0028]
附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0029]
附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。
[0030]
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
[0031]
如图1所示，系统架构100可以包括终端设备101、网络102以及服务器103。其中，上述终端设备101可以是手机、便携式计算机、平板电脑、台式机等具有显示屏幕的终端设备；网络102为用以在终端设备101和服务器103之间提供通信链路的介质，网络102可以包括各种连接类型，例如有线通信链路、无线通信链路等等，在本公开实施例中，终端设备101和服务器103之间的网络102可以是无线通信链路，具体地可以是移动网络。
[0032]
应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端、网络和服务器。比如服务器103可以是单个服务器，也可以是由多个服务器组成的服务器集群等，可用于存储与多发音词典构建以及语音处理相关的信息。
[0033]
在本公开的一个实施例中，用户通过收集各类拼音文字类的资料以及通过访谈等形式，可以获取具有标准音的词汇和同一语种下与该具有标准音的词汇对应的具有变异音的词汇，其中标准音是官方语言所具有的发音，变异音是在同一语种下与标准音对应的存在发音变异的发音，对于拼音文字，具有标准音的词汇的发音和拼写方式与对应的具有变异音的词汇的发音和拼写方式均不同。在获取具有标准音的词汇和毒瘾的具有变异音的词汇后，可以在语言专家的帮助下根据具有标准音的词汇和具有变异音的词汇确定标准音音素和变异音音素之间的发音变异规律，进而根据标准音音素、变异音音素和所获取的发音变异规律形成发音变异规律集。进一步地，用户通过终端设备101可以以正则表达的方式对
发音变异规律集进行脚本化处理，进而在用户在终端设备101中输入新的具有标准音的词汇后，可以通过脚本将具有标准音的词汇快速转换为具有变异音的词汇，最终根据具有标准音的词汇和对应的具有变异音的词汇构建多发音词典。其中，在多发音词典中具有标准音的词汇对应的具有变异音的词汇的数量可能有一个或多个。在获取多发音词典后，可以通过网络102将多发音词典发送至服务器103，以使服务器103根据多发音词典对配置于服务器上的语音处理系统中的声学模型进行训练，在完成对声学模型的训练之后，可以通过训练好的语音处理系统对所接收到的具有变异音的语音信息进行识别，进而输出与该语音信息对应的具有标准音的文本信息。在获取与语音信息对应的具有标准音的文本信息时，首先对语音信息进行预处理以获取语音特征信息，然后通过声学模型对语音特征信息进行特征提取以获取与语音特征信息对应的状态信息，最后通过语言模型根据状态信息和多发音词典确定与语音信息对应的具有标准音的文本信息。
[0034]
需要说明的是，本公开实施例所提供的语音处理方法一般由服务器执行，相应地，语音处理装置一般设置于服务器中。但是，在本公开的其它实施例中，也可以由终端设备执行本公开实施例所提供的语音处理方法。
[0035]
在本领域的相关技术中，对于同一语种下标准音和变异音之间的发音变异仅停留在研究层面，暂无成熟的技术解决方案，虽然在相关技术中，存在基于统计法进行多发音词典构建的方案，但是基于统计法的多发音词典构建需要大量的标注数据，但是由于标注难度大并且对标注者的语音能力要求高，因此存在标注周期长，成本高的问题，并且基于统计法所构建的多发音词典存在标注数据少的问题，进而使得基于多发音词典训练得到的模型的性能较差，采用该模型对输入的具有变异音的语音信息进行音转文后所得到的文本信息的准确度较低，并且识别效率也低。
[0036]
基于本领域相关技术存在的问题，本公开实施例提供了一种语音处理方法，该语音处理方法是基于机器学习实现的，机器学习属于人工智能的一种，人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
[0037]
人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0038]
计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生
物特征识别技术。
[0039]
机器学习(machine learning,ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
[0040]
随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
[0041]
本公开实施例提供的方案涉及人工智能的自然语言处理技术，具体通过如下实施例进行说明：
[0042]
图2示意性示出了根据本公开的一个实施例的语音处理方法的流程图，该语音处理方法可以由服务器来执行，该服务器可以是图1中所示的服务器103。在本公开实施例中的语音处理方法中会涉及多发音词典的构建，所构建的多发音词典主要应用于拼音文字类的语言，拼音文字本身没有具体意义，仅表达发音，通过一个拼音文字或多个拼音文字进行组合，以赋予其相应地语义，目前采用拼音文字的语种较多，例如回鹘语、藏语、蒙古语、维吾尔语等等。为了使得本公开的技术方案更清晰，接下来以维吾尔语为例进行说明，参照图2所示，该语音处理方法至少包括步骤s210至步骤s230，详细介绍如下：
[0043]
在步骤s210中，获取具有变异音的语音信息，对所述语音信息进行预处理以获取语音特征信息。
[0044]
在本公开的一个实施例中，为了将具有变异音的语音信息转换为具有标准音的文本信息，首先需要获取具有变异音的语音信息，以维吾尔语为例，为了将对应和田方言的语音信息转换为对应中心方言的文本信息，那么就需要获取对应和田方言的语音信息，然后对其进行转换处理。该语音信息可以通过终端设备中的语音收集模块收集得到，也可以通过下载方式获取该语音信息，等等。在对具有变异音的语音信息进行处理时，可以将该语音信息输入至语音处理系统，通过该语音处理系统对该语音信息先进行预处理以获取与该语音信息对应的语音特征信息，然后再对语音特征信息进行特征提取并搜索以获取对应的文本信息。
[0045]
其中，对语音信息进行预处理的流程具体可以是，首先对语音信息进行语音端点检测，并根据检测结果对语音信息进行切分，以获取多个语音帧；接着对各语音帧进行特征提取，以获取与各语音帧对应的语音特征信息。由于语音信息在首尾部通常会存在静音，为了提高语音处理效率和处理效果，可以通过对语音信息进行语音端点检测以去除语音信息中的静音部分，只保留有实质内容的语音信息，再对其进行语音处理即可。在获取去除静音部分的语音信息后，可以通过语音分帧的方法把去除静音的语音信息分成一小段一小段，每一小段称为一帧，在分帧的过程中，可以根据移动窗函数以预设帧长和预设帧移进行划分，以获取与语音信息对应的多个语音帧。考虑到语音帧依然还是波形的形式，在时域上几乎没有描述能力，因此需要将语音帧的波形进行变换，例如可以通过提取语音帧的pncc特
征或者mfcc特征把每一个语音帧的波形转换为多维向量，该多维向量包含对应语音帧的内容信息，记为语音特征信息，也就是说，通过对每个语音帧进行特征提取，可以获取与各个语音帧对应的语音特征信息。
[0046]
进一步地，为了提高语音处理的精准度，在获取语音信息，对语音信息进行语音端点检测之前，还可以对语音信息进行清洁处理，以获取清洁语音信息。具体地，可以对语音信息进行降噪、声源定位、回声消除等处理，以获取清洁语音信息。
[0047]
在步骤s220中，对所述语音特征信息进行特征提取，以获取与所述语音特征信息对应的状态信息。
[0048]
在本公开的一个实施例中，语音处理系统还包括声学模型、语言模型，其中语言模型包括多发音词典。在获取各语音帧的语音特征信息后，各语音帧的语音特征信息首先被输入至声学模型，通过声学模型对语音特征信息进行特征提取，以获取与语音特征信息对应的状态信息，该状态信息具体为语音信息对应的音素的分布信息，根据各个语音帧的状态信息即可确定与语音信息对应的音素。
[0049]
在本公开的实施例中，声学模型可以是混合高斯模型、隐马尔科夫模型、深度神经网络-隐马尔科夫模型等模型，作为示例，本公开实施例中的声学模型可以包括dfsmn子模型，同时dfsmn子模型包括多级声学特征提取结构，在对语音特征信息进行特征提取以获取对应的状态信息时，可以首先通过各级声学特征提取网络结构依次对语音特征信息进行处理，以获取目标隐层信息；该目标隐层信息为用于确定音素分布信息的隐层信息；然后对目标隐层信息进行转换，以获取与语音特征信息对应的状态信息。
[0050]
图3示出了一种dfsmn子模型的结构示意图，如图3所示，dfsmn子模型300包括输入层301，三级声学特征提取结构302、303和304，目标隐藏层305和输出层306，其中三级声学特征提取结构302、303和304均包含低维投影网络层、记忆单元和隐藏层，且第一级声学特征提取结构302中的隐藏层与第二级声学特征提取结构303中的隐藏层跳层连接，第二级声学特征提取结构303中的隐藏层与第三级声学特征提取结构304中的隐藏层跳层连接，并且记忆单元中均设置卷积神经网络。
[0051]
基于图3所示的dfsmn子模型的结构对如何获取状态信息的流程进行详细说明。对语音信息进行预处理所获取的语音特征信息x
t
通过输入层301输入至dfsmn子模型，输入层301将语音特征信息x
t
发送至第一级声学特征提取结构302以获取第一级隐层信息第一级低维投影信息和第一级记忆信息接着第一级声学特征提取结构302将第一级隐层信息和第一级记忆信息发送至第二级声学特征提取结构303，以获取第二级隐层信息第二级低维投影信息和第二级记忆信息然后第二级声学特征提取结构303将第二级隐层信息和第二级记忆信息发送至第三级声学特征提取结构304，以获取第三级隐层信息第三级低维投影信息和第三级记忆信息紧接着，第三级声学特征提取网络结构304将第三级隐层信息和第三级记忆信息发送至目标隐藏层305，以获取第四级隐层信息即目标隐层信息；最后目标隐藏层305将目标隐层信息发送至输出层306，通过根据第二权重对目标隐层信息进行处理以获取状态信息。
[0052]
进一步地，为了提高语音处理的精准度，还可以在通过dfsmn子模型对各语音特征
信息进行特征提取之前，对语音特征信息进行再处理，然后将再处理后的语音特征信息输入至dfsmn子模型进行语音处理。再处理具体可以包括通过在dfsmn子模型前设置的信息增强层和卷积神经网络层分别对语音特征信息进行增强处理和对增强处理后的语音特征信息进行特征提取，以获取更丰富的语音特征信息。
[0053]
在步骤s230中，根据所述状态信息和多发音词典确定与所述语音信息对应的具有标准音的文本信息，其中所述多发音词典是根据具有标准音的第一词汇和与所述第一词汇具有相同语义且具有变异音的第二词汇构建的，所述第一词汇和所述第二词汇为拼音文字。
[0054]
在本公开的一个实施例中，在声学模型输出与语音特征信息对应的状态信息之后，状态信息可以被输入至语言模型，通过该语言模型对状态信息基于多发音词典进行语音到文字的搜索过程，并进行解码，以获取与具有变异音的语音信息对应的具有标准音的文本信息。其中，声学模型是对语音信息到对应音素的映射关系进行建模，语言模型和多发音词典是对音素到文字的映射关系进行建模，因此在获取声学模型输出的状态信息后，可以通过语言模型基于多发音词典对状态信息进行搜索、解码，获取与具有变异音的语音信息对应的具有标准音的文本信息。
[0055]
可以看出，多发音词典的构建是实现本公开实施例中的语音处理方法的一个关键点，与相关技术中通过统计的方式形成多发音词典不同，在本公开的实施例中，通过采用基于规则的方法形成多发音词典，一方面避免了大量标注语料，节省了人工标注成本和时间，另一方面避免了语料不足导致的语音处理系统的处理准确率低和效率低的问题。接下来，对如何构建多发音词典进行详细说明。
[0056]
图4示出了多发音词典的构建方法的流程示意图，如图4所示，该流程至少包括步骤s410-步骤s430，具体如下：
[0057]
在步骤s410中，获取所述具有标准音的第一词汇，根据发音变异规则集确定与所述第一词汇对应的规则链，其中所述发音变异规则集是基于标准音音素和变异音音素之间的转换规则构建而成的。
[0058]
在本公开的一个实施例中，维吾尔语属于阿尔泰语系突厥语族，在形态结构上属于黏着语类型，由32个字母(音素)组成，包括8个元音音素和24个辅音音素。目前在新疆自治区主要存在三种方言：中心方言、和田方言和罗布方言，其中中心方言又称西北方言，是新疆通用的官方标准语，和田方言又称南部方言，包含和田、且末、民丰等地方言，罗布方言是罗布泊地区的方言。由于罗布方言相对于中心方言和和田方言的使用人数很少，所以在本公开实施例中主要研究中心方言和和田方言之间的映射关系。中心方言作为官方标准语，那么其具有标准音，而对于和田方言，由于发音变异现象的存在，因此和田方言具有变异音，同时由于维吾尔语采用的是拼音文字，那么当与中心方言具有相同语义的和田方言发生发音变异时，其发音和书写形式也与中心方言的发音和书写形式不同。需要说明的是，本公开实施例中所涉及的音素均以老维文为基础。
[0059]
中心方言与和田方言之间的发音变异是有规律可循的，因此可以根据大量中心方言的词汇与和田方言的词汇之间的发音变异规律构建多发音词典，再基于多发音词典对中心方言或和田方言进行转换。值得注意的是，考虑到语言的演变，即使是和田方言也可能存在多种变形，那么对于中心方言中的一个音素就可能有一个或多个和田方言中的音素与之
对应，因此，在本公开实施例中，将根据中心方言的标准音音素与和田方言中的变异音音素所构建的发音词典称为多发音词典。
[0060]
在本公开的一个实施例中，多发音词典的构建是基于中心方言与和田方言之间的发音变异规则通过组合的方式实现的，其中，中心方言与和田方言之间的发音变异规则主要以发音变异规则集的形式体现，具体地可以通过工程人员收集各类涉及中心方言与和田方言发音变异规律的资料以及对擅长或研究中心方言及和田方言的人物进行访谈等获取相关资料，并通过语言专家根据所获取的资料进行总结以获取中心方言与和田方言之间的发音变异规律，进而形成发音变异规律集。由于中心方言中的音素可能对应一个或多个和田方言中的音素，因此在总结发音变异规律时，以中心方言的音素为基准，总结与各个中心方言的音素对应的和田方言的音素以及二者之间的转换规则，例如对于中心方言中的音素在和田方言中存在三种变音音素，分别为其中在将音素转换为音素时需要满足的转换规则是“中心方言中的o为开音节时，在转换为和田方言时，将o变成u”，在将音节转换为音节时需要满足的转换规则是“中心方言中第一个音节处于开元音，后边音节元音中有u，则前一个音节中的o变成u，后一个音节中的u变成a”，在将音节转换为音节时需要满足的转换规则是“中心方言中少数o在和田方言中变为a”。根据中心方言与和田方言在元音音素和辅音音素上的发音变异，本公开体系化的总结了元音音素之间的映射，辅音音素之间的变音、增音和脱落等规律，具体如表1所示：
[0061]
表1发音变异规则集
[0062]
需要说明的是，表1中的中心方言字母与和田方言字母均为老维文，而条件规则中的字母均为新维文，另外在辅音音素的发音变异规则表中只有20个辅音音素在转换为和田
方言时存在变化，其余4个辅音音素在转换时不存在变化。从表1可知，元音音素主要是音素(字母)之间的映射转换，而辅音音素除了字母之间的转换外，还有音素的增加和脱落。同时可以发现，对于部分音素还会存在不确定的转换结果，例如表1中将中心方言中的元音音素转换为的转换规则为“当词汇中出现一个或多个a，转换结果不同”，表示在将中心方言中的转换为和田方言中的音素时，根据词汇中a的数量不同，转换结果有所不同，有可能转换为也有可能不转换为这样可以针对一个中心方言的词汇转换得到更多的和田方言的词汇，进而可以提高多发音词典的词汇量，并提高语音处理的准确度。
[0063]
在本公开的一个实施例中，在获取发音变异规则集后，可以根据第一词汇中所包含的音素确定与第一词汇对应的规则链，同时对于拼音文字而言，第一词汇可以是由一个元音音素或者由元音音素和辅音音素组成，对应不同的第一词汇的组成，获取与其对应的规则链的方法也不同。
[0064]
图5示出了一种获取规则链的流程示意图，其中第一词汇由元音音素和辅音音素组成，在步骤s501中，获取组成第一词汇的元音音素和辅音音素；在步骤s502中，将元音音素和辅音音素分别与发音变异规则集中的标准音音素所包含的元音音素和辅音音素进行匹配；其中标准音音素所包含的元音音素和辅音音素具体可以是表1中中心方言对应的元音音素和辅音音素；在步骤s503中，当发音变异规则集中存在与元音音素和辅音音素对应的目标元音音素和目标辅音音素时，获取与该目标元音音素对应的第一发音变异规则和与该目标辅音音素对应的第二发音变异规则，并根据第一发音变异规则和第二发音变异规则形成规则链。其中，规则链具体可以是将目标元音音素和第一发音变异规则以及目标辅音音素和第二发音变异规则对应存储所形成的规则链，以避免在对第一词汇中的音素进行转换时出现错误。进一步地，第一词汇中可以包含多个辅音音素，那么就会获取与多个目标辅音音素对应的第二发音变异规则，则形成规则链时，也可以将各目标辅音音素和对应的第二发音变异规则进行对应存储即可，在转换到某一辅音音素时，从规则链中获取与其对应的第二发音变异规则进行转换即可。
[0065]
图6示出了另一种获取规则链的流程示意图，其中第一词汇由元音音素组成，在步骤s601中，获取组成第一词汇的元音音素；在步骤s602中，将元音音素与发音变异规则集中标准音音素所包含的元音音素进行匹配；其中标准音音素所包含的元音音素具体可以是表1中与中心方言对应的元音音素；在步骤s603中，当发音变异规则集中存在与元音音素对应的目标元音音素时，获取与该目标元音音素对应的发音变异规则，并根据该发音变异规则形成规则链。值得说明的是，当词汇仅由元音音素形成时，元音音素的数量通常为一个，因此在第一词汇由元音音素形成的情形下，该规则链中只包含对应一个元音音素的发音变异规则。
[0066]
步骤s420中，根据所述规则链对所述第一词汇中的音素进行转换，以获取与所述第一词汇对应的具有变异音的第二词汇。
[0067]
在本公开的一个实施例中，在获取与第一词汇对应的规则链后，可以根据规则链中的发音变异规则对第一词汇中对应的音素进行转换，将标准音音素转换为变异音音素，进而得到具有变异音的第二词汇，对于维语而言就是将中心方言转换为和田方言。
[0068]
根据图5和图6所示的获取规则链的流程示意图可知，规则链中可以包含一条发音
变异规则，也可以包含多条发音变异规则，那么根据规则链中发音变异规则数量的不同，对第一词汇进行转换的方式也有所不同，具体地：
[0069]
当规则链中包含一条发音变异规则时，根据该发音变异规则对第一词汇中与该发音变异规则对应的音素直接进行转换即可，并输出一个与第一词汇对应的第二词汇，例如第一词汇是由元音音素a构成，根据该元音音素a在发音变异规则集中命中的规则只有一条，例如为a
→
b，那么可以根据该条发音变异规则对第一词汇进行转换得到第二词汇，即为音素b所构成的词汇，同样地，对于第一词汇由元音音素和辅音音素组成的情况，也可能存在规则链中只存在一条发音变异规则的情况，那么只需根据该条发音变异规则对对应的音素进行转换并输出最终的词汇即可。
[0070]
当规则链中包含多条发音变异规则时，为了保证结果的准确性和全面性，可以将规则链中的多条发音变异规则进行组合以形成多个规则集，然后再根据各个规则集对第一词汇中的音素进行转换，并根据转换后的音素构建第二词汇。在将多条发音变异规则进行组合形成多个规则集时，可以抽取多条发音变异规则中的一条或多条发音变异规则形成多个规则集，例如规则链中包含3条发音变异规则r1、r2和r3，那么可以抽取其中任意一条、任意两条或者所有的发音变异规则形成共计7个规则集，分别为：{r1}、{r2}、{r3}、{r1,r2}、{r1,r3}、{r2,r3}、{r1,r2,r3}，在对第一词汇进行转换形成第二词汇时，即可分别根据上述7个规则集中的规则对第一词汇中对应的音素进行转换即可得到对应的第二词汇。值得说明的是，在根据多个规则集中的发音变异规则对第一词汇中的音素进行转换时，转换方式随规则集中发音变异规则数量的不同而不同，具体地，当规则集中包括规则链中的一个发音变异规则时，根据该发音变异规则对第一词汇中与该发音变异规则对应的音素进行转换，并根据转换后的音素构建第二词汇；当规则集中包括规则链中的多个发音变异规则时，首先确定第一词汇中与各发音变异规则对应的待转换音素，然后再根据各发音变异规则对待转换音素进行多轮转换，并根据多轮转换后的待转换音素构建第二词汇。也就是说，在根据多个发音变异规则对第一词汇中的多个音素进行转换时，并不是同时转换的，而是一个音素一个音素逐个转换的。同时，由于在根据多条发音变异规则对音素进行转换时容易出现误转换，例如与中心方言词汇abs对应的两条发音变异规则为a
→
b和b
→
c，理论上输出的转换后的词汇是bcs，但是由于存在发音变异规则b
→
c，当根据发音变异规则将abs转换为bbs后，两个音素b都会命中发音变异规则b
→
c，使得输出的词汇变为ccs，产生误转换。为了避免误转换的发生，本公开实施例中采用正反向映射的方式进行音素转换，以获取准确地第二词汇，接下来对根据多个发音变异规则对第一词汇进行转换的流程进行详细描述。
[0071]
图7示出了获取第二词汇的流程示意图，如图7所示，在步骤s701中，根据规则集中的第n个发音变异规则对第一词汇中与第n个发音变异规则对应的待转换音素进行转换，其中n为不超过规则集中发音变异规则总量的正整数；在步骤s702中，当第一词汇中存在与转换后的待转换音素相同的音素时，根据第一映射规则对转换后的待转换音素进行正向映射，以获取经第n轮转换所形成的词汇；在步骤s703中，重复步骤s701-s702，直至获取根据所有发音变异规则对所有待转换音素进行转换所形成的中间词汇；在步骤s704中，根据第二映射规则对中间词汇进行反向映射，以获取第二词汇，其中第一映射规则中的映射方向和第二映射规则中的映射方向相反。
[0072]
其中，第一映射规则具体可以是采用标记音素替换转换后的待转换音素，第二映
射规则具体可以是采用转换后的待转换音素替换标记音素，例如第一映射规则可以是b
→
b1，而第二映射规则是b1
→
b，当第一词汇中存在与多轮转换后的待转换音素相同的音素时，可以采用多对第一映射规则和第二映射规则对第一词汇中转换后的待转换音素进行正反向映射，以获取最终的第二词汇。
[0073]
图8示出了获取第二词汇的流程示意图，如图8所示，根据中心方言词汇abs在发音变异规则集中进行匹配，以获取与之对应的规则链，该规则链中包括两条发音变异规则：规则1：a
→
b和规则2：b
→
c；通过对这两条发音变异规则进行组合可以得到三个规则集，分别为{规则1}、{规则2}、{规则1和规则2}，由于第一个规则集和第二个规则集中只包含一条发音变异规则，在转换过程中不存在误转换的情况，因此可以直接根据规则1或规则2对中心方言abs进行转换，分别得到对应的和田方言词汇bbs和acs，在根据第三个规则集对中心方言词汇abs进行转换时，由于对音素a转换后得到的音素为b，与中心方言词汇abs中的音素b相同，如果不做处理则会出现误转换的情况，因此在根据规则1对词汇abs中的a进行转换得到词汇bbs后，可以根据第一映射规则b
→
b1对由音素a转换得到的音素b进行正向映射得到词汇b1bs，接着再根据规则2对词汇b1bs中的音素b进行转换以得到中间词汇b1cs，至此已完成对中心方言词汇abs的转换，最后根据第二映射规则b1→
b对中间词汇b1cs进行反向映射即可得到与中心方言词汇abs对应的和田方言词汇bcs。根据三个规则集分别对中心方言词汇abs进行转换后，即可得到与中心方言词汇abs对应的所有和田方言词汇为bbs、acs和bcs。值得注意的是，b1和b不同，无法被发音变异规则转换。
[0074]
在步骤s430中，根据所述第一词汇和所述第二词汇构建多发音词典。
[0075]
在本公开的一个实施例中，在得到与第一词汇对应的所有第二词汇后，即可将第一词汇和该第一词汇对应的所有第二词汇对应存储以形成多发音词典。从上述实施例中可知，第一词汇和第二词汇可以是一对一或一对多的关系。
[0076]
在本公开的一个实施例中，为了提高多发音词典的构建效率，在获取标准音音素和变异音音素之间的发音变异规则集后，可以对发音变异规则集进行脚本化处理，然后通过脚本化的发音变异规则对第一词汇进行转换以获取第二词汇，这样可以提高转换效率，实现对第一词汇的批量转换。在本公开的实施例中，可以利用正则表达式实现对发音变异规则集的脚本化处理，具体可以使用pandas工具，以excel的方式读取待处理文件，也就是待转换为和田方言的中心方言，然后调用pandas中map函数的参数对pandas对象中的每一列元素通过脚本化处理后的发音变异规则进行转换，并将转换得到的词汇存入pandas对象对应的结果列中，以形成多发音词典。相对于通过人工的方式逐个获取与具有标准音的第一词汇对应的规则链，并根据规则链中的规则对第一词汇中的音素进行转换得到第二词汇而言，通过脚本化的发音变异规则集可以实现对第一词汇的批量化转换处理，快速获取与第一词汇对应的规则链并将第一词汇转换得到第二词汇的目的，进而批量得到多发音词典。
[0077]
在本公开的一个实施例中，为了判断发音变异规则集中规则的准确性和全面性，还可以构建中心方言与和田方言的测试集，并通过访谈和田本地维吾尔族人对测试集的准确性进行判断，进而判断发音变异规则集中规则的准确性和全面性。另外还可以通过脚本化处理后的发音变异规则集对测试集中的中心方言进行转换，并将转换得到的和田方言与正确的和田方言进行对比，以判断多发音词典的正确性，进一步地，还可以根据正确的音素
转换规则对脚本化处理的发音变异规则集进行改进，以提高基于脚本化处理后的发音变异规则集所获得的和田方言的准确性。表2示出了测试集结果和脚本转换结果的比对结果，具体如下：
[0078]
表2测试集结果和脚本转换结果的比对结果
[0079][0080]
表2中阴影部分表示测试集结果或脚本转换结果与和田本地的和田方言一致。从表2分析可知，测试集中与原词(中心方言)对应的测试集结果(和田方言)经调查都与和田本地所使用的和田方言相同，说明测试集的准确性很高。同时，根据测试集结果和脚本转换结果对比可知，脚本转换结果的准确率达到60％，当然这只是对表格中的结果进行统计得到的准确率，在统计样本数量较大时，准确率可以达到70％甚至更高。
[0081]
本公开实施例中，在构建多发音词典时，通过语言专家的知识总结，从语言角度制作从标准音音素到变异音音素之间转换的发音变异规则集，并通过将发音变异规则集脚本化，实现具有标准音的第一词汇到与第一词汇具有相同语义且具有变异音的第二词汇的自动转换，从而达到构建多发音词典的目的。在转换的过程中，一方面通过对发音变异规则进行组合以输出多个候选结果，更高程度上保证了转换结果的准确性，另一方面通过正反向映射，保证多条发音变异规则同时转换不会相互影响，避免了误转换，提升了多发音转换结构的准确性，再一方面，本公开中的多发音词典的构建方法是基于标准音和变异音之间的发音变异规则构建的，相对于基于统计法构建多发音词典而言，无需过多语料标注，省略了大量标注成本，并且规避了语料不足而导致的语音处理系统中模型准确率低等问题。
[0082]
在本公开的一个实施例中，在采用声学模型对语音特征信息进行特征提取，获取与语音信号对应的状态信息之前，可以基于包含具有标准音的词汇和与该词汇具有相同语义且具有变异音的词汇的多发音词典对待训练声学模型进行训练，以获取稳定的声学模型。其中多发音词典是根据上述实施例中的多发音词典构建方法所构建的，由于本公开实施例中的多发音词典的构建方法是基于规则的多发音词典构建方式，无需过多语料标注即可得到大量的语料，进而避免了语料不足而导致的模型准确率低的问题。
[0083]
通过本公开实施例中的语音处理方法，可以将任意地具有变异音的语音信息转换为对应的具有标准音的文本信息，进一步地，用于执行本公开实施例中的语音处理方法的产品可以应用到多个领域，比如语音识别、基于语音的网络聊天、基于语音的信息搜索、基于语音的导航等等，以采用和田方言的语音进行信息搜索为例，在获取对应和田方言的语音信息后，将该语音信息输入至语音处理系统，首先对该语音信息进行预处理以获取该语音信息对应的语音特征信息，接着通过声学模型对语音特征信息进行特征提取以获取与语音特征信息对应的状态信息，最后通过语言模型基于多发音词典对状态信息进行解码和搜
索，以获取与该语音信息对应的具有中心方言的文本信息，信息搜索系统获取语音处理系统输出的具有中心方言的文本信息后，可以对该文本信息进行分词、相似度计算等处理，以获取与该文本信息的匹配度符合匹配条件的信息，并将所获取的信息推送至用户终端供用户查阅。
[0084]
以下介绍本公开的装置实施例，可以用于执行本公开上述实施例中的语音处理方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的语音处理方法的实施例。
[0085]
图9示意性示出了根据本公开的一个实施例的语音处理装置的框图。
[0086]
参照图9所示，根据本公开的一个实施例的语音处理装置900，包括：预处理模块901、状态信息获取模块902和文本获取模块903。
[0087]
其中，预处理模块901，用于获取具有变异音的语音信息，对所述语音信息进行预处理以获取语音特征信息；状态信息获取模块902，用于对所述语音特征信息进行特征提取，以获取与所述语音特征信息对应的状态信息；文本获取模块903，用于根据所述状态信息和多发音词典确定与所述语音信息对应的具有标准音的文本信息，其中所述多发音词典是根据具有标准音的第一词汇和与所述第一词汇具有相同语义且具有变异音的第二词汇构建的，所述第一词汇和所述第二词汇为拼音文字。
[0088]
进一步地，图10示意性示出了根据本公开的一个实施例的语音处理装置的框图。参照图10所示，语音处理装置900还包括：规则链获取模块904、第二词汇生成模块905和多发音词典构建模块906。
[0089]
其中，规则链获取模块904，用于获取所述具有标准音的第一词汇，并根据发音变异规则集确定与所述第一词汇对应的规则链，其中所述发音变异规则集是基于标准音音素和变异音音素之间的转换规则构建而成的；第二词汇生成模块905，用于根据所述规则链对所述第一词汇中的音素进行转换，以获取与所述第一词汇对应的具有变异音的第二词汇；多发音词典构建模块906，用于根据所述第一词汇和所述第二词汇构建多发音词典。
[0090]
在本公开的一个实施例中，所述规则链获取模块904包括：第一音素获取单元，用于获取组成所述第一词汇的元音音素和辅音音素；第一匹配单元，用于将所述元音音素和所述辅音音素分别与所述发音变异规则集中的标准音音素所包含的元音音素和辅音音素进行匹配；第一规则链形成单元，用于当所述发音变异规则集中存在与所述元音音素和所述辅音音素对应的目标元音音素和目标辅音音素时，获取与所述目标元音音素对应的第一发音变异规则和与所述目标辅音音素对应的第二发音变异规则，并根据所述第一发音变异规则和所述第二发音变异规则形成所述规则链。
[0091]
在本公开的一个实施例中，所述规则链获取模块904包括：第二音素获取单元，用于获取组成所述第一词汇的元音音素；第二匹配单元，用于将所述元音音素与所述发音转换规则集中标准音音素所包含的元音音素进行匹配；第二规则链形成单元，用于当所述发音变异规则集中存在与所述元音音素对应的目标元音音素时，获取与所述目标元音音素对应的发音变异规则，并根据所述发音变异规则形成所述规则链。
[0092]
在本公开的一个实施例中，所述第二词汇生成模块905包括：第二词汇构建单元，用于将所述规则链中的发音变异规则进行组合以形成多个规则集，根据各所述规则集对所述第一词汇中的音素进行转换，并根据转换后的音素构建所述第二词汇。
[0093]
在本公开的一个实施例中，所述规则集包括所述规则链中的一个或多个发音变异
network，局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至i/o接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
[0103]
特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(cpu)1101执行时，执行本公开的系统中限定的各种功能。
[0104]
需要说明的是，本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory，eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory，cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
[0105]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0106]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。
[0107]
作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是
上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。
[0108]
应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0109]
通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
[0110]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
[0111]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李应弟;刘洪;李丹;贾鹏飞
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：图像的处理方法、计算设备及存储介质与流程
上一篇：体育运动视频的目标追踪与语义分割方法及装置、插件与流程