一种指令式语音控制发音词典辅助生成方法
【技术领域】
[0001]本发明属语音处理技术,模式识别技术。
【背景技术】
[0002]随着语音识别技术的发展和不断成熟,语音识别技术产品的应用领域和范围在不断扩展,逐渐深入到人们生活、生产的各个环节,成为改善生活和工作质量、提高效率的重要支撑工具。
[0003]语音识别技术的应用领域不同,其实现的方式有所区别。以互联网平台为基础的语音识别服务依托于强大的数据服务器和背后庞大的系统维护专业团队,能够为人们提供日常生活交流的语音服务。然而对于各专业领域的工作系统,一般不具备上述条件,适合采用专用的指令式的语音控制操作方式,这种语音控制功能一般不需要日常更新和维护,也不需要大型的服务器平台,能够实时识别响应,适合于在各专业生产领域内广泛应用。
[0004]目前的语音识别技术,在实现过程中包含两部分的处理,即语音模型处理和语法模型处理。语音模型处理主要基于连续HMM模型,识别出语音的发音序列,语法模型处理中包含了由各字词组成语句的语言组织语法规则。大规模互联网语音识别应用采用无限词汇,其词汇和语法规则需要不断地维护和刷新,以适应于不断涌现的新的词汇和用法;专用系统的语音控制仅仅针对系统人机操作本身有限的词汇,其词法和语法相对固定,不需要频繁刷新维护,因此在语音识别的实现技术上可以采用预先设计定义的词法和语法结构。其中,发音字典文件就是定义指令式语音控制目标系统指令词汇及其发音的专用词法文件。
[0005]发音字典文件的基本实现形式如下:
[0006]a)每个词(或短语)为一条记录,每条记录包括词(短语)的汉字码和发音两部分数据;
[0007]b)发音为该词(短语)的发音序列在识别模型库中对应的单音素发音注记字符组入口 ο
[0008]其中,每个单音素发音注记字符是模型库对每个基本发音单位的符号表示,这些注记字符实际上是与拼音(或国际音标)功能相似的另一套音标表示方式,语音识别器使用这些注记字符的组合用于定义所有的语言发音,同时也存在着注记字符组合与汉语拼音的一一对应关系。
[0009]发音字典在语音识别中主要应用在两个方面:其一是在识别过程中建立识别出的声音音素模型与字(词)和语句之间的映射关系;其二是用于个性化自适应处理过程中的自适应样本采集和训练脚本。
[0010]发音字典中包含了语音控制系统所有语音指令中所包含的字词,其数量规模随实际应用系统而定,复杂的系统(飞机驾驶舱控制)可以有近1000条的词条规模。
[0011]在指令式语音识别控制系统开发过程中,一直采用人工编辑的方式产生发音字典文件,这需要编辑人员非常熟悉单音素发音注记字符,一套汉字注记符包含143个基本音素发音符号。对于一套指令数量较多的语音控制系统,人工编辑发音字典文件过程中难免会产生一些错误,需要反复的测试来查找修正这些错误,耗费较多的人力和时间。
[0012]本发明面向中大词汇量的语音控制产品,利用该发明可以有效降低语音控制产品开发过程的工作量,降低实现难度,并能够保证语音控制产品的开发质量,降低对相关开发人员的专业性要求,实现语音控制产品开发人力资源的合理利用,也有助于提高产品开发效率、缩短产品开发周期,进而产生良好的经济效益。
【发明内容】
[0013]此项发明的目的在于提供一种指令式语音控制发音词典辅助生成方法,将人工全手动输入编辑发音字典文件的方式转变成计算机辅助生成方式,有效降低语音控制产品开发、测试、修改过程的工作量,消除产生人为差错的可能性,提高语音控制产品的开发质量和效率,节省人力资源、缩短产品开发周期。
[0014]本发明的发明目的通过以下技术方案实现:
[0015]—种指令式语音控制发音词典辅助生成方法,包含以下步骤:
[0016]a)向计算机程序输入语音指令汉字字符串及该语音指令汉字字符串对应的音调信息;
[0017]b)计算机程序按语音指令汉字字符串中字符出现的依次将语音指令汉字字符转换为对应的语首指令拼首字符;
[0018]c)计算机程序将语音指令拼音字符转换为语音指令音素发音注记字符;
[0019]d)由计算机程序在语音控制发音字典文件中添加语音指令汉字字符及该语音指令汉字字符对应的音素发音注记字符。
[0020]本发明的有益效果在于:
[0021]通过使用该发明,语音控制发音字典文件的计算机处理生成效率比全人工编辑提高3倍以上,不会产生差错,免除了针对语音控制发音字典文件的错误查找和修正,降低了语音控制产品的整体缺陷故障因素。
【附图说明】
[0022]图1为本发明的实例界面;
[0023]图2为本发明的实施流程图。
[0024]具体实现方式
[0025]下面结合附图和实施例对本发明作进一步的详细描述。
[0026]1、操作界面与基本处理流程
[0027]操作界面的形式如附图1所示。
[0028]其中,文件管理菜单中实现文件创建、文件打开、文件保存的功能;在查找修改菜单中实现添加、查找及修改字典内容的功能选择;查找结果框中显示查找指定指令词或短语有无的结果;添加词条按钮用于选择添加新的指令词或短语;确认按钮用于确认当前指令词发音标注码的生成结束;添加停顿按钮用于选择是否在指令词发音标注码尾部添加停顿标注。词条输入框用于输入指令词条汉字字符串;字音选择按钮框将显示出当前处理字符的所有拼音发音,提供操作者加以选择,三角箭头按钮用于在输入的指令字符串中选择当前处理的字符;发音注记框显示出当前已处理字符的发音注记转换结果。
[0029]整体的基本处理流程如附图2所示。对于每一个输入的指令词或短语字符串,按照每个汉字在该字符串中出现的顺序逐一人工确定其在指令中的发音,计算机程序将该发音的拼音转换成相应的音素发音注记符,顺序拼接各音素发音注记符形成与指令字符串相对应的因素发音注记符串,再根据实际需要选择在其末尾处添加停顿注记符,完成一条指令词或短语的音素发音注记符转换处理。
[0030]2、汉字字符与拼音字符串的转换
[0031]本发明实例中,汉字字符串与拼音字符串的转换,主要用于选择汉字在语音指令中的实际发音,并获得相应的拼音表示字符串。
[0032]本发明在实现过程中使用带有音调标注的汉字-拼音对照表,可用汉字字符查找出其对应的所有发音的拼音字符串及其音调标注。其中,汉字-拼音对照表可以在互联网的相关网站获得。其查找方法可根据该表的编排规律自行确定。
[0033]3、拼音字符串与音素发音注记字符串的转换
[0034]本发明实例中,拼音字符串与音素发音注记字符串的转换是利用拼音-注记符对照表,可用拼音查找出其相应的音素发音注记符字符串。该表是和语音模型库配套的数据文件,共有1000多条记录,包含了所有汉语中出现的发音拼音,每条记录中包含了带声调的拼音字符串和相对应的音素发音注记符字符串,其查找方法可根据该表的编排规律自行确定。
[0035]可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
【主权项】
1.一种指令式语音控制发音词典辅助生成方法,包含以下步骤: a)向计算机程序输入语音指令汉字字符串及该语音指令汉字字符串对应的音调信息; b)计算机程序按语音指令汉字字符串中字符出现的依次将语音指令汉字字符转换为对应的语首指令拼首字符; c)计算机程序将语音指令拼音字符转换为语音指令音素发音注记字符; d)由计算机程序在语音控制发音字典文件中添加语音指令汉字字符及该语音指令汉字字符对应的音素发音注记字符。
【专利摘要】本发明公开了一种指令式语音控制发音词典辅助生成方法,包含以下步骤:a)向计算机程序输入语音指令汉字字符串及该语音指令汉字字符串对应的音调信息;b)计算机程序将语音指令汉字字符串转换为对应的语音指令拼音字符串;c)计算机程序将语音指令拼音字符串转换为语音指令音素发音注记字符串;d)由计算机程序在语音控制发音字典文件中添加语音指令汉字字符及该语音指令汉字字符对应的音素发音注记字符串。本发明将人工全手动输入编辑发音字典文件的方式转变成计算机辅助生成方式,有效降低语音控制产品开发、测试、修改过程的工作量。
【IPC分类】G10L15/22, G10L15/26, G10L15/00
【公开号】CN105225659
【申请号】CN201510574070
【发明人】原帅, 须明
【申请人】中国航空无线电电子研究所
【公开日】2016年1月6日
【申请日】2015年9月10日