一种根据音频输出的实时字幕生成方法与流程

文档序号：12128604阅读：5614来源：国知局

本发明涉及面向听障人士的交互辅助技术领域，特别是根据音频实时字幕自动生成方法。

背景技术：

2012年，世界卫生组织曾报告全球人口中中度以上听力障碍的现患率为5.3％。相关数据也显示了目前我国有15.84％的人患有听力障碍。其中，患致残性听力障碍，即中度以上听力障碍的人占到总人口的5.17％。随着个人电脑和手机等电子设备的普及，视频、音频等多媒体形式成为了当下获取信息的重要媒介。然而对于听障人士，在获取多媒体内容的语音信息时存在极大的困难。目前文字成为了听障人士获取信息的一种主要方式，当视频信息包含语音但不提供字幕时，听障人士就无法获取相应的信息，如部分新闻视频只包含内容概要并没完整的对应字幕信息。

对于视力障碍用户，读屏软件可将电子设备屏幕中的显示的文字实时转成语音，为其获取文字内容信息提供了有效途径。但对于听障人士却缺乏相应的将设备上的语音转文字的工具，因此其对于此类工具的需求十分迫切。近年来，语音识别技术取得显著进步，识别精度也不断提高，开始从实验室走向市场，越来越多的应用包含将语音转成文字的功能。但对于电子设备中实时播放的语音(包括播放视频时的语音信息)显示相应字幕的方法和应用依然处于空白状态。

因此结合现存的语音识别系统，为设备中所输出的音频信息实时提供相应的字幕将极大便利听障人士获取语音信息对应的内容，并更好的帮助其生活、学习和工作。

技术实现要素：

本发明要克服现有技术的上述缺点，提出了一种根据音频输出的实时字幕生成方法，以便帮助听力障碍用户能够更加方便、准确的获取电子设备中实时输出的音频信息对应的文字内容。

本发明所述的一种根据音频输出的实时字幕生成方法，包括以下步骤：

1)音频采集；实时监测电子设备输出的音频信息，并将其收集；

2)语音提取；将收集到的音频信息进行处理，过滤掉音频信息中的背景音乐等无关内容并进行降噪处理，得到准确的语音信息；

3)语音识别；得到需要转换成文字的语音信息后，对语音信息进行语音识别，得到语音对应的文字信息；

4)显示；将转换后得到的文字通过字幕的形式显示在设备屏幕上。

步骤1)中所述的音频采集具体是：对于电子设备，不论是传输到声卡还是传送到音频解码器需要输出声音的音频文件都可能包含着语音信息，音频采集的具体内容是对是否有输出的音频信息实时监测，并在监测到后及时将音频信号进行下一步处理。

步骤2)中所述的语音提取具体包括

21)音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体，同时语音信号频率范围是：300Hz～3.4kHz，由于只需对语音信息输出字幕，因此语音提取模块将主要根据语音的频段提取音频文件人声声纹信息，供后续的固定人声纹检索；

22)用相应的滤波算法对提取的人声声纹信息进行降噪处理，得到更加准确的人声声纹提高识别精度。

步骤3)中所述的语音识别具体是：将得到的人声声纹信息输入语音识别模块进行语种识别、特征提取、检索、匹配，并进行上下文语义分析等相关处理最后得到准确的相应文字信息。

步骤4)中所述的显示具体是：得到语音相应的文字信息后，实时的将其用字幕形式显示在用户屏幕上，供用户读取，为用户理解播放的相关语音内容提供了有效、便捷的方式。

本发明提出了一种根据音频输出的实时字幕生成方法，其优点在于：基于现存的语音识别系统提供一种将音频信息转换成文字信息并以字幕显示的方法，适用于电脑、手机等电子设备，为听障人士解决了不能获取语音信息的困难，也为普通用户浏览视频或音频等提供了便利。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面参照附图，进一步说明本发明：

1.一种根据音频输出的实时字幕生成方法，具体实施包括以下步骤：

1)音频采集；实时监测电子设备输出的音频信息，并将其收集；

2)语音提取，即对收集到的音频信息进行处理，过滤掉音频信息中的背景音乐等无关内容并进行降噪处理，得到准确的语音信息；

3)语音识别，得到需要转换成文字的语音信息后，进行语音识别，得到语音对应的文字信息。

4)显示，将转换后得到的文字通过字幕的形式显示在设备屏幕上。

步骤1)中所述的音频采集，具体是：对于电子设备，不论是传输到声卡还是传送到音频解码器需要输出声音的音频文件都可能包含着语音信息，音频采集的内容是：实时监测是否有输出的音频信息，并在监测到后及时将音频信号进行下一步处理。

步骤2)中所述的语音提取具体是：

1)音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体，同时语音信号频率范围是：300Hz～3.4kHz，由于只需对语音信息输出字幕，语音提取是将主要根据语音的频段提取音频文件人声声纹信息，供后续的固定人声纹检索；

2)用三角带通滤波器(Triangle Filters)模拟人耳的掩蔽效应对提取的人声声纹信息进行降噪处理，得到更加准确的人声声纹提高识别精度。

步骤3)中所述的语音识别，具体是：将得到的人声声纹信息输入进行语种识别、特征提取、检索、匹配，并进行上下文语义分析等相关处理最后得到准确的相应文字信息。具体流程为：

31)利用预先采录的各语种各方言的云端语料库，采用MFCC技术提取不同语料库独有的语音特征，具体操作为：将音频分解为帧，并对每帧计算周期功率谱；然后在功率谱上利用mel滤波器计算能量和对数值；保留2-13个对数能量的DCT变换后的系数作为特征。

32)对实际采集到的声音信息同样采用MFCC技术提取语音特征，并与语料库特征进行比对，根据相似性确定最相近的语料库。

33)将语音信息分解为多个连续片段，在语料库中利用特征相似性，匹配出对应的文字信息。

34)将所有文字信息整合后，利用云端中文短语语义库，分析前后连续词出现的语义相关性，并计算与前后词的语音特征近似的词语间语义相关性。若现有词语间语义相关不强，则替换为更高语义想关性的近音词。

35)将所有文字汇总整合，生成语义连贯的识别文本结果。

步骤4)中所述的显示，具体是：得到语音相应的文字信息后，实时的将其用字幕形式显示在用户屏幕上，供用户读取，为用户理解播放的相关语音内容提供了有效、便捷的方式。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卜佳俊;于智;陈静;王灿;王炜;陈纯;
技术所有人：浙江大学;
我是此专利的发明人

上一篇：光伏太阳能电池导电银浆的制作方法与工艺
上一篇：一种消像差X射线复合折射透镜及其设计方法与流程