语音识别方法和装置的制造方法

文档序号：9418677阅读：835来源：国知局

语音识别方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音识别技术领域，尤其涉及一种语音识别方法和装置。
【背景技术】
[0002]随着科技的不断进步，语音识别技术的应用也越来越广泛，例如工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等领域，都会应用到语音识别技术。目前，语音识别系统主要通过接收用户输入的语音，对语音进行识别，从而获得语音识别结果。其中，语音搜索类产品不仅可以对用户输入的语音进行识别，还可根据语音识别结果向搜索服务器发送搜索请求，进一步获取搜索结果。
[0003]但是，有时候用户输入语音时，内容可能很多，则需要在用户输入语音结束后，等待很长时间才能获取到识别结果。如果是语音搜索类产品，则需要先等待获得识别结果的过程，再等待获取搜索结果的过程，等待时间长，导致用户体验降低。另外，在噪声环境中，由于噪声干扰，有可能出现检测不到语音结束点或者识别结果不准确的情况。

【发明内容】

[0004]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种语音识别方法，该方法能够降低用户等待时间，提升用户使用体验。
[0005]本发明的第二个目的在于提出一种语音识别装置。
[0006]为了实现上述目的，本发明第一方面实施例提出了一种语音识别方法，包括以下步骤:S1、接收用户输入的语音信息，并实时对所述语音信息进行识别；S2、当所述语音信息产生静音时，判断所述静音的类型；S3、如果所述静音为短静音，则获得第一识别结果，并显示所述第一识别结果，同时继续执行步骤SI ;以及S4、如果所述静音为长静音，则获得第二识别结果，并显示所述第二识别结果。
[0007]本发明实施例的语音识别方法，通过接收用户输入的语音信息，并实时对语音信息进行识别，当语音信息产生静音时，判断静音的类型，如果静音为短静音，则获得第一识别结果，并显示第一识别结果，同时继续接收用户输入的语音信息，如果静音为长静音，则获得第二识别结果，并显示第二识别结果，能够有效地降低用户等待时间，提升用户使用体验。
[0008]本发明第二方面实施例提出了一种语音识别装置，包括:接收模块，用于接收用户输入的语音信息，并实时对所述语音信息进行识别；判断模块，用于当所述语音信息产生静音时，判断所述静音的类型；第一识别模块，用于当所述静音为短静音时，获得第一识别结果，并显示所述第一识别结果，同时所述接收模块继续接收搜索用户输入的语音信息；第二识别模块，用于当所述静音为长静音时，获得第二识别结果，并显示所述第二识别结果。
[0009]本发明实施例的语音识别装置，通过接收用户输入的语音信息，并实时对语音信息进行识别，当语音信息产生静音时，判断静音的类型，如果静音为短静音，则获得第一识别结果，并显示第一识别结果，同时继续接收用户输入的语音信息，如果静音为长静音，则获得第二识别结果，并显示第二识别结果，能够有效地降低用户等待时间，提升用户使用体验。
【附图说明】
[0010]图1是根据本发明一个实施例的语音识别方法的流程图。
[0011]图2是根据本发明一个具体实施例的语音识别方法的流程图。
[0012]图3是根据本发明一个具体实施例的初始化界面效果示意图。
[0013]图4是根据本发明一个具体实施例的提示界面效果示意图。
[0014]图5是根据本发明一个具体实施例的接收用户输入的语音信息界面效果示意图。
[0015]图6是根据本发明一个具体实施例的显示识别结果界面效果示意图一。
[0016]图7是根据本发明一个具体实施例的显示识别结果界面效果示意图二。
[0017]图8是根据本发明一个具体实施例的显示识别结果界面效果示意图三。
[0018]图9是根据本发明一个具体实施例的根据识别结果进行搜索的界面效果示意图。
[0019]图10是根据本发明一个具体实施例的显示搜索结果的界面效果示意图。
[0020]图11是根据本发明一个具体实施例的根据识别结果进行搜索的界面效果示意图
O
[0021]图12是根据本发明一个具体实施例的根据识别结果进行搜索的界面效果示意图
--O
[0022]图13是根据本发明一个具体实施例的根据识别结果进行搜索的界面效果示意图
_- O
[0023]图14是根据本发明一个具体实施例的根据识别结果进行搜索的界面效果示意图四。
【具体实施方式】
[0024]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
[0025]下面参考附图描述本发明实施例的语音识别方法和装置。
[0026]图1是根据本发明一个实施例的语音识别方法的流程图。
[0027]如图1所示，语音识别方法可包括:
[0028]S1、接收用户输入的语音信息，并实时对语音信息进行识别。
[0029]其中，语音信息可以为词组，也可以为短句。
[0030]S2、当语音信息产生静音时，判断静音的类型。
[0031]在本发明的实施例中，为解决在噪声环境中，静音检测不准确的问题，可根据尾点检测算法检测出静音，并判断静音的类型。其中，静音的类型可包括长静音和短静音。短静音为用户输入语音信息的短暂停顿，而长静音则为用户输入语音信息的结束点(尾点)。
[0032]具体地，可先在不同环境下采集语音样本，并训练尾点检测模型。然后在对语音信息进行识别时，可通过尾点检测模型判断静音的类型，在噪声环境下能够准确地判断出静音的类型，提高了抗噪性和准确率。相对于本地的尾点检测算法，服务器端的尾点检测算法具有更强大的计算能力，可不断地对尾点检测模型进行优化。在本发明一个实施例中，在对语音信息识别的过程中，可先通过本地的尾点检测算法进行检测，如果无法检测出语音信息的结束点，则再通过服务器端的尾点检测算法进行检测。
[0033]S3、如果静音为短静音，则获得第一识别结果，并显示第一识别结果，同时继续执行步骤SI。
[0034]具体地，在用户输入语音信息开始时，可实时地对语音信息进行识别，当出现静音时，如果当前出现的静音为短静音，即用户输入语音信息的短暂停顿，则可获得第一识别结果，然后将第一识别结果显示在客户端的屏幕上，反馈给用户。其中，第一识别结果可以为输入语音信息开始至短静音之间的内容，也可以是两个短静音之间的内容。与此同时，用户还在继续输入语音信息。也就是说，识别过程与接收语音信息过程同步进行，即两个单独且互不干扰的线程并行处理，减少了用户等待的时间。用户在输入语音信息的同时，已经在客户端的屏幕上显示出了一部分的识别结果，由于短静音时间很短，因此在客户端的屏幕上显示的效果相当于用户一边输入语音信息，同时动态地连续不断地显示出识别结果，解决了传统的语音识别中，等待用户输入语音信息结束后，再对语音信息进行整体识别所带来的等待时间过长的问题，提升了用户使用体验。
[0035]此外，在获得第一识别结果之后，还可将第一识别结果作为关键词进行搜索，并获取第一搜索结果。例如:识别系统为语音搜索系统时，可根据实时识别出的识别结果进行搜索。
[0036]S4、如果静音为长静音，则获得第二识别结果，并显示第二识别结果。
[0037]具体地，如果当前出现的静音为长静音，即用户输入语音信息结束，则可获得第二识别结果，然后将第二识别结果显示在客户端的屏幕上，反馈给用户。其中，第二识别结果可以是最后一个短静音与长静音之间的内容，如果用户输入的语音信息没有短静音，则第二识别结果可以为输入语音信息开始与长静音之间的内容。举例来说，实时地对用户输入的语音信息进行识别，当客户端的屏幕显示第一识别结果时，同时还在接收用户输入的语音信息，并实时地对语音信息识别，从而达到减少用户等待时间的目的。
[0038]另外，还可将

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢延;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：语音交互装置及方法、语音交互式led异步控制系统终端的制作方法
上一篇：数据转换方法和装置的制造方法