语音信息转换方法及语音转换网关的制作方法

文档序号：10473969阅读：560来源：国知局

语音信息转换方法及语音转换网关的制作方法
【专利摘要】本发明实施例公开了一种语音信息转换方法及语音转换网关，所述方法包括：所述语音转换网关接收所述接入网侧转发的Web消息，确定所述Web消息包含语音内容时，获取所述语音内容中语音的类别；根据所述语音的类别在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器，并将所述语音内容向所选取的语音转换服务器发送；接收语音转换服务器反馈的语音转换结果，将所述语音转换结果封装为Web消息，将封装后的Web消息向所述互联网侧发送。
【专利说明】
语音信息转换方法及语音转换网关
技术领域
[0001]本发明涉及语音转换技术，尤其涉及一种基于Web应用的语音信息转换方法及语首转换网关。
【背景技术】
[0002]目前，语音识别技术发展非常迅猛，已应用于各技术领域，如用于个人电脑或手机终端中作身份识别用。更多的语音识别应用，是识别用户输入的语音，将其转换为字符作为文字信息输出，或作为指令发送给处理器。目前，语音识别技术多用于单电子终端中，而随着互联网技术的不断成熟，为进一步方便用户对互联网进行访问，语音识别应用于Web网页将会有相当广阔的前景。目前，如果在用户终端侧对语音进行识别，鉴于用户终端的处理能力有限，很难达到较高的识别精度，而设置于互联网网络侧时，鉴于用户终端与互联网通信的不稳定性，识别效果也不会特别好，并且，语音文件一般比较大，在用户终端与互联网之间传输的稳定性也不佳。

【发明内容】

[0003]本发明实施例为解决上述技术问题，提供一种语音信息转换方法及语音转换网关，能快捷准确地识别出语音信息，识别准确度及稳定性较高。
[0004]本发明实施例的技术方案是这样实现的:
[0005]—种语音信息转换方法，在接入网与互联网之间设置语音转换网关，所述语音转换网关与一个以上的语音转换服务器连接；所述方法包括:
[0006]所述语音转换网关接收所述接入网侧转发的Web消息，确定所述Web消息包含语音内容时，获取所述语音内容中语音的类别；
[0007]根据所述语音的类别在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器，并将所述语音内容向所选取的语音转换服务器发送；
[0008]接收语音转换服务器反馈的语音转换结果，将所述语音转换结果封装为Web消息，将封装后的Web消息向所述互联网侧发送。
[0009]优选地，所述方法还包括:
[0010]所述语音转换网关向所述一个以上的语音转换服务器发送状态查询消息，
[0011]在设定时长内接收到语音转换服务器的响应消息时，确定语音转换服务器正常运行；
[0012]在设定时长内未接收到语音转换服务器的响应消息或在设定时长内未接收到语音转换服务器的响应消息超过设定次数时，确定语音转换服务器非正常运行。
[0013]优选地，所述方法还包括:
[0014]所述语音转换网关根据语音转换服务器的当前状态及所述语音的类别在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器。
[0015]优选地，所述方法还包括:
[0016]所述语音转换网关未接收到语音转换服务器反馈的语音转换结果，而确定语音转换网关故障时，根据所述语音的类别重新在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器。
[0017]优选地，为所述语音转换网关设置至少一个冗余语音转换网关；所述方法还包括:
[0018]所述接入网确定当前工作的语音转换网关故障时，在所述至少一个冗余语音转换网关中选取一个代替当前的语音转换网关。
[0019]优选地，所述语音转换结果为字符信息。
[0020]一种语音转换网关，所述语音转换网关设置于接入网与互联网之间，所述语音转换网关与一个以上的语音转换服务器连接；所述语音转换网关包括:第一接收单元、第一确定单元、获取单元、选取单元、第一发送单元、第二接收单元、封装单元和第二发送单元，其中:
[0021]第一接收单元，用于接收所述接入网侧转发的Web消息；
[0022]第一确定单元，用于确定所述Web消息是否包含语音内容，包含语音内容时触发所述获取单元；
[0023]获取单元，用于获取所述语音内容中语音的类别；
[0024]选取单元，用于根据所述语音的类别在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器；
[0025]第一发送单元，用于将所述语音内容向所选取的语音转换服务器发送；
[0026]第二接收单元，用于接收语音转换服务器反馈的语音转换结果；
[0027]封装单元，用于将所述语音转换结果封装为Web消息；
[0028]第二发送单元，用于将封装后的Web消息向所述互联网侧发送。
[0029]优选地，所述语音转换网关还包括:第三发送单元、第三接收单元、第二确定单元和第三确定单元，其中:
[0030]第三发送单元，用于向所述一个以上的语音转换服务器发送状态查询消息；
[0031]第三接收单元，用于接收语音转换服务器的响应消息；
[0032]第二确定单元，用于在所述第三接收单元在设定时长内接收到语音转换服务器的响应消息时，确定语音转换服务器正常运行；
[0033]第三确定单元，用于在所述第三接收单元在设定时长内未接收到语音转换服务器的响应消息或在设定时长内未接收到语音转换服务器的响应消息超过设定次数时，确定语音转换服务器非正常运行。
[0034]优选地，所述选取单元，还用于根据语音转换服务器的当前状态及所述语音的类别在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器。
[0035]优选地，所述语音转换网关还包括:第四确定单元，用于在所述第二接收单元未接收到语音转换服务器反馈的语音转换结果时，确定语音转换网关故障，触发所述选取单元根据所述语音的类别重新在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器。
[0036]优选地，所述语音转换结果为字符信息。
[0037]本发明实施例中，通过在接入网与互联网之间设置语音转换网关，对用户终端发往互联网的Web消息进行识别，确认Web消息中承载的信息为语音信息时，将其发送至语音转换服务器，经语音转换服务器识别为字符信息后，再由语音转换网关将转换后的字符信息重新封装为Web消息而发送至互联网侧。本发明实施例中，通过设置不同类型的语音转换服务器，能识别不同类型的语音，识别准确度高；由于语音转换网关与语音转换服务器之间的连接稳定度高而识别可靠，而语音转换服务器对用户不可见，提升了用户体验。
【附图说明】
[0038]图1为本发明实施例的网络结构示意图；
[0039]图2为本发明实施例一的语音信息转换方法的流程图；
[0040]图3为本发明实施例二的语音信息转换方法的流程图；
[0041]图4为本发明实施例的语音转换网关的组成结构示意图。
【具体实施方式】
[0042]为使本发明的目的、技术方案和优点更加清楚明白，以下举实施例并参照附图，对本发明进一步详细说明。
[0043]图1为本发明实施例的网络结构示意图，如图1所示，本发明实施例中，
[0044]在接入网的网络侧如移动网络侧部署Web应用网关；由该Web应用网关维护语言种类与Web语音转换服务器之间的对应关系；该Web应用网关截获包括语音内容的Web消息，将根据Web消息中语音内容的语言种类将语音内容转发到对应的Web语音转换服务器，Web语音转换服务器将其转换成字符，然后该Web应用网关将Web语音转换服务器的返回字符重新封装为新的Web消息，并将重新封装的Web消息发送至互联网侧。
[0045]本发明实施例中，当Web应用网关探测各Web语音转换服务器的可用性，必要时，为语音Web消息选取可用的Web语音转换服务器。
[0046]本发明实施例的技术方案，对于Web应用开发者而言，无需了解Web应用网关的地址信息；也无需了解Web语音转换服务器支持的语言种类，降低了开发者使用语音转换功能的门槛；同时有助于汇聚、动态组合业界优秀的语音转换资源。
[0047]图2为本发明实施例一的语音信息转换方法的流程图，结合图1，本发明实施例中，在接入网如移动网络与互联网之间设置语音转换网关，所述语音转换网关与一个以上的语音转换服务器连接；如图2所示，本示例的语音信息转换方法包括以下步骤:
[0048]步骤201，语音转换网关接收所述接入网侧转发的Web消息，确定所述Web消息包含语音内容时，获取所述语音内容中语音的类别。
[0049]作为一种实现方式，本发明实施例中，语音转换网关可以通过Web消息中的特定标签，来识别Web消息为语音Web消息还是字符Web消息。例如，可通过Web应用识别出待Web封装的内容为语音内容还是字符内容，从而在所封装后的Web消息中插入不同的标签，由语音转换网关对所接收的Web消息进行识别。
[0050]需要说明的是，本发明实施例中，由用户终端侧发送的Web消息，需要经语音转换网关处理，再发送至互联网侧。
[0051]步骤202，根据所述语音的类别在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器，并将所述语音内容向所选取的语音转换服务器发送。
[0052]本发明实施例中，当语音转换网关确定当前的Web消息中承载的内容为语音内容时，将会识别该语音内容的语言类别，如识别出语音内容为英文、日文、还是中文等，或者，当识别出语音内容为中文时，再进一步识别其为普通话还是方言，识别出后，为该语音内容选取能识别该语音内容的语音转换服务器，以便将语音内容准确识别为字符内容。
[0053]选取出语音转换服务器后，将所述语音内容向所选取的语音转换服务器发送。
[0054]步骤203，接收语音转换服务器反馈的语音转换结果，将所述语音转换结果封装为Web消息，将封装后的Web消息向所述互联网侧发送。
[0055]本发明实施例中，当语音转换服务器将语音内容识别为字符信息后，将该字符信息发送给语音转换网关，语音转换网关将转换后的字符信息重新封装为Web消息，将封装后的Web消息向所述互联网侧发送。
[0056]以下通过具体示例，进一步阐明本发明实施例的技术方案的实质。
[0057]图3为本发明实施例二的语音信息转换方法的流程图，如图3所示，本示例的语音信息转换方法包括以下步骤:
[0058]步骤301，Web应用录制语音，并将录制的语音内容封装为Web消息。
[0059]Web应用可以为安装于用户终端中的浏览器。语音内容可以通过设置于用户终端上的麦克输入。例如用户可以通过麦克输入语音信息，由Web应用采集该语音内容并封装。
[0060]步骤302，Web应用将封装好的语音Web消息向Web应用网关(语音转换网关)发送。
[0061]步骤303，Web应用网关对多接收的所有Web消息进行处理，分拣出语音Web消息，并提取Web消息中的语音内容，对该语音内容进行识别，识别出语音内容的语言类型，确定其是中文，还是其他种类的外语，或者是中文中的哪种方言。
[0062]步骤304，Web应用网关将识别出语言类别的语音内容发送至对应的语音转换Web服务器(语音转换服务器)，对该语音内容进行识别，将其转换为字符内容。本发明实施例中，与Web应用网关连接的语音转换Web服务器有多个，且每个语音转换Web服务器由不同的运营商维护，能识别出不同语言类型的语音，本发明实施例通过对语音内容进行分类，提升了语音内容识别的准确性。
[0063]步骤305，语音转换Web服务器将语音内容转换为字符信息。
[0064]步骤306，语音转换Web服务器将识别出的字符信息发送给Web应用网关。
[0065]步骤307，Web应用网关对所接收的字符信息重新封装，并根据之前语音Web消息的目的地址及源地址，重新封装给识别的字符信息为Web字符消息。
[0066]步骤308，Web应用网关将该重新封装后的Web字符消息发送至对应的Web应用服务器(互联网侧)。
[0067]本发明实施例中，通过在接入网与互联网之间设置语音转换网关，对用户终端发往互联网的Web消息进行识别，确认Web消息中承载的信息为语音信息时，将其发送至语音转换服务器，经语音转换服务器识别为字符信息后，再由语音转换网关将转换后的字符信息重新封装为Web消息而发送至互联网侧。本发明实施例中，通过设置不同类型的语音转换服务器，能识别不同类型的语音，识别准确度高；由于语音转换网关与语音转换服务器之间的连接稳定度高而识别可靠，而语音转换服务器对用户不可见，这样，对于Web应用开发者而言，无需了解Web应用网关的地址信息；也无需了解Web语音转换服务器支持的语言种类，降低了开发者使用语音转换功能的门槛；同时有助于汇聚、动态组合业界优秀的语音转换资源。
[0068]如图1所示，本发明实施例的语音转换网关设置于接入网与互联网之间，所述语音转换网关与一个以上的语音转换服务器连接；接入网可以为移动网络；图4为本发明实施例的语音转换网关的组成结构示意图，如图4所示，所述语音转换网关包括:第一接收单元40、第一确定单元41、获取单元42、选取单元43、第一发送单元44、第二接收单元45、封装单元46和第二发送单元47，其中:
[0069]第一接收单元40，用于接收所述接入网侧转发的Web消息；
[0070]第一确定单元41，用于确定所述Web消息是否包含语音内容，包含语音内容时触发所述获取单元42 ;
[0071]获取单元42，用于获取所述语音内容中语音的类别；
[0072]选取单元43，用于根据所述语音的类别在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器；
[0073]第一发送单元44，用于将所述语音内容向所选取的语音转换服务器发送；
[0074]第二接收单元45，用于接收语音转换服务器反馈的语音转换结果；
[0075]封装单元46，用于将所述语音转换结果封装为Web消息；
[0076]第一发送单元47，用于将封装后的Web消息向所述互联网侧发送。
[0077]在图4所示的语音转换网关的基础上，本发明实施例的语音转换网关还包括:第三发送单元(图4中未示出)、第三接收单元(图4中未示出)、第二确定单元(图4中未示出)和第三确定单元(图4中未示出)，其中:
[0078]第三发送单元，用于向所述一个以上的语音转换服务器发送状态查询消息；
[0079]第三接收单元，用于接收语音转换服务器的响应消息；
[0080]第二确定单元，用于在所述第三接收单元在设定时长内接收到语音转换服务器的响应消息时，确定语音转换服务器正常运行；
[0081]第三确定单元，用于在所述第三接收单元在设定时长内未接收到语音转换服务器的响应消息或在设定时长内未接收到语音转换服务器的响应消息超过设定次数时，确定语音转换服务器非正常运行。
[0082]本发明实施例，所述选取单元42，还用于根据语音转换服务器的当前状态及所述语音的类别在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器。
[0083]在图4所示的语音转换网关的基础上，本发明实施例的语音转换网关还包括:第四确定单元(图4中未示出)，用于在所述第二接收单元未接收到语音转换服务器反馈的语音转换结果时，确定语音转换网关故障，触发所述选取单元根据所述语音的类别重新在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器。
[0084]本发明实施例中，所述语音转换结果为字符信息。
[0085]本领域技术人员应当理解，图4中所示的语音转换网关中的各处理单元的实现功能可参照前述语音信息转换方法及其实施例的相关描述而理解。本领域技术人员应当理解，图4示的语音转换网关中各处理单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。
[0086]本发明实施例中，通过在接入网与互联网之间设置语音转换网关，对用户终端发往互联网的Web消息进行识别，确认Web消息中承载的信息为语音信息时，将其发送至语音转换服务器，经语音转换服务器识别为字符信息后，再由语音转换网关将转换后的字符信息重新封装为Web消息而发送至互联网侧。本发明实施例中，通过设置不同类型的语音转换服务器，能识别不同类型的语音，识别准确度高；由于语音转换网关与语音转换服务器之间的连接稳定度高而识别可靠，而语音转换服务器对用户不可见，这样，对于Web应用开发者而言，无需了解Web应用网关的地址信息；也无需了解Web语音转换服务器支持的语言种类，降低了开发者使用语音转换功能的门槛；同时有助于汇聚、动态组合业界优秀的语音转换资源。
[0087]本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。
[0088]在本发明所提供的几个实施例中，应该理解到，所揭露的方法、装置和电子设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如:多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。
[0089]上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0090]另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加应用功能单元的形式实现。
[0091 ] 本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括:移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0092]或者，本发明实施例上述集成的单元如果以应用功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以应用产品的形式体现出来，该计算机应用产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0093]本发明的保护范围并不局限于此，熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。
【主权项】
1.一种语音信息转换方法，其特征在于，在接入网与互联网之间设置语音转换网关，所述语音转换网关与一个以上的语音转换服务器连接；所述方法包括: 所述语音转换网关接收所述接入网侧转发的Web消息，确定所述Web消息包含语音内容时，获取所述语音内容中语音的类别；根据所述语音的类别在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器，并将所述语音内容向所选取的语音转换服务器发送；接收语音转换服务器反馈的语音转换结果，将所述语音转换结果封装为Web消息，将封装后的Web消息向所述互联网侧发送。2.根据权利要求1所述的方法，其特征在于，所述方法还包括: 所述语音转换网关向所述一个以上的语音转换服务器发送状态查询消息，在设定时长内接收到语音转换服务器的响应消息时，确定语音转换服务器正常运行；在设定时长内未接收到语音转换服务器的响应消息或在设定时长内未接收到语音转换服务器的响应消息超过设定次数时，确定语音转换服务器非正常运行。3.根据权利要求2所述的方法，其特征在于，所述方法还包括: 所述语音转换网关根据语音转换服务器的当前状态及所述语音的类别在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器。4.根据权利要求1所述的方法，其特征在于，所述方法还包括: 所述语音转换网关未接收到语音转换服务器反馈的语音转换结果，而确定语音转换网关故障时，根据所述语音的类别重新在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器。5.根据权利要求1所述的方法，其特征在于，为所述语音转换网关设置至少一个冗余语音转换网关；所述方法还包括: 所述接入网确定当前工作的语音转换网关故障时，在所述至少一个冗余语音转换网关中选取一个代替当前的语音转换网关。6.根据权利要求1至5任一项所述的方法，其特征在于，所述语音转换结果为字符信息。7.一种语音转换网关，其特征在于，所述语音转换网关设置于接入网与互联网之间，所述语音转换网关与一个以上的语音转换服务器连接；所述语音转换网关包括:第一接收单元、第一确定单元、获取单元、选取单元、第一发送单元、第二接收单元、封装单元和第二发送单元，其中: 第一接收单元，用于接收所述接入网侧转发的Web消息；第一确定单元，用于确定所述Web消息是否包含语音内容，包含语音内容时触发所述获取单元；获取单元，用于获取所述语音内容中语音的类别；选取单元，用于根据所述语音的类别在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器；第一发送单元，用于将所述语音内容向所选取的语音转换服务器发送；第二接收单元，用于接收语音转换服务器反馈的语音转换结果；封装单元，用于将所述语音转换结果封装为Web消息；第二发送单元，用于将封装后的Web消息向所述互联网侧发送。8.根据权利要求7所述的语音转换网关，其特征在于，所述语音转换网关还包括:第三发送单元、第三接收单元、第二确定单元和第三确定单元，其中: 第三发送单元，用于向所述一个以上的语音转换服务器发送状态查询消息；第三接收单元，用于接收语音转换服务器的响应消息；第二确定单元，用于在所述第三接收单元在设定时长内接收到语音转换服务器的响应消息时，确定语音转换服务器正常运行；第三确定单元，用于在所述第三接收单元在设定时长内未接收到语音转换服务器的响应消息或在设定时长内未接收到语音转换服务器的响应消息超过设定次数时，确定语音转换服务器非正常运行。9.根据权利要求8所述的语音转换网关，其特征在于，所述选取单元，还用于根据语音转换服务器的当前状态及所述语音的类别在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器。10.根据权利要求7所述的语音转换网关，其特征在于，所述语音转换网关还包括:第四确定单元，用于在所述第二接收单元未接收到语音转换服务器反馈的语音转换结果时，确定语音转换网关故障，触发所述选取单元根据所述语音的类别重新在所述一个以上的语音转换服务器中选取能识别所述类别语音的语音转换服务器。11.根据权利要求7至10任一项所述的语音转换网关，其特征在于，所述语音转换结果为字符信息。
【文档编号】H04L29/08GK105827878SQ201510002321
【公开日】2016年8月3日
【申请日】2015年1月4日
【发明人】董文宇
【申请人】中国移动通信集团公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董文宇;
技术所有人：中国移动通信集团公司;
我是此专利的发明人

上一篇：电话及其音频控制方法
上一篇：一种基于ivr平台的业务处理方法及ivr平台的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。