自动识别语种的翻译方法、装置及设备与流程

文档序号:16898344发布日期:2019-02-19 17:41阅读:416来源:国知局
本发明涉及语音启动
技术领域
:,具体涉及自动识别语种的翻译方法、装置及设备。
背景技术
::随着经济全球化的发展,人们对外商务沟通、观光旅游的机会越来越多,不同国家的人进行交流时面临着语种不同的障碍。翻译机的出现可以很好地帮助不同语种的人之间进行很好的沟通。目前,市面上的翻译机在进行语种设置时,大多数都是通过屏幕或者按键来设置输入语言和输出语言,以及进行输入语言和输出语言的切换。但是,对于一些特殊场景,比如用户在开车时,不便于用手进行操作,使用翻译机进行交流就受到影响。此外,对于没有屏幕或者按键的设备来说,就不能将翻译功能集成进去,使用受限。技术实现要素:本发明的主要目的为提供一种自动识别语种的翻译方法、装置及设备,旨在解决现有技术中用户不能通过语音来设置翻译语种的问题。本发明提出一种自动识别语种的翻译方法,用于第一预设语种和第二预设语种的相互翻译,包括:获取用户输入的语音数据,并判断所述语音数据所属的语种是否为所述第一预设语种或所述第二预设语种;若所述语音数据所属的语种为所述第一预设语种,则选择第一翻译通道将所述第一预设语种翻译为所述第二预设语种;若所述语音数据所属的语种为所述第二预设语种,则选择第二翻译通道将所述第二预设语种翻译为所述第一预设语种。进一步地,所述获取用户输入的语音数据,并判断所述语音数据所属的语种是否为所述第一预设语种的步骤前,包括:分别获取用户输入的第一预设语音数据和第二预设语音数据,并确定所述第一预设语音数据对应的所述第一预设语种,以及确定所述第二预设语音数据对应的所述第二预设语种。进一步地,所述分别获取用户输入的第一预设语音数据和第二预设语音数据,并确定所述第一预设语音数据对应的所述第一预设语种,以及确定所述第二预设语音数据对应的所述第二预设语种的步骤,包括:获取用户输入的所述第一预设语音数据,并确定所述第一预设语音数据对应的所述第一预设语种;执行第一预设响应动作,其中,所述第一预设响应动作用于提示用户所述第一预设语种已经完成确定;获取用户输入的所述第二预设语音数据,并确定所述第二预设语音数据对应的所述第二预设语种;执行第二预设响应动作,其中,所述第二预设响应动作用于提示用户所述第二预设语种已经完成确定。进一步地,所述获取用户输入的所述第一预设语音数据,并确定所述第一预设语音数据对应的所述第一预设语种的步骤,包括:获取用户输入的所述第一预设语音数据,按照预设算法从所述第一预设语音数据中提取出指纹数据;将所述指纹数据与预存哈希表中的指纹数据进行比对,以获得所述指纹数据在所述预存哈希表中对应的国家名称;其中,所述预存哈希表中预存了各所述国家名称以及各所述国家名称分别对应的指纹数据;根据所述国家名称确定对应的语种;将所述语种设置为所述第一预设语种。进一步地,所述分别获取用户输入的第一预设语音数据和第二预设语音数据,并确定所述第一预设语音数据对应的所述第一预设语种,以及确定所述第二预设语音数据对应的所述第二预设语种的步骤前,包括:获取用户输入的第三预设语音数据,并判断所述第三预设语音数据中是否含有预设唤醒词,其中,所述预设唤醒词用于唤醒翻译设备;若所述第三预设语音数据中含有所述预设唤醒词,执行第三预设响应动作,其中,所述第三预设响应动作用于提示用户已唤醒翻译设备。进一步地,所述获取用户输入的语音数据,并判断所述语音数据所属的语种是否为所述第一预设语种的步骤,包括:从预设语种识别数据库中获取所述第一预设语种对应的第一识别模型和所述第二预设语种对应的第二识别模型;获取用户输入的所述语音数据,对所述语音数据进行特征提取,获得所述语音数据的特征数据;将所述特征数据分别与所述第一识别模型和所述第二识别模型进行匹配测试,确定所述语音数据所属的语种为第一预设语种或第二预设语种。进一步地,所述若所述语音数据所属的语种为所述第二预设语种,则选择第二翻译通道将所述第二预设语种翻译为所述第一预设语种的步骤,包括:将所述语音数据发送至所述第二翻译通道对应的语音服务器;接收所述语音服务器反馈的与所述语音数据对应的第一文本信息;将所述第一文本信息发送至所述第二翻译通道对应的翻译服务器;接收所述翻译服务器反馈的翻译所述第一文本信息后的第二文本信息;将所述第二文本信息发送至所述第二翻译通道对应的语音合成服务器;接收所述语音合成服务器转换所述第二文本信息后的音频信息,并输出所述音频信息。本发明还提出了一种自动识别语种的翻译装置,包括:第一判断单元,用于获取用户输入的语音数据,并判断所述语音数据所属的语种是否为所述第一预设语种;第一设置单元,用于若所述语音数据所属的语种为所述第一预设语种,则选择第一翻译通道将所述第一预设语种翻译为所述第二预设语种;第二设置单元,用于若所述语音数据所属的语种为所述第二预设语种,则选择第二翻译通道将所述第二预设语种翻译为所述第一预设语种。进一步地,还包括:预设语种设置单元,用于分别获取用户输入的第一预设语音数据和第二预设语音数据,并确定所述第一预设语音数据对应的所述第一预设语种,以及确定所述第二预设语音数据对应的所述第二预设语种。本发明还提出了一种自动识别语种的翻译设备,包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被存储在所述存储器中并被配置为由所述处理器执行,所述应用程序被配置为用于执行上述自动识别语种的翻译方法。本发明的有益效果:本发明的自动识别语种的翻译方法、装置及设备,通过获取用户输入的语音数据,自动判断该语音数据所属的语种为第一预设语种或第二预设语种,将该语音数据所属的语种设置为输入语种,另一语种设置为输出语种,以实现通过语音自动识别语种,并进行翻译语种的设置,用户无需通过屏幕或按键进行操作,便于用户在不便于手动操作的情况下进行翻译语种设置,提高人机交互体验。附图说明图1是本发明一实施例的自动识别语种的翻译方法的流程示意图;图2是本发明又一实施例的自动识别语种的翻译方法的流程示意图;图3是图2中步骤s01的流程示意图;图4是图3中步骤s011的流程示意图;图5是图1中步骤s1的流程示意图;图6是图1中步骤s3的流程示意图;图7是本发明一实施例的自动识别语种的翻译装置的结构示意框图;图8是本发明又一实施例的自动识别语种的翻译装置的结构示意框图;图9是本发明图8中预设语种设置单元的结构示意框图;图10是本发明图9中第一设置子单元的结构示意框图;图11是本发明又一实施例的自动识别语种的翻译装置的结构示意框图;图12是本发明图7中第一判断单元的结构示意框图;图13是本发明图7中第二设置单元的结构示意框图。本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。参照图1,本发明实施例提供了一种自动识别语种的翻译方法,用于第一预设语种和第二预设语种的相互翻译,包括:s1、获取用户输入的语音数据,并判断所述语音数据所属的语种是否为所述第一预设语种;s2、若所述语音数据所属的语种为所述第一预设语种,则选择第一翻译通道将所述第一预设语种翻译为所述第二预设语种;s3、若所述语音数据所属的语种为所述第二预设语种,则选择第二翻译通道将所述第二预设语种翻译为所述第一预设语种。本实施例中,如上述步骤s1所述,上述语音数据指的是用户输入的需要翻译设备对此进行翻译的语音数据。比如,两个使用不同语种的用户之间进行对话,用户甲使用翻译设备询问“今天星期几”,则“今天星期几”属于上述语音数据;用户乙使用翻译设备回答“monday”,则“monday”也属于上述语音数据。上述第一预设语种和上述第二预设语种指的是用户需要在第一预设语种和第二预设语种之间实现互相翻译的预设语种。比如,翻译设备中预先保存了第一预设语种为中文、第二预设语种为英文的设置,判断上述用户甲所说的“今天星期几”是中文还是英文。作为本发明一个优选的实施例,从用户开始输入语音数据开始,在获取了预设长度的语音数据,或者预设时长的语音数据后,即开始进行上述判断所述语音数据所属的语种为第一预设语种或第二预设语种的步骤。即在用户边输入语音数据时,翻译设备边进行语种的判断,以提高语种识别的速度,进而提高翻译设备翻译的响应速度。如果在获取了预设长度的语音数据,或者预设时长的语音数据后,翻译设备获得的语音数据的信息量太少,还没能识别出语种,再从上述用户输入的语音数据中提取出更多的语音数据来用于语种判断。比如,用户甲在对翻译设备说出“今天星期几”这句话的同时,翻译设备一边记录该语音数据,一边同步进行语种判断,获取到“今”的语音数据时,就开始进行语种判断,判断“今”是中文还是英文;如果翻译设备得到的“今”的语音数据中包含的信息量不足以识别语种,则提取“今天”来进行语种判断。如上述步骤s2~s3所述,上述第一翻译通道和上述第二翻译通道用于第一预设语种和第二预设语种的相互翻译。具体地,翻译设备中预先保存了第一预设语种为中文、第二预设语种为英文的设置,上述用户甲使用翻译设备询问“今天星期几”,翻译设备判定上述用户甲说的为“中文”,则选择第一翻译通道将“中文”翻译成“英文”;上述用户乙使用翻译设备回答“monday”,翻译设备判定上述用户乙说的为“英文”,则选择第二翻译通道将“英文”翻译成“中文”。参照图2,在一个实施例中,上述获取用户输入的语音数据,并判断所述语音数据所属的语种是否为所述第一预设语种的步骤s1前,还包括:s01、分别获取用户输入的第一预设语音数据和第二预设语音数据,并确定所述第一预设语音数据对应的所述第一预设语种,以及确定所述第二预设语音数据对应的所述第二预设语种。本实施例中,如上述步骤s01所述,上述第一预设语音数据指的是用户输入的用于设置第一预设语种的对应的预设语音数据,上述第二预设语音数据指的是用户输入的用于设置第二预设语种的对应的预设语音数据。其中,预设语音数据为翻译设备内预先设置好的特定语音数据。翻译设备内预存了每个语种所对应的预设语音数据。当用户需要设置第一预设语种时,对翻译设备说出与第一预设语种相对应的第一预设语音数据,即可实现第一预设语种的设置。第二预设语种的设置与第一语音数据的设置相同。参照图3,在一个实施例中,上述分别获取用户输入的第一预设语音数据和第二预设语音数据,并确定所述第一预设语音数据对应的所述第一预设语种,以及确定所述第二预设语音数据对应的所述第二预设语种的步骤s01,包括:s011、获取用户输入的所述第一预设语音数据,并确定所述第一预设语音数据对应的所述第一预设语种;s012、执行第一预设响应动作,其中,所述第一预设响应动作用于提示用户所述第一预设语种已经完成确定;s013、获取用户输入的所述第二预设语音数据,并确定所述第二预设语音数据对应的所述第二预设语种;s014、执行第二预设响应动作,其中,所述第二预设响应动作用于提示用户所述第二预设语种已经完成确定。本实施例中,如上述步骤s011所述,用户对翻译设备说出与第一预设语种相对应的第一预设语音数据,即可完成第一预设语种的确定。比如,上述第一预设语种为中文时,对应的第一预设语音数据可以是用户预设的语音数据,比如“中文”、“中国”、“母语”、“第一”、“china”等,用户可以自行设置,本发明对此不作限定。以第一预设语音数据为“中文”为例,即翻译设备获取到用户的语音“中文”,则确定第一预设语种为中文。如上述步骤s012所述,上述第一预设响应动作可以是预设的语音反馈,也可以是简单的“滴”的一声,也可以是翻译设备以振动或颜色变化等形式来提醒用户已唤醒翻译设备。比如,翻译设备已经将上述第一预设语音数据对应的第一预设语种确定为中文后,翻译设备发出“滴”的提示音,提示用户可以继续输入第二预设语音数据了。如上述步骤s013所述,用户对翻译设备说出与第二预设语种相对应的第二预设语音数据,即可完成第二预设语种的确定,比如,上述第二预设语种为英文时,对应的第二预设语音数据可以是用户预设的语音数据,比如“英文”、“英国”、“第二”、“english”等,用户可以自行设置,本发明对此不作限定。以第二预设语音数据为“英文”为例,即翻译设备获取到用户的语音“英文”,则确定第二预设语种为英文。如上述步骤s014所述,上述第二预设响应动作可以是预设的语音反馈,也可以是简单的“滴”的一声,也可以是翻译设备以振动或颜色变化等形式来提醒用户已唤醒翻译设备。比如,翻译设备已经将上述第二预设语音数据对应的第二预设语种确定为“英文”后,翻译设备发出“滴”的提示音,提示用户已经完成第二预设语种的设置,可以进行正常的对话了。参照图4,在一个实施例中,上述获取用户输入的所述第一预设语音数据,并确定所述第一预设语音数据对应的所述第一预设语种的步骤s011,包括:s0111、获取用户输入的所述第一预设语音数据,按照预设算法从所述第一预设语音数据中提取出指纹数据;s0112、将所述指纹数据与预存哈希表中的指纹数据进行比对,以获得所述指纹数据在所述预存哈希表中对应的国家名称;其中,所述预存哈希表中预存了各所述国家名称以及各所述国家名称分别对应的指纹数据;s0113、根据所述国家名称确定对应的语种;s0114、将所述语种设置为所述第一预设语种。本实施例中,如上述步骤s0111所述,上述指纹数据指的是从上述第一预设语音数据中提取出的,能唯一代表该第一预设语音数据的指纹数据。上述预设算法包括如下步骤:翻译设备将用户输入的第一预设语音数据转化为一维字节数据数组;通过傅里叶变换算法,将上述一维字节数据数组进行解析,得到对应的傅里叶变换数组;优选地,傅里叶变换算法采用快速傅里叶变换算法,在上述一维字节数据数组中设置至少一个分割点,将一维字节数据数组分割为一个矩阵数组,对该矩阵数组的每一行进行快速傅里叶变换,得到对应的傅里叶变换的复杂矩阵数组;将上述复杂矩阵数组中的数值进行10的降级,得到该复杂矩阵数组对应的降级后的数组,将该降级后的数组转变成哈希码,该哈希码即为从上述第一预设语音数据中提取出的指纹数据。如上述步骤s0112所述,上述预存哈希表中预存了各个国家名称以及所述各个国家名称对应的指纹数据,比如哈希表hashtable(map<long,string>),其中string指的是国家名称,long指的是该国家名称对应的指纹数据。用户在初次使用或者特定情况(比如需要修改预存哈希表等)先进行预存哈希表的设置。比如用户输入“中国”对应的预设语音数据,翻译设备将从该预设语音数据中提取出指纹数据,具体提取指纹数据的方法与步骤s0111相同,此处不再赘述;在预存哈希表中录入“中国”,以及“中国”对应的指纹数据;用户可以根据个人需要依次输入多个国家对应的语音数据,并分别按照上述格式保存至预存哈希表中。预存哈希表中国家名称的录入可以通过相关的应用程序来进行设置,比如,安装在手机、平板等的与该翻译设备相关联的应用程序。如上述步骤s0113所述,获取到国家名称后,再根据国家名称确定该国家使用的语种,比如,通过步骤s0112获取到国家名称为中国,则确定对应的语种为中文。如上述步骤s0111~s0114所述,用户在首次使用翻译设备进行翻译前,首先进行预存哈希表的设置,具体步骤为用户输入各个国家名称对应的预设语音数据,翻译设备从该预设语音数据提取出指纹数据,在预存哈希表中录入各个国家名称以及上述国家名称对应的指纹数据;用户在使用翻译设备进行翻译时,首先通过语音输入上述第一预设语音数据,从上述第一预设语音数据中提取出对应的指纹数据,从预存哈希表中比对该指纹数据,从而得到该指纹数据对应的国家名称,将该国家使用的语种设置为第一预设语种。同样地,上述获取用户输入的所述第二预设语音数据,并确定所述第二预设语音数据对应的所述第二预设语种的步骤s013的方法,与上述步骤s0111~s0114相似,此处不做赘述。参照图2,在一个实施例中,上述分别获取用户输入的第一预设语音数据和第二预设语音数据,并确定所述第一预设语音数据对应的所述第一预设语种,以及确定所述第二预设语音数据对应的所述第二预设语种的步骤s01前,还包括:s02、获取用户输入的第三预设语音数据,并判断所述第三预设语音数据中是否含有预设唤醒词,其中,所述预设唤醒词用于唤醒翻译设备;s03、若所述第三预设语音数据中含有所述预设唤醒词,执行第三预设响应动作,其中,所述第三预设响应动作用于提示用户已唤醒翻译设备。本实施例中,如上述步骤s02~s03所述,上述第三预设语音数据用于在设置第一预设语种和第二预设语种前唤醒翻译设备。上述预设唤醒词是预设的用于唤醒翻译设备的一个或多个词汇。上述第三预设响应动作可以是预设的语音反馈,也可以是简单的“滴”的一声,也可以是翻译设备以振动或颜色变化等形式来提醒用户已唤醒翻译设备。比如,翻译设备内预先设置好预设唤醒词为“你好,小微”,用户在需要启动该翻译设备时,向翻译设备说出“你好,小微”,翻译设备获取到该条语音数据,判断其中含有预设唤醒词“你好,小微”,翻译设备向用户给出语音反馈“我在”,此时,表示翻译设备已经被唤醒,可以进入后续步骤了。参照图5,在一个实施例中,上述获取用户输入的语音数据,并判断所述语音数据所属的语种是否为所述第一预设语种的步骤s1,包括:s101、从预设语种识别数据库中获取所述第一预设语种对应的第一识别模型和所述第二预设语种对应的第二识别模型;s102、获取用户输入的所述语音数据,对所述语音数据进行特征提取,获得所述语音数据的特征数据;s103、将所述特征数据分别与所述第一识别模型和所述第二识别模型进行匹配测试,确定所述语音数据所属的语种为第一预设语种或第二预设语种。本实施例中,如上述步骤s101所述,上述预设语种识别数据库指的是多个语种的识别模型的数据库,其中各个语种的识别模型根据从各个语种中提取出的特征集合进行预先训练而得。预设识别语种数据库中识别模型的建立可以采用现有的语种识别方法,比如从语音信号中提取能够反映语种信息的特征(如移位差分倒谱特征sdc,音素的n-gram单元统计量等),根据提取的特征选择合适的方法来建构识别模型(如离散无记忆模型vq、离散有记忆模型hmm、连续无记忆模型gmm、连续有记忆模型hmm等)。上述从预设语种识别数据库中获取所述第一预设语种的第一识别模型和所述第二预设语种的第二识别模型,比如,预设语种识别数据库中保存了中文、英文、法语、德语、日文、韩语等的识别模型,翻译设备内设置了第一预设语种为中文,第二预设语种为英文,则先从预设语种识别数据库中将中文的识别模型和英文的识别模型提取出来。如上述步骤s102所述,上述对所述语音数据进行特征提取的方法,与步骤s101中预设语种识别数据库中识别模型的特征提取的方法相同,可以采用现有技术,如移位差分倒谱特征sdc,音素的n-gram单元统计量等来提取能够反映所述语音数据的语种信息的特征数据。如上述步骤s103所述,上述匹配测试指的是在给定训练好的模型下,对所述语音数据的特征数据给出测试结果的过程,对于不同方法建立的模型其测试方法有所差别,一般与其训练过程紧密相关。匹配测试的具体方法可以采用现有技术中的模型测试方法,比如,基于连续有记忆模型hmm的语种识别过程中,匹配测试是通过将待识别的语音数据的特征与识别模型中各个语种进行相似概率计算,将概率高的识别模型的语种判定为待识别的语音数据的语种。参照图6,在一个实施例中,上述若所述语音数据所属的语种为所述第二预设语种,则选择第二翻译通道将所述第二预设语种翻译为所述第一预设语种的步骤s3,包括:s301、将所述语音数据发送至所述第二翻译通道对应的语音服务器;s302、接收所述语音服务器反馈的与所述语音数据对应的第一文本信息;s303、将所述第一文本信息发送至所述第二翻译通道对应的翻译服务器;s304、接收所述翻译服务器反馈的翻译所述第一文本信息后的第二文本信息;s305、将所述第二文本信息发送至所述第二翻译通道对应的语音合成服务器;s306、接收所述语音合成服务器转换所述第二文本信息后的音频信息,并输出所述音频信息。本实施例中,通过步骤s301~s306实现第二预设语种向第一预设语种的翻译,通过语音服务器得到与上述语音数据对应的第一文本信息,通过翻译服务器对第一文本信息进行翻译,得到第二文本信息,通过语音合成服务器将第二文本信息合成为音频信息,翻译设备将此音频信息进行输出。同样地,若所述语音数据所属的语种为所述第一预设语种,则选择第一翻译通道将所述第一预设语种翻译为所述第二预设语种的步骤s2的翻译方法与步骤s3相同,本发明对此不作赘述。本发明实施例的自动识别语种的翻译方法,通过获取用户输入的语音数据,判断该语音数据所属的语种为第一预设语种或第二预设语种,将该语音数据所属的语种设置为输入语种,另一语种设置为输出语种,以实现通过语音自动识别语种,并进行翻译语种的设置,用户无需通过屏幕或按键进行操作,便于用户在不便于手动操作的情况下进行翻译语种设置,提高人机交互体验。参照图7,本发明实施例还提出了一种自动识别语种的翻译装置,包括:第一判断单元10,用于获取用户输入的语音数据,并判断所述语音数据所属的语种是否为所述第一预设语种或所述第二预设语种;第一设置单元20,用于若所述语音数据所属的语种为所述第一预设语种,则选择第一翻译通道将所述第一预设语种翻译为所述第二预设语种;第二设置单元30,用于若所述语音数据所属的语种为所述第二预设语种,则选择第二翻译通道将所述第二预设语种翻译为所述第一预设语种。本实施例中翻译设备采集/播放用户的语音数据,并以音频码流文件的形式与自动识别语种的翻译装置进行语音数据的传输。如上述第一判断单元10所述,上述语音数据指的是用户输入的需要翻译设备对此进行翻译的语音数据。比如,两个使用不同语种的用户之间进行对话,用户甲使用翻译设备询问“今天星期几”,则“今天星期几”属于上述语音数据;用户乙使用翻译设备回答“monday”,则“monday”也属于上述语音数据。上述第一预设语种和上述第二预设语种指的是用户需要在第一预设语种和第二预设语种之间实现互相翻译的预设语种。比如,翻译设备中预先保存了第一预设语种为中文、第二预设语种为英文的设置,判断上述用户甲所说的“今天星期几”是中文还是英文。作为本发明一个优选的实施例,从用户开始输入语音数据开始,在获取了预设长度的语音数据,或者预设时长的语音数据后,即开始进行上述判断所述语音数据所属的语种为第一预设语种或第二预设语种的步骤。即在用户边输入语音数据时,翻译设备边进行语种的判断,以提高语种识别的速度,进而提高翻译设备翻译的响应速度。如果在获取了预设长度的语音数据,或者预设时长的语音数据后,翻译设备获得的语音数据的信息量太少,还没能识别出语种,再从上述用户输入的语音数据中提取出更多的语音数据来用于语种判断。比如,用户甲在对翻译设备说出“今天星期几”这句话的同时,翻译设备一边记录该语音数据,一边同步进行语种判断,获取到“今”的语音数据时,就开始进行语种判断,判断“今”是中文还是英文;如果翻译设备得到的“今”的语音数据中包含的信息量不足以识别语种,则提取“今天”来进行语种判断。如上述第一设置单元20和第二设置单元30所述,上述第一翻译通道和上述第二翻译通道用于第一预设语种和第二预设语种的相互翻译。具体地,翻译设备中预先保存了第一预设语种为中文、第二预设语种为英文的设置,上述用户甲使用翻译设备询问“今天星期几”,翻译设备通过第一设置单元20判定上述用户甲说的为“中文”,则选择第一翻译通道将“中文”翻译成“英文”;上述用户乙使用翻译设备回答“monday”,翻译设备通过第二设置单元30判定上述用户乙说的为“英文”,则选择第二翻译通道将“英文”翻译成“中文”。参照图8,在一个实施例中,上述自动识别语种的翻译装置还包括:预设语种设置单元01,用于分别获取用户输入的第一预设语音数据和第二预设语音数据,并确定所述第一预设语音数据对应的所述第一预设语种,以及确定所述第二预设语音数据对应的所述第二预设语种。本实施例中,如上述预设语种设置单元01所述,上述第一预设语音数据指的是用户输入的用于设置第一预设语种的对应的预设语音数据,上述第二预设语音数据指的是用户输入的用于设置第二预设语种的对应的预设语音数据。其中,预设语音数据为翻译设备内预先设置好的特定语音数据。翻译设备内预存了每个语种所对应的预设语音数据。当用户需要设置第一预设语种时,对翻译设备说出与第一预设语种相对应的第一预设语音数据,即可通过预设语种设置单元01实现第一预设语种的设置。第二预设语种的设置与第一语音数据的设置相同。参照图9,在一个实施例中,上述预设语种设置单元01,包括:第一设置子单元011,用于获取用户输入的所述第一预设语音数据,并确定所述第一预设语音数据对应的所述第一预设语种;第一动作子单元012,用于执行第一预设响应动作,其中,所述第一预设响应动作用于提示用户所述第一预设语种已经完成确定;第二设置子单元013,用于获取用户输入的所述第二预设语音数据,并确定所述第二预设语音数据对应的所述第二预设语种;第二动作子单元014,用于执行第二预设响应动作,其中,所述第二预设响应动作用于提示用户所述第二预设语种已经完成确定。本实施例中,如上述第一设置子单元011所述,用户对翻译设备说出与第一预设语种相对应的第一预设语音数据,即可通过第一设置子单元011完成第一预设语种的确定。比如,上述第一预设语种为中文时,对应的第一预设语音数据可以是用户预设的语音数据,比如“中文”、“中国”、“母语”、“第一”、“china”等,用户可以自行设置,本发明对此不作限定。以第一预设语音数据为“中文”为例,即翻译设备获取到用户的语音“中文”,则确定第一预设语种为中文。如上述第一动作子单元012所述,上述第一预设响应动作可以是预设的语音反馈,也可以是简单的“滴”的一声,也可以是翻译设备以振动或颜色变化等形式来提醒用户已唤醒翻译设备。比如,翻译设备已经将上述第一预设语音数据对应的第一预设语种确定为中文后,翻译设备发出“滴”的提示音,提示用户可以继续输入第二预设语音数据了。如上述第二设置子单元013所述,用户对翻译设备说出与第二预设语种相对应的第二预设语音数据,即可通过第二设置子单元013完成第二预设语种的确定,比如,上述第二预设语种为英文时,对应的第二预设语音数据可以是用户预设的语音数据,比如“英文”、“英国”、“第二”、“english”等,用户可以自行设置,本发明对此不作限定。以第二预设语音数据为“英文”为例,即翻译设备获取到用户的语音“英文”,则确定第二预设语种为英文。如上述第二动作子单元014所述,上述第二预设响应动作可以是预设的语音反馈,也可以是简单的“滴”的一声,也可以是翻译设备以振动或颜色变化等形式来提醒用户已唤醒翻译设备。比如,翻译设备已经将上述第二预设语音数据对应的第二预设语种确定为“英文”后,翻译设备发出“滴”的提示音,提示用户已经完成第二预设语种的设置,可以进行正常的对话了。参照图10,在一个实施例中,上述第一设置子单元011,包括:数据提取装置0111,用于获取用户输入的所述第一预设语音数据,按照预设算法从所述第一预设语音数据中提取出指纹数据;数据比对装置0112,用于将所述指纹数据与预存哈希表中的指纹数据进行比对,获得所述指纹数据在所述预存哈希表中对应的国家名称;其中,所述预存哈希表中预存了各所述国家名称以及各所述国家名称分别对应的指纹数据;语种确定装置0113,用于根据所述国家名称确定对应的语种;语种设置装置0114,用于将所述语种设置为所述第一预设语种。本实施例中,如上述数据提取装置0111所述,上述指纹数据指的是从上述第一预设语音数据中提取出的,能唯一代表该第一预设语音数据的指纹数据。上述预设算法包括如下步骤:翻译设备通过数据提取装置0111将用户输入的第一预设语音数据转化为一维字节数据数组;通过傅里叶变换算法,将上述一维字节数据数组进行解析,得到对应的傅里叶变换数组;优选地,傅里叶变换算法采用快速傅里叶变换算法,在上述一维字节数据数组中设置至少一个分割点,将一维字节数据数组分割为一个矩阵数组,对该矩阵数组的每一行进行快速傅里叶变换,得到对应的傅里叶变换的复杂矩阵数组;将上述复杂矩阵数组中的数值进行10的降级,得到该复杂矩阵数组对应的降级后的数组,将该降级后的数组转变成哈希码,该哈希码即为从上述第一预设语音数据中提取出的指纹数据。如上述数据比对装置0112所述,上述预存哈希表中预存了各个国家名称以及所述各个国家名称对应的指纹数据,比如哈希表hashtable(map<long,string>),其中string指的是国家名称,long指的是该国家名称对应的指纹数据。用户在初次使用或者特定情况(比如需要修改预存哈希表等)先进行预存哈希表的设置。比如用户输入“中国”对应的预设语音数据,翻译设备从该预设语音数据中提取出指纹数据,具体提取指纹数据的方法与数据提取装置0111相同,此处不再赘述;在预存哈希表中录入“中国”,以及“中国”对应的指纹数据;用户可以根据个人需要依次输入多个国家对应的语音数据,并分别按照上述格式保存至预存哈希表中。预存哈希表中国家名称的录入可以通过相关的应用程序来进行设置,比如,安装在手机、平板等的与该翻译设备相关联的应用程序。如上述语种确定装置0113所述,获取到国家名称后,再根据国家名称确定该国家使用的语种,比如,通过数据比对装置0112获取到国家名称为中国,则确定对应的语种为中文。如上述数据提取装置0111、数据比对装置0112、语种确定装置0113和语种设置装置0114所述,用户在首次使用翻译设备进行翻译前,首先进行预存哈希表的设置,具体步骤为用户输入各个国家名称对应的预设语音数据,翻译设备从该预设语音数据提取出指纹数据,在预存哈希表中录入各个国家名称以及上述国家名称对应的指纹数据;用户在使用翻译设备进行翻译时,首先通过语音输入上述第一预设语音数据,通过数据提取装置0111从上述第一预设语音数据中提取出对应的指纹数据,再通过数据比对装置0112从预存哈希表中比对该指纹数据,通过语种确定装置0113得到该指纹数据对应的国家名称,再通过语种设置装置0114将该国家使用的语种设置为第一预设语种。同样地,上述获取用户输入的所述第二预设语音数据,并确定所述第二预设语音数据对应的所述第二预设语种的第二设置子单元013,与上述数据提取装置0111、数据比对装置0112、语种确定装置0113和语种设置装置0114相似,此处不做赘述。参照图11,在一个实施例中,上述自动识别语种的翻译装置还包括:唤醒单元02,用于获取用户输入的第三预设语音数据,并判断所述第三预设语音数据中是否含有预设唤醒词,其中,所述预设唤醒词用于唤醒翻译设备;动作单元03,用于若所述第三预设语音数据中含有所述预设唤醒词,执行第三预设响应动作,其中,所述第三预设响应动作用于提示用户已唤醒翻译设备。本实施例中,如上述唤醒单元02和动作单元03所述,上述第三预设语音数据用于在设置第一预设语种和第二预设语种前唤醒翻译设备。上述预设唤醒词是预设的用于唤醒翻译设备的一个或多个词汇。上述第三预设响应动作可以是预设的语音反馈,也可以是简单的“滴”的一声,也可以是翻译设备以振动或颜色变化等形式来提醒用户已唤醒翻译设备。比如,翻译设备内预先设置好预设唤醒词为“你好,小微”,用户在需要启动该翻译设备时,向翻译设备说出“你好,小微”,翻译设备通过唤醒单元02获取到该条语音数据,判断其中含有预设唤醒词“你好,小微”,翻译设备通过动作单元03向用户给出语音反馈“我在”,此时,表示翻译设备已经被唤醒,可以进入后续步骤了。参照图12,在一个实施例中,上述第一判断单元10,包括:模型获取子单元101,用于从预设语种识别数据库中获取所述第一预设语种对应的第一识别模型和所述第二预设语种对应的第二识别模型;特征获取子单元102,用于获取用户输入的所述语音数据,对所述语音数据进行特征提取,获得所述语音数据的特征数据;语种匹配子单元103,用于将所述特征数据分别与所述第一识别模型和所述第二识别模型进行匹配测试,确定所述语音数据所属的语种为第一预设语种或第二预设语种。本实施例中,如上述模型获取子单元101所述,上述预设语种识别数据库指的是多个语种的识别模型的数据库,其中各个语种的识别模型根据从各个语种中提取出的特征集合进行预先训练而得。预设识别语种数据库中识别模型的建立可以采用现有的语种识别方法,比如从语音信号中提取能够反映语种信息的特征(如移位差分倒谱特征sdc,音素的n-gram单元统计量等),根据提取的特征选择合适的方法来建构识别模型(如离散无记忆模型vq、离散有记忆模型hmm、连续无记忆模型gmm、连续有记忆模型hmm等)。上述从预设语种识别数据库中获取所述第一预设语种的第一识别模型和所述第二预设语种的第二识别模型,比如,预设语种识别数据库中保存了中文、英文、法语、德语、日文、韩语等的识别模型,翻译设备内设置了第一预设语种为中文,第二预设语种为英文,则先通过模型获取子单元101从预设语种识别数据库中将中文的识别模型和英文的识别模型提取出来。如上述特征获取子单元102所述,上述对所述语音数据进行特征提取的方法,与模型获取子单元101中预设语种识别数据库中识别模型的特征提取的方法相同,可以采用现有技术,如移位差分倒谱特征sdc,音素的n-gram单元统计量等来提取能够反映所述语音数据的语种信息的特征数据。如上述语种匹配子单元103所述,上述匹配测试指的是在给定训练好的模型下,对所述语音数据的特征数据给出测试结果的过程,对于不同方法建立的模型其测试方法有所差别,一般与其训练过程紧密相关。匹配测试的具体方法可以采用现有技术中的模型测试方法,比如,基于连续有记忆模型hmm的语种识别过程中,匹配测试是通过语种匹配子单元103将待识别的语音数据的特征与识别模型中各个语种进行相似概率计算,将概率高的识别模型的语种判定为待识别的语音数据的语种。参照图13,在一个实施例中,上述第二设置单元30,包括:语音发送单元301,用于将所述语音数据发送至所述第二翻译通道对应的语音服务器;第一文本接收单元302,用于接收所述语音服务器反馈的与所述语音数据对应的第一文本信息;第一文本翻译单元303,用于将所述第一文本信息发送至所述第二翻译通道对应的翻译服务器;第二文本接收单元304,用于接收所述翻译服务器反馈的翻译所述第一文本信息后的第二文本信息;语音合成单元305,用于将所述第二文本信息发送至所述第二翻译通道对应的语音合成服务器;音频输出单元306,用于接收所述语音合成服务器转换所述第二文本信息后的音频信息,并输出所述音频信息。本实施例中,通过语音发送单元303~音频输出单元306实现第二预设语种向第一预设语种的翻译,通过第一文本接收单元302得到与上述语音数据对应的第一文本信息,通过第一文本翻译单元303对第一文本信息进行翻译,得到第二文本信息,通过语音合成单元305将第二文本信息合成为音频信息,翻译设备通过音频输出单元306将此音频信息进行输出。同样地,第一设置单元20与第二设置单元30相同,本发明对此不作赘述。本发明实施例的自动识别语种的翻译装置,通过获取用户输入的语音数据,判断该语音数据所属的语种为第一预设语种或第二预设语种,将该语音数据所属的语种设置为输入语种,另一语种设置为输出语种,以实现通过语音自动识别语种,并进行翻译语种的设置,用户无需通过屏幕或按键进行操作,便于用户在不便于手动操作的情况下进行翻译语种设置,提高人机交互体验。本发明实施例还提出了一种自动识别语种的翻译设备,包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被存储在所述存储器中并被配置为由所述处理器执行,所述应用程序被配置为用于上述任一项所述的自动识别语种的翻译方法。本领域技术人员可以理解,本发明所述自动识别语种的翻译设备和上述所涉及用于执行本申请中所述方法中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序或应用程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、rom(read-onlymemory,只读存储器)、ram(randomaccessmemory,随机存储器)、eprom(erasableprogrammableread-onlymemory,可擦写可编程只读存储器)、eeprom(electricallyerasableprogrammableread-onlymemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的
技术领域
:,均同理包括在本发明的专利保护范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1