一种基于深度学习的智能电话语音系统的制作方法

文档序号:25350684发布日期:2021-06-08 13:23阅读:115来源:国知局
1.本发明涉及语音交互
技术领域
:,特别是涉及一种基于深度学习的智能电话语音系统。
背景技术
::2.随着人工智能的不断发展,语音识别技术取得显著进步,开始从实验室走向市场。语音识别技术已经开始进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。3.现有技术中,智能音箱也不断走入人们的视野,如,siri系统、小米智能音箱、nano智能音箱以及各种儿童语音交互玩具等。这些系统虽然能够完成基本的交互过程但往往存在以下缺陷,每次输入语音前,需要手动或通过特定的词语将系统调至特定获取语音的状态,或者需要将终端设备开启到特定的诸如亮屏状态,解锁状态,才能够顺利识别语音,且不能在人声嘈杂的环境中进行语音识别。这就给交互过程带来了不便。技术实现要素:4.本发明的目的是提供一种基于深度学习的智能电话语音系统,以解决现有技术中的不足,它能够在复杂的环境中进行拾音,能够使得在语音输出的过程中有效控制智能终端的功耗,使语音交互过程更加智能化。5.本发明提供了一种基于深度学习的智能电话语音系统,适用于智能终端,包括:语音获取模块,用于获取语音信息;语音预处理模块,所述语音预处理模块与所述语音获取模块连接,用于按照第一预设规则对所述语音信息进行处理,得到目标语音;语音识别模块,用于对所述目标语音进行识别分析,获得目标内容;检索模块,所述检索模块与所述语音识别模块连接,用于根据所述目标内容按照第二预设规则获取对应的目标应答内容;输出模块,所述输出模块与所述检索模块连接,用于按照第三预设规则将所述目标应答内容进行输出。6.进一步地,所述语音处理模块按照第一预设规则对所述语音信息进行处理包括以下至少一种:对获取的所述语音信息进行噪声滤除;从所述语音信息中识别目标用户的语音信息;从所述语音信息中识别目标声源的语音信息。7.进一步地,从所述语音信息中识别目标用户的语音信息,包括:当所述语音信息中存在多个目标用户的语音信息时;按照目标用户的优先级,获取对应的语音信息作为目标语音。8.进一步地,从所述语音信息中识别目标声源的语音信息,包括:当所述语音信息中存在多个目标声源时;按照目标声源的优先级,获取对应的语音信息作为目标语音。9.进一步地,所述第二预设规则包括以下至少一种:从所述智能终端中存储的应答内容中获取对应的目标应答内容;从将所述目标内容发送至服务器,从所述服务器中获取对应的目标应答内容;从互联网获取对应的目标应答内容。10.进一步地,所述从互联网获取对应的目标应答内容,包括:从互联网查找与所述目标内容的相似度达到预设阈值的网络热词;查找及获取所述网络热词对应的应答内容作为目标应答内容;若所述网络热词对应的应答内容存在至少两个以上,则获取热度最高的应答内容作为目标内容。11.进一步地,所述按照第三预设规则将目标应答内容进行输出,包括以下至少一种:将目标应答内容以语音的形式进行输出;将目标应答内容以文字的形式进行输出;执行目标应答内容,对执行结果进行输出。12.进一步的,该系统还包括:控制模块,用于根据目标应答内容对所述智能终端的终端模式进行控制。13.其中,所述终端模式,包括唤醒模式、非唤醒模式中的至少一种。14.进一步地,控制模块用于根据目标应答内容对所述智能终端的终端模式进行控制,包括:当所述目标应答内容需要输出文字和/或运行效果时,若所述智能终端处于非唤醒模式,则对所述智能终端进行唤醒,并输出所述目标应答内容;当所述目标应答内容需要输出语音时,若所述智能终端处于非唤醒模式,则直接输出语音,和/或对所述智能终端进行唤醒并输出目标应答内容。15.进一步地,所述语音识别模块基于深度神经网络对语音进行识别。16.本发明的有益效果在于,能够在人声嘈杂的环境中准确识别目标语音信息,且能够有效的查找到对应于识别到的目标语音信息的目标应答内容,同时在对目标应答内容按照设定的方式进行输出时控制终端的功耗,提高了复杂环境中的语音识别效率,使语音交互过程更加智能化。附图说明17.图1为一实施例中本发明提供的一种基于深度学习的智能电话语音系统的框架示意图。18.图2为一实施例中本发明提供的使用基于深度学习的智能电话语音系统的方法流程示意图。19.图3为一实施例中本发明提供的计算机设备的内部结构图。具体实施方式20.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。21.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,此外,本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。22.应当理解,尽管在本文可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本文范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。本申请使用的术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的,或意味着任一个或任何组合。例如,“包括以下至少一个:a、b、c”意味着“以下任一个:a;b;c;a和b;a和c;b和c;a和b和c”,再如,“a、b或c”或者“a、b和/或c”意味着“以下任一个:a;b;c;a和b;a和c;b和c;a和b和c”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。23.应该理解的是,虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。24.取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。25.需要说明的是,在本文中,采用了诸如s1、s2等步骤代号,其目的是为了更清楚简要地表述相应内容,不构成顺序上的实质性限制,本领域技术人员在具体实施时,可能会先执行s4后执行s3等,但这些均应在本申请的保护范围之内。26.应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。27.在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或者“单元”可以混合地使用。28.电子设备可以以各种形式来实施。例如,本申请中描述的电子设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(personaldigitalassistant,pda)、便捷式媒体播放器(portablemediaplayer,pmp)、导航装置、可穿戴设备、智能手环、计步器、智能汽车、智能飞机等移动终端,以及诸如数字tv、台式计算机等固定终端。29.后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本申请的实施方式的构造也能够应用于固定类型的终端。30.在本申请提供的一个实施例中,如图1所示的,一种基于深度学习的智能电话语音系统,适用于智能终端,包括:语音获取模块100,用于获取语音信息;在本申请的一个实施例中,具体实施时,所述语音获取模块包括麦克风,具体地,麦克风的数量为多个,分布在智能终端,诸如智能手机、智能手表、智能手环、智能汽车等智能终端的外周。通过语音获取模块,使得无论任何时候,都能够获取声音信息。在一种实施例的场景下,为了节省终端的功耗,可以在特定情况下自动设置语音获取模块实时采集语音信息,例如智能手机处于运动模式、驾驶模式、以及语音模式等,诸如智能汽车处于高速行驶、低速行驶、以及停止状态等,通过智能判断终端的运行状态,确定语音获取模块是否需要实时获取语音信息。在另一种实施例的场景下,还可以由用户操作触发实时获取语音信息。31.语音预处理模块200,所述语音预处理模块与所述语音获取模块连接,用于按照第一预设规则对所述语音信息进行处理,得到目标语音;在本申请的一个实施例中,当通过语音获取模块采集到语音信息之后,由于通常采集到的语音信息中都伴随着噪音,因此需要对语音信息中的噪音进行滤除,得到需要的目标语音;当终端处于息屏模式或者睡眠模式时,判断目标语音是否为设定的唤醒语音,若是,则控制终端进行唤醒,若不是,则保持终端继续处于息屏模式或者睡眠模式;一种实施例的情况下,还可以判断目标语音的特征是否为设定的特征信息,若是则控制对终端进行唤醒;在终端处于亮屏或者解锁的唤醒模式下时,不需要对所述目标语音是否为设定的唤醒词进行判断,直接将目标语音输出给语音识别模块。因此在唤醒模式下,不需要唤醒词就能够进行语音交流,从而能够使语音交流更加方便和有效,使交流过程更加符合人类交流习。即,在交流的过程中无需每句话前都需要加入唤醒词。32.在本申请的一个实施例中,当通过语音获取模块采集到语音信息之后,由于在人生嘈杂的环境中,采集到的语音信息中通常具有多个人的语音信息,因此需要对目标用户的语音进行识别、提取出来获得目标语音信息;或者,对非目标用户的语音信息进行识别、滤除,以获得目标用户的目标语音信息。由于在实际的使用过程中,通常会设置多个用户为目标用户,因此在多个目标用户的场景下需要按照一定的优先级获取目标语音信息,一种实施例的场景下,例如,一家三口,爸爸、妈妈以及孩子都是目标用户,当获取到的目标语音信息中存在目标用户时,可以按照目标用户的优先级进行优先获取对应的目标语音,例如,当终端为智能汽车时,爸爸作为目标用户的优先级最高,则优先获取爸爸的语音信息作为目标语音;在例如,当终端为智能手机时,妈妈作为目标用户的优先级最高,则优先获取妈妈的语音信息作为目标语音。在一个可实施的场景下,当终端处于设定的模式下时,优先级顺序则会不一样,例如当汽车高速行驶时,爸爸的优先级最高,低俗行驶时,妈妈的优先级最高,再例如当终端处于工作模式时,则妈妈的优先级最高,当处于儿童模式时,或者学习模式时,则孩子的优先级最高。33.在另一种实施例的场景下,例如会议模式下,会议成员一般都是目标用户,因此在会议模式的场景下,获取目标语音时,可以通过识别目标声源,例如将老板所在位置设置为声源,当该声源存在语音时,将该语音作为目标语音;一种实施例的场景下,还可以将主要发言人的的位置设置为声源,获取相应的语音作为目标语音,当存在多个声源的语音信息时,可以按照声源的优先级,也可以按照声源目标用户的优先级获取对应的语音作为目标语音。34.语音识别模块300,用于对所述目标语音进行识别分析,获得目标内容;在本申请的一个实施例中,具体实施过程中,语音识别模块基于深度学习网络对目标语音的识别,所述语音识别模块可以是设置在智能语音交互设备上,也可以是设置在第三方服务器上。35.检索模块400,所述检索模块与所述语音识别模块连接,用于根据所述目标内容按照第二预设规则获取对应的目标应答内容;在本申请的一个实施例中,通过对目标语音进行识别获取到目标内容之后,进一步判断该目标内容是否需要应答,若是,则进一步的查找对应的目标应答内容。在一个实施例场景下,为了节省网络资源,可以在终端中存储应答内容,当目标内容需要应答时,优先在终端存储的应答内容中查找对应的目标应答内容;在另一种场景下,由于将应答内容存储在终端中对硬件的配置要求比较高,如果终端是智能手机、手表等则无法由于处理器的算力较小,承担查找对应的目标应答内容时,所需要的的硬件资源及功耗均较高,因此可以通过网络将目标内容发送至服务器,从服务器中查找对应的目标应答内容;在一种场景下,还可以通过互联网查找对应的目标内容,具体的,可通过互联网查找与所述目标内容的相似度达到预设阈值的网络热词,当查找到相似度达到预设阈值的网络热词时,则进一步地通过互联网查找该热词对应的应答内容作为目标应答内容,一种场景下,若查找到的网络热词对应的应答内容存在至少两个以上,则进一步地可将热度最高的应答内容作为目标内容。36.输出模块500,所述输出模块与所述检索模块连接,用于按照第三预设规则将所述目标应答内容进行输出。37.在本申请的一个实施例中,在获取到目标应答内容之后,需要进一步判断该目标应答内容是否需要输出,以及输出目标应答内容的方式,具体的实施方式下,可以按照如下的方式输出目标应答内容:例如,目标内容为“讲笑话”,则需要输出的目标应答内容应以语音的形式进行输出,可体现出智能交互的效果,且达到讲笑话的目的;例如,目标内容为“搜索xx人的电话”,则需要输出的目标应答内容应为电话号码,因此以文字的形式进行输出更为直观,且方便进一步的操作;再例如,目标内容为“打电话”,则需要输出的目标应答内容为执行效果,具体的例如进行呼叫。38.在实际的场景中,应用环境一般都是多种情况交叉在一起的,例如目标内容为“给xxx打电话”,在需要优先查找xxx的电话号码进行输出显示,在执行呼叫操作,一种情景下,在查找xxx电话的过程中可直接进行呼叫,这里对并行还是串行不做限定。39.在本申请的一个实施例中,基于深度学习的智能电话语音系统还包括:控制模块,用于根据目标应答内容对所述智能终端的终端模式进行控制;其中,所述终端模式,包括唤醒模式、非唤醒模式中的至少一种。40.一种较佳的实施方式中,当智能终端在输出目标应答内容前,还需要进一步的判断该目标应答内容的输出是否需要对对智能终端进行唤醒,例如:当所述目标应答内容需要输出文字和/或运行效果时,若所述智能终端处于非唤醒模式,则对所述智能终端进行唤醒,并输出所述目标应答内容;当所述目标应答内容需要输出语音时,若所述智能终端处于非唤醒模式,则直接输出语音,和/或对所述智能终端进行唤醒并输出目标应答内容。41.例如在睡眠模式下,接收到目标语音为“关机”,则获取到的目标应答内容“执行关机”因此不需要对智能终端进行唤醒,当接收到目标内容为“播放xxx音乐”,则获取到的目标应答内容为“执行播放xxx音乐”,该该种情况下,需要对终端进行唤醒,但无需进行亮屏,只需在息屏状态下播放音乐即可。因此基于目标应答内容输出方式的判断,控制对智能终端的唤醒操作,可以一定程度上降低智能终端不必要的功耗。42.在本申请的一个实施例中,如图2所示,提供的使用基于深度学习的智能电话语音系统的方法流程示意图,包括:s1、通过麦克风获取语音信息;具体的在终端中通常会设置有多个麦克风,可基于其中的一个,或者多个采集语音信息,还可以通过主麦克或者麦克风进行获取环境中的语音信息。43.s2、对获取的语音信息进行处理,得到目标语音;具体的实施过程中,可对获取的语音信息进行滤波处理,得到目标语音,或者从获取的语音信息中识别目标用户的语音信息等到目标语音,再或者从获取的语音信息中识别目标声源的语音信息作为目标语音;s3、基于深度神经网络对获取的目标语音进行识别,获得目标内容;s4、查找目标内容对应的目标应答内容;具体查找方式包括:从所述智能终端中存储的应答内容中获取对应的目标应答内容;或者,从将所述目标内容发送至服务器,从所述服务器中获取对应的目标应答内容;或者,从互联网获取对应的目标应答内容。44.s5、对目标应答内容进行输出;具体的当所述目标应答内容需要输出文字和/或运行效果时,若所述智能终端处于非唤醒模式,则对所述智能终端进行唤醒,并输出所述目标应答内容;当所述目标应答内容需要输出语音时,若所述智能终端处于非唤醒模式,则直接输出语音,和/或对所述智能终端进行唤醒并输出目标应答内容。45.本申请的一个实施例中,还提供了提供了一种计算机设备,该计算机设备可通过运行该基于深度学习的智能电话语音系统,用以提高语音的识别率,以及提高用户的语音交互体验,该计算机设备的内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该智能终端的处理器用于提供计算和控制能力。该职能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述的基于深度学习的智能电话语音系统的运行。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。46.本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。47.本领域普通技术人员可以理解实现上述实施例实时企业画像生成方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。48.上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。49.在本申请中,对于相同或相似的术语概念、技术方案和/或应用场景描述,一般只在第一次出现时进行详细描述,后面再重复出现时,为了简洁,一般未再重复阐述,在理解本申请技术方案等内容时,对于在后未详细描述的相同或相似的术语概念、技术方案和/或应用场景描述等,可以参考其之前的相关详细描述。50.在本申请中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。51.本申请技术方案的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本申请记载的范围。52.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本申请每个实施例的方法。53.以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的
技术领域
:,均同理包括在本申请的专利保护范围内。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1