本发明涉及一种语音识别技术,更确切地说是一种语音交互的方法和系统。
背景技术:
如今智能设备使用较多,语音交互逐渐成为研究重点,人机之间的语音交互便是热点之一,语音交互的相关智能应用也开始变成热点,Siri等都是通过语音助手和人进行语音交互的。与智能设备行语音交互时,希望该智能设备的语音助手的语音习惯能像自己希望的某个人(如老婆,或者某心爱的人等等),但目前的智能语音交互只能以一种固定的角色,不能根据人的爱好进行个性化定做。
本方法通过让语音助手模仿指定用户的语言特征和语音特征,在语音交互时,语音助手能像所述指定用户一样与用户进行互动,使该语音助手更加符合用户的兴趣,提高了用户体验。
技术实现要素:
针对上述缺陷,本发明提供了一种语音交互的方法和系统。一种语音交互的方法,包括:从指定用户的通话过程中获取所述指定用户的语言特征和语音特征;将所述语言特征和语音特征赋予语音助手,语音助手根据这些语言特征和语音特征进行训练;语音助手模仿所述指定用户的语言特征和语音特征与用户进行语音交互。
可选地,所述语言特征包括语言习惯、语言风格和逻辑方式;所述语音特征包括音色、音调、韵律、节奏、口音。
可选地,所述指定用户为手动指定的用户或通话最多的用户。
可选地,所述通话包括手机的语音通话、语音短信。
可选地,将所述语言特征和语音特征赋予语音助手,以使语音助手模仿所述指定用户与用户进行交互,包括:从后台数据库读取交互内容,模仿所述语言特征和语音特征对交互内容进行处理,语音助手使用处理后的交互内容与用户进行交互。
可选地,语音助手判断用户发出的语音是否与所述的语言特征和语音特征相符;如果相符,则与该用户进行语音交互;如果不相符,则拒绝与该用户进行语音交互。
另外本发明还提出一种语音交互的系统,包括:语言特征和语音特征获取模块:用于从指定用户的通话过程中获取所述指定用户的语言特征和语音特征;语音训练模块:用于将所述语言特征和语音特征赋予语音助手,语音助手根据这些语言特征和语音特征进行训练;语音交互模块:用于语音助手模仿所述指定用户的语言特征和语音特征与用户进行语音交互。
可选地,所述系统还包括:用户设定模块:用于手动选择一个用户为所述指定用户或把通话最多的用户设定为所述指定用户。
可选地,所述语音交互模块,包括:读取模块:用于从后台数据库读取交互内容;处理模块:用于模仿所述语言特征和语音特征对交互内容进行处理;语音助手使用处理后的交互内容与用户进行交互。
可选地,所述系统还包括:交互判断模块:用于判断用户发出的语音是否与所述的语言特征和语音特征相符;如果相符,则与该用户进行语音交互;如果不相符,则拒绝与该用户进行语音交互。
本发明的有益效果:本方法通过让语音助手模仿指定用户相应的语言特征和语音特征,使得人机进行语音交互时,语音助手能像所述指定用户一样与用户进行互动,使该智能设备的语音助手更加符号用户的兴趣,提高了用户体验。
【附图说明】
图1为实现本发明各个实施例的移动终端的硬件结构示意图。
图2为如图1所示的移动终端的无线通信系统示意图。
图3是本发明提供的语音交互的方法实施例一的方法流程图。
图4是本发明提供的语音交互的方法实施例二的方法流程图。
图5是本发明提供的语音交互的方法实施例三的方法流程图。
图6是本发明提供的语音交互的系统实施例四的功能模块图。
图7是本发明提供的语音交互的系统实施例五的功能模块图。
图8是本发明提供的语音交互的系统实施例六的功能模块图。
【具体实施方式】
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
移动终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
图1为实现本发明各个实施例的移动终端的硬件结构示意。
移动终端100可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、输出单元140、存储器150、接口单元160、控制器170和电源单元180等等。图1示出了具有各种组件的移动终端,但是应理解的是,并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。
无线通信单元110通常包括一个或多个组件,其允许移动终端100与无线通信系统或网络之间的无线电通信。例如,无线通信单元可以包括移动通信模块111、无线互联网模块112、短程通信模块113中的至少一个。
移动通信模块111将无线电信号发送到基站(例如,接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。
无线互联网模块112支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。
短程通信模块113是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂TM等等。
A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风122,相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元141上。经相机121处理后的图像帧可以存储在存储器150(或其它存储介质)中或者经由无线通信单元110进行发送,可以根据移动终端的构造提供两个或更多相机121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块111发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息,并且可以包括键盘、锅仔片、触摸板(例如,检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地,当触摸板以层的形式叠加在显示单元141上时,可以形成触摸屏。
接口单元160用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别模块(UIM)、客户识别模块(SIM)、通用客户识别模块(USIM)等等。另外,具有识别模块的装置(下面称为"识别装置")可以采取智能卡的形式,因此,识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。
另外,当移动终端100与外部底座连接时,接口单元160可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。输出单元140被构造为以视觉、音频和/或触觉方式提供输出信号(例如,音频信号、视频信号、警报信号、振动信号等等)。输出单元140可以包括显示单元141、音频输出模块142等等。
显示单元141可以显示在移动终端100中处理的信息。例如,当移动终端100处于电话通话模式时,显示单元141可以显示与通话或其它通信(例如,文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时,显示单元141可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。
同时,当显示单元141和触摸板以层的形式彼此叠加以形成触摸屏时,显示单元141可以用作输入装置和输出装置。显示单元141可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显示器,典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式,移动终端100可以包括两个或更多显示单元(或其它显示装置),例如,移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。
音频输出模块142可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将无线通信单元110接收的或者在存储器150中存储的音频数据转换音频信号并且输出为声音。而且,音频输出模块142可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出模块142可以包括扬声器、蜂鸣器等等。
存储器150可以存储由控制器170执行的处理和控制操作的软件程序等等,或者可以暂时地存储己经输出或将要输出的数据(例如,电话簿、消息、静态图像、视频等等)。而且,存储器150可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。
存储器150可以包括至少一种类型的存储介质,所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且,移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。
控制器170通常控制移动终端的总体操作。例如,控制器170执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外,控制器170可以包括用于再现(或回放)多媒体数据的多媒体模块171,多媒体模块171可以构造在控制器170内,或者可以构造为与控制器170分离。控制器170可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。
电源单元180在控制器170的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。
这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在控制器180中实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器150中并且由控制器170执行。
至此,己经按照其功能描述了移动终端。下面,为了简要起见,将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此,本发明能够应用于任何类型的移动终端,并且不限于滑动型移动终端。
如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。
现在将参考图2描述其中根据本发明的移动终端能够操作的通信系统。
这样的通信系统可以使用不同的空中接口和/或物理层。例如,由通信系统使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信系统(UMTS)(特别地,长期演进(LTE))、全球移动通信系统(GSM)等等。作为非限制性示例,下面的描述涉及CDMA通信系统,但是这样的教导同样适用于其它类型的系统。
参考图2,无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)280。MSC280被构造为与公共电话交换网络(PSTN)290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。回程线路可以根据若干己知的接口中的任一种来构造,所述接口包括例如E1/T1、ATM,IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是,如图2中所示的系统可以包括多个BSC2750。
每个BS270可以服务一个或多个分区(或区域),由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS270。或者,每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS270可以被构造为支持多个频率分配,并且每个频率分配具有特定频谱(例如,1.25MHz,5MHz等等)。
分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子系统(BTS)或者其它等效术语。在这样的情况下,术语"基站"可以用于笼统地表示单个BSC275和至少一个BS270。基站也可以被称为"蜂窝站"。或者,特定BS270的各分区可以被称为多个蜂窝站。
如图2中所示,广播发射器(BT)295将广播信号发送给在系统内操作的移动终端100。如图1中所示的广播接收模块111被设置在移动终端100处以接收由BT295发送的广播信号。在图2中,示出了几个全球定位系统(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。
在图2中,描绘了多个卫星300,但是理解的是,可以利用任何数目的卫星获得有用的定位信息。如图1中所示的GPS模块115通常被构造为与卫星300配合以获得想要的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外,可以使用可以跟踪移动终端的位置的其它技术。另外,至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。
作为无线通信系统的一个典型操作,BS270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280,其提供用于与PSTN290形成接口的额外的路由服务。类似地,PSTN290与MSC280形成接口,MSC与BSC275形成接口,并且BSC275相应地控制BS270以将正向链路信号发送到移动终端100。
基于上述移动终端硬件结构以及通信系统,提出本发明方法各个实施例。
实施例一
参考图3,一种语音交互的方法,包括:
S101、从指定用户的通话过程中获取所述指定用户的语言特征和语音特征。
S102、将所述语言特征和语音特征赋予语音助手,语音助手根据这些语言特征和语音特征进行训练。
S103、语音助手模仿所述指定用户的语言特征和语音特征与用户进行语音交互。
指定用户的语言特征包括语言习惯、语言风格和逻辑方式;语音特征包括音色、音调、韵律、节奏、口音。
获取指定用户的语言特征和语音特征,包括:获取所述指定用户与用户沟通的语音短信和通话语音。当用户确定好指定用户,就会从智能设备上获取该指定用户与用户沟通的语音短信和语音,对这些交流语音进行分析,得到该指定用户的语言特征和语音特征。该指定用户为现实中的人物,例如用户的朋友家人、爸爸妈妈、自己的伴侣等。
将所述语言特征和语音特征赋予语音助手,以使语音助手模仿所述指定用户与用户进行交互,然后从后台数据库读取语音助手和用户之间的交互内容,模仿所述语言特征和语音特征对交互内容进行处理,语音助手使用处理后的交互内容与用户进行语音交互。当用户与语音助手进行对话,或用户设置让语音助手进行某些任务提醒时,对话内容即为交互内容,模仿指定用户的语言特征和语音特征对交互内容进行处理,则在对话中语音助手使用具有该指定用户的语言特征和语音特征与用户进行语音交互,或用该指定用户的语言特征和语音特征对用户进行任务提醒。
例如当用户将自己的某位好友设定为指定用户,则从智能设备上获取该好友与用户沟通的语音短信和通话语音,对这些交流语音进行分析,得到该好友的语言特征和语音特征;当用户通过语音交互进行了去参加该朋友的生日paty出发提醒的设定,则根据该好友的语言特征和语音特征对去参加朋友生日paty出发提醒的内容进行处理,语音助手使用处理后的内容发出提醒,就像是该好友在对用户做出去参加生日paty出发的提醒一样;或是用户与语音助手聊天时,根据该好友的语言特征和语音特征对聊天内容进行处理,语音助手就会使用处理后的聊天内容与用户聊天,让用户觉得是在与自己的好友进行聊天一样。
本实施例通过让语音助手模仿指定用户相应的语言特征和语音特征,使得人机进行语音交互时,语音助手能像所述指定用户一样与用户进行语音互动,使该智能语音助手更加符号用户的兴趣,提高了用户体验。
实施例二
参考图4,本实施例提供了另一种语音交互的方法,包括:
S201、获取所述指定用户与用户通话的语音内容。
当用户确定好指定用户,就会从智能设备上获取该指定用户与用户通话的语音内容。
例如,当用户将自己的妈妈作为指定用户,则从该用户妈妈与用户通话中获取该用户妈妈的语音。
S202、对所述指定用户与用户通话的语音内容进行分析。
对所述指定用户与用户沟通的语音进行语言特征和语音特征分析,即是从所述指定用户与用户沟通的语音中提取出指定用户的语言特征和语音特征,语言特征包括语言习惯、语言风格和逻辑方式;所述语音特征包括音色、音调、韵律、节奏、口音。
S203、获取指定用户的语言特征和语音特征。
通过上一步骤的分析,可以得到该指定用户说话时的声音、音调、音色、说话的节奏快慢以及说话时带有的地方口音,甚至是指定用户的一些独特口音;同时也能够获得指定用户的语言特征,即指定用户的语言习惯、语言风格以及逻辑方式。指定用户的语言习惯和语言风格可以得知指定用户说话的习惯,例如其说话时是不是带有习惯性的语气词,说话的慵懒还是比较急,比较温柔还是比较强硬等,这些都是指定人物的语言特征和语音特征。
例如,当用户将自己的妈妈作为指定用户,分析得到的是用户妈妈的语言特征和语音特征,包括用户妈妈说话时的声音、音调、音色、说话的节奏快慢以及说话时带有的地方口音,以及用户妈妈的语言习惯、语言风格以及逻辑方式。
S204、从后台数据库读取交互内容。
该步骤是通过后台的知识库得到与用户的原始交互内容,即用户做出提问时,应该回答是什么;例如用户对智能设备提出去“今天天气怎样?”对这一提问的回答是通过智能设备应用相关天气的数据库进行查找,从而得知今天的天气情况即为交互内容,在语音交互中还需要对这些交互内容进行处理。
S205、模仿所述语言特征和语音特征对交互内容进行处理,语音助手使用处理后的交互内容与用户进行交互。
对上一步骤中得到的交互内容根据指定用户的语言特征和语音特征进行处理,语音助手则使用经过语言特征和语音特征处理后的内容与用户交互。例如上一步骤中的交互内容是针对用户提问的回答,回答内容为今天的天气情况,则在该步骤中利用获得的上一步骤中获得指定用户的语言特征和语音特征对这个回答内容进行处理,语音助手使用处理后的回答内容与用户进行交互,当用户将自己的妈妈作为指定用户,则在上个步骤中获得的是用户妈妈的语言特征和语音特征,利用获得的上一步骤中获得用户妈妈的语言特征和语音特征对这个回答内容进行处理,语音助手使用处理后的回答内容与用户进行交互。
例如,当用户将自己的某位好友定位指定用户,则从智能设备上获取该好友与用户沟通的语音,对这些交流信息进行分析,得到该好友的语言特征和语音特征;当用户通过语音交互进行了去机场坐飞机出发提醒的设定,则根据该好友的语言特征和语音特征对去机场坐飞机出发提醒的内容进行处理,语音助手使用处理后的内容发出提醒,就像是该好友在对用户做出去机场坐飞机出发的提醒一样;或是用户与语音助手聊天时,根据该好友的语言特征和语音特征对聊天内容进行处理,语音助手就会使用处理后的聊天内容与用户聊天,让用户觉得是在与自己的好友进行聊天一样。
本实施例让语音助手模仿指定用户相应的语言特征和语音特征,使得人机进行语音交互时,语音助手能像所述指定用户一样与用户进行语音互动,使该智能语音助手更加符号用户的兴趣,使语音交互更加人性化,提高了用户体验。
实施例三
参考图5,本实施例提供了另一种语音交互的方法,包括:
S201、获取所述指定用户与用户通话的语音内容。
当用户确定好指定用户,就会从智能设备上获取该指定用户与用户通话的语音内容。
例如,当用户将自己作为指定用户,则从自己的通话中获取该用户自己的语音。
S202、对所述指定用户与用户通话的语音内容进行分析。
对所述指定用户与用户沟通的语音进行语言特征和语音特征分析,即是从所述指定用户与用户沟通的语音中提取出指定用户的语言特征和语音特征,语言特征包括语言习惯、语言风格和逻辑方式;所述语音特征包括音色、音调、韵律、节奏、口音。
S203、获取指定用户的语言特征和语音特征。
通过上一步骤的分析,可以得到该指定用户说话时的声音、音调、音色、说话的节奏快慢以及说话时带有的地方口音,甚至是指定用户的一些独特口音;同时也能够获得指定用户的语言特征,即指定用户的语言习惯、语言风格以及逻辑方式。指定用户的语言习惯和语言风格可以得知指定用户说话的习惯,例如其说话时是不是带有习惯性的语气词,说话的慵懒还是比较急,比较温柔还是比较强硬等,这些都是指定人物的语言特征和语音特征。
例如,当用户将自己作为指定用户,分析得到的是用户自己的语言特征和语音特征,包括用户自己说话时的声音、音调、音色、说话的节奏快慢以及说话时带有的地方口音,以及用户自己的语言习惯、语言风格以及逻辑方式。
S206、判断语音交互输入的语言特征和语音特征。
用户和智能设备的语音助手进行语音交互时,语音助手判断用户输入的语音是否与所述的语言特征和语音特征相符;如果相符,则与该用户进行语音交互;如果不相符,则拒绝与该用户进行语音交互。
例如,当用户和智能设备的语音助手进行交互时,语音助手通过判断当前进行语音交互的用户的语言特征和语音特征和之前记录的语言特征和语音特征是否相符,如果相符,则进行语音交互;否则拒绝该语音交互。通过该功能,可以确保语音助手只和自己的主人进行语音交互,非主人发起的语音交互不进行应答,从而保护了语音交互的隐私。
实施例四
参考图6,本实施例提供了一种语音交互的系统,包括:
P101语言特征和语音特征获取模块:用于获取指定用户的语言特征和语音特征。
P102语音训练模块:用于将所述语言特征和语音特征赋予语音助手,语音助手根据这些语言特征和语音特征进行训练。
P103语音交互模块:用于语音助手模仿所述指定用户的语言特征和语音特征与用户进行语音交互。
其中,语言特征包括语言习惯、语言风格和逻辑方式;语音特征包括音色、音调、韵律、节奏、口音。
获取指定用户的语言特征和语音特征,包括:获取所述指定用户与用户沟通的语言,然后提取指定用户的语言特征和语音特征。当用户确定好指定用户,就会从智能设备上获取该指定用户与用户沟通的语音,对这些交流信息进行分析,得到该指定用户的语言特征和语音特征。该指定用户为现实中的人物,例如用户的朋友家人、爸爸妈妈、自己的伴侣等。
将所述语言特征和语音特征赋予语音助手,以使语音助手模仿所述指定用户与用户进行交互,则为,从后台数据库读取语音助手和用户之间的交互内容,模仿所述语言特征和语音特征对交互内容进行处理,语音助手使用处理后的交互内容与用户进行语音交互。当用户与语音助手进行对话,或用户设置让语音助手进行某些任务提醒时,对话内容即为交互内容,模仿指定用户的语言特征和语音特征对交互内容进行处理,则在对话中语音助手使用具有该指定用户的语言特征和语音特征与用户进行语音交互,或用该指定用户的语言特征和语音特征对用户进行任务提醒。
例如当用户将自己的某位好友定位指定用户,则从智能设备上获取该好友与用户沟通的语音,对这些交流信息进行分析,得到该好友的语言特征和语音特征;当用户通过语音交互进行了去机场坐飞机出发提醒的设定,则根据该好友的语言特征和语音特征对去机场坐飞机出发提醒的内容进行处理,语音助手使用处理后的内容发出提醒,就像是该好友在对用户做出去机场坐飞机出发的提醒一样;或是用户与语音助手聊天时,根据该好友的语言特征和语音特征对聊天内容进行处理,语音助手就会使用处理后的聊天内容与用户聊天,让用户觉得是在与自己的好友进行聊天一样。
本实施例通过让语音助手模仿指定用户相应的语言特征和语音特征,使得人机进行语音交互时,语音助手能像所述指定用户一样与用户进行互动,使该智能语音助手更加符号用户的兴趣,使语音交互更加人性化,提高了用户体验。
实施例五
参考图7,本实施例提供了另一种语音交互的系统,包括:
P201 用户设定模块:用于手动选择一个用户为所述指定用户或把通话最多的用户设定为所述指定用户。
用户通过手动选择一个语音助手需要模拟他语言特征和语音特征的用户作为指定用户,也可以有智能设备自动把当前通话最多的用户设为语音助手需要模拟他语言特征和语音特征的用户。
P202 语音获取模块:用于获取所述指定用户与用户沟通的语音。
当用户确定好指定用户,就会从智能设备上获取该指定用户与用户沟通的语音。
例如当用户将自己的妈妈作为指定用户,则智能设备上获取该用户妈妈与用户沟通的语音。
P203 语音分析模块:用于分析所述指定用户与用户沟通的语音。
对所述指定用户与用户沟通的语音进行分析,即是从所述指定用户与用户沟通的语音中提取出指定用户的语言特征和语音特征,语言特征包括语言习惯、语言风格和逻辑方式;所述语音特征包括音色、音调、韵律、节奏、口音。
P204 语言特征和语音特征获取模块:用于获取指定用户的语言特征和语音特征。
通过上一模块的分析,可以得到该指定用户说话时的声音、音调、音色、说话的节奏快慢以及说话时带有的地方口音,甚至是指定用户的一些独特口音;同时也能够获得指定用户的语言特征,即指定用户的语言习惯、语言风格以及逻辑方式。指定用户的语言习惯和语言风格可以得知指定用户说话的习惯,例如其说话时是不是带有习惯性的语气词,说话的慵懒还是比较急,比较温柔还是比较强硬等,这些都是指定人物的语言特征和语音特征。
例如当用户将自己的妈妈作为指定用户,分析得到的是用户妈妈的语言特征和语音特征,包括用户妈妈说话时的声音、音调、音色、说话的节奏快慢以及说话时带有的地方口音,以及用户妈妈的语言习惯、语言风格以及逻辑方式。
P205 语音交互模块:用于将所述语言特征和语音特征赋予语音助手,以使语音助手模仿所述指定用户与用户进行交互。
其中,P205语音交互模块包括:
P2051 读取模块:用于从后台数据库读取交互内容.
P2052 处理模块:用于模仿所述语言特征和语音特征对交互内容进行处理;语音助手使用处理后的交互内容与用户进行交互。
该步骤是通过后台的知识库得到与用户的原始交互内容,即用户做出提问时,应该回答是什么;例如用户对智能设备提出去“今天天气如何?”对这一提问的回答是通过智能设备应用相关天气的数据库进行查找,从而得知该今天的天气情况,此时今天的天气情况即为交互内容,在语音交互中还需要对这些交互内容进行处理。
对上一步骤中得到的交互内容根据对象的语言特征和语音特征进行处理,语音助手则使用经过语言特征和语音特征处理后的内容与用户交互。例如上一步骤中的交互内容是针对用户提问的回答,回答内容为某一酒店的地址及去该酒店的交通方式,则在该步骤中利用获得的上一步骤中获得指定用户的语言特征和语音特征对这个回答内容进行处理,语音助手使用处理后的回答内容与用户进行交互,当用户将自己的妈妈作为指定用户,则在上个步骤中获得的是用户妈妈的语言特征和语音特征,利用获得的上一步骤中获得用户妈妈的语言特征和语音特征对这个回答内容进行处理,语音助手使用处理后的回答内容与用户进行交互。
例如,当用户将自己的某位好友定位指定用户,则从该好友在相关社交平台上公开的信息中获取相应的社交平台交流信息,同时从社交平台或智能设备上获取该好友与用户沟通的短信和语音,对这些交流信息进行分析,得到该好友的语言特征和语音特征;当用户通过语音交互进行了去机场坐飞机出发提醒的设定,则根据该好友的语言特征和语音特征对去机场坐飞机出发提醒的内容进行处理,语音助手使用处理后的内容发出提醒,就像是该好友在对用户做出去机场坐飞机出发的提醒一样;或是用户与语音助手聊天时,根据该好友的语言特征和语音特征对聊天内容进行处理,语音助手就会使用处理后的聊天内容与用户聊天,让用户觉得是在与自己的好友进行聊天一样。
本实施例通过让语音助手模仿指定用户相应的语言特征和语音特征,使得人机进行语音交互时,语音助手能像所述指定用户一样与用户进行互动,使该智能语音助手更加符号用户的兴趣,使语音交互更加人性化,提高了用户体验。
实施例六
参考图8,本实施例提供了另一种语音交互的系统,包括:
P201 用户设定模块:用于手动选择一个用户为所述指定用户或把通话最多的用户设定为所述指定用户。
用户通过手动选择一个语音助手需要模拟他语言特征和语音特征的用户作为指定用户,也可以有智能设备自动把当前通话最多的用户设为语音助手需要模拟他语言特征和语音特征的用户。
P202 语音获取模块:用于获取所述指定用户与用户沟通的语音。
当用户确定好指定用户,就会从智能设备上获取该指定用户与用户沟通的语音。
例如当用户将自己作为指定用户,则智能设备上获取自己所有通话中的语音。
P203 语音分析模块:用于分析所述指定用户与用户沟通的语音。
对所述指定用户与用户沟通的语音进行分析,即是从所述指定用户与用户沟通的语音中提取出指定用户的语言特征和语音特征,语言特征包括语言习惯、语言风格和逻辑方式;所述语音特征包括音色、音调、韵律、节奏、口音。
P204 语言特征和语音特征获取模块:用于获取指定用户的语言特征和语音特征。
通过上一模块的分析,可以得到该指定用户说话时的声音、音调、音色、说话的节奏快慢以及说话时带有的地方口音,甚至是指定用户的一些独特口音;同时也能够获得指定用户的语言特征,即指定用户的语言习惯、语言风格以及逻辑方式。指定用户的语言习惯和语言风格可以得知指定用户说话的习惯,例如其说话时是不是带有习惯性的语气词,说话的慵懒还是比较急,比较温柔还是比较强硬等,这些都是指定人物的语言特征和语音特征。
例如当用户将自己作为指定用户,分析得到的是自己的语言特征和语音特征,包括用户自己说话时的声音、音调、音色、说话的节奏快慢以及说话时带有的地方口音,以及用户自己的语言习惯、语言风格以及逻辑方式。
P206 语音交互判断模块:用于判断用户输入的语音是否与所述的语言特征和语音特征相符;如果相符,则与该用户进行语音交互;如果不相符,则拒绝与该用户进行语音交互。
例如,当用户和智能设备的语音助手进行交互时,语音助手通过交互判断模块判断当前进行语音交互的用户的语言特征和语音特征和之前记录的相符,则进行语音交互;否则拒绝该语音交互。通过该功能,可以确保语音助手只和自己的主人进行语音交互,非主人发起的语音交互不进行应答。从而保护了语音交互的隐私。
以上结合具体实施例描述了本发明实施例的技术原理,这些描述只是为了解释本发明实施例的原理,而不能以任何方式解释为对本发明实施例保护范围的限制,本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式,这些方式都将落入本发明实施例的保护范围之内。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。