显示设备、控制显示设备的方法、服务器以及控制服务器的方法
【专利摘要】本发明公开了一种显示设备。该显示设备包括:语音收集单元,配置为收集用户的语音;第一通信单元,向第一服务器发送用户语音,并且从第一服务器接收与用户语音相对应的文本信息;第二通信单元,向第二服务器发送接收到的文本信息,并且接收与文本信息相对应的响应信息;输出单元,基于响应信息,输出与用户语音相对应的响应消息;以及控制单元,当再次收集到具有相同话语意图的用户语音时,控制输出单元输出与对应于先前收集到的用户语音的响应消息有区别的响应消息。
【专利说明】显示设备、控制显示设备的方法、服务器以及控制服务器的方法
[0001]相关申请的交叉参考
[0002]本申请要求2012年6月15日向韩国知识产权局递交的韩国专利申请N0.10-2012-0064500的优先权,其全部公开内容通过引用合并于此。
【技术领域】
[0003]根据示例实施例的方法和设备涉及显示设备、控制显示设备的方法、对话型系统,更具体地,涉及与服务器互连并且根据用户的语音而受控的显示设备,控制显示设备的方法、服务器以及控制服务器的方法。
【背景技术】
[0004]由于电子技术的发展,各种类型的显示设备得以开发和配销,显示设备具有多种功能。最近,电视与互联网连接以提供互联网服务,并且用户能够通过这样的电视观看大量数字广播频道。
[0005]同时,正在开发使用语音识别的技术来更方便和直观地控制显示设备的技术。具体地,电视能够执行识别用户语音的功能,并且执行诸如音量控制和改变频道等与用户语音相对应的功能。
[0006]然而,识别用户语音的传统显示设备仅提供与识别的语音相对应的功能,并而不通过与用户的对话提供交互信息,这成为一种限制。
【发明内容】
[0007]示例实施例的一个方面涉及可以与外部服务器互连并且支持与用户对话的显示设备,控制显示设备的方法、服务器、以及控制服务器的方法。
[0008]根据示例实施例,一种显示设备可以包括:语音收集单元,收集用户的语音;第一通信单元,向第一服务器发送语音,并且从第一服务器接收与语音相对应的文本信息;第二通信单元,向第二服务器发送接收到的文本信息,并且接收与文本信息相对应的响应信息;输出单元,基于响应信息,输出与语音相对应的响应消息;以及控制单元,当再次收集到与先前收集的用户语音具有相同话语意图的用户语音时,控制输出单元输出第二响应消息,第二响应消息与对应于先前收集的用户语音的第一响应消息有区别。
[0009]这里,第二服务器可以分析文本信息,以确定语音中包括的话语意图,并且向显示设备发送与确定的话语意图相对应的响应信息。
[0010]此外,当依次接收的第一文本信息和第二文本信息中包括的话语意图相同时,第二服务器可以产生与第二文本信息相对应的第二响应消息,以与对应于第一文本信息的第一响应信息有区别,并且向显不设备发送产生的第二响应信息。
[0011]此外,控制单元可以基于与第二文本信息相对应的第二响应信息,控制输出单元将与再次接收到的用户语音相对应的响应消息作为为语音和文本中的至少一种输出。[0012]此外,控制单元可以基于与第二文本信息相对应的第二响应信息,控制输出单元将从显不设备输出的内容的音频音量输出为相对低于作为响应消息输出的语音的音量。
[0013]此外,控制单元可以基于与第二文本信息相对应的第二响应信息,将与再次接收到的用户语音相对应的响应消息作为其中预定关键词被加重的文本输出。
[0014]同时,根据示例实施例,一种与显示设备互连的服务器可以包括:通信单元,接收与显示设备中收集的用户语音相对应的文本信息;以及控制单元,配置为分析文本信息以确定语音中包括的话语意图,并且控制通信单元向显示设备发送与确定的话语意图相对应的响应信息,其中,当第一文本信息和第二文本信息中包括的话语意图相同时,控制单元产生与第二文本信息相对应的第二响应信息,以与对应于第一文本信息的第一响应信息有区另IJ,并且向显示设备发送产生的第二响应信息。
[0015]这里,显示设备可以基于响应信息,将与语音相对应的响应消息作为语音和文本中的至少一种输出。
[0016]此外,控制单元可以产生与第一文本信息相对应的第一响应信息,使得显示设备将响应消息作为语音和文本之一输出,并且当依次接收到第一文本信息和第二文本信息时,产生与第二文本信息相对应的第二响应信息,使得显不设备将响应消息作为语音和文本之一输出。
[0017]此外,当依次接收到第一文本信息和第二文本信息时,控制单元可以产生与第二文本信息相对应的第二响应信息,使得从显示设备输出的内容的音频音量低于作为响应消息输出的语音的音量。
[0018]此外,当依次接收到第一文本信息和第二文本信息时,控制单元可以产生与第一文本信息相对应的第一响应信息,使得显不设备将响应消息作为文本输出,并且产生与第二文本信息相对应的第二响应信息,使得显示设备将第二响应消息作为其中关键词被加重的文本输出。
[0019]同时,根据示例实施例,一种显示设备的控制方法可以包括:收集用户语音;向第一服务器发送语音,并从第一服务器接收与语音相对应的文本信息;向第二服务器发送接收到的文本信息,并且接收与文本信息相对应的响应信息;并且当再次收集到与先前收集的用户语音具有相同话语意图的用户语音时,基于响应信息输出第二响应消息,第二响应消息与对应于先前收集的用户语音的第一响应消息有区别。
[0020]这里,第二服务器可以分析文本信息,并且确定用户语音中包括的话语意图,并且向显示设备发送与确定的话语意图相对应的响应信息。
[0021]此外,当依次接收的第一文本信息和第二文本信息中包括的话语意图相同时,第二服务器可以产生与第二文本信息相对应的第二响应信息,以与对应于第一文本信息的第一响应信息有区别,并且向显不设备发送产生的第二响应信息。
[0022]此外,所述输出可以包括:基于与第二文本信息相对应的第二响应信息,将与再次接收到的用户语音相对应的响应消息作为语音和文本中的至少一种输出。
[0023]此外,所述输出可以包括:基于与第二文本信息相对应的第二响应信息,输出从显不设备输出的内容的音频音量,该音频音量低于作为响应消息输出的语音的音量。
[0024]此外,所述输出可以包括:基于与第二文本信息相对应的第二响应信息,将与再次接收到的用户语音相对应的第二响应消息作为其中关键词被加重的文本输出。[0025]同时,根据示例实施例,一种与显示设备互连的服务器的控制方法可以包括:接收与在显示设备中收集的用户语音相对应的文本信息;分析文本信息并确定语音数据中包括的话语意图;并且当第一文本信息和第二文本信息中包括的话语意图相同时,产生与第二文本信息相对应的第二响应信息,以与对应于第一文本信息的第一响应信息有区别,并且向显示设备发送产生的与第二文本信息相对应的第二响应信息。
[0026]这里,显示设备可以基于产生的第二响应信息,将与语音相对应的响应消息作为语音和文本中的至少一种输出。
[0027]此外,所述发送可以包括:当依次接收到第一文本信息和第二文本信息时,产生与第一文本信息相对应的第一响应信息,使得显示设备将响应消息作为语音和文本中的至少一种输出,并且产生与第二文本信息相对应的第二响应信息,使得显不设备将响应消息作为语音和文本中的至少一种输出。
[0028]此外,所述发送可以包括:当依次接收到第一文本信息和第二文本信息时,产生与第二文本信息相对应的第二响应信息,使得从显不设备输出的内容的音频音量低于作为响应消息输出的语音的音量。
[0029]此外,所述发送可以包括:当依次接收到第一文本信息和第二文本信息时,产生与第一文本信息相对应的第一响应信息,使得显不设备将响应消息作为文本输出,并且产生与第二文本信息相对应的第二响应信息,使得显示设备将第二响应消息作为其中关键词被加重的文本输出。
[0030]根据另一示例实施例,提供了一种显示设备,包括:语音收集单元,收集语音;通信单元,向第一服务器发送语音,并且从第一服务器接收与语音相对应的文本信息,向第二服务器发送接收到的文本信息,并且接收与文本信息相对应的响应信息;输出单元,基于响应信息,输出与语音相对应的响应消息;以及控制单元,配置为当收集到与先前收集的用户语音具有相同话语意图的语音时,控制输出单元输出第二响应消息,第二响应消息与对应于先前收集的语音的第一响应消息有区别。
[0031]根据另一示例实施例,提供了一种与显示设备交互的服务器,该服务器包括:通信单元,接收分别与第一语音和第二语音相对应的第一文本信息和第二文本信息;以及控制单元,配置为分析第一文本信息和第二文本信息,以确定第一语音和第二语音中包括的话语意图,并且控制通信单元向显示设备发送与确定的话语意图相对应的响应信息,其中,当第一文本信息和第二文本信息中包括的话语意图相同时,控制单元产生与第二文本信息相对应的第二响应信息,以与对应于第一文本信息的第一响应信息有区别,并且向显不设备发送产生的第二响应信息。
[0032]根据示例实施例,提供了一种显示设备的控制方法,该控制方法包括:收集第一语音并且随后收集第二语音;向第一服务器发送第一语音,向第一服务器发送第二语音,并从第一服务器接收分别与第一语音和第二语音相对应的第一文本信息和第二文本信息;向第二服务器发送接收到的第一文本信息和第二文本信息,并且接收分别与第一文本信息和第二文本信息相对应的第一响应信息和第二响应信息;并且当第二语音与先前收集的第一语音具有相同的话语意图时,基于第二响应信息输出第二响应消息,第二响应消息与对应于先前收集的第一语音的第一响应消息有区别。
[0033]根据又一示例实施例,提供了一种显示设备的控制方法,该控制方法包括:收集第一语音并且随后收集第二语音;向第一服务器发送第一语音,向第一服务器发送第二语音,并从第一服务器接收分别与第一语音和第二语音相对应的第一文本信息和第二文本信息;向第二服务器发送接收到的第一文本信息和第二文本信息,并且接收分别与第一文本信息和第二文本信息相对应的第一响应信息和第二响应信息;并且当第二语音与先前收集的第一语音具有相同的话语意图时,基于第二响应信息输出第二响应消息,第二响应消息与对应于先前收集的第一语音的第一响应消息有区别。
[0034]根据上述各个示例实施例,能够提供一种显示设备,支持与用户对话,提高用户的便利性。此外,在再次收集到具有相同话语意图的用户语音的情况下,显示设备可以输出与先前不同的关于用户语音的响应消息,从而增强了用户的理解
【专利附图】
【附图说明】
[0035]参照附图,示例实施例的以上和/或其他方面更加显而易见,在附图中:
[0036]图1是用于说明根据示例实施例的对话型系统的视图;
[0037]图2是用于说明图1中示出的对话型系统的每个操作的时序图;
[0038]图3是用于说明图1中示出的显示设备的配置的框图;
[0039]图4是用于说明图3中示出的显示设备的详细配置的框图;
[0040]图5是用于说明图1中示出的第一服务器的配置的框图;
[0041]图6是用于说明图6中示出的第二服务器的配置的框图;
[0042]图7是用于说明图6中示出的第二服务器的详细配置的框图;
[0043]图8至10是用于说明根据示例实施例的对话型系统的操作的视图;
[0044]图11是用于说明根据示例实施例的控制显示设备的方法的流程图;以及
[0045]图12是用于说明根据示例实施例的控制与显示设备互连的服务器的方法的流程图。
【具体实施方式】
[0046]在下文中,参照附图更详细地描述特定示例实施例。
[0047]在以下描述中,当相同的元件在不同附图中示出时相同的附图标记用于相同的元件。提供说明书中定义的事物(例如详细构造和元件)以有助于全面理解示例实施例。然而,没有这些具体定义的事物也可以执行示例实施例。同样,由于公知的功能或元件可能以不必要的细节模糊示例实施例,因此不对其进行详细描述。
[0048]图1是用于说明根据示例实施例的对话型系统的视图。如图1所示,对话型系统包括显示设备100、第一服务器200和第二服务器300。显示设备100可以是如图1所示的智能电视,但这仅是一个示例,因此显示设备可以实现为多种电子设备,例如智能电话之类的移动电话、台式个人计算机(PC)、笔记本电脑和导航设备等。
[0049]同时,遥控器(未示出)可以控制显示设备100。例如,如果显示设备100由电视来实现,则可以根据从遥控器(未示出)接收到的控制信号执行诸如电源开/关、频道改变和音量调节等操作。
[0050]显示设备100向第一服务器200发送收集的用户语音。用户的“语音”可以包括语音数据、用户的有声语句,用户的有声提问,用户的有声声音等。当从显示设备100接收到用户语音时,第一服务器200将接收到的用户语音转换成文本信息(或文本),并且向显示设备100发送文本信息。
[0051]此外,显示设备100向第二服务器300发送从第一服务器200接收到的文本信息。当从显示设备100接收到文本信息时,第二服务器300产生与接收到的文本信息相对应的响应信息,并且向显示设备100发送产生的响应信息。
[0052]显示设备100可以基于从第二服务器300接收到的响应信息执行多种操作。例如,显示设备100可以输出与用户语音相对应的响应消息。这里,可以将响应信息输出为语音和文本中的至少一种。更具体地,当输入询问广播节目的广播时间的用户语音时,显示设备100可以将对应广播节目的广播时间输出为语音或文本,或二者的组合。
[0053]此外,显示设备100可以执行与用户语音相对应的功能。例如,当输入针对改变频道的用户语音时,显示设备100可以选择并显示对应的频道。在这种情况下,显示设备100可以连同对应频道一起提供与对应功能相对应的响应消息。在上述示例中,显示设备可以将与改变后的频道有关的信息或示出了频道改变已完成的消息,作为至少语音或文本输出。
[0054]具体地,当再次收集到具有相同话语意图的用户语音时,显示设备100可以输出与对应于先前收集的用户语音的响应消息有区别的响应消息。即,在上述示例中,在输入询问广播节目的广播时间的用户语音,然后再次输入询问相同广播节目的广播时间的用户语音的情况下,显示设备100可以通过多种方法以与之前不同的形式输出对应节目的广播时间。
[0055]图2是用于说明图1中示出的对话型系统的每个操作的时序图。
[0056]根据图2,显示设备100收集用户语音(Sll),并且向第一服务器发送收集到的用户语音(S12)。更具体地,当发起用于收集用户语音的模式时,显示设备100可以收集在预定距离内用户发出的用户语音,并且向第一服务器200发送收集到的语音。
[0057]为此,显示设备100可以具有用于接收用户发出的语音的麦克风。在这种情况下,麦克风可以实现为以一体形式置于显示设备100内,或者可以与显示设备100分离。在与显示设备100分离地设置麦克风的情况下,麦克风可以按照以下形式来实现:可以由用户握持,或者放置在桌子上并且经由有线或无线与显示设备100连接。
[0058]第一服务器200将从显示设备100收集到的用户语音转换成文本信息(S13)。更具体地,第一服务器200可以实现STT(语音到文本)算法,将从显示设备100接收到的用户语音转换成文本信息。此外,第一服务器200向显不设备100发送文本信息(S14)。
[0059]显示设备100向第二服务器300发送从第一服务器200接收到的文本信息(S15)。
[0060]当从显示设备100接收到文本信息时,第二服务器300产生与文本信息相对应的响应信息(S16),并且向显示设备100发送响应信息(S17)。
[0061]这里,响应信息包括用于在显示设备100中输出响应消息的响应消息信息。响应消息是与显示设备100中收集到的用户语音相对应的回答,并且响应消息信息可以是从显示设备100输出的以文本格式表达的关于用户语音的响应消息。相应地,显示设备100可以基于响应消息信息,将与用户语音相对应的响应消息作为语音和文本中的至少一种输出。此外,响应信息还可以包括用于执行与用户语音相对应的功能的控制命令。
[0062]同时,显示设备100基于接收到的响应信息执行与用户语音相对应的操作(S18)。[0063]更具体地,显示设备100可以基于响应信息中包括的响应消息信息输出与用户语音相对应的响应消息。即,当从第二服务器300接收到具有文本形式的响应消息信息时,显示设备100可以使用TTS (文本到语音)算法来将文本转换成语音并输出结果,或者配置UI (用户界面)屏幕以包括形成响应消息信息的文本,并且输出结果。
[0064]例如,在显示设备中收集到表达“000(广播节目)什么时间播出?”的用户语音的情况下,第二服务器300可以向显示设备100发送表达“在星期六下午7点”的文本格式响应消息信息。相应地,显示设备100可以将表达“在星期六下午7点”的响应消息作为语音和文本中的至少一种输出。
[0065]此外,根据响应信息中包括的控制命令,显示设备100可以控制执行与用户语音相对应的功能。例如,在收集到表达“在显示设备100中记录000(广播节目)”的用户语音的情况下,第二服务器300可以向显示设备100发送用于执行“000”预约记录功能的控制命令。相应地,显示设备100可以执行对应广播节目的预约记录功能。
[0066]在这种情况下,响应信息还可以包括与显示设备100中执行的功能相对应的响应消息信息。例如,在上述示例中,能够连同控制命令一起向显示设备100发送表达“已经预约了记录000”的文本格式响应消息信息,并且显示设备100可以将表达“已经预约了记录000”的响应消息作为语音和文本中的至少一种输出,同时执行预约的记录功能。
[0067]当再次收集到用户语音时(S19),显示设备向第一服务器200发送再次收集到的用户语音(S20),并且第一服务器200将从显示设备接收到的用户语音转换成文本信息(S21)。
[0068]接着,当第一服务器向显示设备100发送文本信息时(S22),显示设备100向第二服务器300发送接收到的文本信息。
[0069]当从显示设备100接收到文本信息时,第二服务器300产生与文本信息相对应的响应信息(S24),并且向显示设备100发送产生的文本信息(S25)。
[0070]这里,在当前接收到的文本信息中包括的用户话语意图与先前接收到的文本信息中包括的用户话语意图不同时,第二服务器300按照相同方法产生响应信息,并且向显示设备100发送结果。
[0071]然而,在当前接收到的文本信息中包括的用户话语意图与先前接收到的文本信息中包括的用户话语意图相同时,第二服务器300产生对应于当前接收到的文本信息的响应信息,以与先前产生的响应信息有区别,并且向显示设备100发送产生的响应信息。
[0072]例如,在输入表达“马上要播出的节目名是什么? ”的用户语音,然后输入具有相同话语意图的用户语音的情况下,具有相同话语意图的用户语音包括与之前相同的用户语音(例如“马上要播出的节目名是什么? ”)、以及可以引起与之前相同的回答的用户语音(例如,“你说什么? ”或“你能再说一遍吗? ”)。
[0073]在这种情况下,第二服务器300可以产生响应信息,使得在显示设备100中作为语音或文本输出表达“你请求的广播节目名是000 (广播节目)”的响应消息,或者产生响应信息,使得将表达“你请求的广播节目名是000(广播节目)”的响应消息作为其中广播节目名被加重的文本来输出。此外,在显示设备100中正播放内容的情况下,第二服务器300可以产生控制命令,该控制命令使从显不设备100输出的内容的音频音量低于作为响应消息输出的语音音量。[0074]显示设备100基于响应信息执行与用户语音相对应的操作(S26)。在再次收集到具有相同话语意图的用户语音的情况下,与当前用户语音相对应的响应消息可以按照多种形式输出,以与对应于先前用户语音的响应消息相区分。
[0075]更具体地,显示设备100可以将响应消息作为语音或文本输出,或者作为其中预定关键词被加重的文本输出,或者输出比从显示设备100输出的内容的音频音量高的响应消息的语音音量。
[0076]图3是用于说明图1中示出的显示设备的配置的框图。根据图3,显示设备100包括语音收集单元110、第一通信单元120、第二通信单元130、输出单元140和控制单元150。
[0077]语音收集单元110收集用户语音。例如,语音收集单元110可以实现为用于收集用户语音的麦克风,并且可以以一体形式设置在显示设备100内,或者与显示设备100分离。在语音收集单元110与显示设备分离的情况下,语音收集单元110可以实现为由用户握持,或者放置在桌子上并且可以通过有线或无线网络与显示设备100连接,以向显示设备100发送收集到的用户语音。
[0078]此外,语音收集单元110可以确定收集到的用户语音是否是用户发出的语音,并从语音中滤除噪声(例如,空调声、清洁声、音乐声等)。
[0079]同时,语音收集单元110可以确定收集到的用户语音是否是用户发出的语音。当输入模拟用户语音时,语音收集单元110对模拟用户语音进行采样,并且将用户语音转换成数字信号。语音收集单元110计算经转换的数字信号的能量,并且确定数字信号的能量是否大于等于预设值。
[0080]当确定数字信号的能量大于等于预设值时,语音收集单元110去除噪声并发生去除了噪声的语音。噪声分量是可能在家庭环境中发生的突发噪声,例如空调声、清洁声或音乐声。当确定数字信号的能量小于预设值时,语音收集单元110不对数字信号执行处理,并且等待另一输入。相应地,整个音频处理过程不会由除了用户语音以外的其他声音激活,使得可以防止不必要的功耗。
[0081]第一通信单元120执行与第一服务器(图1中的200)的通信。更具体地,第一通信单元120可以向第一服务器200发送用户语音,并且从第一服务器200接收与用户语音相对应的文本信息。
[0082]第二通信单元130执行与第二服务器(图1中的300)的通信。更具体地,第二通信单元130可以向第二服务器300发送接收到的文本信息,并且从第二服务器300接收与文本信息相对应的响应信息。
[0083]为此,第一通信单元120和第二通信单元130可以使用多种通信方法执行与第一服务器200和第二服务器300的通信。例如,第一通信单元120和第二通信单元130可以使用有线/无线LAN(局域网)、WAN、以太网、蓝牙、Zigbee, USB (通用串行总线)、IEEE1394、WiFi等执行与第一服务器200和第二服务器300的通信。这样,第一通信单元120和第二通信单元120可以包括与每种通信方法相对应的芯片或输入端口等。例如,当基于有线LAN方法执行通信时,第一通信单元120和第二通信单元130可以包括有线LAN卡(未示出)和输入端口(未示出)。
[0084]在上述示例实施例中,显示设备100具有附加的通信单元120、130来执行与第一服务器200和第二服务器300的通信,但是这仅是一个示例。即,显然显示设备100可以通过一个通信模块与第一服务器200和第二服务器300通信。
[0085]输出单元140可以基于响应信息输出与用户语音相对应的响应消息。更具体地,输出单元140可以将响应消息输出为语音或文本中的至少一种形式,为此,输出单元140可以具有显示单元(未示出)和音频输出单元(未示出)。
[0086]更具体地,显示单元(未示出)可以实现为液晶显示器(LCD)、有机发光显示器(OLED)或等离子显示面板(PDP),并且提供可以通过显示设备100提供的多种显示屏幕。具体地,显示单元(未示出)可以将与用户语音相对应的响应消息显示为文本或图像。
[0087]这里,显示单元(未示出)可以实现为触摸屏形式,其形成具有触摸板的多层结构,并且触摸屏可以配置为检测触摸输入位置、区域和触摸输入压力。
[0088]同时,音频输出单元(未示出)可以实现为输出端口或扬声器,并且将与用户语音相对应的响应消息输出为语音。
[0089]控制单元150控制显示设备100的总体操作。更具体地,控制单元150可以控制第一通信单元130通过语音收集单元120收集用户语音,并且向第一服务器200发送收集到的用户语音。此外,控制单元150可以控制第一通信单元120接收与用户语音相对应的文本消息。此外,控制单元150可以控制第二通信单元130向第二服务器300发送接收到的文本信息,并且从第二服务器300接收与文本信息相对应的响应信息。此外,当从第二服务器300接收到与文本信息相对应的响应信息时,控制单元150可以基于响应信息控制输出单元140输出与用户语音相对应的响应消息。
[0090]这里,响应信息可以包括用于输出响应消息的响应消息信息。响应消息信息是显示设备中输出的以文本格式表达的关于用户语音的响应消息,并且可以通过输出单元140将与用户语音相对应的响应消息输出为语音或文本中的至少一种形式。
[0091]更具体地,控制单元150可以使用TTS引擎将文本格式响应消息信息转换成语音,并且通过输出单元140输出结果。这里,TTS引擎是用于将文本转换成语音的模块,并且可以使用传统TTS算法将文本转换成语音。此外,控制单元150可以配置Π屏幕以包括形成响应消息信息的文本,并且通过输出单元140输出。
[0092]例如,当实现为电视的显示设备100收集到用户语音“让我知道最流行的节目”时,第二服务器300可以向显示设备100发送文本形式的“最流行的节目是000(广播节目)”。在这种情况下,控制单元150可以将“最流行的节目是000 (广播节目)”转换成语音,并且通过输出单元140输出语音,或者可以控制以配置Π屏幕,从而包括文本“最流行的节目是000(广播节目)”,并且通过输出单元140输出UI屏幕。
[0093]这样,控制单元150输出与用户语音相对应的响应消息而不执行显示设备中的附加功能的情况可以包括,执行在显示设备100中不可以执行的功能的意图、或者提出需要回答的问题的情况。
[0094]例如,在显示设备100实现为智能电视并且输入表达“呼叫XXX”的用户语音,而智能电视不提供视频电话功能的情况下,控制单元150可以基于从第二服务器300接收到的响应消息信息,通过输出单元140将表达“不能提供该功能”的响应消息作为语音和文本中的至少一种输出,而不执行附加功能。此外,当显示设备100实现为智能电视并且输入表达“告诉我目前最流行节目的名称”时,控制单元150可以基于从第二服务器300接收的响应消息信息,将表达“最流行节目是000 (广播节目)”的响应消息作为语音和文本中的至少一种输出。
[0095]同时,响应信息还可以包括用于控制显示设备100的功能的控制命令。这里,控制命令可以包括用于执行显示设备100可执行的功能之中与用户语音相对应的功能的命令。相应地,控制单元150可以根据显示设备100的产品类型,控制显示设备100的每个元件执行可以在显示设备100中执行的特定功能。例如,当实现为电视的显示设备100收集到“调高音量”作为用户语音时,服务器200可以向显示设备100发送用于调高显示设备100的音量的控制命令。在这种情况下,控制单元150可以基于控制命令,增大通过输出单元140输出的音频音量。然而,这仅是一个示例。控制单元150可以控制显示设备100的每个部件,使得可以根据收集的用户语音执行诸如电源开/关、频道改变和音量调节等各种操作。
[0096]此外,响应信息可以包括与根据用于控制显示设备的功能的控制命令来执行的特定功能相关的响应消息信息。在这种情况下,控制单元150可以根据控制命令执行功能,并且通过输出单元140输出将相关的响应消息输出为语音和文本中的至少一种。
[0097]例如,当用户语音包括用于执行在显示设备100中可执行的功能的表达时,控制单元150可以根据从第二服务器300接收到的控制命令执行用户期望的功能,并且基于响应消息信息将与所执行功能相关的消息输出为语音和文本中的至少一种。例如,当显示设备100实现为智能电视并且输入表达“将频道变到频道11”的用户语音时,控制单元150可以根据用于变到频道11的控制命令来选择频道11,并且基于响应消息信息,通过输出单元140将表达“频道已经变到频道11”或“已完成频道改变”的响应消息输出为语音和文本中的至少一种。
[0098]同时,当再次收集到具有相同话语意图的用户语音时,控制单元150可以控制输出单元140输出与对应于先前收集的用户语音的响应消息有区别的响应消息。
[0099]这里,具有相同话语意图的用户语音可以包括与先前收集到的用户语音相同的用户语音、以及用于引起与先前收集的用户语音具有相同回答的用户语音。例如,如果先前收集到的用户语音表达“当前正播出的节目何时结束?”,则具有相同话语意图的用户语音可以包括“当前正广播的节目何时结束?”,这是与先前用户语音中所表达的提问实质上相同的提问,或者关于话语,可以包括例如“什么? ”或“再说一次”等可以引起与先前用户语音具有相同回答的用户语音。
[0100]S卩,当再次收集到与先前收集的用户语音具有相同意图的语音时,控制单元150可以输出与针对先前收集的用户语音而输出的响应消息不同的、关于当前收集到的用户语音的响应消息。
[0101]在下文中,转换成文本的先前收集的用户语音应当称作第一文本信息,并且转换成文本的之后收集的用户语音应当称作第二文本信息。
[0102]在这种情况下,第一文本信息和第二文本信息可以是在已转换了显示设备100中依次收集到的语音情况下的文本。即,在显示设备中收集到用户语音并输出与收集到的用户语音相对应的响应消息,并且在此之后收集到的用户语音具有相同话语意图的情况下,被转换成文本的依次接收到的每个用户语音可以是第一文本信息和第二文本信息。
[0103]然而,第一文本信息和第二文本信息可以不必限于转换成文本的依次收集到的语音。即,当接收到与先前收集的用户语音相同的用户语音时,即使该对应的用户语音不是依次接收的,该用户语音也可以视为具有相同话语意图的用户语音,并且因此转换成文本的每个用户语音都可以是第一和第二文本信息。
[0104]同时,控制单元150可以基于与第二文本信息相对应的响应信息,通过输出单元140将与再次收集到的用户语音相对应的响应消息输出为语音或文本。
[0105]即,当接收到与第一文本信息相对应的响应消息信息并且将与先前收集到的用户语音相对应的响应消息输出为语音或文本时,控制单元150可以从第二服务器300接收与第二文本信息相对应的响应消息信息,并且将与当前收集到的用户语音相对应的响应消息信息输出为语音或文本。
[0106]例如,在先前收集到的用户语音表达“当前正播出的节目名是什么? ”的情况下,控制单元150可以基于从第二服务器300接收到的响应消息信息,通过输出单元140将表达“你询问的节目名是000 (广播节目)”的响应消息输出为语音输出。接着,当接收到诸如“当前正播出的节目名是什么? ”等用户语音或与先前收集的用户语音具有相同话语意图的用户语音(例如,“什么? ”或“再说一次”)时,控制单元150可以基于从第二服务器300接收到的控制命令和响应消息信息,通过输出单元140将诸如“你询问的节目名是000(广播节目)”等响应消息输出为语音输出。这里,控制命令可以是使在显示设备100中作为语音或文本输出响应消息的命令。
[0107]此外,控制单元150可以基于与第二文本信息相对应的响应信息,控制输出单元140输出的显示设备100中输出的内容的音频音量比作为响应消息输出的语音的音量低。这里,内容可以包括广播内容和多种多媒体内容等。
[0108]更具体地,控制单元150可以基于从第二服务器300接收到的控制命令,将内容的音量降低到预定级别,或者将作为语音输出的响应消息的音量提高到预定级别,以与内容的音频相比相对高地输出作为响应消息输出的语音的音量。这样,控制单元150可以调节内容或响应消息的音量,以便与内容的音频音量相比相对高地输出作为响应消息输出的语音的音量。此外,控制单元150可以调节作为响应消息输出的语音的音量和内容的音频音量二者。例如,控制单元150可以将内容的音量降低到预定级别,并且以比预定级别高的级别输出作为响应消息输出的语音。
[0109]此外,控制单元150可以基于与第二文本消息相对应的响应消息,将与再次接收到的用户语音相对应的响应消息作为其中预定关键词被加重的文本输出。
[0110]这里,加重的关键词可以根据用户的话语意图而不同。例如,如果用户的话语意图是询问特定广播节目的名称,则控制单元150会加重并输出该广播节目的名称,而如果用户的话语意图是询问特定广播节目的开始时间,则控制单元150会加重并输出节目的开始时间。
[0111]例如,在之后收集到的用户语音是“当前正播出的节目的结束时间是何时? ”的情况下,控制单元150会基于从第二服务器300接收到的响应消息信息,通过输出单元140输出表达“你询问的节目结束时间是XX:XX”,其中“XX:XX”部分被加重。
[0112]然而,这仅是一个示例,因此控制单元150可以根据多种方法将预定关键词与其他文本相区分。即,控制单元150可以较大尺寸显示关键词,或者改变颜色并输出关键词。
[0113]同时,在上述示例实施例中,从第二服务器300发送的响应消息信息具有文本格式,但是这仅是一个示例。即,响应消息信息可以是形成在显示设备100中输出的响应消息的语音数据本身,或者是形成对应响应消息的语音数据的一部分,或者是用于使用显示设备100中预储的语音或文本来输出对应响应消息的控制信号。
[0114]相应地,控制单元150可以考虑到响应消息信息的类型来输出响应消息。更具体地,当接收到形成响应消息的语音数据本身时,控制单元150可以按照输出单元140中可输出的形式处理对应的数据并输出。
[0115]同时,当接收到用于输出响应消息的控制信号时,控制单元150可以在预存数据中搜索与控制信号匹配的数据,按照可输出的形式处理搜索到的语音或文本数据,并且通过输出单元140输出。为此,显示设备可以存储用于提供与执行功能相关的响应消息的语音或文本数据,或者与请求提供信息相关的语音或文本数据等。例如,显示设备可以完整语句形式存储数据(例如,“已完成频道改变”),或者存储形成语句的一些数据(例如,“改变到频道...。在这种情况下,可以从第二服务器300接收完成对应语句的频道编号。
[0116]图4是用于说明图3中示出的显示设备的详细配置的框图。根据图4,除了图3中示出的元件以外,显示设备100还可以包括输入单元160、存储单元170、接收单元180和信号处理单元190。在图4中示出的元件之中,与图3中的元件重复的元件具有相同功能,并因此省略其详细描述。
[0117]输入单元160是用于接收多种用户操控并且向控制单元150发送输入的输入装置,并且可以实现为输入面板。这里,输入面板可以按照多种方式配置,例如触摸板,或者具有数字键、特殊键、字母键的键区,或者触摸屏。不仅如此,输入单元160还可以实现为IR接收单元(未示出),接收从遥控器发送的遥控信号来控制显示设备100。
[0118]同时,输入单元160可以接收用于控制显示设备100的功能的多种用户操控。例如,在显示设备100实现为智能电视的情况下,输入单元160可以接收用于控制智能电视的功能(例如电源开/关,频道改变以及音量改变等)的用户操控。在这种情况下,控制单元150可以控制其他元件来执行与通过输入单元160输入的用户操控相对应的多种功能。例如,当输入电源关闭命令时,控制单元150可以阻止向每个元件供电,并且当输入频道改变时,控制单元150可以控制接收单元180选择根据用户操控所选的频道。
[0119]具体地,输入单元160接收用于打开收集用户语音的语音识别模式的用户操控。例如,输入单元160连同显示单元一起实现为触摸屏形式,并且显示用于接收语音识别模式的对象(例如,图标)。同时,输入单元160还可以具有用于接收语音识别模式的附加按钮。当通过输入单元160输入打开语音识别模式的用户操控时,控制单元150可以收集预定距离内发出的用户语音。此外,控制单元150可以通过和第一服务器200和第二服务器300通信接收与收集到的用户语音相对应的响应信息,以输出响应消息或者控制执行特定功能。
[0120]存储单元170可以是存储了用于操作显示设备100所需的多种程序的存储介质,并且可以实现为存储器和HDD (硬盘驱动)等。例如,存储单元170可以具有ROM和RAM,ROM存储用于执行控制单元150的操作的程序,RAM临时存储根据控制单元150的操作执行的数据。此外,存储单元170还可以具有用于存储多种参考数据的电可擦除可编程ROM (EEPROM)。
[0121]具体地,存储单元170可以将与用户语音相对应的多种响应消息预存储为语音或文本数据。相应地,控制单元150可以从存储单元170中读取与从第二服务器300接收到的响应消息信息(具体地,控制信号)相对应的语音或文本数据,并且通过音频输出单元142或显示单元141输出。在这种情况下,控制单元150可以对语音数据执行诸如解码等信号处理,对经解码的语音数据进行放大,并且通过音频输出单元142输出,以及可以配置Π屏幕以包括形成文本数据的文本,并且通过显示单元140输出。尽管在上述示例实施例中,控制单元150对从存储单元170读取的语音和文本数据执行信号处理,但是控制单元150也可以控制信号处理单元对语音和文本数据执行信号处理。
[0122]接收单元180接收多种内容。具体地,接收单元180从广播站或web服务器接收内容,广播站使用广播网络发送广播节目内容,web服务器使用互联网发送内容文件。此外,接收单元180可以从设置在显示设备100内或与显示设备100相连的多种记录介质播放器接收内容。记录介质播放器是指播放在多种类型的记录介质(例如,压缩盘(⑶)、数字万能盘(DVD)、硬盘、蓝光盘、记忆卡和通用串行总线(USB)存储器等)中存储的内容的设备。
[0123]在从广播站接收内容的示例实施例中,接收单元180可以实现为包括诸如调谐器(未示出)、解调器(未示出)和均衡器(未示出)等元件的结构。另一方面,在从诸如web服务器等源接收内容的示例实施例中,接收单元180可以实现为网络接口卡(未示出)。另夕卜,在从多种记录介质播放器接收内容的示例实施例中,接收单元180可以实现为与记录介质播放器相连的接口单元(未示出)。这样,接收单元180可以根据示例实施例实现为多种形式。
[0124]信号处理单元190执行对内容的信号处理,使得通过接收单元180接收的内容可以通过输出单元140输出。
[0125]更具体地,信号处理单元190可以对内容中包括的视频信号执行诸如解码、缩放和帧率转换等操作,并且将视频信号转换成从显示单元141可输出的形式。此外,信号处理单元190可以对内容中包括的音频信号执行诸如解码等信号处理,并且将音频信号转换成从音频输出单元142可输出的形式。
[0126]图5是用于说明图1中示出的第一服务器的配置的框图。如图5中所示,第一服务器200包括通信单元210和控制单元220。
[0127]通信单元210执行与显示设备100的通信。更具体地,通信单元210可以从显示设备100接收用户语音,并且向显示设备100发送与用户语音相对应的文本信息。为此,通信单元210可以包括多种通信模块。
[0128]控制单元220控制第一服务器200的总体操作。具体地,当从显示设备100接收到用户语音时,控制单元220产生与用户语音相对应的文本信息,并且控制通信单元210向显示设备100发送产生的文本信息。
[0129]更具体地,控制单元220使用STT(语音到文本)引擎来产生与用户语音相对应的文本信息。这里,STT引擎是用于将语音信号转换成文本的模块,并且STT可以使用多种STT算法将用户语音转换成文本。
[0130]例如,控制单元220检测用户发出的语音的开始和结束,并且确定语音段。更具体地,控制单元220可以计算接收到的语音信号的能量,根据计算的能量对语音信号的能量级别进行分类,并且通过动态规划检测语音段。此外,控制单元220可以在检测到的语音段内检测作为基于声学模块的最小语音单位的音素,以产生音素数据,并且对产生的音素数据应用HMM概率(隐马尔可夫模型)来将用户语音转换成文本。
[0131]图6是用于说明图6中示出的第二服务器的配置的框图。如图6中所示,第二服务器300包括通信单元310和控制单元330。
[0132]通信单元310接收与显示设备100中收集到的用户语音相对应的文本信息。此外,通信单元310可以向显示设备100发送与通信单元310接收到的文本信息相对应的响应信息。
[0133]为此,通信单元310可以包括用于执行与显示设备100的通信的多种通信模块。
[0134]此外,通信单元310可以通过互联网网络执行与web服务器(未示出)的通信,并且向web服务器发送多种搜索关键词,以相应地接收web搜索结果。这里,搜索关键词可以包括在web中可搜索的多种关键词,例如,天气相关关键词(例如,区域名称、温度、降雨概率等)以及内容相关关键词(例如,电影名、电影开场数据、歌手等),并且多种搜索关键词可以预存储在第二服务器300中。
[0135]控制单元320控制第二服务器300的总体操作。具体地,控制单元320可以控制,使得产生与接收到的文本信息相对应的响应信息,并且通过通信单元310向显示设备100发送产生的响应信息。更具体地,控制单元320可以对文本信息进行分析,以确定用户语音中包括的话语意图,并且控制通信单元310向显示设备100发送与确定的话语意图相对应的响应信息。
[0136]为此,控制单元320可以检测其中存在与所接收文本匹配的对话模式的语料数据库(corpus database),并且确定用户语音所属的服务域。这里,可以根据包括了用户发出语音的主题,将服务域分类为“广播”、“V0D”、“应用管理”、“设备管理”、“信息(天气、股票、新闻等)”等。然而,这仅是一个示例,根据其他多种主题来分类服务域。
[0137]此外,将语料数据库按照服务域来提供,以存储每个服务域的对话模式。这里,语料数据库可以实现为存储示例语句和对应的回复。即,第二服务器300可以针对每个服务域存储多个示例语句以及每个语句的回复。此外,第二服务器300可以给每个语句加上(tag)用于解释示例语句和针对语句的期望回复的信息,并且存储该信息。
[0138]例如,在第二服务器300具有关于广播服务域的第一语料数据库以及关于天气服务域的第二语料数据库的情况下,第一语料数据库可以存储可以在广播服务域中会发生的多种对话模式。
[0139]例如,假定在广播服务域中存储示例语句“节目什么时间开始? ”的情况。
[0140]在这种情况下,第二服务器300可以给对应语句加上信息,以解释诸如“节目什么时间开始? ”等语句,并且存储该信息。具体地,第二服务器300可以给对应语句加上以下信息:语句“节目什么时间开始? ”之中的“节目”表示广播节目,“什么时间开始”是询问播出时间,“ ? ”表示疑问句,并且第二服务器300存储该信息。
[0141]此外,第二服务器300可以给对应语句加上针对“节目什么时间开始? ”的回复。具体地,第二服务器300可以加上“你希望知道哪个节目”作为回复并且存储。
[0142]然而,这仅是一个示例,第二服务器300可以存储语句“000(广播节目名)什么时间开始? ”,并且给对应语句加上用于解释该语句的信息以及该对应语句的回复,并存储。
[0143]具体地,关于诸如“000(广播节目名)什么时间开始? ”等语句,第二服务器300可以给对应语句加上以下信息:“000(广播节目名)”表示广播节目,“什么时间”是询问播出时间,“? ”表示疑问句,并第二服务器300存储该信息。此外,第二服务器300可以给对应语句加上以下信息:与广播节目相关的字词出现在诸如“什么时间? ”等语句中,并第二服务器300存储该信息。这里,与广播节目相关的字词可以包括广播节目名、演员和制片人。
[0144]此外,第二服务器300可以给对应语句加上针对“000(广播节目名)什么时间开始?”的回复,并存储。具体地,存储单元320可以给“000(广播节目名)什么时间开始?”加上“你询问的〈广播节目名 > 的播出时间是〈播出时间 >”作为回复,并存储。
[0145]这样,第二服务器300可以存储广播服务域中的多种会话模式。
[0146]此外,第二语料数据库可以存储在天气服务域中会出现的对话模式。
[0147]例如,假定在天气服务域中存储“000(地区名)的天气如何? ”的情况。
[0148]在这种情况下,第二服务器300可以给对应的语句加上信息以解释诸如“000(地区名)的天气如何?”等语句,并且存储该信息。具体地,第二服务器300可以给对应语句加上以下信息:“000(地区名)的天气如何? ”中的“000(地区名)”表示地区名,“天气如何”是询问天气,“ ? ”表示疑问句,并且存储单元210存储该信息。
[0149]此外,第二服务器300可以给对应语句加上针对“000(地区名)的天气如何? ”的回复,并存储。具体地,第二服务器300可以给000(地区名)的天气如何?”加上“你希望知道温度吗? ”作为回复,并存储。
[0150]然而,这仅是一个示例,第二服务器300可以存储语句“000(地区名)的天气如何? ”,并且可以给对应语句加上用于解释对应语句的信息、以及“000(地区名)的温度是〈温度〉”作为回复,并存储。
[0151]这样,第二服务器300可以存储在天气服务域中的多种会话模式。
[0152]在以上示例实施例中,描述了存储单元中存储的示例语句和对应回复。然而,这仅是一个示例,并且每个服务域中可以存储不同示例语句和对应回复。
[0153]在这种情况下,当从显示设备100接收到文本“节目什么时间开始? ”时,控制单元320可以确定显示设备100中收集到的用户语音属于广播服务域,并且当从显示设备100接收到文本“000(地区名)的天气如何? ”时,控制单元320可以确定显示设备100中收集到的用户语音属于天气服务域。即,控制单元320可以将接收到的文本与每个服务域中存储的语句相比较,并且将与接收文本匹配的语句所属的服务域确定为包括用户语音的服务域。
[0154]接着,控制单元基于用户语音所属的服务域,从用户语音中提取对话行为(dialogue act)、主要动作(main action)和要素单元(component slot)。例如,控制单元320可以使用最大熵分类器(MaxEnt)在用户语音中提取对话行为和主要动作,并且使用条件随机场(CRF)来提取要素单元。然而,不限于此,能够使用已经公知的各种方法来提取对话行为、主要动作和要素单元。例如,控制单元320可以使用向与用户语音匹配的语句添加的信息,来从用户语音中提取对话行为、主要动作和要素单元。
[0155]这里,基于与语句类型相关的分类准则,对话行为表示目标语句是陈述、请求、疑问提问或是否提问。主要动作是语义信息,在特定域中表示通过对话目标话语期望的动作。例如,在广播服务域中,主要动作可以包括电视开/关、节目搜索、节目时间搜索和节目预约等。要素单元是与话语中示出的特定域有关的单独信息,即,用于指定特定域中期望行为的含义的附加信息。例如,广播服务域中的要素单元可以包括流派、节目名、开始时间、频道名和男演员/女演员名等。
[0156]此外,控制单元320可以使用提取的对话行为、主要动作和要素单元来确定用户语音的话语意图,产生与确定的话语意图相对应的响应信息,并且向显示设备100发送产生的响应信息。
[0157]这里,响应信息包括与用户语音相对应的响应消息信息。响应消息信息是与显示设备100中输出的用户语音有关的文本格式的响应消息,并且显示设备100可以基于从服务器200接收到的响应消息信息,输出与用户语音相对应的响应消息。
[0158]更具体地,控制单元320可以从语料数据库中提取针对所确定的话语的回答,并且将提取的回答转换成文本,以产生响应消息信息。
[0159]例如,在从显示设备100接收到被转换成文本的用户语音“000(广播节目名)什么时间开始? ”的情况下,控制单元320对其中存在与用户语音匹配的对话模式的语料数据库进行搜索,并且确定用户语音“000什么时间开始? ”包括在广播服务域中。
[0160]此外,通过对话行为,控制单元320确定语音的语句类型是“提问”,并且通过主要动作和要素单元,控制单元320确定用户期望的是“000”的“节目开始时间”。因此,控制单元320可以确定用户语音中包括的话语意图是“询问” “000”的“节目开始时间”。
[0161]接着,响应于“询问” “000”的“节目开始时间”的话语意图,控制单元320可以从广播服务域的语料数据库中提取回答“你请求的000开始时间是...”。即,控制单元320可以从广播服务域的语料数据库中搜索与“000(广播节目名)什么时间开始? ”匹配的回复,并且提取“000的节目开始时间是”作为回复。
[0162]在这种情况下,控制单元320可以使用电子节目指南(EPG)信息来搜索“000”的播出开始时间,并且产生响应消息信息以发送给显示设备100。
[0163]作为另一示例,在从显示设备100接收到被转换成文本的表达“首尔的温度如何”的用户语音的情况下,控制单元320可以对其中存在与用户语音匹配的对话模式的语料数据库进行搜索,并且确定表达“首尔的天气如何? ”的用户语音包括在天气服务域中。
[0164]此外,控制单元320通过对话行为确定对应语音的语句类型是“提问类型”,并且通过主要动作和要素单元确定语音意在获知“首尔”的“天气”。因此,控制单元320可以确定用户语音中包括的话语意图是“询问” “首尔”的“天气”。
[0165]接着,响应于“询问” “首尔”的“天气”的话语意图,控制单元320从天气服务域的语料数据库中提取回答“你请求的首尔天气是...”。在这种情况下,控制单元320可以从用户语音中提取预存的关键词,并且控制通信单元320向服务器发送提取的关键词,以接收与对应的关键词相关的搜索信息。即,控制单元320可以从用户语音中提取“首尔”和“温度”作为关键词,向web服务器发送关键词,从web服务器接收与首尔的温度有关的搜索结果,并且向显示设备100发送响应消息信息“你请求的首尔温度是23°C”。
[0166]同时,在显示设备100存储响应消息的一些语句数据的情况下,控制单元320可以向显示设备100发送用于完成对应语句的一些文本。
[0167]例如,在从显示设备100接收到被转换成文本的表达“将频道变到O”的用户语音的情况下,控制单元320可以确定对应语音的话语意图是“请求” “频道变到” “O”。
[0168]相应地,控制单元320可以产生用于在显示设备100执行频道变到“O”的控制命令,并且向显示设备100发送控制命令。这里,在显示设备100存储诸如“频道已经变到”等文本数据的情况下,控制单元320可以控制,使得产生“O”作为发送到显示设备100的响应消息信息,以在显示设备100中输出表达“频道已经变到O”的响应消息。在这种情况下,控制单元320可以向显示设备100发送用于输出显示设备中预存储的语音数据的附加控制信号。
[0169]此外,响应信息还可以包括用于控制显示设备100的功能的控制命令。即,控制单元320可以产生控制命令,使得与用户的话语意图相对应的功能可以在显示设备100中执行。
[0170]为此,第二服务器300可以预存储与用户的话语意图相对应的控制命令。例如,在用户的话语意图是频道改变的情况下,第二服务器300匹配用于改变显示设备100的频道的控制命令并存储该控制命令,并且在用户的话语意图是预约记录的情况下,第二服务器300匹配用于在显示设备100中执行特定节目的预约记录功能的控制命令,并且存储该控制命令。
[0171]例如,在从显示设备100接收到被转换成文本的表达“预约000(广播节目)”的用户语音的情况下,控制单元320可以对其中存在与用户语音匹配的对话模式的语料数据库进行搜索,并且确定用户语音“预约000”包括在广播服务域中。
[0172]此外,通过对话行为,控制单元320确定对应语音是与“请求”相关的语句类型,并且通过主要动作和要素单元,控制单元320确定用户期望关于“000”的“节目预约”。因此,控制单元320可以确定用户语音中包括的话语意图是“请求” “000” “节目预约”。
[0173]接着,控制单元320可以检测与请求“000” “节目预约”的话语意图相对应的控制命令,并且产生用于在显示设备100中执行“000”预约记录的功能的控制命令。在这种情况下,响应于“请求” “000” “节目预约”的话语意图,控制单元320可以从广播服务域的语料数据库中提取响应消息信息“已经预约了记录000”,并且向显示设备100发送该响应消息信息。
[0174]此外,控制单元320可以通过使用向与接收到的文本匹配的语句添加的信息来确定用户的话语意图。
[0175]例如,假定从显示设备100接收到文本“节目000(节目名)什么时间开始? ”的情况。
[0176]在这种情况下,控制单元320可以确定接收到的文本属于广播服务域,并且使用向“节目000(节目名)什么时间开始? ”(这是广播服务域中与接收到的文本匹配的语句)添加的信息,从用户语音中提取对话行为、主要动作和要素单元,以找出用户语音的话语意图。
[0177]S卩,作为用于解释“节目000 (节目名)什么时间开始? ”的信息,添加了信息:“ 000 (节目名)”表示广播节目,“什么时间”是询问播出时间,并且“?”表示疑问句。相应地,基于该信息,控制单元320可以确定接收到的文本“节目000 (节目名)什么时间开始? ”的对话行为是疑问语句,主要动作是询问播出时间,并且要素单元是000(节目名)。相应地,控制单元320可以确定用户语音的话语意图是询问“000(节目名)的“播出时间”。此夕卜,响应于“询问” “000”的“节目开始时间”的话语意图,控制单元320可以从广播服务域的语料数据库中提取“000的开始时间是〈播出时间>”。
[0178]在这种情况下,控制单元320可以通过填完搜索到的回复中包括的空白,来产生完整形式的语句。
[0179]例如,控制单元320可以通过在空白中写入“000(节目名)”来使回复“〈空白(广播节目名)> 的播出时间是〈播出时间 >”完整。此外,控制单元320可以使用EPG(电子节目指南)搜索“000(节目名)”的播出时间,并且在另一空白〈播出时间 > 中写入搜索到的播出时间。相应地,控制单元320可以使用完整语句“000(节目名)的播出时间是星期六7点”来产生与用户语音相对应的响应消息信息,并且向显示设备100发送产生的响应消息信息。
[0180]相应地,显示设备100可以基于从第二服务器300接收到的响应消息信息,以语音或文本形式输出“000(节目名)的播出时间是星期六7点”。
[0181]同时,当不能确定当前接收到的用户语音中包括的用户话语意图时,控制单元320可以参考先前接收到的用户语音,并且确定当前接收到的用户语音的话语意图。即,控制单元320可以将当前接收到的用户语音与语料数据库中存储的对话模式相比较,来确定当前接收到的用户语音是否是对话模式中的初始用户话语,并且如果确定当前接收到的用户语音不是初始用户话语,则控制单元320可以参考先前接收到的用户语音,并且确定当前接收到的用户语音的话语意图。
[0182]例如,在输入用户语音“000(广播节目)什么时间播出?”,然后输入用户语音“什么时间? ”的情况下,当确定用户语音“什么时间? ”不是广播服务域中的初始用户话语时,控制单元320基于先前接收到的用户语音“000什么时间播出?”来确定“什么时间? ”的话
语意图。
[0183]S卩,为了确定无法从中提取要素单元的用户语音“什么时间? ”的话语意图,控制单元320可以使用先前接收到的用户语音中包括的“000”,确定“什么时间? ”的话语意图是“询问” “000”的“节目开始时间”。
[0184]同时,当第一和第二文本信息中的话语意图相同时,控制单元320可以产生与第二文本信息相对应的响应信息,以与对应于第一文本信息的响应信息有区别,并且向显不设备100发送产生的响应信息。
[0185]S卩,在控制单元320产生与从显示设备100接收到的文本信息相对应的响应信息并向显示设备100发送产生的响应信息之后,如果接收到与先前接收到的文本信息具有相同话语意图的文本信息,控制单元320可以产生与当前接收到的文本信息对应的响应信息,以与先前接收到的文本信息的响应信息有区别。
[0186]更具体地,当依次接收到包括相同话语意图的第一和第二文本信息时,控制单元320可以产生与第一文本信息相对应的响应信息,使得在显示设备100中将该响应消息输出为语音或文本,并且产生与第二文本信息相对应的响应信息,使得在显示设备100将该响应信息输出为语音或文本。
[0187]为此,当产生与第二文本信息相对应的响应信息并且向显示设备100发送产生的响应信息时,控制单元320可以产生用于使在显示设备100中将响应消息输出为语音和文本二者的控制命令,并且向显示设备100发送控制命令。
[0188]此外,当依次接收到具有相同话语意图的第一和第二文本信息时,控制单元320可以产生与第二文本信息对应的响应信息,使得显示设备100中输出的内容的音频音量相对低于作为响应消息输出的语音的音量。
[0189]为此,当产生与第二文本信息相对应的响应信息并向显示设备100发送产生的响应信息时,控制单元320可以产生用于将作为响应消息输出的语音的音量提高到预定级别的控制命令,并向显示设备100发送控制命令。此外,控制单元320可以产生用于将内容音量降低到预定级别并且将作为响应消息输出的语音的音量调节到比内容的音频音量高的预定级别的控制命令,并且向显示设备100发送该控制命令。
[0190]此外,当依次接收到具有相同话语意图的第一和第二文本信息时,控制单元320可以产生与第一文本信息相对应的响应信息,使得在显不设备100中将响应消息输出为文本,并且产生与第二文本相对应的响应信息,使得在显示设备100将响应消息输出为具有被加重的预定关键词的文本。
[0191]为此,当在显示设备100中输出与第二文本信息相对应的响应消息时,控制单元320可以产生用于在形成响应消息的文本中加重关键词的控制命令,其中关键词是针对话语意图的核心回答,并且是响应于用户的话语意图而被搜索的信息,控制单元320可以向显示设备100发送该控制命令。
[0192]例如,当文本信息中包括的用户话语意图是“询问” “000”的“节目开始时间”时,控制单元320向显示设备100发送文本形式的“星期六7点开始”。这里控制单元还可以向显示设备100发送用于加重“星期六7点”的控制命令,“星期六7点钟”是针对用户话语意图的核心回答。
[0193]图7是用于说明图6中示出的第二服务器的详细配置的框图。根据图7,除了图6中示出的部件以外,第二服务器300还包括存储单元330。图7中与图6中示出的部件重复的部件具有相同功能,并因此省略对其详细描述。
[0194]存储单元330存储用于产生响应信息的多种信息。更具体地,存储单元330具有针对每个服务域的语料数据库,来存储每个服务域的对话模式。此外,存储单元330可以匹配每个用户话语意图的控制命令,并且存储控制命令。
[0195]同时,分离地提供图1至图7中的第一服务器200和第二服务器300,但这仅是一个示例。即,第一服务器200和第二服务器300可以实现为一个服务器。在这种情况下,显示设备100可以不接收与用户语音相对应的文本信息。在实现为一体的服务器(未示出)中将用户语音转换成文本,基于转换的文本产生与用户语音相对应的响应信息并且向显示设备100发送。
[0196]图8至10是用于说明根据示例实施例的对话型系统的操作的视图。
[0197]例如,如图8(a)中,在观看广播节目的用户620发出“000 (广播节目)什么时间播出? ”的情况下,显示设备610可以通过与第一和第二服务器(未示出)的互连操作,将与收集到的“000什么时间播出?”相对应的响应消息作为语音输出。S卩,如图8的(a)中,显示设备610可以从第二服务器接收响应消息信息,并且响应于用户语音“000什么时间播出? ”将表达“在星期二下午6点播出”的响应消息作为语音数据输出。
[0198]接着,在再次收集到具有相同话语意图的用户语音的情况下,显示设备610可以将与当前接收到的用户语音有关的响应消息作为语音数据或文本输出,使得该响应消息与关于先前接收到的用户语音的响应消息有区别。例如,如图8(b)中,当显示设备610再次收集到表达“000什么时间播出?”的用户620的语音时,显示设备610可以基于从第二服务器接收到的响应信息,响应于再次收集到的“000什么时间播出?”输出“在星期二下午6点”。
[0199]否则,如图9(a)中,在观看广播节目的用户720发出“000(广播节目)什么时间播出? ”的情况下,显示设备710可以通过与第一和第二服务器(未示出)的互连操作,将与收集到的“000什么时间播出? ”相对应的响应消息作为语音数据输出。S卩,如图9(a)中,显示设备710可以从第二服务器接收响应消息信息,并且响应于关于“000什么时间播出?”的用户语音,将响应消息“在星期二下午6点”作为语音数据输出。
[0200]接着,在再次收集到具有相同话语意图的用户语音的情况下,显示设备710可以调节显示设备710中输出的音频音量,以与先前接收到的用户语音的响应消息有区别。例如,如图9(b)中,在显示设备710再次收集到表达“000什么时间播出?”的用户720的语音的情况下,显示设备710可以降低广播节目的音频音量“Vroom”,并且以比广播节目的音频音量高的音量,将响应消息“在星期二下午6点”作为语音输出。然而,这仅是一个示例,因此还能够将节目的音频音量“Vroom”降低到预定级别,或者将“在星期二下午6点”的音量提高到预定级别。
[0201]否则,如图10(a)中,在观看广播节目的用户820发出“000 (广播节目)什么时间播出? ”的情况下,显示设备810可以通过与第一和第二服务器(未示出)的互连操作输出与收集到的“000什么时间播出?”相对应的响应消息。S卩,如图1(a)中,显示设备810可以从第二服务器接收响应消息信息,并且响应于用户语音表达“000什么时间播出?”将“在星期二下午6点”作为文本输出。
[0202]接着,当再次收集到具有相同话语意图的用户语音时,显示设备810可以改变根据当前接收到的用户语音而输出的文本中预定关键词的显示格式,并输出结果,以与先前接收到的用户语音有区别。例如,如图10(b)中,当再次收集到用户820的语音表达“000什么时间播出? ”时,显示设备810可以基于从第二服务器接收到的响应信息,在“在星期二下午6点”中加重“星期二下午6点”。尽管在上述视图中加重预定关键词,但是这仅是一个示例。即,显示设备810可以增大“星期二下午6点”的尺寸以大于其他文本,或者改变其颜色,并显示结果。
[0203]图11是用于说明根据示例实施例的控制显示设备的方法的流程图。
[0204]首先,收集用户语音(S910)。更具体地,可以通过与显示设备以一体形式形成的或分开形成的麦克风来收集用户语音。
[0205]接着,向第一服务器发送用户语音,并且从第一服务器接收与用户语音相对应的文本信息(S920)。并且,向第二服务器发送接收到的文本信息,并且接收与文本信息相对应的响应信息(S930)。即,第二服务器可以分析文本信息,确定用户语音中包括的话语意图,并且向显示设备发送与确定的话语意图相对应的响应信息。
[0206]当再次收集到具有相同话语意图的用户语音时,基于响应信息输出与对应于先前收集到的用户语音的响应消息有区别的响应消息(S940)。
[0207]更具体地,当依次接收到的第一和第二文本信息中的话语意图相同时,第二服务器可以产生与第二文本信息相对应的响应信息,以与对应于第一文本信息的响应信息有区另IJ,并且向显示设备发送产生的响应信息。
[0208]相应地,能够基于与第二文本信息相对应的响应信息,将与再次收集到的用户语音相对应的响应消息作为语音或文本输出。
[0209]此外,能够基于与第二文本信息相对应的响应信息,将显示设备中输出的内容的音频音量输出为相对低于作为响应消息输出的语音的音量。此外,能够基于与第二文本信息相对应的响应信息,将与再次收集到的用户语音相对应的响应消息作为其中预定关键词被加重的文本输出。
[0210]图12是用于说明根据示例实施例的控制与显示设备互连的服务器的方法的流程图。
[0211]首先,接收与显示设备中收集的用户语音相对应的文本信息(S1010)。
[0212]接着,分析文本信息以确定用户语音中包括的话语意图(S1020)。在这种情况下,显示设备可以基于响应信息将与用户语音相对应的响应消息作为语音和文本中的至少一种输出。
[0213]这里,当第一和第二文本信息中包括的话语意图相同时,产生与第二文本信息相对应的响应信息,以与对应于第一文本信息的响应信息有区别,并且向显不设备发送(S1030)。
[0214]更具体地,当依次接收第一和第二文本信息时,显示设备可以产生与第一文本信息相对应的响应信息,以将响应信息作为语音或文本输出,并且产生与第二文本信息相对应的响应信息,以将响应消息作为语音或文本输出。
[0215]此外,当依次接收到第一和第二文本信息时,显示设备可以产生与第二文本信息相对应的响应信息,使得显不设备中输出的内容的音频音量相对低于作为响应消息输出的
语音的音量。
[0216]此外,当依次接收到第一和第二文本信息时,显示设备可以产生与第一文本信息相对应的响应信息,使得在显示设备中将响应信息作为文本输出,并且产生与第二文本信息相对应的响应信息,使得将响应消息作为其中预定关键词被加重的文本输出。
[0217]此外,可以提供一种非暂时计算机可读介质,其中,存储了用于执行根据本公开的控制显示设备和服务器的方法的程序。
[0218]非暂时计算机可读介质不是短时间存储数据的介质,例如,寄存器、高速缓存和存储器等,而是半永久地存储数据并且能够通过设备读取的介质。更具体地,上述各种应用或程序可以存储在非暂时计算机可读介质中,例如,压缩盘、DVD、硬盘、蓝光盘、USB、记忆卡和ROM。
[0219]此外,在示出了显示设备和服务器的上述框图中,存在总线,而且可以通过总线实现显示设备中的每个部件与服务器之间的通信。此外,每个设备还可以包括执行上述各个步骤的处理器,例如,CPU和微处理器等。
[0220]尽管已示出和描述了本发明的一些实施例,但是本领域技术人员应当理解,在不脱离本发明的原理和精神的情况下,可以对本实施例做出改变,本发明的范围由所附权利要求及其等同物限定。
【权利要求】
1.一种显示设备,包括: 语音收集单元,配置为收集用户的语音; 第一通信单元,向第一服务器发送语音,并且从第一服务器接收与语音相对应的文本信息; 第二通信单元,向第二服务器发送接收到的文本信息,并且接收与文本信息相对应的响应信息; 输出单兀,基于响应信息,输出与语音相对应的响应消息;以及 控制单元,配置为当再次收集到与先前收集的用户语音具有相同话语意图的用户语音时,控制输出单元输出第二响应消息,第二响应消息与对应于先前收集的用户语音的第一响应消息有区别。
2.根据权利要求1所述的显示设备,其中,第二服务器分析文本信息以确定语音中包括的话语意图,并且向显示设备发送与所确定的话语意图相对应的响应信息。
3.根据权利要求2所述的显示设备,其中,当依次接收到的第一文本信息和第二文本信息中包括的话语意图相同时,第二服务器产生与第二文本信息相对应的第二响应消息,以与对应于第一文本信息的第一响应信息有区别,并且向显不设备发送产生的第二响应信肩、O
4.根据权利要求3所述的显示设备,其中,控制单元基于与第二文本信息相对应的第二响应信息,控制输出单元将与再次接收到的用户语音相对应的响应消息作为语音和文本中的至少一种输出。
5.根据权利要求3所述 的显示设备,其中,控制单元基于与第二文本信息相对应的第二响应信息,控制输出单兀将从显不设备输出的内容的音频音量输出为相对低于作为响应消息输出的语音的音量。
6.根据权利要求3所述的显示设备,其中,控制单元基于与第二文本信息相对应的第二响应信息,将与再次接收到的用户语音相对应的响应消息输出为文本,在该文本中预定关键词被加重。
7.—种与显示设备互连的服务器,所述服务器包括: 通信单元,接收与显示设备中收集的用户语音相对应的文本信息;以及 控制单元,配置为分析文本信息以确定语音中包括的话语意图,并且控制通信单元向显示设备发送与所确定的话语意图相对应的响应信息,其中,当第一文本信息和第二文本信息中包括的话语意图相同时,控制单元产生与第二文本信息相对应的第二响应信息,以与对应于第一文本信息的第一响应信息有区别,并且向显不设备发送产生的第二响应信肩、O
8.根据权利要求7所述的服务器,其中,显示设备基于响应信息,将与语音相对应的响应消息作为语音和文本中的至少一种输出。
9.根据权利要求8所述的服务器,其中,控制单兀产生与第一文本信息相对应的第一响应信息,使得显示设备将响应消息作为语音和文本之一输出,并且当依次接收到第一文本信息和第二文本信息时,控制单元产生与第二文本信息相对应的第二响应信息,使得显不设备将响应消息作为语音和文本之一输出。
10.根据权利要求8所述的服务器,其中,当依次接收到第一文本信息和第二文本信息时,控制单元产生与第二文本信息相对应的第二响应信息,使得从显示设备输出的内容的音频音量低于作为响应消息输出的语音的音量。
11.根据权利要求8所述的服务器,其中,当依次接收到第一文本信息和第二文本信息时,控制单兀产生与第一文本信息相对应的第一响应信息,使得显不设备将响应消息作为文本输出,并且产生与第二文本信息相对应的第二响应信息,使得显示设备将第二响应消息作为其中关键词被加重的文本输出。
12.—种显示设备的控制方法,所述控制方法包括: 收集用户的语音; 向第一服务器发送语音,并从第一服务器接收与语音相对应的文本信息; 向第二服务器发送接收到的文本信息,并接收与文本信息相对应的响应信息;并且 当再次收集到与先前收集的用户语音具有相同话语意图的用户语音时,基于响应信息输出第二响应消息,第二响应消息与对应于先前收集的用户语音的第一响应消息有区别。
13.根据权利要求12所述的控制方法,其中,第二服务器分析文本信息,确定用户语音中包括的话语意图,并且向显示设备发送与所确定的话语意图相对应的响应信息。
14.根据权利要求13所述的控制方法,其中,当依次接收到的第一文本信息和第二文本信息中包括的话语意图相同时,第二服务器产生与第二文本信息相对应的第二响应信息,以与对应于第一文本信息的第一响应信息有区别,并且向显不设备发送产生的第二响应信息。
15.一种与显示设备互连的服务器的控制方法,所述控制方法包括: 接收与在显示设备中收集的用户`语音数据相对应的文本信息; 分析文本信息并确定语音数据中包括的话语意图;并且 当第一文本信息和第二文本信息中包括的话语意图相同时,产生与第二文本信息相对应的第二响应信息,以与对应于第一文本信息的第一响应信息有区别,并且向显不设备发送产生的第二响应信息。
【文档编号】H04N21/472GK103517119SQ201310235028
【公开日】2014年1月15日 申请日期:2013年6月14日 优先权日:2012年6月15日
【发明者】尹胜一, 金基锡, 赵成吉, 许惠贤 申请人:三星电子株式会社