语音对话支持装置和语音对话支持方法

文档序号：8528155阅读：677来源：国知局

语音对话支持装置和语音对话支持方法
【专利说明】语音对话支持装置和语音对话支持方法
[0001]相关申请的交叉引用
[0002]本申请基于并要求2014年2月13日提交的第2014-025902号在先日本专利申请的优先权，此在先日本专利申请的全部内容在此引入作为参考。
技术领域
[0003]在此描述的实施例一般地涉及用于支持两个或更多用户使用语音输入之外的输入手段(例如手写输入)进行对话的语音对话支持装置、语音对话支持方法以及计算机可读介质。
【背景技术】
[0004]当不懂彼此语言的人们进行对话时，翻译者需要倾听和翻译说话者发出的内容。但是，很难始终具有翻译者，并且不懂彼此语言的说话者不能进行对话。

【发明内容】

[0005]为了解决该问题，提供一种语音翻译技术，其使用语音识别技术将发出的语音转换成文本，通过机器翻译将文本翻译成倾听者的语言，并显示所翻译的文本或使用语音合成技术再现语音。
[0006]还提供一种支持技术，其中即使使用同一语言的人们进行对话，当一个人在远程位置(例如呼叫中心)时，也会通过语音识别将语音转换成文本并且自动获得要记录的数据。
[0007]在上述语音翻译/语音对话支持技术中，语音识别的准确性是有限的，可能将不同于用户所发出的内容转换成文本。如果翻译不正确的语音识别结果，则不会将意图传递给合作伙伴用户，从而不能进行对话。
[0008]因为在人们之间的对话中经常重复问题和对问题的答案，所以如果事先准备问题句，则提问方可以能够解决上述问题。
[0009]但是，因为当询问问题时回答方首次输入答案，所以回答方不能解决该问题。提供一种方法，其使用诸如键盘或手写输入之类的备选手段输入答案，而不使用语音识别。但是，不熟悉装置的用户可能出错，并且需要的时间多于语音识别所用的时间。因此，用户感到有压力。
[0010]如上所述，即使用户可以使用常规语音翻译/语音对话支持技术传递简短意图，也难以顺畅地继续对话。
【附图说明】
[0011]图1是示出根据第一实施例的语音对话支持装置的一个实例的框图；
[0012]图2是示出根据第一实施例的语音翻译应用的用户界面的一个实例的屏幕的图；
[0013]图3是示出根据第一实施例的具有主题关键字和属于每个主题关键字的单词的字典的一个实例的表；
[0014]图4是不出根据第一实施例的用于输入句子的句子模式的列表的表；
[0015]图5是示出根据第一实施例的用于在树结构中保存类别的类别树的一个实例的图；
[0016]图6是示出根据第一实施例的当用户输入答案句时的屏幕的一个实例的图；
[0017]图7是示出根据第一实施例的用于标识答案句的答案部分的答案模板字典的一个实例的表；
[0018]图8是示出根据第一实施例的问题对似然性确定单元的处理过程的流程图；
[0019]图9是示出根据第一实施例的针对每种输入模式保存的权重值的一个实例的表；
[0020]图10是示出根据第一实施例的在输入模式可靠性累积单元中累积的数据的一个实例的图；
[0021]图11是示出根据第一实施例的用于提示用户再次回答的屏幕的一个实例的图；
[0022]图12是示出根据第一实施例的当输入与之前询问的问题具有相同临时答案类别的问题时，用于以手写输入模式回答的屏幕的一个实例的图；
[0023]图13A是示出根据第一实施例的当输入与之前询问的问题具有相同临时答案类别的问题时，用于以地图输入模式回答的屏幕的一个实例的图；
[0024]图13B是示出根据第一实施例的在输入问题答案之后，用于以地图输入模式回答的屏幕的一个实例的图；
[0025]图14A是示出根据第一实施例的当输入与之前询问的问题具有相同临时答案类别的问题时，用于以地图输入模式回答的屏幕的另一个实例的图；
[0026]图14B是示出根据第一实施例的在输入问题答案之后，用于以地图输入模式回答的屏幕的另一个实例的图；
[0027]图15是示出根据第二实施例的语音对话支持装置的布置的框图；
[0028]图16是示出根据第二实施例的语音翻译应用的用户界面的一个实例的屏幕的图；
[0029]图17是示出根据第二实施例的在说话者简档累积单元中累积的数据的一个实例的表；
[0030]图18是示出根据第二实施例的存储每个临时答案类别的选项的数据库的一个实例的表；
[0031]图19是示出根据第二实施例的当用户通过语音输入回答问题时的屏幕的一个实例的图；以及
[0032]图20是示出根据第二实施例的用于呈现由选项生成单元针对问题生成的选项的屏幕的一个实例的图。
【具体实施方式】
[0033]一般而言，根据一个实施例，一种语音对话支持装置包括输入单元、第一确定单元、第二确定单元、第三确定单元、评分单元以及屏幕生成单元。所述输入单元根据语音输入模式和另一种输入模式接受文本数据输入。所述语音输入模式将所述用户发出的语音转换成文本数据。另一种输入模式接受来自所述用户的输入操作。所述第一确定单元从输入句提取表示当前主题的至少一个主题关键字。所述第二确定单元通过判定所述输入句是否是问题句和答案句中的至少一个，提取具有问题句和答案句的问题对，并且当所述输入句是问题句时，基于所述问题句的格式和所述主题关键字，将能够是答案的单词的类别估计为临时答案类别。所述第三确定单元基于所述答案句估计所回答的内容的类别，并且当获得所述问题对时，基于所述临时答案类别和答案类别中的至少一个，计算问题对似然性。所述评分单元基于所述临时答案类别和所述问题对似然性，计算有关每种输入模式的优先级的得分。所述屏幕生成单元以评分单元计算的得分的顺序，显示所述输入模式。
[0034]在每个实施例(要在后面描述)中，将解释以下情况:其中将语音对话支持装置应用于终端(例如包括触摸屏的平板计算机终端)的语音翻译功能。
[0035]注意，所述语音对话支持装置不仅适用于语音翻译功能，而且还适用于呼叫中心中的工作支持功能等。
[0036](第一实施例)
[0037]下面将参考附图描述第一实施例。
[0038]在第一实施例中，操日语的用户和操英语的用户通常使用一个包括触摸屏的平板计算机终端。将描述应用语音对话支持装置的语音翻译应用，该语音对话支持装置除了允许通过语音识别的输入操作之外，还允许手写输入操作，其通过手指在屏幕上写入字符进行输入字符。
[0039]注意，语言组合并不限于上述一种，并且可以使用任何语言，这些语言可以由诸如语音识别和翻译之类的单独部分支持。
[0040](整体布置)
[0041]根据第一实施例的语音对话支持装置翻译用户输入的内容，并且以文本格式将其呈现给合作伙伴用户。注意，可执行翻译结果的语音合成，并且输出结果作为语音。
[0042]图1是示出根据第一实施例的语音对话支持装置的布置的框图。
[0043]根据该实施例的语音对话支持装置包括输入单元11、翻译单元12、主题确定单元13、临时答案类别确定单元14(以下称为类别确定单元14)、问题对似然性确定单元15(以下称为确定单元15)、输入模式可靠性累积单元16 (以下称为累积单元16)、答案输入模式评分单元17 (以下称为评分单元17)以及答案输入屏幕生成单元18 (以下称为屏幕生成单元18)。语音对话支持装置包括CPU、ROM、RAM等，以便通过软件处理控制语音对话支持装置的翻译单元12、主题确定单元13、类别确定单元14、确定单元15、累积单元16、评分单元17和屏幕生成单元18。
[0044]输入单元11是诸如麦克风和触摸屏(它们未被示出)之类的输入设备，并且由用户用于使用麦克风或另一种输入模式输入发出的内容。翻译单元12翻译使用输入单元11输入的文本数据。主题确定单元13从输入句提取表示当前主题的一个或多个主题关键字。
[0045]类别确定单元14基于问题句的格式和主题关键字，估计临时答案类别。确定单元15基于答案句估计所回答的内容的类别，并且基于临时答案类别或答案类别计算问题对的似然性。累积单元16保存输入模式的可靠性值，作为在临时答案类别中输入单词的方法。
[0046]评分单元17基于临时答案类别、问题对似然性或输入模式可靠性，计算有关每种输入模式的优先级的得分。屏幕生成单元18以评分单元17计算的相应答案输入模式的得分的顺序，显示输入模式。
[0047]可以在包括麦克风和屏幕的终端上安装语音对话支持装置，作为语音翻译应用。不需要在终端中配备麦克风，并且可以另外使用诸如耳机麦克风之类的外部麦克风。
[0048]例如，可以使用诸如智能电话或平板计算机之类的移动终端，或者诸如台式计算机或笔记本型个人计算机(PC)之类的硬件装置。
[0049]应用语音对话支持装置的终端的数量不需要为一个。可能例如通过传送输入数据或输入句，将语音对话支持装置应用于多个终端。
[0050](屏幕布置)
[0051]图2示出根据第一实施例的语音翻译应用的屏幕的一个实例。
[0052]所述屏幕包括用于日本人的显示21和用于美国人的显示22，每个显示包括对话日志显不部分23和输入屏幕部分24。
[0053]在用于日本人的显示21中，将翻译美国人发出的内容和日本人发出的内容的结果显示为对话日志。在用于美国人的显示22中，将美国人发出的内容和翻译日本人发出的内容的结果显示为对话日志。
[0054]在初始状态下，在每个输入屏幕部分24上显示可能的输入模式(在该实例中，语音输入模式111、手写输入模式112和使用图形指点模式的地图输入模式113)，如图2中所示，并且选择一种输

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：渡边奈夕子;釜谷聪史;住田一男;
技术所有人：株式会社东芝;
我是此专利的发明人

上一篇：基于数字设备开发的数控翻译词典的制作方法
上一篇：非可听语音输入校正的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。