图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质的制作方法
【专利说明】图像显示装置、用于驱动图像显示装置的方法和计算机可 读记录介质
[0001] 相关申请的交叉引用
[0002] 本申请根据35U. S. C. § 119(a)要求于2014年11月12日在韩国知识产权局递交 的韩国专利申请No. 10-2014-0157427的优先权,其公开在此通过参考引入本文。
技术领域
[0003] 本公开涉及图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介 质,并更具体涉及可使语音识别结果的格式规格化以执行设备(例如电视或便携电话)的 操作的图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质。
【背景技术】
[0004] 人与设备之间的交互已经朝着便利和自然的方向演进。在人与设备之间的交互 中,语音识别是人类能够使用的最直接和最容易的交互。已经在各种设备中使用了自然语 音识别,原因在于它能够识别各种词汇和交互语句。然而,在使用自然语音识别引擎的情况 下,输出种类繁多的词汇,并且有时可能通过以识别结果与在设备中实际执行的功能或内 容的标题具有相同的发音和相同的语义但是具有不同的语音语言(例如英语而不是韩语) 的方式来给出识别结果。这是因为,尽管已经适当地识别出了语音,但是设备将文本形式的 语义与功能或内容的标题进行匹配。在这种情况下,不能执行功能。为了解决该问题,已经 提出了使用互相关和平行语言资料库(corpus)的后处理技术。也就是说,涉及用于改进语 音识别错误率和识别率的后处理的各种技术。
[0005] 大多数这种技术涉及使用在其中将错误和正确答案彼此匹配的语言资料库数据 库或从输入语音中提取特征并确定输入语音与所登记的词语之间的互相关性的系统来改 善识别率和识别错误率的方法。这种技术能够提高用户创建的语句的精确度,或解决识别 结果中的错误。然而,在使用自然语音识别引擎的情况下,由于各种词汇,可能以识别结果 与实际操作的相同功能或相同内容具有相同名称和发音但是具有不同格式的方式来给出 识别结果。在这种情况下,即使纠正了文本中的错误,也不能执行用户所希望的功能。
[0006] 例如,标题为"Post-processing speech recognition method using correlations"的韩国未审专利申请公开No. 10-1998-0056234公开了一种语音识别系统 的后处理方法。使用该技术,如果未在登记的命令集中找到通过麦克风的输入语音的结果, 则通过特定样式与当前登记的词语的样式之间距离的比较来登记互相关性。因此,在稍后 输入相同语音的情况下,因为已经通过互相关登记了相关语音,对该相同语音的识别成为 可能。
[0007] 此外,标题为 "Method and apparatus for correcting errors of speech recognition"的韩国未审专利申请公开No. 10-2012-0141972公开了一种在语音识别系统 中使用平行语言资料库的纠错技术。根据该技术,生成正确答案语言资料库和包括正确答 案对和错误对的平行语言资料库来作为识别结果。如果给出了错误识别结果,则从结果中 找出识别错误部分,并用平行语言资料库中匹配的正确答案对来替代该结果。
[0008] 随着自然语音识别功能的发展,自然语音引擎(即使用从外部服务器提供的识别 结果的语音识别)能够识别各种词汇和词语。然而,作为其不利反应,可能在设备中所使 用的功能的格式不同于自然语音识别结果的格式的情形下给出识别结果。此外,由于连续 地产生内容(例如广播、电影和音乐),并且不仅在制作该内容的国家而且在国外通过例如 Youtub*的途径也能够容易地获得这种内容,所以即便是相同内容有时也会用另一词语或 语言来表示。因此,为了精确识别并执行具有相同发音和相同语义但具有不同语言(例如 英语)的标题的内容,有必要提供对语音识别结果的格式进行规格化的过程,该过程将词 语转换为实际执行的功能或内容的名称。
[0009] 换言之,为了对相关技术中涉及的问题进行补漏,并提高用户打算执行的功能或 内容的执行率,存在对于针对使用语音识别的设备(例如电视)的操作的语音识别结果的 格式进行规格化的技术的需要。
【发明内容】
[0010] 已经做出本公开,以解决至少以上问题和/或缺点,并提供至少以下优点。因此, 本公开的一方面提供了一种能够使语音识别的结果规格化以执行设备(例如电视或便携 电话)的操作的图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质。 [0011] 根据本公开的一方面,一种图像显示装置,包括:语音获取器,被配置为获取用户 创建的语音命令;语音识别执行器,被配置为获取文本信息,所述文本信息具有与对应于所 获取的语音命令的基于文本的识别结果的表音符号相同或相似的表音符号,且以与所述基 于文本的识别结果的形式不同的形式来表达;以及操作执行器,被配置为执行与所获取的 文本信息相对应的操作。
[0012] 该图像显示装置可以包括:语音获取器,被配置为获取用户创建的语音命令;语 音识别执行器,被配置为尝试执行与作为所获取的语音命令的识别结果的语音命令相关的 操作,并且如果作为尝试结果不能执行该操作,则获取具有与识别结果的表音符号相同或 相似的表音符号的文本信息;以及操作执行器,被配置为基于所获取的文本信息来执行该 操作。
[0013] 图像显示装置还可以包括:存储器,所述存储器被配置为存储多个命令的命令集 和所述命令的表音符号,所述语音识别执行器获取所述存储器中存储的所述多个命令中的 命令作为所述文本信息。
[0014] 图像显示装置还可以包括:显示器,被配置为显示内容,以及存储器,被配置为存 储在所述显示器上显示的与内容相关的词语来作为命令,以及分别将所述表音符号与所存 储的命令进行匹配并存储,其中所述语音识别执行器获取在所述存储器中非固定地存储的 命令作为所述文本信息。
[0015] 图像显示装置还可以包括:第一存储器,被配置为存储命令的命令集和所述命令 的表音符号;以及第二存储器,被配置为存储在显示屏幕上显示的与内容相关的词语来作 为命令,以及分别将所述表音符号与所存储的命令进行匹配并存储,其中如果在所述第一 存储器和所述第二存储器至少一个中不存在与所述识别结果的表音符号相匹配的命令,则 通过使用发音词典替代所述识别结果来获取所述文本信息。
[0016] 图像显示装置还可以包括异常表音符号存储器,所述异常表音符号存储器被配置 为存储具有相同发音但具有由于语言差异而不同地记录的表音符号的异常表音符号信息, 其中所述语音识别执行器在参考所存储的异常表音符号信息的情况下获取所述文本信息。
[0017] 如果所述语音命令是语句,则所述语音识别执行器可识别所述语句,分析识别结 果,并基于分析结果和所述表音符号来获取所述文本信息。
[0018] 所述语音识别执行器可以从作为识别结果生成的表音符号中移除空格和异常符 号的至少一个,并且然后获取具有一致表音符号的文本信息。
[0019] 语音识别执行器可以尝试执行与作为识别所获取的语音命令的结果的所述语音 命令有关的操作,并且如果作为尝试结果不能执行该操作,则获取具有与所述识别结果的 表音符号相同或相似的表音符号的文本信息。
[0020] 根据本公开的另一方面,一种驱动图像显示装置的方法包括:获取用户创建的语 音命令;获取文本信息,所述文本信息具有与对应于所获取的语音命令的基于文本的识别 结果的表音符号相同或相似的表音符号,且以与所述基于文本的识别结果的形式不同的形 式来表达;以及执行与所获取的文本信息相对应的操作。
[0021] 驱动图像显示装置的方法还可以包括:存储多个命令的命令集和所述命令的表音 符号,其中获取所述文本信息包括获取存储器中存储的所述多个命令中的命令作为所述文 本信息。
[0022] 驱动图像显示装置的方法还可以包括:在显示器上显示内容,以及存储在所述显 示器上显示的与内容相关的词语来作为命令,以及分别将所述表音符号与所存储的命令进 行匹配并存储,其中获取在存储器中非固定地存储的命令作为所述文本信。
[0023] 驱动图像显示装置的方法还可以包括:在第一存储器中存储命令的命令集和所述 命令的表音符号;在第二存储器中存储在显示屏幕上显示的与内容相关的词语来作为命 令,以及分别将所述表音符号与所存储的命令进行匹配并存储,其中如果在所述第一存储 器和所述第二存储器至少一个中不存在与所述识别结果的表音符号相匹配的命令,则获取 所述文本信息包括通过使用发音词典替代所述识别结果来获取所述文本信息。
[0024] 驱动图像显示装置的方法还可以包括:存储具有相同发音但具有由于语言差异而 不同地记录的表音符号的异常表音符号信息,其中获取所述文本信息是在参考所存储的异 常表音符号信息的情况下获取所述文本信息。
[0025] 如果所述语音命令是语句,则获取所述文本信息可以包括识别所述语句,分析识 别结果,并基于分析结果和所述表音符号来获取所述文本信息。
[0026] 获取所述文本信息可以包括从作为识别结果生成的表音符号中移除空格和异常 符号至少一个,并且然后获取具有一致表音符号的文本信息。
[0027] 获取所述文本信息可以包括尝试执行与作为识别所获取的语音命令的结果的所 述语音命令有关的操作,并且如果作为尝试结果不能执行所述操作,则获取具有与所述识 别结果的表音符号相同或相似的表音符号的文本信息。
[0028] 根据本公开的另一方面,计算机可读存储介质可以执行:获取用户创建的语音命 令;获取文本信息,所述文本信息具有与对应于所获取的语音命令的基于文本的识别结果 的表音符号相同或相似的表音符号,且以与所述基于文本的识别结果的形式不同的形式来 表达;以及执行与所获取的文本信息相对应的操作。
[0029] 获取文本信息可以包括获取与具有相同发音但具有由于语言差异而不同地记录 的表音符号的所存储的异常表音符号信息有关的文本信息。
[0030] 如果所述语音命令是语句,则获取所述文本信息可包括识别所述语句,分析识别 结果,并基于分析结果和所述表音符号来获取所述文本信息。
[0031] 获取文本信息可以包括从作为识别结果生成的表音符号中移除空格和特殊符号 的至少一个,并且然后获取具有一致表音符号的文本信息。
[0032] 根据本