语音识别系统的制作方法

文档序号：24111251发布日期：2021-03-02 11:00阅读：209来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本公开涉及一种语音识别系统，其能够通过允许用户直接参与语音识别模型的学习来获得语音数据或文本并且使用所获得的数据来学习用户的语音数据。

背景技术：

人工智能是计算机科学和信息技术的分支，用于研究计算机如何完成人类智能可以完成的思考、学习和自我发展，并允许计算机模仿人类的智能行为。

而且，人工智能并非通过其本身存在，而是与计算机科学的其他领域直接或间接相关。特别是在现代，人们非常积极地尝试将人工智能元件引入信息技术的各个领域，并使用它们来解决该领域中的问题。

同时，在相关技术中，已经积极地研究了上下文感知技术，该上下文感知技术使用人工智能来识别用户的状况并以期望的形式提供用户的期望信息。

随着上述上下文感知技术的发展，对于能够执行适合用户情况的功能的系统的需求正在增加。

同时，通过结合用户的语音识别和上下文识别技术，通过语音识别向用户提供各种操作和功能的语音识别系统正在增加。

语音识别指代通过分析语音信号并将分析的语音信号与构图的数据库组合，将语音信号转换为字符串或识别语言含义内容。

在语音识别技术中，语音识别模型分析输入的语音数据，提取特征，并测量与先前收集的语音模型数据库的相似性，以将最相似的一个转换为文本或命令。

语音识别技术是一种模式识别过程。因为每个人的语音、发音和语调不同，所以传统的语音识别技术会从尽可能多的人中收集语音数据，从中提取共同特征，并生成参考模式。

然而，因为这种参考模式通过在实验室环境中创建的训练数据来配置学习模型，所以并未针对实际用户的语音或音调进行优化。

因此，需要额外的自适应学习，使得语音识别模型对直接使用语音识别设备的用户被个性化。

本公开提出一种可以增加自适应学习的准确性和效率的方法。

技术实现要素：

技术问题

本公开提供一种语音识别系统，其能够通过允许用户直接参与语音识别模型的学习来获得语音数据或文本以及使用所获得的数据来学习用户的语音数据。

技术方案

根据本公开的实施例，一种语音识别系统，包括：语音识别代理，该语音识别代理被配置成：从用户接收语音数据，并且将所述语音数据发送给人工智能服务器；以及人工智能服务器，所述人工智能服务器被配置成：将所述语音数据输入到语音识别模型，将基于所述语音数据的识别结果发送到所述语音识别代理，以及学习所述语音数据，其中，当所述语音数据的语音识别率低于预设基准时，所述语音识别代理进一步被配置成向所述用户请求用于学习用户的语音数据的附加数据。

在这种情况下，所述语音识别代理可以被配置成：向所述用户提供特定句子，并且当接收到与所述特定句子相对应的第二语音数据时，将所述第二语音数据发送给所述人工智能服务器。所述人工智能服务器可以被配置成学习与所述特定句子相对应的所述第二语音数据。

在这种情况下，所述人工智能服务器可以被配置成：基于所述语音数据的特征，将多个句子当中的与所述语音数据的特征相对应的特定句子发送到所述语音识别代理。

在这种情况下，可以将所述多个句子分类为包括产品功能、国家、地区、年龄、方言、性别或外语中的至少一个的类别，并且所述人工智能服务器可以被配置成：基于所述语音数据的特征，向所述语音识别代理发送所述特定句子，所述特定句子被包括在多个类别当中的向所述用户请求附加学习的类别中。

同时，所述特定句子可以包括与所述语音识别代理的功能相对应的命令。

同时，所述语音识别系统可以进一步包括移动终端。所述语音识别代理可以被配置成将所述特定句子发送到所述用户的移动终端。所述移动终端可以被配置成显示与所述特定句子相对应的文本。

同时，当所述语音识别率低于所述预设基准时，所述语音识别代理可以被配置成请求所述用户输入与所述语音数据相对应的文本。

在这种情况下，所述人工智能服务器可以被配置成存储所述语音数据。当输入与所述语音数据相对应的所述文本时，所述语音识别代理可以被配置成将与所述语音数据相对应的所述文本发送给所述人工智能服务器。所述人工智能服务器可以被配置成学习与所述文本相对应的所述存储的语音数据。

在这种情况下，所述人工智能服务器可以被配置成：将所述文本转换为语音数据，基于所述转换后的语音数据和所述存储的语音数据之间的相似性，将所述存储的语音数据确定为有效数据，并且学习被确定为所述有效数据的所述语音数据。

同时，所述语音识别系统还可以包括移动终端，所述移动终端被配置成：接收与所述语音数据相对应的所述文本的输入，并且将与所述语音数据相对应的所述文本发送给所述语音识别代理。

同时，当所述用户输入特定文本和与所述特定文本相对应的第三语音数据时，所述语音识别代理可以被配置成：将所述特定文本和与所述特定文本相对应的所述第三语音数据发送给所述人工智能服务器。所述人工智能服务器可以被配置成：学习与所述特定文本相对应的所述第三语音数据。

同时，所述语音识别代理可以被配置成：提供重复所呈现的语音的第一选项、重复所呈现的句子的第二选项、以及直接写入和重复句子的第三选项，并且请求所述附加数据作为在所述第一选项至第三选项当中具有最高语音识别率的选项。

同时，所述人工智能服务器可以被配置成：学习所述附加数据，并且将根据学习所述附加数据的结果而改变的语音识别率发送给所述语音识别代理。

根据本公开的实施例，一种语音识别设备包括：输入模块，所述输入模块被配置成从用户接收语音数据；人工智能模块，所述人工智能模块被配置成将所述语音数据输入到语音识别模块，基于所述语音数据获得识别结果，并且学习所述语音数据，其中，当所述语音数据的语音识别率低于预设基准时，所述语音识别模块被配置成向所述用户请求用于学习用户的语音数据的附加数据。

根据本公开的实施例，语音识别系统的操作方法包括：由语音识别代理从用户接收语音数据并且将所述语音数据发送到人工智能服务器，由所述人工智能服务器将所述语音数据输入到语音识别模型，将基于所述语音数据的识别结果发送给所述语音识别代理，以及学习所述语音数据，并且当所述语音数据的语音识别率低于预设基准时，由所述语音识别代理向所述用户请求用于学习用户的语音数据的附加数据。

在这种情况下，向所述用户请求用于学习所述用户的语音数据的所述附加数据的所述操作可以包括：由所述语音识别代理向所述用户提供特定句子，和当接收到与所述特定句子相对应的第二语音数据时，将所述第二语音数据发送到所述人工智能服务器，以及由所述人工智能服务器学习与所述特定句子相对应的所述第二语音数据。

有益效果

与被动地收集和学习用户的语音数据的常规方法不同，本公开可以通过呈现最能把握用户的语音习惯的句子来请求语音输入，或者可以直接请求作为文本的用户所说出的句子。因此，根据本公开，可以显著地改善学习性能并且可以启用快速个性化。

附图说明

图1是用于描述根据本公开的实施例的语音识别系统的图。

图2是用于描述与本公开有关的语音识别代理的框图。

图3是示出根据本公开的实施例的人工智能服务器200的配置的框图。

图4是用于描述语音识别系统中可能出现的问题的图。

图5是用于描述根据本公开的实施例的向用户请求用于附加学习的附加数据的方法的图。

图6是用于描述根据本公开的实施例的当选择选项1或选项2时的操作方法的图。

图7是图示说出的句子的单词单位识别率的图。

图8是用于描述在选择选项1时的操作的图。

图9是用于描述在选择选项2时的操作的图。

图10是用于描绘在选择选项3时的操作的图。

图11是根据本公开的另一实施例的用于描述向用户请求用于附加学习的附加数据的方法的图。

图12是用于描述当请求文本输入时的操作的图。

图13是用于描述根据本公开的实施例的语音识别系统的操作的图。

具体实施方式

在下文中，将参考附图详细描述实施例。当参考附图描述实施例时，相同或相应的元件由相同的附图标记表示。将省略其冗余描述。以下描述中使用的组件的后缀“模块”和“单元”在考虑说明书编写的容易性的情况下被指配或混合，并且它们自身没有独特的含义或作用。此外，关于描述本公开的实施例，当确定相关的已知技术的详细描述不必要地使本公开的要点模糊时，可以省略该详细描述。另外，附图仅是为了容易理解本说明书中公开的实施例，并且本说明书中公开的技术思想不受附图的限制。将理解为包括落入本公开的精神和范围内的所有修改、等同物和替代物。

诸如“第一”、“第二”等的术语用于描述各种元件，并且这些元件不受这些术语的限制。这些术语仅用于将一个元件与另一个元件区分开的目的。

将理解的是，当一个元件被称为与另一个元件“连接”时，该元件可以与另一个元件连接，或者也可以存在中间元件。相反，当一个元件被称为与另一元件“直接连接”时，则不存在中间元件。

如本文所用，单数形式的“一(a)”、“一个(an)”和“该(the)”也旨在包括复数形式，除非上下文另外明确指出。本公开中使用的术语“包括(comprise)”、“包括有(comprising)”、“包含(including)”和“具有(having)”是包括性的，并且因此指定存在所述特征、整数、步骤、操作、元件或组件，但不排除一个或多个其他特征、整数、步骤、操作、元件、组件或其组合的存在或添加。

本文描述的移动终端可以包括移动电话、智能电话、膝上型计算机、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航仪、平板PC、板式PC、超级本、可穿戴设备(例如，智能手表、智能眼镜、头戴式显示器(HMD)等)。

图1是用于描述根据本公开的实施例的语音识别系统的图。

根据本公开的实施例的语音识别系统10可以包括语音识别代理100、人工智能服务器200和移动终端300。

语音识别代理100可以与人工智能服务器200通信。详细地，语音识别代理100可以提供用于将语音识别代理100连接到包括互联网网络的有线/无线网络的接口。语音识别代理100可以通过连接的网络或链接到该连接的网络的另一网络与服务器发送或接收数据。

另外，语音识别代理100可以与移动终端300通信。详细地，语音识别代理100可以提供用于将语音识别代理100连接到包括互联网网络的有线/无线网络的接口。语音识别代理100可以通过连接的网络或链接到该连接的网络的另一网络与移动终端300发送或接收数据。

另外，语音识别代理100可以通过参考图2描述的短距离通信与移动终端300通信。

同时，语音识别代理100可以以各种方式学习语音数据或执行与语音数据相对应的功能。

例如，当语音识别模型被安装在人工智能服务器200上并且语音识别代理100接收到语音数据并将接收到的语音数据发送到人工智能服务器200时，人工智能服务器200学习语音数据或输出基于语音数据的识别结果，并将识别结果发送到语音识别代理100，并且语音识别代理100可以通过生成与识别结果相对应的控制命令来执行控制。

作为另一示例，当语音识别模型被安装在人工智能服务器200上并且语音识别代理100接收到语音数据并将接收到的语音数据发送到人工智能服务器200时，人工智能服务器200学习语音数据或输出基于语音数据的识别结果，并将与该识别结果相对应的控制命令发送到语音识别代理100。

作为另一示例，识别模型被安装在语音识别代理100上，语音识别代理100接收语音数据并学习语音数据，或者输出基于语音数据的识别结果，并将识别结果发送到人工智能服务器200，并且人工智能服务器200将与识别结果相对应的控制命令发送到语音识别代理100。

此外，语音识别代理100可以不顾人工智能服务器200而独立地执行人工智能功能。

例如，语音识别模型被安装在语音识别代理100上，语音识别代理100接收语音数据并学习语音数据，或输出基于语音数据的识别结果，并生成与识别结果相对应的控制命令。

图2是用于描述与本公开有关的语音识别代理的框图。

语音识别代理100可以包括无线通信模块110、输入模块120、人工智能模块130、传感器140、输出模块150、接口160、存储器170、控制器180和电源190。

图2所示的元件在实现语音识别代理中不是必需的。本说明书中描述的语音识别代理可以具有比以上列出的元件更多或更少的元件。

更详细地，元件中的无线通信模块110可以包括一个或多个模块，该模块使能语音识别代理100与无线通信系统之间、语音识别代理100与另一语音识别代理100之间、或语音识别代理100与外部服务器之间的通信。另外，无线通信模块110可以包括将语音识别代理100连接到一个或多个网络的一个或多个模块。

无线通信模块110可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。

输入模块120可以包括用于输入视频信号的相机121或图像输入模块、用于输入音频信号的麦克风122或音频输入模块以及用于从用户接收信息的用户输入模块123(例如，触摸键、机械键等)。由输入模块120收集的语音数据或图像数据可以由用户的控制命令来分析和处理。

人工智能模块130被配置成基于人工智能技术来处理信息，并且可以包括一个或多个模块，其执行信息的学习、信息的推断、信息的感知或自然语言的处理中的至少一项。

人工智能模块130可以使用机器学习技术来执行对诸如存储在语音识别代理中的信息、在语音识别代理的周围的环境信息、以及存储在可通信的外部存储中的信息的大量信息(大数据)的学习、推断和处理中的一种。人工智能模块130可以通过使用利用机器学习技术学习到的信息来预测(或推断)至少一个可执行语音识别代理的操作，并且可以控制语音识别代理使得至少一个所预测的操作当中的最可行的操作被执行。

机器学习技术是一种技术，其基于至少一种算法来收集和学习大规模信息，并且基于所学习的信息来确定和预测信息。信息的学习是掌握信息的特征、规则和确定准则、量化多条信息之间的关系以及使用量化的模式预测新数据的操作。

这些机器学习技术使用的算法可以是基于统计的算法。算法的示例可以包括使用树结构作为预测模型的决策树、模仿生物体神经网络的结构和功能的人工神经网络、基于生物体进化算法的遗传编程、将观察到的示例分布到子集的聚类(称作的簇类(cluster))、以及通过随机提取的随机数以概率计算函数值的蒙特卡洛(Monte Carlo)方法。

作为机器学习技术的一个分支，深度学习技术是一种使用人工神经网络算法执行信息的学习、确定和处理中的至少一个的技术。人工神经网络可以具有将层连接到层并且在层之间发送数据的结构。这样的深度学习技术可以使用针对平行计算优化的图形处理单元(GPU)通过人工神经网络学习大量信息。

同时，人工智能模块130可以收集(感测、监视、提取、检测或接收)从语音识别代理的元件输入或输出的信号、数据、信息等，以便收集用于应用机器学习技术的大量信息。而且，人工智能模块130可以收集(感测、监视、提取、检测或接收)存储在通过通信连接的外部存储(例如，云服务器)中的数据和信息。更详细地，信息的收集可以被理解为包括通过传感器感测信息、提取存储在存储器170中的信息、或者通过通信从外部存储接收信息的操作的术语。

人工智能模块130可以通过传感器140感测语音识别代理中的信息、关于语音识别代理周围的周边环境的信息以及用户信息。而且，人工智能模块130可以通过无线通信模块110接收广播信号和/或广播相关信息、无线信号和无线数据。此外，人工智能模块130可以从输入模块接收视频信息(或信号)、音频信息(或信号)、数据或来自用户的信息输入。

人工智能模块130可以在后台实时收集大量信息，学习所收集的信息，并在存储器170中以适当形式存储(例如，知识图、命令策略、个性化数据库、对话引擎等等)被处理的信息。

当基于使用机器学习技术学习的信息来预测语音识别代理的操作时，人工智能模块130可以控制语音识别代理的元件或将用于执行预测的操作的控制命令发送给控制器180，以便执行预测的操作。控制器180可以通过基于控制命令控制语音识别代理来执行预测的操作。

同时，当执行特定操作时，人工智能模块130可以通过机器学习技术分析指示特定操作的执行的历史信息，并且可以基于该分析信息来更新现有的学习信息。因此，人工智能模块130可以改善信息预测的准确性。

在本说明书中，人工智能模块130和控制器180可以被理解为相同的元件。在这种情况下，在本说明书中描述的由控制器180执行的功能可以被表达为由人工智能模块130执行。控制器180可以被称为人工智能模块130。相反，人工智能模块130可以被称为控制器180。

另外，与此不同，在本说明书中，人工智能模块130和控制器180可以被理解为单独的元件。在这种情况下，人工智能模块130和控制器180可以通过彼此进行数据交换，在语音识别代理上执行各种控制。控制器180可以基于由人工智能模块130导出的结果，在语音识别代理上执行至少一项功能，或者控制语音识别代理的至少一个元件。此外，人工智能模块130还可以在控制器180的控制下进行操作。

传感器140可以包括一个传感器，用于感测语音识别代理中的信息、关于语音识别代理周围的周边环境的信息或用户信息中的至少一种。

例如，传感器140可以包括接近传感器141、照度传感器142、触摸传感器、加速度传感器、磁传感器、G传感器、陀螺仪传感器、运动传感器、RGB传感器、红外(IR)传感器、手指扫描传感器、超声波传感器、光学传感器(例如，摄像头(请参见121))、麦克风(请参见122)、电池电量计、环境传感器(例如，气压计、湿度计、温度计、辐射传感器、热检测传感器、气体检测传感器等)或化学传感器(例如，电子鼻、医疗保健传感器、生物特征传感器等)中的至少一个。同时，本说明书中公开的语音识别代理可以组合并利用由这些传感器中的至少两个传感器感测的信息。

输出模块150生成与视觉、听觉或触觉相关联的输出，并且可以包括显示器151、音频输出模块152、触觉模块153或光学输出模块154中的至少一个。显示器151可以与触摸传感器形成相互层结构，或者可以与触摸传感器整体地形成以实现触摸屏。触摸屏可以用作用户输入模块123，该用户输入模块123在语音识别代理100和用户之间提供输入接口，并且还可以在语音识别代理100和用户之间提供输出接口。

接口160用作连接到语音识别代理100的各种类型的外部设备的通道。接口160可以包括有线/无线耳机端口、外部充电器端口、有线/无线数据端口、存储器卡端口、用于连接配备有识别模块的设备的端口、音频输入/输出(I/O)端口、视频I/O端口或耳机端口中的至少一个。语音识别代理100可以响应于外部设备到接口160的连接而执行与所连接的外部设备相关联的适当控制。

另外，存储器170可以存储支持语音识别代理100的各种功能的数据。存储器170可以存储在语音识别代理100中运行的大量应用程序(应用)、用于操作语音识别代理100的数据和命令、用于人工智能模块130的操作的数据(例如，至少一条用于机器学习的算法信息等)。这些应用程序中的至少一些可以通过无线通信从外部服务器下载。而且，这些应用程序中的至少一些可以从装运时就存在于语音识别代理100上，以用于语音识别代理100的基本功能(例如，呼入和呼出呼叫功能、消息接收和发送功能等)。同时，应用程序可以存储在存储器170中，可以安装在语音识别代理100上，并且可以由控制器180驱动以执行语音识别代理的操作(或功能)。

除了与应用程序有关的操作之外，控制器180通常还控制语音识别代理100的整体操作。控制器180可以通过处理通过上述元件输入或者输出的信号、数据、信息等等或通过驱动存储在存储器170中的应用程序向用户提供或处理适当的信息或功能。

此外，控制器180可以控制参考图1a描述的元件的至少一部分，使得驱动存储在存储器170中的应用程序。此外，为了驱动应用程序，控制器180可以通过将包括在语音识别代理100中的至少两个元件彼此组合来操作语音识别代理100。

在控制器180的控制下，电源190接收外部电源和内部电源，并将外部电源和内部电源供应给语音识别代理100中包括的元件。电源190包括电池，并且电池可以是内置电池或可更换的电池。

在下文中，在查看通过上述语音识别代理100实施的各种实施例之前，将参考图2更详细地描述上述元件。

首先，无线通信模块110的广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道、地波信道等。可以向移动终端100提供两个或更多个广播接收模块，以便进行针对至少两个广播信道的同时广播接收或广播信道切换。

广播管理服务器可以指代生成并发送广播信号和/或广播相关信息的服务器、或者是接收先前生成的广播信号和/或广播相关信息并将先前生成的广播信号和/或广播相关信息发送给终端的服务器。广播信号可以包括电视广播信号、无线电广播信号和数据广播信号，并且还可以包括其中数据广播信号与电视广播信号或无线电广播信号组合的广播信号。

广播信号可以根据用于发送或接收数字广播信号的技术标准(或广播方法，例如，ISO、IEC、DVB、ATSC等)中的至少一种进行编码，并且广播接收模块111可以通过使用适合于由技术标准确定的技术规范的方法来接收数字广播信号。

广播相关信息可以指代与广播信道、广播节目或广播服务提供商有关的信息。广播相关信息也可以通过移动通信网络来提供。在这种情况下，广播相关信息可以由移动通信模块112接收。

广播相关信息可以以各种形式存在，诸如数字多媒体广播(DMB)的电子节目指南(EPG)或手持数字视频广播(DVB-H)的电子服务指南(ESG)。通过广播接收模块111接收到的广播信号和/或广播相关信息可以存储在存储器160中。

移动通信模块112在根据用于移动通信的技术标准或通信方案(例如，全球移动通信系统(GSM)、码分多址(CDMA)、码分多址2000(CDMA2000)、增强型语音数据优化或仅增强型语音数据(EV-DO)、宽带CDMA(WCDMA)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、长期演进(LTE)和高级长期演进(LTE-A))建立的移动通信网络上，向基站、外部终端和服务器中的至少一个发送无线信号或从基站、外部终端和服务器中的至少一个接收无线信号。

无线信号的示例可以包括语音呼叫信号、视频呼叫信号或根据文本/多媒体消息的传输或接收的各种类型的数据。

无线互联网模块113指代用于无线互联网接入的模块，并且可以被嵌入在语音识别代理100中或提供在语音识别代理100的外部。无线互联网模块113可以被配置成在基于无线互联网技术的通信网络中发送或接收无线信号。

无线互联网技术的示例可以包括无线LAN(WLAN)、无线保真(Wi-Fi)、Wi-Fi直连、数字生活网络联盟(DLNA)、无线宽带(WiBro)、全球微波接入互操作性(WiMAX)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、长期演进(LTE)和高级长期演进(LTE-A)。无线互联网模块113根据包括以上未列出的互联网技术的范围中的至少一种无线互联网技术来发送或接收数据。

因为通过WiBro、HSDPA、HSUPA、GSM、CDMA、WCDMA、LTE、LTE-A等进行的无线互联网连接是由移动通信网络执行的，所以通过移动通信网络执行无线互联网接入的无线互联网模块113可以被理解为移动通信模块112的一种。

短程通信模块114被提供用于短程通信，并且可以通过使用蓝牙^TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、ZigBee、近场通信(NFC)、无线保真(Wi-Fi)、Wi-Fi直连和无线通用串行总线(USB)技术中的至少一个来支持短程通信。短程通信模块114可以通过无线区域网络来支持语音识别代理100与无线通信系统之间、语音识别代理100与另一语音识别代理100之间或者语音识别代理100与另一移动终端100(或者外部服务器)被布置的网络之间的无线通信。无线区域网络可以是无线个人区域网络。

语音识别代理100可以是能够与根据本公开的语音识别代理100交换数据(或互通)的可穿戴设备(例如，智能手表、智能眼镜、头戴式显示器(HMD)等)。短程通信模块114可以感测(或识别)能够与语音识别代理100周围的语音识别代理100通信的可穿戴设备。此外，当感测到的可穿戴设备是经认证以与根据本公开的语音识别代理100通信的设备时，控制器180可以通过短程通信模块114将由语音识别代理100处理的数据的至少一部分发送到可穿戴设备。因此，可穿戴设备的用户可以通过可穿戴设备用使用由语音识别代理100处理的数据。例如，当语音识别代理100接收到呼叫时，用户可以经由可穿戴设备进行通话，或者当语音识别代理100接收到消息时，用户可以经由可穿戴设备确认接收到的消息。

位置信息模块115获得语音识别代理的位置(或当前位置)，并且位置信息模块115的代表性示例包括全球定位系统(GPS)模块和Wi-Fi模块。例如，当语音识别代理使用GPS模块时，语音识别代理可以通过使用由GPS卫星发送的信号来获得语音识别代理的位置。

作为另一个示例，当语音识别代理使用Wi-Fi模块时，语音识别代理可以基于有关向Wi-Fi模块发送或从Wi-Fi模块接收无线信号的无线接入点(AP)的信息来获得语音识别代理的位置。必要时，位置信息模块115可以替代地或附加地执行无线通信模块110的其他模块中的任何功能，以便获得关于语音识别代理的位置的数据。位置信息模块115用于获取语音识别代理的位置(或当前位置)，并且位置信息模块115不限于直接计算或获得语音识别代理的位置的模块。

接下来，输入模块120输入视频信息(或信号)、音频信息(或信号)、数据或从用户输入的信息。为了输入视频信息，语音识别代理100可以包括一个或多个相机121。相机121在视频呼叫模式或图像捕获模式下处理由图像传感器获得的静止图片或视频的图像帧。可以将处理后的图像帧显示在显示器151上或存储在存储器170中。同时，设置在语音识别代理100中的多个相机121可以被布置以形成矩阵结构。可以通过形成如上所述的矩阵结构的相机121将具有各种角度或焦点的多个图像信息输入到语音识别代理100。而且，多个相机121可以以立体结构布置，以获得用于实现立体图像的左图像和右图像。

麦克风122将外部音频信号处理成电音频数据。可以根据在语音识别代理100中执行的功能(或正在运行的应用程序)来不同地使用经处理的语音数据。同时，可以在麦克风122中实现用于消除在接收外部音频信号时产生的噪声的各种噪声消除算法。

用户输入模块123从用户接收信息。当通过用户输入模块123输入信息时，控制器180可以控制语音识别代理100的操作，使得与输入信息相对应。用户输入模块123是机械输入模块(或机械键，例如，位于语音识别代理100的前面、后面或侧面上的按钮、圆顶开关、转轮、滚轮开关等)和触摸型输入模块。作为示例，触摸型输入模块可以包括通过软件处理在触摸屏上显示的虚拟键、软键或可视键，或者可以包括布置在除触摸屏以外的部分的触摸键。同时，虚拟键或可视键可以以各种形式显示在触摸屏上。例如，虚拟键可以是图形、文本、图标、视频或其组合。

同时，传感器140可以感测语音识别代理中的信息、关于语音识别代理周围的周边环境的信息或用户信息中的至少一项，并且可以生成与其相对应的感测信号。基于感测信号，控制器180可以控制语音识别代理100的驱动或操作，或者可以执行与安装在语音识别代理100上的应用程序相关联的数据处理、功能或操作。将会更详细地描述可以被包括在传感器140中的各种传感器中的代表性传感器。

首先，接近传感器141指代在没有任何机械接触的情况下通过使用电磁力或红外光来感测接近预定检测表面的对象或在接近传感器141附近存在的对象的存在或者不存在的传感器。如上所述，接近传感器141可以布置在触摸屏附近或在由如上所述的触摸屏包围的语音识别代理的内部区域中。

接近传感器的示例包括透射型光电传感器、直接反射型光电传感器、镜面反射型光电传感器、高频振荡型接近传感器、容量型接近传感器、磁性接近传感器和红外型接近传感器。当触摸屏是静电型时，接近传感器141可以被配置成通过根据导电对象的接近的电场变化来检测对象的接近。在这种情况下，触摸屏(或触摸传感器)本身可以被分类为接近传感器。

为了描述的方便，在不与触摸屏接触的同时使对象接近并因此对象被识别为位于触摸屏上的动作被称为“接近触摸”，并且对象实际上与触摸屏接触的动作被称为“接触触摸”。在触摸屏上发生对象的接近触摸的位置指代当对象处于接近触摸时垂直对应于触摸屏的位置。接近传感器141可以检测接近触摸和接近触摸模式(例如，接近触摸距离、接近触摸方向、接近触摸速度、接近触摸时间、接近触摸位置、接近触摸移动状态等)。

同时，控制器180可以处理与由接近传感器141感测的接近触摸操作和接近触摸模式相对应的数据(或信息)，并且可以控制与所处理的数据相对应的视觉信息以在触摸屏上显示。此外，控制器180可以控制语音识别代理100，使得根据触摸屏上对同一点的触摸是接近触摸还是接触触摸来处理不同的操作或数据(或信息)。

触摸传感器通过使用诸如电阻膜方法、电容方法、红外方法、超声方法、磁场方法的各种触摸方法中的至少一种来感测施加到触摸屏(或显示器151)的触摸(或触摸输入)。

作为示例，触摸传感器可以被配置成使得施加到触摸屏的特定部分的压力或者在触摸屏的特定部分处发生的静电电容的变化被转换成电输入信号。触摸传感器可以被配置成：当在触摸屏上施加触摸的触摸对象在触摸传感器上触摸时，检测位置、区域、触摸时的压力、触摸时的电容等。触摸对象是对触摸传感器施加触摸的对象，并且可以是例如手指、触摸笔、触控笔或指示器。

当在触摸传感器上存在触摸输入时，与其相对应的信号被发送到触摸控制器。触摸控制器处理信号，并且然后将相应的数据发送到控制器180。因此，控制器180可以识别显示器151的哪个区域被触摸。触摸控制器可以是与控制器180分离的元件，或者可以是控制器180本身。

同时，控制器180可以根据触摸触摸屏(或者除了触摸屏之外设置的触摸键)的触摸对象的类型来执行不同的控制或相同的控制。可以根据语音识别代理100或运行的应用程序的操作状态来确定根据触摸对象的类型执行不同控制还是相同控制。

同时，触摸传感器和接近传感器可以独立地或组合地实现以感测各种类型的触摸。这样的触摸包括相对于触摸屏的短(或轻击)触摸、长触摸、多触摸、拖动触摸、轻拂触摸、捏合触摸、捏放触摸、滑动触摸、悬停触摸等。

超声波传感器可以通过使用超声波来识别感测目标的位置信息。控制器180可以通过由光学传感器和多个超声传感器感测到的信息来计算波生成源的位置。可以通过使用光比超声波快得多，即，光到达光学传感器的时间比超声波到达超声传感器的时间快得多的性质来计算波生成源的位置。更详细地，通过使用光作为参考，使用与超声波信号到达时的时间差来计算波生成源的位置。

同时，作为输入模块120的元件的相机121可以包括相机传感器(例如，CCD或CMOS)、光电传感器(photo sensor)(或图像传感器)或激光传感器中的至少一种。

相机121和激光传感器可以彼此组合以感测相对于3D立体图像的感测目标的触摸。光电传感器可以堆叠在显示装置上，并且光电传感器被配置成扫描靠近触摸屏的感测目标的运动。更详细地，光电传感器通过在行/列中安装光电二极管和晶体管(TR)并使用根据施加到光电二极管的光量而改变的电信号来扫描放置在光电传感器上的内容。即，光电传感器可以根据光的变化量来计算感测目标的坐标，并且可以基于感测目标的坐标来获得感测目标的位置信息。

显示器151显示(输出)由语音识别代理100处理的信息。例如，显示器151可以显示由语音识别代理100驱动的应用程序的执行屏幕信息，或者根据执行屏幕信息显示用户界面(UI)或图形用户界面(GUI)信息。

此外，显示器151可以被配置为显示三维图像的三维显示器。诸如立体方法(眼镜方法)、自动立体方法(无眼镜方法)和投影方法(全息方法)的三维显示方法可以应用于三维显示。

通常，3D立体图像包括左图像(左眼图像)和右图像(右眼图像)。取决于将左和右图像组合成3D立体图像的方法，存在一种将左和右图像在一帧中上下排列的上和下方法、将左和右图像左右放置在一个帧中的L到R(左到右、并排)方法、以图块形式将多个左和右图像排列的棋盘格方法、将左和右图像在行和列中交替排列的交错方法、以及按时间交替显示左和右图像的时间序列(逐帧)方法。

另外，3D缩略图图像可以分别从原始图像帧的左图像和右图像生成左图像缩略图和右图像缩略图，并且可以组合左图像缩略图和右图像缩略图以生成一个图像。通常，缩略图指代缩小的图像或缩小的静止图片。以这种方式生成的左图像缩略图和右图像缩略图在屏幕上以与左图像和右图像之间的视差相对应的深度一样多的左和右距离差显示，从而代表空间的三维感。

实现3D立体图像所需的左图像和右图像可以通过立体处理器显示在立体显示器上。立体处理器接收3D图像(参考视点处的图像和扩展视点处的图像)，并从其设置左图像和右图像，或接收2D图像并将2D图像转换为左图像和右图像。

音频输出模块152可以在呼叫信号接收模式、呼叫模式或记录模式、语音识别模式和广播接收模式下输出从无线通信模块110接收的或存储在存储器170中的音频数据。音频输出模块152可以输出与由语音识别代理100执行的功能(例如，呼叫信号接收声音、消息接收声音等)有关的音频信号。音频输出模块152可以包括接收器、扬声器和蜂鸣器。

触觉模块153生成用户可能感觉到的各种触觉效果。触觉模块153产生的触觉效果的典型示例是振动。可以根据用户的选择或控制器的设置来控制由触觉模块153产生的振动的强度、模式等。例如，触觉模块153可以合成不同的振动并且输出合成的结果，或者可以顺序地输出不同的振动。

除了振动之外，触觉模块153还可以产生各种其他触觉效果，包括通过刺激产生的效果，诸如垂直移动以接触皮肤的针排列、通过喷射孔或抽吸口的空气的喷射力或吸力、对皮肤的接触、电极接触、或静电力、使用可吸收或产生热量的元件重现冷热感的效果等。

触觉模块153可以通过直接接触来发送触觉效果，并且还可以被实现为使得用户可以通过手指、手臂等的肌肉感觉来感觉到触觉效果。可以根据语音识别代理100的特定配置来提供两个或更多个触觉模块153。

光学输出模块154通过使用从语音识别代理100的光源发射的光来输出用于通知事件发生的信号。在语音识别代理100中生成的事件的示例可以包括通过应用程序的消息接收、呼叫信号接收、未接电话、警报、日程表通知、电子邮件接收和信息接收。

当HMD向前表面或后表面发射单色或多种颜色的光时，实现由光学输出模块154输出的信号。当语音识别代理检测到用户的事件确认时，可以终止信号输出。

接口160用作与连接到语音识别代理100的任何外部设备的通道。接口160可以从外部设备接收数据，可以接收电力并将电力发送到语音识别代理100的每个元件，或者可以将语音识别代理100的内部数据发送到外部设备。例如，接口160可以包括有线/无线耳机端口、外部充电器端口、有线/无线数据端口、存储器卡端口、用于连接配备有识别模块的设备的端口、音频I/O端口、视频I/O端口和耳机端口。

同时，识别模块是存储用于认证语音识别代理100的使用权限的各种信息的芯片，并且可以包括用户身份模块(UIM)、订户身份模块(SIM)和通用订户身份模块(USIM)。配备有识别模块的设备(以下称为识别设备)可以以智能卡形式制造。因此，识别设备可以通过接口160连接到语音识别代理100。

另外，当语音识别代理100连接到外部托架(cradle)时，接口单元160可以成为从托架向语音识别代理100供电的通道，或者可以成为用户从托架输入的各种命令信号通过其被发送到语音识别代理100的通道。从托架输入的各种命令信号或电力可以作为用于识别语音识别代理100正确地安装在托架上的信号。

存储器170可以存储用于控制器180的操作的程序，并且可以临时存储输入/输出数据(例如，电话簿、消息、静止图像、视频等)。存储器170可以存储关于在触摸屏上的触摸输入期间输出的各种模式的振动和声音的数据。

存储器170可以包括选自闪存类型、硬盘类型、固态盘(SSD)类型、硅盘驱动器(SDD)类型、多媒体卡微型、卡类型存储器(例如，安全数字(SD)或极限数字(XD)存储器)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程ROM(EEPROM)、可编程ROM(PROM)、磁存储器、磁盘和光盘中的至少一种类型的存储介质。语音识别代理100可以关于在互联网上执行存储器170的存储功能的网络存储进行操作。

如上所述，控制器180控制与应用程序有关的操作以及语音识别代理100的整体操作。例如，当语音识别代理的状态满足设置条件时，控制器180可以执行或释放锁定状态，以限制用户向应用输入控制命令。

另外，控制器180可以执行与语音呼叫、数据通信和视频呼叫有关的控制和处理，或者可以执行用于将触摸屏上的手写输入或绘图输入分别识别为文本和图像的模式识别处理。此外，为了在根据本公开的语音识别代理100上实现以下描述的各种实施例，控制器180可以控制上述元件中的任何一个或组合。

在控制器180的控制下，电源190接收外部电力或内部电力，并提供每个元件的操作所需的电力。电源190可以包括电池，并且该电池可以是可再充电的内部电池，或者可以出于充电等目的而可拆卸地连接至终端主体。

另外，电源190可以包括连接端口。连接端口可以被配置为接口160的示例，用于供应电力以对电池充电的外部充电器电连接至该接口。

作为另一示例，电源190可以被配置成以无线方式对电池充电而不使用连接端口。在这种情况下，电源190可以通过使用基于磁感应现象的感应耦合方法或基于电磁共振现象的磁共振耦合方法中的至少一种来从外部无线电力传输设备接收电力。

同时，可以通过使用软件、硬件或其组合在计算机或类似设备可读的记录介质内实现各种实施例。

同时，以上参考图2描述的语音识别代理100的描述可以等同地应用于移动终端300。

在本公开中，术语“存储器170”也可以被称为“存储170”。

同时，控制器180可以在人工智能模块130的控制下控制移动终端100的每个元件的操作。

同时，移动终端100的输入模块120可以包括传感器140，并且可以执行由传感器140执行的所有功能。例如，输入模块120可以感测用户触摸输入。

图3是图示根据本公开的实施例的人工智能服务器200的配置的框图。

通信模块210可以与外部设备通信。

详细地，通信模块210可以在人工智能模块220的控制下连接到语音识别代理100以向语音识别代理100发送数据或从语音识别代理100接收数据。

此外，通信模块210可以在人工智能模块220的控制下连接至移动终端300以向移动终端300发送数据或从移动终端300接收数据。

在本说明书中，当从人工智能服务器200发送的数据最终被发送到移动终端300时，这样的数据可以通过语音识别代理100发送，或者可以不通过语音识别代理100而直接发送到移动终端300。

另外，在本说明书中，当从移动终端300发送的数据最终被发送到人工智能服务器200时，这样的数据可以通过语音识别代理100发送或者可以不通过语音识别代理100直接发送到人工智能服务器200。

人工智能模块220可以通过通信模块210从语音识别代理100接收语音数据。

另外，人工智能模块220中包括的语音识别模块222可以通过使用语音识别模型来基于语音数据输出识别结果，可以将输出的识别结果发送给语音识别代理，或者可以将与输出识别结果相对应的控制命令发送到语音识别代理。

另外，人工智能模块220中包括的语音识别模块222可以自适应地学习语音数据，并将学习结果存储在存储230中的语音数据数据库232中。

另外，人工智能模块220中包括的语音识别模块222可以在句子或单词中标记语音数据，并将标记结果存储在语音数据数据库232中。

同时，人工智能模块220可以通过使用语音识别模型来分析语音信号，并且可以提取特征以提取识别结果。识别结果可以指示接收到的语音信号是命令还是非命令，或者指示接收到的语音信号意指多个命令中的哪一个。

该命令可以是先前注册的命令，使得语音识别代理或连接到语音识别代理的其他设备执行特定功能，并且非命令可以是与特定功能的执行无关的命令功能。

同时，人工智能模块220中包括的句子推荐模块221可以通过使用语音特征分析模型来分析语音数据的特征。

同时，存储230中的句子数据库231可以持有多个归类的句子。

人工智能模块220中包括的句子推荐模块221可以在由句子数据库231保持的多个句子当中搜索与语音数据的特征相对应的特定句子，并且可以将找到的特定句子发送给语音识别代理。

同时，在该附图中，已经将句子推荐模块221、语音识别模块222、句子数据库231和语音数据库232描述为构成一个服务器，但是本公开不限于此，并且各种组合是可能的。

例如，句子推荐模块221和句子数据库231可以构成第一服务器，并且语音识别模块222和语音数据库232可以构成第二服务器。在这种情况下，第一服务器和第二服务器可以彼此发送或接收数据。

图4是用于描述可能在语音识别系统中发生的问题的图。

现有产品从多个用户收集数据，基于云中收集的大数据重新学习语音识别模型，并升级语音识别软件以改善语音识别模型的性能。

然而，因为人类的声音/音调是如此多种多样的，所以必须针对特定用户优化和学习语音识别模型，以提高识别率。

当不存在这种优化过程时，如图4中所图示，会重复地识别失败，并且因此可能会对产品和品牌产生负面影响。

因此，使用语音识别代理的用户有必要直接使他或她自己的语音被学习。

图5是根据本公开的实施例的用于描述向用户请求用于附加学习的附加数据的方法的图。

语音识别代理100可以从用户接收语音数据(S505)。

此外，语音识别代理100可以将接收到的语音数据发送到人工智能服务器(S510)。

同时，人工智能服务器200可以接收语音数据，可以将接收到的语音数据输入到语音识别模型，并且可以输出基于语音数据的语音识别率或识别结果中的至少一项(S515)。

可以通过比较语音的置信度分数来测量语音识别率。

详细地，人工智能服务器200可以与从在制造过程中学习的测试数据或从当前个性化语音数据中提取出的置信度分数的平均值相比，来计算用户的语音数据的置信度分数。

例如，当先前针对特定命令或唤醒词学习的语音数据的置信度分数的平均值为70.02，并且由特定用户说出的语音数据的置信度分数为52.13时，可以计算出识别率大约为74％。

此外，可以通过将误差与样本进行比较并且然后获得平均值来获得识别率。

例如，可以通过从先前针对特定命令或唤醒词学习的语音数据当中提取特定数量的样本并计算由特定用户说出的语音数据与样本之间的均方误差(MSE)或者均方根误差(RMSE)来计算用户语音数据的识别率。

同时，人工智能服务器200可以将获得的语音识别率发送到语音识别代理100(S520)。

同时，语音识别代理100可以接收针对语音数据的语音识别率，并且可以在语音识别率低于预设基准时向用户请求用于学习用户的语音数据的附加数据。

更详细地，语音识别代理100可以输出用于语音识别模型的附加学习的查询，以获得附加数据(S525)。在这种情况下，语音识别代理100可以一起输出针对用户的语音数据的语音识别率。

例如，语音识别代理100可以输出语音消息“As a result of grasping the voice recognition rate,my recognition rate for your voice is about 60％.-Would you like to optimize my voice recognition function for your voice？(作为掌握语音识别率的结果，我对您的语音的识别率大约为60％。-您想要针对你的语音优化我的语音识别功能吗？)”。

同时，当接收到针对附加学习的接受输入时，语音识别代理100可以提供用于附加学习的多个选项(S530)。

详细地，语音识别代理可以向用户提供重复所呈现的语音的第一选项、重复所呈现的句子的第二选项、以及直接写入和重复句子的第三选项。

同时，当从用户接收到选择特定选项的输入时(S535)，语音识别代理可以向用户请求与所选择的选项相对应的附加数据。

图6是用于描述根据本公开的实施例的当选择选项1或选项2时的操作方法的图。

语音识别代理100可以将对用于附加学习的句子的请求发送给人工智能服务器200(S605)。

同时，当接收到对句子的请求时(S610)，人工智能服务器200可以分析语音数据的特征(S615)。

此外，人工智能服务器200可以基于语音数据的特征在多个句子当中搜索与语音数据的特征相对应的特定句子(S620)。

详细地，多个句子可以被存储在句子数据库231中，并且可以根据类别对多个句子进行分类。类别可以包括产品功能、国家、地区、语调、年龄、方言、性别或外语中的至少一项。

此外，人工智能服务器200可以计算包括在用户的语音数据中的单词的识别率。

例如，参考图7，当用户说出句子“Can you tell me how many water bottle do we have？(你能告诉我我们有多少瓶水吗？)”时，人工智能服务器200可以以包括在句子中的单词为单位来计算置信度分数，并获得置信度分数低于预设基准的特定单词(water(水)，bottle(瓶))。

人工智能服务器可以基于用户的语音数据中包括的单词的识别率和单词的特征来获得语音数据的特征。

例如，当特定单词(water(水)，bottle(瓶))的识别率较低且特定单词(water(水)，bottle(瓶)具有美式英语和英式英语发音不同的特征时，人工智能服务器可以获得取决于用户的原籍是美国人或者英国人而不同地发音的单词的识别率低的语音数据的特征。

在这种情况下，人工智能服务器可以基于语音数据的特征，确定多个类别当中的国家类别需要附加的学习。

人工智能服务器可以基于语音数据的特征获得包括在多个类别当中的请求用户进行附加学习类别中的特定句子。

例如，可以将包括可以区分用户的原籍国的单词在内的多个句子分类为国家类别。人工智能服务器可以获得多个句子当中的包括可以通过对英式英语和美式英语进行分类而学习的单词的句子。

例如，“schedule(时间表)”可以具有在美式英语和英式英语中发音不同的特征。因此，人工智能服务器可能在国家类别中获得句子“Can you tell me my schedule of today？(您能告诉我我今天的时间表吗？)”。

作为另一个示例，“water(水)”和“bottle(瓶)”在美式英语和英式英语中可能具有不同的发音特征。因此，人工智能服务器可能在国家类别中获得句子：“Can you tell me how many water bottle do we have？(你能告诉我我们有多少瓶水吗？)”。

即，所获得的句子中包括的单词可以具有相同的含义和字母，但是可以是可以以各种发音或各种语调发音的单词。

另外，包括在与特定类别相对应的句子中的单词可以具有相同的含义和字母，但是可以是可以取决于类别(国家、地区等)的特征以各种发音或语调发音的单词。

作为另一个示例，用户的意图是“Will you play some quiet music？(您会播放一些安静的音乐吗？)”，但是说出的句子为“Would you like to play a quiet masic？(您想播放安静的masic吗？)”，因为用户来自特定区域(庆尚道)。

在这种情况下，人工智能服务器200可以计算用户的语音数据中包括的单词的识别率，并且获得其识别率低于预设基准的特定单词(music(音乐))。

人工智能服务器可以基于用户的语音数据中包括的单词的识别率和单词的特征来获得语音数据的特征。

例如，当特定单词(music(音乐))的识别率低并且特定单词(music(音乐))具有该特定单词在特定区域(庆尚道)中被独特地发音的特征时，人工智能服务器可能会获得在庆尚道发音不同的单词的识别率低的语音数据的特征。

在这种情况下，人工智能服务器可以基于语音数据的特征确定多个类别当中的区域类别需要附加的学习。

人工智能服务器可以基于语音数据的特征，获得包括在多个类别当中的请求用户用于附加学习的类别中的特定句子。

例如，可以将包括可以区分用户的原籍区域的单词的多个句子分类为区域类别。人工智能服务器可以获得多个句子当中的包括能够学习他或者她来自庆尚道地区的单词的句子。

例如，“rice(米)”可以具有在庆尚道中将“rise”发音为“reise”的特征。因此，人工智能服务器可以从区域类别获得句子“How much rice is left in the house？(房子里还剩多少米？)”。

也就是说，包括在与区域类别相对应的句子中的单词可以具有相同的含义和字母，但是可以是可以取决于区域以各种发音或各种语调发音的单词。

另外，可以将与产品功能有关的句子分类为产品功能类别。在这种情况下，与产品功能有关的句子可以包括与由语音识别代理或与语音识别代理关联的另一设备执行的功能相对应的命令。

例如，诸如“Will you tell me how many minutes are left to dehydrate in the washing machine？(您能告诉我到洗衣机的脱水剩下多少分钟吗？)”和“Would you like to increase the air conditioner temperature to24℃？(您想将空调温度增大到24℃吗？)”的句子可以分类成产品功能类别。

当用户的语音数据具有命令的识别率低的特征时，人工智能服务器可以从产品功能类别中提取句子。

此外，包括在与年龄类别相对应的句子中的单词可以具有相同的含义和字母，但是可以是可以取决于年龄以各种发音或各种语调发音的单词。

此外，包括在与性别类别相对应的句子中的单词可以具有相同的含义和字母，但是可以是可以取决于性别以各种发音或各种语调发音的单词。

此外，包括在与方言类别相对应的句子中的单词可以具有相同的含义和字母，但是可以是可以取决于方言以各种发音或各种语调发音的单词。

此外，包括在与外语类别相对应的句子中的单词可以具有相同的含义和字母，但是可以是可以取决于外语以各种发音或各种语调发音的单词。

同时，除了从语音数据中提取特征之外，人工智能服务器200还可以基于用户先前注册的个人信息来获得语音数据的特征。

例如，用户可以注册个人信息，诸如国家、性别、年龄、地区和方言。当用户已经注册了原籍国是英国的个人信息时，人工智能服务器可以确定需要针对该国家类别的附加的学习，并且可以获得包括可以通过区分英式英语和美式英语来学习的单词的句子。

同时，由人工智能服务器获得的特定句子可以包括与语音识别代理的功能相对应的命令。

语音识别代理的功能可以包括由与语音识别代理互通的设备提供的功能以及由语音识别代理本身提供的功能。

因为特定句子不仅包括用于学习用户的国家、地区、年龄等的单词，而且包括要由用户直接说出的命令，所以人工智能服务器可以收集与该命令相对应的语音数据。

同时，由人工智能服务器获得的特定句子可以包括用于呼叫语音识别代理的唤醒词。

人工智能服务器可以通过响应于特定句子从用户说出的第二语音数据中单独地仅提取和学习唤醒词来改善对唤醒词的识别率。

同时，人工智能服务器可以将获得的特定句子发送到语音识别代理(S625)。

同时，当需要附加学习时，可以在不执行S520至S535和S605的情况下执行发送特定句子的过程。

详细地，当接收到语音数据时，人工智能服务器200可以分析语音数据的特征并获得语音数据的识别率。另外，当语音数据的识别率低于预设基准时，人工智能服务器200可以搜索与语音数据的特征相对应的特定句子，并将找到的句子发送给语音识别代理100。

同时，语音识别代理100可以输出接收到的特定句子(S630)。

详细地，如图8中所图示，当用户选择重复所呈现的语音的第一选项时，语音识别代理可以将接收到的特定句子输出为语音信号。

此外，如图9中所图示，当用户选择重复所呈现的句子的第二选项时，语音识别代理可以将特定的句子发送到用户的移动终端300。

在这种情况下，用户的移动终端300可以显示与特定句子相对应的文本。

同时，当用户说出特定句子时，语音识别代理可以接收与所说出的特定句子相对应的第二语音数据(S635)，并且可以将接收到的第二语音数据发送到人工智能服务器200(S640)。

同时，当接收到与特定句子相对应的第二语音数据时，人工智能服务器200可以学习与特定句子相对应的第二语音数据(S645)。

人工智能服务器可以在学习第二语音数据之前保持语音数据。当接收到第二语音数据时，将学习第二语音数据之前的语音数据用作源数据，并且将第二语音数据用作目标数据。可以根据目标数据来自适应地学习源数据。

另外，人工智能服务器可以在第二语音数据上标记特定句子并将其存储在语音数据库232中。语音数据库232是针对特定用户个性化的数据库，并且可以用于识别特定用户的语音。

在这种情况下，可以通过反映学习结果来更新语音识别模型。人工智能服务器可以发送根据学习附加数据的结果而改变的语音识别率(S650)。

详细地，人工智能服务器可以将在操作510中接收的语音数据重新输入到更新的语音识别模型，并且可以计算识别率并且将计算出的识别率发送到语音识别代理。

同时，当接收到改变的识别率时，语音识别代理可以输出改变的识别率(S655)。

例如，语音识别代理可以输出消息“As a result of learning my algorithm based on the voice data provided by the customer,the learning rate has improved from 60％to 70％(作为基于由客户提供的语音数据学习我的算法的结果，学习率已经从60％改善到70％”)。

同时，将参考图10描述用户直接写入句子并选择重复的第三选项的实施例。

当用户输入特定文本和与特定文本相对应的第三语音数据时，语音识别代理可以将特定文本和与特定文本相对应的第三语音数据发送给人工智能服务器。

详细地，移动终端300和语音识别代理100中的至少一个可以接收用户的文本输入和与输入的文本相对应的语音数据。

在这种情况下，语音识别代理可以将接收到的文本和接收到的与文本相对应的语音数据发送到人工智能服务器。

在这种情况下，人工智能服务器可以学习与特定文本相对应的第三语音数据。

详细地，人工智能服务器可以确定文本中包括的单词和与单词相对应的语音数据。人工智能服务器可以学习与单词相对应的语音数据。

图11是根据本公开的另一实施例的用于描述向用户请求用于附加学习的附加数据的方法的图。

语音识别代理100可以从用户接收语音数据(S1105)。

此外，语音识别代理100可以将接收到的语音数据发送到人工智能服务器(S1110)。

同时，人工智能服务器200可以接收语音数据并将接收到的语音数据存储在存储中(S1115)。

此外，人工智能服务器200可以将语音数据输入到语音识别模型，并且可以基于语音数据输出语音识别率或识别结果中的至少一个(S1120)。

同时，人工智能服务器200可以将获得的语音识别率发送到语音识别代理100(S1125)。

同时，语音识别代理100可以接收语音数据的语音识别率，并且当语音识别率低于预设基准时，可以向用户请求用于学习用户语音的附加数据。

具体地，如图12中所图示，当语音识别率低于预设基准时，语音识别代理100可以将与先前接收的语音数据相对应的文本输入请求发送到移动终端300(S1130)。

同时，移动终端300可以从用户接收与由用户说出的语音数据相对应的文本的输入(S1135)，并且可以将接收到的文本发送给语音识别代理(S1135)。

在这种情况下，语音识别代理100可以将接收到的文本发送到人工智能服务器200(S1140)。

同时，尽管已经描述了从移动终端300发送的文本通过语音识别代理被发送到人工智能服务器，但是本公开不限于此。例如，移动终端300可以直接将文本发送到人工智能服务器。

在这种情况下，人工智能服务器可以学习与文本相对应的预存储的语音数据(S1145)。

详细地，人工智能服务器可以通过使用文本到语音(TTS)将接收到的文本转换为语音数据。人工智能服务器可以通过将预存储的语音数据的度量与转换后的语音数据的度量进行比较来计算相似度，并且可以基于预存储的语音数据和转换后的语音数据之间的相似度来将预存储的语音数据确定为有效数据。

当预存储的语音数据被确定为有效数据时，人工智能服务器可以用文本标记被确定为有效数据的语音数据并将其存储在语音数据数据库232中。

另一方面，可以通过学习TTS以输出语音并且然后在接收到用户的接受请求时学习语音识别模型来实现语音数据的学习。

详细地，人工智能服务器可以从用户的语音数据中学习TTS。人工智能服务器可以通过使用学习的TTS来生成和发送类似于用户语音的语音数据。语音识别代理可以输出由TTS生成的语音数据。

在这种情况下，用户可以确定由TTS生成的语音是否类似于他或她的语音，并且当该语音类似于他或她的语音时可以输入接受请求。

在这种情况下，语音识别代理可以将接受请求发送到人工智能服务器，并且人工智能服务器可以通过学习在TTS中学习的语音数据来更新语音识别模型。

此外，当确定由TTS生成的语音与他或她的语音不相似的用户输入拒绝请求时，语音识别代理可以再次向用户请求用于学习用户的语音数据的附加数据。

同时，当语音识别反复失败时，可以执行用于附加学习的文本请求。

例如，当语音识别代理未能识别相同的单词或句子超过预定次数时，或者当识别率低于预设基准超过预设次数时，语音识别代理可以请求用户输入与先前说出的语音数据相对应的文本。

作为另一个示例，语音识别代理主要通过向用户呈现特定句子并以与参考图6所述相同的方式请求用户重复该特定句子来执行学习，并且当用户的语音仍然无法识别时，可以向用户请求文本用于附加学习。

图13是用于描述根据本公开的实施例的语音识别系统的操作的图。

语音识别系统可以从用户接收用户信息并注册接收到的用户信息(S1310)。

详细地，语音识别代理可以接收用户信息并将接收到的用户信息发送到服务器，并且服务器可以存储接收到的用户信息。

用户信息可以包括国家、地区、语调、年龄或性别中的至少之一。

同时，语音识别系统可以接收用户的语音数据，识别语音数据，并执行与语音识别结果相对应的功能(S1320，S1330)。

同时，语音识别系统可以确定用户是否参与附加学习并且可以确定学习选项(S1340)。

详细地，语音识别代理可以输出对附加学习的询问，并提供用于附加学习方法的多个选项。

当从用户接收到接受附加学习并选择特定选项的输入时，语音识别系统可以注册所选择的选项。当以后需要附加学习时，语音识别系统可以用注册的选项执行附加学习。

同时，因为用于更好学习的选项可能取决于用户而不同，所以语音识别代理可以用多个选项中的全部来执行学习，并且然后在学习之后注册具有高语音识别率的选项。

例如，当第二选项的识别率在重复所呈现的语音的第一选项、重复所呈现的句子的第二选项以及直接写入和重复句子的第三选项中最高时，语音识别系统可以用具有最高语音识别率的第二选项向用户请求附加数据。

同时，取决于特定功能是什么，用于执行特定功能的语音识别率的准则可以不同。

例如，具有诸如“打开”和“关闭”的命令的基于家庭语音的服务可以执行与用户的命令相对应的功能，只要语音识别率是55％或更高即可。

作为另一示例，用于检查用户的个人消息的命令可以仅在语音识别率为65％或更高时才执行与用户的命令相对应的功能。

作为另一个示例，用于支付或认证的命令仅当语音识别率为75％或更高时才可以执行与用户命令相对应的功能。

同时，以上已经将本公开描述为由语音识别代理、人工智能服务器和移动终端来实现，但是不限于此。

例如，上述人工智能服务器的所有配置和功能可以安装在语音识别代理上并在其上执行。

与被动收集和学习用户的语音数据的常规方法不同，本公开可以通过呈现可以最好地掌握用户的语音习惯的句子来请求语音输入，或者可以直接作为文字请求用户说出的句子。因此，根据本公开，可以显著地改善学习性能并且可以进行快速个性化。

另一方面，控制器180通常是管理设备控制的组件，并且也可以被称为中央处理单元、微处理器、处理器等。

本公开可以体现为程序记录介质上的计算机可读代码。所述计算机可读记录介质可以是存储可以随后由计算机系统读取的数据的任何记录介质。计算机可读介质的示例可以包括硬盘驱动器(HDD)、固态磁盘(SSD)、硅磁盘驱动器(SDD)、只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光学数据存储设备。另外，计算机可读介质可以包括载波(例如，通过互联网的传输)。另外，计算机可以包括终端的控制器180。因此，以上详细描述不应被解释为在所有方面都具有限制性，而应被认为是说明性的。本说明书的范围应通过所附权利要求的合理解释来确定，并且在本说明书的等同范围内的所有改变均落入本说明书的范围内。

完整全部详细技术资料下载

当前第1页1 2 3