用于修改语音识别结果的系统和方法与流程

文档序号:24050353发布日期:2021-02-23 21:30阅读:219来源:国知局
用于修改语音识别结果的系统和方法与流程
用于修改语音识别结果的系统和方法
[0001]
相关申请的交叉引用
[0002]
本申请基于并要求于2019年8月13日在美国专利和商标局提交的美国临时专利申请no.62/886,027的权益,并要求于2019年12月9日在韩国知识产权局提交的韩国专利申请no.10-2019-0162921的优先权,上述申请公开的内容通过引用整体合并于此。
技术领域
[0003]
本公开涉及用于修改语音识别结果的系统和方法,并且更具体地,涉及用于通过设备和服务器的互操作来修改语音识别结果的系统和方法。


背景技术:

[0004]
自动语音识别(automatic speech recognition,asr)是用于接收人声话语并将人声话语转换为文本的技术。语音识别用于各种电子设备,诸如智能电话、空调、冰箱和人工智能(artificial intelligence,ai)家庭助理。例如,装置检测人声话语作为输入,通过使用被训练为识别语音的语音识别模型来识别接收到的话语,并将识别出的话语转换为文本。文本可以是该装置的最终输出。
[0005]
近年来,深度神经网络(deep neural network,dnn)算法已经用于各种机器学习领域,并且语音识别的性能已经得到了改进。例如,在语音识别领域,通过使用神经网络极大地改进了性能,并且已经开发了用于语音识别的语音识别模型(例如,asr模型)。随着ai系统的改进,识别率已经提高且用户偏好已经被更准确地理解,因此现有的基于规则的智能系统已经逐渐被基于深度学习的ai系统所取代。


技术实现要素:

[0006]
提供了一种将设备的自动语音识别(asr)模型的输出值提供给服务器并且可以通过使用服务器的人工智能(ai)模型来修改asr模型的输出值的系统和方法。
[0007]
提供了一种通过使用对应于与设备的asr模型的输出值相关的域的文本修改模型来修改语音识别结果的系统和方法。
[0008]
提供了一种有效地将服务器从设备接收的文本应用于与多个域相关的文本修改模型的系统和方法。
[0009]
提供了一种系统和方法,通过该系统和方法,服务器可以通过使用与多个域相关的多个域识别模块来有效地识别与文本相关的域。
[0010]
附加方面将在下面的描述中部分地阐述,并且部分地将从该描述中清楚,或者可以通过实践本公开的所呈现的实施例而获悉。
[0011]
根据本公开的实施例,一种由服务器执行的修改从设备提供的语音识别结果的方法包括:从设备接收来自设备的自动语音识别(asr)模型的输出文本;识别与输出文本的主题相关的至少一个域;从服务器中包括的多个文本修改模型中选择至少一个域的至少一个文本修改模型,其中,至少一个文本修改模型是被训练为分析与主题相关的文本的人工智
能(ai)模型;使用至少一个文本修改模型来修改输出文本以生成修改的文本(modified text)。
[0012]
根据本公开的另一实施例,一种用于修改从设备提供的语音识别结果的服务器包括:通信接口;存储装置,存储包括一个或多个指令的程序;处理器,被配置为运行存储在存储装置中的程序的一个或多个指令,以从设备接收来自设备的自动语音识别(asr)模型的输出文本,识别与输出文本的主题相关的至少一个域,从服务器中包括的多个文本修改模型中选择至少一个域的至少一个文本修改模型,其中,至少一个文本修改模型是被训练为分析与主题相关的文本的人工智能(ai)模型,使用至少一个文本修改模型来修改输出文本以生成修改的文本,并将修改的文本提供给设备。
附图说明
[0013]
通过以下结合附图的描述,本公开的某些实施例的上述和其他方面、特征和优点将变得更加明显,其中:
[0014]
图1是示出根据本公开的实施例的语音识别系统的框图;
[0015]
图2是示出根据本公开实施例的包括与多个域相关的文本修改模型的语音识别系统的框图;
[0016]
图3是示出根据本公开实施例的语音识别系统中的设备和服务器识别话音输入并获得修改的文本的方法的流程图;
[0017]
图4是示出根据本公开的实施例的识别与文本相关的域并选择与文本相关的域的文本修改模型的服务器的图;
[0018]
图5是示出根据本公开的实施例的识别与文本相关的域的设备和选择与文本相关的域的文本修改模型的服务器的图;
[0019]
图6是示出根据本公开的实施例的识别与文本相关的域的服务器和设备以及选择与文本相关的域的文本修改模型的服务器的图;
[0020]
图7是示出根据本公开的实施例的由服务器执行的通过使用由设备获得的域可靠性和由服务器获得的域可靠性来选择与文本相关的域的方法的流程图;
[0021]
图8是示出根据本公开的实施例的通过使用从服务器中的多个域识别模块中选择的域识别模块来选择文本修改模型的服务器的图;
[0022]
图9是示出根据本公开的实施例的服务器通过使用从多个域识别模块中选择的域识别模块来选择用于文本修改的域的方法的流程图;
[0023]
图10是示出根据本公开的实施例的与被分层地分类的域相关的第一域识别模块、第二域识别模块和文本修改模型的图;
[0024]
图11是示出根据本公开的实施例的通过使用多个文本修改模型来修改文本的服务器的图;
[0025]
图12是示出根据本公开的实施例的服务器累积和计算多个节的文本的域可靠性的方法的流程图;
[0026]
图13是示出根据本公开的实施例的获得以语法词为单位累积的文本流的域可靠性的服务器的图;
[0027]
图14是示出根据本公开的实施例的服务器将文本划分为多个节并选择多个节中
的每一个的文本的域的方法的流程图;
[0028]
图15是示出根据本公开的实施例的根据多个域比较文本的域可靠性并选择和修改每个节的文本的文本修改模型的服务器的示例的图;
[0029]
图16是示出根据本公开的实施例的通过使用从多个文本修改模型输出的修改的文本来修改从设备接收的文本的服务器的图;
[0030]
图17是示出根据本公开的实施例的服务器的框图;以及
[0031]
图18是示出根据本公开的实施例的设备的框图。
具体实施方式
[0032]
在下文中,将详细描述本公开的实施例,以使本领域的普通技术人员能够参考附图容易地体现和实践本公开。然而,本公开可以以许多不同的形式来实施,并且不应被解释为限于本文阐述的本公开的实施例。在附图中,为了本公开的清楚性,在附图中省略了对于描述不必要的部件,并且相同的附图标记始终表示相同的元件。
[0033]
在整个说明书中,将理解的是,当部件被称为“连接”到另一部件时,它可以“直接连接”到该另一部件或者通过其间的中间元件“电连接”到该另一部件。还将理解的是,当部件“包括”或“包含”元件时,除非另外定义,否则该部件还可以包括其他元件,而不排除其他元件。
[0034]
在整个本公开中,表述“a、b或c中的至少一个”表示仅a、仅b、仅c、a和b两者、a和c两者、b和c两者、a、b和c三者或其变体。
[0035]
现在将参考附图来更全面地描述本公开,附图中示出了本公开的实施例。
[0036]
图1是示出根据本公开的实施例的语音识别系统的框图。
[0037]
参考图1,根据本公开的实施例的语音识别系统包括设备1000和服务器2000。
[0038]
设备1000可以包括自动语音识别(asr)模型,并且服务器2000可以包括文本修改模型。设备1000可以通过使用asr模型来识别用户的话音输入并且可以输出文本。服务器2000可以修改由设备1000生成的文本。
[0039]
asr模型是用于通过使用集成神经网络来识别话音的语音识别模型,并且可以从用户的话音输入输出文本。asr模型可以是人工智能(ai)模型,包括例如声学模型、发音词典和语言模型。或者,asr模型可以是端到端语音识别模型,该端到端语音识别模型具有包括集成神经网络而无需单独包括例如声学模型、发音词典和语言模型的结构。
[0040]
因为端到端asr模型使用集成神经网络,所以端到端asr模型可以将话音转换为文本,而无需从话音中识别音素(phoneme)然后将音素转换为文本的过程。文本可以包含至少一个字符。字符是指用于以可见的形式描述人类语言的符号。字符的示例可以包括韩文字母(韩语)、字母表、汉字、数字、音标、标点和其他符号。
[0041]
另外,例如,文本可以包括字符串。字符串是指字符序列。例如,文本可以包括至少一个字素(grapheme)。字素是包括至少一个字符并表示声音的最小单位。例如,在字母书写系统中,一个字符可以变为字素,并且字符串可以指字素序列。例如,文本可以包括词素(morpheme)或词。词素是包括至少一个字素的最小有意义单位。词是具有语法功能并且包括至少一个词素语法功能的独立语言单位。
[0042]
设备1000可以接收用户的话音输入,可以通过使用asr模型来识别接收到的话音
输入,并且可以将作为asr模型的输出值的文本提供给服务器2000。另外,服务器2000可以从设备1000接收作为asr模型的输出值的文本,并且可以修改接收到的文本。服务器2000可以识别作为asr模型的输出值的文本与在服务器2000中注册的特定域相关的程度。服务器可以通过使用所识别的域的文本修改模型来修改文本。另外,服务器2000可以将修改的文本提供给设备1000。
[0043]
作为被训练为修改作为语音识别结果的文本的至少一部分的ai模型的文本修改模型可以包括例如序列到序列映射器。文本修改模型可以是通过使用从asr模型输出的文本和预设的真实(ground truth)文本来训练的ai模型。文本修改模型可以是针对每个域来训练的ai模型。例如,可以通过使用作为asr模型的输出值的文本和专用于第一域的真实文本来训练第一域的文本修改模型。另外,例如,可以通过使用作为asr模型的输出值的文本和专用于第二域的真实文本来训练第二域的文本修改模型。
[0044]
文本修改模型可以是通过使用从多种类型的asr模型输出的多条文本和预设的多条真实文本来训练的ai模型。在这种情况下,因为文本修改模型是通过使用从多种类型的asr模型输出的多条文本来训练的,所以无论输入到文本修改模型的文本是从哪种类型的asr模型输出的,都可以提供准确的输出值(例如,修改的文本)。
[0045]
例如,修改的文本可以包括修改字符、修改字素、修改词素或修改词中的至少一个。例如,当从asr模型输出的文本包括错误时,修改的文本可以包括从错误中纠正的字符。另外,例如,当从asr模型输出的文本包括具有不适合上下文的不正确含义的词时,修改的文本可以包括具有正确含义的词,该具有正确含义的词替换具有不正确含义的词。此外,例如,可以通过用类似的词替换从asr模型输出的文本中的特定词来生成修改的文本。
[0046]
设备1000的示例可以包括但不限于智能电话、平板个人计算机(personal computer,pc)、pc、智能tv、移动电话、个人数字助理(personal digital assistant,pda)、膝上型计算机、媒体播放器、微型服务器、全球定位系统(global positioning system,gps)设备、电子书终端、数字广播终端、导航、信息亭、mp3播放器、数码相机、家用电器和其他移动或非移动计算设备。此外,设备1000可以是具有通信功能和数据处理功能的可穿戴设备,诸如手表、眼镜、发带或戒指。然而,本公开不限于此,并且设备1000可以包括能够通过网络200向服务器2000发送数据和从服务器2000接收数据以执行语音识别的任何类型的设备。
[0047]
网络200的示例包括局域网(local area network,lan)、广域网(wide area network,wan)、增值网(value added network,van)、移动无线电通信网络、卫星通信网络及其组合。网络200是用于使图1的网络组成元件能够彼此平滑地通信的综合意义上的数据通信网络,并且包括有线互联网、无线互联网和移动无线通信网络。
[0048]
图2是示出根据本公开实施例的包括与多个域相关的文本修改模型的语音识别系统的框图。
[0049]
参考图2,设备1000可以包括asr模型。服务器2000可以包括用于修改从asr模型输出的文本的文本修改模型。例如,服务器2000可以包括与第一域相对应的第一文本修改模型和与第二域相对应的第二文本修改模型。
[0050]
设备1000可以通过从话音输入中提取特征来获得特征向量,并且可以将获得的特征向量作为输入提供给asr模型。设备1000可以将从asr模型输出的输出值提供给服务器
2000。从asr模型输出的输出值可以包括各种形式的文本。例如,设备1000可以将句子单位(sentence-unit)的文本提供给服务器2000,或者可以将文本流提供给服务器2000,但是系统不限于此。
[0051]
服务器2000可以从设备1000接收文本,并且可以选择与接收到的文本相关的(文本)域。域指示与输入话音的主题相关的字段,并且可以根据例如输入话音的含义或输入话音的属性来预设。当输入话音的主题是服务时,可以根据例如与输入话音相关的服务来对域进行分类。另外,可以针对每个域来训练文本修改模型,并且在这种情况下,针对每个域训练的文本修改模型可以是通过使用与该域相关的输入文本和与该输入文本相对应的真实文本来训练的模型。服务器2000可以选择多个预设域中的至少一个,并且可以选择与所选域相对应的文本修改模型中的至少一个。另外,服务器2000可以通过将从设备1000接收的文本输入到所选域的文本修改模型来获得修改的文本。服务器2000可以将修改的文本提供给设备1000。
[0052]
服务器2000可以通过使用修改的文本将各种类型的话音助理服务提供给设备1000。话音助理服务可以是提供与向话音助理服务提供命令或问题的用户的对话的服务。在话音助理服务中,可以将响应消息提供给用户,就像一个人考虑到用户的情况、设备的状况等直接与用户交谈一样。此外,在话音助理服务中,可以适当地生成用户所需的信息并将其提供给用户,就像用户的个人助理提供该信息一样。话音助理服务可以结合诸如广播服务、内容共享服务、内容提供服务、电力管理服务、游戏服务、聊天服务、文档创建服务、搜索服务、呼叫服务、摄影服务、交通推荐服务和视频回放服务的各种服务将用户请求的信息或功能提供给用户。
[0053]
图3是示出根据本公开实施例的识别话音输入并获得修改的文本的语音识别系统中的设备和服务器的方法的流程图。
[0054]
设备1000可以通过运行存储在设备1000的存储器中的指令来执行图3中的操作。例如,设备1000可以通过运行将在下面进行描述的图18的语音识别评估模块1430、域识别模块1440、自然语言理解(natural language understanding,nlu)确定模块1450、域注册模块1460、asr模型1410或nlu模型1420中的至少一个来执行图3中的操作。然而,本公开不限于此,并且设备1000可以运行存储在存储器中的其他程序以执行与存储在存储器中的程序相关联的其他操作。
[0055]
此外,服务器2000可以通过运行存储在服务器2000的存储器中的指令来执行图3中的操作。例如,服务器2000可以通过运行将在下面进行描述的图17的域管理模块2310、话音分析管理模块2340、文本修改模块2320或nlu模块2330中的至少一个来执行操作。然而,本公开不限于此,并且服务器2000可以运行存储在存储器中的其他程序以执行服务器2000的某个操作。
[0056]
在操作s300中,设备1000可以从话音信号获得特征向量。设备1000可以通过麦克风接收用户的话音输入(例如,话语),并且可以通过使用通过麦克风获得的话音信号来生成指示话音信号的特征的特征向量。当话音信号中包括噪声时,设备1000可以去除话音信号中的噪声,并且可以从去除了噪声的话音信号中获得特征向量。另外,例如,设备1000可以从话音信号中提取指示话音信号的特征的特征向量。例如,设备1000可以从外部设备接收指示话音信号的特征向量的数据。
[0057]
在操作s305中,设备1000可以通过使用asr模型从特征向量获得文本。设备1000可以将特征向量作为输入提供给设备1000中的asr模型,以识别用户的话音。当设备1000中包括多个asr模型时,设备1000可以选择多个asr模型中的一个,并且可以将特征向量转换成适合所选asr模型的格式。设备1000的asr模型可以是ai模型,包括例如声学模型、发音词典和语言模型。或者,设备1000的asr模型可以是端到端语音识别模型,该端到端语音识别模型具有包括集成神经网络而无需单独包括例如声学模型、发音词典和语言模型的结构。
[0058]
在操作s310中,设备1000可以获得文本的可靠性。文本的可靠性可以是指示从asr模型输出的文本与输入话音匹配的程度的值,并且可以包括例如但不限于置信度分数。另外,文本的可靠性可以与文本将与输入话音匹配的概率相关。例如,可以基于从设备1000的asr模型输出的多条估计文本的似然性或文本中的至少一个字符将被另一字符替换的后验概率中的至少一个来计算文本的可靠性。例如,设备1000可以基于作为维特比(viterbi)解码的结果输出的似然性来计算可靠性。或者,例如,设备1000可以基于从端到端asr模型中的softmax层输出的后验概率来计算可靠性。例如,设备1000可以确定在设备1000的asr模型的语音识别过程中估计的多条估计文本,并且可以基于多条估计文本中的字符的相关性来计算文本的可靠性。另外,例如,设备1000可以通过使用图18的语音识别评估模块1430来获得文本的可靠性。
[0059]
在操作s315中,设备1000可以确定是否将文本发送到服务器2000。设备1000可以通过将文本的可靠性与预设阈值进行比较来确定是否将文本发送到服务器2000。当文本的可靠性等于或大于预设阈值时,设备1000可以确定不将文本发送到服务器2000。另外,当文本的可靠性小于预设阈值时,设备1000可以确定将文本发送到服务器2000。
[0060]
另外,设备1000可以基于在asr模型的语音识别过程中的多条估计文本中的具有高可靠性的至少一个文本来确定是否将文本发送到服务器2000。例如,在asr模型的语音识别过程中估计的多条估计文本包括具有高可靠性的第一估计文本和具有高可靠性的第二估计文本。如果第一估计文本的可靠性和第二估计文本的可靠性之间的差等于或小于某个阈值,则设备1000可以确定将文本发送到服务器2000。另外,例如,在asr模型的语音识别过程中估计的多条估计文本包括具有高可靠性的第一估计文本和具有高可靠性的第二估计文本。如果第一估计文本的可靠性和第二估计文本的可靠性之间的差大于某个阈值,则设备1000可以确定不将文本发送到服务器2000。
[0061]
当在操作s315中确定将文本发送到服务器2000时,在操作s320中,设备1000可以请求服务器2000修改文本。
[0062]
设备1000可以将文本发送到服务器2000,并且可以向服务器2000请求修改的文本。在这种情况下,例如,设备1000可以在向服务器2000请求修改的文本的同时,将设备1000中的asr模型的类型和asr模型的标识值发送到服务器2000,但是本公开不限于此。
[0063]
另外,例如,设备1000可以在向服务器2000请求修改的文本的同时,将与从设备1000的asr模型输出的文本相关的域信息提供给服务器2000。作为用于识别域的信息的域信息可以包括但不限于域的名称和域的标识符。设备1000可以通过使用设备1000中的域识别模块1440来识别与文本相关的域。例如,设备1000可以基于从设备1000的asr模型输出的文本的域可靠性来识别与文本相关的域。域可靠性可以是指示文本的至少一部分与特定域相关的程度的值。例如,设备1000可以计算置信度分数,该置信度分数指示从asr模型输出
的文本与在设备1000中预先注册的域相关的程度。此外,设备1000可以基于计算出的域可靠性识别与文本相关的域。设备1000可以基于规则识别与文本相关的域,或者可以通过使用被训练用于域识别的ai模型来获得与文本相关的域可靠性。另外,例如,用于域识别的ai模型可以是nlu模型的一部分,或者是与nlu模型分离的模型。
[0064]
当在操作s315中确定不将文本发送到服务器2000时,设备1000可以通过使用从asr模型输出的文本来提供话音助理服务。例如,当从asr模型输出的文本的可靠性等于或大于预设阈值时,设备1000可以通过使用从asr模型输出的文本来执行用于话音助理服务的操作。另外,例如,在asr模型的语音识别过程中估计的多条估计文本包括具有最高可靠性的第一估计文本和具有第二最高可靠性的第二估计文本。如果第一估计文本的可靠性和第二估计文本的可靠性之间的差大于某个阈值,则设备1000可以通过使用具有最高可靠性的第一估计文本来提供话音助理服务。
[0065]
例如,设备1000可以在屏幕上显示从asr模型输出的文本。例如,设备1000可以基于从asr模型输出的文本执行用于与用户对话的操作。另外,例如,设备1000可以通过基于从asr模型输出的文本与用户对话来提供各种服务,诸如广播服务、内容共享服务、内容提供服务、电力管理服务、游戏服务、聊天服务、文档创建服务、搜索服务、呼叫服务、摄影服务、交通推荐服务和视频回放服务。
[0066]
在操作s325中,服务器2000可以识别用于文本修改的域。当服务器2000从设备1000接收域信息时,服务器2000可以根据域信息识别用于文本修改的域。或者,当服务器2000没有从设备1000接收域信息时,服务器2000可以通过使用服务器2000中的域识别模块2312来识别与从设备1000接收的文本相关的域。例如,在这种情况下,服务器2000可以基于从设备1000接收的文本的域可靠性来识别与文本相关的域。例如,服务器2000可以计算指示从设备1000接收到的文本与预先注册用于文本修改的域相关的程度的置信度分数。另外,服务器2000可以基于针对预先注册的域计算的域可靠性来识别与从设备1000接收的文本相关的域。服务器1000可以基于规则识别与文本相关的域,或者可以通过使用被训练用于域识别的ai模型来获得与文本相关的域可靠性。另外,例如,用于域识别的ai模型可以是nlu模型的一部分,或者是与nlu模型分离的模型。
[0067]
在操作s330中,服务器2000可以通过使用与所确定的域相对应的文本修改模型来修改文本。服务器2000可以包括与多个域相对应的多个文本修改模型,并且可以从多个文本修改模型中选择与在操作s325中识别的域相对应的文本修改模型。
[0068]
服务器2000可以从在服务器2000中注册的域中选择与在操作s325中识别的域相对应的域,并且可以选择所选域的文本修改模型。在服务器2000中注册的域中的与在操作s325中识别的域相对应的域可以是与所识别的域相同或相似的域。例如,当在服务器2000中注册的多个域是“电影”、“位置”和“区域名称”并且在操作s325中识别的域是“电影”时,服务器2000可以选择“电影”。例如,当服务器2000中的多个域是“视频内容”、“位置”和“区域名称”并且在操作s325中识别的域是“电影”时,服务器2000可以选择“视频内容”。在这种情况下,关于与服务器2000的每个域的标识值相似的标识值的信息可以存储在服务器2000中。
[0069]
另外,服务器2000可以通过使用所选文本修改模型来生成修改的文本。服务器2000可以将文本输入到所选文本修改模型,并且可以获得从文本修改模型输出的修改的文
本。在这种情况下,服务器2000可以预处理从设备1000接收的文本的格式以使其适合于文本修改模型,并且可以将处理后的值输入到文本修改模型。
[0070]
当从设备1000接收的文本与多个域相关时,服务器2000可以选择与多个域相对应的多个文本修改模型以进行文本修改。在这种情况下,服务器2000可以从从多个文本修改模型输出的多条修改的文本中获得要提供给设备1000的修改的文本。例如,当服务器2000通过使用多个文本修改模型来生成多条修改的文本时,服务器2000可以比较多条修改的文本的可靠性,并且可以将具有高或最高可靠性的修改的文本确定为要提供给设备1000的修改的文本。修改的文本的可靠性可以是指示修改的文本与输入话音匹配的程度的值,并且可以包括例如但不限于置信度分数。
[0071]
另外,例如,服务器2000可以通过从从多个文本修改模型输出的多条修改的文本中提取若干条文本并组合提取出的若干条文本,来获得要提供给设备1000的修改的文本。例如,当服务器2000通过使用多个文本修改模型生成第一修改的文本和第二修改的文本并且第一修改的文本的一部分的可靠性和第二修改的文本的一部分的可靠性高时,服务器2000可以通过组合第一修改的文本的该部分和第二修改的文本的该部分以生成具有比第一修改的文本或第二修改的文本的可靠性更高的可靠性的文本,来获得要提供给设备1000的修改的文本。
[0072]
在操作s335中,服务器2000可以将修改的文本提供给设备1000。
[0073]
尽管在图3中设备1000向服务器2000请求修改的文本并且服务器2000将修改的文本提供给设备1000,但是本公开不限于此。服务器2000可以通过使用修改的文本将各种类型的话音助理服务提供给设备1000。话音助理服务可以是用于提供与用户的对话的服务。在话音助理服务中,可以由话音助理将响应消息提供给用户,就像一个人考虑到用户的情况和设备的状况直接与用户交谈一样。另外,在话音助理服务中,可以适当地生成用户所需的信息并将其提供给用户,就像用户的个人助理提供该信息一样。话音助理服务可以结合诸如广播服务、内容共享服务、内容提供服务、电力管理服务、游戏服务、聊天服务、文档创建服务、搜索服务、呼叫服务、摄影服务、交通推荐服务和视频回放服务的各种服务将用户请求的信息或功能提供给用户。
[0074]
在这种情况下,服务器2000可以通过使用服务器2000中的自然语言理解(natural language understanding,nlu)模型、会话管理器(dialog manager,dm)模型、自然语言生成(natural language generating,nlg)等将用于执行与用户的对话的信息提供给设备1000。因此,服务器2000可以基于文本提供话音助理服务。另外,服务器2000可以基于通过解释文本获得的结果直接控制另一设备。另外,服务器2000可以基于通过解释修改的文本获得的结果来生成用于使设备1000能够控制另一设备的控制信息,并且可以将生成的控制信息提供给设备1000。
[0075]
图4是示出根据本公开的实施例的识别与文本相关的域并选择与文本相关的域的文本修改模型的服务器的图。
[0076]
参考图4,可以将从设备1000的asr模型40输出的文本提供给服务器2000中的域识别模块2312。服务器2000可以通过使用服务器2000中的域识别模块2312来识别与从设备1000接收的文本相关的域。在这种情况下,服务器2000可以基于从设备1000接收的文本的域可靠性来识别与文本相关的域。例如,服务器2000计算置信度分数,该置信度分数指示从
设备1000接收的文本与预先注册用于文本修改的域相关的程度。域识别模块2312作为被训练用于域识别的ai模型,可以通过使用文本作为输入值来输出域可靠性。另外,例如,域识别模块2312可以是nlu模型的一部分,或者是与nlu模型分离的模型。或者,域识别模块2312可以基于规则来识别与文本相关的域。
[0077]
在图4中,域识别模块2312可以获得例如第一域的第一域可靠性、第二域的第二域可靠性和第三域的第三域可靠性。
[0078]
另外,服务器2000的模型选择模块2313可以选择用于文本修改的文本修改模型。例如,模型选择模块2313可以比较第一域的第一域可靠性、第二域的第二域可靠性和第三域的第三域可靠性,并且可以确定第一域的第一域可靠性是最高的域可靠性。另外,模型选择模块2313可以从服务器2000中的多个文本修改模型41、42和43中选择第一域的文本修改模型41。
[0079]
服务器2000可以将从设备1000接收的文本输入到第一域的文本修改模型41,并且可以获得从文本修改模型41输出的修改的文本。接下来,服务器2000可以将修改的文本提供给设备1000。
[0080]
图5是示出根据本公开的实施例的识别与文本相关的域的设备和选择与文本相关的域的文本修改模型的服务器的图。
[0081]
参考图5,可以将从设备1000的asr模型50输出的文本提供给设备1000中的域识别模块1440。设备1000可以通过使用设备1000中的域识别模块1440来识别与从asr模型50输出的文本相关的域。在这种情况下,设备1000可以基于从asr模型50输出的文本的域可靠性来识别与文本相关的域。例如,设备1000可以计算置信度分数,该置信度分数指示从asr模型500输出的文本与预先注册的域相关的程度。域识别模块1440作为被训练用于域识别的ai模型,可以通过使用文本作为输入值来输出域可靠性。另外,例如,域识别模块1440可以是nlu模型的一部分,或者是与nlu模型分离的模型。或者,域识别模块1440可以基于规则来识别与文本相关的域。
[0082]
在图5中,域识别模块1440可以获得例如第一域的第一域可靠性、第二域的第二域可靠性和第三域的第三域可靠性。
[0083]
此外,设备1000可以将从asr模型50输出的文本提供给服务器2000。另外,设备1000可以将由域识别模块1440获得的域可靠性提供给服务器2000。或者,设备1000可以基于由域识别模块1440获得的域可靠性来识别与文本相关的域,并且可以将所识别的域的标识信息提供给服务器2000。
[0084]
服务器2000的模型选择模块2313可以选择用于文本修改的文本修改模型。当设备1000将域可靠性提供给服务器2000时,模型选择模块2313可以比较例如第一域的第一域可靠性、第二域的第二域可靠性和第三域的第三域可靠性,并且可以确定第一域的域可靠性是最高的域可靠性。另外,模型选择模块2313可以从服务器2000中的多个文本修改模型51、52和53中选择与具有最高域可靠性的域相对应的第一域的文本修改模型51。
[0085]
或者,当设备1000将与文本相关的域的标识值提供给服务器2000时,模型选择模块2313可以根据从设备1000接收的域标识值来选择第一域的文本修改模型51。
[0086]
服务器2000可以将从设备1000接收的文本输入到第一域的文本修改模型51,并且可以获得从文本修改模型51输出的修改的文本。接下来,服务器2000可以将修改的文本提
供给设备1000。
[0087]
图6是示出根据本公开的实施例的识别与文本相关的域的服务器和设备以及选择与文本相关的域的文本修改模型的服务器的图。
[0088]
参考图6,可以将从设备1000的asr模型60输出的文本提供给设备1000中的第一域识别模块61。第一域识别模块61可以是识别模块1440。设备1000可以通过使用设备1000中的第一域识别模块61获得从asr模型60输出的文本的第一域可靠性。另外,设备1000可以将从asr模型60输出的文本和从第一域识别模块61获得的第一域可靠性提供给服务器2000。
[0089]
服务器2000可以从设备1000接收文本,并且可以将接收到的文本提供给服务器2000中的第二域识别模块62。第二域识别模块62可以是域识别模块2312。服务器2000可以通过使用服务器2000中的第二域识别模块62来获得从设备1000接收的文本的第二域可靠性。
[0090]
接下来,服务器2000的模型选择模块2313可以基于第一域可靠性和第二域可靠性来选择用于文本修改的文本修改模型。例如,模型选择模块2313可以基于第一域可靠性和第二域可靠性的加权和,从在服务器2000中注册的域中选择与文本相关的第一域,并且可以选择所选域的文本修改模块63。另外,例如,在这种情况下,因为第一域可靠性和第二域可靠性被归一化,所以权重值可以分别反映在第一域可靠性和第二域可靠性中,但是本公开不限于此。将参考图7更详细地描述由服务器2000执行的基于第一域可靠性和第二域可靠性来选择与文本相关的域的方法。
[0091]
服务器2000可以将从设备1000接收的文本输入到第一域的文本修改模型63,并且可以获得从文本修改模型63输出的修改的文本。接下来,服务器2000可以将修改的文本提供给设备1000。
[0092]
图7是示出根据本公开的实施例的由服务器执行的通过使用由设备获得的域可靠性和由服务器获得的域可靠性来选择与文本相关的域的方法的流程图。
[0093]
在操作s700中,服务器2000可以从设备1000接收由设备1000的第一域识别模块61计算的文本的第一域可靠性。设备1000的第一域识别模块61可以计算置信度分数,该置信度分数指示从asr模型60输出的文本与预先注册的域相关的程度。在这种情况下,例如,作为被训练用于域识别的ai模型的域识别模块61可以通过使用文本作为输入值来输出第一域可靠性。当在设备1000中注册多个域时,第一域识别模块61可以获得第一多个域可靠性,其中每个域可靠性指示文本与多个域中的每一个相关的程度。
[0094]
在操作s710中,服务器2000可以通过使用第二域识别模块62计算从设备1000接收的文本的第二域可靠性。服务器2000的第二域识别模块62可以计算置信度分数,该置信度分数指示从设备1000接收的文本与预先注册的域相关的程度。在这种情况下,例如,作为被训练用于域识别的ai模型的域识别模块62可以通过使用文本作为输入值来输出第二域可靠性。当在服务器2000中注册多个域时,第二域识别模块62可以获得第二多个域可靠性,其中每个域可靠性指示文本与多个域中的每一个相关的程度。
[0095]
在操作s720中,服务器2000可以基于第一域可靠性和第二域可靠性来选择与文本相关的域。服务器2000可以基于第一域可靠性和第二域可靠性的加权和,从预先注册的多个域中选择与文本相关的域。例如,当具有高第一域可靠性的域和具有高第二域可靠性的域彼此不同时,服务器2000可以将预设的第一权重值分配给第一域可靠性,并且可以将预
设的第二权重值分配给第二域可靠性。另外,服务器2000可以基于被分配了第一权重值的第一域可靠性和被分配了第二权重值的第二域可靠性,从多个预先注册的域中选择与文本相关的域。在这种情况下,例如,因为第一域可靠性和第二域可靠性被归一化,所以权重值可以分别反映在第一域可靠性和第二域可靠性中,但是本公开不限于此。例如,当第一域可靠性是更高层的域的可靠性并且第二域可靠性是更低层的域的可靠性时,可以将低权重值分配给第一域可靠性,并且可以将高权重值分配给第二域可靠性。
[0096]
根据本公开的实施例,服务器2000可以考虑从设备的asr模型输出的文本的可靠性以选择域。在这种情况下,从asr模型输出的文本的可靠性可以由设备1000获得并且可以被提供给服务器2000,但是本公开不限于此。另外,例如,服务器2000可以将预设的第三权重值分配给从设备1000输出的文本的可靠性,并且可以基于被分配了第一权重值的第一域可靠性、被分配了第二权重值的第二域可靠性以及被分配了第三权重值的文本的可靠性从多个预先注册的域中选择与文本相关的域。
[0097]
例如,当具有高第一域可靠性的域和具有高第二域可靠性的域相同时,服务器2000可以从多个域中选择具有高第一域可靠性的域,而无需考虑权重值。
[0098]
图8是示出根据本公开的实施例的通过使用从服务器中的多个域识别模块中选择的域识别模块来选择文本修改模型的服务器的图。
[0099]
参考图8,可以将从设备1000的asr模型80输出的文本提供给设备1000中的第一域识别模块81。第一域识别模块81可以是域识别模块1440。设备1000可以通过使用设备1000中的第一域识别模块81来获得从asr模型80输出的文本的第一域可靠性。另外,设备1000可以将从asr模型80输出的文本和从第一域识别模块81获得的第一域可靠性提供给服务器2000。
[0100]
服务器2000可以基于从设备1000接收的第一域可靠性来选择服务器2000中的多个第二域识别模块82中的一个。可以分层设置语音识别系统中的用于语音识别的域。用于语音识别的域可以包括例如第一层域、作为第一层域的子域的第二层域、作为第二层域的子域的第三层域以及作为第三层域的子域的第四层域。另外,例如,第二域识别模块82可以包括例如至少一个第二层域识别模块82-1、至少一个第三层域识别模块82-2和至少一个第四层域识别模块82-3。另外,例如,第一层域可以对应于第一域识别模块81,第二层域可以对应于第二层域识别模块82-1,第三层域可以对应于第三层域识别模块82-2,第四层域可以对应于第四层域识别模块82-3,并且第五层域可以对应于文本修改模型。在这种情况下,服务器2000可以通过使用域识别模块选择模块2311,根据从第一域识别模块81计算出的第一域可靠性,从多个第二层域中识别具有高可靠性的第二层域。另外,服务器2000的域识别模块选择模块2311可以选择与所识别的第二层域相对应的第二层域识别模块82-1。
[0101]
另外,例如,服务器2000可以通过使用所选的第二层域识别模块82-1来获得文本的第二域可靠性。例如,服务器2000的域识别模块选择模块2311可以基于第二域可靠性从多个第三层域中识别具有高可靠性的第三层域,并且可以选择与所识别的第三层域相对应的第三层域识别模块82-2。
[0102]
另外,例如,服务器2000可以通过使用所选的第三层域识别模块82-2获得文本的第三域可靠性。例如,服务器2000的域识别模块选择模块2311可以基于第三域可靠性来从多个第四层域中识别具有高可靠性的第四层域,并且可以选择与所识别的第四层域相对应
的第四层域识别模块82-3。
[0103]
另外,例如,服务器2000可以通过使用所选的第四层域识别模块82-3获得文本的第四域可靠性。服务器2000的模型选择模块2313可以基于第四域可靠性从多个文本修改模型中选择与第三域相对应的文本修改模型85。
[0104]
接下来,服务器2000可以将从设备1000接收的文本输入到第三域的文本修改模型85,并且可以获得从文本修改模型85输出的修改的文本。服务器2000可以将修改的文本提供给设备1000。
[0105]
尽管在图8中服务器2000中的第二域识别模块82的层包括第二层、第三层和第四层,并且服务器2000依次选择第二层域识别模块82-1、第三层域识别模块82-2和第四层域识别模块82-3,但是本公开不限于此。
[0106]
服务器2000可以考虑到从第二层域识别模块82-1计算出的第二域可靠性、从第三层域识别模块82-2计算出的第三域可靠性以及从第四层域识别模块82-3计算出的第四域可靠性,来选择用于文本修改的域。在这种情况下,服务器2000可以归一化从第二层域识别模块82-1计算出的第二域可靠性、从第三层域识别模块82-2计算出的第三域可靠性以及从第四层域识别模块82-3计算出的第四域可靠性,并且可以通过比较域可靠性分数的归一化值来选择用于文本修改的域。
[0107]
例如,第一域识别模块81可以计算第一层域的域可靠性,第二层域识别模块82-1可以计算第二层域的域可靠性,第三层域识别模块82-2可以计算第三层域的域可靠性,并且第四层域识别模块82-3可以计算第四层域的域可靠性。
[0108]
服务器2000中的第二域识别模块82的层可以仅包括第二层。或者,服务器2000中的第二域识别模块82的层可以包括除第二至第四层之外的其他层。在这种情况下,根据服务器2000中的第二域识别模块82的层,服务器2000可以包括与每一层相对应的域识别模块。
[0109]
例如,第一域识别模块81可以将作为第一层域的“位置”的域可靠性计算为60%,并且可以将作为第一层域的“天气”的可靠性计算为30%。第二层域识别模块82-1可以将作为第二层域的“加拿大”的可靠性计算为40%,可以将作为第二层域的“usa”的可靠性计算为20%,并且可以将作为第二层域的“雨”的可靠性计算为25%。第三层域识别模块82-2可以将作为第三层域的“不列颠哥伦比亚”的可靠性计算为20%,可以将作为第三层域的“安大略”的可靠性计算为30%,可以将作为第三层域的“纽约”的可靠性计算为10%,并且可以将作为第三层域的“降水量”的可靠性计算为5%。
[0110]
另外,例如,域选择模块2313可以将第一权重值分配给作为第一层域的“位置”的域可靠性和作为第一层域的“天气”的可靠性。域选择模块2313可以将第二权重值分配给作为第二层域的“加拿大”的可靠性、作为第二层域的“usa”的可靠性以及作为第二层域的“雨”的可靠性。域选择模块2313可以将第三权重值分配给作为第三层域的“不列颠哥伦比亚”的可靠性、作为第三层域的“安大略”的可靠性、作为第三层域的“纽约”的可靠性以及作为第三层域的“降水量”的可靠性。在这种情况下,第二权重值可以大于第一权重值并且可以小于第三权重值。另外,域选择模块2313可以考虑到被分配了第一权重值的可靠性、被分配了第二权重值的可靠性以及被分配了第三权重值的可靠性来选择用于文本修改的域。
[0111]
另外,例如,域选择模块2313可以计算“位置”的可靠性、“加拿大”的可靠性和“哥
伦比亚”的可靠性的第一加权和。域选择模块2313可以计算“位置”的可靠性、“加拿大”的可靠性和“安大略”的可靠性的第二加权和。域选择模块2313可以计算“位置”的可靠性、“美国”的可靠性和“纽约”的可靠性的第三加权和。另外,例如,域选择模块2313可以计算“天气”的可靠性、“雨”的可靠性和“降水量”的可靠性的第四加权和。
[0112]
例如,域选择模块2313可以通过比较计算出的加权和来确定第一加权和是最高的,并且可以将“不列颠哥伦比亚”确定为用于文本修改的域。
[0113]
另外,例如,域选择模块2313可以基于第一层域的域可靠性和第二层域的可靠性来选择第二层域。域选择模块2313可以选择与所选的第二层域相关的子域,并且可以通过使用与所选子域相对应的文本修改模型来修改文本。
[0114]
此外,尽管在图8中设备1000中的第一域识别模块81对应于第一层,并且服务器2000中的第二域识别模块82对应于第二至第四层,但是本公开不限于此。例如,设备1000中的第一域识别模块81可以对应于第一层,并且服务器2000中的第二域识别模块82可以对应于第一至第三层。
[0115]
可以基于与设备1000相关的上下文信息来分配域可靠性的权重值。上下文信息可以包括但不限于设备1000的周围环境信息、设备1000的状态信息、用户的状态信息、用户的设备使用历史信息或用户的日程表信息中的至少一个。作为设备1000的某个半径内的环境信息的设备1000的周围环境信息可以包括例如但不限于天气信息、温度信息、湿度信息、照度信息、噪声信息和声音信息。设备1000的状态信息可以包括但不限于关于设备1000的模式(例如,声音模式、振动模式、静音模式、省电模式、切断模式、多窗口模式和自动旋转模式)的信息、设备1000的位置信息、时间信息、通信模块的激活信息(例如,wi-fi打开、蓝牙关闭、gps打开或nfc打开)、设备1000的网络连接状态信息以及关于在设备1000中运行的应用的信息(例如,应用识别信息、应用类型、应用使用时间或应用使用周期)。作为关于用户的运动和生活方式的信息的用户的状态信息可以包括但不限于关于用户的行走状态、锻炼状态、驾驶状态、睡眠状态和情绪状态的信息。作为关于用户使用设备1000的事件的信息的用户的设备使用历史信息可以包括但不限于关于应用的运行、应用运行的功能、用户的电话对话以及用户的文本消息的信息。
[0116]
例如,可以基于关于在设备1000上运行的应用的上下文信息来确定域可靠性的权重值。例如,当用户的话音输入是在设备1000上运行的应用的输入时,可以将高权重值分配给与应用相关的域的域可靠性。或者,可以将与应用相关的域直接确定为用于文本修改的域。例如,当在设备1000上运行地图应用的同时输入说“acrovista”的话音输入时,可以将高权重值分配给地图域,或者可以将地图域直接确定为用于文本修改的域。
[0117]
例如,可以基于通过设备1000提供的话音助理服务的用户的对话历史来确定域可靠性的权重值。例如,当在用户通过话音助理服务向设备1000谈论音乐的同时向设备1000输入说“搜索iu”的话音输入时,可以将高权重值分配给音乐域,或者可以将音乐域直接确定为用于文本修改的域。
[0118]
例如,可以基于由设备1000收集的感测信息来确定域可靠性的权重值。可以基于由设备1000获得的位置信息(例如,gps信息)将权重值分配给域。例如,当设备1000的位置在电影院附近时,可以将高权重值分配给电影域。例如,当在设备1000中搜索餐馆的同时向设备1000输入用户的话音输入时,可以将高权重值分配给与设备1000所处的位置相关的
域。
[0119]
可以基于趋势信息来分配域可靠性的权重值。例如,可以通过门户站点将高权重值分配给主要新闻的域或实时搜索词的域。
[0120]
图9是示出根据本公开的实施例的服务器通过使用从多个域识别模块中选择的域识别模块来选择用于文本修改的域的方法的流程图。
[0121]
图10是示出根据本公开的实施例的与被分层地分类的域相关的第一域识别模块、第二域识别模块和文本修改模块的图。
[0122]
例如,在图9和10中,用于语音识别的域可以分类为第一层、第二层和第三层。
[0123]
在操作s900中,服务器2000可以从设备1000接收由设备1000的第一域识别模块81计算的文本的第一域可靠性。服务器2000可以从设备1000接收从设备1000的asr模型输出的文本的第一域可靠性。例如,参考图10,设备1000的第一域识别模块100可以对应于作为与“位置”相关的第一层域的“全部”,并且从第一域识别模块100计算出的第一域可靠性可以是与“国家”相关的第二层域的域可靠性。例如,第一域可靠性可以包括域“加拿大”的域可靠性和域“usa”的域可靠性。另外,例如,第二域识别模块101可以对应于域“加拿大”,并且第二域识别模块102可以对应于域“usa”。
[0124]
在操作s910中,服务器2000可以基于第一域可靠性来选择多个第二域识别模块82中的至少一个。服务器2000的域识别模块选择模块2311可以基于第一域可靠性从多个第二域识别模块82中选择第二层域识别模块82-1。参考图10,例如,服务器2000可以比较“加拿大”的域可靠性和域“usa”的域可靠性,并且可以确定“加拿大”的域可靠性高于某个阈值。另外,服务器2000可以从与域“加拿大”相对应的第二域识别模块101和与域“usa”相对应的第二域识别模块102中选择与“加拿大”相对应的第二域识别模块101。在这种情况下,第二域识别模块101和第二域识别模块102可以是与第二层相对应的第二域识别模块。
[0125]
在操作s920中,服务器2000可以通过使用所选的第二层域识别模块82-1来计算文本的第二域可靠性。第二层域识别模块82-1可以通过使用文本作为输入来计算第二域可靠性。参考图10,从第二域识别模块101计算出的第二域可靠性可以是与“省或州”相关的第三层域的域可靠性。例如,第二域可靠性可以包括域“不列颠哥伦比亚”的域可靠性、域“安大略”的域可靠性、域“纽约”的域可靠性以及域“伊利诺伊”的域可靠性。另外,例如,文本修改模型103可以对应于域“不列颠哥伦比亚”,文本修改模型104可以对应于域“安大略”,文本修改模型105可以对应于域“纽约”,并且文本修改模型106可以对应于域“伊利诺伊”。
[0126]
在操作s930中,服务器2000可以基于第二域可靠性来选择与文本修改相关的域。服务器2000的模型选择模块2313可以基于第二域可靠性来选择多个文本修改模型83、84和85中的一个。参考图10,例如,服务器2000可以比较域“不列颠哥伦比亚”的域可靠性、域“安大略”的域可靠性、域“纽约”的域可靠性以及域“伊利诺伊域”的域可靠性,并且可以确定域“不列颠哥伦比亚”的域可靠性高于某个阈值。另外,服务器2000可以选择域“不列颠哥伦比亚”作为用于文本修改的域。因此,可以由与域“不列颠哥伦比亚”相对应的文本修改模型103来修改文本。
[0127]
尽管在图9和10中第一域识别模块81对应于第一层,第二域识别模块82对应于第二层,并且文本修改模型83、84和85对应于第三层,但是本公开不限于此。例如,第二域识别模块82可以对应于更多层。例如,第一域识别模块81可以对应于第一层,第二域识别模块82
可以对应于第二层、第三层和第四层,并且文本修改模型83、84和85可以对应于第五层,但是本公开不限于此。
[0128]
在图10中,服务器2000可以归一化从第一域识别模块100计算出的域可靠性、从第二域识别模块101计算出的域可靠性以及从第二域识别模块102计算出的域可靠性,并且可以通过比较归一化值来选择用于文本修改的文本修改模型。
[0129]
图11是示出根据本公开的实施例的通过使用多个文本修改模型来修改文本的服务器的图。
[0130]
参考图11,可以将从设备1000的asr模型110输出的文本提供给服务器2000中的域识别模块2312。服务器2000可以通过使用服务器2000中的域识别模块2312来识别与从设备1000接收的文本相关的域。在这种情况下,服务器2000可以基于从设备1000接收的文本的域可靠性来识别与文本相关的域。
[0131]
域识别模块2312可以获得例如第一域的域可靠性、第二域的域可靠性和第三域的域可靠性。例如,域识别模块2312可以将文本划分为多个节,并且可以针对每个节获得第一域的域可靠性、第二域的域可靠性和第三域的域可靠性。例如,域识别模块2312可以将文本分类为第一节、第二节和第三节,并且可以针对第一节、第二节和第三节中的每一个获得第一域的域可靠性、第二域的域可靠性以及第三域的域可靠性。例如,当服务器2000接收文本流时,服务器2000可以获得第一节的文本的第一域可靠性,可以获得第二节的文本的第二域可靠性,并且可以获得第三节的文本的第三域可靠性。在这种情况下,在接收文本流的同时,服务器2000可以修改已经实时接收到的文本,而无需等待稍后要接收的文本,并且可以以更高的速度识别与文本相关的域。
[0132]
或者,例如,当服务器2000接收文本流时,服务器2000可以累积并计算多个节的文本的域可靠性。例如,在接收文本流的同时,服务器2000可以将一个句子的文本划分为多个节,并且可以获得第一节的文本的域可靠性,可以获得第一节和第二节的文本的域可靠性,并且可以获得第一至第三节的文本的域可靠性。在这种情况下,因为服务器2000通过累积多个节来以句子为单位计算域可靠性,所以服务器2000可以更有效地识别与文本相关的域。
[0133]
或者,例如,对于句子单位的文本,域识别模块2312可以获得第一域的第一域可靠性、第二域的第二域可靠性和第三域的第三域可靠性。
[0134]
根据本公开的实施例,服务器2000的模型选择模块2313可以选择用于文本修改的文本修改模型。例如,当文本被划分为多个节时,服务器2000可以根据文本的节选择不同的文本修改模型。例如,当文本被划分为第一节、第二节和第三节时,服务器2000可以选择文本修改模型111以修改文本的第一节,可以选择文本修改模型112以修改文本的第二节,并且可以选择文本修改模型113以修改文本的第三节。
[0135]
或者,例如,服务器2000可以选择多个文本修改模型来修改句子单位的文本。例如,服务器2000可以选择文本修改模型111、文本修改模型112和文本修改模型113以修改句子单位的文本。
[0136]
接下来,服务器2000可以通过使用从文本修改模型111输出的第一修改的文本、从文本修改模型112输出的第二修改的文本和从文本修改模型113输出的第三修改的文本,来获得从设备1000接收的文本的修改的文本。
[0137]
例如,服务器2000可以选择第一修改的文本、第二修改的文本或第三修改的文本中的至少一个,并且可以通过使用所选的修改的文本的任何部分来获得从设备1000接收的文本的修改的文本。或者,例如,服务器2000可以通过选择第一修改的文本、第二修改的文本和第三修改的文本中的一个来获得从设备1000接收的文本的修改的文本。或者,例如,服务器2000可以通过组合第一修改的文本的至少一部分、第二修改的文本的至少一部分以及第三修改的文本的至少一部分来获得从设备1000接收的文本的修改的文本。
[0138]
接下来,服务器2000可以将修改的文本提供给设备1000。
[0139]
图12是示出根据本公开的实施例的服务器累积并计算多个节的文本的域可靠性的方法的流程图。
[0140]
在操作s1200中,服务器2000可以获得文本的第一节。文本可以被划分为多个节,并且文本的各节可以例如以句法词、词或短语为单位划分。服务器2000可以从设备1000接收文本作为文本流。在这种情况下,服务器2000可以在实时接收文本流的同时获得文本的第一节。或者,服务器2000可以从设备1000接收作为句子的文本,并且可以从接收到的文本中提取第一节的文本。
[0141]
在操作s1210中,服务器2000可以计算第一节的文本的域可靠性。对于在服务器2000中注册的域,服务器2000可以计算第一节的文本的域可靠性。
[0142]
在操作s1220中,服务器2000可以获得文本的第二节。当服务器2000从设备1000接收作为文本流的文本时,服务器2000可以在实时接收文本流的同时获得文本的第二节。或者,服务器2000可以从设备1000接收作为句子的文本,并且可以从接收到的文本中提取第二节的文本。
[0143]
在操作s1230中,服务器2000可以计算第一节和第二节的文本的域可靠性。服务器2000可以累积第一节的文本和第二节的文本,并且可以计算第一节的文本和第二节的文本的域可靠性。
[0144]
在操作s1240中,服务器2000可以获得文本的第n节。当服务器2000从设备1000接收作为文本流的文本时,服务器2000可以在实时接收文本流的同时获得文本的第n节。或者,服务器2000可以从设备1000接收作为句子的文本,并且可以从接收到的文本中提取第n节的文本。
[0145]
在操作s1250中,服务器2000可以计算第一至第n节的文本的域可靠性。服务器2000可以累积第一节的文本至第n节的文本,并且可以计算第一节的文本至第n节的文本的域可靠性。
[0146]
在操作s1260中,服务器2000可以基于第一至第n节的文本的域可靠性来确定用于修改从设备1000接收的文本的域。
[0147]
图13是示出根据本公开的实施例的获得以句法词为单位累积的文本流的域可靠性的服务器的图。
[0148]
参考图13,服务器2000的域识别模块2312可以以句法词为单位来划分文本,可以累积所划分的文本,并且可以获得所累积的文本的域可靠性。
[0149]
例如,当作为第一节的文本的“新”输入到域识别模块2312时,域识别模块2312可以输出“拒绝”作为域标识值,因为与“新”相关的域可靠性是作为低值的“0.1”。
[0150]
接下来,当将作为第二节的文本的“两次”输入到域识别模块2312时,域识别模块
2312可以累积作为第一节的文本的“新”和作为第二节的文本的“两次”,并且可以输出“音乐”作为与作为累积的文本的“新两次”相关的域标识值,并输出“0.7”作为域可靠性。
[0151]
接下来,当将作为第三节的文本的“是或否”输入到域识别模块2312时,域识别模块2312可以累积作为第一节的文本的“新”、作为第二节的文本的“两次”以及作为第三节的文本的“是或否”,并且可以输出“音乐”作为与作为累积的文本的“新两次是或否”相关的域标识值,并输出“0.9”作为域可靠性。
[0152]
接下来,当将作为第四节的文本的“播放”输入到域识别模块2312时,域识别模块2312可以累积作为第一节的文本的“新”、作为第二节的文本的“两次”、作为第三节的文本的“是或否”以及作为第四节的文本的“播放”,并且可以输出“音乐”作为与作为累积的文本的“播放新两次是或否”相关的域标识值,并输出“1.0”作为域可靠性。
[0153]
因此,服务器2000可以选择域“音乐”的域修改模型作为用于修改“播放新两次是或否”的域修改模型。
[0154]
尽管在图13中域识别模块2312输出域和具有最高值的域可靠性,但是本公开不限于此。域识别模块2312可以输出在服务器2000中注册的多个域中的每个域的域可靠性。
[0155]
尽管在图13中累积并计算了多个节的文本的域可靠性,但是本公开不限于此。例如,服务器2000可以顺序地选择用于修改多个节的文本的文本修改模型。例如,当服务器2000接收文本流时,服务器2000可以在接收文本流的同时,通过计算第一节的文本的域可靠性来选择用于修改第一节的文本的文本修改模型,可以通过计算第二节的文本的域可靠性来选择用于修改第二节的文本的文本修改模型,并且可以通过计算第n节的文本的域可靠性来选择用于修改第n节的文本的文本修改模型。
[0156]
图14是示出根据本公开的实施例的服务器将文本划分为多个节并选择多个节中的每一个的文本的域的方法的流程图。
[0157]
在操作s1400中,服务器2000可以针对多个域中的每一个计算文本的域可靠性。服务器2000可以针对从设备1000接收的文本计算在服务器2000中注册的多个域的域可靠性。
[0158]
在操作s1410中,服务器2000可以通过比较计算出的域可靠性将文本划分为多个节。服务器2000可以通过针对每个域识别具有高域可靠性的文本节,来将文本划分为多个节。
[0159]
在操作s1420中,服务器2000可以针对每个节的文本选择用于文本修改的域。服务器2000可以针对每个节的文本选择具有最高域可靠性的域作为与每个节的文本相对应的域。
[0160]
图15是示出根据本公开的实施例的根据多个域比较文本的域可靠性并且选择和修改每个节的文本的文本修改模型的服务器的示例的图。
[0161]
参考图15,服务器2000可以在接收文本流的同时将文本划分为多个节,并且可以实时计算每个节的文本的域可靠性。例如,服务器2000可以接收说“今天在yeomtong站附近我将与gil hong见面去看复仇者恋梦”的文本流。服务器2000可以在接收文本流的同时将“今天在yeomtong站附近”识别为第一节,可以将“我将与gil hong见面”识别为第二节,并且可以将“去看复仇者恋梦”识别为第三节。另外,在接收文本流的同时,服务器2000可以顺序地计算与“今天在yeomtong站附近”相关的域可靠性、与“我将与gil hong见面”相关的域可靠性以及与“去看复仇者恋梦”相关的域可靠性。
[0162]
例如,对于说“今天在yeomtong站附近我将与gil hong见面去看复仇者恋梦”的文本的每个节,服务器2000的域识别模块2312可以计算域“电影”的域可靠性、域“位置”的域可靠性以及域“联系人”的域可靠性。
[0163]
例如,服务器2000的域选择模块2313可以比较域“电影”的域可靠性、域“位置”的域可靠性以及域“联系人”的域可靠性。域选择模块2313可以确定域“位置”的域可靠性对于“今天在yeomtong站附近”是高的。域选择模块2313可以确定域“联系人”的域可靠性对于“我将与gil hong见面”是高的。域选择模块2313可以确定域“电影”的域可靠性对于“去看复仇者恋梦”是高的。因此,域选择模块2313可以从说“今天在yeomtong站附近我将与gil hong见面去看复仇者恋梦”的文本流中顺序地将“今天在yeomtong站附近”识别为第一节,可以将“我将与gil hong见面”识别为第二节,并且可以将“去看复仇者恋梦”识别为第三节。
[0164]
另外,例如,域选择模块2313可以选择与“今天在yeomtong站附近”相关的域作为域“位置”,可以选择与“我将与gil hong见面”相关的域作为域“联系人”,并可以选择与“去看复仇者恋梦”相关的域作为域“电影”。
[0165]
域“位置”的文本修改模型可以将“今天在yeomtong站附近”修改为“今天在yeongtong站”,域“联系人”的文本修改模型可以将“我将与gil hong见面”修改为“我将与gil dong见面”,并且域“电影”的文本修改模型可以将“去看复仇者恋梦”修改为“去看复仇者联盟”。域“位置”的文本修改模型的文本修改操作、域“联系人”的文本修改模型的文本修改操作或域“电影”的文本修改模型的文本修改操作中的至少一个可以在接收文本流的同时顺序执行。
[0166]
图16是示出根据本公开的实施例的通过使用从多个文本修改模型输出的修改的文本来修改从设备接收的文本的服务器的图。
[0167]
例如,参考图16,服务器2000可以将说“今天在yeomtong站附近我将与gil hong见面去看复仇者恋梦”的文本160提供给域“位置”的文本修改模型、域“联系人”的文本修改模型以及域“电影”的文本修改模型。
[0168]
因此,域“位置”的文本修改模型可以输出说“今天在yeongtong站附近我将与gil hong见面去看复仇者恋梦”的修改的文本161,域“电影”的文本修改模型可以输出说“今天在yeomtong站附近我将与gil hong见面去看复仇者联盟”的修改的文本162,并且域“联系人”的文本修改模型可以输出说“今天在yeomtong站附近我将与gil dong见面去看复仇者恋梦”的修改的文本163。
[0169]
接下来,服务器2000可以识别在修改的文本161中作为修改词的“yeongtong”,在修改的文本162中作为修改词的“复仇者联盟”以及在修改的文本163作为修改词的“gil dong”,并且可以生成作为要提供给设备1000的修改的文本164的“今天在yeongtong站附近我将与gil dong见面去看复仇者联盟”。
[0170]
图17是示出根据本公开的实施例的服务器的框图。
[0171]
参考图17,根据本公开的实施例的服务器2000可以包括通信接口2100、处理器2200和存储装置2300,并且存储装置2300可以包括域管理模块2310、文本修改模块2320、nlu模块2330和话音分析管理模块2340。
[0172]
通信接口2100可以包括用于与设备1000和另一服务器通信的至少一个元件。通信
接口2100可以向/从设备1000和另一服务器发送/接收用于语音识别和话音助理服务的信息。通信接口2100可以经由例如但不限于局域网(lan)、广域网(wan)、增值网(van)、移动无线电通信网络、卫星通信网络或其组合来执行通信。
[0173]
处理器2200控制服务器2000的整体操作。处理器2200通常可以通过运行存储在存储装置2300中的程序来控制本文所述的服务器2000的操作。
[0174]
存储装置2300可以存储由处理器2200使用以执行处理和控制的程序,并且可以存储输入到服务器2000中或从服务器2000输出的数据。存储装置2300可以包括但不限于闪存类型、硬盘类型、多媒体卡微型类型、卡类型存储器(例如,安全数字(secure digital,sd)或极限数字(extreme digital,xd)存储器)、随机存取存储器(ram)、静态随机存取存储器(sram)、只读存储器(rom)、电可擦除可编程rom(eeprom)、可编程rom(prom)、磁存储器、磁盘或光盘中的至少一种类型的存储介质。
[0175]
存储在存储装置2300中的程序可以根据它们的功能分类为多个模块,例如,域管理模块2310、文本修改模块2320、nlu模块2330和话音分析管理模块2340。
[0176]
域管理模块2310将从设备1000接收的文本提供给文本修改模块2320。域管理模块2310可以包括域识别模块选择模块2311、至少一个域识别模块2312和域选择模块2313。
[0177]
域识别模块选择模块2311可以选择域识别模块2312。当存在多个域识别模块2312时,域识别模块选择模块2311可以选择多个域识别模块2312中的至少一些。
[0178]
域识别模块选择模块2311可以基于从设备1000接收的第一域可靠性,来选择服务器2000中的多个域识别模块2312中的一个。可以分层设置语音识别系统中的用于语音识别的域。用于语音识别的域可以包括例如第一层域、作为第一层域的子域的第二层域和作为第二层域的子域的第三层域。另外,例如,第一层域可以对应于设备1000的域识别模块1440,第二层域可以对应于服务器2000的域识别模块2312,并且第三层域可以对应于文本修改模块2320。在这种情况下,域识别模块选择模块2311可以根据从设备1000的域识别模块1440计算出的第一域可靠性,从多个第二层域中识别具有高可靠性的第二层域。另外,域识别模块选择模块2311可以选择与所识别的第二层域相对应的域识别模块2312。
[0179]
域识别模块2312可以识别用于文本修改的域。当服务器2000从设备1000接收域信息时,域识别模块2312可以根据域信息识别用于文本修改的域。或者,当服务器2000没有从设备1000接收域信息时,域识别模块2312可以基于从设备1000接收的文本的域可靠性来识别与文本相关的域。例如,域识别模块2312可以计算置信度分数,该置信度分数指示从设备1000接收的文本与预先注册用于文本修改的域相关的程度。另外,域识别模块2312可以基于针对预先注册的域计算出的域可靠性来识别与从设备接收的文本相关的域。域识别模块2312可以基于规则识别与文本相关的域,或者可以通过使用被训练用于域识别的ai模型来获得与文本相关的域可靠性。另外,例如,用于域识别的ai模型可以是nlu模型的一部分,或者是与nlu模型分离的模型。
[0180]
域识别模块2312可以通过累积多个节的文本并计算所累积的文本的域可靠性来识别与文本相关的域。或者,域识别模块2312可以将文本划分为多个节,并且可以识别与每个节的文本相关的域。
[0181]
域选择模块2313可以从多个文本修改模型2321、2322和2323中选择与由域识别模块2312识别的域相对应的文本修改模型。
[0182]
域选择模块2313可以从在服务器2000中注册的域中选择与由域识别模块2312识别的域相对应的域,并且可以选择所选域的文本修改模型。
[0183]
当域识别模块2312将文本划分为多个节并且识别与每个节的文本相关的域时,域选择模块2313可以选择每个节的文本的域。
[0184]
文本修改模块2320修改从设备1000接收的文本。文本修改模块2320可以通过使用与所确定的域相对应的文本修改模型来修改文本。文本修改模块2320可以包括第一域的文本修改模型2321、第二域的文本修改模型2322和第三域的文本修改模型2323。
[0185]
文本修改模块2320可以通过使用所选的文本修改模型来生成修改的文本。文本修改模块2320可以将文本输入到所选的文本修改模型,并且可以获得从文本修改模型输出的修改的文本。在这种情况下,文本修改模块2320可以预处理从设备1000接收的文本的格式以适合于处理文本修改模型,并且可以将预处理后的值输入到文本修改模型。
[0186]
当从设备1000接收的文本与多个域相关时,文本修改模块2320可以选择与多个域相对应的多个文本修改模型以进行文本修改。在这种情况下,文本修改模块2320可以从从多个文本修改模型输出的多条修改的文本中获得要提供给设备1000的修改的文本。例如,当文本修改模块2320通过使用多个文本修改模型生成多条修改的文本时,文本修改模块2320可以比较多条修改的文本的可靠性,并且可以将具有高或最高可靠性的修改的文本确定为要提供给设备1000的修改的文本。修改的文本的可靠性可以是指示修改的文本与输入话音匹配的程度的值,并且可以包括例如但不限于置信度分数。
[0187]
另外,例如,当文本修改模块2320通过使用多个文本修改模型生成多条修改的文本时,文本修改模块2320可以从多条修改的文本中提取修改部分,并且可以通过使用提取的修改部分获得要提供给设备1000的修改的文本。
[0188]
另外,例如,文本修改模块2320可以通过从从多个文本修改模型输出的多条修改的文本中提取若干条文本并组合提取出的若干条文本,来获得要提供给设备1000的修改的文本。例如,当文本修改模块2320通过使用多个文本修改模型生成第一修改的文本和第二修改的文本并且第一修改的文本的一部分的可靠性和第二修改的文本的一部分的可靠性高时,文本修改模块2320可以通过组合第一修改的文本的该部分和第二修改的文本的该部分以生成比第一修改的文本和第二修改的文本的可靠性更高的修改的文本,来获得要提供给设备1000的修改的文本。
[0189]
另外,例如,当选择与每个节的文本相关的域时,文本修改模块2320可以将每个节的文本提供给对应的域修改模型。在这种情况下,文本修改模块2320可以通过组合从各个域修改模型输出的多个节的多条修改的文本来获得要提供给设备1000的修改的文本。
[0190]
nlu模块2330可以解释从文本修改模块2320输出的修改的文本。nlu模块2330可以包括多个域的多个nlu模型,诸如第一nlu模型2331和第二nlu模型2332。当nlu模块2330解释文本时生成的结果值可以包括例如意图和参数。意图是通过使用nlu模型解释文本而确定的信息,其可以指示例如用户的话语意图。意图可以包括指示用户的话语意图的信息(以下称为意图信息)以及与指示用户的意图的信息相对应的数值。数值可以指示文本与指示特定意图的信息相关的概率。当指示用户意图的多条意图信息作为通过使用nlu模型解释文本获得的结果而获得时,可以将多个意图信息中具有最大数值的意图信息确定为意图。另外,参数可以指示与意图相关的详细信息。参数可以是与意图相关的信息,并且多种类型
的参数可以与一个意图相对应。
[0191]
此外,当nlu模块2330解释文本时生成的结果值可以用于将某种话音助理服务提供给设备1000。
[0192]
话音分析管理模块2340可以评估由文本修改模块2320修改的文本,并且可以确定是否对修改的文本执行nlu处理。话音分析管理模块2340可以包括语音识别评估模块2341和nlu确定模块2342。
[0193]
语音识别评估模块2341可以计算由文本修改模块2320修改的文本的可靠性。修改的文本的可靠性可以是指示修改的文本与输入话音匹配的概率的值,并且可以包括例如但不限于置信度分数。另外,语音识别评估模块2341可以计算修改的文本的域可靠性。语音识别评估模块2341可以计算指示修改的文本与在服务器2000中预先注册的、用于nlu处理的域相关的程度的域可靠性。
[0194]
nlu确定模块2342可以确定是否对服务器2000中的修改的文本执行nlu处理。nlu确定模块2342可以基于修改的文本的可靠性和修改的文本的域可靠性来确定是否在服务器2000中执行nlu处理。nlu确定模块2342可以确定与修改的文本相关的域是用于在设备1000中执行nlu处理的域还是用于在服务器2000中执行nlu处理的域。
[0195]
图18是示出根据本公开的实施例的设备的框图。
[0196]
参考图18,根据本公开的实施例的设备1000可以包括通信接口1100、输入/输出接口1200、处理器1300和存储器1400,并且存储器1400可以包括至少一个asr模型1410、至少一个nlu模型1420、语音识别评估模块1430、域识别模块1440和nlu确定模块1450。
[0197]
通信接口1100可以包括用于与服务器2000和外部设备进行通信的至少一个组件。通信接口1100可以向/从服务器2000和外部设备发送/接收用于语音识别和话音助理服务的信息。通信接口1100可以经由例如但不限于局域网(lan)、广域网(wan)、增值网(van)、移动无线电通信网络、卫星通信网络或其组合来执行通信。
[0198]
输入/输出接口1200可以接收输入到设备1000的数据,并且可以从设备1000输出数据。输入/输出接口1200可以包括用户输入接口、照相机、麦克风、显示器和音频输出接口。用户输入接口可以包括但不限于键盘、圆顶开关、触摸板(例如,电容覆盖类型、电阻覆盖类型、红外束类型、积分应变仪类型、表面声波类型、压电类型等)、滚轮或滚轮开关。
[0199]
显示器可以显示并输出由设备1000处理的信息。例如,显示器可以显示用于话音助理服务的图形用户界面(graphical user interface,gui)。当显示器与触摸板一起形成层结构以构造触摸屏时,显示器可以被实施为输入设备以及输出设备。显示器可以包括液晶显示器(liquid crystal display,lcd)、薄膜晶体管-液晶显示器(thin film transistor-liquid crystal display,tft-lcd)、有机发光二极管(organic light-emitting diode,oled)、柔性显示器、三维(three-dimensional,3d)显示器或电泳显示器中的至少一种。
[0200]
音频输出接口可以输出音频数据,并且可以包括例如扬声器和蜂鸣器。
[0201]
照相机可以通过在视频通话模式或拍摄模式下使用图像传感器来获得诸如静止图像或运动图片之类的图像帧。由图像传感器捕获的图像可以由处理器1300或单独的图像处理器处理。
[0202]
麦克风可以接收用户的话语,并且可以将用户的话语处理为电子话音数据。
[0203]
处理器1300控制设备1000的整体操作。处理器1300可以通过运行存储在存储器1400中的程序来控制本文所述的设备1000的整体操作。
[0204]
存储器1400可以存储由处理器1300使用以执行处理和控制的程序,并且可以存储输入到设备1000或从设备1000输出的数据。存储器1400可以包括但不限于闪存类型、硬盘类型、多媒体卡微型类型、卡类型存储器(例如,sd或xd存储器)、随机存取存储器(ram)、静态随机存取存储器(sram)、只读存储器(rom)、电可擦除可编程rom(eeprom)、可编程rom(prom)、磁存储器、磁盘或光盘中的至少一种类型的存储介质。
[0205]
存储在存储器1400中的程序可以根据它们的功能被分类为多个模块,例如,asr模型1410、nlu模型1420、语音识别评估模块1430、域识别模块1440和nlu确定模块1450。
[0206]
asr模型1410可以从从用户的话音输入生成的特征向量获得文本。设备1000的处理器1300可以将特征向量输入到asr模型1410以识别用户的话音。当设备1000中包括多个asr模型1410时,设备1000的处理器1300可以选择多个asr模型1410中的一个,并且可以将特征向量转换为适合于所选的asr模型1410的格式。asr模型1410可以是ai模型,包括例如声学模型、发音词典和语言模型。或者,asr模型1410可以是端到端语音识别模型,该端到端语音识别模型具有包括集成神经网络而无需单独地包括例如声学模型、发音词典和语言模型的结构。
[0207]
nlu模型1420可以解释从asr模型1410输出的文本。或者,nlu模型1420可以解释从服务器2000提供的修改的文本。当nlu模型1420解释文本或修改的文本时生成的结果值可以用于将某种话音助理服务提供给用户。
[0208]
语音识别评估模块1430可以获得从asr模型1410输出的文本的可靠性。文本的可靠性可以是指示从asr模型1410输出的文本与输入话音相关的程度的值,并且可以包括例如但不限于置信度分数。另外,文本的可靠性可以和文本与输入话音匹配的概率相关。例如,可以基于从设备1000的asr模型1410输出的多条估计文本的似然性或文本中的至少一个字符将被另一字符替换的后验概率中的至少一个来计算文本的可靠性。例如,语音识别评估模块1430可以基于作为维特比解码的结果输出的似然性来计算可靠性。或者,例如,语音识别评估模块1430可以基于从端到端asr模型中的softmax层输出的后验概率来计算可靠性。或者,例如,语音识别评估模块1430可以确定在设备1000的asr模型1410的语音识别过程中估计的多条估计文本,并且可以基于多条估计文本中的字符的相关性来计算文本的可靠性。
[0209]
另外,语音识别评估模块1430可以确定是否将从asr模型1410输出的文本发送到服务器2000。语音识别评估模块1430可以通过将文本的可靠性与预设阈值进行比较来确定是否将文本发送到服务器2000。当文本的可靠性等于或大于预设阈值时,语音识别评估模块1430可以确定不将文本发送到服务器2000。另外,当文本的可靠性小于预设阈值时,语音识别评估模块1430可以确定将文本发送到服务器2000。
[0210]
另外,语音识别评估模块1430可以基于在asr模型1410的语音识别过程中估计的多条估计文本中的具有高可靠性的至少一个文本,来确定是否将文本发送到服务器2000。例如,当在asr模型1410的语音识别过程中估计的多条估计文本包括具有高可靠性的第一估计文本和具有高可靠性的第二估计文本,并且第一估计文本的可靠性和第二估计文本的可靠性之间的差等于或小于某个阈值时,语音识别评估模块1430可以确定将文本发送到服
务器2000。
[0211]
域识别模块1440可以识别与从asr模型1410输出的文本相关的域。域识别模块1440可以基于从asr模型1410输出的文本的域可靠性来识别与文本相关的域。例如,域识别模块1440可以计算置信度分数,该置信度分数指示从asr模型1410输出的文本与预先注册的域相关的程度。域识别模块1440作为被训练用于域识别的ai模型,可以通过使用文本作为输入值来输出域可靠性。另外,例如,域识别模块1440可以是nlu模型的一部分,或者可以是与nlu模型分离的模型。或者,域识别模块1440可以基于规则来识别与文本相关的域。
[0212]
可以分层设置语音识别系统中用于语音识别的域,并且由设备1000的域识别模块1440识别的域可以是比由服务器2000的域识别模块2312识别的域更高层的域。
[0213]
nlu确定模块1450可以确定是否在设备1000或服务器2000中对从asr模型1410输出的文本执行nlu处理。nlu确定模块1450可以确定与从asr模型1410输出的文本相关的域是否是用于在设备1000中执行nlu处理的域。当与从asr模型1410输出的文本相关的域是在设备1000中预先注册的域时,nlu确定模块1450可以确定该设备1000将执行nlu处理。另外,当与从asr模型1410输出的文本相关的域不是在设备1000中预先注册的域时,nlu确定模块1450可以确定设备1000将不执行nlu处理。
[0214]
根据本公开的与ai相关的功能通过处理器和存储器执行。处理器可以包括至少一个处理器。在这种情况下,至少一个处理器可以包括通用处理器(诸如,中央处理单元(central processing unit,cpu)、接入点(access point,ap)或数字信号处理器(digital signal processor,dsp))、图形处理器(诸如,图形处理单元(graphics processing unit,gpu)或视觉处理单元(vision processing unit,vpu))或ai处理器(诸如,神经处理单元(neural processing unit,npu))。至少一个处理器根据预定义操作规则或存储在存储器中的ai模型来控制要处理的输入数据。或者,当至少一个处理器是ai处理器时,ai处理器可以被设计为具有专用于处理特定ai模型的硬件结构。
[0215]
通过学习和训练来创建预定义操作规则或ai模型。当通过学习创建预定义操作规则或ai模型时,这意味着在通过使用学习算法使用多个训练数据来训练基本ai模型时,创建用于实现期望特性(或目的)的预定义操作规则或ai模型集。该学习可以由使用根据本公开的ai的设备本身来执行,或者可以通过单独的服务器和/或系统来执行。学习算法的示例包括但不限于监督学习、无监督学习、半监督学习和强化学习。
[0216]
ai模型可以包括多个神经网络层。多个神经网络层可以分别具有多个权重值,并且每个层通过对多个权重值的计算和前一层的计算结果来执行神经网络操作。可以通过ai模型的训练结果来优化多个神经网络层的多个权重值。例如,在学习过程中,可以细化多个权重值以减少或最小化由ai模型获得的损失值或成本值。人工神经网络可以包括深度神经网络(neural network,dnn),并且人工神经网络的示例可以包括但不限于卷积神经网络(convolutional neural network,cnn)、dnn、递归神经网络(recurrent neural network,rnn)、受限玻尔兹曼机(restricted boltzmann machine,rbm)、深度置信网络(deep belief network,dbn)、双向递归深度神经网络(bidirectional recurrent deep neural network,brdnn)和深度q网络。
[0217]
本公开的一些实施例可以实施为包括计算机可运行指令的记录介质,诸如计算机可运行程序模块。计算机可读介质可以是计算机可访问的任意可用介质,并且其示例包括
所有易失性和非易失性介质以及可分离和不可分离介质。此外,计算机可读介质的示例可以包括计算机存储介质和通信介质。计算机存储介质的示例包括用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的所有易失性和非易失性介质以及可分离和不可分离介质,它们通过任意方法或技术实施。通信介质通常包括计算机可读指令、数据结构、程序模块或调制数据信号的其他数据。
[0218]
另外,本文中使用的术语“单元”可以是诸如处理器或电路的硬件组件和/或在诸如处理器之类的硬件组件中运行的软件组件。
[0219]
在整个公开中,表述“a、b或c中的至少一个”表示仅a、仅b、仅c、a和b两者、a和c两者、b和c两者、a、b和c三者或其变体。
[0220]
尽管已经参考本公开的实施例具体示出和描述了本公开,但是应当理解,本公开的实施例仅用于解释本公开,并且在不脱离本公开的精神和范围情况下,可以在形式和细节上做出各种改变。应当理解,应当仅在描述性意义上考虑本公开的实施例,而不是出于限制的目的。例如,以单个类型描述的每个组件可以以分布式方式运行,并且以分布式形式描述的组件也可以以集成形式运行。
[0221]
本公开的范围不是由对本公开的详细描述限定,而是由权利要求书限定,并且从权利要求的范围和精神及其等同物得出的所有修改或替代均落入本公开的范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1