技术特征:
1.一种由一个或多个处理器实现的方法,所述方法包括:接收捕获人类的口头话语的音频数据,所述口头话语由话音机器人在所述人类与所述话音机器人之间的对应对话期间被接收;使用自动语音识别asr模型处理所述音频数据,以生成多个asr语音假设;以及响应于预测所述口头话语包括唯一个人标识符,所述唯一个人标识符包括对所述人类来说是个人的唯一字母数字字符序列:使用一个或多个ml模型的多个机器学习ml层来处理所述多个asr语音假设中的一个或多个,以生成一个或多个候选唯一个人标识符,所述一个或多个候选唯一个人标识符中的每个包括与用于所述一个或多个候选唯一个人标识符中的每个的一个或多个对应字母数字字符相关联的对应预测测量;基于与用于所述一个或多个候选唯一个人标识符中的每个的对应字母数字字符中的一个或多个对应字母数字字符相关联的对应预测测量来从所述对应字母数字字符中的一个或多个当中选择一个或多个给定字母数字字符;基于与所述给定字母数字字符中的一个或多个相关联的所述对应预测测量来生成提示,所述提示包括请求所述给定字母数字字符中的一个或多个的澄清的澄清请求;以及使得所述提示被提供以用于呈现给所述人类。2.根据权利要求1所述的方法,还包括:响应于所述提示被提供以用于呈现给所述人类:接收捕获所述人类的另外口头话语的另外音频数据,所述另外口头话语由所述话音机器人在所述对应对话期间被接收;使用所述asr模型来处理所述另外音频数据以生成多个另外asr语音假设;以及使用所述多个ml层来处理所述多个另外语音假设中的一个或多个以细化所述给定字母数字字符中的一个或多个。3.根据权利要求2所述的方法,其中,细化所述给定字母数字字符中的一个或多个包括:基于响应于所述澄清请求而接收到的澄清,更新用于被预测为对应于所述唯一个人标识符的所述一个或多个给定字母数字字符的所述对应预测测量。4.根据权利要求2或权利要求3所述的方法,还包括:在所述一个或多个给定字母数字字符被预测为对应于所述人类的所述唯一个人标识符之前:基于与所述给定字母数字字符中的一个或多个相关联的所述对应预测测量来生成一个或多个对应另外提示,所述一个或多个对应另外提示中的每个都包括请求所述给定字母数字字符中的一个或多个的另外澄清的对应另外澄清请求;以及使得所述对应另外提示中的一个或多个被提供以用于呈现给所述人类。5.根据权利要求2至4中的任一项所述的方法,其中,预测所述一个或多个给定字母数字字符对应于所述人类的所述唯一个人标识符包括:确定与所述给定字母数字字符中的每个相关联的所述对应预测测量满足阈值。6.根据权利要求2至5中的任一项所述的方法,还包括:响应于预测所述一个或多个给定字母数字字符对应于所述人类的所述唯一个人标识
符:利用包括所述一个或多个给定字母数字字符的给定唯一个人标识符来促进所述话音机器人与所述人类之间的所述对应对话。7.根据前述权利要求中的任一项所述的方法,其中,生成包括所述澄清请求的所述提示是响应于确定与所述给定字母数字字符中的一个或多个相关联的所述对应预测测量未能满足阈值。8.根据权利要求7所述的方法,其中,生成包括所述澄清请求的所述提示包括:从所述给定字母数字字符中的一个或多个当中识别与未能满足所述阈值的所述对应预测测量相关联的一个或多个特定字母数字字符;以及生成请求关于所述特定字母数字字符中的一个或多个的澄清的所述澄清请求。9.根据前述权利要求中的任一项所述的方法,还包括:响应于预测所述一个或多个给定字母数字字符对应于所述人类的所述唯一个人标识符:利用包括所述一个或多个给定字母数字字符的给定唯一个人标识符来促进所述话音机器人与所述人类之间的所述对应对话。10.根据权利要求9所述的方法,其中,预测所述一个或多个给定字母数字字符对应于所述人类的所述唯一个人标识符包括:确定与用于所述给定候选唯一个人标识符的所述一个或多个给定字母数字字符中的每个相关联的所述对应预测测量满足阈值。11.根据前述权利要求中的任一项所述的方法,其中,预测所述口头话语包括所述唯一个人标识符包括:基于合成语音音频数据包括先前被提供以用于在所述对应对话期间由所述话音机器人呈现给所述人类的合成语音来预测所述音频数据将包括所述唯一个人标识符。12.根据前述权利要求中的任一项所述的方法,其中,预测所述口头话语包括所述唯一个人标识符包括:基于使用所述asr模型所生成的所述多个asr语音假设中的一个或多个来预测所述口头话语包括所述唯一个人标识符。13.根据前述权利要求中的任一项所述的方法,其中,处理所述多个语音假设中的一个或多个以生成所述一个或多个候选唯一个人标识符包括:使用所述多个ml层迭代地处理所述多个asr语音假设中的每个以迭代地生成用于所述唯一个人标识符的可能性树,所述可能性树包括多个节点和多个边缘,所述多个节点中的每个对应于用于所述一个或多个对应字母数字字符中的每个的所述对应字母数字字符中的一个或多个,所述多个节点中的每个与用于所述一个或多个对应字母数字字符中的每个的所述对应预测测量相关联,并且所述多个节点中的每个通过所述多个边缘中的一个或多个连接,其中,选择所述给定候选唯一个人标识符基于所述可能性树。14.根据权利要求13所述的方法,其中,所述可能性树由所述多个asr语音假设来约束。15.根据权利要求14所述的方法,其中,所述可能性树由存储在一个或多个数据库中的多个唯一个人标识符来约束。
16.根据前述权利要求中的任一项所述的方法,其中,处理所述多个语音假设中的一个或多个以生成所述一个或多个候选唯一个人标识符包括:使用所述多个ml层处理所述多个asr语音假设中的每个以生成用于所述唯一个人标识符的可能性树,所述可能性树包括多个节点和多个边缘,所述多个节点中的每个对应于用于所述一个或多个对应字母数字字符中的每个的对应字母数字字符中的一个或多个,所述多个节点中的每个与用于所述一个或多个对应字母数字字符中的每个的所述对应预测测量相关联,并且所述多个节点中的每个通过所述多个边缘中的一个或多个连接,其中,选择所述给定候选唯一个人标识符是基于所述可能性树。17.根据前述权利要求中的任一项所述的方法,其中,所述唯一个人标识符是以下中的一个或多个:电子邮件地址、物理地址、用户名、口令、实体的名称或域名。18.根据前述权利要求中的任一项所述的方法,还包括:获得所述话音机器人对所述话音机器人与所述人类之间的所述对应对话的一部分的意图;以及其中,使用所述多个ml层处理所述多个asr语音假设中的一个或多个以生成候选唯一个人标识符中的一个或多个还包括使用所述多个ml层处理所述话音机器人的所述意图以生成所述候选唯一个人标识符中的一个或多个。19.根据权利要求18所述的方法,其中,所述话音机器人的所述意图包括以下中的一个或多个:请求所述人类提供所述唯一个人标识符;请求所述人类拼写所述唯一个人标识符;或者请求所述人类提供所述给定字母数字字符中的一个或多个的澄清。20.一种由一个或多个处理器实现的方法,所述方法包括:接收捕获人类的口头话语的音频数据,所述口头话语由话音机器人在所述人类与所述话音机器人之间的对应对话期间被接收;利用自动语音识别asr模型处理所述音频数据,以生成多个asr语音假设;响应于预测所述口头话语包括唯一个人标识符,所述唯一个人标识符包括对给定用户来说是个人的唯一字母数字字符序列:使用一个或多个ml模型的多个机器学习ml层来处理所述多个asr语音假设中的一个或多个,以生成一个或多个候选唯一个人标识符,所述一个或多个候选唯一个人标识符中的每个包括与一个或多个对应字母数字字符相关联的对应预测测量;以及基于与用于所述一个或多个候选唯一个人标识符中的每个的所述对应字母数字字符中的一个或多个相关联的所述对应预测测量,从所述对应字母数字字符中的一个或多个当中选择一个或多个给定字母数字字符;在所述给定候选唯一个人标识符被预测为对应于所述唯一个人标识符之前:基于与用于所述给定候选唯一个人标识符的所述对应字母数字字符中的一个或多个相关联的所述对应预测测量来生成对应提示,所述对应提示包括请求用于所述给定候选唯一个人标识符的所述对应字母数字字符中的一个或多个的澄清的对应澄清请求;使得所述对应提示被提供以用于呈现给所述人类;以及基于处理捕获所述人类的对应另外口头话语并且响应于所述对应提示的对应另外音
频数据来细化所述给定候选唯一个人标识符;以及响应于预测所述给定候选唯一个人标识符对应于所述唯一个人标识符:利用包括所述一个或多个给定字母数字字符的给定唯一个人标识符来促进所述话音机器人与所述人类之间的所述对应对话。21.一种由一个或多个处理器实现的方法,所述方法包括:获得多个训练实例,所述多个训练实例中的每个包括:训练实例输入,所述训练实例输入包括用于唯一个人标识符的至少一个自动语音识别asr语音假设,所述唯一个人标识符包括对于给定人类是个人的唯一字母数字字符序列,以及训练实例输出,所述训练实例输出包括与所述唯一个人标识符相对应的对应基准真相输出;基于所述多个训练实例来训练一个或多个机器学习ml模型的多个ml层;以及在基于所述多个训练实例来训练所述多个ml层之后:使得话音机器人利用所述多个ml层来处理在所述话音机器人正在进行对应对话的同时所生成的一个或多个asr语音假设,以确定唯一个人标识符。22.根据权利要求21所述的方法,其中,基于所述多个训练实例中的给定训练实例来训练所述多个ml层包括:使用所述多个ml层处理用于所述唯一个人标识符的所述至少一个asr语音假设,以生成包括在用于所述唯一个人标识符的所述至少一个asr语音假设中的所述字母数字字符中的每个的对应预测测量;将用于包括在所述唯一个人标识符中的所述字母数字字符中的每个的所述对应预测测量与用于包括在对应于所述唯一个人标识符的所述对应基准真相输出中的所述字母数字字符中的每个的对应基准真相测量进行比较,以生成一个或多个损失;以及使得所述多个ml层中的一个或多个的相应权重基于所述损失中的一个或多个而被更新。23.根据权利要求21所述的方法,还包括:在基于所述多个训练实例来训练所述多个ml层之后并且在使得所述话音机器人利用所述多个ml层处理在所述话音机器人正在进行所述对应对话的同时遇到的所述唯一个人标识符之前,利用话音机器人-人类模拟器来进一步训练所述多个ml层。24.根据权利要求23所述的方法,其中,利用所述话音机器人-人类模拟器来进一步训练所述多个ml层包括:针对所述多个训练实例中的给定训练实例并且在预测的唯一个人标识符对应于与所述唯一个人标识符相对应的所述对应基准真相输出之前:访问模拟所述话音机器人与所述给定人类之间的对应对话的所述话音机器人-人类模拟器;使用所述多个ml层处理用于所述唯一个人标识符的所述至少一个asr语音假设,以生成所述预测的唯一个人标识符和用于所述字母数字字符中的每个的对应预测测量;使用所述话音机器人-人类模拟器的模拟话音机器人来处理所述预测的唯一个人标识符以及用于所述预测的唯一个人标识符的所述对应预测测量,以生成模拟人类的模拟提
示;使用所述话音机器人-人类模拟器的模拟人类来处理所述模拟提示,以生成响应于所述模拟提示的来自所述模拟人类的模拟响应;以及使用所述多个ml层来处理来自所述给定人类的模拟响应,以细化所述预测的唯一个人标识符。25.根据权利要求24所述的方法,其中,所述模拟提示包括请求用于所述预测的唯一个人标识符的所述字母数字字符中的一个或多个的澄清的澄清请求。26.根据权利要求24或权利要求25所述的方法,其中,响应于所述澄清请求的所述模拟响应包括用于所述预测的唯一个人标识符的所述字母数字字符中的一个或多个的澄清。27.根据权利要求24至26中的任一项所述的方法,其中,细化所述预测的唯一个人标识符包括:基于响应于所述澄清请求而接收到的所述澄清来更新用于所述字母数字字符中的一个或多个的所述对应预测测量。28.根据权利要求24至27中的任一项所述的方法,其中,在确定所述唯一个人标识符时使得所述话音机器人利用所述多个ml层来处理在所述话音机器人正在进行对应对话的同时所生成的所述asr语音假设中的一个或多个还在进一步训练所述多个ml层之后。29.根据权利要求24至28中的任一项所述的方法,还包括:获得与所述模拟提示相关联的所述模拟话音机器人的意图;以及其中,使用所述多个ml层来处理来自所述给定人类的所述模拟响应以细化所述预测的唯一个人标识符还包括处理所述模拟话音机器人的意图连同所述模拟响应以细化所述预测的唯一个人标识符。30.根据权利要求21所述的方法,其中,获得所述多个训练实例包括:基于包括至少一个人类的对应先前进行的对话来生成所述多个训练实例中的一个或多个,其中,基于包括所述至少一个人类的所述对应先前进行的对话来生成所述多个训练实例中的一个或多个包括:确定在所述先前进行的对话期间捕获所述唯一个人标识符的至少一个人类提供的音频数据;获得用于所述唯一个人标识符的所述至少一个asr语音假设,所述至少一个asr语音假设在所述先前进行的对话期间基于使用asr模型处理捕获所述唯一个人标识符的所述音频数据而生成;利用基于捕获用于所述至少一个人类的所述唯一个人标识符的所述音频数据所生成的至少一个asr语音假设作为所述训练实例输入;以及利用与所述唯一个人标识符相对应的所述对应基准真相输出作为所述训练实例输出。31.根据权利要求30所述的方法,其中,包括所述至少一个人类的所述对应先前进行的对话是在所述至少一个人类与另外人类之间。32.根据权利要求30所述的方法,其中,包括所述至少一个人类的所述对应先前进行的对话是在所述至少一个人类与所述话音机器人的实例之间。33.根据权利要求21所述的方法,其中,获得所述多个训练实例包括:基于存储在一个或多个数据库中的对应唯一个人标识符来合成所述多个训练实例中的一个或多个,其中,基于存储在所述数据库中的一个或多个中的所述对应唯一个人标识
符来合成所述多个训练实例中的一个或多个包括:访问所述数据库中的一个或多个以识别所述唯一个人标识符;基于所述唯一个人标识符来生成多个令牌;基于与所述唯一个人标识符相对应的所述多个令牌来生成合成文本;基于所述合成文本来生成用于所述唯一个人标识符的所述至少一个asr语音假设;利用基于所述合成文本而生成的所述至少一个asr语音假设作为所述训练实例输入;以及利用所述唯一个人标识符作为所述训练实例输出。34.根据权利要求33所述的方法,其中,生成与所述唯一个人标识符相对应的所述多个令牌包括:识别包括在从所述数据库中的一个或多个中所识别的所述唯一个人识别符中的多个n-gram;以及基于用于所述多个n-gram的分布来生成所述多个令牌。35.根据权利要求33或34所述的方法,其中,生成与至少所述唯一个人标识符相对应的所述合成文本包括以下中的一个或多个:将一个或多个填充符注入到所述多个令牌中;或者针对包括在所述唯一个人标识符中的所述字母数字字符中的一个或多个注入音素拼写。36.根据权利要求33至35中的任一项所述的方法,其中,针对所述唯一个人标识符生成所述至少一个asr语音假设包括:利用一个或多个对应同音n-gram来取代所述合成文本的一个或多个n-gram。37.根据权利要求33至36中的任一项所述的方法,其中,生成用于所述唯一个人标识符的所述至少一个asr语音假设包括:利用一个或多个对应同音字母数字字符来取代所述合成文本的一个或多个字母数字字符。38.根据权利要求21所述的方法,其中,所述唯一个人标识符是以下中的一个或多个:电子邮件地址、物理地址、用户名、口令、实体的名称或域名。39.一种系统,包括:一个或多个处理器;以及存储指令的存储器,所述指令在被执行时使得所述处理器中的一个或多个执行根据权利要求1至38中的任一项所述的方法。40.一种存储指令的非暂时性计算机可读存储介质,所述指令在被执行时使得一个或多个处理器执行根据权利要求1至38中的任一项所述的方法。
技术总结
实施方式涉及使得话音机器人利用多个ML层来在话音机器人参与和人类的对应对话的同时解析用于人类的唯一个人标识符。唯一个人标识符可以包括对于人类来说是个人的唯一字母数字字符序列。在一些实施方式中,可以处理与包括唯一个人标识符的口头话语相对应的ASR语音假设,以生成候选唯一个人标识符,可以选择候选唯一个人标识符的给定字母数字字符,并且话音机器人可以利用澄清请求提示人类澄清给定字母数字字符,直到其被预测为对应于用于人类的实际唯一个人标识符为止。唯一个人标识符然后可以用于由话音机器人和/或其它系统执行进一步动作。进一步动作。进一步动作。
技术研发人员:拉斐尔
受保护的技术使用者:谷歌有限责任公司
技术研发日:2021.11.22
技术公布日:2023/3/3