1.一种计算机实现的方法,包括:
由第一用户设备接收对话语进行编码的音频信号;
由所述第一用户设备获得用于所述第一用户设备的第一用户的第一发言人模型;
由所述第一用户设备针对与所述第一用户设备协同定位的第二用户设备的对应的第二用户获得用于所述第二用户的第二发言人模型或指示所述话语是由所述第二用户说出的相应的可能性的第二分数;以及
由第一用户设备利用(i)所述第一发言人模型和所述第二发言人模型或(ii)所述第一发言人模型和所述第二分数来确定所述话语是由所述第一用户说出的。
2.根据权利要求1所述的方法,其中,由所述第一用户设备针对与所述第一用户设备协同定位的第二用户设备的对应的第二用户获得用于所述第二用户的第二发言人模型或指示所述话语是由所述第二用户说出的相应的可能性的第二分数包括:由所述第一用户设备针对协同定位在所述第一用户设备的物理位置附近的物理区域中的所述第二用户设备的所述第二用户获得用于所述第二用户的第二发言人模型或指示所述话语是由所述第二用户说出的相应的可能性的所述第二分数。
3.根据权利要求1所述的方法,包括:
由所述第一用户设备利用所述音频信号的一部分和所述第一发言人模型生成指示所述话语是由所述第一用户说出的可能性的第一分数。
4.根据权利要求3所述的方法,包括:
将所述第一分数与所述第二分数进行比较以确定最高分数,其中确定所述话语是由所述第一用户说出的包括确定所述第一分数为最高分数。
5.根据权利要求1所述的方法,其中,由所述第一用户设备针对与所述第一用户设备协同定位的第二用户设备的对应的第二用户获得用于所述第二用户的第二发言人模型或指示所述话语是由所述第二用户说出的相应的可能性的第二分数包括:
由所述第一用户设备获得所述第二发言人模型;以及
由所述第一用户设备利用所述音频信号的一部分和所述第二发言人模型生成所述第二分数。
6.根据权利要求1所述的方法,其中,由所述第一用户设备针对与所述第一用户设备协同定位的第二用户设备的对应的第二用户获得用于所述第二用户的第二发言人模型或指示所述话语是由所述第二用户说出的相应的可能性的第二分数包括:
由所述第一用户设备确定所述第二用户设备与所述第一用户设备协同定位;
由所述第一用户设备确定所述第一用户设备具有允许所述第一用户设备访问所述第二发言人模型的设置;
由所述第一用户设备接收所述第二发言人模型;以及
由所述第一用户设备利用所述音频信号的一部分和所述第二发言人模型生成所述第二分数。
7.根据权利要求6所述的方法,其中,由所述第一用户设备接收所述第二发言人模型包括:
由所述第一用户设备识别存储在所述第一用户设备上的一个或多个第三发言人模型;以及
由所述第一用户设备确定所述第三发言人模型的子集包括所述第二发言人模型。
8.根据权利要求7所述的方法,包括:
由所述第一用户设备从所述第一用户设备移除未包括在所述第三发言人模型的所述子集中的第三发言人模型。
9.根据权利要求7所述的方法,其中:
由所述第一用户设备接收所述第二发言人模型包括由所述第一用户设备从所述第一用户设备中的存储器检索所述第二发言人模型;并且
由所述第一用户设备生成所述第二分数包括由所述第一用户设备利用存储在所述第一用户设备上的第二发言人模型和所述音频信号的一部分而不从另一用户设备请求第二发言人模型来生成所述第二分数。
10.根据权利要求6所述的方法,其中,所述第二用户设备包括所述第二发言人模型。
11.根据权利要求10所述的方法,其中,由所述第一用户设备接收所述第二发言人模型包括由所述第一用户设备从所述第二用户设备接收所述第二发言人模型。
12.根据权利要求1所述的方法,其中,由所述第一用户设备针对与所述第一用户设备协同定位的第二用户设备的对应的第二用户获得用于所述第二用户的第二发言人模型或指示所述话语是由所述第二用户说出的相应的可能性的第二分数包括:
由所述第一用户设备确定所述第二用户设备与所述第一用户设备协同定位;以及
由所述第一用户设备接收所述第二分数。
13.根据权利要求12所述的方法,其中,由所述第一用户设备接收所述第二分数包括由所述第一用户设备从所述第二用户设备接收所述第二分数。
14.根据权利要求12所述的方法,包括:
由所述第一用户设备确定用于所述第二用户设备的设备识别符;
由所述第一用户设备将所述设备识别符提供给服务器;以及
响应于将所述识别符提供给服务器而从服务器接收所述第二分数。
15.根据权利要求1所述的方法,包括:
由所述第一用户设备确定存储在所述第一用户设备上的用于可位于所述第一用户设备的物理位置附近的物理区域中的其他人的一个或多个第三发言人模型;以及
由所述第一用户设备利用(i)所述第一发言人模型、所述第二发言人模型和所述第三发言人模型或(ii)所述第一发言人模型、所述第二分数和所述第三发言人模型来确定所述话语是由所述第一用户说出的。
16.根据权利要求15所述的方法,包括:
由所述第一用户设备利用所述音频信号的一部分和所述第一发言人模型生成指示所述话语是由所述第一用户说出的可能性的第一分数;
由所述第一用户设备针对所述第三发言人模型中的每一个利用相应的第三发言人模型和所述音频信号的一部分来生成相应的第三分数;以及
由第一用户设备比较所述第一分数、所述第二分数和所述第三分数以确定最高分数。
17.根据权利要求15所述的方法,包括:
由所述第一用户设备针对第三用户设备确定所述第三用户设备位于所述第一用户设备的物理位置附近的物理区域中的频率;
由所述第一用户设备确定所述频率是否满足门限频率;以及
由所述第一用户设备响应于确定所述频率满足门限频率来将用于所述第三用户设备的第三用户的第三发言人模型存储在第三发言人模型中。
18.一种系统,包括:
一个或多个计算机和存储可进行操作的指令的一个或多个存储设备,所述指令在被所述一个或多个计算机执行时使得所述一个或多个计算机执行操作,所述操作包括:
由第一用户设备接收对话语进行编码的音频信号;
由所述第一用户设备获得指示所述话语是由所述第一用户设备的第一用户说出的可能性的第一分数;
由所述第一用户设备针对与所述第一用户设备协同定位的第二用户设备的对应的第二用户获得指示所述话语是由所述第二用户说出的相应的可能性的第二分数;
由所述第一用户设备确定所述第一分数和所述第二分数的组合;
由所述第一用户设备利用所述第一分数和所述第二分数的组合来归一化所述第一分数和所述第二分数;以及
由所述第一用户设备利用归一化的第一分数和归一化的第二分数来确定所述话语是由第一用户说出的。
19.一种存储软件的计算机可读介质,所述软件包括可由一个或多个计算机执行的指令,所述指令在这样执行后使得所述一个或多个计算机执行操作,所述操作包括:
通过至少一个计算机接收对话语进行编码的音频信号;
通过至少一个计算机针对两个或更多个用户设备中的每一个获得对用于相应用户设备的相应用户的相应发言人模型的识别;以及
通过至少一个计算机利用识别的发言人模型确定所述话语是由所述用户设备中的一个的特定用户说出的。
20.根据权利要求19所述的计算机可读介质,所述操作包括:
通过至少一个计算机针对用户设备中的每一个利用相应的识别从包括在至少一个计算机中的存储器中检索相应的发言人模型。