技术特征:
1.一种方法,包括:在数据处理硬件处接收包括音频数据和图像数据的视听信号,所述音频数据对应于来自话音环境中的多个参与者的话音话语,以及所述图像数据表示所述话音环境中的所述多个参与者的面部;在所述数据处理硬件处接收来自所述多个参与者中的参与者的隐私请求,所述隐私请求指示与所述话音环境中的所述参与者相关联的隐私条件;由所述数据处理硬件将所述音频数据分割成多个片段;对于所述音频数据的每个片段:由所述数据处理硬件基于所述图像数据来从所述多个参与者中确定所述音频数据的对应片段的说话者的身份;由所述数据处理硬件确定所述对应片段的所述说话者的身份是否包括与由所接收到的隐私请求所指示的所述隐私条件相关联的所述参与者;以及在所述对应片段的所述说话者的身份包括所述参与者时,将所述隐私条件应用于所述对应片段;以及由所述数据处理硬件处理所述音频数据的所述多个片段以确定所述音频数据的转录本。2.根据权利要求1所述的方法,其中,将所述隐私条件应用于所述对应片段包括:在确定所述转录本之后删除所述音频数据的所述对应片段。3.根据权利要求1所述的方法,其中,将所述隐私条件应用于所述对应片段包括:增强所述图像数据的所述对应片段以在视觉上隐藏所述音频数据的所述对应片段的所述说话者的身份。4.根据权利要求1-3中的任一项所述的方法,其中,处理所述音频数据的所述多个片段以确定所述音频数据的转录本包括:对于与应用所述隐私条件的所述音频数据的所述片段中的一个片段相对应的所述转录本的每个部分,将所述转录本的对应部分修改为不包括所述说话者的身份。5.根据权利要求1-4中的任一项所述的方法,其中,处理所述音频数据的所述多个片段以确定所述音频数据的转录本包括:对于应用所述隐私条件的所述音频数据的每个片段,省略转录所述音频数据的对应片段。6.根据权利要求1-5中的任一项所述的方法,其中,所述隐私条件包括内容特定条件,所述内容特定条件指示要从所述转录本中排除的内容类型。7.根据权利要求1-6中的任一项所述的方法,其中,从所述多个参与者中确定所述音频数据的所述对应片段的说话者的身份包括:基于所述图像数据来确定所述说话者的多个候选身份;对于所述多个候选身份中的每个候选身份,生成置信度分数,所述置信度分数指示基于所述图像数据的对应候选身份的面部包括所述音频数据的所述对应片段的说话面部的可能性;以及将所述音频数据的所述对应片段的所述说话者的身份选择为与最高置信度分数相关联的所述多个候选身份中的候选身份。8.根据权利要求1-7中的任一项所述的方法,其中,所述数据处理硬件驻留在所述多个
参与者中的至少一个参与者本地的设备上。9.根据权利要求1-8中的任一项所述的方法,其中,所述图像数据包括由所述数据处理硬件处理的高清晰度视频。10.根据权利要求1-10中的任一项所述的方法,其中,处理所述音频数据的所述多个片段以确定所述音频数据的转录本进一步包括:处理所述图像数据以确定所述转录本。11.一种系统,包括:数据处理硬件;以及存储器硬件,所述存储器硬件与所述数据处理硬件通信,所述存储器硬件存储指令,所述指令在所述数据处理硬件上执行时使所述数据处理硬件执行操作,所述操作包括:接收包括音频数据和图像数据的视听信号,所述音频数据对应于来自话音环境中的多个参与者的话音话语,以及所述图像数据表示所述话音环境中的所述多个参与者的面部;接收来自所述多个参与者中的参与者的隐私请求,所述隐私请求指示与所述话音环境中的所述参与者相关联的隐私条件;将所述音频数据分割成多个片段;对于所述音频数据的每个片段:基于所述图像数据来从所述多个参与者中确定所述音频数据的对应片段的说话者的身份;确定所述对应片段的所述说话者的身份是否包括与由所接收到的隐私请求所指示的所述隐私条件相关联的所述参与者;以及在所述对应片段的所述说话者的身份包括所述参与者时,将所述隐私条件应用于所述对应片段;以及处理所述音频数据的所述多个片段以确定所述音频数据的转录本。12.根据权利要求11所述的系统,其中,将所述隐私条件应用于所述对应片段包括:在确定所述转录本之后删除所述音频数据的所述对应片段。13.根据权利要求11所述的系统,其中,将所述隐私条件应用于所述对应片段包括:增强所述图像数据的所述对应片段以在视觉上隐藏所述音频数据的所述对应片段的所述说话者的身份。14.根据权利要求11-13中的任一项所述的系统,其中,处理所述音频数据的所述多个片段以确定所述音频数据的转录本包括:对于与应用所述隐私条件的所述音频数据的所述片段中的一个片段相对应的所述转录本的每个部分,将所述转录本的对应部分修改为不包括所述说话者的身份。15.根据权利要求11-14中的任一项所述的系统,其中,处理所述音频数据的所述多个片段以确定所述音频数据的转录本包括:对于应用所述隐私条件的所述音频数据的每个片段,省略转录所述音频数据的对应片段。16.根据权利要求11-15中的任一项所述的系统,其中,所述隐私条件包括内容特定条件,所述内容特定条件指示要从所述转录本中排除的内容类型。17.根据权利要求11-16中的任一项所述的系统,其中,从所述多个参与者中确定所述音频数据的所述对应片段的说话者的身份的操作包括:基于所述图像数据来确定所述说话者的多个候选身份;
对于所述多个候选身份中的每个候选身份,生成置信度分数,所述置信度分数指示基于所述图像数据的对应候选身份的面部包括所述音频数据的所述对应片段的说话面部的可能性;以及将所述音频数据的所述对应片段的所述说话者的身份选择为与最高置信度分数相关联的所述多个候选身份中的候选身份。18.根据权利要求11-17中的任一项所述的系统,其中,所述数据处理硬件驻留在所述多个参与者中的至少一个参与者本地的设备上。19.根据权利要求11-18中的任一项所述的系统,其中,所述图像数据包括由所述数据处理硬件处理的高清晰度视频。20.根据权利要求11-19中的任一项所述的系统,其中,处理所述音频数据的所述多个片段以确定所述音频数据的转录本进一步包括:处理所述图像数据以确定所述转录本。
技术总结
一种用于隐私感知转录的方法包括接收包括话音环境的音频数据和图像数据的视听信号以及来自话音环境中的参与者的隐私请求,其中,所述隐私请求指示所述参与者的隐私条件。所述方法进一步包括将所述音频数据分割成多个片段。对于每个片段,所述方法包括基于所述图像数据确定所述音频数据的对应片段的说话者的身份,以及确定所述对应片段的说话者的身份是否包括与隐私条件相关联的参与者。在所述对应片段的说话者的身份包括所述参与者时,所述方法包括将所述隐私条件应用于所述对应片段。所述方法还包括处理所述音频数据的多个片段以确定所述音频数据的转录本。段以确定所述音频数据的转录本。段以确定所述音频数据的转录本。
技术研发人员:奥利维尔
受保护的技术使用者:谷歌有限责任公司
技术研发日:2019.11.18
技术公布日:2022/6/24