使用合成图像特征来对音频场景进行分类的制作方法

文档序号：31388881发布日期：2022-09-03 02:01阅读：来源：国知局

技术特征：
1.一种计算系统，包括：具有存储指令的相关联的存储器的处理器，所述指令使所述处理器对多个输入图像中的每一者在训练时执行：编码器，所述编码器被配置成接收所述多个输入图像中的一个输入图像并将所述输入图像编码成真实图像特征；解码器，所述解码器被配置成从所述编码器接收所述真实图像特征并将所述真实图像特征解码成经重构图像；生成器，所述生成器被配置成接收对应于所述输入图像的第一音频数据并从所述第一音频数据中生成第一合成图像特征，并且接收第二音频数据并从所述第二音频数据中生成第二合成图像特征；鉴别器，所述鉴别器被配置成接收所述真实图像特征和第一合成图像特征并输出对目标特征是真实的还是合成的确定；以及分类器，所述分类器被配置成接收所述第二合成图像特征并基于所述第二合成图像特征来对所述第二音频数据的场景进行分类。2.如权利要求1所述的计算系统，其中所述解码器被进一步配置成从所述第一合成图像特征中构造第一合成图像并从所述第二合成图像特征中构造第二合成图像。3.如权利要求2所述的计算系统，其中所述处理器被进一步配置成循环进行以下操作：训练所述编码器和所述解码器以提高所述经重构图像和所述第一合成图像中的每一者与相应输入图像的相关性；基于所述鉴别器输出的所述确定来训练所述生成器；以及在所述编码器被固定时训练所述鉴别器。4.如权利要求3所述的计算系统，其中所述处理器被进一步配置成在所述编码器、解码器、生成器和鉴别器被固定时训练所述分类器。5.如权利要求1所述的计算系统，其中：所述第一音频数据对应于被一起记录的视听对中的输入图像，所述第二音频数据不与图像配对，并且所述第一音频数据和所述第二音频数据是在实质上不同的地理位置生成的记录。6.如权利要求1所述的计算系统，其中：所述编码器、所述解码器、所述生成器、所述鉴别器、以及所述分类器构成视听生成对抗网络，所述编码器和所述解码器包括向量量化变分自动编码器架构，并且所述分类器包括卷积神经网络(cnn)架构。7.如权利要求1所述的计算系统，其中所述处理器被进一步配置成在运行时执行：所述生成器，所述生成器被进一步配置成从第三音频数据中生成第三合成图像特征；以及所述分类器，所述分类器被进一步配置成基于所述第三合成图像特征来对所述第三音频数据的场景进行分类。8.一种方法，包括对于多个输入图像中的每一者在训练神经网络时在处理器处：接收所述多个输入图像中的一个输入图像并将所述输入图像编码成真实图像特征；
将所述真实图像特征解码成经重构图像；接收对应于所述输入图像的第一音频数据并从所述第一音频数据中生成第一合成图像特征，并且接收第二音频数据并从所述第二音频数据中生成第二合成图像特征；输出对所述真实图像特征和所述第一合成图像特征中的目标特征是真实的还是合成的确定；以及基于所述第二合成图像特征来对所述第二音频数据的场景进行分类。9.如权利要求8所述的方法，进一步包括从所述第一合成图像特征中构造第一合成图像并从所述第二合成图像特征中构造第二合成图像。10.如权利要求9所述的方法，进一步包括循环进行以下操作：训练编码器和解码器以提高所述经重构图像和所述第一合成图像中的每一者与相应输入图像的相关性；基于鉴别器输出的确定来训练生成器以创建所述第一合成图像特征；以及在所述编码器被固定时训练所述鉴别器。11.如权利要求10所述的方法，进一步包括在所述编码器、解码器、生成器和鉴别器被固定时训练分类器以对所述场景进行分类。12.如权利要求11所述的方法，其中所述编码器、所述解码器、所述生成器、所述鉴别器、以及所述分类器构成视听生成对抗网络，所述编码器和所述解码器包括向量量化变分自动编码器架构，并且所述分类器包括卷积神经网络(cnn)架构。13.如权利要求8所述的方法，其中所述第一音频数据对应于被一起记录的视听对中的输入图像，所述第二音频数据不与图像配对，并且所述第一音频数据和所述第二音频数据是在实质上不同的地理位置生成的记录。14.如权利要求8所述的方法，进一步包括在所述处理器处在运行时：从第三音频数据中生成第三合成图像特征；以及基于所述第三合成图像特征来对所述第三音频数据的场景进行分类。15.如权利要求14所述的方法，进一步包括在运行时：从所述第三合成图像特征中构造第三合成图像；以及将所述第三合成图像显示为视频聊天中的参与者的背景图像，所述第三合成图像包括与所述第三音频数据的经分类场景相关的一般特征且缺少所述参与者的真实世界背景的隐私标识特征。

技术总结
一种计算系统包括接收输入图像并将该输入图像编码成真实图像特征的编码器；将该真实图像特征解码成经重构图像的解码器；生成器，该生成器接收对应于该输入图像的第一音频数据并从该第一音频数据中生成第一合成图像特征，并且接收第二音频数据并从该第二音频数据中生成第二合成图像特征；鉴别器，该鉴别器接收真实和合成图像特征这两者并确定目标特征是真实的还是合成的；以及分类器，该分类器基于第二合成图像特征来对第二音频数据的场景进行分类。进行分类。进行分类。

技术研发人员：E
受保护的技术使用者：微软技术许可有限责任公司
技术研发日：2020.11.24
技术公布日：2022/9/2

完整全部详细技术资料下载

当前第2页1 2