使用生成式模型和潜在域量化的信号编解码的制作方法

文档序号：34733043发布日期：2023-07-08 04:48阅读：275来源：国知局

本公开涉及信号编解码的领域。特别地，本公开涉及使用生成式模型和潜在域量化的信号编解码。

背景技术：

1、使用(深度)神经网络实现的生成式模型已证明它们在涉及信号合成的任务中的有用性。这样的任务的示例是音频编解码，包括例如其中音频信号基于由对应的编码器提供的其有限位速率表示来重构的解码。在这样的编解码任务中，生成式模型可以通过实现意在表示音频信号的条件概率分布函数并且然后根据这个分布重构信号来执行信号重构。概率分布函数可以以一个或多个先前重构的音频信号的帧为条件。此外，附加的条件作用信息常常以有限位速率表示来提供，并且通常被周期性地更新以反映信号的可变性，例如信号的每一帧一次。

2、然而，音频信号可能难以建模，而且，至少在一些情形下并且即使在提供了附加的条件作用信息时，也可能无法训练高效的生成式模型(由于例如复杂性约束、训练数据的可用性、和/或生成式模型采用的特定算法的限制)。在一些情形下，生成式模型因此将仅逼近真实的未知模型，这会导致建模不匹配。

3、鉴于以上，因此需要改善的、基于生成式模型的编解码方案。

技术实现思路

1、因此，本公开的目标是要至少部分地满足以上识别的需要。

2、根据本公开的第一方面，提供了一种解码器。解码器被配置为接收包括量化的潜在帧的有限位速率流。量化的潜在帧包括潜在域中的信号的当前帧的量化表示。潜在域与第一域不同。解码器被配置为从量化的潜在帧生成重构的潜在帧。解码器被配置为使用生成式神经网络模型(下文中称为“模型”)以执行任务，模型已针对该任务进行训练。任务包括对从潜在域到第一域的可逆映射生成参数。解码器被配置为重构第一域中的信号的当前帧，其包括通过使用可逆映射来将重构的潜在帧映射到第一域。解码器还被配置为使用重构的第一域中的信号的当前帧以更新生成式神经网络模型的状态(使得模型随后准备好处理信号的下一个未来帧)。

3、根据本公开的第二方面，提供了一种编码器。编码器被配置为接收第一域中的信号的当前帧。编码器被配置为使用(生成式神经网络)模型以执行任务，模型已针对该任务进行训练。任务包括对从第一域到潜在域的可逆映射提供参数。潜在域与第一域不同。编码器被配置为通过使用可逆映射将信号的当前帧的至少一部分映射到潜在域来生成潜在帧。潜在帧包括潜在域中的信号的当前帧的表示。编码器被配置为基于生成的潜在帧生成量化的潜在帧。编码器还被配置为生成包括量化的潜在帧的有限位速率流。

4、根据本公开的第三方面，提供了一种对信号的当前帧进行解码的方法。该方法包括由根据第一方面的以上记载的解码器执行的步骤。

5、根据本公开的第四方面，提供了一种对信号的当前帧进行编码的方法。该方法包括由根据第二方面的以上记载的编码器执行的步骤。

6、根据本公开的第五和第六方面，提供了相应的非暂态计算机可读介质。每个介质存储指令，这些指令在由属于计算机硬件的至少一个计算机处理器执行时可操作以使计算机硬件执行分别根据第三和第四方面的如以上记载的对信号的当前帧进行编码和/或解码的方法。

7、根据本公开的第七方面，提供了一种用于传送信号的当前帧的编解码系统。编解码系统包括至少一个根据第一方面的如以上记载的编码器和至少一个根据第二方面的如以上记载的解码器。编解码系统还包括用于在编码器与解码器之间传送包括量化的潜在帧的有限位速率流的部件。

8、音频信号可能难以建模，而且，至少在一些情形下，可能无法训练高效的生成式模型(由于例如复杂性约束、训练数据的可用性、和/或生成式模型采用的特定算法的限制)。在一些情形下，生成式模型因此将仅逼近真实的未知模型，这会导致建模不匹配。

9、在使用这样的生成式模型以进行编解码的许多最新的系统中，利用的编解码方案附加地包括将全部位预算花费在编码器与解码器之间的条件作用信息的传送上。本公开通过提供其中在编码器与解码器之间传送的位流中的一个或多个位被改为分配用于运送量化的潜在帧的编解码方案来改善最新的技术。这个量化的潜在帧可以允许使得能够对否则由生成式模型无法解释的信号的一个或多个方面进行编解码。这可以有助于通过促进灵活的速率-失真权衡来实现使用生成式模型的编解码方案的速率-失真可扩展性，并且通过促进潜在域中的编解码来处理建模不匹配。如稍后本文将更详细地描述的，本公开还可以提供例如针对零位速率条件作用训练的生成式模型，从而导致其中整个位预算改为分配给量化的潜在帧的编解码方案。如果例如潜在变量在分组中发送，那么这样的编解码方案可以促进分组丢失隐藏，因为模型可以被训练为通过合成地重构的潜在变量来替换这样的丢失的分组。此外，实现针对零位速率条件作用训练的生成式模型的编码器可以不需要否则可能估计条件作用变量所需的附加编解码延迟。这样的编解码方案可以例如在低延迟编解码中(诸如例如对于语音或音频的低延迟传送)是有用的。

10、本公开涉及在权利要求中记载的特征的所有可能组合。根据第一方面描述的目的和特征可以与根据第二方面、第三方面和/或第四方面描述的目的和特征组合或由其替换，反之亦然。

11、下面将借助于示例性实施例描述本公开的各种实施例的另外的目的和优点。

技术特征：

1.一种解码器(200，201)，被配置为：

2.根据权利要求1所述的解码器，其中所述生成式神经网络模型已被训练为还基于条件作用信息(265)执行所述任务，所述条件作用信息(265)与当前帧(t)和未来帧(>t)中的至少一个相关联。

3.根据权利要求1或2所述的解码器，包括被配置为在同一有限位速率帧流中接收所述量化的潜在帧、以及与当前帧和未来帧中的至少一个相关联的条件作用信息或这样的条件作用信息没有被包括在所述同一有限位速率帧流中的指示的部件，并且其中所述解码器被配置为如果所述同一有限位速率帧流包括所述指示，那么在不使用这样的条件作用信息的情况下执行所述任务。

4.根据权利要求2所述的解码器，包括被配置为在同一有限位速率帧流中接收所述量化的潜在帧和旧有编解码器数据、并且还被配置为从所述旧有编解码器数据重构信号作为所述条件作用信息的至少一部分的部件。

5.根据权利要求1至4中的任一项所述的解码器，其中所述任务包括预测所述第一域中的所述信号的当前帧，并且其中生成所述第一域中的所述信号的当前帧包括通过使用映射到所述第一域的所述重构的潜在帧来校正预测的当前帧。

6.一种编码器(100，101，102，103)，被配置为：

7.根据权利要求6所述的编码器，其中所述编码器还被配置为输出另外的有限位速率流，所述另外的有限位速率流包括这样的条件作用信息。

8.根据权利要求6或7所述的编码器，还被配置为输出同一有限位速率帧流，所述同一有限位速率帧流包括所述量化的潜在帧、以及与当前帧和未来帧中的至少一个相关联的条件作用信息或这样的条件作用信息没有被包括在所述同一有限位速率流中的指示。

9.根据权利要求6至8中的任一项所述的编码器，还被配置为：

10.根据权利要求9所述的编码器，其中所述可逆映射包括仿射变换。

11.根据权利要求9或10所述的编码器，被配置为通过使用流模型来生成所述可逆映射。

12.根据权利要求6至11中的任一项所述的编码器，其中包括所述量化的潜在帧的有限位速率流的位速率基于感知速率分配模型(150)进行分配。

13.根据权利要求9至12中的任一项所述的编码器，其中包括所述量化的潜在帧的有限位速率流的位速率基于接收的所述第一域中的所述信号的当前帧与重构的所述第一域中的所述信号的当前帧之间的差异进行分配。

14.根据权利要求6至13中的任一项所述的编码器，被配置为通过使用消减抖动(174)、后跟增益(175)来生成所述量化的潜在帧。

15.根据权利要求6至14中的任一项所述的编码器，被配置为通过从具有不同的量化步长大小的多个量化器、包括零速率噪声填充进行选择来生成所述量化的潜在帧。

16.一种对信号的当前帧进行解码的方法(320)，包括：

17.一种对信号的当前帧进行编码的方法(310)，包括：

18.一种存储指令的非暂态计算机可读介质，所述指令在由属于计算机硬件的至少一个计算机处理器执行时可操作以使所述计算机硬件执行根据权利要求16所述的对信号的当前帧进行解码的方法。

19.一种存储指令的非暂态计算机可读介质，所述指令在由属于计算机硬件的至少一个计算机处理器执行时可操作以使所述计算机硬件执行根据权利要求17所述的对信号的当前帧进行编码的方法。

20.一种用于传送信号的当前帧的编解码系统(400)，包括至少一个根据权利要求1至5中的任一项所述的解码器(420)、至少一个根据权利要求6至15中的任一项所述的编码器(410)、以及用于在所述编码器与所述解码器之间传送包括量化的潜在帧的有限位速率流(430)的部件(440)。

技术总结
本公开提供了一种解码器，所述解码器被配置为接收有限位速率流，所述有限位速率流包括量化的潜在帧，其中所述量化的潜在帧包括潜在域中的信号的当前帧的量化表示，所述潜在域与第一域不同；从所述量化的潜在帧生成重构的潜在帧；使用生成式神经网络模型以执行任务，所述生成式神经网络模型已针对所述任务进行训练，其中所述任务包括对从所述潜在域到所述第一域的可逆映射生成参数；重构所述第一域中的所述信号的当前帧，其包括通过使用所述可逆映射来将所述重构的潜在帧映射到所述第一域，以及使用重构的所述第一域中的所述信号的当前帧以更新所述生成式神经网络模型的状态。

技术研发人员：J·克里萨,L·维尔莫斯,P·何德林
受保护的技术使用者：杜比国际公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J
技术所有人：杜比国际公司
我是此专利的发明人

上一篇：用于验证夹持式超声测量装置的方法与流程
上一篇：内窥镜和内窥镜系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。