基于感受的多媒体处理的制作方法

文档序号:9579483阅读:518来源:国知局
基于感受的多媒体处理的制作方法
【技术领域】
[0001] 本发明的实施例总体上涉及多媒体处理,更具体地,涉及基于用户感受的多媒体 数据处理。
【背景技术】
[0002] 已经开发了用于各种目的的大量多媒体数据(音频和/或视频)数据处理算法。 通常,多媒体处理算法可具有若干参数,其需要被调节以便实现最佳性能。目前,对于给定 算法的参数值的选择通常由少数算法开发者来确定。然而,已经注意到,给定算法的参数值 偏好可能是特定于内容的。也即,固定的参数值可能仅仅适用于特定的内容,而非所有可能 的多媒体内容。由此,不同的多媒体数据可以需要通过不同的方式加以处理。例如,对话增 强方法通常被应用于电影内容。如果它被用于不存在对话的音乐,可能会错误地提升某些 子频带,并且引入重音色和感受不一致。类似地,如果将噪声抑制方法应用于音乐信号,将 听到很强的瑕疵。
[0003] 鉴于以上事实,已经开发了一些方案来根据所处理的多媒体内容,动态地调节多 媒体处理算法的配置。例如,在音频领域,已经提出了一种方法,用于基于所处理的音频信 号的内容类别(例如,语音,音乐,电影)来动态地控制音频处理算法,并且选择最为适当的 参数值。
[0004] 然而,在某些情况下,通过将多媒体内容分类为预定义的类别来控制多媒体处理 可能无法优化用户体验。将会理解,诸如语音、音乐、电影的这些类别未必一定将底层算法 中的变化与优选的用户体验联系在一起。例如,某些语音内容和音乐内容可能对用户感受 具有相似或者相同的影响,因此应当利用相似的参数被处理。在这种情况下,利用不同的参 数来处理它们反而将给用户体验带来不利影响。
[0005] 由此,本领域中需要一种技术方案,能够以人类感受的最优体验来处理多媒体内 容。

【发明内容】

[0006] 为了解决上述以及其他潜在的问题,本发明提出一种用于基于感受的多媒体处理 的方法和系统。
[0007] 在一方面,本发明的实施例提供一种用于处理多媒体数据的方法。所述方法包括: 基于多个类而自动地确定关于所述多媒体数据的片段的用户感受,所述多个类与预定义用 户感受相关联地被获取;以及至少部分地基于所确定的关于所述片段的所述用户感受,处 理所述多媒体数据的所述片段。
[0008] 在另一方面,本发明的实施例提供一种用于处理多媒体数据的系统。所述系统包 括:感受确定单元,被配置为基于多个类而自动地确定关于所述多媒体数据的片段的用户 感受,所述多个类与预定义用户感受相关联地被获取;以及多媒体处理单元,被配置为至少 部分地基于所确定的关于所述片段的所述用户感受,处理所述多媒体数据的所述片段。
[0009] 通过下文描述将会理解,根据本发明的实施例,人类用户的感受体验/偏好与内 容的底层特征(诸如,动态范围、互相关和带宽)之间的相关性被建模和利用。通过使用与 统计聚类技术结合的心理学测试,生成了感受驱动的类(cluster)。以此方式,诸如语音、音 乐和电影之类的通常的语义类别被替换为底层处理算法与用户体验之间更加直接的联系。 示例实施例还支持特定于内容/用户方式的动态信号处理,这对于先前标识的内容类别之 外的新内容而言将是鲁棒的。本发明的实施例所带来的其他益处将通过下文描述而清楚。
【附图说明】
[0010] 通过参考附图阅读下文的详细描述,本发明实施例的上述以及其他目的、特征和 优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本发明的若干实施例,其 中:
[0011] 图1是根据本发明的示例实施例的用于处理多媒体数据的方法的流程图;
[0012] 图2是根据本发明的示例实施例的用于确定对多媒体的目标片段的用户感受的 方法的流程图;
[0013] 图3是根据本发明的一个示例实施例的基于感受类来确定用户感受的示意图;
[0014] 图4是根据本发明的另一示例实施例的基于感受类来确定用户感受的示意图;
[0015] 图5是根据本发明的示例实施例的用于确定对多媒体数据的目标片段的用户感 受的方法的流程图;
[0016] 图6是根据本发明的一个示例实施例的基于数据类来确定用户感受的示意图;
[0017] 图7是根据本发明的另一示例实施例的基于数据类来确定用户感受的示意图;
[0018] 图8是根据本发明的示例实施例的用于处理多媒体数据的系统的框图;以及
[0019] 图9是适于实现本发明的示例实施例的示例计算机系统的框图。
[0020] 在各个附图中,相同或对应的标号表7K相同或对应的部分。
【具体实施方式】
[0021] 下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解,描述 这些实施例只是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方 式限制本发明的范围。
[0022] 在此使用的术语"包括"及其变形是开放性包括,即"包括但不限于"。除非特别 声明,术语"或"表示"和/或"。术语"基于"是"至少部分地基于"。语"一个实施例"表示 "至少一个实施例";术语"另一实施例"表示"至少一个另外的实施例"。其他术语的相关定 义将在下文描述中给出。
[0023] 图1示出了根据本发明实施例的用于处理多媒体数据的方法100的流程图。多媒 体数据可以以任何适当的形式表示,包括但限于音频、视频和/或任何其他媒体内容。
[0024] 如图所示,方法100开始于步骤S101,在此基于多个类而动态地确定对多媒体数 据的一个片段的用户感受。特别地,根据本发明的实施例,所述多个类是与关于训练多媒体 数据的预定义用户感受相关联地获取的。
[0025] 在某些实施例中,在步骤S101处使用的预定义类包括多个感受类(perceptual cluster)。在此使用的术语"感受类"是指对于一个或多个特定的多媒体处理算法而言,人 类可能具有相似或者相同感受或偏好的多媒体内容或者数据的群组。也即,感受类是这样 生成的:根据关于训练多媒体数据的预定义用户感受,直接对训练多媒体数据进行聚类。在 一个特定实施例中,一个感受类中的数据可以使用具有相同处理配置的一组相同的多媒体 处理算法来处理。
[0026]用户感受可以通过多种方式获得。例如,在某些实施例中,可以请人类用户体验多 媒体数据的训练集,例如,收听音频和/或观看视频。继而,向用户提出特定的问题,以获得 与训练多媒体数据有关的主观偏好或者反应。例如,用户可以指明他们在体验训练集中的 每段内容之后的表情、情绪和/或感受的任何其他方面。还可以收集关于如何配置特定的 多媒体信号处理算法的人类偏好的信息,这反映了多媒体内容被如何呈现和体验。继而,根 据用户提供的回答给训练多媒体数据加标签。基于感受标签,可以对训练多媒体数据进行 聚类以形成感受类。
[0027]附加地或者备选地,在某些其他实施例中,可以通过应用预定义的客观度量来检 测用户感受,其形式是感受属性和/或多媒体数据的质量。可以应用在国际标准中已经提 出的各种客观的音频质量测量。示例包括但不限于PEAQ(音频质量的感受评估)、客观的语 音质量评价、多声道音频压缩编码系统中的感受音频质量的客观测量,等等。这种客观度量 可以隐式地反映总体用户感受,并且可以通过自动的基于计算机的方式而获得。由此,可以 基于一个或多个客观度量对训练集中的多媒体数据进行聚类。
[0028] 除了感受类之外或者作为替代,在步骤S101处使用的预定义类可以包括多个数 据类(datacluster)。在此使用的术语"数据类"是指具有相似或者相同底层信号特征的 一组多媒体数据。信号特征的示例包括但不限于:动态范围、互相关、带宽,等等。一般地, 在这样的实施例中,首先利用特定的特征来表示多媒体数据,该特征从多媒体数据的频域 或者时域表示被导出(通常是逐帧的)。继而,向特征表示应用数据聚类算法,以便对训练 多媒体数据进行聚类。例如,可以使用无督导聚类算法。在聚类时,在特征空间中靠近的多 媒体信号将被分组为一个数据类。特别地,根据本发明的实施例,除了底层信号特征之外, 在生成数据类的同时或者在生成之后,还将把关于多媒体数据的用户感受纳入考虑。这方 面的示例实施例将在下文描述。
[0029] 在步骤S101,对于输入多媒体数据的任何目标片段,关于该片段的用户感受基于 预定义的感受类和/或数据类而被动态确定。特别地,可以选择该片段所属的或者相关的 一个或多个感受类和/或数据类。继而,与所选的类相关联的预定义用户感受可以被用来 得出对该片段的用户感受。示例实施例将随后讨论。
[0030] 如图1所示,方法100继而进行到步骤S102,在此至少部分地基于所确定的关于片 段的用户感受,来处理多媒体数据的所述片段。一般地,每类用户感受与对应的处理算法配 置之间的关联关系被事先确定和存储。特别地,在某些实施例中,预定义的用户感受本身可 以通过对应的处理配置来表示,其形式例如是用于处理参数的一组的推荐值。
[0031] 这样,在步骤S102处,可以使用在步骤S101处确定的目标片段的用户感受,来获 取多媒体处理的对应配置。例如,在某些实施例中,可以基于确定的用户感受来为该片段选 择适当的处理算法。备选地或附加地,可以使用确定的片段用户感受来配置处理算法,例如 通过选择一个或多个参数的适当值或者通过选择执行模式。
[0032] 现在将描述某些具体示例,以说明在步骤S101处如何确定对多媒体的一个片段 的用户感受。图2示出了用于确定对输入多媒体数据的一个目标片段的用户感受的方法 200的流程图。将会理解,方法200是步骤S101的一种具体实现。
[0033]在结合图2讨论的实施例中,在步骤S101处使用的多个预定义类包括感
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1