多媒体表演的基于模板的摘录和呈现的制作方法

文档序号:29112392发布日期:2022-03-02 06:05阅读:69来源:国知局
多媒体表演的基于模板的摘录和呈现的制作方法
多媒体表演的基于模板的摘录和呈现


背景技术:

1.移动电话和其他便携式计算设备的安装基础在数量和计算能力方面与日俱增。几乎无处不在并深深植根于世界各地人们的生活方式中,移动设备几乎跨越了每个文化和经济障碍。在计算方面,现代移动电话可提供与几年前的台式计算机相当的速度和存储能力,从而实现按需声音合成和其他音乐应用。因此,包括智能电话在内的一些现代移动电话可支持音频和视频的基本回放。
2.然而,移动设备平台、网络、应用执行环境和庞大的内容量仍然对应用开发者向移动设备的用户提供对视听娱乐的引人注目的用户体验的能力施加了重大的实际限制。回放自定义选项可能受到限制,比如限于一次手动调整整个内容实例的回放设置。其他内容实例可能仅在整个内容实例之间或者在可能破坏自然回放流的预定断点处交替或插入。
3.用于回放的内容实例,比如歌曲记录的视频或音频文件或该歌曲的伴奏音轨,可能无法区分歌曲的结构元素,例如主歌、副歌、桥接、副歌旋律(hook)等的音乐理论概念,以及它们在歌曲内的结构边界。在不了解内容实例内的此类结构边界的情况下,诸如用于自定义和插入其他内容之类的回放选项受到限制且缺乏粒度。


技术实现要素:

4.本文公开了用于多媒体表演的基于模板的摘录和呈现的系统、装置、设备、方法和/或计算机可读存储介质实施例、和/或其组合和子组合。
5.在一些实施例中,至少一个计算机处理器可被配置为检索第一内容实例和对应的第一元数据。第一内容实例可包括第一多个结构元素,例如,其中至少一个结构元素对应于第一元数据的至少一部分。
6.在一些实施例中,至少一个计算机处理器还可被配置为选择包括第一组参数的第一模板。例如,第一组参数中的参数可以适用于至少一个结构元素。另外,至少一个处理器可以将第一模板的适用参数和与至少一个结构元素相对应的第一元数据的至少一部分相关联。
7.在一些实施例中,至少一个计算机处理器还可被配置为由在该至少一个计算机处理器上运行的渲染引擎变换第一内容实例。例如,该转换可包括根据适用参数来配置要回放的第一内容实例的至少一个结构元素。另外地或替代地,呈现引擎可以在内容回放设备的至少一个处理器上运行。
8.在一些实施例中,至少一个计算机处理器还可以被配置为将转换后的第一内容实例传输到内容回放设备。另外地或替代地,内容实例可以由内容回放设备的至少一个处理器来播放。
9.在检查以下附图/附图和详细描述后,本发明的其他实施例、特征和优点对本领域技术人员而言将是显而易见的,或者将变得显而易见。意图是所有这样的附加实施例、特征和优点都包括在本说明书中、在本公开的范围内,并且受到以下权利要求的保护。
附图说明
10.附图并入本文并形成说明书的一部分。
11.图1是示出根据一些实施例的在作为主客配置的系统组件的说明性计算设备之间的流程的图。
12.图2是示出根据一些实施例的在网络上的一些系统组件之间的示例交互的图。
13.图3是示出根据一些实施例的包括一些系统组件的示例架构的图。
14.图4是示出根据一些实施例的实现本文描述的一些增强的技术的过程的流程图。
15.图5是示出根据一些实施例的实现本文描述的一些增强的技术的过程的流程图。
16.图6是用于实现各种实施例的示例计算机系统。
17.在附图中,相似的参考编号通常指示相同或类似的元件。此外,通常,参考编号最左边的(一个或多个)数字标识该参考编号首次出现于其中的附图。
具体实施方式
18.本文提供了用于多媒体表演技术的基于模板的摘录和呈现的系统、装置、设备、方法和/或计算机可读存储介质实施例、和/或其组合和子组合。
19.移动电话可被配置为产生声音,也可被配置为用作声音捕获设备。无处不在、数量多和手持便携性的优点使得几乎随时随地将艺术家和粉丝聚集在一起进行表演可行。在几个发展中的研究机构中已经探索了移动音乐领域,这些研究机构已表明可以以提供引人注目的用户体验的方式提供先进的数字声学技术。
20.尽管数据量、移动设备平台、网络和应用执行环境施加了实际限制,但通过采用如本文描述的增强的技术,包括人声音乐在内的视听表演可以以创造以前在具有专业设备的专用工作室之外不可行的有意义的音乐表演的方式被捕获、处理和/或与其他用户的那些进行协调。
21.在一些情况下,在移动设备上,在与伴奏音轨的可听呈现相对应的卡拉ok风格的歌词呈现的上下文中,个人用户的人声表演可被捕获,并且可包括与表演同步的视频。捕获的音频可以用实时音高校正进行处理,从而帮助用户克服他们对其歌唱质量的害羞或不确定性。在共同拥有的美国专利第9,058,797号和第9,754,571号中描述了此类处理的进一步示例,其全部内容通过引用并入本文。
22.在一些情况下,多个歌手的贡献可被协调和混合,从而创建虚拟“合唱团”(其包括来自世界各地的成员)的表演。在共同拥有的美国专利第8,983,829号和第9,721,579号中描述了此类技术的进一步示例,其全部内容通过引用并入本文。在一些情况下,多个歌手的表演可以以可使得能够选择一个或多个贡献者的表演同步音频和/或视频的突出呈现的方式组合。特定表演同步音频和/或视频的突出呈现可以基于音乐或与乐谱相关的部分歌曲结构边界。另外地或替代地,突出呈现可以至少部分地基于与从捕获的人声音频中提取(或通过其计算)的计算定义的音频特征有关的随时间变化的参数。在共同拥有的美国专利第9,911,403号中描述了此类处理的进一步示例,其全部内容通过引用并入本文。
23.在一些情况下,在其视听表演之前、期间或之后,用户可以选择各种音频和/或视频过滤效果,这些效果可以要么在设备本身上要么在网络连接的服务器上应用。在一些情况下,可以在整首歌曲中尤其与歌曲内的结构边界(这些结构边界可以对应于诸如主歌、副
歌、桥接、副歌旋律或其他结构元素之类的音乐理论概念)对齐改变这些效果。
24.在这些情况下,可以通过各种数字信号处理算法来修改人声音频,这些数字信号处理算法包括回声、混响、动态范围压缩或根据人声表演的特定调或音阶的音高校正,仅举几个非限制性示例。在一些实施例中,还可以添加和声音符或和弦作为音频滤波器应用的一部分。例如,来自多个表演者的声音音频可以通过诸如平移、移位、镶边和其他过滤器之类的音效而被混合、合成、增强和/或强调。
25.同样在这些情况下,可以通过各种视频效果或过滤器来修改捕获的视频,这些视频效果或过滤器包括模糊或锐化、色图修改、背景增强或替换、动画、面部附件或覆盖(兔耳朵、太阳镜、帽子、假发等)、面部增强(鼻子或眼睛放大等)、文本显示(比如歌词、翻译、评论等)、场景之间的过渡,其可以例如定时到内容片段或内容片段之间的过渡。对于已从多个歌手捕获的视听表演,可以使用擦除、淡入淡出、叠化、多帧分块和其他视频效果来组合来自这些不同表演者的视频分量。
26.可以至少部分地基于本文描述的增强的技术将这些虚拟视听表演与随时间变化的音频和/或视频效果、过滤器、过渡等结合。此外,该增强的内容可由用户在社交媒体平台、促销渠道上经由电子邮件和文本和/或共享媒体和相关内容的类似手段进行共享。在这样的系统中也可以提供用于邀请其他歌手加入虚拟表演的机制。
27.这种视听表演对用户来说可能是引人注目的和引人入胜的,尤其是当通过随时间变化的音频和/或视频过滤器、效果和过渡进行增强时。例如基于与音乐结构有关的部分和分量应用这些过滤器、效果和过渡可使最终产品更加有效。此外,过滤器、效果和过渡可被安排为唤起某些情绪或心情,比如“快乐”、“悲伤”、“下雨天”、“浪漫”、“生日庆祝”等。为了实现基于结构边界将这样的效果应用于内容实例的部分或分量的自动化过程,一个或多个计算机处理器可以使用专门的模板。
28.模板可包括可能适用于视听内容的风格选择的收集或集合。风格选择可包括视听过滤器。音频过滤器的示例包括:音高偏移、和声、回声和/或混响、均衡、动态范围压缩/扩展、幅度或频率调制等。
29.视频过滤器的示例包括:模糊或锐化、色图修改、背景增强或替换、动画、面部附件或覆盖(兔耳朵、太阳镜、帽子、假发等)、面部增强(鼻子或眼睛放大等)、文本显示(比如歌词、翻译、评论等)、场景之间的过渡(其可以例如定时到内容片段或内容片段之间的过渡)。模板内包含的风格选择可以映射到诸如音乐作品之类的内容实例的结构元素。
30.这样,模板可以应用于其中的基础音乐作品的结构是已知的任何视听内容。模板还可包括关于在给定的视听内容实例内要包括、排除或改变哪些风格和/或结构元素的信息,从而允许基于模板和/或模板中或伴随模板的任何指令重新排序或编辑内容。应用模板可以允许最终用户立即给他们创建或消费的内容赋予不同的“外观和感觉”。
31.模板可以允许平台通过应用不同的模板从相同的源材料创建多个不同的视听内容片段来增加该平台上可用的内容的多样性。模板可以允许平台以音乐上正确、主观上令人愉悦和用户友好的方式自动为第三方平台(例如facebook、twitter、snapchat、instagram stories等)重新格式化和重新组装视听内容。
32.在高层次上,例如,最终用户可以创建包含smule内容的录音,创建和/或应用模板来消费、发布或跟踪在给定平台上发布的录音或促销活动。某些人工智能(ai)或机器学习
(ml)实现可以(从手动创建的训练集)进行训练,并且可以通过利用来自用户的直接/间接反馈和指标进行有监督/无监督学习随着时间的推移而改进。ml还可被配置为过滤或调整促销演示以避免观众疲劳。
33.图1描绘了根据一些实施例的作为用于直播多个表演者的视听表演的主客配置的系统组件的说明性移动电话型便携式计算设备之间的信息流(数据流)和控制流(过程流)。这些组件还可包括至少一个处理器和存储器,比如图6中的那些。作为一种实际实现方式,例如,在一些实施例中,在图1中示出的任何组件之间编排的任何动作都可被视为方法400或500中的任何对应步骤的示例,方法400或500实现本文描述的用于多媒体表演的基于模板的摘录和呈现的增强的技术。
34.可以以可以创造引人注目的用户和听众体验的方式捕获包括人声音乐在内的视听表演并将这些视听表演与其他用户的表演协调。例如,在一些情况或实施例中,可以在与艺术家一起唱歌风格的视听直播中支持与主表演者的二重唱或其他团体表演,其中渴望表演的歌手针对实况广播节目娱乐格式请求或排队特定歌曲。增强的技术可以提供在地理上分离的设备处(例如,在全球分布但网络连接的移动电话或平板计算机处,或者在地理上与现场演播室分离的视听捕获设备处)捕获的同步人声表演。
35.在一些实施例中,可以实现纯音频的实施例。此外,流直播内容可包括结合人声捕获的表演同步的视频。此外,虽然网络连接的移动电话被示出为视听捕获设备,但是基于本文的描述将理解,视听捕获和观看设备可包括适当配置的计算机、智能电视、客厅风格机顶盒配置、和/或具有音频和/或视听捕获设备或能力的虚拟助理设备。虽然详细描述了对人声音乐的应用,但是基于本文的描述将理解,音频或视听捕获应用不必限于独唱或二重唱,而是可以适用于其他形式的团体表演,其中一个或多个连续的表演可被积聚到之前的表演以产生流直播。
36.在一些情况下,可以在卡拉ok风格的歌词呈现的上下文中并且与伴奏音轨的可听渲染相对应地捕获协作贡献者的人声表演(连同表演同步的视频)。在一些情况下,可以作为现场或无脚本表演的一部分利用协作贡献者之间的人声交互(例如,二重唱或对话)捕获人声和/或同步视频。在每种情况下,设想到在至少一些协作贡献者之间将存在不可忽略的网络通信时延,特别是在这些贡献者可能在地理上分开的情况下。结果,存在以这样一种方式管理时延和捕获的视听内容的技术挑战,即仍然可以以可以作为现场互动协作呈现给接收者、收听者和/或观众的方式传播(例如,广播)组合的视听表演。
37.虽然出于说明的目的,本文的大部分描述假定特定主机设备上的固定主表演者,但是基于本文的描述将理解,根据本公开的一些实施例可以提供主人/访客控制逻辑,该控制逻辑允许主人“传递麦克风”,以使得新用户(在一些情况下是当前主人所选择的用户,其他情况是在当前主人“放下麦克风”之后“拿起麦克风”的用户)可以接任主人。同样,基于本文的描述将理解,根据本公开的一些实施例可以提供主人/访客控制逻辑,该控制逻辑将访客(和/或渴望表演的主人)排队并自动将排队的用户指派给适当角色。
38.在某些情况或实施例中,可以在卡拉ok风格的用户界面框架中与表演同步的视频一起捕获各个主人和访客角色表演者的人声音频,并将其与其他用户的视听贡献协调以形成二重唱风格或合唱团风格的团体视听表演。例如,在与伴奏音轨的可听渲染相对应的卡拉ok风格的歌词呈现的上下文中,可以在移动设备、电视类型的显示器和/或机顶盒设备上
捕获个人用户的人声表演(连同表演同步的视频)。在某些情况或实施例中,可以提供乐谱编码的连续音高校正以及用户可选择的音频和/或视频效果。与前述一致,但不限于所要求保护的任何特定实施例,使用便携式手持设备的卡拉ok风格的人声表演捕获提供了说明性的上下文。
39.使用移动电话类型和/或电视类型视听设备的音高校正、卡拉ok风格的人声捕获可以以非限制性示例的形式提供有用的描述性上下文。在诸如图1中所示的一些实施例中,分别作为访客和主机设备操作的手持设备101a、101b执行软件,该软件与内容服务器110协同操作以提供人声捕获。该配置可选地提供所捕获人声的连续实时、乐谱编码的音高校正和协调。也可以使用由计算机、电视或其他视听设备(未示出)或连接的机顶盒设备提供或与计算机、电视或其他视听设备或连接的机顶盒设备相连的相机来捕获表演同步的视频。在一些实施例中,可以使用由与连接的机顶盒设备配对的手持设备提供的机载相机来捕获表演同步的视频。在2016年10月28日提交的共同拥有的、共同待决的美国专利申请第15/337,866号中详述了合适的技术,该申请的全部内容通过引用并入本文。
40.在图1的图示中,当前主机设备101b的当前主用户至少部分地控制可以为设备120a、120b
……
120n上的观众缓冲并向这些观众流送的流直播122的内容。在所示配置中,当前访客设备101a的当前访客用户可以对群组视听表演混合111做出贡献,群组视听表演混合111可以由当前主机设备101b(最终经由内容服务器110)作为流直播122提供。尽管设备120a、120b
……
120n以及实际上当前的访客和主机设备101a、101b为了简单起见被示出为诸如移动电话之类的手持设备,但是受益于本公开的本领域技术人员将理解,任何给定的观众成员可以在任何合适的计算机、智能电视、平板计算机上经由机顶盒或其他具有流送媒体能力的客户端接收直播122。
41.可以被混合以形成团体视听表演混合111的内容可以在所示配置中在卡拉ok风格的表演捕获的上下文中被捕获,其中歌词102、可选的音高提示105和伴奏音轨107可被从内容服务器110供应给当前访客设备101a和当前主机设备101b中的任一者或两者。当前访客设备101a处的歌词滚动102a和可选音高提示105a可以与伴奏音轨107a在时间上相对应,并且同样可以受到当前访客的开始/停止/暂停控制。在某些情况或情形下,可以从驻留在手持设备、机顶盒等上或可从手持设备、机顶盒等访问的媒体商店呈现伴奏音频和/或视频。
42.相应的电信运营商无线设施和/或无线局域网以及相应的广域网网关(未示出)可以提供去往和来自设备101a、101b、120a、120b
……
120n的通信。基于本文的描述,本领域技术人员将认识到,包括802.11wi-fi、蓝牙(bluetooth)、4g-lte无线、有线数据网络、诸如根据hdmi、avi、wi-di的有线或无线视听互连在内的各种数据通信设施或者等效的标准或设施中的任何一种可被单独或组合使用以促进本文描述的通信和/或视听呈现。
43.用户人声103a和103b可以在相应的手持设备101a、101b处被捕获,并且可以可选地连续和实时地进行音高校正并被可听地渲染、与本地适当的伴奏音轨(例如,当前访客设备101a处的伴奏音轨107a和当前主机设备101b处的访客混合106)混合以向用户提供他/她自己的人声表演的改进的音调质量演绎。音高校正可以基于乐谱编码的音符组或提示(例如,分别在当前访客设备101a处和在当前主机设备101b处可视化显示的音高和和声提示105a、105b),其向在相应设备上执行的连续音高校正算法提供当前调或音阶中的表演同步的目标音符序列。除了表演同步的旋律目标之外,乐谱编码的和声音符序列(或集合)向音
高变换算法提供附加目标(例如,编码为相对于主旋律音符轨的偏移量和/或为其选定部分评分)以音高转换到用户自己的捕获人声的和声版本。在一些情况下,音高校正设置可能是特定艺术家(比如表演与特定伴奏音轨相关联的人声的艺术家)的特征。
44.一般而言,歌词、旋律和和声轨音符集以及相关的定时和控制信息可被封装在适当的容器或对象中(例如,以乐器数字接口(midi)或javascript对象符号(json)格式)以与(一个或多个)伴奏音轨一起供应。使用这样的信息,设备101a和101b(以及相关联的视听显示器和/或机顶盒设备,未示出)可以与一个或多个伴奏音轨的可听演奏相对应地显示与目标音符、和声和当前检测到的人声音高有关的歌词和/或视觉提示,以促进用户的卡拉ok风格的人声表演。因此,如果渴望表演的歌手选择“when i was your man”,则文件your_man.json和your_man.m4a可被从内容服务器下载(如果不是已经可用或从先前下载缓存),继而可被用来提供背景音乐、同步的歌词并且在一些情况下或实施例中提供乐谱编码音符轨,用于在用户唱歌时进行连续、实时的音高校正。
45.可选地,至少对于某些实施例或流派,可以对和声音符轨进行乐谱编码,以和谐转换为捕获的人声。捕获的音高校正(可能是配和声的)的人声表演连同表演同步的视频可以作为一个或多个视听文件本地保存在手持设备或机顶盒上,并且可以随后被压缩和编码以(例如,作为访客混合106或团体视听表演混合111或其组成编码)作为mpeg-4容器文件传送到内容服务器110。mpeg-4可以是一种针对因特网、移动网络和高级广播应用的数字多媒体内容的编码表示和传输的合适标准。如果需要,可以采用其他合适的编解码器、压缩技术、编码格式和/或容器。
46.如受益于本公开的本领域技术人员将理解的,多个歌手的表演(包括表演同步的视频)可被积聚和组合,比如以形成二重唱风格的表演、合唱团、或人声即兴演奏。在一些实施例中,社交网络构造可以至少部分地取代或通知对地理分布的歌手的配对和/或地理分布的虚拟合唱团的形成的主机控制。例如,相对于图1,个体歌手可以以被捕获(具有人声音频和表演同步的视频)并且最终作为流直播122流送到观众的方式作为当前主人和访客用户表演。此类捕获的视听内容继而可以经由由内容服务器介导的公开呼叫分发给歌手的社交媒体联系人、观众成员等。这样,歌手自己、观众成员(和/或代表他们的内容服务器或服务平台)可以邀请其他人加入协调的视听表演,或者作为观众或访客队列的成员。
47.在本文中说明和描述了伴奏音轨的供应和使用之处,将理解的是,捕获的、音高校正(并且可能,但不一定,配和声)的人声本身可被混合(与访客混合106一样)以产生用来激励、引导或勾勒出随后的人声捕获的“伴奏音轨”。另外,可以邀请额外的歌手演唱特定部分(例如,男高音、二重唱中的b部分等)或简单地演唱,后续的人声捕获设备(例如,图1的配置中的当前主机设备101b)可以对其捕获的人声进行音高转换并将其捕获的人声放进二重唱或虚拟合唱团中的一个或多个位置。在共同拥有的美国专利第8,983,829号中描述了表演集聚的这些和其他方面(包括针对内容服务器介导的实施例),该美国专利的全部内容通过引用并入本文。
48.图2是示出根据一些实施例的示例性系统组件的交互的网络图。这些组件还可包括至少一个处理器和存储器,比如图6中的那些。作为一种实际实现方式,例如,在一些实施例中,在图2中示出的任何组件之间编排的任何动作都可被视为方法400或500中的任何对应步骤的示例,方法400或500实现本文描述的用于多媒体表演的基于模板的摘录和呈现的
增强的技术。
49.具体而言,图2示出了在视听捕获101(包括101a、101b、
……
101n中的任一个或全部)中采用的诸如一个或多个移动设备之类的手持式设备或便携式计算设备的各个实例,其可以例如根据本文中的功能描述编程有人声音频和视频捕获代码、用户界面代码、音高校正代码、音频渲染管线和/或回放代码。
50.第一设备实例被描绘为例如在种子表演的人声音频和表演同步的视频捕获101中运行,而设备实例220b可以对于对表演同步的视频具有动态视觉突出的混合视听表演在演示或回放模式下运行。附加的电视类型显示器和/或机顶盒设备220a同样被描绘为在演示或回放模式下运行。这样的设备也可以作为人声音频和表演同步的视频捕获设施的一部分而运行。
51.上述设备中的每一个都可以经由无线数据传输和/或中间网络204与服务器212或服务平台进行通信,服务器212或服务平台可以托管本文中关于内容服务器110解释的存储和/或功能。可以在最终用户计算设备211的显示器上流式传输和以视听方式渲染具有表演同步的视频的捕获的经音高校正的人声表演,表演同步的视频被混合以基于如本文描述的模板屏幕布局的视觉进展呈现混合的av表演渲染。
52.图3是示出根据一些实施例的包括一些系统组件的示例架构的示例系统300的图。这些组件还可包括至少一个处理器和存储器,比如图6中的那些。作为一种实际实现方式,例如,在一些实施例中,在图3中示出的任何组件之间编排的任何动作都可被视为方法400或500中的任何对应步骤的示例,方法400或500实现本文描述的用于多媒体表演的基于模板的摘录和呈现的增强的技术
53.视频310可包括例如如在本公开的其他地方更详细描述的伴奏音轨的集合。在一些实施例中,视频310可包括由用户生成的预先录制的或近实时的实况内容,例如,各种用户的同步或异步的单独或多个记录。
54.模板和元素选择320可包括对可以应用于视频310的某些实例的任意数量的模板和/或元素的选择。如在本公开的其他地方更详细描述的,例如,元素可包括由元数据、(一个或多个)模板、机器学习(或其他)分类定义的内容片段,比如视频310的(一个或多个)具体实例的(一个或多个)特定剪辑。
55.如模板和元素选择320中所示的模板和/或元素可以由平台或系统300的所有者创建和托管。另外地或替代地,可以由包括平台或系统300的最终用户在内的第三方创建、编辑、上传、下载、修改、托管或以其他方式使用这样的模板和/或元素。为了创建和/或编辑模板,包括最终用户在内的第三方可以使用任意数量的兼容编辑工具,其可包括网络接口或系统300的共同拥有的应用,和/或第三方应用(用于移动或其他类型的计算设备),仅举几个非限制性示例。
56.如在本公开的其他地方更详细描述的,模板可以独立于给定内容实例的结构或任何特定结构元素而被应用于多个内容实例中的任何一个。例如,模板的应用可以使至少一个处理器604改变给定内容实例的风格和/或将来自另一实例的其他内容拼接到给定内容实例中。风格和/或内容的改变因此可以至少部分地基于模板,对于给定的内容实例是上下文感知的,不依赖给定内容实例的结构。
57.创意330可包括来自最终用户的录制内容(例如,用户经由手持设备中的相机和麦
克风录制用户唱歌的视频),其中对选定元素应用了给定模板。在一些实施例中,最终用户录制的内容可被预先录制,例如作为视频310的一部分。或者,可以在已经为选定元素应用模板之后引入最终用户录制的内容或将最终用户录制的内容与内容实例(例如,视频310的实例)集成。
58.在一些实施例中,基于来自模板和元素选择320的模板,最终用户录制的内容可以被选择性地与视频310的实例集成和/或定制。因此,对于某些实施例,创意330可被定义为内容实例(例如,视频310的)、适用模板和来自至少一个最终用户的至少一个记录实例的组合。
59.上传的创意340可包括上传到至少一个数据存储的至少一个创意330的集合,其可以由至少一个计算机系统600和/或所包括的(一个或多个)处理器604共同访问。通过具有足够大的上传创意340集合,可以从上传创意340的一个或多个集合中收集或识别附加信息。可以经由基于逻辑的过滤350整体或部分地执行这种收集或识别。
60.在一些实施例中,基于逻辑的过滤350可包括至少一个机器学习信号,比如向(一个或多个)逻辑函数的关键性能指标(kpi)风格输入,其可包括至少一个机器学习算法。例如,ml和相关算法的示例可包括神经网络,其可被配置为实现分类算法、回归算法或者可以检测或识别某些模式的其他算法的方面。在一些实施例中,例如,ml还可被配置为过滤或调整促销演示,以避免观众疲劳。在一些实施例中,作为ml信号的kpi风格输入可包括用户参与度量(例如,点击、喜欢等)、观看/收听(例如,对于特定表演)、种子/加入(例如,对于具有多个表演者的表演),或者类似的原始数据或分析。
61.本文采用的任何ml技术都可能涉及有监督学习、无监督学习、其组合(半监督学习)、回归(例如,对于中间评分,即使结果输出是分类)、强化学习、主动学习和ml范围内的其他相关方面。深度学习可以将本文描述的任何ml技术应用于感知器、多层感知器(mlp)模型、分层神经网络、循环神经网络、顺序编码器、递归神经网络、模块化神经网络、前馈神经网络或记忆网络,仅举几个非限制性示例。在一些实施例中,例如,前馈神经网络的一些情况还可以对应于卷积神经网络(cnn)、概率神经网络、时间延迟神经网络、自动编码器或其任意组合中的至少一种。
62.例如,(一个或多个)分类算法可被配置为确定内容实例或其结构元素/片段的一个或多个音乐流派、主观情绪(例如,基于众包或专家指示)或客观度量(例如,音高、音量、动态范围、颜色、亮度等)。在一些实施例中,例如,一个或多个回归算法可用于确定一个或多个内容实例或其一个或多个结构元素/一个或多个片段之间的相似性或兼容性,比如用于确定要拼接的适当内容实例或者用另一个内容实例插入、替换或覆盖给定内容实例的适当定时。
63.过滤后的创意360可包括上述基于逻辑的过滤350的输出。过滤后的创意360还可包括分类算法的结果,如上所述。另外地或替代地,例如,过滤后的创意可包括回归算法的结果,可选地与预定阈值进行比较。在一些实施例中,过滤后的创意360可被识别为感兴趣的创意(例如,通过基于逻辑的过滤350或经由可选的管理工具380手动地)并与内容比较匹配(也例如,通过基于逻辑的过滤350或经由可选的管理工具380手动地),从而产生与感兴趣的创意370匹配的内容。
64.与感兴趣的创意370匹配的内容可包括要顺序地或同时地拼接、合并、替换、覆盖
或以其他方式组合的元素和/或内容实例。此外,可以指定与感兴趣的创意370匹配的内容或其任何对应的元素或内容实例,以在给定系统300平台内共享,或在外部诸如与第三方平台共享。在一些实施例中,这样的指定可以例如通过基于逻辑的过滤350自动进行,或经由可选的管理工具380手动进行。
65.例如,管理工具380可包括(一个或多个)界面元素,这一个或多个界面元素允许最终用户、平台管理者和/或自动化(例如,ai/ml)组件访问过滤后的创意360及其内容、将内容与感兴趣的创意370匹配、和/或在内部(例如,与系统300上的其他用户)或在外部(未示出)共享与感兴趣的创意370匹配的内容(或其他内容/记录)。在一些实施例中,管理工具380可包括基于网络的图形用户界面(gui)和/或至少一个应用编程接口(api),以允许用户和/或其他程序至少出于本文描述的目的而与管理工具380交互。
66.图4是示出根据一些实施例的用于本文描述的增强型数据库平台集成技术的操作的方法400的流程图。方法400可由处理逻辑执行,处理逻辑可包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上执行的指令)或其组合。并非在所有情况下都需要方法400的所有步骤来执行本文公开的增强的技术。另外,如本领域普通技术人员将理解的,方法400的一些步骤可以同时执行,或者以与图4所示顺序不同的顺序执行。
67.方法400将参考图1-4和图6进行描述。然而,方法400不仅仅限于那些示例实施例。方法400的步骤可以由耦合到至少一个存储器设备的至少一个计算机处理器来执行。下面关于图6描述示例性处理器和(一个或多个)存储器设备。在一些实施例中,方法400可以由图1-图3中所示的系统的组件来执行,这些组件还可包括至少一个处理器和存储器,比如图6中的那些。
68.在402中,至少一个处理器604可被配置为检索第一内容实例和对应的第一元数据。在一些实施例中,第一内容实例可包括多个结构元素。另外,至少一个结构元素可以对应于第一元数据的至少一部分。元数据的示例可以包括但不限于内容长度(播放时间)、(一个或多个)片段中断、与特定片段相关联的记录类型的指示(例如,其中至少一个用户可以在给定的片段内录制人声独唱、二重唱、合唱等)。
69.在一些实施例中,元数据可以由标签表示,比如可以由诸如标准通用标记语言(sgml;iso 8879:1986)之类的标记语言中的字段表示。标记语言的其他示例在下面进一步描述,并且可以另外地或替代地用于现有的标记解决方案。其他标记手段可包括数据库结构,包括纯文本或二进制数据格式的结构化或非结构化数据存储,包括键值对数据存储、哈希表、关系数据库或其任意组合。下面进一步描述一些数据库的更多示例。
70.在404中,处理器604可被配置为选择包括第一组参数的第一模板。第一组参数中的参数可以适用于至少一个结构元素。例如,在一些实施例中,参数可以是音频过滤器(例如,带通、混响等)、视频过滤器(例如,灰度、颜色配置文件、照明配置文件、模糊、拖尾、特殊效果等)、文本过滤器(例如,歌词、翻译、评论、实时聊天提要等)等的表示。在一些实施例中,例如,可以在渲染期间和/或在回放期间应用参数。
71.模板可以是参数和标签的集合,这些参数和标签可以与多个内容实例中的任何给定内容实例的元数据相关联,不依赖给定内容实例的任何特定结构元素。下面关于406描述该关联的更多细节。
72.在一些实施例中,结构元素可以表示给定内容实例的片段。例如,在三分钟的内容
实例中,片段可以是指定的十五秒剪辑,其可以由某些元数据表征,这些元数据可以不同于表征三分钟内容实例的剩余部分(其他片段)的元数据。在本公开的范围内可以使用任何其他长度的内容实例或片段。
73.在一些实施例中,结构元素的其他示例可包括某些元数据,这些元数据可被视为对于给定内容实例是不可变的(例如,唯一标识符、起源代码等),其可用于引用来自给定数据存储或其他编程方式(例如,经由应用编程接口(api))的给定内容实例或其片段。api的具体实例在下面进一步描述。
74.在一些实施例中,参数可包括元组、向量、矩阵或至少一个另外的参数,其指示应用第一参数的程度(例如,发光强度的数字标度、模糊、残留拖尾、rgb值、音频频率等)。在一些实施例中,参数可包括给定特征或过滤器是否活动(例如,开或关)的指示。
75.在406中,处理器604可被配置为将第一模板的适用参数和与至少一个结构元素相对应的第一元数据的至少一部分相关联。在一些实施例中,这样的关联可以通过本文描述的任何数据结构(例如,键值对、表、关系数据库等、或者计算机存储器或数据存储设备中的其他对象)来完成。元数据和参数之间的该关联因此可以用于允许处理器604独立于给定内容实例的结构或任何特定结构元素将模板(例如,模板的参数)应用于多个内容实例中的任何一个。
76.在408中,处理器604可被配置为通过在处理器604上运行的渲染引擎来转换第一内容实例。该转换可包括处理器604根据(例如,所应用的模板的)适用参数来配置要回放的第一内容实例的至少一个结构元素。
77.在一些实施例中,渲染引擎可以在服务提供商或内容分发网络(cdn)的服务器处的处理器604上运行。另外地或替代地,渲染引擎可以在客户端或最终用户设备(例如,消费者手持式终端设备,比如智能电话、平板计算机或平板电话;可穿戴设备,比如智能手表或智能帽檐;膝上型计算机或台式计算机;机顶盒或类似的流式传输设备;等等)处的处理器604上运行。在下面关于608更详细地描述客户端转换,例如,具有应用的模板或参数的内容回放和/或呈现。
78.服务器端或客户端转换可包括经由多个音频/视频编解码器中的任何一个静态地或动态地对音频、视频和/或文本内容进行编码、重新编码、转码和/或解码。音频、视频和/或文本内容可以在408中的任何转换之前、期间或之后被编码、重新编码、转码或解码。在一些实施例中,可以在处理器604上运行的渲染引擎内执行编码、重新编码、转码和/或解码中的任何一个。
79.在410中,处理器604可被配置为将转换后的第一内容实例发送到内容回放设备。在一些实施例中,内容回放设备可以是手持式终端、可穿戴设备、通用计算设备或专用机顶盒或流送设备。本外还描述了另外的示例。
80.图5是示出根据一些实施例的用于本文描述的增强型数据库平台集成技术的操作的方法500的流程图。方法500可由处理逻辑执行,该处理逻辑可包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上执行的指令)或其组合。并非在所有情况下都需要方法500的所有步骤来执行本文公开的增强的技术。另外,如本领域普通技术人员将理解的,方法500的一些步骤可以同时执行,或者以与图5所示顺序不同的顺序执行。
81.方法500将参考图1-3、图5和图6进行描述。然而,方法500不仅限于那些示例实施例。方法500的步骤可以由耦合到至少一个存储器设备的至少一个计算机处理器来执行。下面关于图6描述示例性处理器和(一个或多个)存储器设备。在一些实施例中,方法500可以由图1-3中所示的系统的组件来执行,这些组件还可包括至少一个处理器和存储器,比如图6中的那些。
82.在502中,至少一个处理器604可被配置为检索第一内容实例和对应的第一元数据。在一些实施例中,第一内容实例可包括多个结构元素。另外,至少一个结构元素可以对应于第一元数据的至少一部分。元数据的示例可以包括但不限于内容长度(播放时间)、一个或多个片段中断、与特定片段相关联的记录类型的指示(例如,其中至少一个用户可以在给定的片段内录制人声独唱、二重唱、合唱等)。
83.在一些实施例中,元数据可以由标签表示,比如可以由诸如标准通用标记语言(sgml;iso 8879:1986)之类的标记语言中的字段表示。标记语言的其他示例在下面进一步描述,并且可以另外地或替代地用于现有的标记解决方案。其他标记手段可包括数据库结构,包括纯文本或二进制数据格式的结构化或非结构化数据存储,包括键值对数据存储、哈希表、关系数据库或其任意组合。下面进一步描述一些数据库的更多示例。
84.在504中,处理器604可被配置为选择包括第一组参数的第一模板。第一组参数中的参数可以适用于至少一个结构元素。例如,在一些实施例中,参数可以是音频过滤器(例如,带通、混响等)、视频过滤器(例如,灰度、颜色配置文件、照明配置文件、模糊、拖尾、特殊效果等)、文本过滤器(例如,歌词、翻译、评论、实时聊天提要等)等的表示。
85.模板可以是参数和标签的集合,这些参数和标签可以与多个内容实例中的任何给定内容实例的元数据相关联,不依赖给定内容实例的任何特定结构元素。下面关于506描述该关联的更多细节。
86.在一些实施例中,结构元素可以表示给定内容实例的片段。例如,在三分钟的内容实例中,片段可以是指定的十五秒剪辑,其可以由某些元数据表征,这些元数据可以不同于表征三分钟内容实例的剩余部分(其他片段)的元数据。在本公开的范围内可以使用任何其他长度的内容实例或片段。
87.在一些实施例中,结构元素的进一步示例可包括某些元数据,这些元数据可被视为对于给定内容实例是不可变的(例如,唯一标识符、起源代码等),其可用于引用来自给定数据存储或其他编程方式(例如,经由应用编程接口(api))的给定内容实例或其片段。api的具体实例在下面进一步描述。
88.在一些实施例中,参数可包括元组、向量、矩阵或至少一个另外的参数,其指示应用第一参数的程度(例如,发光强度的数字标度、模糊、残留拖尾、rgb值、音频频率等)。在一些实施例中,参数可包括给定特征或过滤器是否活动(例如,开或关)的指示。
89.在506中,处理器604可被配置为将第一模板的适用参数和与至少一个结构元素相对应的第一元数据的至少一部分相关联。在一些实施例中,这样的关联可以通过本文描述的任何数据结构(例如,键值对、表、关系数据库等、或者计算机存储器或数据存储设备中的其他对象)来完成。元数据和参数之间的该关联因此可以用于允许处理器604独立于给定内容实例的结构或任何特定结构元素将模板(例如,模板的参数)应用于多个内容实例中的任何一个。
90.在508中,处理器604可被配置为通过在处理器604上运行的渲染引擎来转换第一内容实例。该转换可包括处理器604根据适用参数(例如,所应用的模板的)来配置要回放的第一内容实例的至少一个结构元素。
91.在一些实施例中,渲染引擎可以在服务提供商或内容分发网络(cdn)的服务器处的处理器604上运行。另外地或替代地,渲染引擎可以在客户端或最终用户设备(例如,消费者手持式终端设备,比如智能电话、平板计算机或平板电话;可穿戴设备,比如智能手表或智能帽檐;膝上型计算机或台式计算机;机顶盒或类似的流送设备;等等)处的处理器604上运行。在上面关于408更详细地描述了客户端转换,例如,所应用的模板或参数的内容回放和/或呈现。
92.服务器端或客户端转换可包括经由多个音频/视频编解码器中的任何一个静态地或动态地对音频、视频和/或文本内容进行编码、重新编码、转码和/或解码。音频、视频和/或文本内容可以在508中的任何转换之前、期间或之后被编码、重新编码、转码或解码。在一些实施例中,可以在处理器604上运行的渲染引擎内执行编码、重新编码、转码和/或解码中的任何一个。
93.在510中,处理器604可被配置为例如通过在处理器604上运行的渲染引擎经由至少一个内容回放设备播放转换后的第一内容实例。在一些实施例中,内容回放设备可以是手持式终端、可穿戴设备、通用计算设备或专用机顶盒或流送设备。本外还描述了另外的示例。
94.示例计算机系统
95.根据一些实施例,以下示例计算机系统或其多个实例可用于实现图4和图5的方法400或500、如图1-图3中所示的系统或其任何组件。
96.例如,可以使用诸如图6中所示的计算机系统600之类的一个或多个众所周知的计算机系统来实现各种实施例。例如,一个或多个计算机系统600可用于实现本文讨论的任何实施例及其组合和子组合。
97.计算机系统600可包括一个或多个处理器(也称为中央处理单元或cpu),比如处理器604。处理器604可以连接到总线或通信基础设施606。
98.计算机系统600还可包括(一个或多个)用户输入/输出设备605,比如监视器、键盘、指点设备等,它们可以通过(一个或多个)用户输入/输出接口602与通信基础设施606进行通信。
99.一个或多个处理器604可以是图形处理单元(gpu)。在一实施例中,gpu可以是处理器,该处理器是设计用于处理数学密集型应用的专用电子电路。例如,gpu可具有对大型数据块(比如对计算机图形应用、图像、视频、矢量处理、数组处理等常见的数学密集型数据)以及密码学(包括暴力破解,生成加密哈希或哈希序列,解决部分哈希反转问题,和/或为一些基于区块链的应用产生其他工作量证明计算的结果)的并行处理来说高效的并行结构。
100.另外,一个或多个处理器604可包括协处理器或用于加速密码计算或其他专用数学函数的逻辑的其他实现,包括硬件加速的密码协处理器。这样的加速处理器还可包括用于使用协处理器和/或其他逻辑进行加速的一个或多个指令集以促进这样的加速。
101.计算机系统600还可包括主存储器或主要存储器608,比如随机存取存储器(ram)。主存储器608可包括一级或多级的高速缓存。主存储器608可以在其中存储控制逻辑(即,计
算机软件)和/或数据。
102.计算机系统600还可包括一个或多个辅存储设备或辅存储器610。例如,辅存储器610可包括主存储驱动器612和/或可移除存储设备或驱动器614。例如,主存储驱动器612可以是硬盘驱动器或固态驱动器。可移除存储驱动器614可以是软盘驱动器、磁带驱动器、光盘驱动器、光学存储设备、磁带备份设备和/或任何其他存储设备/驱动器。
103.可移除存储驱动器614可以与可移除存储单元618交互。可移除存储单元618可包括其上存储有计算机软件(控制逻辑)和/或数据的计算机可用或可读存储设备。可移除存储单元618可以是软盘、磁带、光盘、dvd、光存储盘和/任何其他计算机数据存储设备。可移除存储驱动器614可以从可移除存储单元618读取和/或向可移除存储单元618写入。
104.辅存储器610可包括用于允许计算机程序和/或其他指令和/或数据被计算机系统600访问的其他装置、设备、组件、工具或其他方法。例如,这样的装置、设备、组件、工具或其他方法可包括可移除存储单元622和接口620。可移除存储单元622和接口620的示例可包括:程序盒和盒接口(比如在视频游戏设备中发现的那种),可移除存储器芯片(比如eprom或prom)和相关联的插槽,记忆棒和usb端口,存储卡和相关联的存储卡插槽,和/或任何其他可移除存储单元和相关联的接口。
105.计算机系统600还可包括通信或网络接口624。通信接口624可以使计算机系统600能够与外部设备、外部网络、外部实体等的任意组合(通过参考编号628单独和共同标引)进行通信和交互。例如,通信接口624可以允许计算机系统600通过通信路径626与外部或远程设备628进行通信,通信路径626可以是有线的和/或无线的(或其组合),并且可包括lan、wan、因特网等的任意组合。控制逻辑和/或数据可以经由通信路径626传输到计算机系统600和从计算机系统600传输。
106.仅举几个非限制性示例,计算机系统600也可以是个人数字助理(pda)、台式工作站、膝上型或笔记本计算机、上网本、平板计算机、智能电话、智能手表或其他可穿戴设备、电器、物联网(iot)的一部分和/或嵌入式系统或其任意组合中的任何一个。
107.计算机系统600可以是客户端或服务器,其通过任何交付范例访问或托管任何应用和/或数据,包括但不限于远程或分布式云计算解决方案;本地或内部部署软件(例如,基于“内部部署”云的解决方案);“即服务(as a service)”模型(例如,内容即服务(caas)、数字内容即服务(dcaas)、软件即服务(saas)、管理软件即服务(msaas)、平台即服务(paas)、桌面即服务(daas)、框架即服务(faas)、后端即服务(baas)、移动后端即服务(mbaas)、基础设施即服务(iaas)、数据库即服务(dbaas)等);和/或包括前述示例或其他服务或交付范例的任意组合的混合模型。
108.任何适用的数据结构、文件格式和模式都可以源自标准,包括但不限于单独或组合的javascript对象表示法(json)、可扩展标记语言(xml)、另一种标记语言(yaml)、可扩展超文本标记语言(xhtml)、无线标记语言(wml)、messagepack、xml用户界面语言(xul)或任何其他功能类似的表示。可替代地,可以仅仅或与已知或开放标准结合使用专有数据结构、格式或模式。
109.任何相关的数据、文件和/或数据库都可以以人类可读的格式(比如数字、文本、图形或多媒体格式,还包括各种类型的标记语言,以及其他可能的格式)进行存储、检索、访问和/或传输。替代地或结合上述格式,数据、文件和/或数据库可以以二进制、编码、压缩和/
或加密的格式或任何其他机器可读格式进行存储、检索、访问和/或传输。
110.各种系统和层之间的接口或互连可以采用任意数量的机制,比如任意数量的协议、编程框架、平面图或应用编程接口(api),包括但不限于文档对象模型(dom)、发现服务(ds)、nsuserdefaults、web服务描述语言(wsdl)、消息交换模式(mep)、web分布式数据交换(wddx)、web超文本应用技术工作组(whatwg)html5 web消息传递、表述性状态转移(rest或restful web服务)、可扩展用户界面协议(xup)、简单对象访问协议(soap)、xml模式定义(xsd)、xml远程过程调用(xml-rpc)或者任何其他开放或专有的可以实现类似的功能和结果的机制。
111.这样的接口或互连还可以利用统一资源标识符(uri),其还可包括统一资源定位符(url)或统一资源名称(urn)。可以仅仅或者与诸如上面阐述的那些形式结合使用其他形式的统一和/或唯一标识符、定位符或名称。
112.任何上述协议或api都可以与任何过程、函数或面向对象的编程语言接口或以该编程语言实现,并且可被编译或解释。非限制性示例包括c、c++、c#、objective-c、java、swift、go、ruby、perl、python、javascript、webassembly或几乎任何其他语言,其具有任何其他库或模式,在任何类型的框架、运行时环境、虚拟机、解释器、堆栈、引擎或类似机制中,包括但不限于node.js、v8、knockout、jquery、dojo、dijit、openui5、angularjs、express.js、backbone.js、ember.js、dhtmlx、vue、react、electron等,以及许多其他非限制性示例。
113.在一些实施例中,包括其上存储有控制逻辑(软件)的有形、非暂态计算机可用或可读介质的有形、非暂态装置或制品在本文中也可被称为计算机程序产品或程序存储设备。这包括但不限于计算机系统600、主存储器608、辅存储器610以及可移除存储单元618和622,以及体现前述者的任意组合的有形制品。这样的控制逻辑当由一个或多个数据处理设备(比如计算机系统600)执行时可使这样的数据处理设备如本文所述进行操作。
114.基于本公开中包含的教导,相关领域的技术人员将清楚如何使用除了图6中所示的数据处理设备、计算机系统和/或计算机体系结构之外的数据处理设备、计算机系统和/或计算机体系结构来制作和使用本公开的实施例。具体而言,实施例可以利用除了本文描述的那些之外的软件、硬件和/或操作系统实现来操作。
115.结论
116.将会理解,具体实施方式部分,而不是任何其他部分,旨在用于解释权利要求。其他部分可以阐述(一个或多个)发明人所设想的一个或多个但不是所有示例性实施例,因此,不旨在以任何方式限制本公开或所附权利要求。
117.虽然本公开描述了示例性领域和应用的示例性实施例,但应当理解,本公开不限于此。其他实施例和对其的修改是可能的,并且在本公开的范围和精神内。例如,但不限制本段的一般性,实施例不限于在图中示出和/或在本文中描述的软件、硬件、固件和/或实体。另外,实施例(无论是否在本文中明确描述)对于超出本文描述的示例的领域和应用具有显著效用。
118.在本文中已经借助功能构建块描述了实施例,这些功能构建块示出了指定功能的实现及其关系。为了描述的便利,本文中已经任意定义了这些功能构建块的边界。只要适当地执行指定的功能和关系(或其等价物),就可以定义替代边界。此外,替代实施例可以使用
与本文描述的顺序不同的顺序来执行功能块、步骤、操作、方法等。
119.本文中对“一个实施例”、“一实施例”、“一示例实施例”、“一些实施例”或类似短语的引用表明所描述的实施例可包括特定特征、结构或特性,但是每个实施例可能不一定包括该特定特征、结构或特性。此外,这样的短语不一定指相同的实施例。
120.另外,当结合实施例描述特定特征、结构或特性时,无论本文中是否明确提及或描述,将此类特征、结构或特性并入其他实施例将在(一个或多个)相关领域的技术人员的知识范围内。此外,一些实施例可以使用表述“耦合”和“连接”连同它们的派生词来描述。这些术语不一定是彼此的同义词。例如,可以使用术语“连接”和/或“耦合”来描述一些实施例以表明两个或更多个元素彼此直接物理或电气接触。然而,术语“耦合”也可能意味着两个或更多个元素彼此不直接接触,但仍彼此合作或相互作用。
121.本公开的广度和范围不应受上述示例性实施例中的任一个限制,而应仅根据所附权利要求及其等同来限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1