本文描述了在收听音轨的同时,通过仅由操作双键界面来限定即时(实时)视听关联的方式,从数字静止图像和上述数字音轨的序列创建视频内容的系统和方法。更准确地,本方法将使用户能够通过轻敲在界面上设置的两个专用键(604、605和/或105a、105b)的音乐启发的组合来简单地执行音频-视频同步,从而指定帧的原始序列中的新顺序和/或每帧的期望持续时间。另外,通过经由特别设计的过滤器(多帧生成器过滤器)和相关界面在自动模态和手动模态下生成的这些图像的过程变化的方式,所提出的系统将提供简单而强大的功能性,以扩展可用于视频创建的原始静止图像的数量。
本发明总体涉及数字视频内容创建、视听同步以及数字图像编辑的领域。具体地,所提出的系统和方法涉及硬件和软件环境,其特征在于可视界面并且使图像图库能够进行编辑/排序以供视频创建和音频同步。
背景技术:
当今有很多软件应用程序用于从静止图像创建视频剪辑。这些程序的结果基本上是视频序列,其中作者能够指定要包括的静止图像和要作为声道播放的音频文件。在这些视频(通常称为“幻灯片”)中,每个静止图像的可视化顺序和持续时间可以是全局预定的(例如,每个图像2秒)、由软件随机分配或由用户通过编辑会话为每个图像指定,这通常是复杂且乏味的。自从数字照相机出现在消费者市场上,所捕捉的图片的数量不断增加。在电影方面,镜头的数量受到胶卷中可用的帧的小数量的限制。随着数字摄影的出现,可以以最小成本快速拍摄的图片数量呈指数增长,给将这些图像转换为视频作品提供了前提。
因此,引入了许多软件应用程序,用于通过以给定顺序选择多个图片并通过数字音频文件指定声道来组装视频。结果是将图像以通过用户的编辑操作所建立的预定时间间隔一个接一个地呈现的视频。
这种标准方法有两个主要限制:
a)用户必须在记录视频“之前”(即,非实时地)为每个图像确定显示时间,在观看结果之前设定要显示的每个图像的持续时间;
b)如果用户不是有经验的专业人士,这个过程除了不重要之外,导致较小机会将视频和音频有效地同步。
利用本发明,申请人旨在设计和开发系统和方法,用于简化视听内容的创建、解决上述问题,并且不同于任何其他软件,使用户能够通过直观的、由音乐启发的方法来设定每个图像出现的持续时间和顺序:
“播放图片”。
技术实现要素:
下面给出了通过由音乐收听启发的“即时(on-the-fly)”同步,通过组合静态数字图像的图库和数字音轨来创建数字视频内容的系统和方法。所提出的系统包括:
—简单操作的、有效的可视界面,使用户能够控制视频生成过程;
—帧选择功能性,提供对任何图像图库的简单和快速的访问;
—通过专门设计的多帧生成器过滤器(图8b),基于步骤生成作为图库图像的变型的新帧;
—数字音轨选择功能性,将乐谱与图像图库相关联;
—所述系统和方法设计为根据用户偏好,通过专用可视界面提供图像图库可视化和任意图库重新排序(图6)功能性。
—一旦实现了整个图库的令人满意的排序,用户将能够通过简单地按上一/下一键(图16 604至605和图1 105a至105b),通过同时播放音轨并根据期望的持续时间和顺序显示图库图像中的每一个,来进行视频创建。更准确地,按动这两个方向键(604至605)中的任一个将触发当前显示的图像的改变以及先前显示的帧的持续时间的记录,持续时间对应于从其显示起经过的时间。
须注意的是,为了确保在大范围的电子设备上的流畅视频创建过程,在视频创建阶段期间,将仅记录所得到的所显示的每个帧的顺序和持续时间,用于在最终渲染阶段从原始图像和音轨同步地组合期望的视听序列。
所述系统和方法包括通过“多帧生成器过滤器”(简称MFG过滤器)的方式增加可用的图库图像的数量的特定功能性,MFG过滤器应用于所选图像或甚至一组图像,传送每个图像的多个变型,从而扩展可用于后续视频创建过程的总帧数(图8b到图15到图16)。更准确地,上述过滤器中的任一个能够根据以“手动”模态或“自动”模态(图8a-图8b)分配的一组特定参数,通过应用图像处理算法来创建所选图像的一组变型。在两种模态下,这种操作导致帧数增加,这可能导致在创造性功效方面和音乐同步能力方面对于视频创建方法是有益的。
所述系统和方法包括在电子设备100用于拍摄图片的情况下控制数字相机...(图19)的可视界面,可视界面的特定画面将允许用户拍摄多个镜头,每个镜头的特征在于在拍摄期间的快门定时参数的聚焦的变化和或“实时”可视化在画面上的可调节的虚化效果。
该界面布局意在提供对图像参数的更直接的控制级别。优选地,上述控制图形地渲染为滑块,该滑块调节最小强度级与最大强度级之间的相关效果。
所述系统和方法包括视频创建过程控制界面(图16 604至605),提供位于以预定序列显示当前图像的预览窗口的左侧和右侧的一对箭头键,并且箭头键的目的是通过利用序列中的下一帧或上一帧代替当前图像来即时改变当前图像。
所述系统和方法包括旨在视频创建过程期间向用户提供关于可用图像和剩余音频持续时间的实时信息的可视界面(图18 801至802)。更准确地,在界面中两个饼状指示符是可用的,指示符分别将数字音轨的剩余持续时间和剩余未使用图像的数量显示为圆形区域中的未填充部分,而填充部分分别表示经过的音频定时和已经显示的帧数。
附图说明
所述发明在本文中以两个具体的实施方式描述,但绝不是必须认为是对其可能的实施方式的限制,并且所述发明在下面的附图和图示中示意性地示出:
图1示出了仅经由可视的基于触摸的界面操作的实现本发明的电子设备的第一实施方式(初始化步骤);
图2示出了实现本发明的电子设备的第二实施方式,并且该电子设备包括两个物理单元:用于内容可视化的显示单元和分离的按钮操作的界面单元;
图3示出了用于本发明的高级界面的原型,提供物理上的大尺寸PREV和NEXT垫和两个额外的垫,用于即时改变上一个和下一个功能的步骤(例如选择下+2帧或前-4帧;
图4说明了总体操作流程;
图5绘制了用于控制电子设备的用户界面,该电子设备使能够执行对于所选图像的图库的初步可视化(图像排序阶段)所需的软件;
图6绘制了用于控制电子设备的用户界面,该电子设备使能够执行对于使用户能够任意地对图库中的图像序列进行重新排序(排序阶段)所需的软件;
图7示出了用于对先前选择的图像进行排序的界面的实例;
图8a绘制了在为多帧生成器过滤器的应用初步设定手动/自动模态的期间,来自与本发明相关的软件的配置画面;
图8b说明了在手动模式或自动模式下的Mfg过滤器的应用的流程图。
图9示出了应用多帧生成器过滤器以创建单个(先前选择的)源图像的多个版本的第一步骤。
图10示出了应用多帧生成器过滤器以创建单个(先前选择的)源图像的多个版本的第二步骤。
图11示出了用于从所选择的源图像中选择要生成的期望数量的帧的MFGF(多帧生成器过滤器)界面的第一画面的示意图。
图12示出了MFGF界面步骤2的示意图,该步骤2用于在预览所得到的帧(在源图像下方显示为缩略图)的同时将期望的过滤器/效果应用于所选择的(在上方显示的)源图像。在该具体情况下,应用的过滤器执行图像裁剪/缩放并生成9个新帧;
图13示出了多帧生成器过滤器界面的第三画面,用于在预览所得到的帧(在源图像下方显示为缩略图)的同时将期望的过滤器/效果应用于所选择的(在上方显示的)源图像。在该具体情况下,所应用的过滤器执行图像散焦并生成9个新帧;
图14示出了多帧生成器过滤器界面的第四画面,用于在预览所得到的帧(在源图像下方显示为缩略图)的同时将期望的过滤器/效果应用于所选择的(在上方显示的)源图像。在该具体情况下,所应用的过滤器执行图像运动虚化并生成9个新帧;
图15描述了记录阶段流程图。
图16示出了在同时收听数字音轨(记录阶段)时在即时视频记录的阶段期间与本发明相关的主要软件的示意图;
图17绘制了示出rec键(909)的视频记录界面的第一画面,其中rec键使能够回放音轨并同时记录音频视频序列;
图18绘制了视频记录界面的第二画面,示出了按rec键并且通过按上一个和下一个键来回放音轨和选择预排序的图库中的当前图像,导致同时记录音频视频序列。它还示出了两个进度指示符(801至802),该指示符位于界面的顶侧并且监视剩余音频持续时间和剩余未使用帧的数量;
图19示出了操作嵌入有本发明的设备物体的照相机并通过相关软件处理所捕捉的图像的界面;
具体实施方式
本发明的设计源自支持者的信念,即,从静止图像创建视频的过程可以简化并且变得更有效,同时还通过使能够实现音频视频同步的直观方法来最大化创作自由度。
根据这种方法,将导致更加简单并且更加灵感驱动地来收听所选择的声道并且实时选择必须在给定时刻显示来自预排序的图库的哪个图像以及显示多长时间,而不是通过固定参数进行预先确定。
换句话说,用户应当能够通过简单地按几个(下一个/上一个604至605或105a至105b)键而即时浏览图像序列,而同时收听偏好的乐谱并且透明地记录音频视频关联。
这个创作过程的最终结果将是视频作品,其中归功于软件,按照用户根据他/她的受音乐启发的创意驱动定义的确切的时间量和确切的顺序显示每个帧。
因此,用户将能够通过手指同步乐谱节奏和图像可视化节奏来直观地“播放图片”。
主要操作步骤。
本发明的系统和方法对象设计为通过六个主要步骤操作:
—第一“初始化”步骤,其中用户设定本发明的系统对象的基本操作参数;该步骤在向用户提供两种不同的系统操作模态的优选实施方式(不以任何方式认为限制其他可能的实施方式)中的图8a中示出:
·“自动”模态,系统通过“自动”模态自动应用大多数可用的功能性。具体在“自动”模式下,尽管用户在记录阶段中收听音乐的同时保持对图像同步的控制,系统将应用MFG过滤器自动生成新帧)(图8b);
·高级“手动”模态(箭头A),通过手动模态用户对可用的功能性有更好的控制。具体在“手动”模式中,用户将选择要应用MFG过滤器从其生成新帧的图像(图8b),并将设定从图像源生成多少个新帧。用户手动调节MFG过滤器的强度。
—第二“排序”步骤(从图5到图14),旨在通过稍后详细描述的专门设计的多帧生成器过滤器来对可用的数字图像的图库重新排序和/或增加可用的图像的数量;
—第三“记录”(形成图15至图18)步骤,用于在收听先前选择的声道的同时从静止图像生成视频;
—第四“编辑”步骤,其中编辑所记录的视频序列用于加标题、颜色校正等。
—第五“分享”步骤,用于通过经由专用界面画面可选择的社交网络的选择来分享最终视频作品;
—第六可选的“实时设定”步骤,通过该步骤电子设备100(智能电话、平板电脑、笔记本电脑、遥控器等)可以用于通过外部投影设备的方式显示控制图库图像的投影的一组界面画面。
具体地,根据MFG过滤器的自动(图8a 401)应用,软件将首先选择在哪些图像上应用过滤器以生成新图像,然后它将根据插入到图像序列中的图像的数量并根据所选择的声道(300)的长度,生成N个数量的新的导出图像。新的导出图像将自动插入到序列(205)中,并且它将直接显示图像序列中的第一图像,以允许用户开始记录阶段。
硬件
关于图1,利用参考标号100示出了用于简化的音频视频编辑的电子设备的第一优选实施方式。
图2示出了本发明的电子设备100对象的第二实施方式,电子设备100包括两个不同的主体100f和100s;前者的特征在于可视用户界面104,而后者的特征在于基于可能反向照明的物理按钮的物理用户界面105。
在这最后的实施方式中,两个主体100f和15通过数据通信线缆(有线版本)链接,但是它们可以无线地连接,以通过可选的手动界面105使能够进行远程命令和控制。虽然本文中没有示出这个配置,但是其须考虑为包含在本发明中。存储器单元102设计为使能够存储多个数字图像200并且存储至少一个音频文件300。
下面的行描述控制所述设备的操作的软件应用程序。
须注意的是,虽然在接下来的段落中,系统处理的数字图像和(一个或多个)音频文件对象被认为存储在上述电子设备100的存储器102中,但是该配置不应认为以任何方式限制系统的架构。
数字图像和音频文件实际上可以存储在任何大容量存储设备中,该设备可能在电子设备100的外部,例如笔驱动器(pen drive)、外部硬盘或可通过因特网远程访问的服务器上的存储器空间。
为使用与本发明相关的软件应用程序做准备的初始步骤,通过拍摄和收集与用户要制作的视频的概念相关的多个图片来表示。这些图片作为索引图像200数字化存储在存储器102中,并且它们可以通过专业级数字相机、消费级即拿即拍数字相机的方式捕捉,或直接经由本发明的电子设备100对象提供的图像捕捉能力捕捉(利用图19所示的原始数字相机界面拍摄照片。在这最后一种情况下,所捕捉的图像将直接存储在电子设备的内置存储器102中,而在任何其他情况下,它们将在稍后的时间传送到存储器102。
排序阶段
如图3和图7所示,软件应用程序通过所述可视用户界面104允许用户选择所述数字图像200的数量的子集或全部,以便实现数字图像的有序序列205。图像应当优选地符合16:9的纵横比,以确保在大多数最近制造的可视化设备上的最佳显示;如果不是,则本发明的软件应用程序能够执行自动图像裁剪以使可用图像符合16:9的纵横比。
更详细地,图5和图6示意性地绘制了在重新排序之前和之后的可用数字图像,如通过字母A、B、C...索引,因此,与图3相比,在图4中在序列中间的图像改变。新得到的图像的序列暂时存储在存储器102上,或可替换地,存储在所述电子设备100的另一个本地存储器上。
如图7所示,所选图像可选地可以放大,但是这种特征不应认为是限制性的,因为它仅表示由软件应用程序提供的可用选项中的一个。在任何情况下,由本发明的可视界面提供的预览窗口使能够在可用图像之间进行即时和直观的导航。另外,如图7所示,软件应用程序提供用于复制和放大所选图像或甚至用于删除所得到的图像的手动功能。
一旦完成图像预排序,用户可以通过特定界面画面的方式从存储器设备102内可用的音频文件的列表中选择期望的音轨(300)。
MFG过滤器应用
如图9所示,在预排序可用图像205的同时,用户可以利用特别设计的函数(被称为多帧生成器过滤器)来过程地增加稍后将用于创建视频的图像的数量。
更详细地,用户选择可用图像中的一个,向其应用数字MFG过滤器,并且因此确认所处理的图像插入在有序序列205中。结果,软件应用程序生成所选图像的n个副本,并且根据具有不同的效果强度的水平的所选过滤器来处理每个副本,如图11到图12到图13到图14所示。
总的来说,MFGF的操作理念是为用户提供一套通过实际(反射或非反射)相机的方式可实现的模仿经典的基于电影的规定的效果。无论选择什么效果,结果都是n个新图像的序列,其中每个新图像其特征在于在过滤器的效果中的强度的水平平滑增加。这些“导出”图像有助于创建在图像之间更好的转换,并且与其中不能实时设定转换持续时间的更传统的编辑环境相比,其还使能够进行更有效的音频视频同步。过滤器套件设计成允许即使没有经验的用户也容易地实现相当好的结果,而更精密和更复杂的过滤器可以对于本发明的专业版本可用。作为第一实例,图12通过手动指定裁剪区域1000(手动裁剪选择键1001)或自动选择裁剪区域1000(自动裁剪选择键1002)来示出“裁剪和缩放”过滤器的应用。图13中示出了其它实例,其中散焦效果应用于所选图像,并且在图14中应用了运动虚化效果。
因此,在所有上述实例中,从自有序序列205中选择的单个图像,参考原始有序序列,生成(405)将被插入在上一个图像和下一个图像之间的新图像。
如图9所示,在图像“A”和图像“F”之间插入所选图像“E”的新副本,每个图像的特征在于效果应用中的不同(增加)强度的水平。由软件应用程序提供的过滤器包括但不以任何方式限于以下效果:颜色校正、去饱和、虚化/散焦、裁剪和缩放、平移。
如图11所示,这些过滤器设计成即使在无经验的用户的情况下也易于操作,并且通过表示过滤器的可用操作参数的图标的方式,这些过滤器可通过可视用户界面104来访问。
可以保存每个过滤器的可用选项和参数的全部,并且可以保存更多过滤器的配置以及创建针对每个用户特定的一个或多个期望的图像处理预设。预设保存结束加载可通过特定的界面画面访问。
数码相机界面
如图19所示,在电子设备100用于拍摄图片的情况下,可视界面的特定画面将允许用户拍摄多个镜头,每个镜头的特征在于聚焦和/或缩放和/或快门定时参数的变化。
为此目的,控制曝光、快门、缩放以及虚化的键804至807沿着围绕图像观看区域的界面的四个边(顶部、左边、底部和右边)定位,该图像观看区域相对于整个界面大致居中。
该界面布局意在提供对图像参数的更直接的控制的水平。优选地,上述控制图形地渲染为调节最小强度水平和最大强度水平之间的相关效果的滑块。然而,软件应用程序还能够针对每个新镜头自动设定每个参数的变化,优化结果以在将要在视频记录步骤中使用的现有图像的序列中和谐地插入新镜头。在电子设备100配备有数字照相机的情况下,曝光和缩放控制将直接控制照相机硬件而快门定时和虚化控制将(通过实时处理进入的图像)在软件水平操作,这是因为用于电子设备100(即,智能手机、平板电脑等)的内置照相机通常不提供手动快门控制。可能地,电子设备100的内置照相机可能够以大于全HD标准(1920×1080像素)的分辨率拍摄照片。
今天,许多智能手机和平板电脑实际上都能够以更高的分辨率拍摄照片。因此,本发明的方法和系统对象能够以与捕捉设备的单次分辨率能力匹配的分辨率制作视频,从而超过由大多数消费者设备提供的或通过使用商业上可用的画面捕捉软件应用程序而实现的典型视频捕捉分辨率。
在电子设备100中的软件应用程序已通过按下“自动”键880而设定为在自动模式下操作的情况下,照相机界面104将不显示上述控制,并且将自动调节图像捕捉参数以优化结果用于随后的视频记录处理。实际上,该优化本质上不同于由大多数照相机提供的典型的自动曝光调节,这是因为后者设计用于静态图像,而电子设备100中的专有优化自动捕捉特征特别地旨在以在两个适当曝光的图像之间视觉上和调地插入所得到的图片的方式来调节图像参数,这是用于获得愉快的视频的基本前提。每第n个图像,自动图像捕捉功能返回到标准参数调节(例如每六次拍摄,所有相关参数返回到其默认值),然后再次开始循环。
记录阶段
如图16、图17以及图18所示,在视频创建过程的记录阶段期间,特定界面画面提供用于开始所选音轨300的再现的控制,并且用于通过简单地按下上述附图中通过可视的基于触摸的界面104的方式实现的键604(或105a)或键605(或105b),利用有序图像序列205中的下一个图像或上一个图像改变当前显示的图像。更准确地,根据系统配置,记录过程通过按下特定的“REC”键(909)而触发,使音频再现和图像音频记录即时地开始,或可选地,开始倒计时使得用户准备好记录开始。
此外,用户可以通过简单地按下特定“对话”键888在记录步骤期间开始实况音频记录。
图15描述了记录阶段的流程图。
首先,示出了图像序列的第一图像。
通过按下Rec视频键(909),音频再现开始,并且用户能够通过604至605键(或105a至105b)的方式利用图像的序列中的上一个或下一个图像改变当前显示的图像。系统将记录视频,其中任何静止图像将在持续时间内并且从用户在该记录阶段期间“实时”收听音乐而稳定的顺序进行编辑。
一旦该步骤结束,则暂时保存音频/视频流以使用户预览视频。然后,用户可以选择保存所生成的视频。
如果视频已保存,则其可以分享。
为了提供可视手段用于在记录阶段期间控制可用图像的剩余量以及音轨的剩余持续时间,可视界面104包括(图18)两个图标指示符801和802。第一指示符801直观地通过圆形钟形图标的方式,使在可用图像的序列205内的当前显示的图像的位置可视化,该圆形钟形图标的移动的表针指示当前图像并且将圆形区域分成两个部分:表针之前(顺时针)的部分指示已经显示的图像,而表针之后的部分指示可能可视化的剩余图像。
类似地,第二指示符802通过相同的视觉象征的方式将在音轨中当前播放的位置直观地可视化,表针之前(顺时针)的部分指示已经收听的音频,而表针之后的部分指示剩余的音频300。这些指示符的可视设计的方法意在促进对残留图像/音频持续时间的即时和直观的理解,使用户能够在考虑音轨的剩余持续时间的情况下即时决定是加速还是减慢图像切换。图标801和图标802的圆形形状必须仅认为是相关指示符的优选外表,并且决不意味着限制它们可能的外表,例如其外表可以是进度条的形式。另外,不论指示符的方面,数字信息可以与图形指示符相关联,以通知用户关于图像的准确剩余数量和剩余音频持续时间。
实况表演模式
利用电子设备的具体实施方式,可以实现“实况表演”,提供增强的记录模态,其允许用户不仅利用下一个/上一个图像(如在记录步骤部分中所描述的),而且反而利用序列205中的下第N个/上第N个图像来改变当前图像200。这个高级功能性通过一组特定键1004的方式来控制。软件应用程序还使能够同时控制多个视频序列1009,从而提供甚至适合于专业使用的精密的视频创建能力。
控制台
图3中示出了电子设备100的具体实施方式,其中示出了本发明的基于控制台的版本。在该实施方式中,主操作控制和按键实现为物理拨号盘和按钮,与基于触摸的可视界面相比,其提供更灵敏的反馈和更好的使用精度。
本发明的优点
本发明的优点从以上提供的描述中显现出来。更确切地,本发明提供了用于从静止图像的序列创建视频的新颖、直观以及简单的方法,使音乐启发的情感驱动方法能够进行实时图像序列组装,而不需要基于声道的长度的任何复杂计算。换句话说,用户不仅不需要具有编辑技能和知识,而且可以利用他/她的节奏感或通过收听所期望的声道而激发的情感的流动,不需要任何后处理步骤从而实现个人的和有趣的视频。每个图像的显示持续时间以及它何时必须随序列中的上一个或下一个图像改变,由用户实时地即时确定。此外,基于同时的音乐收听,该视频记录过程的本质固有地避免了图像与音频之间的任何不同步。因此,就对音频刺激的本能反应而言,整个视频生成过程可以变成更加“游戏化的”体验。
本专利请求的系统和方法对象使用户能够从每个可用的源图像生成多个“导出”图像(图8到图9到图10)。通过应用于源图像的图像处理技术(600多帧生成器过滤器)的方式制作这些“导出”(405)图像,并且这意味着使任意两个源图像之间的转换平滑,从而导致在图像与音频之间的同步的更好机会。如在这些“导出”图像(405)之前所述的,有助于创建在图像之间更好的转换,并且与不能实时设定转换持续时间的更传统的编辑环境相比,它还使能够进行更有效的音频视频同步。
根据本发明特征的摄像机界面(图19)的原始方法直接源于通过可用图像之间的实时有效的转换来组合视频的想法。在捕捉图像的同时,界面布局和可用控制的选择与实时记录的后续阶段密切相关,极大地增加了捕捉的图片对创建过程的适用性。此外,所捕捉的图像可以以捕捉设备的最大分辨率为特征,其似乎比大多数商业上可用的成像设备的视频捕捉分辨率大得多,因此使用户能够制作非常高质量(图像方面)的视频。
为了重新开始,涉及图4、图8b以及图15,本发明允许:
—设定多个图像并且设定音轨;
—将所选图像的序列重新排序;
—选择要由多帧生成器过滤器处理的图像,以生成作为源图像的变型的新帧;
—将所生成的图像添加到图像序列;
—然后可选地将所选图像的序列重新排序;
—然后用户实现视频收听音轨,并且对于静止图像序列中的每个图像,通过下一个/上一个键(604至605-和/或105a至105b)设定实时图像顺序和显示时间;
—然后观看视频预览;
—在分享这样创建的视频之前设定视频分辨率。