用于文件的分类的方法和装置的制造方法
【技术领域】
[0001]本发明涉及用于文件或文件的部分的分类的方法和装置。更具体地,描述了允许在时间域和结构域中对文件或文件的部分进行分类的方法和装置。
【背景技术】
[0002]在数字媒体内容的产生期间,生成各种文件,例如内容媒体文件和元数据文件。这些文件一般具有多个时间和/或结构关系。
[0003]仅具有结构信息的文件的示例是电影制作脚本。这样的电影制作脚本包含关于电影的场景和镜头序列的结构信息,但一般没有可利用的时间信息。相反,记录的摄像机拍摄(take)的媒体文件仅包含时间参考,即当已经拍下拍摄时的信息,但典型地没有具有结构参考的可利用的元数据。可以提供此信息例如作为一天中的时间和/或作为SMPTE时间码(SMPTE:电影与电视工程师协会)。包含结构和时间信息的文件的示例是记录报告。这样的记录报告包含关于当已经拍下场景的一个或多个镜头的拍摄时的信息。
[0004]典型地,单独拍摄的每个文件仅包含以各种不同格式表示的有限程度的信息。例如,电影脚本可以是简单的文本文件(doc、pdf、...),媒体内容通常被提供作为媒体文件(av1、mpg、mov、...),并且记录报告可以是采用标记格式的文件(sgml、xml、...)。通常,专用的解释器(interpreter)能够显示每个文件的内容。然而,检测任意文件的内部结构并且在较高级别上下文中对其进行分类是非常困难的。这是一方面由于文件的不同表示,另一方面由于文件或文件的部分可能与其有关系的多个域的不同级别。例如,记录报告可以是手动编辑文件或者由例如摄像机、拍板(clapper boards)或平板这样的电子设备以及对应的应用自动生成的文件。
[0005]除其它外,US 2010/0042650公开了一种视频编辑应用。由解析器选择并且解析包含与视频剪辑相关联的元数据的文件。在存储器中存储由解析器提取的元数据。解析器是仅能够处理XML文件的XML解析器。
[0006]因此,期望具有一种用于在结构域和时间域中对内容和数据(元数据)文件进行分类、排序和链接的、更通用的并且面向未来的解决方案。
【发明内容】
[0007]本发明的目的是提供一种用于在结构域和时间域中对文件或文件的部分进行分类的解决方案。
[0008]根据本发明的一个方面,一种用于文件或文件的部分的分类的方法包括以下步骤:
[0009]-获取文件;
[0010]-获取对于文件的转换脚本,该转换脚本使得能够将文件的内容映射到仅包含适用于文件的分类的信息的文件的表示;
[0011]-使用转换脚本对文件或文件的部分执行语法分析来生成文件的表示;
[0012]-对文件的表示执行语义分析;以及
[0013]-输出从语义分析得到的结构分类和/或时间分类。
[0014]相应地,一种被配置为执行文件或文件的部分的分类的装置包括:
[0015]-第一输入端,其被配置为获取文件;
[0016]-第二输入端,其被配置为获取对于文件的转换脚本,该转换脚本使得能够将文件的内容映射到仅包含适用于文件的分类的信息的文件的表示;
[0017]-语法分析单元,其被配置为使用转换脚本对文件或文件的部分执行语法分析来生成文件的表示;
[0018]-语义分析单元,其被配置为对文件的表示执行语义分析;以及
[0019]-输出端,其被配置为输出从语义分析得到的结构分类和/或时间分类。
[0020]类似地,一种计算机可读存储介质存储有使能文件或文件的部分的分类的指令,该指令在由计算机运行时导致计算机:
[0021]-获取文件;
[0022]-获取对于文件的转换脚本,该转换脚本使得能够将文件的内容映射到仅包含适用于文件的分类的信息的文件的表示;
[0023]-使用转换脚本对文件或文件的部分执行语法分析来生成文件的表示;
[0024]-对文件的表示执行语义分析;以及
[0025]-输出从语义分析得到的结构分类和/或时间分类。
[0026]本发明提出在结构域和时间域中对文件或文件的部分进行分类。要被分类的文件例如是采用各种格式的数据文件、元数据文件或多媒体文件,诸如文本文件、a/v文件或采用标记格式的文件。分类取决于被包含在文件的内容中的信息。可配置语法分析单元检测任意文件的类型,并且在转换脚本的帮助下将文件的内容映射到仅包含用于分类的信息的内部表示。映射有利地使用文本映射、视觉内容到文本的映射、以及从二进制文件中数据提取中的至少一个。
[0027]在时间域和/或结构域中文件或这种文件的部分的分类和排序使得能够自动检测和建立文件和所包含的信息之间的关系。可配置语法分析单元允许在不改变语义分析单元的情况下的多个文件格式的处理。对于每个文件类型,转换脚本将输入文件映射到内部表示。将输入文件的内容映射到简化的内部表示具有语义分析单元可以仅致力于分类所需的信息的优点。
[0028]为了更好的理解,现将在参照附图的以下描述中更详细地说明本发明。可以理解的是,正如在所附权利要求中所限定的,本发明不限于此示例性实施例,并且在不脱离本发明的范围的情况下还可以方便地组合和/修改指定的特征。
【附图说明】
[0029]图1描述了根据本发明的分类单元;
[0030]图2示出了在时间域和结构域中文件的分类;
[0031]图3描述了仅在结构域中文件的分类;
[0032]图4示出了仅在时间域中文件的分类;
[0033]图5示意性地示出了用于文件的分类的根据本发明的方法;以及
[0034]图6更详细地描述了图1的分类单元。
【具体实施方式】
[0035]图1描述了实现根据本发明的解决方案的分类单元10。为了检测和分类文件的内容和结构,语法分析单元11将一组配置文件或映射脚本12中的至少一个应用于例如数据文件、元数据文件或媒体文件这样的文件13,以便产生时间域和/或结构域中的文件的内部表示。输入文件13的内容被映射到仅包含在时间域和/或结构域中分类文件13所必要的信息的内部表示。然后,语义分析单元14生成输入文件的内容的结构分类15和时间分类16。通过例如简单的文本映射、可视内容到文本的映射(OCR)、从二进制文件中数据提取等来产生内部表示。映射脚本12负责将输入文件13的语法映射到内部表示的语法。
[0036]图2说明了对于文件包含与时间域相关的信息以及与结构域相关的信息的情况下分类单元10的行为。在该图中,被分析的文件13是记录报