专利名称:基于内容的视频检索系统的制作方法
技术领域:
本发明涉及基于内容的视频检索(CBR)领域。包括视频特征数据的组织、存储,高维特征向量的索引与检索,分布式检索等领域的技术。
背景技术:
一个信息检索系统通常包括一个核心的检索数据库,一个搜索调度服务器和服务器组。对外则提供搜索和信息录入的接口。如图1所示。
其中,信息录入大多是依靠人工键入的方式。即由系统中检索内容的提供方把提供给用户的、用于搜索的内容信息通过检索系统的信息录入接口录入到数据库中。
核心数据库系统则主要负责存储供用户检索之用的信息数据。
搜索调度服务器负责接收、解析用户的请求,将其搜索请求分配给检索服务器,以执行实际检索。在检索结果返回到搜索调度服务器后,搜索调度服务器要对返回结果进行处理,如排序、合并、筛选等。处理之后将其返回给用户。完成一次搜索。
与普通的信息检索系统不同,视频搜索系统较为复杂,包含的模块也相对较多。
一个视频搜索系统由视频特征分析、特征数据存储、搜索调度和基于内容的视频检索等几大模块组成。其中,特征数据的存储、搜索调度和视频检索是此类搜索引擎的核心模块。如图2所示。
传统的视频检索系统要通过人工注释得到视频节目的有关信息,并将这些信息存放在数据库中供此后的查询之用。也就是说,视频分析模块实际是一个由人手工完成的工作模块。
这种方式带有很大的局限性。人工的注释不但耗费大量的人力和时间,而且往往带有很大的主观性,不能对视频节目内容作出准确、公正的刻画。特别是对视频节目的颜色、纹理等物理特征更是无法准确描述。即使是语音、字幕这一类不受制于因主观因素的特征,也往往因为其数据量庞大而使人工处理变得不可行。
为此,人们将图像分析、语音分析和字幕分析技术用于视频节目处理,以计算机为主要工具,自动化的得到与视频节目内容相关的特征信息,为基于内容的搜索提供了支持。
在这样的系统中,要对一段视频节目的各方面特征进行分析处理。
在图像方面,要对视频节目进行场景和镜头的划分并提取出具有代表性的关键帧,进而对关键帧进行图像处理,将其颜色、纹理、形状以数学的形式,如向量,进行表示。
进一步的,还要从视频关键帧的低级特征,也就是前述的特征数据中提取出高层语义信息,如关键帧内出现的人脸、物体的运动趋势等,并将它们也表示成文本或数学的形式。
在音频方面,要用计算机对视频节目中出现的人的语音、背景音乐等进行处理,将其转换成字符串或具有一定含义的数学形式。
例如,对于视频节目中出现的人的语音,可以使用语音识别的方法,将语音转换成拼音图或词图的形式。
对于视频节目中出现的音乐,也可以通过对其波形特征的分析,得到音乐的旋律、音调特征,或音调的高低变化特征等。
在字幕方面,需要识别视频图像中出现的汉字,并将其提取出来转换成字符。
经过以上手段处理后得到的数据被称为视频节目的特征数据。特征数据的数量往往是非常庞大的。如,一个30分钟左右的视频节目可能包含500张以上的关键帧图片,而每个图片的特征往往需要若干个几十、甚至上百维的向量加以刻画;同样一段节目的语音在转化成图一类的特征数据结构后,往往需要几兆的空间保存。
因此,在进行基于内容的视频检索时,往往面临着数据量庞大,检索效率低下的问题。必须设法解决。或者减少特征数据的数据量,或者采取特别方式缩小检索范围以提高检索速度。
同时,基于内容的视频检索还存在无法准确匹配的问题。检索条件和数据库系统中存放的特征数据往往不是百分之百的匹配的。例如,即使检索条件图像中和数据库关键帧图片中出现了同一个人的形象,对这些关键帧进行分析后,得到的特征向量也不可能完全和检索条件图像的特征数据是一样的。但是对于视频检索,这些图像却是“符合”检索条件的。因此,针对特征向量的检索应该执行模糊匹配策略。需要适当的检索和搜索策略来寻找能满足条件的结果,并得到模糊匹配的程度。
目前,在视频分析领域、图像分析领域、语音分析领域和字幕提取领域,都已经有了令人振奋的研究成果。分析的精度已经达到了一定的程度。但是,在国内目前尚很少将上述领域的研究成果应用在实际的产品中。至于将上述领域的研究成果相结合,为基于内容的视频检索服务,更是没有先例。
将视频分析领域、图像分析领域、语音分析领域和字幕提取领域的成果结合起来,并辅以其他重点技术,共同为基于内容的视频检索服务,还面临着很大的困难和挑战。无论从设计上,还是从实际的开发都还有相当多的技术难点需要解决。
发明内容
本发明的目的在于实现一个可以基于视频节目内容信息进行视频检索的系统。该系统将视频分析领域、图像分析领域、语音分析领域和字幕提取领域的成果结合起来,并辅以其他重点技术,共同为基于内容的视频检索服务。
一个基于内容的视频检索系统,包括一个元数据检索服务器,根据搜索调度服务器的要求对视频节目的元数据进行检索;一个字幕检索服务器,用来对存放节目字幕文本的XML文件进行检索;一个视频检索集群,用来对视频关键帧的特征数据进行检索;一个语音检索集群,用来对视频节目的语音信息,包括拼音串和拼音图进行检索;一个面向用户的搜索接口按照约定的报文格式接收用户的搜索请求并返回搜索结果。
一所述的元数据检索服务器中的元数据表包含节目ID,节目名称,导演,演员,语言,产地,类型1,类型2,文件格式,文件大小,长度,屏幕宽度,屏幕高度,节目地址,节目文件名,上载时间,上载地址,上载状态,是否必审,节目级别,审查标志,节目价格,节目简介,封杀标志字段;其中的元数据检索模块包含一个根据节目ID来检索节目的存储过程、一个根据组合条件来检索节目的存储过程;其中的元数据录入模块包含一个将指定元数据信息插入数据库表的存储过程。
一所述的字幕检索服务器中包括一个用来存储字幕XML文件的数据库表,一个用于存储服务器相关配置信息的表,一个读取配置信息的存储过程,一个用于XML检索的存储过程,一个用于向数据库录入XML文件的存储过程和一个XML的分段索引。
-所述的字幕XML文件数据库表,包括一个节目ID字段,XML文件名字段和XML文件字段。
-所述的服务器配置信息表,包括参数ID字段、参数名字段和参数值字段。
-所述的用于XML检索的存储过程,包括关键词逻辑表达式生成程序块和检索程序块。
-所述的视频检索集群,包括一个视频场景检索服务器和一个视频检索服务器。
-所述的视频场景检索服务器中包括一个存储场景关键帧索引的数据库表,一个用于索引录入的存储过程,一个用于检索场景关键帧的程序包。
-所述的场景关键帧索引数据库表,包括索引ID字段,三个索引聚类下界向量字段,三个索引聚类上界向量字段,索引内容嵌套表,索引聚类内关键帧总数字段和索引聚类最大距离字段。
-所述的索引内容嵌套表,包括条目标识ID字段,关键帧所属节目ID字段,关键帧编号字段,关键帧类型字段,场景开始时间字段,场景结束时间字段,镜头开始时间字段,镜头结束时间字段,关键帧时间点字段,三个关键帧特征信息向量字段。
-所述的视频检索服务器,包括一个存放视频关键帧XML文件的数据库表,一个存放关键帧索引的数据库表,一个存放服务器配置信息的数据库表,一个用于录入XML文件的存储过程,一个用于生成索引的程序包,一个用于检索索引表的程序包,一个用于调用视频场景检索服务器内程序的远程链接。
-所述的视频关键帧XML文件数据库表的结构与9中介绍的场景关键帧索引数据库表的结构相同,它也包括一个索引内容嵌套表。
-所述的索引内容嵌套表与10中介绍的索引内容嵌套表的结构相同。
-所述的用于生成索引的程序包,包括一个用于将一个新图像特征值添加到一个聚类中的程序包;一个用于按指定门限值扩展一个聚类的程序包;一个用于创建新聚类(索引条目)的存储过程。
-所述的用于按指定门限值扩展一个聚类的程序包,它包括一个扩展的主存储过程,一个用于计算扩展后聚类超矩形主对角线长度的存储过程,一个用于计算扩展后聚类是否与已有的其他聚类存在交叠的存储过程;其中,聚类超矩形对角线长度的最大允许值设为2.0。
-所述的用于将一个新图像特征值添加到一个聚类中的程序包,它包括一个用于添加的主存储过程,一个用于判断一个图像的特征值是否属于某个聚类的存储过程。
-所述的用于检索索引表的程序包,它包括一个检索主存储过程,一个计算检索条件图像与某个聚类的最小距离的存储过程,一个计算检索条件图像与某个聚类的最大距离的最小值的存储过程,一个用于判断某个聚类是否有效的程序段。
-所述的检索主存储过程,其中检索条件图像与聚类之间距离的最大允许值设为2.0。
-所述的用于检索场景关键帧的程序包与17中介绍的用于检索索引表的程序包的结构相同。
-所述的语音检索集群,其中包括一个语音缓存检索服务器,一个语音最优检索服务器和一个语音拼音图检索服务器。
对于这套系统,要求它不但能向后兼容传统的基于文字等基本信息的检索,还要提供以下检索功能1.基于图片的检索。
系统用户给出一张图片作为检索条件,图片中可能含有用户感兴趣的情景、人物或建筑。
检索系统要在数据库中寻找与上述检索条件图片相匹配,即匹配度达到一定门限的关键帧图片,并将这些关键帧所在的视频节目片段返回给用户。
检索系统在检索时,可能根据检索条件图像的整体特征,如整个图片的颜色、纹理、形状等,进行检索。也可能是根据检索条件图像的局部特征,如图像中出现的人物(人脸识别)、建筑物、自然景物等,进行检索。甚至还可以根据检索条件图像中物体的运动特征进行检索。
2.基于一个视频片段的检索系统用户给出一个视频片段作为检索条件,这个片段通常比较短小,可能是用户感兴趣的那个目标视频节目的宣传片或片段。
检索系统则首先将用户给出的视频片段进行分析,抽取出它的关键帧,然后用这些关键帧的特征数据作为检索条件对数据库进行检索。
与单纯的图像检索不同,从用户提供的视频片段中抽取的各个关键帧图像之间具有一定的关联,因为他们来自同一个视频。所以在对检索结果进行处理时,要考虑到这种相关性。保证返回给用户的检索结果,是与用户检索条件匹配的视频片段,而非多个独立的、无关联的帧。
对于1和2,考虑到视频关键帧特征数据量的庞大,要为特征数据建立索引。
与传统的文本内容的索引不同,视频特征数据索引要对高维的视频特征向量进行索引。高维特征向量索引的基本思想是聚类。即把“相似”的特征向量分成一类,以减少以后检索时进行比对的次数。
3.基于用户在线语音的检索。
系统用户使用麦克风在线的口述一个或多个检索关键词。在客户端,计算机软件将对用户的语音做简单的分析,将其语音信号转换成检索系统需要的形式,然后交给检索系统执行实际检索。
检索系统在得到上述检索条件后,将对语音检索集群进行检索。找到与之匹配程度达到一定门限的语音片段,并将这些语音片段所在的视频节目片段返回给用户。
考虑到语音特征数据量的庞大和检索的精确度,将语音检索系统设计成一个分布式的检索集群。采用高速缓存策略提高检索的速度。
4.基于一个语音片段的检索。
系统用户给出一段语音文件,如wav格式,其中的内容是一段语音。计算机软件将对用户给出的语音文件做简单的分析,将其语音信号转换成检索系统需要的形式,然后交给检索系统执行实际检索。
检索系统在得到上述检索条件后,将对语音检索集群进行检索。找到与之匹配程度达到一定门限的语音片段,并将这些语音片段所在的视频节目片段返回给用户。
同样,考虑到语音特征数据量的庞大和检索的精确度,将语音检索系统设计成一个分布式的检索集群。采用高速缓存策略提高检索的速度。
5.基于字幕信息的检索对于系统用户来说,这种检索方式与传统检索方式没有直观上的不同。用户仍然是手工键入文本形式的检索条件。这些条件被发送给检索系统。
检索系统的工作方式也和传统检索系统相似。只不过,检索的目标是字幕数据库,而字幕数据库中的内容并非来自人工的录入,而是字幕分析模块处理视频节目的结果。
视频节目的数量可能是海量的,同时每部节目内的字幕信息量也非常庞大。因此,整个字幕数据库的内容就更是海量的了。为此要为字幕信息也建立索引,提高检索效率。
6.综合检索例如,当用户给出文字检索条件时,检索系统会综合检索元数据库、字幕数据库,甚至将文字变成拼音,去检索语音数据库。
本发明将视频分析领域、图像分析领域、语音分析领域和字幕提取领域的成果结合起来,并辅以其他重点技术,共同为基于内容的视频检索服务。
附图1为普通信息检索系统的结构图附图2为基于内容的视频检索系统模块图附图3为基于内容的视频检索系统的系统结构图附图4为字幕检索模块的流程图附图5为视频关键帧检索的流程图具体实施方式
该系统的结构图如附图3所示。系统分为如下几个模块。
1.元数据检索服务器;元数据是在制作节目时人工填写的文字信息,用来刻画视频节目的题目、导演、演员、产地、简介等内容信息,以及帧率、分辨率、点播费用、是否需要DRM验证等特征数据。
这一部分是整个系统中唯一需要人工参与的模块。
在人工填写好这些数据后,将其录入到元数据库中。
在执行简单的元数据查询,或执行基于内容查询后需要搜索结果的相关信息时,都要向元数据检索服务器发出检索请求、对元数据库进行查询。
2.字幕检索服务器;
得到字幕特征数据就是视频节目中出现过的字幕文本。在字幕分析时,将这些文本及其出现处所属的场景和镜头的开始和结束时间保存为指定格式的XML文件,并录入到字幕数据库中。
字幕检索服务器的检索模块结构如附图4所示。
由搜索调度服务器发来的检索条件是一个字符串,其中包含若干个检索条件,用指定分隔符分隔。
首先,要提取出不同的检索条件,并按照以后检索程序的要求将他们连接成指定模式的逻辑表达式。然后,根据这个表达式对字幕数据库中的视频节目字幕XML文件进行过滤,将文件中包含检索条件的节目挑选出来。最后,在选出来的文件中定位检索条件,找到该条件出现处所属场景和镜头的时间信息。
3.视频检索集群;鉴于视频关键帧的特征数据量庞大,为了保证响应时间,将视频检索模块设计成一个检索集群。该集群包含视频场景和视频检索两个服务器。
虽然视频特征数据在录入数据库时也是以XML文件的形式存放的,但是为了提高检索效率,会将所有的视频关键帧进行索引。
索引采用基于R树的高维向量索引技术,其基本思想是定义两个图像特征数据之间的距离,将相互距离在指定范围内的图像划分为一个聚类,即把“相似”的图像分成一类。在进行检索时,只检索索引,计算检索条件与每个聚类之间的“最小距离”和“最大距离的最小值”,根据这两个特征值淘汰掉那些与检索条件图像差的很远的聚类。最后,只计算未被淘汰的聚类内的图像与检索条件图像之间的距离,并排序返回。
这样,就大大减少了参与比较的图像数量和计算的次数,提高了检索的速度。
在视频检索集群的两台服务器中,都用上述索引来表示视频节目的关键帧图像。两台服务器的协作方式如附图5所示。
(1)视频场景检索服务器这里存放所有视频场景关键帧聚类。因为在一个视频节目中,场景关键帧的数量要比总关键帧数量少一个数量级,而场景关键帧本身也具有很强的代表性,所以,首先对场景关键帧进行检索,这样可以提高检索速度。
(2)视频检索服务器这里存放有所有场景和镜头关键帧的聚类。当只检索场景关键帧得不到满足一定要求的检索结果时,要对所有关键帧进行检索,以得到真正匹配的结果。
视频关键帧的匹配算法是一个模糊匹配算法。即数据库中的关键帧与检索条件图像的匹配程度只要达到一定的门限即可被接受。
4.语音检索集群;在对视频节目的语音进行分析时,将得到语音的拼音图,通过搜索拼音图可以获得节目中出现过哪些话。但是,一个30分钟左右的节目的语音信息需要600幅以上的拼音图加以刻画,而拼音图的搜索速度本身也不高,因此,为了保证检索系统的检索速度,将语音检索部分设计为一个检索集群,包括语音缓存检索、语音最优化检索和语音拼音图检索三个检索服务器。
这三台服务器保证了用户可以快速的检索到那些“经常被访问”的语音信息,即语音缓存中的信息。当语音缓存中不存在所需信息时,检索语音最优化服务器中的内容,即从少量较优的语音分析结果中检索。同时,检索服务器的后台程序将使用用户检索过的那些条件对语音拼音图进行离线的全面检索,并将得到的结果更新到缓存中。这样,就提高了此后用户的检索速度。
关于这一部分的详细说明,请参见专利《分布式语音检索系统》。
如前面所述。对于语音最优拼音串、语音拼音图、视频特征向量和字幕信息都是以XML文件的形式传递给数据库的。
1.语音最优拼音串XML文件的核心内容包括最优拼音串内容,最优拼音串的后验概率,最优拼音串出现位置(场景、镜头、语音的开始和结束时间)。最优拼音串是按照一定的门限要求从语音拼音图中提取出的后验概率较高的拼音图搜索结果。
2.语音拼音图XML文件的核心内容包括一段语音对应的拼音图的节点和弧信息,拼音图出现位置(场景、镜头、语音的开始和结束时间)。
3.视频特征向量XML文件的核心内容包括一个关键帧的类别(场景或镜头),关键帧图像的颜色矩特征数据,关键帧图像的颜色直方图特征数据,关键帧图像的纹理特征数据,关键帧所属场景、镜头的开始和结束时间,关键帧的时间点。
4.字幕XML文件的核心内容包括字幕内容(文本格式),字幕的出现位置(场景、镜头和这段字幕的开始和结束时间)。
在上述检索模块中使用了如下索引。
1.XML分段索引。对于字幕和语音最优化数据库,都是直接检索XML文件的,因此对XML文件中最核心内容,即语音拼音串和字幕文本,建立分段索引,以提高检索速度。
在插入、更新、删除数据库内容时,要对上述XML分段索引进行同步。
每隔一段时间,要对上述XML分段索引执行优化操作。这一工作被设计为检索服务器的后台作业,每隔15天调度一次。
2.基于R树的高维向量索引。对视频关键帧特征数据(以高维向量形式表示)建立了基于R树的索引。
目前,基于R树的索引技术的研究成果很多。本系统使用“先来先索引”的思想,对先进入数据库的关键帧图像优先建立索引,而对随后入库的关键帧图像则检查它们可以被划分到已有哪一个聚类中。如果他们不属于任何已有的聚类,则用他们去依次扩展已有的聚类,扩展成功的条件是扩展后聚类内关键帧之间的最大距离(即聚类超矩形的主对角线长度)不超过指定门限且扩展后的聚类(即聚类超矩形)不与其他已有聚类相交。
3.普通文本索引。包括元数据库的某些热点字段,如导演、演员、简介等,以及语音缓存数据库的关键词。
权利要求
1.一个基于内容的视频检索系统,其特征在于包括一个元数据检索服务器,根据搜索调度服务器的要求对视频节目的元数据进行检索;一个字幕检索服务器,用来对存放节目字幕文本的XML文件进行检索;一个视频检索集群,用来对视频关键帧的特征数据进行检索;一个语音检索集群,用来对视频节目的语音信息,包括拼音串和拼音图进行检索;一个面向用户的搜索接口按照约定的报文格式接收用户的搜索请求并返回搜索结果。
2.如权利要求1所述的基于内容的视频检索系统,其特征在于元数据检索服务器中的元数据表包含节目ID,节目名称,导演,演员,语言,产地,类型1,类型2,文件格式,文件大小,长度,屏幕宽度,屏幕高度,节目地址,节目文件名,上载时间,上载地址,上载状态,是否必审,节目级别,审查标志,节目价格,节目简介,封杀标志字段;其中的元数据检索模块包含一个根据节目ID来检索节目的存储过程、一个根据组合条件来检索节目的存储过程;其中的元数据录入模块包含一个将指定元数据信息插入数据库表的存储过程。
3.如权利要求1所述的基于内容的视频检索系统,其特征在于字幕检索服务器中包括一个用来存储字幕XML文件的数据库表,一个用于存储服务器相关配置信息的表,一个读取配置信息的存储过程,一个用于XML检索的存储过程,一个用于向数据库录入XML文件的存储过程和一个XML的分段索引。
4.如权利要求3所述的基于内容的视频检索系统,其特征在于字幕XML文件数据库表,包括一个节目ID字段,XML文件名字段和XML文件字段。
5.如权利要求3所述的基于内容的视频检索系统,其特征在于服务器配置信息表,包括参数ID字段、参数名字段和参数值字段。
6.如权利要求3所述的基于内容的视频检索系统,其特征在于用于XML检索的存储过程,包括关键词逻辑表达式生成程序块和检索程序块。
7.如权利要求1所述的基于内容的视频检索系统,其特征在于视频检索集群,包括一个视频场景检索服务器和一个视频检索服务器。
8.如权利要求7所述的基于内容的视频检索系统,其特征在于视频场景检索服务器中包括一个存储场景关键帧索引的数据库表,一个用于索引录入的存储过程,一个用于检索场景关键帧的程序包。
9.如权利要求8所述的基于内容的视频检索系统,其特征在于场景关键帧索引数据库表,包括索引ID字段,三个索引聚类下界向量字段,三个索引聚类上界向量字段,索引内容嵌套表,索引聚类内关键帧总数字段和索引聚类最大距离字段。
10.如权利要求9所述的基于内容的视频检索系统,其特征在于索引内容嵌套表,包括条目标识ID字段,关键帧所属节目ID字段,关键帧编号字段,关键帧类型字段,场景开始时间字段,场景结束时间字段,镜头开始时间字段,镜头结束时间字段,关键帧时间点字段,三个关键帧特征信息向量字段。
11.如权利要求7所述的基于内容的视频检索系统,其特征在于视频检索服务器,包括一个存放视频关键帧XML文件的数据库表,一个存放关键帧索引的数据库表,一个存放服务器配置信息的数据库表,一个用于录入XML文件的存储过程,一个用于生成索引的程序包,一个用于检索索引表的程序包,一个用于调用视频场景检索服务器内程序的远程链接。
12.如权利要求11所述的基于内容的视频检索系统,其特征在于视频关键帧XML文件数据库表的结构与9中介绍的场景关键帧索引数据库表的结构相同,它也包括一个索引内容嵌套表。
13.如权利要求12所述的基于内容的视频检索系统,其特征在于索引内容嵌套表与10中介绍的索引内容嵌套表的结构相同。
14.如权利要求11所述的基于内容的视频检索系统,其特征在于用于生成索引的程序包,包括一个用于将一个新图像特征值添加到一个聚类中的程序包;一个用于按指定门限值扩展一个聚类的程序包;一个用于创建新聚类(索引条目)的存储过程。
15.如权利要求14所述的用基于内容的视频检索系统,其特征在于用于按指定门限值扩展一个聚类的程序包,它包括一个扩展的主存储过程,一个用于计算扩展后聚类超矩形主对角线长度的存储过程,一个用于计算扩展后聚类是否与已有的其他聚类存在交叠的存储过程;其中,聚类超矩形对角线长度的最大允许值设为2.0。
16.如权利要求14所述的基于内容的视频检索系统,其特征在于用于将一个新图像特征值添加到一个聚类中的程序包,它包括一个用于添加的主存储过程,一个用于判断一个图像的特征值是否属于某个聚类的存储过程。
17.如权利要求11所述的基于内容的视频检索系统,其特征在于用于检索索引表的程序包,它包括一个检索主存储过程,一个计算检索条件图像与某个聚类的最小距离的存储过程,一个计算检索条件图像与某个聚类的最大距离的最小值的存储过程,一个用于判断某个聚类是否有效的程序段。
18.如权利要求17所述的基于内容的视频检索系统,其特征在于检索主存储过程,其中检索条件图像与聚类之间距离的最大允许值设为2.0。
19.如权利要求8所述的基于内容的视频检索系统,其特征在于用于检索场景关键帧的程序包与17中介绍的用于检索索引表的程序包的结构相同。
20.如权利要求1所述的基于内容的视频检索系统,其特征在于语音检索集群,其中包括一个语音缓存检索服务器,一个语音最优检索服务器和一个语音拼音图检索服务器。
全文摘要
本发明提供一种基于视频节目内容特征的检索系统,该系统包括一个搜索调度服务器,用来对用户提出的搜索请求进行解析、调度,并按照一定的策略执行检索,对得到的检索结果进行评分、排序、归并,最后返回给用户;一个元数据检索服务器,根据搜索调度服务器的要求对视频节目的元数据进行检索;一个字幕检索服务器,用来对存放节目字幕文本的XML文件进行检索;一个视频检索集群,用来对视频关键帧的特征数据进行检索;一个语音检索集群,用来对视频节目的语音信息,包括拼音串和拼音图进行检索;一个面向用户的搜索接口按照约定的报文格式接收用户的搜索请求并返回搜索结果。
文档编号G06F17/30GK101021855SQ20061014083
公开日2007年8月22日 申请日期2006年10月11日 优先权日2006年10月11日
发明者江南, 苏磊, 鲍东山 申请人:鲍东山