专利名称:节目端点时间检测装置和方法以及节目信息检索系统的制作方法
技术领域:
本发明涉及多媒体内容检索领域,特别涉及一种采用音频信号处理的方法对节目 的端点时间进行检测的节目端点时间检测装置和方法以及节目信息检索系统。
背景技术:
一般体育视频比赛时间比较长,而往往广大体育爱好者真正关心的内容通常只占 居整场内容的很小一部分。随着越来越多的体育视频冲击,使得人们对体育视频的有效检 索和管理的要求也越来越迫切。很多时候,人们没有足够时间观看实况转播,因此,很多爱 好者会采取将体育节目录制出来,然后等自己有时间的时候再拿出来观看。在观看的时候, 用户会有选择的观看其中的一些重要场次,比如下半场、决赛局等。因此,在这种情况下,能 够准确获取比赛场次的起始时间信息是非常重要的。另一方面,如果需要从中找到自己关注的内容,往往需要用户从头至尾遍历一遍 之后才能找到所需内容,这样既费时又费力。因此,如果能够有这样一个体育内容检索系 统,可以帮助用户检索一些真正关心的内容,就可以大大节约时间。关于上述课题,本领域技术人员进行了如下的研究。非专利文献1中,仅利用语音信息来对广告,篮球比赛,足球比赛,新闻报道和天 气预报5类电视节目进行识别,采用的是神经网络分类器,最后结合图像分析以提高准确 性,没有对电视节目的内容进行分析和检索。非专利文献2中,结合视频特征用决策树来检测足球比赛进球场景,但是仅对一 种体育比赛中的进球进行检索,该检测框架仅适用于足球比赛,对于其他的比赛就不适用 了。专利文献1中,同时利用音频和视频特征对体育比赛进行场景分类,包括场地全 景、特写镜头、角球、任意球和进球五类场景,其中音频特征主要是用来识别鼓掌声和哨声 两种类别。专利文献2中,仅仅利用语音识别技术得到文本内容,在识别后得到的文本内容 里面进行待搜索内容匹配,得到需要检索的内容。专利文献3中,第一阶段对有人工标注的多媒体数据利用语义标签进行相关音频 寻找,第二阶段,基于语义标签的音频查询结果在线训练该类音乐特征,并利用于音频内容 的查询。专利文献4中,提出了一种音频、视频内容的采集方法和检索方法,其中音频方面 采用将声音分段后识别,生成声音与文字的对应关系表,用户使用所需声音片断对用的文 字在该对应关系表中进行检索。从以上研究可以看出,目前已有的研究仅对某一两种体育比赛内容的特定内容进 行分析和检测,这些研究针对性强,不能很好的扩展到其他类别的体育比赛的内容检索中 去。而随着体育比赛种类的日益增加,消费者越来越不可能有足够的时间将整场比赛从头 至尾的观看一遍了,因此,如何能够提供一套自动的体育比赛的内容检索系统,从而帮助用户快速方便的检索出自己关注的内容是目前广大体育爱好者们迫切关注的问题。禾Il文1 :Liu, Ζ.,et al. , "Audio feature extraction and analysis for scenesegmentation and classification,,,Journal of VLSI Signal Processing, pp. 61 to 70(1998).非专利文献2 =Shu-Ching Chen, Mei-Iing Shyu, Min Chen, Chengcui Zhang, "A decision tree-based multimodal data mining framework for soccer goaldetection,,, 2004 IEEE International Conference on Multimedia and Expo, Volumel, June 2004, pp.265-268.专利文献1 :US 2005/0195331 Al专利文献2 :CN101281534专利文献3 :CN101364222专利文献4 :CN101102M0
发明内容
为了实现上述目的,本发明提供一种节目端点时间检测装置,通过对所述节目的 音频信号进行处理,从而检测所述节目的端点时间,该装置包括音频分类单元,将所述音 频信号分类为语音信号部分和非语音信号部分;关键词检索单元,从所述语音信号部分检 索表示节目开始或结束的端点关键词,作为候选的端点关键词;内容分析单元,对通过所述 关键词检索单元检索出的所述候选的端点关键词的上下文进行内容分析,以确定所述候选 的端点关键词是否为有效的端点关键词;以及节目端点时间确定单元,基于所述关键词检 索单元的检索结果和所述内容分析单元的确定结果进行统计分析,确定节目的端点时间。本发明还提供一种节目端点时间检测方法,通过对所述节目的音频信号进行处 理,从而检测所述节目的端点时间,该方法包括音频分类步骤,将所述音频信号分类为语 音信号部分和非语音信号部分;关键词检索步骤,从所述语音信号部分检索表示节目开始 或结束的端点关键词,作为候选的端点关键词;内容分析步骤,对通过所述关键词检索步骤 检索出的所述候选的端点关键词的上下文进行内容分析,以确定所述候选的端点关键词是 否为有效的端点关键词;以及节目端点时间确定步骤,基于所述关键词检索步骤的检索结 果和所述内容分析步骤的确定结果进行统计分析,确定节目的端点时间。另外,本发明还提供一种节目信息检索系统,通过对所述节目的音频信号进行处 理,从而获得用户所需的节目信息,该系统包括显示装置,用于显示该系统的用户界面; 节目导入装置,将多个节目导入所述节目信息检索系统,并在所述显示装置中显示节目列 表;以及节目端点时间检测装置,对用户从节目列表中选择的节目进行分析,以得到所述节 目的端点时间,并显示在所述显示装置上,所述节目端点时间检测装置包括音频分类单 元,将所述音频信号分类为语音信号部分和非语音信号部分;关键词检索单元,从所述语音 信号部分检索表示节目开始或结束的端点关键词,作为候选的端点关键词;内容分析单元, 对通过所述关键词检索单元检索出的所述候选的端点关键词的上下文进行内容分析,以确 定所述候选的端点关键词是否为有效的端点关键词;以及节目端点时间确定单元,基于所 述关键词检索单元的检索结果和所述内容分析单元的确定结果进行统计分析,确定节目的 端点时间。
通过本发明的节目端点时间检测装置和方法,用户可以快速从冗长的节目视频中 轻松地找到节目的准确开始和结束时间点。另外,通过本发明的节目信息检索系统,可以对节目内容进行理解和分析,帮助用 户提取一些感兴趣的事件和信息,比如检索节目的类别,检索精彩事件,检索关键人名和队 名等,检索不同节目的开始和结束时间点等等。
图1是表示本发明的第一实施例的节目端点时间检测装置1的方框图。图2是表示本发明的第一实施例的节目端点时间检测方法的流程图。图3是表示本发明的第二实施例的节目端点时间检测装置1’的方框图。图4是表示本发明的第二实施例的节目端点时间检测装置1’的模块概念图。图5是表示应用了本发明的节目端点时间检测装置1 (1’)的节目信息检索系统2 的方框图。图6是表示节目信息检索系统2的用户界面的一例的示意图。
具体实施例方式下面,基于
本发明的具体实施方式
。本发明中所提到的“节目”一词包括体育比赛、文艺表演、电视剧、话剧、电视访谈、 音乐会、家庭录像等等,一切观众想要观看/收听(视听)的包括音频、视频等在内的多媒 体内容。另外,节目的“端点”是指节目中观众所真正关心的部分的开始点和结束点,比如 足球比赛中的上下半场的开始点和结束点。在下面的说明中主要以体育比赛节目为例进行 说明,但本发明不限于对体育比赛节目的检索,本发明可以适用于包括上述列举的以及列 举以外的任何节目内容的检索。图1是表示本发明的第一实施例的节目端点时间检测装置1的方框图。如图1所示,所述节目端点时间检测装置1包括音频分类单元11,将音频信号分 类为语音信号部分和非语音信号部分;关键词检索单元12,从语音信号部分检索表示节目 开始或结束的端点关键词,作为候选的端点关键词;内容分析单元13,对通过关键词检索 单元12检索出的候选的端点关键词的上下文进行内容分析,以确定候选的端点关键词是 否为有效的端点关键词;以及节目端点时间确定单元14,基于关键词检索单元12的检索结 果和内容分析单元13的确定结果进行统计分析,确定节目的端点时间。上述各单元可以通 过分别独立的装置来实现,也可以是部分或全部集成在同一集成电路上,也可以采用公知 的计算机来实现,这对于本领域技术人员是不言而喻的。音频分类单元11通过未图示的接口取入音频信号,并将音频信号的语音信号部 分和非语音信号部分进行分离。作为其分离方法,可以采用基于模型的分类方法,或者基于 聚类的方法,或者二者结合的方法等多种方法。以二者结合方法为例,如表1所示,以10种 比赛为例,语音分段的结果为表 1运动精度召回率F值篮球88. 03%91. 40%89. 69%网球92. 05%94. 20%93. 11%足球89. 84%94. 42%92. 07%网球85. 39%94. 37%89. 65%尚尔夫69. 25%94. 87%80. 06%羽毛球92. 34%87. 37%89. 79%乒乓球93. 25%91. 87%92. 56%曲棍球96. 31%86. 89%91. 36%沙滩排球92. 71%89. 74%91. 20%台球90. 29%91. 95%91. 11%平均88. 90%91. 70%90. 28%其中精度(语音)=正确提取语音的持续时间/结果全部语音的持续时间召回率(语音)=正确提取语音的持续时间/全部相关语音的持续时间F值=2X精度X召回率/(精度+召回率)作为一例,关键词检索单元12首先将由音频分类单元11分段得到的语音信号部 分进行输入识别系统,将得到的识别结果构建一个检索文件,最后在这个检索文件里面搜 索需要的关键词即进行关键词匹配,最终得到关键词结果。上述关键词可以预先存储在未 图示的存储器中,由关键词检索单元12调用来进行上述关键词检索。在这里需要选取的 关键词是指与比赛开始/结束相关联的词语,即端点关键词,比如“比赛开始”、“开始”、“开 球”、“开赛”、“结束”、“终止”等等。所述未图示的存储器中,除了上述端点关键词之外,还 可以存储用于其他检索目的的其它的关键词以及其它内容,这将在下面进一步叙述。另外, 由于类似与“比赛开始”这样的词语在比赛中间也会出现,因此,我们还需要其他的信息辅 助以得到最终的结果,从而得到有效的端点关键词,这将在下面叙述。在10种体育类别105 场比赛中的关键词检索性能如表2所示表2
关键词关键词运动出现个数检测正确率
权利要求
1.一种节目端点时间检测装置,通过对所述节目的音频信号进行处理,从而检测所述 节目的端点时间,该装置包括音频分类单元,将所述音频信号分类为语音信号部分和非语音信号部分;关键词检索单元,从所述语音信号部分检索表示节目开始或结束的端点关键词,作为 候选的端点关键词;内容分析单元,对通过所述关键词检索单元检索出的所述候选的端点关键词的上下文 进行内容分析,以确定所述候选的端点关键词是否为有效的端点关键词;以及节目端点时间确定单元,基于所述关键词检索单元的检索结果和所述内容分析单元的 确定结果进行统计分析,确定节目的端点时间。
2.如权利要求1所述的节目端点时间检测装置,其中,所述内容分析单元还通过对语音信号部分进行内容分析,从而确定与所述表示节目开 始或结束的端点关键词相近的表述。
3.如权利要求1所述的节目端点时间检测装置,还包括特征音频检索单元,其从所述非语音信号部分中,检索表示节目开始或结束的 特征音频部分,其中,所述节目端点时间确定单元还基于所述特征音频部分来确定节目的端点时间。
4.如权利要求3所述的节目端点时间检测装置,所述关键词检索单元仅对由所述特征音频部分所确定的时间范围内的靠近两端的所 述语音信号部分对进行检索。
5.如权利要求3所述的节目端点时间检测装置,还包括音频场景分析单元,其将所述音频信号划分为包含节目现场音频部分的多个场 景部分,其中,所述音频分类单元仅将所述音频信号中的所述现场音频部分分类为语音信号部 分和非语音信号部分。
6.如权利要求5所述的节目端点时间检测装置,所述特征音频检索单元仅对所述节目现场音频部分中的靠近两端的所述非语音信号 部分进行检索。
7.如权利要求1所述的节目端点时间检测装置,还包括固定音频检索单元,其在所述非语音信号部分中,检索固定音频部分,所述固定 音频部分是表示节目即将开始的音频部分,其中,所述节目端点时间确定单元还基于所述固定音频部分来确定节目的端点时间。
8.如权利要求7所述的节目端点时间检测装置,所述关键词检索单元仅对由所述固定音频部分所确定的时间范围内的靠近两端的所 述语音信号部分对进行检索。
9.如权利要求7所述的节目端点时间检测装置,所述固定音频检索单元还在由所述音频场景分析单元划分的所述多个场景部分中检 索所述固定音频部分。
10.如权利要求5所述的节目端点时间检测装置,还包括切换间隙检测单元,其在所述音频信号中检测表示不同节目部分之间的切换的静音部分,从而将所述音频信号划分为多个部分,其中,所述音频场景分析单元对由所述切换间隙检测单元划分的多个部分进行分析, 从而分为所述多个场景部分。
11.如权利要求1所述的节目端点时间检测装置,还包括音频场景分析单元,其将所述音频信号划分为包含节目现场音频部分的多个场 景部分,其中,所述音频分类单元仅将所述音频信号中的所述现场音频部分分类为语音信号部 分和非语音信号部分。
12.如权利要求1 11的任何一项所述的节目端点时间检测装置,还包括节目分类单元,从所述语音信号部分检索表示节目类型的关键词,以判断节目 类型,其中,所述关键词检索单元根据所述节目类型来检索相应的端点关键词。
13.如权利要求1 11的任何一项所述的节目端点时间检测装置,还包括语音识别单元,对所述语音信号部分进行语音识别,并构建相应的检索文件;以及存储单元,存储有表示节目特征的关键词,所述关键词至少包括表示节目开始或结束的端点关键词,其中,所述关键词检索单元从所述检索文件中检索所述表示节目开始或结束的端点关 键词,作为候选的端点关键词,所述内容分析单元对所述检索文件中通过所述关键词检索单元检索出的所述候选的 端点关键词的上下文进行内容分析,以确定有效的端点关键词。
14.一种节目端点时间检测方法,通过对所述节目的音频信号进行处理,从而检测所述 节目的端点时间,该方法包括音频分类步骤,将所述音频信号分类为语音信号部分和非语音信号部分;关键词检索步骤,从所述语音信号部分检索表示节目开始或结束的端点关键词,作为 候选的端点关键词;内容分析步骤,对通过所述关键词检索步骤检索出的所述候选的端点关键词的上下文 进行内容分析,以确定所述候选的端点关键词是否为有效的端点关键词;以及节目端点时间确定步骤,基于所述关键词检索步骤的检索结果和所述内容分析步骤的 确定结果进行统计分析,确定节目的端点时间。
15.如权利要求14所述的节目端点时间检测方法,其中,所述内容分析步骤中还包括通过对语音信号部分进行内容分析,从而确定与所述表示 节目开始或结束的端点关键词相近的表述的步骤。
16.如权利要求14所述的节目端点时间检测方法,还包括特征音频检索步骤,其从所述非语音信号部分中,检索表示节目开始或结束的 特征音频部分,其中,所述节目端点时间确定步骤还基于所述特征音频部分来确定节目的端点时间。
17.如权利要求16所述的节目端点时间检测装置,所述关键词检索步骤中仅对由所述特征音频部分所确定的时间范围内的靠近两端的 所述语音信号部分对进行检索。
18.如权利要求16所述的节目端点时间检测方法,还包括音频场景分析步骤,其将所述音频信号划分为包含节目现场音频部分的多个部分,其中,所述音频分类步骤仅将所述音频信号中的所述现场音频部分分类为语音信号部 分和非语音信号部分。
19.如权利要求18所述的节目端点时间检测方法,所述特征音频检索步骤中仅对所述节目现场音频部分中的靠近两端的所述非语音信 号部分进行检索。
20.如权利要求14所述的节目端点时间检测方法,还包括固定音频检索步骤,其在所述非语音信号部分中,检索固定音频部分,所述固定 音频部分是表示节目即将开始的音频部分,其中,所述节目端点时间确定步骤还基于所述固定音频部分来确定节目的端点时间。
21.如权利要求20所述的节目端点时间检测装置,所述关键词检索步骤中仅对由所述固定音频部分所确定的时间范围内的靠近两端的 所述语音信号部分对进行检索。
22.如权利要求20所述的节目端点时间检测方法,所述固定音频检索步骤中,还在在所述音频场景分析步骤中划分的所述多个场景部分 中检索所述固定音频部分。
23.如权利要求18所述的节目端点时间检测方法,所述音频场景分析步骤中还包括切换间隙检测步骤,其在所述音频信号中检测表示不 同节目部分之间的切换的静音部分,从而将所述音频信号划分为多个部分,其中,所述音频场景分析步骤中对由所述切换间隙检测单元划分的多个部分进行分 析,从而分为所述多个场景部分。
24.如权利要求14所述的节目端点时间检测方法,还包括音频场景分析步骤,其将所述音频信号划分为包含节目现场音频部分的多个部分,其中,所述音频分类步骤仅将所述音频信号中的所述现场音频部分分类为语音信号部 分和非语音信号部分。
25.如权利要求14 M的任何一项所述的节目端点时间检测方法,还包括节目分类步骤,从所述语音信号部分检索表示节目类型的关键词,以判断节目类型; 其中,所述关键词检索步骤根据所述节目类型来检索相应的端点关键词。
26.如权利要求14 M的任何一项所述的节目端点时间检测方法,还包括语音识别步 骤,对所述语音信号部分进行语音识别,并构建相应的检索文件,其中,所述关键词检索步骤从存储单元中提取表示节目开始或结束的端点关键词,并 从所述检索文件中检索所述表示节目开始或结束的端点关键词,作为候选的端点关键词,所述内容分析步骤对所述检索文件中通过所述关键词检索步骤检索出的所述候选的 端点关键词的上下文进行内容分析,以确定有效的端点关键词。
27.一种节目信息检索系统,通过对所述节目的音频信号进行处理,从而获得用户所需 的节目信息,该系统包括显示装置,用于显示该系统的用户界面;节目导入装置,将多个节目导入所述节目信息检索系统,并在所述显示装置中显示节 目列表;以及节目端点时间检测装置,对用户从所述节目列表中选择的节目进行分析,以得到所述 节目的端点时间,并显示在所述显示装置上,所述节目端点时间检测装置包括音频分类单元,将所述音频信号分类为语音信号部分和非语音信号部分;关键词检索单元,从所述语音信号部分检索表示节目开始或结束的端点关键词,作为 候选的端点关键词;内容分析单元,对通过所述关键词检索单元检索出的所述候选的端点关键词的上下文 进行内容分析,以确定所述候选的端点关键词是否为有效的端点关键词;以及节目端点时间确定单元,基于所述关键词检索单元的检索结果和所述内容分析单元的 确定结果进行统计分析,确定节目的端点时间。
28.如权利要求27所述的信息检索系统,该系统还包括节目类别检索装置,对于由所述节目导入装置导入的所述多个节目,根据节目所属的 类别进行分类,并按照用户指示的类别,在显示装置上显示该类别的节目列表。
29.如权利要求27所述的信息检索系统,该系统还包括精彩事件检索装置,检索节目中出现的喝彩声片断,并在显示装置上显示其时间信息。
30.如权利要求27所述的信息检索系统,该系统还包括说话人检索装置,检索特定的说话人说话的节目部分,并以不同形式将不同说话人的 说话部分的时间信息显示在显示装置上。
31.如权利要求27所述的信息检索系统,其中,所述关键词检索单元还在显示装置上显示由用户从所述节目列表中选择的节目所对 应的关键词列表,并根据用户的选择来检索相应的关键词,并将该关键词的时间信息显示 在显示装置上。
全文摘要
本发明涉及多媒体内容的检索,提供一种节目端点时间检测装置,通过对节目的音频信号进行处理,从而检测节目的端点时间,其包括音频分类单元,将音频信号分类为语音信号部分和非语音信号部分;关键词检索单元,从语音信号部分检索表示节目开始或结束的端点关键词,作为候选的端点关键词;内容分析单元,对通过关键词检索单元检索出的候选的端点关键词的上下文进行内容分析,以确定候选的端点关键词是否为有效的端点关键词;节目端点时间确定单元,基于关键词检索单元的检索结果和内容分析单元的确定结果进行统计分析,确定节目的端点时间。另外,本发明还提供一种节目信息检索系统。通过本发明,可以迅速得到有关用户关注的节目的节目信息。
文档编号G06F17/30GK102073635SQ200910208950
公开日2011年5月25日 申请日期2009年10月30日 优先权日2009年10月30日
发明者刘昆, 卢鲤, 吴伟国, 索宏斌, 赵庆卫, 颜永红 申请人:中国科学院声学研究所, 索尼株式会社