用于视频流的实时新事件检测的装置和方法

文档序号：6469950阅读：187来源：国知局

专利名称：用于视频流的实时新事件检测的装置和方法
技术领域：
本发明主要地涉及视频流处理并且具体地涉及用于4企测视频流中新事件的技术。
背景技术：
对于流传输视频，新事件检测(NED)是捕获呈现先前未见过的事件的第一视频剪辑的任务。这一任务在许多领域如智能收集(例如用于反恐怖主义目的)、金融市场分析和新闻分析中具有实际应用，其中有用信息通常湮没于随时间而迅速增长的大量数据中。由
于这些应用常常在时间上关键而需要快速回转，所以非常希望在实践中开发一种在线新事件检测(ONED)系统。
约十年前，对文档流的ONED开始在文本处理界受到越来越多的关注。作为它的文本对应系统的扩展，对^L频流的ONED因利用文本和视觉信息而已经在视频处理界吸引越来越多的关注。视频 ONED系统的基本思想在于将新剪辑与既往到达的所有剪辑做比较。如果它们基于文本和视觉特征的相似度值都在某一阈值以下，贝'J将新剪辑预测为呈现新事件。
先前工作已经表明附加图像信息在标识相关视频剪辑和实现更好的主题跟踪结果中扮演了重要的角色。然而，对视频ONED的所有这些努力主要集中在优化检测准确度而不是检测效率上。实际上，这些方法就剪辑数目而言造成二次时间复杂度。因此，它们对于在实时环境中检测新视频事件、尤其是对于大规模视频收集而言效率并不够高。
例如，在需要同时监视数以万计电视频道的智能收集系统中，现有ONED系统很难实时处理此类成批并且带宽极高的视频流。因此，尽管一些现有NED系统声称可在线使用，但是它们对于实时应用而言实际上效率并不够高。

发明内容
本发明的原理提供用于以提高的检测效率实时检测一见频流中新事件的技术。
例如，在本发明的一个方面中，一种方法确定给定事件是否为视频流中的新事件。该视频流包括多个事件。第一步骤从给定事件中提取第一特征(例如文本特征)集。第一特征集与给定事件所关联的第二特征(例如图像特征)集相比处理起来计算代价更低。第二步骤在存在一个或者多个第一相异度标准时仅使用第一特征集来计算在给定事件与视频流中的一个或者多个先前事件之间的一个或者多个第一相异度值。第三步骤基于计算的一个或者多个第一相异度值来确定给定事件是否为新事件。
在本发明的另一方面中，一种用于在视频流环境中捕获呈现先前未见过的事件的新事件视频剪辑的实时新事件检测方法包括多级顺序过滤处理。该处理包括标识相关特征、基于用以导出或者提取特征的计算量对特征排序以及基于排序的特征来形成一个或者多个多级顺序过滤器，其中在较难计算的特征之前使用较易计算的特征。在一个特定实施例中，多级顺序过滤处理中的一级是独自使用文本特征作为用以检测新事件的过滤器，而后续级是使用图像特征作为用以补充检测处理的过滤器。
本发明的这些和其它目的、特征及优点将从结合附图来阅读的对其示例实施例的以下具体描述中变得清楚。

图1图示了根据本发明一个实施例的视频数据流中的事件；图2图示了根据本发明一个实施例的在线新事件检测系统；图3图示了根据本发明一个实施例的各种视频流相似度场景；图4图示了根据本发明另一个实施例的在线新事件检测系统；图5图示了根据本发明一个实施例的在线新事件检测方法；图6A图示了根据本发明另一实施例的在线新事件检测方法；图6B图示了根据本发明又一实施例的在线新事件检测方法；图6C图示了根据本发明一个实施例的滑动时间窗；图7图示了根据本发明一个实施例的、其中可以实施用于在线新事件检测技术的计算机系统。
具体实施例方式
下文在示例类型的基于视频流的数据背景下说明本发明。然而应理解本发明不限于任何特定类型的视频数据流。实际上，本发明更一般地适用于希望提高视频数据流中新事件的检测效率的任何视
频数据流。
图1沿着时间轴描绘了视频流中的事件(102、 104、 106、 108、 110和112)。不同的形状对应于不同的事件。填充形状代表需要捕获的剪辑(即，新剪辑)。应理解短语"视频剪辑"(或者简称为"剪辑")旨在于指代视频流的至少一个部分而术语"事件"对应于对象剪辑在视频数据流中的出现或者存在。也应理解"剪辑"(或者推广为视频流的对象部分)可以包括一个或者多个图像。正如下文将进一步说明的，"剪辑，，也可以是"镜头"。也应理解术语"在线，，可以与术语 "实时"互换使用并且一般描述与视频流中新事件或者剪辑的接收基本上同时执行的步骤或者操作。将这与在一些时间以后执行的步骤/ 操作的"离线"或者"非实时"处理做比较。
根据本发明的原理，提供用以解决前述效率问题并且按照数量级提高ONED系统的视频处理速率而不牺牲实质检测准确度的技术。由于对图像特征的计算相当耗时，所以通过尽可能多地延迟图像特征的处理来最大化ONED系统的效率。具体而言，提出以下数个优化步骤。先独自使用文本特征来滤除多数非新事件剪辑，从而放弃这些剪辑的高代价的图像特征提取步骤。然后，当将新剪辑与旧剪辑做比较时，先计算它们的文本相似度而如果它们的文本充分相异则跳过高代价的图像相似度计算。最后，使用编索引和压缩方法的组合来加速文本处理。在图像相似度计算处理中，也去除锚定
图像以提高ONED系统的检测准确度。
在具体讨论优化4支术之前，先描述ONED系统的一个示例实施例(这里称为"基线系统")。假设这一基线系统组合在以下文献中报告的现有技术ONED系统中建议的两个最有影响的信息源Hsu 和Chang ( W. Hsu和S. Change的"Topic Tracking across Broadcast News Videos with Visual Duplicates and Semantic Concepts", IEEE International Conference on Image Processing (ICIP), 2006: 141-144 )，这些信息源包括TF-IDF (词项频率-反文档频率)文本特征和二进制图像重复特征。为了说明本发明的原理，这里将检测技术示例地描述为基于这一基线系统来构建。
图2示出了基线ONED系统200的架构，其中一见频流可以来自例如一个或者多个多语言视频频道201 (d、 C2、 ... Cn)。这些流然后分割成"镜头"。分割块没有明示。各镜头长约数秒(例如三秒) 并且定义为无编辑者的切割、渐变或者分解的单个连续相机操作。对于各镜头，特征提取模块202从它的关键帧中提取图像特征(204 ) 并且通过使用自动语音识别(206 )、继而是机器翻译(208 )来获得英语文本特征，使得不同语言的原视频剪辑变得可比较。"关键帧" 是作为用于视频中后续帧的参考来使用的完整(可能压缩)图像。然后，ONED组件210使用文本和图像特征来标识呈现先前未见过的事件的,奇,斧^兴并且将这些镜头发送到用户212，该用户可以是例如进行更深入分析的个人或者计算机程序。注意虽然在这一示例性实施例中使用视频镜头作为基本N E D单位，但是本发明的原理并不依赖于这一选择，因此它们普遍适用于其它单位如新闻题材等。
基线系统使用传统tf.idf词项加权作为文本特征。由于各镜头S 太短以至于无法包含用于计算有意义的文本相似度的足够文本(见下文)，所以用先前w=5个4竟头的文本和后继w个4竟头的文本来扩
8展S的文本(注意所有这些镜头来自同一频道)。按照信息检索的
惯例，将河碌定义为唯一词语而将坊定义为所有唯一词语的集合。对于词汇表中的各词项,和镜头集五中的镜头<s,基线系统使用
以下公式来计算词项加权
(fl)词项频率(tf)加权，，
(f2)反文档频率(idf)加权
(f3)词项(tf'idf)力口权冲'"v，。其中仏是词项f在S的文本中的频率(出现次数)，7V是五中镜头的总数，而#是其文本包含,的五中镜头的数目。
在实践中，有许多不同方式用以提取(几乎等同)适合于检测近似重复图像的图像特征。基线系统使用Campbell等人(M. Campbell 、 S. Ebadollahi和 D. Joshi等人的"1MB Research TRECVID-2006 Video Retrieval System", NIST TRECVID workshop, 2006 )描述的色矩量特征，其中从关键帧图像的3x3网格中提取局部化色特征，而用于Lab色空间中各网格的前三个矩量用来构造《S
的"=8i个图像特征y;( 。然而，本发明不限于这一特定技术。
4乍为另一例子，IBM 7>司的 Translingual Automatic Language Exploitation (TALES)系统(R. Peterson, "IBM Strives for Super Human Speech", http:〃www.accessible-devices.com/superspeech.html， 2006 )可
以使用计算机群集以约四分钟的延迟-几乎实时地同时对来自数以千计频道的视频流执行图像和文本特征提取。
同样，上述图像和文本特征提取技术仅仅是可以使用的常规技术的例子，因此应理解可以利用其它适当4支术。应理解本发明的原理着重于现有系统不能令人满意地实时完成的ONED组件(210)。
为了检测视频ONED系统中的新事件镜头，使用两个镜头&和 &的文本和图像特征来计算它们之间的相异度。相异度越小，&和 &就越可能呈现同一事件。相异度计算方法显示如下。先使用(f4) 和(f5)获得文本相异度值(f4)归一化文本点积值
(f5)文本相异度值
其中^(H，"是《的词项加权。记法f錫意味着词项/出现在《的文本
中。接着使用(f6)和(f7)来荻得图像相异度 (f6)归一化图像相似度值
(n)二值化图像相异度值
柳^欲微鱖^ ,A = / (ft^-幼細说夠^ >r，》，
其中是&，"s)是《的图像特征，ff是用于二值化图像相异度值的
阈值，而/是指示符函数。也就是，如果归一化图像相异度大于n，，
则二值化图像相异度是一，否则是零。最后，根据(f8)来获得& 和&的总相异度值作为文本相异度值和二值化图像相异度值的线性组合
<formula>formula see original document page 10</formula>
其中^，是视觉形态的线性加权。这样的线性溶合模型是用以溶合视
频ONED系统中一见觉和文本形态的最有效方式之一。
现在呈现基线系统的细节。在针对各镜头的文本的信息检索中遵循典型预处理4乘作，即(1 )使用标准Porter词干处理器(stemmer ) 来执行词干处理以及(2 )通过使用标准SMART停用词(stopword ) 列表来去除停用词。"词干处理"是用于将变形词(或者有时为派生词)简化为它们的词干、基本或者词根形式-一般为书面词形式。"停用词"是对在文本处理之前或者之后滤除的词语的称谓。
注意镜头集五随着新镜头在流环境中陆续到达而保持变化。出于ONED目的，tf和idf加权的计算可以基于与五具有相似特征的静态镜头集五'。对于在五'的文本中不存在的词项，认为它的#是一。与增量式更新统计量W和#的方法相比，这一静态方法具有低得多的开销而检测准确度保持大致相同。
当镜头6"到达时，6"先被预处理而它的特征保存于存储器中。然后S与在S之前来自同一频道的除了刚才到达的丄=50个之外既往到达的所有旧镜头做比较，因为这Z个镜头有可能在与5"相同的新闻
题材段中。如果在s与旧镜头之间的所有总相异度值在阈值r以上，
则将S预测为新事件镜头。否则，如果在S与旧镜头乂w之间的所有
总相异度值在阈值r以上，则将s预测为呈现与s。w相同的事件。可以表明虽然文本特征在检测新事件中是最有效的组件，但是
牙见觉近似重复仍可一贯地增强文本基线的^r测准确度。具体而言，使用文本和图像特征可以将文本基线的检测准确度提高多达25 % 。这可以通过以下事实来说明，即两个镜头中的相似图像常常提供其呈现了相同事件的证据，即使它们的关联语音录制可能由于释义或者语音识别/翻译错误而没有充分相似。也就是，文本特征本身不能正确地检测这两个镜头呈现同一事件。然而，通过考虑来自图像特征的附加i正据，该系统可以产生正确预测。
为了提供对总相异度值的更多了解，将原相异度公式(f8)改写成对文本和图像特征不对称处理的等效形式。进一步分析这一替代形式以表明NED处理如何可以更有效率。先将公式(f5)和(f7) 带入(f8)中并且将&和&的总相异度改写为
+ x^，,+
通过考虑其中任一情况都具有两种子情况的两种可能情况来分
析(9 ):
(1 )当&和&的关键帧是近似重复图像时，即&^S|.S3 ,'
^寻到。嫩《"一麵〖％^, d-做J如，喊i,.5j.。因j):匕可以予贞观'J :
(i) 子情况1:如果!^佳(如戸4,,、则^和&呈现同一事
件；
(ii) 子情况2:如果hn细—鄉—,.Ss,则&和&呈现不同事件。(2)当^和&的关键帧不是近似重复图像时，即^，-w'w〃一' 《寻至U ^^w-=，—'做-A^^4ws' +ln ^。
因此可以预测
(i) 子情况3:如果"^Wm-"柳.—则&和&呈现同一
事件；
(ii) 子情况4:如果'讳—-n鄉-麵咪",，则&和&呈现不
同事件。
图3图示了上述四种子情况。
对于任两个镜头&和&,看起来必须同时使用它们的文本/图像特征并且检查所有上述四种子情况以确定它们是否呈现同一事件。然而，这在许多情况下表现得没有必要。通过不对称处理文本和图像，可以通过将上述四种子情况改写成以下三种等效情况来极大地筒化NED操作，其中只有情况2具有两种子情况
(1) 情况l: w'w《鄉"喊^。在这一情况下，无论归一化图像相异度—《"**"如何都预测^和&呈现不同事件。
(2) 情况2: w、一'《,^^一—r。在这一情况下有两种子情
况
(i) 子情况1:如果^i幽，w "'崎一则预测&和&呈现相同事件。
(ii) 子情况2:如果—-,a > W则预测&和&呈现不
同事件。
(3) 情况3:" .，-"^'..*^ ,、在这一情况下，无论归一化图像相异度一^自 "如何都预测&和&呈现相同事件。
在上述情况下，情况1和情况3只需镜头A和&的文本特征。这里，出于ONED目的，可以不对称处理文本特征和图#4争征，即可以使用文本特征作为用以滤除对图像特征的多数不必要操作的预过滤器。这能够为检测效率带来很大益处，因为多数镜头对的文本相似度低，因此情况1是最频繁出现的情况。另一方面，不希望在文本特征之前处理图像特征，因为独自使用图像特征不能确定&和
12&是否呈现相同事件。
现在描述用于基于上述分析来提高ONED系统效率的技术。先给出优化ONED系统的高级概括、然后详细阐述单独技术。
图4示出了根据一个示例实施例的优化ONED系统400的架构。来自一个或者多个频道401 (d、 C2、 ... Cn)的视频流划分成镜头 (未明示)。对于各镜头S，通过使用语音识别(403 )以及机器翻译(404)技术来提取文本特征(402 )。文本特征用来标识和去除非新闻镜头(406 )。其余新闻镜头被馈送到ONED组件412，在这里新事件镜头^皮标识和发送到用户(414)。在ONED处理中，仅当有必要确定S的关键字是否为锚定图像(410)并且计算在S与旧镜头之间的相似度时才提取S的图像特征(408 )。
图5示出了对根据ONED系统400来使用的算法的描述。本领域技术人员将容易认识到算法500中的哪些伪代码部分涉及ONED 组件所执行的步骤。
在广播视频中，非新闻视频段(例如商业节目、TV秀)总是与新闻题材混合。出于ONED目的，即使没有相似镜头此前已经出现过，非新闻镜头仍不应视为新事件镜头。去除这些镜头不仅减少 ONED系统组件需要处理的镜头数目而且提高ONED系统的效率和检测准确度。
为此，一种简易方法在广播新闻视频时人工指定定期时间段。然而，这样的方法不可升级至如ONED系统需要处理的典型情况那样的数以万计的频道。另外，出于这里的用途而优选去除所有非新闻镜头而不是仅仅商业节目。作为一种替代方式，应用一种简易的基于文本的方法来去除非新闻镜头。它的基本思想在于非新闻镜头 (例如商业节目)常常具有比新闻镜头更大的背景噪声，这造成语音识别器难以识别非新闻视频中的文本。另外在新闻镜头中主持人往往以比非新闻镜头更快的节奏谈话(例如TV秀)。基于这两种性质，如果5*的识别文本包含少于J"个的不同词项则预测镜头S不是新闻，其中/是预定常数。虽然这一方法相当简易，但是它高度准确并且具有有助于提高ONED系统效率的低开销。另外，放弃的非新闻镜头不再需要高代价的图像特征提取步骤。
如上所述，希望尽可能多地延迟图像特征的提取。如图4和图5 中所示，当处理新镜头S时，先提取它的文本特征而不是它的图像特征。当将S与旧镜头S。w做比较时，先计算它们的规一化文本点积而不是它们的图像相异度。如果1-n咖-(上述情况l)，则预
测S和S。w呈现相同事件。在情况1和情况3中，跳过高代价但是不必要的图像相异度计算步骤。只有在情况2下(当，-r"彼—-r 时)，需要计算图像相异度。由于多数镜头对的文本点积小，所以情况2出现的频率通常比情况1和情况3低得多。因而，可以节省多数图像相异度计算。
另外，当预测新镜头不是新事件时，如果所有比较的旧镜头属于情况1或者情况3，则可以跳过高代价的图像特征提取步骤。换而言之，当预测S是新事件镜头或者对于一些S。w有鄉—w"",，-f 成立时只需针对新镜头S提取图像特征。在实践中，当存在大量频道时，多数镜头会由于反复提及跨不同频道和在同一频道内的同一事件而呈现现有事件。另外，情况1和情况3的出现频率比情况2 高得多。因此，对于大部分镜头可以跳过高代价的图像特征提取步骤。
在新闻视频中，主持人通常广播新闻题材。来自同一频道的两个新闻镜头常常具有含同一主持人的关键帧但是呈现不同事件。然而在这一情况下相似关键帧不应视为暗示这两个镜头呈现同一事件。为了将这一因素纳入考虑之中使用以下方法。在Campbell等人 (M. Campbell、 S. Ebadollahi和D. Joshi等人的"IMB Research TRECVID-2006 Video Retrieval System", NIST TRECVID workshop, 2006 )中描述的锚定图像检测用来检测关键帧是否为锚定图像。在这样的已知锚定图像检测方法中，基于支持矢量机(SVM)和低级色相关图特征来确定关键帧是否为锚定图像。可以利用其它已知图像检测方法。然后，当比较两个镜头时，如果任一镜头的关键帧是锚定图像则设置二值化图像相异度为一。也就是说，如果任一镜头为锚定图像镜头则将它们的关键帧视为相异。这可以减少锚定镜头
错误证据对oned系统检测准确度的影响。
通常，对事件的讨论在新闻视频中仅持续有限数量的时间，而新闻镜头不太可能呈现与相当旧的镜头相同的事件。因此，在存储器中仅保持在滑动窗如最近『天内那些旧镜头的信息。这里『是预定常数。为镜头5"而保持的信息包括它的文本特征和它的图像特征 (见上文)而不是视频图像，因为只有这些特征才是比较s与未来镜头所需要的。一旦旧镜头从滑动窗起到期，则立即丢弃它的信息。如图所示，图6c图示了根据本发明一个实施例的滑动时间窗。
通常，事件由大量镜头呈现。这些镜头中的仅一个镜头是新事件镜头。呈现同一事件的所有镜头往往彼此相似。因此，将新镜头与呈现同一事件的所有旧镜头做比较显得过度。代之以仅保持新事件镜头的信息。当新镜头s到达时，将s与旧的新事件镜头做比较。如果将s预测为呈现新事件的新事件镜头，则在存储器中保存s的信息。否则丟弃61。
在镜头的文本中的所有词项可以按照它们的词项加权的降序来归类。一般而言，具有较大加权的那些词项对于ned而言更重要。因此，对于各保存镜头，仅保持具有最大加权的前^个词项而不是所有词项。这里k是预定常数。仅前《个词项用来计算文本点积。
为了减少计算相异度值的开销，通过使用低开销方法来开发预过滤技术以从新镜头中快速滤除呈现不同事件的多数镜头。以这一方式，可以实质性地减少需要计算的相异度值的数目。考虑两个镜头&和&。如果&和&呈现同一事件，则它们的文本中的靠前词项往往具有一些重叠。也就是，一个或者一些词项有可能在&的文本和&的文本的靠前词项中出现。因此，这些靠前词项可以用来快速
滤除不必要的计算。具体而言，具有预定常数m(m^a:)。在计算
&和&的文本点积之前，先检查6V和&的前肘个词项是否相交。如果是这样，则继续计算&和&的文本点积。否则预测&和&呈现不同事件并且不计算它们的文本点积。
构建索引以避免对已经滤除的镜头的不必要处理。词汇表中的
每个词项具有词项id。各镜头具有与它的到达时间对应的镜头id。为所有保存镜头而保持两个索引正向索引和反向索引。前向索引具有用于各保存镜头的条目。这些条目按照镜头的到达时间降序来排列。这允许快速标识和丢弃从最近『天的滑动窗已经到期的那些镜头的信息(见上文)。对于各保存镜头，对应条目保持图像特征和与它们的词项加权关联的前〖个词项。这些词项按照它们的词项 id的升序来排列。因而，两个镜头的文本点积可以通过它们的词项列表的高效"合并"来计算。
对于各保存镜头，通过反向索引仅跟踪它的前M个词项。反向索引具有用于词汇表中各词项的条目。用于词项,的条目是其前M 个词项包含Z的所有镜头的镜头id的记录(链接)列表。这些镜头 id按照降序来排列使得可以高效完成记录列表合并。当新镜头S到达时，仅扫描与S的前M个词项对应的M个记录列表。这M个记录列表合并在一起以找到可以呈现与S相同的事件的候选镜头的镜头id。这是上述预过滤技术。然后对于这样的各候选镜头正向索引用来计算S和&的文本点积和图像相异度(如果需要)。这一计算在生成候选镜头id之时执行。以这一方式，如果S和旧镜头的总相异度值小于阁值r，则将S预测为非新事件镜头而针对S的处理立即停止。否则，如果将S预测为新事件镜头，则S的信息可以容易地添加到反向索引中，因为S的镜头id大于保存镜头的镜头id。
图6A图示了根据本发明另一实施例的在线新事件检测方法。这一方法可以实施于ONED系统400中。如图所示，方法600确定给定事件是否为视频流中的新事件。该视频流包括多个事件。步骤602 从给定事件中提取第一特征(例如文本特征)集。该第一特征集与给定事件所关联的第二特征(例如图像特征)集相比较处理起来计算代价更低。当存在一个或者多个第一相异度标准时，步骤604计算仅使用第一特征集来计算在给定事件与视频流中的一个或者多个先前事件之间的一个或者多个第一相异度值。步骤606基于一个或者多个计算的第一相异度值来确定给定事件是否为新事件。
图6B图示了根据本发明又一实施例的在线新事件检测方法。这一方法可以实施于ONED系统400中。如图所示，方法610是用于在视频流环境中捕获呈现先前未见过的事件的新事件视频剪辑的实时新事件检测处理。该方法包括多级顺序过滤处理。该处理包括标识相关特征(步骤612)、基于用以导出或者提取特征量的计算量对特征排序(步骤614)以及基于排序的特征来形成一个或者多个多级顺序过滤器，其中在较难计算的特征之前使用较易计算的特征(步骤616)。在一个特定实施例中，多级顺序过滤处理中的一级是独自使用文本特征作为用以检测新事件的过滤器，而后续级是使用图像特征作为用以补充检测处理的过滤器。
最后参照图7,图示了根据本发明一个实施例的、其中可以实施在线新事件检测技术的计算机系统。也就是，图7图示了根据本发明一个实施例可以用来实施0NED4支术(例如上文在图1至图6的背景下描述的组件和方法)中一个或者多个组件/步骤的计算机系统。将理解可以在一个这样的计算机系统上或者在多个这样的计算机系统上实施单独组件/步骤。在实施于分布式计算系统上的情况下，单独计算机系统和/或设备可以经由适当网络如因特网或者万维网来连接。然而，可以经由专用网或者局部网来实现该系统。在许多情况下，本发明不限于任何特定网络。
因此，图7中所示计算机系统可以代表能够提供这里所述所有或者部分功能的一个或者多个服务器或者一个或者多个其它处理设备。例如，图7代表用于实施图2或者图4的ONED系统组件的计算机架构。
如图所示，计算机系统700包括经由计算机总线710或者替代连接布置来耦合的处理器702、存储器704、输入/输出(I/O)设备 706和网络接口 708。
应认识到如这里使用的术语"处理器"旨在于包括任何处理设备，如例如包括CPU和/或其它处理电^各的处理设备。也应理解术语
"处理器，，可以指代多个处理设备而与处理设备关联的各种单元可以由其它处理设备共享。
如这里使用的术语"存储器"旨在于包括与处理器或者CPU关联的存储器，如例如RAM、 ROM、固定存储器设备(例如硬驱动)、可移动存储器设备(例如盘)、闪存等。存储器可以被认为是计算机只读存储介质。
此外，如这里使用的短语"输入/输出设备"或者"I/0设备"旨在于包括例如用于向处理单元输入数据的一个或者多个输入设备(例如键盘、鼠标等)和/或用于呈现与处理单元相关联的结果的一个或者多个输出设备(例如显示器等)。
另外，如这里使用的短语"网络接口 "旨在于包括例如用以允许计算机系统经由适当通信协议与另一计算机系统进行通信的一个或者多个收发器。
因而，包括用于执行这里所述方法的指令或者代码的软件组件可以存储于一个或者多个相关联存储器设备(例如ROM、固定或者可移动存储器)中而在使用准备就绪时被部分或者整体加载(例如加载到RAM中)并且由CPU执行。
在任何情况下，应认识到这里描述的和在附图中示出的本发明技术可以用硬件、软件或者其组合的各种形式来实施，例如具有关联存储器、一个或者多个具体实施集成电路、功能电路等的一个或者多个可操作编程的通用数字计算机。给出了这里提供的本发明技术，本领域普通技术人员将能够设想本发明技术的其它实施。
虽然这里已经参照附图描述了本发明的示例实施例，但是应理解本发明不限于这些确切实施例并且本领域技术人员在不脱离本发明的范围或者精神情况下可以做出各种其它改变和修改。
18
权利要求
1. 一种用于确定给定事件是否为包括多个事件的视频流中的新事件的方法，包括以下步骤从所述给定事件中提取第一特征集，其中所述第一特征集与所述给定事件所关联的第二特征集相比较处理起来计算代价更低；当存在一个或者多个第一相异度标准时，仅使用所述第一特征集来计算在所述给定事件与所述视频流中的一个或者多个先前事件之间的一个或者多个第一相异度值；以及基于所述计算的一个或者多个第一相异度值来确定所述给定事件是否为新事件。
2. 根据权利要求1所述的方法，其中还包括以下步骤从所述给定事件中提取所述第二特征集；当存在一个或者多个第二相异度标准时，使用所述第二特征集来计算在所述给定事件与所述视频流中的所述一个或者多个先前事件之间的一个或者多个第二相异度值；以及基于所述计算的一个或者多个第一相异度值以及所述一个或者多个第二相异度值来确定所述给定事件是否为新事件。
3. 根据权利要求1所述的方法，其中所述第一特征集包括文本特征集，而所述第二特征集包括图像特征集。
4. 根据权利要求1所述的方法，还包括以下步骤将与所述给定事件做比较的一个或者多个先前事件的数目限制为仅包括给定时间窗内的先前事件。
5. 根据权利要求1所述的方法，在计算所述一个或者多个第一相异度值之前，还包括以下步骤预过滤用来计算所述给定事件与所述一个或者多个先前事件之间的所述一个或者多个第一相异度值的所述先前事件，其中所述预过滤步骤是基于对在所述给定事件和所述一个或者多个先前事件中的项目之间重叠的确定。
6. 根据权利要求1所述的方法，还包括以下步骤构建一个或者多个索引以跟踪所述多个事件中的哪些事件用来确定所述给定事件是否为新事件。
7. 根据权利要求1所述的方法，其中所述一个或者多个第一相异度标准包括小于、大于或者等于给定值的文本相异度阈值。
8. 根据权利要求1所述的方法，其中所述一个或者多个第二相异度标准包括小于、大于或者等于给定值的图像相异度阈值。
9. 一种用于确定给定事件是否为包括多个事件的视频流中新事件的制造产品，所述产品包括计算机可读存储介质，所述计算机可读存储介质包括在由计算机执行时完成根据权利要求1所述的步骤的一个或者多个程序。
10. —种实时的新事件检测方法，用于在视频流传输环境中捕获呈现先前未见过的事件的新事件视频剪辑，所述方法包括提供多级顺序过滤处理的步骤，该处理包括以下步骤标识相关特4正；基于用以导出或者提取所述特征的计算量对所述特征排序；以及基于所述排序的特征来形成一个或者多个多级顺序过滤器，其中在较难计算的特征之前使用较易计算的特征。
11. 根据权利要求10所述的方法，其中构建一个或者多个索引以提高处理速度。
12. 根据权利要求10所述的方法，其中只有与在最近W天内的标识新事件剪辑有关的信息才存储于存储器中。
13. 根据权利要求10所述的方法，其中只有与各剪辑的前K个最重要项目有关的信息才存储于存储器中。
14. 根据权利要求10所述的方法，其中所述剪辑中的前M个最重要项目用来预过滤不太可能呈现与所述新剪辑相同的事件的旧剪辑。
15. 根据权利要求10所述的方法，其中文本特征独自用来滤除多数非新事件剪辑，从而避免对这些剪辑的图像特征提取。
16. 根据权利要求IO所述的方法，其中当将所述新剪辑与旧剪辑做比较时，先计算它们的文本相似度而如果它们的文本充分相异则跳过图像相似度计算。
17. —种用于确定给定事件是否为包括多个事件的视频流中新事件的装置，该装置包括存储器；以及至少一个处理器，耦合到所述存储器并且操作用以(i)从所述给定事件中提取第一特征集，其中所述第一特征集与所述给定事件所关联的第二特征集相比处理起来计算代价更低；(ii)当存在一个或者多个第一相异度标准时仅使用所述第一特征集来计算在所述给定事件与所述视频流中的一个或者多个先前事件之间的一个或者多个第一相异度值；以及(iii)基于所述计算的一个或者多个第一相异度值来确定所述给定事件是否为新事件。
18. 根据权利要求17所述的装置，其中所述处理器还操作用以从所述给定事件中提取所述第二特征集；当存在一个或者多个第二相异度标准时使用所述第二特征集来计算在所述给定事件与所述视频流中的所述一个或者多个先前事件之间的一个或者多个第二相异度值；以及基于所述计算的一个或者多个第一相异度值以及所述一个或者多个第二相异度值来确定所述给定事件是否为新事件。
19. 根据权利要求17所述的装置，其中所述第一特征集包括文本特征集而所述第二特征集包括图像特征集。
20. 根据权利要求17所述的装置，其中所述处理器还操作用以将与所述给定事件做比较的一个或者多个先前事件的数目限制为仅包括给定时间窗内的先前事件。
全文摘要
公开了用于以提高的检测效率实时检测视频流中新事件的技术。例如，一种方法确定给定事件是否为视频流中的新事件。该视频流包括多个事件。第一步骤从给定事件中提取第一特征(例如文本特征)集。第一特征集与给定事件所关联的第二特征(例如图像特征)集相比处理起来计算代价更低。第二步骤在存在一个或者多个第一相似度标准时仅使用第一特征集来计算在给定事件与视频流中的一个或者多个先前事件之间的一个或者多个第一相似度值。第三步骤基于计算的一个或者多个第一相似度值来确定给定事件是否为新事件。
文档编号G06K9/00GK101425135SQ200810212690
公开日2009年5月6日申请日期2008年8月29日优先权日2007年11月1日
发明者俞士纶, 嵘颜, 罡骆申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：骆罡;颜嵘;俞士纶
技术所有人：国际商业机器公司
我是此专利的发明人

上一篇：基于示例的元素排列过程化合成的制作方法
上一篇：用于支持联系信息查询的方法和设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。