一种字幕检测及提取的方法及设备与流程

文档序号：13208706阅读：469来源：国知局

本发明涉及视频分析领域，具体涉及字幕检测及提取的方法及设备。

背景技术：

电视节目是人们获取信息的重要途径之一，而视频中的标题字幕往往囊括了该视频的主要内容。如果能把字幕提取出来，那么对于将视频分类整理、快速搜索，都有很大的好处。在信息社会，人们面对大量的数字图像和众多的新闻资料使得人们查找到感兴趣的新闻内容越来越困难，再加上时间和精力有限，人工识别出这些字幕是极其费时、费力的。而且数据量巨大，字幕检测比较困难，视频图像复杂时，字幕特征与其近似很多并且字幕运动多样，较难准确定位。因此急需一种视频搜索引擎，以便能高效、准确地找到自己喜爱的主题，如何提高提取出的字幕信息的准确率。

技术实现要素：

有鉴于此，本发明的一个目的是提供一种字幕检测及提取的方法及设备，自动化地对海量视频节目进行分类和管理，改变传统视频节目的手工存库/检索模式，提高效率，提高提取出的字幕信息的准确率。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

本发明的一个目的是提供的一种字幕检测及提取的方法，包括：

检测某帧图像是否有字幕存在；

定位字幕的位置，并产生一个包括字幕的框；

将字幕区域中的字符增强；

对视频字幕区域中的字符进行自适应分割以形成单个字符；

将分割得到的单个字符通过ocr识别得到当前视频帧相关的文本信息。

在一些可选的实施例中，所述检测某帧图像是否有字幕存在具体包括以下步骤：

场景转换检测；

字幕或标题出现和消失帧的检测；

求字幕或标题出现帧域其前一帧的差影图像；

特征提取与分类；

字幕区域的产生；

字幕区域的验证。

在一些可选的实施例中，所述字幕定位确定字幕的位置包括：

选择能够将字幕与背景区别开的字幕特征；

采用算法提取字幕特征；

聚集空间相邻的特征点形成区域；

用字母的另一些特征除去一些不可能是字幕的区域得到候选区字幕区域；

用字母的一些特征对候选字幕区域进行验证以得到真正的字幕区域。

在一些可选的实施例中，所述将字幕区域中的字符增强，具体包括：单帧字幕区域增强和多帧字幕区域增强。

在一些可选的实施例中，所述将字幕从背景中分割出来，具体是通过对字幕区域动态布局局部阈值二值化，候选区域增强、垂直投影区域探测完成单个字符的自适应分割。

本发明的一个目的是提供一种字幕检测及提取的设备，其特征在于，包括：

字幕帧检测单元，用于判断某帧图像是否有字幕存在；

字幕定位单元，用于确定字幕的位置，并产生一个包括字幕的框；

字幕增强单元，用于将字幕区域中的字符增强；

字幕分割单元，用于对视频字幕区域中的字符进行自适应分割以形成单个字符；

字符识别单元，用于将分割得到的单个字符通过ocr识别得到当前视频帧相关的文本信息。

在一些可选的实施例中，所述字幕帧检测单元具体采用时空切片的镜头检测方法进行检测，所述时空的方法包括以下步骤：

场景转换检测；

字幕或标题出现和消失帧的检测；

求字幕或标题出现帧域其前一帧的差影图像；

特征提取与分类；

字幕区域的产生；

字幕区域的验证。

在一些可选的实施例中，所述字幕定位包括：

选择能够将字幕与背景区别开的字幕特征；

采用算法提取字幕特征；

聚集空间相邻的特征点形成区域；

用字母的另一些特征除去一些不可能是字幕的区域得到候选区字幕区域；

用字母的一些特征对候选字幕区域进行验证以得到真正的字幕区域。

在一些可选的实施例中，所述字幕增强单元具体用于单帧字幕区域增强和多帧字幕区域增强。

在一些可选的实施例中，所述字幕分割单元采用投影法对字幕进行分割，并对分割后的字幕进行插值放大、二值化、字符分隔。

采用本发明的方法和装置，有如下效果：

相对于文字搜索，本发明可以提供更加丰富的搜索结果展示形式，相对于常见的搜索文字信息，搜索的视频资料包含更加丰富的内容和信息，可以自动化地对海量视频节目进行分类和管理，改变传统视频节目的手工存库/检索模式，提高效率，提高提取出的字幕信息的准确率。

为了上述以及相关的目的，一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面，并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显，所公开的实施例是要包括所有这些方面以及它们的等同。

说明书附图

图1为本发明提供的字幕检测及提取的方法流程图；

图2为本发明提供的字幕检测及提取的设备的构成示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的组件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，本发明的这些实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。

实施例一

本发明提供的一种字幕检测及提取的方法，参照图1，该方法包括：

步骤s101、检测某帧图像是否有字幕存在；

步骤s102、定位字幕的位置，并产生一个包括字幕的框；

步骤s103、将字幕区域中的字符增强；

步骤s104、对视频字幕区域中的字符进行自适应分割以形成单个字符；

步骤s105、将分割得到的单个字符通过ocr识别得到当前视频帧相关的文本信息。

实施例二

本发明提供的一种字幕检测及提取的方法，该方法包括：

步骤s101、检测某帧图像是否有字幕存在；

较佳地，具体包括以下步骤：

步骤s1011，场景转换检测；

步骤s1012，字幕或标题出现和消失帧的检测；

步骤s1013，求字幕或标题出现帧域其前一帧的差影图像；

步骤s1014，特征提取与分类；

步骤s1015，字幕区域的产生；

步骤s1016，字幕区域的验证。

步骤s102、定位字幕的位置，并产生一个包括字幕的框；

较佳地，具体包括以下步骤：

s1021，选择能够将字幕与背景区别开的字幕特征；

s1022，采用算法提取字幕特征；

s1023，聚集空间相邻的特征点形成区域；

s1024，用字母的另一些特征除去一些不可能是字幕的区域得到候选区字幕区域；

s1025，用字母的一些特征对候选字幕区域进行验证以得到真正的字幕区域。

步骤s103、将字幕区域中的字符增强；

较佳地，所述将字幕区域中的字符增强，具体包括：单帧字幕区域增强和多帧字幕区域增强。

步骤s104、对视频字幕区域中的字符进行自适应分割以形成单个字符；

较佳地，所述将字幕从背景中分割出来，具体是通过对字幕区域动态布局局部阈值二值化，候选区域增强、垂直投影区域探测完成单个字符的自适应分割。

步骤s105、将分割得到的单个字符通过ocr识别得到当前视频帧相关的文本信息。

实施例三

参照图2，本发明提供了一种字幕检测及提取的设备，包括：字幕帧检测单元10、字幕定位单元20、字幕增强单元30、字幕分割单元40和字符识别单元50。其中，

字幕帧检测单元10，用于判断某帧图像是否有字幕存在；

较佳地，所述字幕帧检测单元10具体采用时空切片的镜头检测方法进行检测，所述时空的方法包括以下步骤：

场景转换检测；

字幕或标题出现和消失帧的检测；

求字幕或标题出现帧域其前一帧的差影图像；

特征提取与分类；

字幕区域的产生；

字幕区域的验证。

字幕定位单元20，用于确定字幕的位置，并产生一个包括字幕的框；

较佳地，所述字幕定位单元20包括：

选择能够将字幕与背景区别开的字幕特征；

采用算法提取字幕特征；

聚集空间相邻的特征点形成区域；

用字母的另一些特征除去一些不可能是字幕的区域得到候选区字幕区域；

用字母的一些特征对候选字幕区域进行验证以得到真正的字幕区域。

字幕增强单元30，用于将字幕区域中的字符增强；

较佳地，所述字幕增强单元30具体用于单帧字幕区域增强和多帧字幕区域增强。

字幕分割单元40，用于对视频字幕区域中的字符进行自适应分割以形成单个字符；

较佳地，所述字幕分割单元40采用投影法对字幕进行分割，并对分割后的字幕进行插值放大、二值化、字符分隔。

字符识别单元50，用于将分割得到的单个字符通过ocr识别得到当前视频帧相关的文本信息。

实施例四

为使本发明的原理、特性和优点，更加清楚，下面结合具体实施例进行描述。

在开始进行视频字幕检测之前，需要把视频流先切割成一帧一帧的视频图像帧，然后再对图像进行字幕事件的检测。字幕帧检测通常用于图像序列中，检测某帧图像是否有字幕存在，这一阶段没有任何先验信息可以利用。因为不知道所给的图像中是否有字幕。将分隔号的视频图像帧进行字幕区域检测，来判断视频帧中是否有字幕区域，并检测字幕区域的位置，然后将字幕区域分割出来输入到下一模块中进行下一步的处理，同时产生一个包络字幕的框。尽管字幕的包络框可以给出字幕的精确位置，但是为了便于字幕的识别，还需把字幕从背景中分割出来。字幕提取是把字幕中的字符从背景中分割出来。字幕定位的本质是图像分割，可以利用检测到的字幕帧的水平差分定位出字幕行，然后根据关键帧差分实现字幕分割，最后进行分裂合并等后处理完善分割。由于字幕区域的分辨率可能较低和噪声等原因，提取的字幕图像在输入到ocr前必须对它进行增强然后分割成二值化图像。有时候提取到的字幕区域由于背景复杂或者笔画不清晰等问题，造成字幕分辨率比较低，这样会影响下一步的处理，所以一般在进行下一步时，会对字幕进行增强，提高分辨率，可以采用改进的多帧平均法平均北京、降低噪音。在进行ocr识别之前，要求输入的字幕图像笔画清晰背景简单，一般要求为黑底白字或者白底黑字，这就要求对检测出的字幕图像先进行二值化处理。字幕图像二值化处理的方法主要分为全局阈值和局部阈值两种。另外，经过灰度化之后的字幕图像，有时候由于北京的复杂性和笔画不清晰等问题，造成字幕区域分辨率较差，影响二值化的效果。为了提高二值化之后图片的效果，可以对灰度化之后的图片进行图像增强，提高字幕与背景的对比度。图像增强主要的方法有图像锐化、图像滤波、直方图均衡和图像平滑等。最后利用现有的ocr软件识别已经二值化的字幕图片，然后输出包含识别结果的字幕文件。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：鲍东山
技术所有人：北京新岸线网络技术有限公司
我是此专利的发明人

上一篇：一种光伏逆变器机柜的制作方法
上一篇：一种用于低地板车辆的电气柜的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。