一种提取视频文本信息的方法及装置的制作方法

文档序号:6597822阅读:275来源:国知局
专利名称:一种提取视频文本信息的方法及装置的制作方法
技术领域
本发明涉及图像及信息技术领域,具体涉及提取视频文本信息的方法及装置。 现有的提取视频文本信息的方案中,通常具有对某一类文本的处理能力,但无法做到对大量不同风格的视频文本都进行处理。而对于不同风格的视频文本难以在统一的流程中进行处理。 现有技术中,平方差累计值是视频文本跟踪中常用的 一 种算法(在
IEEETransactions on Image Processing, Vol. 9, No. 1, Pages 147 — 56,2000, 〃 AutomaticText Detection and Tracking in Digital Video"中进行了描述),
但该算法不区分文本区域内的字符和背景,当背景发生变化时,平方差累计值就明显增加,容易造成误判。 目前,解决中英文混排情况下的字符分割有两种思路 —)统一的识别引擎。将中、英文字符的样本放在一起训练0CR引擎(在The
Proceedings of the Seventh International Conference on DocumentAnalysis and
Recognition, 2003,〃 Improving Chinese/English OCR Performanceby Using MCE-basedCharacter-pair Modeling and Negative Traning〃中进行了描述),在识别环节解决中英
文混排的问题。由于字符分割时中文字符的偏旁可能被识别成英文字符,相邻的英文字符的组合或者中文字符的偏旁和英文字符的组合可能被识别成中文字符,这就对OCR引擎训练样本覆盖的范围和分类策略带来很大挑战。 二)中英文区域分离。根据字符的几何特征对字符串中的中文区域和英文区域进
行划分,中文区域使用中文OCR引擎进行识别,英文区域使用英文OCR引擎进行识别,最后
将两组识别结果进行合并,得到最终的识别结果(在"软件学报",Vol 16, No 5,2005,"中
英文混合文章识别问题"中进行了描述)。在很多情况下,中英文字符之间差别并不显著,
区域分离时难以做出正确的判断结果,而一旦判断错误就得不到正确的识别结果。 现有技术中,在分类器融合中进行的置信度校正通常是在相同样本集下进行,这
有利于专门分类器设计,因为相同的样本集提供了一个天然的统一的标准,但对于有分类
器融合需求的使用者来说,不同的样本集之间无法建立一个统一的识别置信度标准。 业内对视频文本信息提取的研究方向集中在文本的定位、分割、增强和识别等环
节,力图从视频中提取全面、准确的文本信息,但是,在实际应用中,不加区分的文本信息难
以使用。 鉴于现有技术中存在的上述不足和缺陷,要求提供更好的解决方案。

发明内容
有鉴于此,本发明提供一种提取视频文本信息的方法及装置,可从不同类型的视
频中提取文本信息。
背景技术
4
本发明实施例提供的一种提取视频文本信息的方法,包括
确定视频图像中文本块的位置; 按照中文字符特征对所述文本块图像进行分割和字符识别,得到中文字符串;
根据所述文本块图像中连通域的几何特征及位置信息确定英文区域,对所述英文区域进行分割和字符识别,得到英文字符串; 分别计算所得到的中文字符、英文字符的识别置信度,并对识别置信度进行校正; 基于校正后的字符识别置信度及中文字符与英文字符之间的位置关系将所述中
文字符串和英文字符串进行合并,得到文本信息。 更适宜地,该方法还包括 监测并跟踪连续视频图像帧中的文本块,根据相邻视频图像帧中文本块的位置关系和图像内容判断是否为同一文本块; 当所述文本块消失时,确定该文本块的位置,并对该文本块进行后续的分割和字符识别。 更适宜地,该方法还包括 在对文本块进行分割和字符识别之前,对所述文本块所在区域图像进行预处理。
本发明实施例还提供一种提取视频文本信息的装置,包括
位置确定单元,用于确定视频图像中文本块的位置; 第一处理单元,按照中文字符特征对所述文本块进行分割和字符识别,得到中文字符串; 第二处理单元,根据所述文本块中连通域的几何特征及位置信息确定英文区域,对所述英文区域进行分割和字符识别,得到英文字符串; 计算单元,用于分别计算所得到的中文字符、英文字符的识别置信度,并对识别置信度进行校正; 合并单元,用于基于校正后的字符识别置信度及中文字符与英文字符之间的位置
关系将所述中文字符串和中文字符串进行合并,得到文本信息。 更适宜地,该装置还包括 监测跟踪单元,用于监测并跟踪连续视频图像帧中的文本块; 判断单元,用于根据所述监测跟踪单元提供的相邻视频图像帧中文本块的位置信息和图像内容判断是否为同一文本块; 若所述视频图像帧中为不同文本块,所述判断单元确定该不同文本块的区域,则
所述第一处理单元和第二处理单元分别对该不同文本块进行分割和字符识别。 综上所述,本发明提供的一种提取视频文本信息的方法及装置,通过确定视频图
像中文本块的位置;再分别按照中文、英文字符特征对文本块图像进行分割和字符识别,得
到中文及英文字符串;并对识别置信度进行校正;基于校正后的字符识别置信度及中文字
符与英文字符之间的位置关系将中文字符串和英文字符串进行合并,得到文本信息。根据
本发明,可对视频图像中的中英文混排的文本进行字符分割识别,可以解决不同风格的视
频文本难以在统一的流程中进行处理的问题,可对视频中不同类型的文本信息进行组织、
分类。该架构既可以有效处理各种不同类型的视频,也可以方便进行定制、修改、扩充。
綱柳彻

图1是本发明实施例提供的提取视频文本信息的方法流程图;
图2是本发明实施例提供的对文本块进行定位的流程图; 图3是本发明实施例提供的对文本块图像进行字符串分割和识别的流程图;
图4是本发明实施例提供的对中、英文字符的识别置信度进行校正的示意图;
图5是本发明实施例提供的从视频图像中提取中英文数字混排文本的示意图;
图6是本发明实施例提供的具有多种类型文本的视频图像示意图;
图7是本发明实施例提供的版面分析流程图; 图8是本发明实施例提供的提取视频文本信息的装置架构示意图。
具体实施例方式
鉴于现有技术中的不足和缺陷,本发明提出了一种从视频图像中提取文本信息的
方法,可更加有效在中英文混排情况下进行字符分割识别,可以解决不同风格的视频文本
难以在统一的流程中进行处理的问题,可对视频中不同类型的文本信息进行组织、分类。该
架构既可以有效处理各种不同类型的视频,也可以方便进行定制、修改、扩充。 本发明提出的中英文混排情况下的字符分割方法,对中、英文字符OCR引擎进行
识别置信度校正,使两个引擎的识别置信度具有可比性,然后对字符串进行中文字符的分
割和识别,再根据字符特征从字符串中找到候选英文区域,进行英文字符的分割和识别,两
种字符的识别结果中有补充或者重叠的部分,通过字符的位置和识别置信度做出取舍。这
样既避免了训练复杂的OCR引擎,又使分割结果不严重依赖区域分离的判断,保证了效率
和稳定性。 本发明提供的技术方案中,可在不同样本集上进行分类器识别置信度校正的方 法。根据实际情况,从统计的角度出发,提出了一种在不同样本集上校正置信度的有效方 法。 另外,利用字符特征进行版面分析。本发明从系统和应用的角度出发,提出了一种 收集字符特征进行版面分析的方法,系统输出结构化的文本信息,便于后期处理。
为使本发明的原理、特性和优点,下面详细描述本发明的具体实现方案。
实施例一 参照图l,本发明实施例提供的一种提取视频结构化文本信息的方法,包括如下步 骤 S101,确定文本块在视频图像中的位置; 如图2,首先对文本块进行定位预处理、粗定位、投影切分和筛选。具体如下
(1)预处理包括计算笔画响应(在The Proceedings of the IEEEInternational Conference on Image Processing, October.2006, 〃 Stroke Filter forText Localization in Video Images"中进行了描述)和颜色聚类,颜色聚类采用K均值方 法(在The Proceedings of the Eighteenth International Conference onMachine Learning, 2001, 〃 Constrained K_means Clustering with BachgroundKnowledge 〃中进 行了描述),前者根据字符笔画均匀的特点来突出字符,后者根据字符的颜色特征来突出字 符,根据配置项选择其中一种处理流程。
通过计算笔画响应可以增强文本,抑制背景。计算笔画响应的步骤根据配置文件 确定笔画响应的间距;计算笔画响应;二值化,并对得到的二值图像进行膨胀操作,以连接 一些断开的笔画。 [OO53] (2)粗定位 根据字符排列密集的特点来检测文本区域,得到其大致位置。投影切分将检测到 的多行文本拆分成单行文本,得到文本区域较为精确的边界,便于后续分割。在验证环节提 取文本区域的特征,筛选虚警。 在二值图像上,首先通过粗定位得到文本区域的大致位置,然后在区域内部进行 精确定位。粗定位步骤连通域标定;确定文本区域,根据真实文本块的几何约束,如尺 寸、排列位置等,对文本区域在水平或者竖直方向上的进行合并(在The Proceedings of International Conference on MachineVision. Dec,2007,〃 A Robust System for Text Extraction in Video"中进行了描述)。 [OO56] (3)投影切分 视频图像中经常出现多行文本,在粗检测时多行文本经常会被检测成一个文本 块。后续分割环节要求文本区域是单行文本,在此需要将潜在的多行文本切分成多个单行 文本。以连通域为单位,采用投影切分的方法(在PatternRecognition,Volume 36,Issue 10, Pages 2287-2299,2003, 〃 Character location inscene images from digital camera"中进行了描述),有效解决多行文本的粘连以及在某些情况下文本与其周围背景 的粘连,确保切分后的候选区域是单行文本。 [OO58] (4)筛选 首先,上述处理得到的候选文本块中存在虚警,需要进行验证根据文本区域的几 何特征进行验证,根据笔画响应进行验证,根据梯度变化特征进行验证。验证环节能够筛选 掉定位结果中大部分虚警,在跟踪和分割环节仍会根据当前获得的信息筛选虚警。
步骤S102,根据相邻视频图像帧中文本块的位置关系和图像内容判断是否为同一 文本块; 当所述视频图像帧中被跟踪的文本块消失时,如文本块不再延续或者被替换,确 定该文本块,并对该文本块进行后续的分割和字符识别。 在文本块定位过程中,由于在视频图像中,文本块通常会持续一段时间,因此同一 文本块在连续数帧甚至数百帧图像上都会被定位到。如果对每次定位结果都进行分割、识 别,会浪费大量的处理时间。采用跟踪的方法,对同一文本块在出现到消失的时间段内只进 行一次分割、识别,从而避免重复处理。并且,文本块的起止时间和消失方式都是版面分析 环节的重要依据。因此需要对文本块进行跟踪。 跟踪环节包括位置判断、时序判断和维护数组三部分。位置判断和时序判断分别 从位置是否重叠和内容是否延续两方面分析定位结果,在维护跟踪数组环节根据处理逻 辑,给出独立文本块。具体如下
I)位置判断 同一文本块在前后帧图像上出现的位置固定不变,定位时得到的文本块位置相互 重叠,而不同的文本块在前后帧图像上出现的位置不同,不会发生重叠,因此,位置重叠是 判断前后帧上定位得到的两个文本块是否为同一文本块的必要条件。位置关系有四种独
7立、欠重叠、重叠和包含,根据两个文本块重叠区域的面积在文本块中所占的比重做出判 断。如果是独立或者欠重叠,则说明在位置上没有关系,判断为不同的文本块;如果是重叠 或者包含,则说明可能来自同一个文本块,需要做进一步判断。根据前后帧上文本块的位 置,确定需要跟踪的文本块的边界。
II)时序判断 时序判断是从图像内容上判断相邻帧上定位到的两个文本块是否来自同一个文 本。时序关系有四种a)保持,前后两帧图像中的文本没有发生变化;b)替换,前一帧图像 中的文本被后一帧图像中的新文本替换,文本内容不同;c)消失,前一帧图像中的文本消 失;d)虚警,前一帧图像中定位得到的文本区域是噪声。 在文本位置固定的情况下,前后帧灰度图像的平方差累计值是判断文本内容是否
发生变化的一个有效标准。如果不区分文本区域内部字符笔画和背景的像素点,计算整个
区域的平方差累计值,则判断结果容易受到背景变化的影响而不稳定,本文只比较那些笔
画响应值较大的像素点,这些点都位于字符笔画上,使该算法更加稳定。根据两个文本块之
间的灰度差异和笔画响应差异进行时序判断。 III)维护跟踪数组 为了跟踪视频中出现的文本块,需要维护一个跟踪数组。具体地,对当前帧上新出 现的文本块,将其定位结果添加进数组;对持续出现的文本块,在数组中保持该元素;对消 失的文本块,确定该文本块的起止时间和消失方式,在其起止时间中找出质量最好的一幅 图像,提交给分割环节,然后从数组中删除该元素。 维护跟踪数组的另一个任务是从文本块持续出现的多帧图像中,挑选出质量最好 的一帧,提交给分割环节,这样有助于降低分割环节的难度,提高最终的识别正确率。
步骤S103,获取文本块图像并对该图像进行预处理; 参照图3,在进行分割识别之前,当视频图像为彩色图像,需对文本块图像进行预 处理,将所述视频图像转化灰度图像;再分别对中文、英文字符进行分割识别,然后将得到 的中文、英文字符串合并得到文本信息。对于灰度图像则不需进行预处理,可直接对中文、 英文字符进行分割识别。 对文本块图像进行二值化处理,分离图像中的字符和背景,以确定字符边界;
对生成的二值图像要进行连通域分析,以获得字符笔画的位置和尺寸信息。
预处理包括转化灰度图像、二值化和连通域分析。在定位环节得到的候选文本区 域图像是彩色图像,而在二值化和字符识别时使用的是灰度图像,因此需要转换,具体包 括 i)提取亮度分量; ii)提取彩色图像的某一个颜色通道(R、G和B),在该颜色通道上字符和背景之间 的强度对比最明显; iii)转换颜色空间,改变不同颜色之间的距离度量方式(在The Proceedingof International Conference on Document Analysis and Recognition,2005,〃 Colortext extraction from camera—based images :the impact of the choice of theclustering distance"中进行了描述),得到字符和背景之间强度对比明显的灰度图像;
iv)颜色增强。分别指定字符和背景的一种或几种代表颜色,采用K均值的方法对彩色图像上的像素点进行聚类,同时提取像素点的亮度分量作为灰度图像,在灰度图像上 增强字符像素,抑制背景像素,增加字符和背景之间的强度对比。 在实际应用中,应根据视频图像的特点,尤其是字符和背景之间的颜色对比关系, 配置恰当的转换方法,改善后续二值化处理的效果。 二值化用于分离图像中的字符和背景,为确定字符边界奠定基础。二值化算法是 OCR领域中一个重要的被广泛研究的方向,目前已提出多种算法,例如
全局二值化算法0stu(在IEEE Transaction on System Man Cybe潔t, Vol9, Pages 62-66,1979, 〃 A threshold selection method from gray-scale histogram" 中进行了描述),Kittler(在Pattern Recognition, Vol. 19, Issue 1, Pages 41-47, 1986, 〃 Minimum Error Thresholding"中进行了描述)。 局部二值化算法Niblack(在An Introduction to Digital Image Processing, Prentice Hal 1, 1986中进行了描述)、Sauvola(在Pattern Recognition, Vol. 33, Issue 2,Pages 225-236,2000,〃 Adaptive document image binarization〃禾口TheProceedings of SPIE,2008, 〃 Efficient Implementation of Local AdaptiveThresholding Techniques Using Integral Images"中进行了描述)。
在应用中需要根据待处理视频图像质量情况,选用不同的算法。
对生成的二值图像要进行连通域分析,以获得字符笔画的位置和尺寸信息。连 通域分析包括三部分内容连通域标定、筛选和合并。连通域标定是为了反映二值图像 中像素点之间的连通关系(在Computer Vision and ImageUnderstanding, Vol 89, Issue 1, Pages 1_23,2003, 〃 Linear-timeco皿ected-component labeling based on sequential local operations"中进行了描述)。经过标定后,能够得到二值图像中每 一个连通区域的位置、尺寸和像素点个数等信息。在连通域筛选中,设计规则,去掉那些 在位置、尺寸、形状、占空比等特征上不合理的连通域,为后续处理减少干扰奠定基础。由 于汉字字符一般是由多个分散的笔画构成,如果不对其连通域进行合理的合并(在IEEE Transaction On Pattern Analysis And Mechine Itelligence,Vol. 24,No. ll,November, 2002, 〃 Lexicon-Driven S egmentation and Recognition ofHandwritten Character Strings for Japanese Address Reading"中进行了描述),就会会影响分割点的选取。
步骤S104,按照中文字符特征对文本块图像进行分割和字符识别,得到中文字符 串; 中文字符分割的流程包括确定分割点、预分割、字符识别和字符串过滤四部分。
根据实际情况,确定分割点的策略有 A.字符的连通域特征(在IEEE Transactions On Pattern Analysis AndMachine Intelligence, Vol. 18, No. 7, July 1996, 〃 A Survey of Methods andStrategies in Character Segmentation"中进行了描述)。在简单、理想的情况下,字符之间有一定间隔, 字符笔画不会粘连,结合连通域分析的结果和配置项中字符的高度和宽度,能够准确确定 分割点。 B.字符区域灰度图像的竖直投影。在一些节目中,字符间距较小,相邻字符的笔画 容易发生粘连,不宜使用连通域分析,而应该以字符区域灰度图像的竖直投影中的局部极 小值点为基础,结合配置项中对字符宽度的约束,确定分割点。
9
C.背景轮廓模型(在Pattern Recognition, Vol 32, Pages 921-933, 1999, 〃 ABackground Thinning Based Approach for Seperating and RecognizingCo騰cted Handwriting Digit Strings"中进行了描述)。对于相邻字符笔 画粘连更为紧密的情况,需要根据背景像素点的竖直投影,判断笔画粘连的发生的位置和 粘连宽度,结合配置项中对字符宽度的约束,确定分割点。 D.接触点模型(在IEEE Transaction On Pattern Analysis And Mechineltelligence, Vol. 24, No. 11,November,2002, 〃 Lexicon-Driven Segmentation andRecognition of Handwritten Character Strings for Japanese Address Reading" 中进行了描述)根据笔画粘连时连通域的外部轮廓的形状特征能够确定一些分割点。
在实际应用中,应根据字符特征选择恰当的分割策略,或者将不同策略组合起来, 相互补充,全面、准确的确定分割点。 预分割时,根据分割点确定候选字符的边界。如果字符宽度固定,直接使用配置项 中的字符宽度作为约束,从分割点中确定候选字符边界;如果字符宽度随着排版情况在一 定范围内变化,需要采用直方图统计的方法并结合字符宽度的变化范围估计出当前情况下 的字符宽度,再以该估计值作为约束,从分割点中确定候选字符边界(在发明名称为"字符 提取方法和装置"申请号为200810246654. 7的申请文件中进行了描述)。
在字符识别时,根据候选字符的位置,从图像中截取单个字符的图像进行识别。 字符识别采用清华文通的0CR引擎,以当前图像的最优识别结果为最终识别结果,并根 据返回的候选识别结果个数和原型之间的距离计算当前识别结果的置信度(在Pattern Recognition Letters, Vol.19, No. 10,1998, 〃 Adaptive Confidence Transform Based Classifier Combination for ChineseCharacter Recognition"中进行了描述),作为字
符串过滤的依据。 字符串的分割采用过分割的策略,候选字符的个数大于字符的真实个数,识别结 果中含有误识字符,因此需要对识别结果进行过滤以得到正确的字符串。在过滤时,根据候 选相邻字符之间的位置重叠程度和识别置信度进行取舍。过滤后得到的字符串作为最终结 果输出。 步骤S105,根据文本块图像中连通域的几何特征及位置信息确定英文区域,对所 述英文区域进行分割和字符识别,得到英文字符串; 存在中英文混排的文本中,单个英文字符或者相邻英文字符的组合,经常会被误 识为中文字符,同时,中文字符的偏旁部首或者一些笔画简单的中文字符会被误识为英文 字符,所以不能单凭识别结果来代替英文分割。 本发明实施例中,根据外部特征对先确定英文区域,再进行有倾向性的分割、识
别,包括判断英文区域和英文字符识别,识别结果以英文字符串的形式输出。 在候选英文区域判断环节,根据连通域的几何特征和相邻情况,找出图像中的候
选英文区域。在中英文混排文本中,英文字符和中文字符相比,有两个特点中、英文字符的
宽度不同,英文字符宽度较小;英文字符的中心间距较小,中文字符的中心间距较大,在中、
英文字符交界处,字符的中心间距发生变化。 从预处理结果中,可以得到连通域的尺寸和位置信息。英文字符都是单个字符,在 不考虑粘连的情况下,英文字符连通域的宽度就是其字符宽度;中文字符的宽度由中文字符分割环节得到。字符的中心间距是相邻字符的连通域中心点之间的距离。计算出字符宽 度和中心点的位置,结合上述两个特点能够确定候选英文区域。 在确定的候选英文区域中,经常会包含非英文区域,如标点、中文字符的笔画等, 在中、英文字符合并环节能够去除。 英文字符的识别采用自己研制的OCR引擎,(1)识别引擎只专注于英文字母和数 字的识别,由于需要区分的类别个数很小,能够取得更高的识别正确率,(2)能够根据实际 情况扩充样本,定制训练集,使识别结果更贴近实际应用。 识别引擎提取字符的方向线素(在IEEE Transactions On Pattern AnalysisAnd Machine Inte11igence, Vo 1 21, No 3, March 1999, 〃 A Handwritten CharacterRecognition System Using Directional Element Feature and AsymmetricMahalanobis Distance" 中进行了描述)禾口梯度(在IEEE Transactions On PatternAnalysis And Machine Intelligence, Vol 29, No 8, March 2007, 〃 Normalization-Cooperated Gradient Feature Extraction for HandwrittenCharacter Recognition"中进行了描述)的组合特征,特征采用LDA降维 (在"Introduction to Statistical Pattern Recognition" , 2nd edition, Academic Press, NewYork, 1990中进行了描述),分类器采用DLQDF(在IEEE Transactions OnNeural Networks, Vol 15, No 2, March 2004, 〃 Discriminative Learning QuadraticDiscriminant Function for Handwriting Recognition"中进行了描述)算法 进行训练,分类器输出识别结果和置信度,置信度计算方法和中文字符相同。
步骤S106,分别计算所得到的中文字符、英文字符的识别置信度,并对识别置信度 进行校正; 由于中、英文识别分别采用不同的识别引擎,两个识别引擎的原型空间规模相差 很大,样本间距离度量方式也不相同,因此计算得到的识别置信度不具有可比性,插入合并 前需要对两类识别置信度进行校正。校正识别置信度一般在相同的样本空间上进行,但在 此中、英文字符分开识别,两个识别引擎的样本空间不重叠,无法直接进行校正。
参照图4,例如,假设中、英文字符的识别置信度为高斯分布(在 PatternRecognition Vol. 38, Pagess 11_28,2005, 〃 Classifier Combination Based onConfidence Transformation"中进行了描述),以中文字符的识别置信度为准,对英文 字符的识别置信度进行校正 (1)在样本集(新闻标题)上,根据中文字符的识别置信度的统计情况,将其分成
5个等级,求得各等级的置信度均值ai、 a2、 a3、 a4、 a5 ; (2)同一行标题中的英文字符具有和中文字符相同的等级; (3)计算每个等级的英文字符的置信度均值bpb2、b3、b4、b5 ; (4)对中、英文字符五个等级的置信度均值进行线性拟合(在"统计推断",机械工
业出版社,2005.中进行了描述); (5)根据拟合参数,重新确定英文字符的识别置信度。 这样经过校正后的英文字符具有和中文字符相一致的置信度。 步骤S107,基于校正后的字符识别置信度及中文字符与英文字符之间的位置关系
将中文字符串和英文字符串进行合并,得到文本信息。
在合并环节,通过比较中、英文字符串在位置和识别置信度上的关系,对两个字符 串进行合并,合并后的结果作为最终结果输出。本发明实施例中采用"插入式"策略进行合 并,具体包括 在中文字符串的适当位置,补上被遗漏的英文字符,遗漏的原因是在中文字符预 分割时,英文字符的宽度不满足要求而被筛选掉; 在中、英文字符重叠的地方,比较两类字符的识别置信度,将那些被误识为中文字 符的识别结果用置信度较高的英文识别结果代替,误识的原因是两个相邻的英文字符在预 分割时被当成一个中文字符。 例如,如图5所示,是从屏幕上截取得到的具有中英文数字混排的文本图像,内容 为"伦敦720万英镑保驾G20峰会",按照中文字符进行分割识别得到的是"伦敦加英镑保 驾加峰会",其中将'7'、'72'的组合在字符串筛选环节被去除,'20'误识别为'加',通过比 较中、英文字符串在位置和识别置信度上的关系,合并后得到正确的结果"伦敦720万英镑 保驾G20峰会"。 步骤S108,对视频图像的版面进行分析,获取视频图像中的文本特征;将合并后 得到的文本信息进行组织、分类。 视频中包含的文本种类繁多,不同种类的文本含义不同,如图6所示,区域内的文
本包括标题、副标题、台标、附属词、滚动条等类型。在视频搜索和视频自动编目中,需要从
视频中提取结构化的文本信息,文本类型是与文本内容同等重要的特征。 根据文本特征对其进行细致、准确的组织和分类,输出结构化的文本信息,以满足
不同应用层面的需要,如图7所示,包括收集特征、文本组织和文本分类。在版面分析中要
用到文本块的时序特征,而时序特征在一段节目处理完才能确定,因此采用离线处理的方
式,即在一段节目处理完后才进行版面分析。 版面分析包括收集特征、文本组织和文本分类。 版面分析中用到的文本特征包括 极性,反映文本区域中字符和背景的颜色深浅对比关系,如极性为O表示浅色背 景深色字符,极性为l表示深色背景浅色字符。分割环节可以利用算法自动判断文本极性; 也可以在配置文件中给出极性,并以此指导分割。 颜色,包括字符颜色和背景颜色。在某些情况下,极性不足以区分不同种类的文
本,如红色背景下的白色和黄色字符极性都是l,这时就需要考虑颜色信息。 字符尺寸,包括文本行中单个字符的平均宽度和高度。在分割环节中,进行预分割
后能够得到单个字符的宽度和高度,以此统计文本行中单个字符的平均宽度和高度。 文本块位置,包括文本块的上下、左右边界。 识别结果。文本块图像经过分割、识别后得到的字符串,在分割环节给出。
文本块的起止时间。文本块出现和消失的时刻; 文本块的时序关系。在跟踪环节,进行时序判断时给出四种关系保持、消失、替换 和虚警,属于文本块的有两种消失和替换。 这些特征是版面分析的基础,在后续处理中,应该根据被处理视频的特点,灵活组 合特征和设计规则,并没有统一的处理流程。
文本组织,包括同一帧图像上多行文本的合并;连续多帧图像上同一个文本块
12的合并。 经过投影切分后,处理的文本块都是单行文本,这些单行文本可能需要组合起来 才能表达完整的含义,如多行的新闻标题。在同一帧图像上,根据文本块的位置、字符尺 寸、颜色等信息,结合被处理视频的特点,将空间上分散的单行文本组合成为完整的逻辑单 位。 在一些情况下,连续出现的文本可能需要组合起来才能表达完整的含义,或者同 一个文本断断续续出现多次,如新闻标题。这就需要根据文本块的识别结果、字符尺寸、颜 色等信息,将时间上分散的文本组合成为完整的逻辑单位。
文本分类,在不同的视频节目中,文本的表现形式各不相同。针对一类节目,通过 观察可以总结得出一些文本分类的规律,但在另一类节目中,规律可能不再成立。因此,文 本分类没有具体的统一的处理流程,可结合文本特征和模板进行分类。
实施例二 参照图8,本发明实施例还提供一种提取视频文本信息的装置200,包括
位置确定单元210,用于确定视频图像中文本块区域的位置; 中文字符处理单元220,按照中文字符特征对所述文本块进行分割和字符识别,得 到中文字符串; 英文字符处理单元230,根据所述文本块中连通域的几何特征及位置信息确定英 文区域,对所述英文区域进行分割和字符识别,得到英文字符串; 计算单元240,用于分别计算所得到的中文字符、英文字符的识别置信度,并对识 别置信度进行校正; 合并单元250,用于基于校正后的字符识别置信度及中文字符与英文字符之间的
关系将所述中文字符串和中文字符串进行合并,得到文本信息。
该装置200,还包括 监测跟踪单元260,用于监测并跟踪连续视频图像帧中的文本块; 判断单元270,用于根据所述监测跟踪单元提供的相邻视频图像帧中文本块的位
置信息和图像内容判断是否为同一文本块; 若视频图像帧中为不同文本块,判断单元270确定该不同文本块的区域,则中文 字符处理单元220和英文字符处理单元230分别对该不同文本块进行分割和字符识别。
计算单元240中具有校正子单元241,用于以中文字符的识别置信度为准,对英文 字符的识别置信度进行校正,该校正子单元241包括 分级模块241a,用于将中文字符的识别置信度分成若干等级,并计算得到每个等
级的置信度均值,且同一行文本块的英文字符和中文字符具有相同的等级; 计算模块241b,用于计算每个等级的英文字符的置信度均值; 调整模块241c,用于对中、英文字符各等级的置信度均值进行线性拟合;并根据
拟合参数,重新确定英文字符的识别置信度。 该装置200中,还设置有预处理单元270,用于在对文本块进行分割和字符识别之 前,对文本块进行预处理,该预处理单元270具体包括 图像处理模块270a,对文本块所在区域图像进行二值化处理,分离图像中的字符 和背景,以确定字符边界;
图像分析模块270b,用于对生成的二值图像要进行连通域分析,以获得字符笔画 的位置和尺寸信息。 综上所述,本发明提供的一种提取视频结构化文本信息的方法及装置,通过定位 确定视频图像中文本块的位置;并对文本块进行跟踪;再分别按照中文、英文字符特征对 文本块图像进行分割和字符识别,得到中文及英文字符串;并对中、英文字符的识别置信度 进行校正;基于校正后的字符识别置信度及中文字符与英文字符之间的位置关系将中文字 符串和英文字符串进行合并,得到文本信息。根据本发明,可对视频图像中的中英文混排的 文本进行字符分割识别,可以解决不同风格的视频文本难以在统一的流程中进行处理的问 题,可对视频中不同类型的文本信息进行组织、分类。该架构既可以有效处理各种不同类型 的视频,也可以方便进行定制、修改、扩充。 根据所述公开的实施例,可以使得本领域技术人员能够实现或者使用本发明。对 于本领域技术人员来说,这些实施例的各种修改是显而易见的,并且这里定义的总体原理 也可以在不脱离本发明的范围和主旨的基础上应用于其他实施例。以上所述的实施例仅为 本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任 何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
一种提取视频文本信息的方法,其特征在于,包括确定视频图像中文本块的位置;按照中文字符特征对所述文本块图像进行分割和字符识别,得到中文字符串;根据所述文本块图像中连通域的几何特征及位置信息确定英文区域,对所述英文区域进行分割和字符识别,得到英文字符串;分别计算所得到的中文字符、英文字符的识别置信度,并对识别置信度进行校正;基于校正后的字符识别置信度及中文字符与英文字符之间的位置关系将所述中文字符串和英文字符串进行合并,得到文本信息。
2. 如权利要求l所述的方法,其特征在于,还包括监测并跟踪连续视频图像帧中的文本块,根据相邻视频图像帧中文本块的位置关系和图像内容判断是否为同一文本块;当所述文本块消失时,确定该文本块的位置,并对该文本块进行后续的分割和字符识别。
3. 如权利要求2所述的方法,其特征在于,所述根据相邻视频图像帧中文本块的位置关系和图像内容判断是否为同一文本块,具体为若相邻视频图像帧中文本块的区域相互独立或者欠重叠,则判断相邻视频图像帧中文本块为不同文本块;若相邻视频图像帧中文本块的区域重叠或包含,则判断相邻视频图像帧中文本块为同一文本块。
4. 如权利要求1所述的方法,其特征在于,所述对识别置信度进行校正的步骤,包括以中文字符的识别置信度为准,对英文字符的识别置信度进行校正将所述中文字符的识别置信度分成若干等级,并计算得到每个等级的置信度均值,且同一行文本块的英文字符和中文字符具有相同的等级;计算每个等级的英文字符的置信度均值;以中文字符各等级的置信度均值为基准,对中、英文字符相同等级的置信度均值进行线性拟合;根据拟合参数,重新确定英文字符的识别置信度。
5. 如权利要求1所述的方法,其特征在于,在对所述文本块进行分割和字符识别之前,还包括对所述文本块所在区域图像进行预处理的步骤当所述视频图像为彩色图像,将所述视频图像转化灰度图像;对所述文本块所在区域图像进行二值化处理,分离图像中的字符和背景,以确定字符边界;对生成的二值图像要进行连通域分析,以获得字符笔画的位置和尺寸信息。
6. 如权利要求l所述的方法,其特征在于,还包括对所述视频图像进行版面分析,获取所述视频图像中的文本特征;根据所述文本特征,将所述文本信息进行组织、分类。
7. —种提取视频文本信息的装置,其特征在于,包括位置确定单元,用于确定视频图像中文本块的位置;第一处理单元,按照中文字符特征对所述文本块进行分割和字符识别,得到中文字符串;第二处理单元,根据所述文本块中连通域的几何特征及位置信息确定英文区域,对所述英文区域进行分割和字符识别,得到英文字符串;计算单元,用于分别计算所得到的中文字符、英文字符的识别置信度,并对识别置信度进行校正;合并单元,用于基于校正后的字符识别置信度及中文字符与英文字符之间的位置关系将所述中文字符串和中文字符串进行合并,得到文本信息。
8. 如权利要求7所述的装置,其特征在于,还包括监测跟踪单元,用于监测并跟踪连续视频图像帧中的文本块;判断单元,用于根据所述监测跟踪单元提供的相邻视频图像帧中文本块的位置信息和图像内容判断是否为同一文本块;若所述视频图像帧中为不同文本块,所述判断单元确定该不同文本块的区域,则所述第一处理单元和第二处理单元分别对该不同文本块进行分割和字符识别。
9. 如权利要求7所述的装置,其特征在于,所述计算单元中具有校正子单元,用于以中文字符的识别置信度为准,对英文字符的识别置信度进行校正,该校正子单元包括分级模块,用于将中文字符的识别置信度分成若干等级,并计算得到每个等级的置信度均值,且同一行文本块的英文字符和中文字符具有相同的等级;计算模块,用于计算每个等级的英文字符的置信度均值;调整模块,用于以中文字符各等级的置信度均值为目标,对中、英文字符各等级的置信度均值进行线性拟合;并根据拟合参数,重新确定英文字符的识别置信度。
10. 如权利要求7所述的装置,其特征在于,还设置有预处理单元,用于在对所述文本块进行分割和字符识别之前,对所述文本块进行预处理,该预处理单元,具体包括图像处理模块,将所述文本块图像转化灰度图像,并对该灰度图像进行二值化处理,分离图像中的字符和背景,以确定字符边界;图像分析模块,用于对生成的二值图像要进行连通域分析,以获得字符笔画的位置和尺寸信息。
全文摘要
本发明公开了一种提取视频文本信息的方法及装置,通过确定视频图像中文本块的位置;再分别按照中文、英文字符特征对文本块图像进行分割和字符识别,得到中文及英文字符串;并对识别置信度进行校正;基于校正后的字符识别置信度及中文字符与英文字符之间的位置关系将中文字符串和英文字符串进行合并,得到文本信息。根据本发明,可对视频图像中的中英文混排的文本进行字符分割识别,可以解决不同风格的视频文本难以在统一的流程中进行处理的问题,可对视频中不同类型的文本信息进行组织、分类。该架构既可以有效处理各种不同类型的视频,也可以方便进行定制、修改、扩充。
文档编号G06K9/62GK101777124SQ20101010424
公开日2010年7月14日 申请日期2010年1月29日 优先权日2010年1月29日
发明者周景超, 苗广义, 鲍东山 申请人:北京新岸线网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1