一种基于视频内容的分类聚合方法及装置与流程

文档序号：24236613发布日期：2021-03-12 13:09阅读：51来源：国知局

本发明属于视频内容分类技术领域，具体涉及一种基于视频内容的分类聚合方法及装置。

背景技术：

视频在视觉上是一系列连续图像的集合，是一种没有结构的图像流。由于视频缺乏索引信息，人们无法对它进行高效浏览和检索。为了辅助人们快速寻找感兴趣的视频片段，除了采取“快进”和“快倒”这种耗时的方式进行线性浏览，很多的视频还标注有标签。而标签则需要根据视频的内容(即字幕)而定，即需要通过对饰品字幕进行检测和提取。

视频字幕检测和提取一般包括视频字幕定位、提取和识别，现有的视频字幕定位方法中通常会默认字幕处于屏幕的下四分之一，即宽为m，高为3n/4至n的区域为字幕区域，但是当某些非常规视频出现时，如视频字幕出现在屏幕上方或两侧时，依旧采用固有的字幕提取范围可能会导致字幕定位不准确而无法提取或提取到不完整字幕等情况的出现。现有的视频字幕提取方法则面临三大问题：第一，视频图像的复杂背景使字幕提取和分割极其困难。第二，为避免遮挡图像的主体部分，许多视频字符的尺寸都相当小，分辨率低。第三，数字视频采用有损压缩方式的格式存贮，再次降低了其分辨率。对于上述问题以及字幕字体、大小和对齐排列方式多变，成像存在噪音、模糊、透视、字体格式种类繁多等情况，本发明所提出的视频字幕提取算法要比其它边缘检测定位算法准确率高。

此外，目前现有的视频分类方法大多是通过特征提取并训练序列模型来实现对视频的粗分类。面对海量的视频信息，传统的人工分类方法已经远远不能满足现在的需求，一是耗费大量的时间，人力和物力。二是不同的人员语言素质也不同，分类出来的效果无法达到一致性，不够规范。

因此，针对以上不足，本发明急需提供一种视频字幕的处理方法及处理装置。

技术实现要素：

本发明的目的在于提供一种视频字幕的处理方法及处理装置，以解决现有技术中视频字幕的提取方法费时费力且正确率低的问题。

一方面，本发明提供的基于视频内容的分类聚合方法，包括：s1：逐帧处理视频流，按照每帧图像的时序依次排列获取的图像文本，得到视频字幕；s2：对视频字幕中每个句子进行分词和词性标注，并保留具有指定词性的单词以构成候选关键词；s3：构建关键词图模型，并将s2中的候选关键词添加至图模型中构成图模型的节点；s4：计算关键词图模型中各节点的权重，并按照权重大小的顺序获取若干节点以构成候选标签；若候选标签形成相邻词组，则组合多词标签；s5：选取步骤s4中的候选标签或多词标签作为视频流的标签。

如上所述的基于视频内容的分类聚合方法，进一步优选为，s4包括：s41：采用共现关系构造任意两个节点之间的边，并将存在边的两个节点添加至图模型中以构成一个无向无权边图；s42：确认无向无权边图中任意节点的词语位置、词性和领域特征的权重分配，通过多特征融合得出综合权重。

如上所述的基于视频内容的分类聚合方法，进一步优选为，s42中，各节点的综合权重采用下列公式进行计算：

式中，ws(vi)表示节点vi的权重，ws(vj)表示节点vj的权重；

d为阻尼因子，表示图中任意一个节点跳转到其他节点的概率值；

in(vi)表示指向节点vi的所有节点的集合，in(vi)＝loge(vi)；out(vj)表示节点vj指向的所有节点vj的集合；

ω(νi)为节点vi特征权重，且ω(νi)＝ω1(νi)*posi+ω2(νi)*clai+ω3(νi)*chai，

式中，ω1(νi)为词语位置权重，ω2(νi)为词性权重，ω3(νi)为领域特征权重，posi为位置权重分配系数，clai为词性权重分配系数，chai为领域特征权重分配系数。

如上所述的基于视频内容的分类聚合方法，进一步优选为，s1包括：s11：采用三色不等权变换策略逐帧处理视频流中的图像，得到灰度图像；s12：采用阈值法处理灰度图像，得到包括多个像素点的二值化图像。

如上所述的基于视频内容的分类聚合方法，进一步优选为，s1包括：s11：逐帧处理视频流，得到待识别的图像，所述图像中包括多个像素点；s12：根据多个所述像素点，确定所述图像的第一文本区域；s13：按照预设规则，从所述第一文本区域中提取第二文本区域；s14：对所述第二文本区域进行识别以获取图像文本；s15：按照每帧图像的时序依次排列获取的图像文本，得到视频字幕。

如上所述的基于视频内容的分类聚合方法，进一步优选为，s12包括：s121：按照8邻域相通的规则对s11中的二值化图像进行连通域标记，同一连通域内的像素点具有相同的标号；s122：利用启发式规则筛选并去除面积过大或过小的连通域，得到第一文本区域。

如上所述的基于视频内容的分类聚合方法，进一步优选为，s122还包括判断相邻帧图像的连通域是否匹配，将相匹配的多帧图像合并成子集；按照子集的时序使每个子集输出若干二值图像，得到第一文本区域。

如上所述的基于视频内容的分类聚合方法，进一步优选为，s13包括：s131：使用多级边缘检测算法查找第一文本区域中图像的边缘，并输出包含有边缘像素点的二值图像；s132：计算s131中二值图像每个边缘像素点的梯度，根据每个边缘像素点梯度查找二值图像中的有效笔画并输出包含有效笔画及笔画宽度的二值图像；s133：基于s132中的二值图像中像素点的笔画宽度比例为像素点划分连通域，位于同一连通域的笔画为同一字符链；s134：遍历s133中所有的字符链，并将首尾相接的字符链组合到一起形成文本，该文本的包围矩形范围构成第二文本区域。

如上所述的基于视频内容的分类聚合方法，进一步优选为，s14包括：s141：遍历第二文本区域，并计算各像素点的梯度，并得到梯度纵向投影直方图；s142：根据直方图中波峰波谷的位置对第二文本区域进行切分，得到单字符图像；s143：对单字符图像进行连通域标记，并清除像素点数目过小的区域，得到处理后的二值化图像；s144：通过ocr识别步骤s143中得到的二值化图像，输出文本，遍历第二文本区域，得到文本集合，完成字幕提取。

本发明还公开了一种基于视频内容的分类聚合装置，用于实现上述任意一项所述的视频字幕的处理方法，包括：获取模块，用于逐帧处理视频流以得到待识别的图像，所述图像包括多个像素点；确定模块，用于根据多个像素点，确定所述图像的第一文本区域；提取模块，用于按照预设规则，从所述第一文本区域中提取出第二文本区域；识别模块，用于对所述第二文本区域进行识别以获取图像图本；合成模块，用于根据视频时序合成图像文本，得到视频字幕；分类模块，用于提取视频字幕的若干关键词，并组合成多词标签。

与现有技术相比，本发明所公开的一种视频字幕的处理方法及处理装置具有以下有益效果：

本发明提供的视频字幕的处理方法中首先通过逐帧对视频流中的图像进行多次全局二值化处理，有效地去除了待识别的图像中的噪声，并通过对第二文本区域进行识别来实现图像文本的识别，避免了噪声对图像文本识别的干扰，大大提升了识别的准确率。此外，通过获取的视频字幕对视频内容进行分类整合，能够根据准确的字幕给视频分类及标签库的更新提供训练集，已经分好类的标签能使将来新加入的视频更快速地完成分类及打标签。另一方面还可以根据用户的历史观影行为可以把视频的标签转移到用户身上，这样便可以给用户进行个性化的推荐，增加用户的流量。

提高视频搜索的灵活性及个性化，优化搜索的结果，增强搜索结果的精确度。让用户在更短的时间内，搜寻到自己感兴趣的内容，使用户体验得以提升。同时能够提高视频分类的效率，减少视频分类的成本，规范视频分类的标准。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中一种视频字幕的处理方法步骤流程图；

图2为本发明中一种视频字幕的处理装置的结构框图；

图3为本发明中步骤s31前后图像的变化，其中a为处理前，b为处理后；

图4为本发明中步骤s32前后图像的变化，其中c为处理前，d为处理后；

图5为本发明中步骤s3中同一笔画的变化过程，其中e为第二文本区域中笔画，f为查找边缘后的笔画，g为笔画宽度变化。

具体实施方式

实施例1：

如图1所示，本实施例提供了一种视频字幕的处理方法，包括：

s1：逐帧处理视频流，按照每帧图像的时序依次排列获取的图像文本，得到视频字幕；

s2：对视频字幕中每个句子进行分词和词性标注，并保留具有指定词性的单词以构成候选关键词；

s3：构建关键词图模型，并将s2中的候选关键词添加至图模型中构成图模型的节点；

s4：计算关键词图模型中各节点的权重，并按照权重大小的顺序获取若干节点以构成候选标签；若候选标签形成相邻词组，则组合多词标签；

s5：选取步骤s4中的候选标签或多词标签作为视频流的标签。

进一步的，s4包括：

s41：采用共现关系构造任意两个节点之间的边，并将存在边的两个节点添加至图模型中以构成一个无向无权边图；

s42：确认无向无权边图中任意节点的词语位置、词性和领域特征的权重分配，通过多特征融合得出综合权重。

进一步的，s42中，各节点的综合权重采用下列公式进行计算：

式中，ws(vi)表示节点vi的权重，ws(vj)表示节点vj的权重；

d为阻尼因子，其取值范围为0≤d≤1，通常取值为0.85，表示图中任意一个节点跳转到其他节点的概率值；

in(vi)表示指向节点vi的所有节点的集合，in(vi)＝loge(vi)；out(vj)表示节点vj指向的所有节点vj的集合；

ω(νi)为节点vi特征权重，且ω(νi)＝ω1(νi)*posi+ω2(νi)*clai+ω3(νi)*chai，

本实施例以纪录片《华尔街》中，对“华尔街不是像黑白那样分明的”进行分词&词性标注结果：

华尔街(n.)/不是(adv.)/像(adj./v.)/黑(adj.)/白(adj.)/那样(prep.)/分明的(adj.)

其中每个词分别用节点vi，节点vj...等表示。

保留名词+动词+形容词：

华尔街(n.)/像(adj./v.)/黑(adj.)/白(adj.)/分明的(adj.)

根据公式计算出各节点的综合权重，并对其进行从小到大的排序，权重越高代表的重要程度越高。

权重排序：

华尔街(n.)/分明的(adj.)/黑(adj.)/白(adj.)/像(adj./v.)

从上述排序中提取出所需的n(n≥1)个关键词并使之成为视频标签。

标签：

华尔街(n.)

进一步的，s1包括：

s11：逐帧处理视频流，得到待识别的图像，所述图像中包括多个像素点；

s12：根据多个所述像素点，确定所述图像的第一文本区域；

s13：按照预设规则，从所述第一文本区域中提取第二文本区域；

s14：对所述第二文本区域进行识别以获取图像文本；

s15：按照每帧图像的时序依次排列获取的图像文本，得到视频字幕。

进一步的，s11包括：

s111：采用三色不等权变换策略逐帧处理视频流中的图像，得到灰度图像；具体的，r、g、b分别表示彩色图像三通道对应的像素值，则输出的灰度图像为：l(x,y)＝0.3×r(x,y)+0.59×g(x,y)+0.11×b(x,y)，其中(x,y)表示该图像中像素点的坐标。

s112：采用阈值法处理灰度图像，得到包括多个像素点的二值化图像。具体的，可采用双峰法、p参数法、大津法、最大熵阈值法和迭代法作为阈值选取算法。

进一步的，s12包括：

s121：按照8邻域相通的规则对s11中的二值化图像进行连通域标记，同一连通域内的像素点具有相同的标号；具体的，从左到右、从上往下依次按照8邻域相通的规则进行连通域标记；

s122：利用启发式规则筛选并去除面积过大或过小的连通域，得到第一文本区域。

进一步的，s122还包括判断相邻帧图像的连通域是否匹配，将相匹配的多帧图像合并成子集；按照子集的时序使每个子集输出若干二值图像，得到第一文本区域。

具体而言，为便于观看，视频字幕一般都会持续1秒钟以上，而背景却相对变化较快，1秒钟大概20-30帧，一个镜头又由多帧图像按照时序组合而成，因此一般而言，视频字幕的持续时间要长于镜头，且视频字幕的切换一般伴随着镜头的切换。因此，步骤s23中，判断相邻帧图像的第一文本区域是否匹配可分为两个步骤：首先判断镜头是否切换，然后判断相邻镜头的字幕是否匹配，并将字幕匹配的相邻镜头合并成子视频。

镜头的切换与否可通过公式计算得到，具体的，以给定一个大小为m×n的视频帧，定义空间差序列为ds(t)，定义空间差序列所对应的镜头变换阈值为δshot，当ds(t)>δshot时，则认为在第t和t+1帧发生了镜头切换。其中：

其中，m代表视频图像的长度，n代表视频图像的宽度，it(i,j)是第t帧图像在(i,j)点处的强度，it+1(i,j)是第t+1帧图像在(i,j)点处的强度。阈值δshot随视频类型(如：动作电影、奇幻电影、喜剧电影、恐怖电影、冒险电影等)进行动态变化。

通过上述公式计算出每帧图像的空间差序列，并与镜头变换阈值进行比较之后可以对镜头切换进行判断。用于本实施例中即为找出视频流中空间帧差序列满足一定条件的局部最大点，然后根据局部最大点所在的时间点得到镜头变化时序，再根据镜头变化时序筛选获取的图像，进而去除大量字幕重复的图像，以便于降低后续处理工作量。

字幕匹配是否是通过对比判断的，具体的，抽取相邻镜头的第一文本区域进行以下对比：

1)位置对比：相邻两镜头的第一文本区域之间的重叠面积是否达到一定比例，具体的，可将比例设定为0.85；

2)像素强度分布对比：相邻两镜头的第一文本区域的边缘强度值同为0和同不为0的响度总数超过重叠面积的一定比例。

当相邻两镜头同时满足上述两条规则时，则认为两镜头的字幕相同，并将其合并至同一个子集中。判断子集的时间长度，若子集没有持续一定的时间长度，则认为该子集为背景部分或伪文字部分，并将其去除。按照子集的时序使每个子集输出若干二值图像，得到第一文本区域。

步骤s122的目的在于将具有同一字幕的相邻帧合并为一个子集，使后续处理中以子集为单位进行处理，进而降低后续的处理量，同时加快处理进程。

进一步的，如图3-5所示，s13包括：

s131：如图3所示，使用多级边缘检测算法查找第一文本区域中图像的边缘，并输出包含有边缘像素点的二值图像；采用舵机边缘检测算法查找第一文本区域中图像的边缘，不仅能够一直噪声对边缘检测干扰，还能够精确定位图像中边缘的位置，以便于后续处理的进行。

s132：如图4所示，计算s131中二值图像每个边缘像素点的梯度，根据每个边缘像素点梯度查找二值图像中的有效笔画并输出包含有效笔画及笔画宽度的二值图像；

s133：基于s132中的二值图像中像素点的笔画宽度划分连通域，位于同一连通域的笔画为同一字符链；

s134：遍历s133中所有的字符链，并将首尾相接的字符链组合到一起形成文本，该文本的包围矩形范围构成第二文本区域。具体的，设定每个字符链为包括两个节点，遍历图像中所有的字符链，当发现两个字符链的头尾相接时，则将其合并为同一字符链，直至图像中没有任何字符链可以被组合到一起。当字符链长度阈值时，则认定为此字符链为一行(列)文正的文本。

进一步的，s132中，有效笔画中的像素点两两对应，且相对应的两个像素点均为彼此梯度方向上第一个与其梯度方向相反的像素点，相对应的两个像素点之间的宽度为彼此的笔画宽度。具体的，图像中每个像素点的初始宽度为无穷大。计算边缘像素点的梯度，并沿其梯度方向发出的射线进行查找，其遇到的第一个与其梯度方向大致相反的像素点时，则认为找到了一条笔画的两端，则这条射线经过的所有像素点的笔画宽度大于此像素点原有的宽度时，设定相对应的两个像素点之间的宽度为彼此的笔画宽度。如有两点的梯度不能满足要求，则放弃这条射线，直至遍历图像所有的边缘点，查找二值图像中所有的有效笔画。当像素点处于笔画的转角位置时，重新遍历所有有效的射线，并计算其得到的宽度的平均值，如果原值大于平均值，则将其结果重设为平均值。至此输出包含有效笔画及笔画宽度的二值图像。

进一步的，s133中，当相邻两像素点的笔画宽度的比例小于预设阈值时，其属于同一连通域，为同一字符链的笔画。每个连通域中的笔画宽度的变化不应该过大，这样可以将场景中类似树叶的图像过滤掉。具体的，本实施例中取t＝3，如此可保证对中文、英文以及一些笔画宽度有较大变化的文字起作用，避免将同一字符链的笔画划分到不同的字符链中。

步骤s13中，笔画的变化如图5所示。

进一步的，s14包括：

s141：遍历第二文本区域，并计算各像素点的梯度，并得到梯度纵向投影直方图；具体的，把相同列的梯度值累加，根据每一列的梯度累加值计算斜率，从而求出梯度纵向投影直方图。

s142：根据直方图找到梯度投影波峰波谷对第二文本区域进行一次切分，并对一次切分中较宽的区域进行二次切分，得到单字符图像；具体的，根据直方图的结果找到梯度投影的波峰和波谷，计算相应的峰谷特征值，运用峰谷特征值求出每个波谷的特征量，并画出初始的分割线，即对第二文本区域进行一次切分；为进一步精确切分情况，继续对经一次切分的图像中较宽的区域进行二次切分；具体的，波谷处特征量较少，一般位于相邻字符的间隙处，此处切分能够将第二文本区域切分呈单字符。定义区域宽度正常的标准为字符宽度上下浮动15％。当第一步得到的分割线之间间距明显过大时(即分割线间距超出定义的正常范围)，则将该区域归入宽度不正常的区域，并使之进入二次分割。二次切分与初次切分方法的主要区别是初次切分是对所有分割线做运算，而二次切分是只对初次切分后未能分割出来的文字区域的备选分割线做运算，由于二次切分比初次切分更有区域相关性，所以会把初次切分未能分割出来的文字区域分割出来。

s143：对单字符图像进行连通域标记，并清除像素点数目过小的区域，得到处理后的二值化图像；统计每个连通域的像素点数目，设定阈值，如果该连通域中像素点数目过小的话，则将该区域涂成白色，并清除该连通域，以便消除小区域的点噪声，从而得到清洗的二值化图像。

s144：通过ocr识别步骤s43中得到的二值化图像，输出文本，遍历第二文本区域，得到文本集合，完成字幕提取。

进一步的，s142还包括获取切分后各区域在视频流中的原始图片，并根据颜色信息对原始图片进行聚类分析，得到文本的像素信息；通过对比去除切分后各区域的噪点，得到单字符图像。具体的，利用颜色信息进行颜色聚类，由于字幕和背景的颜色不一致，则可以通过聚类将字幕和背景初步区分开来。聚类后，根据各个图层中像素点离文本框中心线的距离进行判断，选择出认为是字幕的图层，然后将其分离出来。最后，对该图层进行优化，通过消除噪声，使字幕更清晰地显现出来，更利于后面的ocr识别。

实施例2：

如图2所示，本实施例公开了一种视频字幕的处理装置，用于实现实施例1中所述的视频字幕的处理方法，包括：

获取模块，用于逐帧处理视频流以得到待识别的图像，所述图像包括多个像素点；

确定模块，用于根据多个像素点，确定所述图像的第一文本区域；

提取模块，用于按照预设规则，从所述第一文本区域中提取出第二文本区域；

识别模块，用于对所述第二文本区域进行识别以获取图像图本；

合成模块，用于根据视频时序合成图像文本，得到视频字幕。

与现有技术相比，本发明所公开的一种视频字幕的处理方法及处理装置具有以下有益效果：

本发明提供的视频字幕的处理方法中首先通过逐帧对视频流中的图像进行多次全局二值化处理，有效地去除了待识别的图像中的噪声，并通过对第二文本区域进行识别来实现图像文本的识别，避免了噪声对图像文本识别的干扰，大大提升了识别的准确率。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张现丰;刘海军;王璇章;庄庄
技术所有人：北京华录新媒信息技术有限公司;中国华录集团有限公司
我是此专利的发明人

上一篇：一种强化煤制乙二醇中草酸二甲酯加氢的反应系统及工艺的制作方法
上一篇：一种木糖醇的生产工艺的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。