视频文本提取方法、装置、设备以及存储介质与流程

文档序号：37682126发布日期：2024-04-18 20:54阅读：31来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及金融，尤其涉及一种视频文本提取方法、装置、设备以及存储介质。

背景技术：

1、视频文本提取旨在提取视频中包含的文本，相关技术中，用户想要提取视频中的文本通常是提取视频中每个视频帧所包含的文本，并将提取得到的重复的文本进行合并得到视频的视频文本。

2、然而，在相关技术中，由于视频帧的背景色或者形近字的影响，造成文本识别效果不佳，使得从视频中所提取到的文本的精准度偏低。

技术实现思路

1、本申请实施例的主要目的在于提供一种视频文本提取方法、装置、设备以及存储介质，旨在精准提取视频中的文本。

2、第一方面，本申请实施例提供了一种视频文本提取方法，所述方法包括：

3、确定待执行文本提取的目标视频，并获取构成所述目标视频对应的各个视频帧，所述视频帧中包括目标对象；

4、识别各个视频帧中所述目标对象口型变化，得到第一文本信息；

5、从各个所述视频帧中筛选关键视频帧，其中，任意两个所述关键视频帧的文本相似度小于预设值；

6、识别各个所述关键视频帧中文本区的文本特征，得到第二文本信息；

7、根据所述第一文本信息和所述第二文本信息生成所述目标视频对应的视频文本。

8、第二方面，本申请实施例还提供一种视频文本提取装置，包括：

9、帧提取模块，用于确定待执行文本提取的目标视频，并获取构成所述目标视频对应的各个视频帧，所述视频帧中包括目标对象；

10、口型识别模块，用于识别各个视频帧中所述目标对象口型变化，得到第一文本信息；

11、帧筛选模块，用于从各个所述视频帧中筛选关键视频帧，其中，任意两个所述关键视频帧的文本相似度小于预设值；

12、文本提取模块，用于识别各个所述关键视频帧中文本区的文本特征，得到第二文本信息；

13、文本生成模块，根据所述第一文本信息和所述第二文本信息生成所述目标视频对应的视频文本。

14、第三方面，本申请实施例还提供一种视频文本提取设备，包括处理器、存储器、存储在存储器上并可被处理器执行的计算机程序以及用于实现处理器和存储器之间的连接通信的数据总线，其中计算机程序被处理器执行时，实现如本申请说明书任一实施例提供的视频文本提取方法的步骤。

15、第四方面，本申请实施例还提供一种存储介质，用于计算机可读存储，其特征在于，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如本申请说明书任一实施例提供的视频文本提取方法的步骤。

16、本申请实施例提供一种视频文本提取方法、装置、设备以及存储介质，其中，视频文本提取方法应用于视频文本提取设备，所述方法通过确定待执行文本提取的目标视频，并获取构成所述目标视频对应的各个视频帧，所述视频帧中包括目标对象；识别各个视频帧中目标对象口型变化，得到第一文本信息；从各个所述视频帧中筛选关键视频帧，其中，任意两个所述关键视频帧的文本相似度小于预设值；识别各个所述关键视频帧中文本区的文本特征，得到第二文本信息；根据所述第一文本信息和所述第二文本信息生成所述目标视频对应的视频文本。

17、基于对各个视频帧进行筛选得到关键视频帧，并对各个关键视频帧提取文本特征和目标对象的口型变化，利用关键视频帧提取到的第二文本信息和口型变化提取到的第一文本信息进行融合，从而使得得到的视频文本更为精准，并且在进行文本提取过程中，先通过对视频帧进行筛选获取关键视频帧，从而无需对全部视频帧进行文本提取和口型识别，可以有效提高获取视频文本的效率。

技术特征：

1.一种视频文本提取方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述识别各个所述视频帧中所述目标对象口型变化，得到第一文本信息，包括：

3.如权利要求1所述的方法，其特征在于，所述从各个所述视频帧中筛选关键视频帧，包括：

4.如权利要求1所述的方法，其特征在于，所述识别所述关键视频帧中文本区的文本特征，得到第二文本信息，包括：

5.如权利要求4所述的方法，其特征在于，所述识别被标记的所述文本区内的文本特征，得到第二文本信息，包括：

6.如权利要求5所述的方法，其特征在于，所述预设图像处理操作为替换所述第一文本图像的背景图像，所述对所述第一文本图像进行预设图像处理操作，得到第二文本图像，包括：

7.如权利要求1-6任一项所述的方法，其特征在于，所述根据所述第二文本信息和所述第一文本信息生成所述目标视频对应的视频文本，包括：

8.一种视频文本提取装置，其特征在于，包括：

9.一种视频文本提取设备，其特征在于，所述视频文本提取设备包括处理器、存储器、存储在所述存储器上并可被所述处理器执行的计算机程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的视频文本提取方法的步骤。

10.一种存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述的视频文本提取方法的步骤。

技术总结
本申请涉及金融科技领域，公开了一种视频文本提取方法、装置、设备以及存储介质，其中，视频文本提取方法通过确定待执行文本提取的目标视频，并获取构成所述目标视频对应的各个视频帧，所述视频帧中包括目标对象；识别各个视频帧中所述目标对象口型变化，得到第一文本信息；从各个所述视频帧中筛选关键视频帧，其中，任意两个所述关键视频帧的文本相似度小于预设值；识别各个所述关键视频帧中文本区的文本特征，得到第二文本信息；根据所述第一文本信息和所述第二文本信息生成所述目标视频对应的视频文本，本申请可以实现精准提取视频中的文本。

技术研发人员：王小山
受保护的技术使用者：中国平安财产保险股份有限公司
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王小山
技术所有人：中国平安财产保险股份有限公司
我是此专利的发明人

上一篇：驱动传动改向支撑组件、可用于镜下的椎间融合器及旋具的制作方法
上一篇：自适应空间复用的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。