本技术涉及计算机图形及图像视频处理,特别是涉及视频摘要生成方法、装置、计算机设备和存储介质。
背景技术:
1、在现代医疗行业中,自动化手术视频解析与摘要自动生成技术正发挥着日益重要的作用。这项技术能够深度解析手术流程,智能提炼关键信息,形成实时的手术步骤描述、指导建议及术后分析报告,不仅显著减轻了外科医生的工作负担,还为医学教育和新手医生的培养提供了强有力的支持。
2、目前的方案为:收集微创外科手术视频并处理得到图片序列数据集;利用backbone网络共享中间层对图片序列数据集中的手术工具和手术阶段进行初步特征提取,再利用分类器得到手术工具和手术阶段的识别结果,以生成视频摘要。该方案的缺点在于:没有考虑视频中的不同帧之间的信息关系,导致手术阶段识别的准确性低。
3、针对相关技术中存在手术阶段识别的准确性低的问题,目前还没有提出有效的解决方案。
技术实现思路
1、在本实施例中提供了一种视频摘要生成方法、装置、计算机设备和存储介质,以解决相关技术中阶段识别的准确性低的问题。
2、第一个方面,在本实施例中提供了一种视频摘要生成方法,包括:
3、获取视频数据中对应关键部位特征和关键动作特征的多帧视频关键图像;所述视频关键图像为三维图像特征;
4、将所述视频关键图像分别输入到多个预训练的第一网络模型,得到对应的预测结果;利用所述第一网络模型,从多帧所述视频关键图像中同时提取出时空信息,并将每帧所述视频关键图像转换成时序相关的二维图像特征;所述第一网络模型分为动作分类网络模型、器械分类网络模型以及目标对象检测网络模型;
5、将多个所述预测结果进行组合,得到所述视频数据的视频摘要。
6、在其中的一些实施例中,获取视频数据中对应关键部位特征和关键动作特征的多帧视频关键图像,包括:
7、对获取的所述视频数据进行处理,得到所述视频数据中不同场景所对应的视频图像序列;
8、将不同场景之间的所述视频图像序列随机排序后,输入到预训练的第二网络模型,得到对应关键部位特征和关键动作特征的候选关键图像;
9、基于所述候选关键图像之间的局部相似度,确定所述视频关键帧。
10、在其中的一些实施例中,对所述视频数据进行处理,得到所述视频数据中不同场景所对应的视频图像序列,包括:
11、基于预设采样帧数的滑动窗口,对所述视频数据进行预处理,得到连续的视频图像序列;相邻两组的所述视频图像序列之间具有重叠区域;
12、基于各所述视频图像序列中相邻两帧视频图像的局部差分,确定所述视频数据中不同场景所对应的视频图像序列。
13、在其中的一些实施例中,所述局部相似度对应的表达式为:
14、sim(i,j)=min(sim[f(i),f(j)]);
15、式中,sim(i,j)表示第i帧的候选关键图像和第j帧的候选关键图像之间的最小局部相似度;sim[f(i),f(j)]表示第i帧的候选关键图像和第j帧的候选关键图像之间的余弦相似度。
16、在其中的一些实施例中,所述第一网络模型包括swin transformer架构和功能模块;
17、所述swin transformer架构的预测层为2/3d时序相关卷积模块;
18、所述第一网络模型为所述动作分类网络模型,所述动作分类网络模型中的所述功能模块为动作分类单元;
19、所述第一网络模型为所述器械分类网络模型,所述器械分类网络模型中的所述功能模块为器械分类单元;
20、所述第一网络模型为所述目标对象检测网络模型,所述目标对象检测网络模型中的所述功能模块为目标对象检测单元。
21、在其中的一些实施例中,将所述视频关键图像分别输入到多个预训练的第一网络模型,得到对应的预测结果,包括:
22、利用所述swin transformer架构,从多帧所述视频关键图像中同时提取出时空信息,并将每帧所述视频关键图像转换成时序相关的二维图像特征;
23、在所述功能模块为动作分类单元时,对时序相关的所述二维图像特征进行动作分类,得到动作分类的预测结果;
24、在所述功能模块为器械分类单元时,对时序相关的所述二维图像特征进行器械分类,得到器械分类的预测结果;
25、在所述功能模块为目标对象检测单元时,对时序相关的所述二维图像特征进行目标对象检测,得到目标对象的预测结果。
26、在其中的一些实施例中,所述方法还包括:
27、对所述第一网络模型的所述功能模块进行微调;
28、对微调后的所述第一网络模型进行预训练,得到所述动作分类网络模型、所述器械分类网络模型以及所述目标对象检测网络模型。
29、在其中的一些实施例中,所述2/3d时序相关卷积模块的处理过程为:
30、对与每一帧所述视频关键图像对应的特征图维度进行卷积操作,得到对应的第一特征图;
31、对每个所述第一特征图进行形状变换,得到第二特征图q、第二特征图k以及第二特征图v;
32、将相邻两帧所述第一特征图对应的所述第二特征图q和所述第二特征图k进行矩阵乘法,并利用softmax,确定归一化的注意力权重系数;
33、将所述注意力权重系数作用到所述第二特征图v上,得到第一矩阵;并对所有的所述第一矩阵进行拼接级联,得到第二矩阵;
34、基于所述第二矩阵,确定第三矩阵;再基于所述第三矩阵,确定时序相关的二维图像特征。
35、第二个方面,在本实施例中提供了一种视频摘要生成装置,包括:获取模块、预测模块以及生成模块;
36、所述获取模块,用于获取视频数据中对应关键部位特征和关键动作特征的多帧视频关键图像;所述视频关键图像为三维图像特征;
37、所述预测模块,用于将所述视频关键图像分别输入到多个预训练的第一网络模型,得到对应的预测结果;利用所述第一网络模型,从多帧所述视频关键图像中同时提取出时空信息,并将每帧所述视频关键图像转换成时序相关的二维图像特征;所述第一网络模型分为动作分类网络模型、器械分类网络模型以及目标对象检测网络模型;
38、所述生成模块,用于将多个所述预测结果进行组合,得到所述视频数据的视频摘要。
39、第三个方面,在本实施例中提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的视频摘要生成方法。
40、第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的视频摘要生成方法。
41、与相关技术相比,在本实施例中提供的视频摘要生成方法、装置、计算机设备和存储介质,通过获取视频数据中对应关键部位特征和关键动作特征的多帧视频关键图像;视频关键图像为三维图像特征;将视频关键图像分别输入到多个预训练的第一网络模型,得到对应的预测结果;利用第一网络模型,从多帧视频关键图像中同时提取出时空信息,并将每帧视频关键图像转换成时序相关的二维图像特征;第一网络模型分为动作分类网络模型、器械分类网络模型以及目标对象检测网络模型;将多个预测结果进行组合,得到视频数据的视频摘要,解决了相关技术中阶段识别的准确性低的问题,利用时序相关的二维图像特征和时空信息,可以有效捕捉视频数据中的不同帧或视频数据中不同帧的不同位置中各个元素间的依赖关系,以提供不同帧视频关键图像的互补信息,进而提高阶段识别的准确性。
42、本技术的一个或多个实施例的细节在以下附图和描述中提出,以使本技术的其他特征、目的和优点更加简明易懂。