本技术涉及计算机,提供一种基于手术过程中录制的视频识别手术阶段的方法及设备。
背景技术:
1、通常的,手术流程较为复杂。随着人工智能(artificial intelligence,ai)和深度学习(deep learning,dp)技术的发展,从手术视频中自动识别手术流程全面助力外科手术,已成为智能医疗的一个研究热点。
2、目前,基于手术视频自动识别当前手术流程时,主要有两种方式:一种是采用深度学习模型对当前视频帧进行特征分类,从而确定手术流程;另一种是根据短时间内视频帧间的依赖关系,采用深度学习模型确定手术流程。然而,手术是一个长时间的过程,且手术流程也不是简单的顺序执行,可能会反复穿插,因此,如果只考虑当前视频帧的特征或者短时间内的视频帧间的特征依赖,难以从手势视频中准确识别出手术流程。
技术实现思路
1、本技术实施例提供了一种基于手术过程中录制的视频识别手术阶段的方法及设备,用于提高视频流中手术流程识别的准确性。
2、一方面,本技术实施例提供一种基于手术过程中录制的视频识别手术阶段的方法,包括:
3、获取手术过程中录制的目标手术视频;
4、针对所述目标视频的每一视频帧,分别执行以下操作:
5、采用不同的特征提取模型分别对所述视频帧进行特征提取,得到多个尺度的视频特征,其中,每个尺度的视频特征的维度相同,不同尺度的视频特征包含空域子特征和时域子特征中的至少一种,且不同尺度的视频特征中同一种类别的子特征之间相互增强;
6、根据每个尺度的视频特征对手术阶段的影响权重,对所述多个尺度的视频特征进行融合,得到相应尺度的目标融合特征,其中,所述影响权重与每个尺度的视频特征对应的时长呈负相关;
7、根据多个尺度的目标融合特征和最大尺度的视频特征,确定所述视频帧对应的手术阶段类别;
8、根据手术阶段的时序连续性,剔除所述各视频帧中的异常帧;
9、根据剔除后剩余视频帧对应的手术阶段类别,对所述目标手术视频进行标注。
10、另一方面,本技术实施例提供一种电子设备,包括处理器、存储器和显示屏,所述存储器、所述显示屏和所述处理器通过总线连接;
11、所述显示屏用于显示手术视频帧;
12、所述存储器存储有计算机程序,所述处理器根据所述计算机程序,执行以下操作:
13、获取手术过程中录制的目标手术视频;
14、针对所述目标视频的每一视频帧,分别执行以下操作:
15、采用不同的特征提取模型分别对所述视频帧进行特征提取,得到多个尺度的视频特征,其中,每个尺度的视频特征的维度相同,不同尺度的视频特征包含空域子特征和时域子特征中的至少一种,且不同尺度的视频特征中同一种类别的子特征之间相互增强;
16、根据每个尺度的视频特征对手术阶段的影响权重,对所述多个尺度的视频特征进行融合,得到相应尺度的目标融合特征,其中,所述影响权重与每个尺度的视频特征对应的时长呈负相关;
17、根据多个尺度的目标融合特征和最大尺度的视频特征,确定所述视频帧对应的手术阶段类别;
18、根据手术阶段的时序连续性,剔除所述各视频帧中的异常帧;
19、根据剔除后剩余视频帧对应的手术阶段类别,对所述目标手术视频进行标注。
20、可选的,所述处理器采用不同的特征提取模型分别对所述视频帧进行特征提取,得到多个尺度的视频特征,具体操作为:
21、采用第一特征提取模型,提取第一尺度的第一视频特征,所述第一视频特征包含所述视频帧的第一空域特征;
22、采用第二特征提取模型中的第一子网络,提取第二尺度的第一空域子特征,以及,采用所述第二特征提取模型中的第二子网络,记录第一时段内所述视频帧与其他连续视频帧间的第一时域子特征,并根据所述第一空域子特征和所述第一时域子特征,生成所述视第二尺度的第二视频特征;
23、采用第三特征提取模型中的第一子网络,提取至少一个尺度的第二空域子特征,以及,采用所述第三特征提取模型中的第三子网络,记录第二时段内所述视频帧与其他连续视频帧间的第二时域子特征,并根据每个尺度的所述第二空域子特征和所述第二时域子特征,生成相应尺度的第三视频特征;其中,每个第二时域子特征用于增强所述第一时域子特征,所述第二时段大于所述第一时段,所述第一空域特征用于增强所述第一空域子特征和所述第二空域子特征。
24、可选的,所述处理器根据每个尺度的视频特征对手术阶段的影响权重,对所述多个尺度的视频特征进行融合,得到相应尺度的目标融合特征,具体操作为:
25、针对多个尺度的视频特征中尺度大小相邻的两个视频特征,分别执行以下操作:
26、将所述两个视频特征中每一类别的子特征的维度调整为相同后,按照相应的影响权重进行融合,得到相应类别的初始融合特征;
27、将各类别的初始融合特征进行拼接,得到相应尺度的目标融合特征。
28、可选的,所述处理器根据手术阶段的时序连续性,剔除所述各视频帧中的异常帧,具体操作为:
29、按照所述各视频帧的时间顺序,对各手术阶段类别进行排序;
30、采用预设大小的滤波块对排序后的各手术阶段类别进行均值滤波;
31、确定均值滤波后的连续k张视频帧对应的手术阶段类别是否相同,k>1;
32、若不相同,则剔除异常手术阶段类别对应的视频帧。
33、可选的,所述第一特征提取模型和所述第一子网络包括resnet网络,所述第二子网络为长短时记忆网络,所述第三子网络包括时序卷积网络。
34、可选的,所述处理器根据剔除后剩余视频帧对应的手术阶段类别,对所述目标手术视频进行标注,具体操作为:
35、将所述剩余视频帧中具有相同手术阶段类别的连续视频帧,合并为一个视频段;
36、查询预先生成的手术阶段字典,将各手术阶段类别对应的标签,作为相应的视频段的标签。
37、可选的,对所述目标手术视频进行标注之后,所述处理器还执行:
38、接收基于手术阶段类别标签触发的视频段切换请求;
39、根据所述视频段切换请求,播放所述目标手术视频中的目标视频段。
40、可选的,对所述目标手术视频进行标注之后,所述处理器还执行:
41、根据当前视频段对应的手术阶段类别标签,提示下一手术阶段类别所需的医疗器械。
42、可选的,所述处理器获取目标手术视频,具体操作为:
43、获取初始手术视频,对所述初始手术视频进行降帧采样;
44、对降帧采样后的每一视频帧进行裁剪、灰度化和去噪处理,得到所述目标手术视频。
45、另一方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机设备执行本技术实施例提供的基于手术过程中录制的视频识别手术阶段的方法的步骤。
46、本技术实施例提供的一种基于手术过程中录制的视频识别手术阶段的方法及设备中,一方面,针对获取的目标手术视频中的每一视频帧,采用不同的特征提取模型分别提取了该视频帧对应的不同尺度的视频特征,由于不同尺度的视频特征包含不同类别的子特征,但每个尺度的视频特征的维度相同,因此,每个尺度的视频特征中空域子特征和时域子特征占用的维度不同,即信息丰富度不同,这样,不同尺度的视频特征中同一种类别的子特征之间可以相互增强,从而增加每一视频帧在空域上的手术特性,以及各视频帧在时域上的依赖关系,这样,根据各尺度的视频特征对手术阶段的影响权重加权后的目标融合特征进行手术阶段的识别时,能够有效提高手术阶段识别的准确性;另一方面,根据手术阶段的时序连续性,剔除了目标手术视频中的毛刺等异常视频帧,进一步提高了手术阶段识别的准确性,从而基于准确的手术阶段类别,完成目标手术视频的标注,提高后续学习、研究的便捷性。