一种微动作时间学参数获取方法、装置及介质

文档序号:35712580发布日期:2023-10-12 14:57阅读:67来源:国知局
一种微动作时间学参数获取方法、装置及介质

本发明涉及医疗视频理解与识别领域,尤其涉及一种微动作时间学参数获取方法、装置及介质。


背景技术:

1、医疗视频的内容理解在现实生活中有广泛的应用场景和重要的应用价值。这些视频包括用于辅助诊断和评估的特殊造影视频,用于康复医疗行为评估的视频,以及作为示教材料的手术视频等。吞咽造影作为评估吞咽功能、诊断吞咽障碍的重要检查手段,目前可大致分为定性分析、半定量分析与定量分析三种。其中吞咽造影时间学参数是定量分析的重要指标之一,主要通过分析吞咽器官运动轨迹并准确测量吞咽过程的相关时间学参数。

2、然而,由于缺乏有效针对性分析技术,目前吞咽造影视频辅助诊断还主要依靠医生人工逐帧观察和定性分析,既耗时费力,又难以保证客观性和准确性。此外吞咽造影微动作识别是一个细粒度的动作识别任务,器官运动作幅度小且动作之间都有一定的重叠,难以分辨,此外每个吞咽动作时长短(动作本身时长占整个视频中占比小)且动作长短不一。

3、综上所述,如何利用视频理解中的时序动作定位技术,对吞咽造影视频进行时序上的自动定位,获取吞咽过程中各个微动作的时序信息,实现时间学参数的自动测量,以实现吞咽造影智能定量分析。是当前该领域技术人员急需解决的问题。


技术实现思路

1、为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种微动作时间学参数获取方法、装置及介质。

2、本发明所采用的技术方案是:

3、一种微动作时间学参数获取方法,包括以下步骤:

4、获取吞咽造影视频数据;

5、根据吞咽造影视频数据提取视频特征;所述视频特征包括rgb特征以及光流特征;

6、将提取到的视频特征输入可变窗口大小的注意力机制,进行特征增强处理,输出视觉增强特征;

7、将视觉增强特征输入由粗到细两阶段微动作定位网络,输出吞咽造影微动作定位和识别的结果。

8、进一步地,所述获取吞咽造影视频数据,包括:

9、对获取到的吞咽造影视频数据进行数据清洗,采用预设的滑动窗口,从吞咽造影视频数据中截取视频片段;

10、若视频片段中包含至少一个完整的吞咽过程,将该视频片段保存为有效的数据集文件;反之,丢弃该视频片段。

11、进一步地,所述根据吞咽造影视频数据提取视频特征,包括:

12、采用13d模型作为视频特征提取器,根据吞咽造影视频数据提取视频特征v;

13、其中,13d模型在图像分类模型的基础上,将2d卷积膨胀到3d卷积,并从rgb以及光流信息中分两个特征流提取时空特征。

14、进一步地,所述将提取到的视频特征输入可变窗口大小的注意力机制,进行特征增强处理,输出视觉增强特征,包括:

15、对于提取到的每一个视频特征帧,用一个预设大小的窗口截取该视频特征帧邻近的片段特征,将视频特征帧的特征和邻近片段的特征作为键值对k、v,将邻近特征作为查询q,用注意力函数做一次映射,得到用局部特征增强后的视频特征fl;计算公式如下:

16、

17、通过局部的时序自注意力编码lte获取用邻近特征增强后的特征,计算过程如下:

18、

19、式中,fi为视频特征中第i个特征帧的特征,fw为第i个特征帧对应邻近窗口片段特征,fil为用邻近特征增强后第i个特征帧的特征,γl、ρl和均为可学习的线性映射函数;

20、通过全局的时序自注意力编码gte获取用全局特征增强后的特征,计算过程如下:

21、

22、式中,fv为整个视频的特征,fig为用全局特征增强后第i个特征帧的特征,γg、ρg和均为可学习的线性映射函数;

23、通过局部-全局时序特征编码lgte将由lte和gte增强后的特征连接起来,获得用局部特征和全局特征增强后的视觉增强特征fv。

24、进一步地,采用预设的可变窗口大小生成模块预测当前特征帧的窗口大小阈值thi,该可变窗口大小生成模块由一个平均池化、leakyrelu、全连接层和sigmoid组成;

25、所述可变窗口大小生成模块的表达式为:

26、thi=(w+1)//2·sigmoid(linear(leakyrelu(averagepool(fi))))

27、p=[(w-1)//2,,...,1,0,1,...,,(w-1)//2]

28、ei=thi-p

29、wiv=sigmoid(ei/t)

30、其中w为预设的最大窗口大小,thi的取值范围为[0,(w+1)//2]的窗口大小阈值,权重定位的序列wiv;p为绝对位置编码,ei用来表示窗口范围内每个位置是否在预测的窗口大小阈值内;t表示sigmoid函数的控制参数,采用sigmoid函数对ei进行阈值化,最终得到权重序列wiv,其中t其值越小,wiv的编码越接近one-hot编码。

31、进一步地,所述微动作定位网络为a2net模型;

32、所述将视觉增强特征输入由粗到细两阶段微动作定位网络,输出吞咽造影微动作定位和识别的结果,包括:

33、对于输入的视觉增强特征fv,a2net模型先采用一个卷积模块处理;其中卷积模块由两个卷积层和一个池化层组成;a2net模型同时对无锚定框模块和有锚定框模块进行预测,无锚定框模块生成分类损失和回归损失,有锚定框模块生成分类损失、重叠损失和回归损失;将无锚定框模块和锚定框模块的动作定位结果合并在一起,通过非极大值抑制算法获得最终的定位结果。

34、进一步地,所述微动作时间学参数获取方法还包括以下步骤:

35、对于在制作完成后的数据集中进行评估,将定位出来的候选框按照置信度评分排名,取前n名来计算最终的map;其中ap为每个动作类别的评估指标,map是多个类的ap的平均结果;n为正整数。

36、进一步地,评估指标ap的计算方法如下:

37、根据定位出的锚定框,计算出各个锚定框与所有真实值的重叠率,将重叠率大于特定阈值的锚定框视为正样本tp,将不能达到该阈值的锚定框视为负样本fp,将所有锚定框按照置信度大小排序从高到低排序,统计前n名的正样本数量和负样本数量,计算出召回率recall和查准率precision:

38、recall=tp/(tp+fn)

39、precision=tp/(tp+fp)

40、以召回率为横轴,以查准率为纵轴,得到recall-precision曲线;计算recall-precision曲线与横轴以及纵轴间的面积,作为ap的计算结果。

41、本发明所采用的另一技术方案是:

42、一种微动作时间学参数获取装置,包括:

43、至少一个处理器;

44、至少一个存储器,用于存储至少一个程序;

45、当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述方法。

46、本发明所采用的另一技术方案是:

47、一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

48、本发明的有益效果是:本发明通过利用视频理解中的时序动作定位技术,实现对吞咽造影视频进行时序上的自动定位,获取吞咽过程中各微动作的时序信息,为实现吞咽造影智能定量分析,提供可靠的依据。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1