人体骨架侦测的方法及装置与流程

文档序号:30611286发布日期:2022-07-01 23:43阅读:122来源:国知局
人体骨架侦测的方法及装置与流程

1.本揭露是有关于一种人体骨架侦测的方法及装置,且特别是有关于一种使用移动向量辅助的人体骨架侦测的方法及装置。


背景技术:

2.随着商用规格边缘运算装置的日渐普及以及5g网络的导入,使用深度学习技术进行智能影像分析的应用已逐渐落实在日常生活中。而人体行为识别是智能娱乐、智能监控、人机互动等诸多应用的基础技术。由于受光照条件各异、视角多样性、背景复杂、类内变化大等诸多因素的影响,因此行为识别是一项具有挑战性的任务。
3.行为识别的研究可以追溯到1973年。当时johansson通过实验观察发现,人体的运动可以透过一些主要关节点的移动来描述。因此,只要10至12个关键节点的组合与追踪便能描述诸多行为例如跳舞、走路、跑步等动作。因此,可以透过人体关键节点的运动来识别行为。
4.基于骨架的动作识别(skeleton-based action recognition)与基于rgb影像相比,骨架讯息具有特征明确简单、不易受外观因素影响的优点。基于骨架的动作识别的基础须先进行骨架侦测(pose estimation)。从图片或影像序列中提取骨架的开源软件较有名的有openpose、alphapose等。然而,上述开源软件有运算量极大及运算效率低落的问题。
5.因此,需要一种人体骨架侦测的方法及装置,以改善上述问题。


技术实现要素:

6.以下揭露的内容仅为示例性的,且不意指以任何方式加以限制。除所述说明方面、实施方式和特征之外,透过参照附图和下述具体实施方式,其他方面、实施方式和特征也将显而易见。即,以下揭露的内容被提供以介绍概念、重点、益处及本文所描述新颖且非显而易见的技术优势。所选择,非所有的,实施例将进一步详细描述如下。因此,以下揭露的内容并不意旨在所要求保护主题的必要特征,也不意旨在决定所要求保护主题的范围中使用。
7.因此,本揭露的主要目的即在于提供一种人体骨架侦测的方法及装置,以改善上述缺点。
8.本揭露提出一种人体骨架侦测的方法,包括:接收一影片帧,其中所述影片帧是包括一人体;判断所述影片帧是否包括一预测信息;当所述影片帧包括所述预测信息时,判断所述影片帧中包括所述人体的一目标区域的一第一帧内压缩区块(intra coded mb,imb)比例是否大于一第一阈值;以及当所述目标区域的所述第一帧内压缩区块比例不大于所述第一阈值时,使用一移动向量(motion vector,mv)估测所述人体的一骨架信息。
9.在一实施例中,当所述影片帧为一预测帧时,判断所述影片帧包括一预测信息。
10.在一实施例中,所述方法还包括:当所述目标区域的所述第一帧内压缩区块比例大于等于所述第一阈值时,使用一骨架侦测演算法取得所述骨架信息。
11.在一实施例中,当所述影片帧包括所述预测信息时,所述方法还包括:判断所述影
片帧的一第二帧内压缩区块比例是否大于一第二阈值;以及当所述影片帧的所述第二帧内压缩区块不大于所述第二阈值时,判断所述目标区域的所述第一帧内压缩区块比例是否大于所述第一阈值。
12.在一实施例中,所述第二帧内压缩区块比例imbp
frame
为以下公式表示:
13.imbp
frame
=100%-pmbp
frame
14.其中pmbp
frame
为一第二预测帧压缩区块(prediction mb,pmb)比例,且所述第二预测帧压缩区块比例为以下公式表示:
15.pmbp
frame
=pmb_area/pixelnumbyframe*100%
16.其中pmb_area为所述第二预测帧压缩区块的一像素数量,pixelnumbyframe为所述影片帧所包括的一像素数量。
17.在一实施例中,所述第一帧内压缩区块比例imbp
bbox
为以下公式表示:
18.imbp
bbox
=100%-pmbp
bbox
19.其中pmbp
bbox
为一第一预测帧压缩区块(prediction mb,pmb)比例,且所述第一预测帧压缩区块比例为以下公式表示:
20.pmbp
bbox
=pmb_area/pixelnumbybbox*100%
21.其中pmb_area为在所述目标区域内所述第一预测帧压缩区块的一像素数量,pixelnumbyframe为所述目标区域所包括的一像素数量。
22.在一实施例中,所述方法还包括:当所述影片帧不包括所述预测信息时,使用一骨架侦测演算法取得所述骨架信息
23.在一实施例中,所述骨架侦测演算法是openpose或alphapose。
24.在一实施例中,所述移动向量是由一动作预测(motion estimation)过程中所产生。
25.本揭露提出一种人体骨架侦测的装置,包括:一或多个处理器;以及一或多个计算机储存媒体,储存计算机可读取指令,其中所述处理器使用所述计算机储存媒体以执行:接收一影片帧,其中所述影片帧包括一人体;判断所述影片帧是否包括一预测信息;当所述影片帧包括所述预测信息时,判断所述影片帧中包括所述人体的一目标区域的一第一帧内压缩区块(intra coded mb,imb)比例是否大于一第一阈值;以及当所述目标区域的所述第一帧内压缩区块比例不大于所述第一阈值时,使用一移动向量(motion vector,mv)估测所述人体的一骨架信息。
附图说明
26.图1是显示根据本发明一实施例所述的使用一人体骨架侦测的系统的环境示意图;
27.图2是显示根据本揭露一实施例所述的人体骨架侦测的方法的流程图;
28.图3是显示根据本揭露一实施例所述的人体骨架侦测的方法的流程图;
29.图4是显示根据本揭露一实施例所述的在影片帧中人体的目标区域示意图;
30.图5是显示根据本揭露一实施例所述的包括第二预测帧压缩区块及第二帧内压缩区块的一影片帧的示意图;
31.图6是显示根据本揭露一实施例的第二阈值与影片运算效率的实验数据表格;
32.图7是显示根据本揭露一实施例的第一阈值与影片运算效率的实验数据表格;
33.图8是显示用以实现本发明实施例的示例性操作环境。
34.【符号说明】
35.100:系统
36.110:电子装置
37.120:摄影机
38.130:使用者
39.200:方法
40.s205,s210,s215,s220,s225:步骤
41.300:方法
42.s305:步骤
43.400:影片帧
44.410:人体
45.420:目标区域
46.510:影片帧
47.520:影片帧
48.600:表格
49.700:表格
50.800:计算装置
51.810:总线
52.812:记忆体
53.814:处理器
54.816:显示元件
55.818:i/o端口
56.820:i/o元件
57.822:电源供应器
具体实施方式
58.在下文中将参考附图对本揭露的各方面进行更充分的描述。然而,本揭露可以具体化成许多不同形式且不应解释为局限于贯穿本揭露所呈现的任何特定结构或功能。相反地,提供这些方面将使得本揭露周全且完整,并且本揭露将给本领域技术人员充分地传达本揭露的范围。基于本文所教导的内容,本领域的技术人员应意识到,无论是单独还是结合本揭露的任何其它方面实现本文所揭露的任何方面,本揭露的范围旨在涵盖本文中所揭露的任何方面。例如,可以使用本文所提出任意数量的装置或者执行方法来实现。另外,除了本文所提出本揭露的多个方面之外,本揭露的范围还旨在涵盖使用其它结构、功能或结构和功能来实现的装置或方法。应可理解,其可透过权利要求的一或多个元件具体化本文所揭露的任何方面。
59.词语“示例性”在本文中用于表示“用作示例、实例或说明”。本揭露的任何方面或本文描述为“示例性”的设计不一定被解释为优选于或优于本揭露或设计的其他方面。此
外,相同的数字在所有若干图示中指示相同的元件,且除非在描述中另有指定,冠词“一”和“上述”包含复数的参考。
60.可以理解,当元件被称为被“连接”或“耦接”至另一元件时,该元件可被直接地连接到或耦接至另一元件或者可存在中间元件。相反地,当该元件被称为被“直接连接”或“直接耦接”至到另一元件时,则不存在中间元件。用于描述元件之间的关系的其他词语应以类似方式被解释(例如,“在

之间”与“直接在

之间”、“相邻”与“直接相邻”等方式)。
61.图1是显示根据本发明一实施例所述的使用一人体骨架侦测的系统100的环境示意图。人体骨架侦测的系统100是包括一电子装置110及摄影机120,其中电子装置100是透过实体架设的一或多个摄影机120来拍摄使用者130。
62.电子装置110可从各种来源接收影片帧。举例来说,电子装置110可接收摄影机120所传送的影片帧,或由云端下载影片帧。
63.电子装置110的类型范围从小型手持装置(例如,移动电话/可携式计算机)到大型主机系统(例如大型计算机)。可携式计算机的示例包括个人数字助理(pda)、笔记型计算机等装置。电子装置110可使用网络连接至摄影机120。网络可包括但不局限于一或多个区域网(local area network,lan)和/或广域网络(wide area network,wan)。
64.应可理解,图1所示的电子装置110是一人体骨架侦测系统100架构的示例。图1所示的每个元件可经由任何类型的计算装置来实现,像是参考图8描述的计算装置800,如图8所示。
65.图2是显示根据本揭露一实施例所述的人体骨架侦测的方法200的流程图。此方法可执行于如图1所示的人体骨架侦测系统的电子装置110中。
66.在步骤s205中,电子装置接收一影片帧,其中上述影片帧包括一人体。接着,在步骤s210中,电子装置判断上述影片帧是否包括一预测信息。在一实施例中,当上述影片帧为一预测帧(predictive picture,p-picture)时,电子装置判断上述影片帧包括一预测信息。
67.再来,当上述影片帧包括上述预测信息时(步骤s210中的“是”),在步骤s215中,电子装置判断上述影片帧中包括上述人体的一目标区域的一第一帧内压缩区块(intra coded mb,imb)比例是否大于一第一阈值。
68.当上述影片帧中包括上述人体的目标区域的第一帧内压缩区块比例不大于第一阈值时(步骤s215中的“否”),在步骤s220中,电子装置使用一移动向量估测上述人体的一骨架信息,其中上述移动向量是由一动作预测(motion estimation)过程中所产生。
69.回到步骤s210,当上述影片帧不包括上述预测信息时(步骤s210中的“否”),在步骤s225中,电子装置使用一骨架侦测演算法取得上述骨架信息,其中上述骨架侦测演算法是openpose、alphapose等演算法。在一实施例中,当上述影片帧是为一帧内帧(intra picture,i-picture)时,电子装置判断上述影片帧不包括一预测信息。换言之,上述影片帧为一帧内帧是表示此影片帧并无移动向量(motion vector,mv)信息。
70.当上述影片帧中包括上述人体的目标区域的第一帧内压缩区块比例大于第一阈值时(步骤s215中的“是”),在步骤s225中,电子装置使用一骨架侦测演算法取得上述骨架信息,其中上述骨架侦测演算法是openpose、alphapose等演算法。
71.图3是显示根据本揭露一实施例所述的人体骨架侦测的方法300的流程图。此方法
可执行于如图1所示的人体骨架侦测系统的电子装置110中。
72.与图2不同的是,当电子装置判断上述影片帧包括上述预测信息之后(步骤s210中的“是”),电子装置可更进一步在步骤s305中判断上述影片帧的一第二帧内压缩区块比例是否大于一第二阈值。
73.当上述影片帧的第二帧内压缩区块比例不大于第二阈值时(步骤s305中的“否”),在步骤s215中,电子装置判断上述影片帧中包括上述人体的目标区域的第一帧内压缩区块比例是否大于一第一阈值。
74.当上述影片帧的第二帧内压缩区块比例大于第二阈值时(步骤s305中的“是”),在步骤s225中,电子装置使用一骨架侦测演算法取得上述骨架信息,其中上述骨架侦测演算法是openpose、alphapose等演算法。
75.须注意的是。和图2中相同名称的步骤,其步骤亦如前所述,在此不再赘述。
76.下方将详细说明电子装置如何在图2步骤s215中及图3步骤s305中分别判断上述影片帧中包括上述人体的目标区域的第一帧内压缩区块比例是否大于一第一阈值以及判断上述影片帧的一第二帧内压缩区块比例是否大于一第二阈值。
77.图4是显示根据本揭露一实施例所述的在影片帧中人体的目标区域示意图。电子装置可取得在影片帧400中包括一人体410的目标区域420,并计算在目标区域420内所包括的一像素数量pixelnumbyframe及第一预测帧压缩区块(prediction mb,pmb)的一像素数量pmb_area。而第一预测帧压缩区块比例pmbpbbox可以以下公式表示:
78.pmbpbbox=pmb_area/pixelnumbybbox*100%
79.而第一帧内压缩区块(intra coded mb,imb)比例imbpbbox可以以下公式表示:
80.imbpbbox=100%-pmbpbbox
81.如图所示,灰色区域是为第一预测帧压缩区块(pmb),其余灰色区域之外的区块即为第一帧内压缩区块(imb)。假设目标区域420是由84(7
×
12)个方格所组成,每个方格的长跟宽各为16像素。而灰色区域所包括的像素数量pmb_area是为78
×
16
×
16。目标区域420所包括的像素数量pixelnumbybbox是为84
×
16
×
16。因此,pmbpbbox=(78
×
16
×
16)/(84
×
16
×
16)*100%(约92.86%),而第一帧内压缩区块比例imbpbbox则约为7.14%。
82.图5是显示根据本揭露一实施例所述的包括第二预测帧压缩区块及第二帧内压缩区块的一影片帧的示意图。假设一影片帧中是具有四个宏区块(macroblock),其中每一宏区块大小是为16
×
16像素。
83.电子装置可计算在影片帧中第二预测帧压缩区块的一像素数量pmb_area,以及影片帧所包括的一像素数量pixelnumbyframe。第二预测帧压缩区块比例pmbpframe可以以下公式表示:
84.pmbpframe=pmb_area/pixelnumbyframe*100%
85.而第二帧内压缩区块比例imbpframe可以以下公式表示:
86.imbpframe=100%-pmbpframe
87.如图所示,在影片帧510中,第二预测帧压缩区块的像素数量pmb_area是为512(16
×
16
×
2),而影片帧510所包括的像素数量pixelnumbyframe是为1024(16
×
16
×
4)。因此,pmbpframe=512/1024*100%(50%),而第二帧内压缩区块比例imbpframe则为100%-50%=50%。
88.再举一例子说明,在影片帧520中,第二预测帧压缩区块的像素数量pmb_area是为256(16
×
16
×
1),而影片帧520所包括的像素数量pixelnumbyframe是为1024(16
×
16
×
4)。因此,pmbpframe=256/1024*100%(25%),而第二帧内压缩区块比例imbpframe则为100%-25%=75%。
89.图6是显示根据本揭露一实施例的第二阈值与影片运算效率的实验数据表格600。表格600是表示电子装置采用不同第二阀值处理同一影片的误差距离及处理速度。如表格600所示,第二阈值β为-1的情况表示电子装置仅使用骨架侦测演算法(openpose)取得一影片中的骨架信息。而表格600明显示出当第二阈值β为15的情况下,电子装置可在一可接受的侦测误差内,提升约8倍(118.28/14.38=8.2)的处理速度。换言之,电子装置在第二阈值β为15的情况下使用移动向量辅助侦测骨架信息可有效减少取得骨架信息的运算量。
90.图7是显示根据本揭露一实施例的第一阈值与影片运算效率的实验数据表格700。表格700是表示电子装置采用不同第一阀值处理同一影片的误差距离及处理速度。如表格700所示,第一阈值α为-1的情况表示电子装置仅使用骨架侦测演算法(openpose)取得一影片中的骨架信息。表格700明显示出当第一阈值α为20的情况下,电子装置可在一可接受的侦测误差内,提升约6倍(137.36/23.57=5.8)的处理速度。换言之,电子装置在第一阈值α为20的情况下使用移动向量辅助侦测骨架信息可有效减少取得骨架信息的运算量。
91.须注意的是,第二阈值β及第一阈值α的最佳值将会随不同影片改变,上述第二阈值β及第一阈值α并不用以限定本揭露,所属技术领域中具有通常知识者得以根据本实施例作适当更换或调整。
92.如表格600及700所示,影片帧的第二帧内压缩区块比例大于第二阈值β则表示此影片帧所包含的移动向量数量较少,故影片帧之间的画面有较大的变化,例如:影片中光影的变化或是录制影片时画面缩放等。在此情况下,电子装置将使用骨架侦测演算法,以适时修正人体骨架节点的坐标位置。当此影片帧的第二帧内压缩区块比例没有大于第二阈值β时,电子装置可依据此影片帧中包括人体的目标区域内第一帧内压缩区块比例判断是否使用移动向量来估测人体的骨架信息。
93.而此影片帧的第一帧内压缩区块比例大于第一阈值α则代表该人体的目标区域内包含的动态向量数量较少(即,人体的肢体动作有较大的变化)。因此,电子装置将使用骨架侦测演算法取得上述骨架信息,以避免因骨架节点附近的动态向量数量不足导致骨架节点无法正确更新的问题。
94.而当影片帧的一第二帧内压缩区块比例不大于一第二阈值且影片帧中包括人体的一目标区域的第一帧内压缩区块比例不大于第一阈值α时,电子装置则可透过人体的骨架节点周围的移动向量群估测骨架节点的位置,以降低使用骨架侦测演算法的次数,并提高运算效率及降低运算成本。
95.如上所述,本揭露的人体骨架侦测的方法及装置是使用移动向量辅助侦测人体骨架。此方法及装置可达到降低使用一骨架侦测演算法的次数,提高运算效率、增加处理影像串流数量以及降低运算成本的目的。
96.对于本发明已描述的实施例,下文描述了可以实现本发明实施例的示例性操作环境。具体参考图8,图8是显示用以实现本发明实施例的示例性操作环境,一般可被视为计算装置800。计算装置800仅为一合适计算环境的一个示例,并不意图暗示对本发明使用或功
能范围的任何限制。计算装置800也不应被解释为具有与所示元件任一或组合相关任何的依赖性或要求。
97.本发明可在计算机程序码或机器可使用指令来执行本发明,指令可为程序模块的计算机可执行指令,其程序模块由计算机或其它机器,例如个人数字助理或其它可携式装置执行。一般而言,程序模块包括例程、程序、物件、元件、数据结构等,程序模块指的是执行特定任务或实现特定抽象数据类型的程序码。本发明可在各种系统组态中实现,包括可携式装置、消费者电子产品、通用计算机、更专业的计算装置等。本发明还可在分散式运算环境中实现,处理由通讯网络所连结的装置。
98.参考图8。计算装置800包括直接或间接耦接以下装置的总线810、记忆体812、一或多个处理器814、一或多个显示元件816、输入/输出(i/o)端口818、输入/输出(i/o)元件820以及电源供应器822。总线810表示可为一或多个总线的元件(例如,地址总线、数据总线或其组合)。虽然图8的各个方块为简要起见以线示出,实际上,各个元件的分界并不是具体的,例如,可将显示装置的呈现元件视为i/o元件;处理器可具有记忆体。
99.计算装置800一般包括各种计算机可读取媒体。计算机可读取媒体可以是可被计算装800存取的任何可用媒体,该媒体同时包括易挥发性和非易挥发性媒体、可移动和不可移动媒体。举例但不局限于,计算机可读取媒体可包括计算机储存媒体和通讯媒体。计算机可读取媒体同时包括在用于储存像是计算机可读取指令、数据结构、程序模块或其它数据之类信息的任何方法或技术中实现的易挥发性性和非易挥发性媒体、可移动和不可移动媒体。计算机储存媒体包括但不局限于(random access memory,ram)、只读记忆体(read-only memory,rom)、电子抹除式可复写只读记忆体(electrically-erasable programmable read-only memory,eeprom)、快闪记忆体或其它记忆体技术、cd-rom、数字多功能光盘(dvd)或其它光盘储存装置、磁片、磁盘、磁片储存装置或其它磁储存装置,或可用于储存所需的信息并且可被计算装置800存取的其它任何媒体。计算机储存媒体本身不包括信号。
100.通讯媒体一般包含计算机可读取指令、数据结构、程序模块或其它采用诸如载波或其他传输机制之类的模块化数据信号形式的数据,并包括任何信息传递媒体。术语“模块化数据信号”是指具有一或多个特征集合或以在信号中编码信息的一方式更改的信号。举例但不局限于,通讯媒体包括像是有线网络或直接有线连接的有线媒体及无线媒体,像是声频、射频、红外线以及其它无线媒体。上述媒体的组合包括在计算机可读取媒体的范围内。
101.记忆体812包括以易挥发性和非易挥发性记忆体形式的计算机储存媒体。记忆体可为可移动、不移动或可以为这两种的组合。示例性硬件装置包括固态记忆体、硬盘驱动器、光盘驱动器等。计算装置800包括一或多个处理器,其读取来自像是记忆体812或i/o元件820各实体的数据。显示元件816向使用者或其它装置显示数据指示。示例性显示元件包括显示装置、扬声器、列印元件、振动元件等。
102.i/o端口818允许计算装置800逻辑连接到包括i/o元件820的其它装置,一些此种装置为内建装置。示例性元件包括麦克风、摇杆、游戏台、碟形卫星信号接收器、扫描器、印表机、无线装置等。i/o元件820可提供一自然使用者界面,用于处理使用者生成的姿势、声音或其它生理输入。在一些例子中,这些输入可被传送到一合适的网络元件以便进一步处
理。计算装置800可装备有深度照相机,像是立体照相机系统、红外线照相机系统、rgb照相机系统和这些系统的组合,以侦测与识别物件。此外,计算装置800可以装备有感测器(例如:雷达、光达)周期性地感测周遭一感测范围内的邻近环境,产生表示自身与周遭环境关联的感测器信息。再者,计算装置800可以装备有侦测运动的加速度计或陀螺仪。加速度计或陀螺仪的输出可被提供给计算装置800显示。
103.此外,计算装置800中的处理器814也可执行记忆体812中的程序及指令以呈现上述实施例所述的动作和步骤,或其它在说明书中内容的描述。
104.在此所揭露程序的任何具体顺序或分层的步骤纯为一举例的方式。基于设计上的偏好,必须了解到程序上的任何具体顺序或分层的步骤可在此文件所揭露的范围内被重新安排。伴随的方法权利要求以一示例顺序呈现出各种步骤的元件,也因此不应被此所展示的特定顺序或阶层所限制。
105.权利要求书中用以修饰元件的“第一”、“第二”、“第三”等序数词的使用本身未暗示任何优先权、优先次序、各元件之间的先后次序、或方法所执行的步骤的次序,而仅用作标识来区分具有相同名称(具有不同序数词)的不同元件。
106.虽然本揭露已以实施范例揭露如上,然其并非用以限定本案,任何熟悉此项技艺者,在不脱离本揭露的精神和范围内,当可做些许更动与润饰,因此本案的保护范围当视所附的权利要求书所界定者的范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1