基于贝叶斯网络的人体动作的标注方法
【技术领域】
[0001] 本发明涉及图像处理技术,特别是涉及一种基于贝叶斯网络的人体动作的标注方 法。
【背景技术】
[0002] 随着数字技术和互联网的发展,越来越多的图片被上传到网络,当用户对这些上 传的图片进行检索和利用时,需要根据图片的标注信息提取所需要的图片。通常,图片的标 注信息是将具有相同或者相近视觉特征的图片标注为相同或者相近的信息,这种标注信息 的方法只适用于包含物体的图片,并不适用于包含人体和物体的图片。
[0003] 如果对包含人体和物体的图片采用上述标注信息的方法,则需要对人体和物体分 别进行标注,而对于人体和物体之间的交互动作所表达的语义信息会被忽略,从而使许多 具有相同的人体和物体的交互动作的图片往往因为它们的视觉特征具有较大的差异性而 被分别进行标注。
【发明内容】
[0004] 本发明提供的基于贝叶斯网络的人体动作的标注方法,从而通过计算机实现对包 含人体和物体的图片中的人体和物体的交互动作进行准确地标注。
[0005] 根据本发明的一方面,提供一种基于贝叶斯网络的人体动作的标注方法,所述方 法包括:步骤S1 :设定人体和物体的交互动作的词组,根据所述词组选取所述词组对应的 图片构成第一图片数据库,所述词组包括动词和名词;步骤S2 :从所述第一图片数据库中 提取各词组对应的图片数据中的人体和物体的特征信息和空间信息,根据所述特征信息和 空间信息构建贝叶斯网络模型;步骤S3:根据所述贝叶斯网络模型对所述图片数据中的人 体和物体的交互动作中的动词进行标注。
[0006] 本发明实施例提供的基于贝叶斯网络的人体动作的标注方法,通过根据词组选取 所述词组对应的图片构成第一图片数据库,从第一图片数据库中提取各词组对应的图片数 据中的人体和物体的特征信息和空间信息,根据特征信息和空间信息构建贝叶斯网络模 型,从而通过计算机实现对包含人体和物体的图片中的人体和物体的交互动作进行准确地 标注。
【附图说明】
[0007] 图1为本发明实施例提供的基于贝叶斯网络的人体动作的标注方法的流程图;
[0008]图2为本发明实施例提供的贝叶斯网络模型示意图;
[0009] 图3为本发明实施例提供的人体与物体之间的空间位置分割示意图;
[0010] 图4为本发明实施例提供的一组图片的标注结果;
[0011] 图5为本发明实施例提供的另一组图片的标注结果。
【具体实施方式】
[0012] 本发明的总体构思是,本发明实施例提供的基于贝叶斯网络的人体动作的标注方 法,通过根据词组选取所述词组对应的图片构成第一图片数据库,从第一图片数据库中提 取各词组对应的图片数据中的人体和物体的特征信息和空间信息,根据特征信息和空间信 息构建贝叶斯网络模型,从而通过计算机实现对包含人体和物体的图片中的人体和物体的 交互动作进行准确地标注。
[0013] 下面结合附图对本发明实施例提供的基于贝叶斯网络的人体动作的标注方法进 行详细描述。
[0014] 图1为本发明实施例提供的基于贝叶斯网络的人体动作的标注方法的流程图。
[0015] 参照图1,在步骤S101,设定人体和物体的交互动作的词组,根据所述词组选取所 述词组对应的图片构成第一图片数据库,所述词组包括动词和名词。
[0016] 这里,词组是动词和名词的组合,可以是例如,但不限于,具体为"骑马"、"洗车"、 "喂狗"和"喝牛奶"等。同时,为了更好地表达出人体和物体的每个交互动作,可选择至少 两个以上的"名词",分别与对应的"动词"组合,从而形成词组,例如"骑自行车"和"骑摩托 车"等。
[0017] 根据本发明的示例性实施例,所述根据所述词组获取第一图片数据库包括:
[0018] 根据所述词组从搜索引擎中获取与所述词组对应的第二图片数据库;
[0019] 将所述第二图片数据库进行筛选,获取第一图片数据库。
[0020] 这里,为了使搜索的图片内容更加广泛,可以在搜索引擎中搜索图片时,对词组进 行一定的语义扩展,可以是例如,但不限于,具体为可以对中文词组、相同语义的英文词组、 带有主语的词组或现在进行时态的词组进行搜索。通过上述搜索方式,可以搜索到与词组 对应的图片,并且对搜索到的图片进行筛选,即将图片中不具有对应词组语义信息的图片 去除,从而得到对应词组语义信息的图片。
[0021] 在步骤S102,从所述第一图片数据库中提取各词组对应的图片数据中的人体和物 体的特征信息和空间信息,根据所述特征信息和空间信息构建贝叶斯网络模型。
[0022] 这里,人体和物体的特征信息为人体和物体之间的交互动作的各种姿态,人体和 物体的空间信息为人体和交互物体的空间位置关系。
[0023] 具体地,静止图片通常表达的是人体与物体之间的交互动作,人体在针对某个特 定的动作时,通常会使用某些大致相同的姿态与物体进行交互,从而表明当人体与物体进 行交互动作的词组中的"动词"可以与至少一个特定的人体的姿态对应,并且代表人体动作 的"动词"的语义表达同时依赖于人的姿态以及人体和所交互物体的空间位置关系。
[0024] 根据本发明的示例性实施例,所述根据所述特征信息和空间信息构建贝叶斯网络 模型包括:
[0025] 将所述特征信息和空间信息与贝叶斯网络模型中的节点相对应,并训练得到所述 贝叶斯网络模型的参数。
[0026] 贝叶斯网络模型是一种概率网络,它是基于概率推理的数学模型,所谓概率推理 是通过一些变量的信息(例如人体的动作、人体的姿态等)获取其他的概率信息的过程,其 他的概率信息可以为人体动作、物体和人体姿态之间的概率、人体姿态的概率等。
[0027] 具体地,贝叶斯网络模型的参数是指各个节点在各个状态下的概率,参照如图2 所示的本发明实施例提供的贝叶斯网络模型示意图,V为人体的动作,G为人体的姿态,0为 与人体有交互动作的物体,氏、H2、…HN为人体的各个不同的部分,M。为物体的观测状态, MhpM^、…Mm为人体各个不同部分的观测状态。将特征信息和空间信息输入贝叶斯网络模 型,可以得到P(V,G,0,氏,…,HN |Mhl,…,Mm,M。),而它可以通过各个子任务的概率信息获得, 由公式⑴可知:
【主权项】
1. 一种基于贝叶斯网络的人体动作的标注方法,其特征在于,所述方法包括: 步骤S1 :设定人体和物体的交互动作的词组,根据所述词组选取所述词组对应的图片 构成第一图片数据库,所述词组包括动词和名词; 步骤S2 :从所述第一图片数据库中提取各词组对应的图片数据中的人体和物体的特 征信息和空间信息,根据所述特征信息和空间信息构建贝叶斯网络模型; 步骤S3 :根据所述贝叶斯网络模型对所述图片数据中的人体和物体的交互动作中的 动词进行标注。
2. 根据权利要求1所述的方法,其特征在于,所述根据所述特征信息和空间信息构建 贝叶斯网络模型包括: 将所述特征信息和空间信息与贝叶斯网络模型中的节点相对应,并训练得到所述贝叶 斯网络模型的参数。
3. 根据权利要求1-2任一项所述的方法,其特征在于,所述步骤S3包括: 根据所述贝叶斯网络模型计算所述图片数据中的人体和物体的交互动作的最大概 率; 对所述最大概率对应的人体和物体的交互动作的动词进行标注。
4. 根据权利要求3所述的方法,其特征在于,所述根据所述贝叶斯网络模型计算所述 图片数据中的人体和物体的交互动作的最大概率包括: 根据下式计算所述图片数据中的人体和物体的交互动作的最大概率:
其中,V为所述人体的动作,G为所述人体的姿态,0为与所述人体有交互动作的物体,Hi、H2、…HN为所述人体的各个不同的部分,M^为所述物体的观测状态,Mhl、Mh2、…^为所 述人体各个不同部分的观测状态。
【专利摘要】本发明提供的基于贝叶斯网络的人体动作的标注方法,包括:步骤S1:设定人体和物体的交互动作的词组,根据所述词组选取所述词组对应的图片构成获取第一图片数据库,所述词组包括动词和名词;步骤S2:从所述第一图片数据库中提取各词组对应的图片数据中的人体和物体的特征信息和空间信息,根据所述特征信息和空间信息构建贝叶斯网络模型;步骤S3:根据所述贝叶斯网络模型对所述图片数据中的人体和物体的交互动作中的动词进行标注。本发明实现根据贝叶斯网络模型对图片中的人体和物体的交互动作中的动词进行准确地标注。
【IPC分类】G06F17-30
【公开号】CN104615711
【申请号】CN201510058706
【发明人】徐常胜, 孙超, 鲍秉坤
【申请人】中国科学院自动化研究所
【公开日】2015年5月13日
【申请日】2015年2月4日