基于文本-物体-场景关系的物体和场景的图像理解方法
【技术领域】
[0001] 本发明涉及一种信号处理的计算机视觉技术领域的方法,具体是一种基于文 本-物体-场景关系的物体和场景的图像理解方法。
【背景技术】
[0002] 在大数据时代,互联网上的图像数据呈现爆炸式增长,迫切需要一种能够自动提 取图像中语义信息的智能视觉系统。经过计算机视觉领域的不懈努力,目前已经在诸多关 键任务,如物体检测,场景分类,人脸识别上取得了显著的进步。然而,作为计算机视觉领域 的终极目标,图像理解仍然是一个极具挑战的问题。当面对网络上海量的图像理解,这一问 题变得更为艰巨。人们无法再像过去那样依靠精确标注的图像数据集来训练模型,因为对 包含了上千类物体的上百万图像做精确标注耗费巨大。相比传统图像数据,网络图像数据 的一个显著特点是它们往往伴随着描述性的文本,例如图像标题,关键词和发布者的说明。 这些文本提供了与图像语义高度相关的重要信息。
[0003] 经过对现有技术的文献检索发现,传统的利用文字进行图像理解的方法主要分为 三类:基于特征的方法,基于主题模型的方法和基于条件随机场的方法。基于特征的方法先 从图像和文本提取特征,然后在特征层面进行融合。Li等人在2009年ICCV会议上发表的 "Landmark classification in large-scale image collections" 论文中提出,将文本特 征和视觉特征拼接成最终的特征向量用于训练支持向量机。Wang等人在2009年CVPR会议 上发表的"Building text features for object image classification"论文中提出,将 文本特征和视觉特征分别训练分类器,然后再训练一个分类器用于融合上述两个分类器的 分类结果。基于主题模型的方法主要通过LDA方法对图像和文本联合建模。Barnard在2003 年JMLR期刊上发表的"Matching words and pictures"论文中提出利用LDA方法建立图 像和文本的联合概率分布。后来,Blei等人在2003年ACM SIGIR会议上发表的"Modeling annotated data"论文中基于文本主题和视觉主题的--对应的假设,提出了 Corr_LDA方 法。近年来流行的条件随机场也用于建模图像和文本。Fidler等人在2013年的CVPR会议 上发表的"A sentence is worth a thousand pixels"论文中提出了通过解析文本建立语 义图模型的方法对图像进行联合分割、物体检测和分类。然而该方法的主要不足在于需要 物体和文本实例的一一对应关系来训练模型,并且在预测过程中需要手动标定名词所对应 的物体。
【发明内容】
[0004] 本发明针对现有技术的不足,提供了一种基于文本-物体-场景关系的物体和场 景的图像理解方法,通过利用描述性文本,结合视觉信息和文本信息,对图像做出更有效的 理解。
[0005] 本发明是通过以下技术方案实现的:利用条件随机场建模场景、物体和文本的联 合概率密度函数,联合预测图像的场景类别和图像中存在的物体。弱监督的条件下学习出 不同域之间的关系,包括:场景-物体关系,场景-文本关系和文本-物体关系。
[0006] 本发明所述的基于文本-物体-场景关系的物体和场景的图像理解方法,对于输 入的图像-文本对,具体处理步骤如下:
[0007] 第一步:用物体检测器计算图像中各类物体存在的可能性大小,进而确定物体势 函数。
[0008] 第二步:将文本用自然语言分析工具提取其中的名词信息,确定文本节点的取值。
[0009] 第三步:用场景分析算法计算图像属于各种场景类别的概率,确定场景势函数。
[0010] 第四步:根据文本节点的值和文本与场景的关系计算场景-文本势函数。
[0011] 第五步:根据场景和物体的关系计算场景-物体势函数。
[0012] 第六步:根据物体和文本的对应关系计算文本-物体势函数。
[0013] 第六步:将上述第一步?到第五步中确定的五种势函数用条件随机场联合概率建 模,求解最大后验概率,得到物体节点和场景节点的值,即图像中存在哪些物体和图像属于 的场景类别。
[0014] 所述方法对于输入的图像-文本对,具体处理步骤如下:
[0015] 第一步:用物体检测器计算图像中各类物体存在的可能性大小,进而确定物体势 函数;
[0016] 第二步:将文本用自然语言分析工具提取其中的名词信息,确定文本节点的取 值;
[0017] 第三步:用场景分析算法计算图像属于各种场景类别的概率,确定场景势函数;
[0018] 第四步:根据文本节点的值和文本与场景的关系计算场景_文本势函数;
[0019] 第五步:根据场景和物体的关系计算场景-物体势函数;
[0020] 第六步:根据物体和文本的对应关系计算文本-物体势函数;
[0021] 第六步:将上述第一步?到第五步中确定的五种势函数用条件随机场联合概率建 模,求解最大后验概率,得到物体节点和场景节点的值,即图像中存在哪些物体和图像属于 的场景类别;
[0022] 所述用条件随机场联合概率建模,是指:每个图像-文本对用条件随机场模型建 模文本、场景和物体之间的联合概率密度分布函数,条件随机场由三种类型的节点和三种 类型的边组成;三种类型的节点分别为:场景节点、物体节点和文本节点;三种类型的边 为:场景-物体边、场景-文本边和文本-物体边。
[0023] 优选的,所述的用条件随机场联合概率建模,其中场景节点有一个,用随机变量s 表示改图像的场景类别。
[0024] 优选的,所述的场景节点的一元势函数(对应第三步得到的势函数)由一组线下 场景检测器定义,该势函数有S种可能的取值,S为场景类别的数量,每种取值为对应的场 景分类器对该类场景的判别值。
[0025] 优选的,所述的用条件随机场联合概率建模,其中物体节点有0个,其中0是物体 类别的数量,每个物体节点用随机变量z表示相应物体在图像中存在与否。
[0026] 优选的,所述的物体节点的一元势函数(对应第一步得到的势函数)由一组线下 物体检测器定义,每个物体检测器对一幅图像返回多个该物体可能存在的位置,每个位置 都伴有一个判别值指示物体存在于该位置的可能性大小,势函数取所有判别值中的最大值 一个作为图像中存在该类物体的指示。
[0027] 优选的,所述的用条件随机场联合概率建模,其中文本节点有N个,其中N是名词 类别的数量,每个文本节点用随机变量q表示相应名词在图像的文字描述中存在与否。
[0028] 优选的,所述的用条件随机场联合概率建模,其中场景-物体边:场景和物体之间 的关系用场景-物体边对应的二元势函数(对应第五步得到的势函数)表征,具体表示为 各类物体在不同场景中出现的概率。
[0029] 优选的,所述的用条件随机场联合概率建模,其中场景和文本之间的关系用场 景-文本边对应的二元势函数(对应第四步得到的势函数)表征,具体表示为各类名词在 不同场景中出现的概率。
[0030] 优选的,所述的用条件随机场联合概率建模,其中文本-物体边:文本和物体之间 的关系用文本-物体边对应的势函数(对应第六步得到的势函数)表征,具体表示为名词 和物体之间的相关概率。
[0031] 优选的,所述的文本和物体之间的相关概率,其表示方法是通过对每个图像-文 本对求解受约束的双向匹配优化问题得到样本级的名词与物体的映射关系;具体如下:
[0032] (1)用自然语言分析工具提取文本中的名词及其数量,其中名词为文本中词性标 签为NN,NNS,NNP的单词;名词的数量有两类,第一类为精确数量,包含了单数名词和指出 数量的复数名词;第二类为模糊数量,包含了未给出数量的复数名词,这类名词的数量为 2 ;
[0033] (2)求出名词和物体之间的初始相关概率,具体为其共同出现在一个样本中的概 率;
[0034] (3)建立受约束的文本-物体的优化问题,其中,约束一要求映射到某物体的名词 的个体数量不能大于该物体的数量;约束二要求一个名词只能映射到一个类别的物体;
[0035] (4)重新估计文本-物体间的相关概率,即在训练集中统计某名词的所有个体中 被映射到某物体的个体的比例。
[0036] 与现有技术相比,本发明具有以下有益效果:
[0037] 本发明基于文本-物体-场景关系的弱监督学习的物体和场景实现图像理解,利 用条件随机场建模场景、物体和文本的联合概率密度函数,联合预测图像的场景类别和图 像中存在的物体;在弱监督的条件下学习出不同域之间的关系,包括:场景-物体关系,场 景-文本关系和文本-物体关系。这种方法仅仅需要简单的标注信息,用于训练的每张图 像只需要知道其包含了哪些物体,而不需要具体指出每个物体在哪里,且提高了精度。这种 简单的标注信息广泛地存在于互联网上,从而使得本发明能够充分借助网络资源用于图像 理解方法,节省了巨大的人力标注开销。
【附图说明】
[0038] 通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、 目的和优点将会变得更明显:
[0039] 图1是本发明的训练过程方法流程图;
[0040] 图2是本发明的测试过程方法流程图。
【具体实施方式】
[0041] 下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术 人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术 人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明 的保护范围。
[0042] 本发明通过一个条件随机场融合三个域的信息:场景、物体和文本。不同域的特征 通过三种关系相互关联:场景与物体,场景与文本,物体与文本。文本以两种不同的方式与 物体和场景相关联。文本和物体的关系通过名词和物体的匹配概率来表示,而文本和场景 的关系通过名词在不同场景的描述中出现的概率来表示。其中文本和物体