基于判别样本元挖掘器的亲属关系验证方法和装置

文档序号：24875671发布日期：2021-04-30 12:50阅读：122来源：国知局

本发明涉及计算机视觉技术领域，尤其涉及一种基于判别样本元挖掘器的亲属关系验证方法和装置。

背景技术：

亲属关系验证要求对于给定的两张人脸图片，判别两者之间是否存在亲属关系。亲属关系验证有许多现实引用，包括丢失孩童查找，智能家庭相册管理，以及社交媒体分析等。

现有的亲属关系验证的数据库通常将数据组织为正样本对，也就是只搜集有亲属关系的样本对，没有关系的样本对就可以通过随机组合有关系的样本对来获得。假设数据库中有n对有亲属关系的样本对，那么通过随机组合所有可能的无关系的样本对，就可以得到n(n-1)个负样本对，显然负样本对的数目明显高于正样本对，如何利用有限的正样本对的同时从大量的负样本对中挖掘到有效的信息是一个有价值的方向。

技术实现要素：

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于判别样本元挖掘器的亲属关系验证方法，解决了亲属验证数据集与生俱来的数据不平衡问题。

本发明的第二个目的在于提出一种基于判别样本元挖掘器的亲属关系验证装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于判别样本元挖掘器的亲属关系验证方法，包括：根据第一正负样本比例获取第一正负样本对图像；

根据所述第一正负样本对图像对亲属关系模型执行一次虚拟更新得到更新后的候选亲属关系模型；

使用第二正负样本比例获取第二正负样本对图像；

根据所述第二正负样本对图像对更新所述元挖掘网络的网络参数，得到目标元挖掘网络；

将所述第一正负样本对图像中的每对正负样本对图像输入所述目标元挖掘网络，获取所述每对正负样本对图像的样本权重；

根据所述样本权重训练所述候选亲属关系模型得到目标亲属关系模型，以便于根据所述目标亲属关系模型识别图像之间的亲属关系。

为达上述目的，本发明第二方面实施例提出了一种基于判别样本元挖掘器的亲属关系验证装置，包括：第一获取模块，用于根据第一正负样本比例获取第一正负样本对图像；

第一更新模块，用于根据所述第一正负样本对图像对亲属关系模型执行一次虚拟更新得到更新后的候选亲属关系模型

第二获取模块，用于使用第二正负样本比例获取第二正负样本对图像；

第二更新模块，用于根据所述第二正负样本对图像对更新所述元挖掘网络的网络参数，得到目标元挖掘网络；

第三获取模块，用于将所述第一正负样本对图像中的每对正负样本对图像输入所述目标元挖掘网络，获取所述每对正负样本对图像的样本权重；

训练模块，用于根据所述样本权重训练所述候选亲属关系模型得到目标亲属关系模型，以便于根据所述目标亲属关系模型识别图像之间的亲属关系。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述第一方面实施例所述的基于判别样本元挖掘器的亲属关系验证方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面实施例所述的基于判别样本元挖掘器的亲属关系验证方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上述第一方面实施例所述的基于判别样本元挖掘器的亲属关系验证方法。

本发明的实施例，至少具有如下的技术效果：

提出了判别样本元挖掘器，来充分利用全部的可能的样本从而更好地训练亲属网络。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于判别样本元挖掘器的亲属关系验证方法的流程示意图；

图2为本发明实施例所提供的一种基于判别样本元挖掘器的亲属关系验证过程示意图；

图3为本发明实施例所提供的一种亲属关系网络的网络结构示意图；以及

图4为本发明实施例所提供的一种基于判别样本元挖掘器的亲属关系验证装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于判别样本元挖掘器的亲属关系验证方法和装置。

针对背景技术中提到的，在处理数据不均衡问题时，大多直接使用固定的平衡数据集，也就是直接从负样本对中随机采样n个样本对，与n个正样本对构成总大小为2n的数据集，这一方法就直接丢弃了剩余的n(n-2)个负样本，无法有效挖掘大量负样本中的有效信息。本专利提出了判别样本元挖掘器，来充分利用全部的可能的样本从而更好地训练亲属网络。

本发明的目的是解决亲属验证数据集与生俱来的数据不平衡问题，致力于在充分利用有限的正样本对的同时从大量的负样本对中挖掘到有判别力的样本，最终提升亲属关系验证的性能和精度。

图1为本发明实施例所提供的一种基于判别样本元挖掘器的亲属关系验证方法的流程示意图。如图1所示，该方法包括：

在本示例中，我们首先介绍我们所提出的亲属关系网络。我们的亲属关系网络致力于显式建模两张图片之间的关系来更好地预测他们之间的亲属关系。对于两张人脸图片，我们首先使用同一个卷积神经网络来提取图片特征，记这一对图片为(x，y),那么得到的图片特征分别记为(ex，ey)，假设特征ex和ey均为d维特征，我们提出的亲属关系网络致力于为这两个特征的每一个维度的对比关系进行建模，我们的亲属关系可以形式化为下述公式(1)：

其中，和分别代表了ex，ey的第i个元素，||代表对特征进行拼接。h和r则分别代表了多层神经网络。最后的输出层只有一个神经元，其使用了sigmoid函数进行激活，结果自然被归一化到0～1之间，数值越高表示有亲属关系的概率越高。在测试过程中，当f(x，y)＞0.5时认为存在亲属关系，否则认为不存在亲属关系。亲属关系网络很好地建模了特征之间的关系，有效提升亲属关系验证的准确率。在训练阶段结束后，其单独部署用来亲属关系的验证任务。接下来我们详细描述如何使用提出的判别样本元挖掘器来训练亲属关系网络。

为了利用有限的正样本以及大量的负样本，我们提出了判别样本元挖掘器来对训练过程中的样本进行加权。整个训练过程由四个阶段构成：虚拟训练阶段，元训练阶段，样本挖掘阶段，事实训练阶段。这里，我们令亲属关系网络f的参数为θ，此外，记判别样本元挖掘器网络为其中表示其网络参数。接下来我们循环地进行以下四个阶段的训练：

步骤101，根据第一正负样本比例获取第一正负样本对图像。

在本示例中，根据第一正负样本比例获取第一正负样本对图像，从n个正样本对和n(n-1)个负样本中采样得到一个正负比例为1∶c的批数据，令正样本对数目为m，得到(1+c)m对所述第一正负样本对图像。

具体而言，我们从n个正样本对和n(n-1)个负样本中采样得到一个正负比例为1∶c的批数据，令正样本对数目为m，那么该不均衡的训练批数据大小为(1+c)m。

步骤102，根据第一正负样本对图像对亲属关系模型执行一次虚拟更新得到更新后的候选亲属关系模型。

在本实施例中，假设我们已经获得了第t时刻的模型：θ^t和在该阶段，我们对亲属关系模型执行一次虚拟更新得到

在本实施例中，根据损失函数和所述第一正负样本对图像计算所述亲属关系模型的损失值，其中，所述损失函数为下述公式(2)：

其中，s^trn，p和s^trn，n分别表示所述第一正负样本对图像中的正样本对和负样本对，c表示所述第一正负样本对图像中负样本对正样本数目的比例，函数g()表示判别样本元挖掘器网络，函数f()表示亲属关系网络，φ表达神经网络g的网络参数，θ表示神经网络f的网络参数，t表示迭代次数。

由于不同的会导致不同的损失函数值，因此该损失函数是的函数。我们使用随机梯度下降得到更新后的即使用随机梯度下降算法和所述损失函数的损失值对亲属关系模型执行一次虚拟更新得到更新后的候选亲属关系模型，其中，

所述随机梯度下降算法为下述公式(3)

其中，α表示该步骤的学习率，是根据实验设置的固定值，t表示迭代次数，φ表达神经网络g的网络参数，θ表示神经网络f的网络参数。

步骤103，使用第二正负样本比例获取第二正负样本对图像。

在本实施例中，对元挖掘网络的更新，我们接着从整个数据集中随机采样一个类别均衡的元训练批数据(第二正负样本对图像)，也就是该批数据中正负样本比例为1∶1。

步骤104，根据第二正负样本对图像对更新元挖掘网络的网络参数，得到目标元挖掘网络。

在本实施例中，在得到了之后，我们使用元学习的思路来更新元挖掘网络的参数得到根据损失函数和所述第二正负样本对图像计算所述元挖掘网络的损失值，其中，所述损失函数为公式(4)：

其中，s^meta，p和s^，neta，n分别表示所述第二正负样本对图像中的正样本对和负样本对。

进一步的，接着我们使用随机梯度下降的方法来得到更新后的元挖掘网络的参数，使用随机梯度下降的算法更新所述元挖掘网络的网络参数，得到目标元挖掘网络，其中，所述随机梯度下降的算法为下述公式(5)：

其中，β表示该步骤的学习率，t表示迭代次数，φ表达神经网络g的网络参数，θ表示神经网络f的网络参数。

步骤105，将第一正负样本对图像中的每对正负样本对图像输入目标元挖掘网络，获取每对正负样本对图像的样本权重。

不平衡训练批数据的判别样本挖掘。得到了更新之后的元挖掘网络，我们使用该网络对第一阶段中使用的不平衡训练批数据进行判别样本的挖掘。具体而言，我们对批数据中的样本进行样本的加权。我们将每个样本都送入到元挖掘网络中，元挖掘网络为每个样本输出一个数值，该数值就代表了元挖掘网络认为该样本的重要性。最后这些数值在批内进行归一化，具体而言，对于一个样本s的权重，可以形式化为公式(6)：

步骤106，根据样本权重训练候选亲属关系模型得到目标亲属关系模型，以便于根据目标亲属关系模型识别图像之间的亲属关系。

在获得了每个样本的权重之后，我们使用这些权重对样本加权来真正训练我们的亲属关系网络。加权后的损失函数为公式(7)：

随后我们使用随机梯度下降来更新亲属关系网络：使用随机梯度下降算法来更新所述候选亲属关系模型得到目标亲属关系模型，其中，所述随机梯度下降算法为公式(8)：

其中，γ为该步骤的学习率。

这样反复迭代以上面几个步骤，就可以得到最终训练好的亲属关系网络。附图2描述了上述过程，其中，在图2中，h-mlp和r-mlp分别表示两个mlp(多层神经网络)，这两个神经网络表示的变换可以用函数h和r来表示，对应着上面公式1中的h和r，最后我们详细介绍元挖掘网络的具体组成。元挖掘网络由一个三层的全连接神经网络组成，其输入维度为3，分别输入一个样本对的标签、亲属关系模型对该样本对的预测以及对应的二元交叉熵损失函数值。这三个维度代表了一个样本对的信息，用于元挖掘网络的输入，元挖掘网络的输出维度为1，使用sigmoid进行激活，激活后的数值就表示了元挖掘网络预测的该样本的权重。

由此，在本发明的实施例中，包括两个逻辑模块：亲属关系网络和判别样本元挖掘器网络。亲属关系网络负责对于给定的样本预测其亲属关系的存在与否，判别样本元挖掘器负责在训练过程中对训练样本进行加权，从而更好的指导亲属关系网络的训练。亲属关系网络需要对一对图片进行预测，其网络结构的设计如附图3所示。判别样本元挖掘器由一个三层的神经网络构成，其对每一个样本都输出一个权重来对训练样本进行加权。在训练阶段，判别样本元挖掘器和亲属关系网络一同在元学习的框架下进行学习，在测试阶段，亲属关系网络单独用来部署预测亲属关系。

由此，本实施例中，基于关系网络的亲属关系网络。训练中我们提出了一种基于关系网络的亲属关系网络，该网络可以更好地挖掘两张图片之间的亲属关系，从而得到更高的性能，基于判别样本元挖掘器的亲属关系训练方法，该方法可以在有效利用有限的正样本对的同时充分挖掘大量的负样本对的信息，从而得到更加准确的亲属验证模型。

综上，本发明实施例的基于判别样本元挖掘器的亲属关系验证方法，提出了判别样本元挖掘器，来充分利用全部的可能的样本从而更好地训练亲属网络。

为了实现上述实施例，本发明还提出一种基于判别样本元挖掘器的亲属关系验证装置。

图4为本发明实施例提供的一种基于判别样本元挖掘器的亲属关系验证装置的结构示意图。

如图4所示，该基于判别样本元挖掘器的亲属关系验证装置包括：第一获取模块410、第一更新模块420、第二获取模块430、第二更新模块440、第三获取模块450、训练模块460。

其中，第一获取模块410，用于根据第一正负样本比例获取第一正负样本对图像；

第一更新模块420，用于根据所述第一正负样本对图像对亲属关系模型执行一次虚拟更新得到更新后的候选亲属关系模型

第二获取模块430，用于使用第二正负样本比例获取第二正负样本对图像；

第二更新模块440，用于根据所述第二正负样本对图像对更新所述元挖掘网络的网络参数，得到目标元挖掘网络；

第三获取模块450，用于将所述第一正负样本对图像中的每对正负样本对图像输入所述目标元挖掘网络，获取所述每对正负样本对图像的样本权重；

训练模块460，用于根据所述样本权重训练所述候选亲属关系模型得到目标亲属关系模型，以便于根据所述目标亲属关系模型识别图像之间的亲属关系。

需要说明的是，前述对基于判别样本元挖掘器的亲属关系验证方法实施例的解释说明也适用于该实施例的基于判别样本元挖掘器的亲属关系验证装置，此处不再赘述。

为了实现上述实施例，本发明还提出一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例所描述的基于判别样本元挖掘器的亲属关系验证方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例所描述的基于判别样本元挖掘器的亲属关系验证方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上述实施例所描述的基于判别样本元挖掘器的亲属关系验证方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：鲁继文;周杰;李万华
技术所有人：清华大学
我是此专利的发明人

上一篇：一种β-烟酰胺单核苷酸的生产方法及生产设备与流程
上一篇：一种肉桂皮加工肉桂香红茶的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。