图像处理装置、图像处理方法和机器可读存储介质与流程

文档序号：31019441发布日期：2022-08-05 19:55阅读：42来源：国知局

1.本公开涉及图像处理的技术领域，具体地涉及用于交互式分割标注的图像处理装置、图像处理方法和机器可读存储介质。

背景技术：

2.这个部分提供了与本公开有关的背景信息，这不一定是现有技术。
3.随着数据的增加和计算能力的增强，深度学习在图像处理领域中发挥了巨大作用。图像标注是深度学习任务(例如目标检测、图像分割)的重要步骤。目前的标注工具主要可以归纳为两类。一类是诸如labelme、opensurface之类的工具，这类工具需要标注者对目标的边界使用鼠标一点一点地画出轮廓。这种标注虽然精确，但十分耗时，并且不同的标注者对同一目标的标注也会存在差异，为之后的模型训练带来挑战。
4.另一方面，诸如scribblesup、polygon-rnn、polyrnn++和curvegcn之类的工具需要标注者输入额外的信息。scribblesup需要标注者在目标物体上涂鸦。在polygon-rnn、polyrnn++和curvegcn中，将包含目标的边界框作为输入，然后生成目标对象的多边形顶点作为输出。与点击相比，涂鸦和边界框更复杂。为了减少标注的时间和成本，本技术使用用户点击来作为交互式标注工具的输入。

技术实现要素：

5.这个部分提供了本公开的一般概要，而不是其全部范围或其全部特征的全面披露。
6.本公开的目的在于提供一种用于基于用户点击的交互式分割标注的图像处理装置、图像处理方法和机器可读存储介质。
7.根据本公开的一方面，提供了一种图像处理装置，包括：信息提取部，其获取关于输入图像的图像信息以及关于用户对输入图像上的多个对象中的特定对象的单个点击的点击信息；第一获取部，其基于图像信息和点击信息得到包括点击点的边界框以及边界框所对应的原始掩膜；第二获取部，其利用原始掩膜和边界框得到将特定对象从输入图像中突显出来的中间掩膜；选择部，其从多个中间掩膜中选择最佳掩膜；以及标注部，其利用最佳掩膜将特定对象的边缘在输入图像中标注出来。
8.根据本公开的另一方面，提供了一种图像处理方法，包括：获取关于输入图像的图像信息以及关于用户对输入图像上的多个对象中的特定对象的单个点击的点击信息；基于图像信息和点击信息得到包括点击点的边界框以及边界框所对应的原始掩膜；利用原始掩膜和边界框得到将特定对象从输入图像中突显出来的中间掩膜；以及从多个中间掩膜中选择最佳掩膜，并利用最佳掩膜将特定对象的边缘在输入图像中标注出来。
9.根据本公开的另一方面，提供了一种机器可读存储介质，其上携带有包括存储在其中的机器可读指令代码的程序产品，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据本公开的图像处理方法。
10.使用根据本公开的图像处理装置、图像处理方法和机器可读存储介质，用户可以通过仅单次点击就可以获取点击对象的边缘。此外，通过对边界框执行选择规则而不是对对象标注的多个最终输出执行选择规则，可以提升标注效率和精度。
11.从在此提供的描述中，进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的，而不旨在限制本公开的范围。
附图说明
12.在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施，并且不旨在限制本公开的范围。在附图中：
13.图1为图示根据本公开的实施例的图像处理装置的结构的框图；
14.图2为利用根据本公开的实施例的图像处理装置对输入图像上的对象进行标注的示意图；
15.图3为图示根据本公开的另一实施例的图像处理装置的结构的框图；
16.图4为图示根据本公开的实施例的图像处理装置中的信息提取部的结构的框图；
17.图5为图示根据本公开的实施例的图像处理装置中的第一获取部的结构的框图；
18.图6至图7为图示根据本公开的实施例的图像处理装置中的第一获取部的边界框选择原理的框图；
19.图8为图示根据本公开的又一实施例的图像处理装置的结构的框图；
20.图9为图示根据本公开的又一实施例的图像处理装置中的掩膜模板获取部和轮廓模板获取部的操作的示意图；
21.图10为图示根据本公开的实施例的图像处理装置中的另一第一获取部的结构的框图；
22.图11为图示根据本公开的实施例的图像处理装置中的第二获取部的结构的框图；
23.图12为图示根据本公开的实施例的图像处理方法的流程图；以及
24.图13为其中可以实现根据本公开的实施例的图像处理装置和方法的通用个人计算机的示例性结构的框图。
25.虽然本公开容易经受各种修改和替换形式，但是其特定实施例已作为例子在附图中示出，并且在此详细描述。然而应当理解的是，在此对特定实施例的描述并不打算将本公开限制到公开的具体形式，而是相反地，本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是，贯穿几个附图，相应的标号指示相应的部件。
具体实施方式
26.现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的，而不旨在限制本公开、应用或用途。
27.提供了示例实施例，以便本公开将会变得详尽，并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子，以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是，不需要使用特定的细节，示例实施例可以用许多不同的形式来实施，它们都不应当被解释为限制本公开的范围。在某些示例实施例中，没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。
28.下面结合图1来说明根据本公开的实施例的图像处理装置如何通过用户对输入图像上的某个对象的仅单次点击就可以获取点击对象的边缘。需要注意的是，对象可以是图像上的瓶子、人、动物等各种对象，并且对象不限于本技术中示出的示例。根据本技术的图像处理装置的输入为需要分割标注的图像和用户点击的点坐标，输出为点击点所属对象的分割标注。
29.图1图示了根据本公开的实施例的图像处理装置的结构的框图。如图1所示，根据本公开的实施例的图像处理装置100可以包括信息提取部110、第一获取部120、第二获取部130、选择部140和标注部150。
30.信息提取部110可以获取关于输入图像的图像信息以及关于用户对输入图像上的多个对象中的特定对象的单个点击的点击信息。此外，信息提取部110可以将图像信息和点击信息提供给第一获取部120。
31.进一步，第一获取部120可以基于图像信息和点击信息得到包括点击点的边界框以及边界框所对应的原始掩膜。此外，第一获取部120可以将包括点击点的边界框以及边界框所对应的原始掩膜提供给第二获取部130。
32.进一步，第二获取部130可以利用原始掩膜和边界框得到将特定对象从输入图像中突显出来的中间掩膜。此外，第二获取部130可以将中间掩膜提供给选择部140。
33.进一步，选择部140可以从多个中间掩膜中选择最佳掩膜。例如，选择部140可以基于中间掩膜的得分，将得分最高的中间掩膜选择为最佳掩膜。此外，选择部140可以将所选出的最佳掩膜提供给标注部150。
34.进一步，标注部150可以利用最佳掩膜将特定对象的边缘在输入图像中标注出来。例如，标注部150可以提取最佳掩膜中的特定对象的轮廓，并且在与该特定对象对应的位置将轮廓标注在输入图像中。
35.由此，根据本公开的实施例的图像处理装置100可以根据用户对图像上的特定对象的单个点击来将该特定对象的边缘(轮廓)在图像上标注出来。此外，通过对边界框执行选择规则而不是对对象标注的多个最终输出执行选择规则，可以提升标注效率和精度。
36.图2为利用根据本公开的实施例的图像处理装置对输入图像上的对象进行标注的示意图。如图2所示，输入图像上包括多个不同的瓶子(对象)。在上图中，用户点击其中的一个瓶子，在下图中，根据本公开的实施例的图像处理装置可以将用户点击的这个瓶子的边缘(轮廓)在图像中分割标注出来。应该注意的是，虽然图2中示出以圆点加线条的方式分割标注点击的瓶子，但是分割标注的形式不受限制。例如，也可以用方块加线条的方式来进行分割标注。此外，图2中的输入图像仅仅是示例，并且虽然在图2中的输入图像中不包括背景，但是输入图像可以不仅包括所示出的多个瓶子，也可以包括未示出的放置多个瓶子的背景。
37.为了更好地理解本公开的技术方案，下面针对本公开的图像处理装置进行更加详细地描述。
38.优选地，如图3所示，根据本公开的另一实施例的图像处理装置300可以进一步包括预处理部360。图3中所示的信息提取部310、第一获取部320、第二获取部330、选择部340和标注部350分别对应于图1所示的信息提取部110、第一获取部120、第二获取部130、选择部140和标注部150，因此省略对其的描述。
39.具体地，预处理部360可以被配置成：对输入图像进行大小调整和归一化，并且对用户点击的坐标进行归一化。此外，预处理部360将变换后的输入图像和点击坐标提供给信息提取部310。
40.信息提取部310可以基于预处理部360提供的输入图像来获得关于输入图像的图像信息，并且将关于输入图像的图像信息和所获得的点击信息提供给第一获取部320。下面将结合图4详细描述信息提取部的结构。
41.图4图示了根据本公开的实施例的图像处理装置中的信息提取部的结构的框图。图4中所示的信息提取部400对应于图1中所示的信息提取部110和图3中所示的信息提取部310。如图4所示，信息提取部400包括第一信息提取块410、第二信息提取块420和第三信息提取块430。
42.具体地，第一信息提取块410可以采用resnet101提取输入图像的特征。
43.然后，在第二信息提取块420中，可以采用特征金字塔模块生成不同尺度的特征图作为图像信息。这样，第二信息提取块420可以生成不同比例的特征图，以检测具有不同大小的对象。
44.第三信息提取块430可以基于用户对特定对象的单个点击，获取关于该单个点击的点击点的点击信息，例如坐标信息。
45.作为示例，在图4中的第一信息提取块410中，c1至c5表示图像的不同层次的信息。例如，从c1层至c5层可以表示更深层次的信息。例如，c1层可以体现图像的纹理颜色，而c5可以体现图像中的情景例如图像内容。当然，第一信息提取块410提取的图像特征不限于图4所示的c1至c5层，也可以是其它数目的层信息或者可以是其它的层信息。
46.此外，作为示例，第二信息提取块420可以基于第一信息提取块410提供的不同层次的信息来通过特征金字塔生成不同尺度的特征图。例如，第二信息提取块420可以基于第一信息提取块410提供的信息c3至c5来生成多层特征图p3至p7。例如，可以基于信息c5来生成特征图p5，即p5＝f(c5)，其中f(c5)表示对信息c5的函数变换。例如，可以基于信息c4和特征图p5来生成特征图p4，即p4＝f(c4)+g(p5)，其中f(c4)和g(p5)分别表示对信息c4和特征图p5的函数变换。例如，可以基于信息c3和特征图p4来生成特征图p3，即p3＝f(c3)+g(p4)，其中f(c3)和g(p4)分别表示对信息c3和特征图p4的函数变换。同样，如图4中箭头所示，可以基于特征图p5得到特征图p6，并且基于特征图p6得到特征图p7。
47.此外，在图4中的第二信息提取块420中，特征图p3至p7表示不同尺度的特征图。例如，特征图p3针对小尺度的对象，而特征图p7针对大尺度的对象。当然，由第二信息提取块420提取的特征图像信息不限于图4所示的特征图p3至p7，也可以是其它尺度的特征图或者包括更多不同尺度的特征图。
48.由此，信息提取部400可以将第二信息提取块420提供的图像信息例如特征图p3至p7和第三信息提取块430提供的点击信息例如坐标信息提供给第一获取部。
49.下面结合图5描述根据本公开的实施例的图像处理装置中的第一获取部的结构的框图。图5中的第一获取部500对应于图1中所示的第一获取部120和图3中所示的第一获取部320。
50.图5中的第一获取部500可以包括头部预测部510和掩膜模板获取部520。根据前面所述，第一获取部500可以从信息提取部获取图像信息例如特征图p3至p7和点击信息例如
点击点的坐标信息。
51.具体地，头部预测部510可以基于图像信息和点击信息得到关于输入图像的掩膜系数、轮廓系数、边界框和置信度等信息。例如，掩膜系数与输入图像的掩膜有关，轮廓系数与输入图像中的对象的轮廓有关。后面将会参照图6和图7详细描述边界框的生成与挑选。
52.此外，置信度可以表示输入图像中的对象所属某一类别的概率。对象所属某一类别的概率可以是指对象属于诸如人、猫、狗、瓶子等不同类别对象的概率，并且也可以是指对象属于某一类别对象的某一子类别的概率。例如，针对图2中的包括多个瓶子的输入图像，对象所属某一类别的概率可以是指对象属于多类瓶子中的某一类的概率。作为示例，置信度可以由图1中的选择部140和图3中的选择部340用作中间掩膜的得分，从而用于最佳掩膜的选择，即将置信度最高的中间掩膜选择为最佳掩膜。
53.进一步，掩膜模板获取部520可以基于图像信息得到掩膜模板。例如，掩膜模板获取部520可以基于特征图p3得到掩膜模板。需要注意的是，本技术中的掩膜模板可以是掩膜基向量。
54.第一获取部500可以基于掩膜模板获取部520获得的掩膜基向量和头部预测部510获得的掩膜系数来计算输入图像的原始掩膜。更具体地，可以通过将掩膜基向量与掩膜系数相乘来计算输入图像的原始掩膜。
55.下面将结合图2、图6和图7详细说明在第一获取部500中应用的选择规则。图6至图7为图示根据本公开的实施例的图像处理装置中的第一获取部的边界框选择原理的框图。
56.例如，再次参考图2，在图2的上图中，用户点击输入图像中的一个瓶子，由此产生输入图像上的一个点击点。在此假设，由信息提取部提供的图像信息是关于输入图像的多层特征图，例如图4中的信息提取部420提供的多层特征图p3至p7。第一获取部500可以被配置成：针对多层特征图中的每层特征图的每个像素生成预定数目的不同大小的边界框；以及从所生成的边界框中选择包括点击点的边界框。
57.具体地，如图6所示，第一获取部500(其中的头部预测部510)可以为每层特征图的每个像素生成9个不同比例和大小的边界框。应该理解的是，虽然图6示出了9个不同的边界框，但是生成边界框的数目不限于9个，还可以是任何其他数目。对于特征金字塔模块中的每一层(p3、p4、p5、p6、p7)，第一获取部500将判断生成的边界框是否包含用户单击的点击点，并且针对包括点击点的边界框，将记录相应的索引以选择对应的其它信息，例如掩膜系数、轮廓系数和置信度等信息。
58.图7显示了边界框的选择过程。作为示例，特征图p3的大小为69像素*69像素，特征图p4的大小为35像素*35像素，特征图p5的大小为18像素*18像素，特征图p6的大小为9像素*9像素，并且特征图p7的大小为5像素*5像素。由于针对每个像素生成9个不同的边界框，因此针对特征图p3可以生成69*69*9＝42849个边界框，同理，针对特征图p4可以生成11025个边界框，针对特征图p5可以生成2916个边界框，针对特征图p6可以生成729个边界框，针对特征图p7可以生成225个边界框。
59.下一步，在所有这些边界框中挑选包含用户的点击点的边界框。作为示例，针对特征图p3可以挑选出140个包含点击点的边界框，针对特征图p4可以挑选出145个包含点击点的边界框，针对特征图p5可以挑选出147个包含点击点的边界框，针对特征图p6可以挑选出150个包含点击点的边界框，针对特征图p7可以挑选出143个包含点击点的边界框。因此，一
共可以得到例如725个包含点击点的边界框。
60.由此，作为示例，第一获取部500可以得到由头部预测部510提供的725个包括点击点的边界框和边界框所对应的掩膜系数以及由掩膜模板获取部520提供的掩膜模板，从而可以得到对应的原始掩膜。此外，第一获取部500可以将包括点击点的边界框和对应的原始掩膜提供给第二获取部。需要理解的是，上面示例中列出的数目仅是示意性的，也可以是其他数目。
61.可见，本技术的图像处理装置是基于用户点击的交互式分割标注装置，其通过添加选择规则来为点击点所属的对象生成掩膜。通过对边界框执行选择规则而不是对对象标注的多个最终输出执行选择规则，可以提升标注效率和精度。
62.此外，通过添加选择规则，期望根据本技术的图像处理装置仅关注包含用户点击的目标。与对分割标注装置的最终输出执行选择规则相比，将选择规则应用到生成边界框的层可以提高速度和准确性。
63.下面结合图8和图9来说明根据本公开的又一实施例的图像处理装置的结构。图8为图示根据本公开的又一实施例的图像处理装置800的结构的框图，而图9为图示根据本公开的又一实施例的图像处理装置中的掩膜模板获取部和轮廓模板获取部的操作。
64.如图8所示，根据本公开的又一实施例的图像处理装置800可以包括信息提取部810、第一获取部820、第二获取部830、选择部840、标注部850和轮廓训练部860。其中，第一获取部820可以包括头部预测部821和掩膜模板获取部822，并且轮廓训练部860可以包括轮廓模板获取部861、轮廓图像库862和轮廓比较部863。
65.需要注意的是，图8中的信息提取部810、第一获取部820、第二获取部830、选择部840和标注部850对应于图1中所示的信息提取部110、第一获取部120、第二获取部130、选择部140和标注部150以及图3中所示的信息提取部310、第一获取部320、第二获取部330、选择部340和标注部350，因此将适当地省略对其的描述。此外，图8中所示的头部预测部821和掩膜模板获取部822对应于图5中所示的头部预测部510和掩膜模板获取部520，因此也将适当地省略对其的描述。
66.在使用轮廓训练部860期间，信息提取部810、第一获取部820和轮廓训练部860可以组成训练模块，以对图像处理装置800的参数(尤其是掩膜模板的部分参数)进行优化。
67.首先，信息提取部810可以获取关于输入图像的图像信息。上面已经关于图4对信息提取部400的配置进行了详细描述，其同样适用于信息提取部810。
68.此处，信息提取部810可以将图像信息提供给第一获取部820和轮廓训练部860。例如，信息提取部810提供的图像信息可以是图4中的不同尺度的特征图，例如多层特征图p3至p7。
69.在第一获取部820中，与图5中的头部预测部510类似，头部预测部821可以基于图像信息得到掩膜系数、轮廓系数和置信度等信息。
70.在第一获取部820中，与图5中的掩膜模板获取部520类似，掩膜模板获取部822可以基于图像信息得到掩膜模板例如掩膜基向量。例如，掩膜模板获取部822可以基于特征图p3得到掩膜模板例如掩膜基向量。
71.轮廓训练部860可以获取轮廓模板例如轮廓基向量，并且通过已有的关于各种对象的轮廓图像库对掩膜系数、掩膜模板例如掩膜基向量、轮廓系数和轮廓模板例如轮廓基
向量进行学习和优化，以提高要标注的对象的边缘精度。
72.具体地，在轮廓训练部860中，轮廓模板获取部861可以基于信息提取部810提供的图像信息来得到轮廓模板。例如，轮廓模板获取部861可以基于特征图p3得到轮廓模板例如轮廓基向量。
73.此外，轮廓训练部860可以基于轮廓模板获取部861获得的轮廓基向量和头部预测部821获得的轮廓系数来计算输入图像中的对象的轮廓。更具体地，可以通过将轮廓基向量与轮廓系数相乘来计算输入图像中的对象的轮廓。需要注意的是，此处的计算出的对象的轮廓是指在训练过程中的输入图像中所有对象的轮廓。
74.轮廓比较部863可以将计算出的对象的轮廓与轮廓图像库862中关于同类别对象的轮廓进行比较，并计算比较信息例如损失函数。轮廓图像库862可以包括关于各种对象的轮廓图像。此外，轮廓比较部863可以向轮廓模板获取部861和头部预测部821反馈计算出的比较信息，以优化掩膜系数、掩膜基向量、轮廓系数和轮廓基向量。后面将结合图9详细描述轮廓模板获取部861如何通过比较信息来优化掩膜模板。
75.最终，掩膜模板获取部822存储经优化的掩膜模板的参数例如掩膜基向量的一些参数，以用于同类别对象的分割标注。
76.需要注意的是，轮廓训练部860用于优化根据本公开的图像处理装置，尤其是图像处理装置中的掩膜模板获取部要获得的掩膜模板的一些参数。当确定优化后的掩膜模板的这些参数后，在对包括同类别对象的输入图像进行分割标注时不再需要轮廓训练部860。也就是说，对于不同类别对象，可以通过轮廓训练部860来分别优化掩膜模板。
77.在训练模块优化掩膜模板的参数之后，信息提取部810、第一获取部820、第二获取部830、选择部840和标注部850可以构成根据本技术的图像处理装置。
78.首先，信息提取部810可以获取关于输入图像的图像信息以及关于用户对输入图像上的多个对象中的特定对象的单个点击的点击信息。上面已经关于图4对信息提取部400的配置进行了详细描述，其同样适用于信息提取部810。
79.此处，信息提取部810将图像信息和点击信息提供给第一获取部820。例如，信息提取部810提供的图像信息可以是图4中的不同尺度的特征图，例如多层特征图p3至p7。此外，信息提取部810提供的点击信息可以是用户点击的点的坐标信息。
80.与图5中的头部预测部510类似，头部预测部821可以基于图像信息和点击信息得到掩膜系数、轮廓系数、边界框和置信度等信息。以上关于图5介绍的边界框的选择规则同样适用于头部预测部821。
81.此外，掩膜模板获取部822可以基于图像信息和经优化的掩膜模板的参数得到掩膜模板例如掩膜基向量。例如，掩膜模板获取部822可以基于特征图p3和经优化的掩膜模板的参数得到掩膜基向量。
82.由此，第一获取部820可以基于掩膜模板获取部822获得的经优化的掩膜基向量和头部预测部821获得的掩膜系数来计算输入图像的原始掩膜。更具体地，可以通过将掩膜基向量与掩膜系数相乘来计算输入图像的原始掩膜。
83.进一步，第二获取部830可以利用原始掩膜和边界框得到将特定对象从输入图像中突显出来的中间掩膜。
84.进一步，选择部840可以从多个中间掩膜中选择最佳掩膜。例如，选择部840可以将
头部预测部821计算出的置信度用作中间掩膜的得分，将得分最高的中间掩膜选择为最佳掩膜。此外，选择部840可以将所选出的最佳掩膜提供给标注部850。
85.进一步，标注部850可以利用最佳掩膜将特定对象的边缘在输入图像中标注出来。
86.在本技术中，为了满足标注工具对边缘精度的要求，添加了轮廓预测分支(轮廓训练部)来丰富掩膜的特征。此外，由于实时性的要求，将选择规则应用于生成边界框的层而不是整个图像处理装置的输出，以避免非极大值抑制(nms)过程中的大量计算。
87.图9图示根据本公开的又一实施例的图像处理装置中的掩膜模板获取部和轮廓模板获取部的操作。
88.如图9所示，在掩膜模板获取部侧，特征图p3被提供给到掩膜模板获取部作为输入，然后掩膜模板获取部可以基于特征图p3进行卷积运算c11和c12，并将运算后的结果提供给轮廓模板获取部。
89.在轮廓模板获取部侧，轮廓模板获取部可以将掩膜模板获取部提供的运算结果和特征图p3相加作为轮廓模板获取部的输入。然后，轮廓模板获取部可以对其输入进行卷积运算c21和c22，并将运算后的结果提供给掩膜模板获取部。在此，轮廓比较部863计算出的比较信息被提供给卷积运算c21，从而向轮廓模板获取部反馈比较结果。
90.进一步，掩膜模板获取部可以将经过卷积运算c11的运算结果和轮廓模板获取部提供的经过卷积运算c22的运算结果相加。之后，掩膜模板获取部可以对相加的结果进行上采样。例如，在上采样之前，输入特征图和各个运算结果的大小是69像素*69像素，在上采样之后，各个运算结果的大小是138像素*138像素。此外，掩膜模板获取部可以对上采样之后的结果进行卷积运算c13，并且输出经过卷积运算c13的运算结果作为掩膜模板获取部的输出。
91.轮廓模板获取部可以对经过卷积运算c21的运算结果进行上采样。同样地，例如，在上采样之前，输入特征图和各个运算结果的大小是69像素*69像素，在上采样之后，各个运算结果的大小是138像素*138像素。此外，轮廓模板获取部可以对上采样之后的结果进行卷积运算c23，并且输出经过卷积运算c23的运算结果作为轮廓模板获取部的输出。
92.需要注意的是，图9中所示的不同框中的卷积运算本身可以是相同的运算算法，并且其中任何一个框中的卷积运算不限于只进行一次卷积运算，可以进行多次卷积运算。不同在于，如果任何一个框中的卷积运算少，则运算量少，但是卷积运算所得到的特征可能不足够丰富，而如果任何一个框中的卷积运算相对多，则可以获得更丰富的特征。
93.由此，通过融合掩膜模板获取部和轮廓模板获取部的特征，根据本技术的图像处理装置可以同时学习掩膜模板和轮廓模板。在轮廓分支(轮廓训练部)中提取的轮廓特征用于指导掩膜的预测，这丰富了形状信息并提高了边缘精度。
94.图10是图示根据本公开的实施例的图像处理装置中的另一第一获取部的结构的框图。第一获取部1000可以包括头部预测部1010、边界框去除部1030和掩膜模板获取部1020。与图5所示的第一获取部500相比，第一获取部1000还可以包括边界框去除部1030。图10中所示的头部预测部1010和掩膜模板获取部1020分别对应于图5中所示的头部预测部510和掩膜模板获取部520，因此将适当省略对其的描述。此外，第一获取部1000与第一获取部500一样，可以应用于图1、图3和图8所示的各个图像处理装置中。
95.与头部预测部510类似，头部预测部1010可以基于图像信息和点击信息得到掩膜
系数、轮廓系数、边界框和置信度等信息。
96.例如，如图7所示，头部预测部1010可以针对特征图p3至p7中的每个特征图的每个像素各自生成9个边界框，并且可以从边界框中选择包括点击点的边界框。作为示例，在图7中示出了挑选出725个包含点击点的边界框。
97.边界框去除部1030可以被配置成对包括点击点的边界框进行非极大值抑制处理以去除冗余的边界框。同时，边界框去除部1030可以记录剩下的边界框的索引，以选择对应的其他信息，例如掩膜系数、轮廓系数和置信度等信息。
98.例如，边界框去除部1030可以对挑选出的725个包含点击点的边界框进行非极大值抑制处理以去除冗余的边界框，从而得到被减少的边界框例如几十个边界框以及对应的掩膜系数。
99.与掩膜模板获取部520类似，掩膜模板获取部1020可以基于图像信息得到掩膜模板例如掩膜基向量。
100.由此，第一获取部1000可以基于掩膜模板获取部1020获得的掩膜基向量和经边界框去除部1030进一步筛选后的掩膜系数来计算输入图像的原始掩膜。更具体地，可以通过将掩膜基向量与掩膜系数相乘来计算输入图像的原始掩膜。
101.第一获取部1000可以将筛选后的边界框和计算出的对应原始掩膜提供给第二获取部。
102.图11为图示根据本公开的实施例的图像处理装置中的第二获取部的结构的框图。如图11所示，第二获取部1100可以包括噪声去除部1110和中间掩膜获取部1120。第二获取部1100可以应用于图1、图3和图8所示的各个图像处理装置中。
103.第二获取部1100可以从第一获取部接收包括点击点的边界框(例如筛选后的包括点击点的边界框)以及边界框所对应的原始掩膜。
104.具体地，噪声去除部1110可以去除原始掩膜中除了边界框以外的其他区域的噪声。
105.进一步，中间掩膜获取部1120可以将被去除噪声的原始掩膜的边界框中的原始掩膜的数据进行二值化，从而得到中间掩膜。
106.由此，第二获取部1100可以利用原始掩膜和边界框得到将特定对象从输入图像中突显出来的中间掩膜。
107.下面结合图12来描述根据本公开的实施例的图像处理方法。
108.如图12所示，根据本公开的实施例的图像处理方法开始于步骤s110。在步骤s110中，获取关于输入图像的图像信息以及关于用户对输入图像上的多个对象中的特定对象的单个点击的点击信息。
109.接下来，在步骤s120中，基于图像信息和点击信息得到包括点击点的边界框以及边界框所对应的原始掩膜。
110.接下来，在步骤s130中，利用原始掩膜和边界框得到将特定对象从输入图像中突显出来的中间掩膜。
111.接下来，在步骤s140中，从多个中间掩膜中选择最佳掩膜。
112.接下来，在步骤s150中，利用最佳掩膜将特定对象的边缘在输入图像中标注出来。在这之后，过程结束。
113.根据本公开的实施例，图像信息是关于输入图像的多层特征图，并且该方法还包括：针对多层特征图中的每层特征图的每个像素生成预定数目的不同大小的边界框；以及从所生成的边界框中选择包括点击点的边界框。
114.根据本公开的实施例，该方法还包括：对所选择的包括点击点的边界框进行非极大值抑制处理以去除冗余的边界框。
115.根据本公开的实施例，该方法还包括：通过基于图像信息计算掩膜系数和掩膜模板(掩膜基向量)来得到原始掩膜。
116.根据本公开的实施例，该方法还包括：基于图像信息计算轮廓系数和轮廓模板(轮廓基向量)；在训练过程中，通过已有的关于各种对象的轮廓图像库对掩膜系数、掩膜基向量、轮廓系数和轮廓基向量进行学习和优化，以提高要标注的对象的边缘精度。
117.根据本公开的实施例，得到中间掩膜的步骤包括：去除原始掩膜中除了边界框以外的其他区域的噪声并且将边界框中的原始掩膜的数据进行二值化，从而得到中间掩膜。
118.根据本公开的实施例，获取图像信息的步骤包括：采用resnet101提取输入图像的特征；以及采用特征金字塔模块生成不同尺度的特征图作为图像信息。
119.根据本公开的实施例，在获取图像信息之前还包括：对输入图像进行大小调整和归一化。
120.根据本公开的实施例，获取点击信息的步骤包括获取用户点击的坐标。
121.根据本公开的实施例，用户点击的坐标被归一化处理。
122.由此，根据本公开的实施例的图像处理方法可以使得用户可以通过仅单次点击就可以获取点击对象的边缘。此外，通过对边界框执行选择规则而不是对对象标注的多个最终输出执行选择规则，可以提升标注效率和精度。
123.根据本公开的实施例的图像处理方法的上述步骤的各种具体实施方式前面已经作过详细描述，在此不再重复说明。
124.显然，根据本公开的图像处理方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
125.而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(cpu)读出并执行上述程序代码。此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
126.上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。
127.另外，计算机通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本公开的技术方案。
128.图13为其中可以实现根据本公开的实施例的图像处理装置和方法的通用个人计算机的示例性结构的框图。
129.如图13所示，cpu 1301根据只读存储器(rom)1302中存储的程序或从存储部分1308加载到随机存取存储器(ram)1303的程序执行各种处理。在ram 1303中，也根据需要存储当cpu 1301执行各种处理等等时所需的数据。cpu 1301、rom 1302和ram 1303经由总线
1304彼此连接。输入/输出接口1305也连接到总线1304。
130.下述部件连接到输入/输出接口1305：输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器，比如阴极射线管(crt)、液晶显示器(lcd)等，以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如lan卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。
131.在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。
132.本领域的技术人员应当理解，这种存储介质不局限于图13所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(cd-rom)和数字通用盘(dvd))、磁光盘(包含迷你盘(md)(注册商标))和半导体存储器。或者，存储介质可以是rom 1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。
133.在本公开的系统和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
134.以上虽然结合附图详细描述了本公开的实施例，但是应当明白，上面所描述的实施方式只是用于说明本公开，而并不构成对本公开的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此，本公开的范围仅由所附的权利要求及其等效含义来限定。
135.关于包括以上实施例的实施方式，还公开下述的附记：
136.附记1.一种图像处理装置，包括：
137.信息提取部，其获取关于输入图像的图像信息以及关于用户对所述输入图像上的多个对象中的特定对象的单个点击的点击信息；
138.第一获取部，其基于所述图像信息和所述点击信息得到包括点击点的边界框以及边界框所对应的原始掩膜；
139.第二获取部，其利用所述原始掩膜和所述边界框得到将所述特定对象从所述输入图像中突显出来的中间掩膜；
140.选择部，其从多个中间掩膜中选择最佳掩膜；以及
141.标注部，其利用所述最佳掩膜将所述特定对象的边缘在所述输入图像中标注出来。
142.附记2.根据附记1所述的图像处理装置，其中，所述图像信息是关于所述输入图像的多层特征图，并且所述第一获取部被配置成：
143.针对所述多层特征图中的每层特征图的每个像素生成预定数目的不同大小的边界框；以及
144.从所生成的边界框中选择包括点击点的边界框。
145.附记3.根据附记2所述的图像处理装置，其中，所述第一获取部还被配置成对所选
择的包括点击点的边界框进行非极大值抑制处理以去除冗余的边界框。
146.附记4.根据附记1所述的图像处理装置，其中，所述第一获取部通过基于所述图像信息计算掩膜系数和掩膜基向量来得到所述原始掩膜。
147.附记5.根据附记4所述的图像处理装置，其中，所述第一获取部还被配置成：基于所述图像信息计算轮廓系数，并且
148.所述图像处理装置还包括：轮廓训练部，其获取轮廓基向量，并且通过已有的关于各种对象的轮廓图像库对所述掩膜系数、所述掩膜基向量、所述轮廓系数和所述轮廓基向量进行学习和优化，以提高要标注的对象的边缘精度。
149.附记6.根据附记1所述的图像处理装置，其中，所述第二获取部被配置成：去除所述原始掩膜中除了边界框以外的其他区域的噪声并且将所述边界框中的原始掩膜的数据进行二值化，从而得到所述中间掩膜。
150.附记7.根据附记1所述的图像处理装置，其中，所述信息提取部被配置成：采用resnet101提取所述输入图像的特征；以及采用特征金字塔模块生成不同尺度的特征图作为所述图像信息。
151.附记8.根据附记1所述的图像处理装置，还包括：预处理部，其被配置成：对所述输入图像进行大小调整和归一化，以及对用户点击的坐标进行归一化。
152.附记9.一种图像处理方法，包括：
153.获取关于输入图像的图像信息以及关于用户对所述输入图像上的多个对象中的特定对象的单个点击的点击信息；
154.基于所述图像信息和所述点击信息得到包括点击点的边界框以及边界框所对应的原始掩膜；
155.利用所述原始掩膜和所述边界框得到将所述特定对象从所述输入图像中突显出来的中间掩膜；以及
156.从多个中间掩膜中选择最佳掩膜，并利用所述最佳掩膜将所述特定对象的边缘在所述输入图像中标注出来。
157.附记10.根据附记9所述的方法，其中，所述图像信息是关于所述输入图像的多层特征图，并且所述方法还包括：
158.针对所述多层特征图中的每层特征图的每个像素生成预定数目的不同大小的边界框；以及
159.从所生成的边界框中选择包括点击点的边界框。
160.附记11.根据附记10所述的方法，还包括：
161.对所选择的包括点击点的边界框进行非极大值抑制处理以去除冗余的边界框。
162.附记12.根据附记9所述的方法，其中，通过基于所述图像信息计算掩膜系数和掩膜基向量来得到所述原始掩膜。
163.附记13.根据附记12所述的方法，还包括：
164.基于所述图像信息计算轮廓系数和轮廓基向量；
165.通过已有的关于各种对象的轮廓图像库对所述掩膜系数、所述掩膜基向量、所述轮廓系数和所述轮廓基向量进行学习和优化，以提高要标注的对象的边缘精度。
166.附记14.根据附记9所述的方法，其中，得到所述中间掩膜的步骤包括：去除所述原
始掩膜中除了边界框以外的其他区域的噪声并且将所述边界框中的原始掩膜的数据进行二值化，从而得到所述中间掩膜。
167.附记15.根据附记9所述的方法，其中，获取所述图像信息的步骤包括：
168.采用resnet101提取所述输入图像的特征；以及
169.采用特征金字塔模块生成不同尺度的特征图作为所述图像信息。
170.附记16.根据附记9所述的方法，其中，在获取所述图像信息之前还包括：对所述输入图像进行大小调整和归一化。
171.附记17.根据附记9所述的方法，其中，获取所述点击信息的步骤包括获取用户点击的坐标。
172.附记18.根据附记17所述的方法，其中，所述用户点击的坐标被归一化处理。
173.附记19.根据附记9所述的方法，其中，通过对所述最佳掩膜提取所述特定对象的轮廓来将所述特定对象的边缘在所述输入图像中标注出来。
174.附记20.一种机器可读存储介质，其上携带有包括存储在其中的机器可读指令代码的程序产品，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据附记9-19所述的图像处理方法。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张颖刘威汪留安孙俊
技术所有人：富士通株式会社
我是此专利的发明人

上一篇：高效混合型膨化食品挤出机的制作方法
上一篇：一种烟气内循环型低氮结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。