多模态特征的融合方法、装置、设备、介质和产品与流程

文档序号：30949987发布日期：2022-07-30 07:05阅读：68来源：国知局

1.本公开涉及人工智能
技术领域：
：，尤其涉及自然语言处理领域、光学字符识别等技术，可应用于智慧金融场景。
背景技术：
：：2.在一些场景中需要对文挡中的关键信息进行审核。例如报销单中需要审核报销人姓名，报销金额，消费日期等信息。而这些信息的审核常常需要大量的人力。为了提高审核效率，利用神经网络对文档的图像进行处理，以从文档中自动提取用户感兴趣的实体及实体关系。相关技术为特定版式的文档编写特定的规则，该方式存在很大的局限性。技术实现要素：3.本公开提供了一种用于多模态特征的融合方法、装置、设备、介质和产品。4.根据本公开的一方面，提供了一种多模态特征的融合方法，包括：获取包括有文本的图像；对所述图像进行特征识别，得到所述文本的文本特征以及位置特征；将所述图像按照预设规则划分为多个区域，并提取所述多个区域中至少一个区域的图像特征；对所述文本特征进行编码，得到文本向量；以及，对所述至少一个区域的图像特征进行编码，得到所述至少一个区域的图像向量；以及，对所述位置特征进行编码，得到位置向量；将所述文本向量、所述至少一个区域的图像向量和所述位置向量进行融合，得到融合后的目标向量。5.根据本公开的另一方面，提供了一种多模态特征的融合装置，包括：获取单元，用于获取包括有文本的图像；识别单元，用于对所述图像进行特征识别，得到所述文本的文本特征以及位置特征；划分并提取单元，用于将所述图像按照预设规则划分为多个区域，并提取所述多个区域中至少一个区域的图像特征；确定向量单元，用于对所述文本特征进行编码，得到文本向量；以及，对所述至少一个区域的图像特征进行编码，得到所述至少一个区域的图像向量；以及，对所述位置特征进行编码，得到位置向量；融合单元，用于将所述文本向量、所述至少一个区域的图像向量和所述位置向量进行融合，得到融合后的目标向量。6.根据本公开的又一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的方法。7.根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行所述的方法。8.根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现所述的方法。9.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明10.附图用于更好地理解本方案，不构成对本公开的限定。其中：11.图1是根据本公开实施例提供的多模态特征的融合方法流程图；12.图2是根据本公开实施例提供的得到文本向量的方法流程图；13.图3是根据本公开实施例提供的得到图像向量的方法流程图；14.图4是根据本公开实施例提供的得到二维位置向量的方法流程图；15.图5是根据本公开实施例提供的方法得到输入特征的流程图；16.图6是根据本公开实施例提供的方法得到融合后的目标向量的流程图；17.图7是根据本公开实施例提供的填充表示意图；18.图8是根据本公开实施例提供的申请表审核场景示意图；19.图9是根据一示例性实施例示出的一种多模态特征的融合装置框图；20.图10是用来实现本公开实施例的多模态特征的融合方法的电子设备的框图。具体实施方式21.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。22.本公开应用于在文档审核场景中提取待审核文档中的实体以及实体关系。相关技术中会利用光学字符识别(opticalcharacterrecognition，ocr)技术来识别文档图像中的文字。例如在金融审核场景下，通常会根据业务需求，编写特定的规则代码来提取相应的关键字段。编写特定规则提取关键字段的方法适用于文档版式固定或者文档版式没有太大变化的业务场景。但在文档版式不固定，或者业务上线后，文档版式调整或新增版式的场景中，原来编写的规则可能就无法应用在版式调整或者新增版式的文档中。另外，在文档版式比较复杂的情况下，预先编写的规则无法覆盖全部情况，导致不能达到预期的效果。23.鉴于此，本公开提供了一种多模态特征的融合方法，对于待识别的文档图像，采用ocr识别文档图像，获取文档中的文本特征以及位置特征。按照预设规则将文档图像划分为多个区域，提取多个区域中至少一个区域的图像特征。将文本特征、位置特征以及图像特征进行编码后输入到bert(bidirectionalencoderrepresentationfromtransformers)中进行深层特征融合，将输出的特征作为文档的整体特征。通过本公开在获取图像特征时，并没有采用将文档图像作为一个整体获取图像特征，也没有将文档图像中的每个字符作为一个区域获取图像特征，而是按照预设规则将文档图像划分为多个区域，提取多个区域中至少一个区域的图像特征。本公开采用上述获取图像特征的方法，在进行多模态特征融合的过程中，根据不同图像特征的位置特征，分配不同的注意力，能够使多模态特征融合的更加充分。24.利用本公开提供的多模态特征的融合方法，得到文档图像的整体特征可以应用于进行实体关系提取。在应用时采用基于表序列tablesequence的关系提取模型，从文档图像的整体特征中提取实体关系。25.本公开下述实施例中，将结合附图对本公开提供的多模态特征的融合方法进行说明。26.图1是根据本公开实施例提供的多模态特征的融合方法流程图；如图1所示，本公开提供的多模态特征的融合方法，包括以下步骤s101-s105。27.在步骤s101中，获取包括有文本的图像。28.本公开中包括有文本的图像可以为文档图像。该图像可以是运行多模态特征融合方法的设备本地的图像。该图像也可以是与运行多模态特征融合方法的设备有通信连接的其他设备，发送给该设备的图像。该图像还可以是通过用户指令实时获取的图像。29.在步骤s102中，对图像进行特征识别，得到文本的文本特征以及位置特征。30.本公开中可以采用ocr技术对图像进行特征识别。通过ocr技术提取图像的文本特征和位置特征。本公开中的位置特征包括一维位置特征和二维位置特征。其中一维位置特征是指各文本特征之间的相对位置。二维位置特征是指以指定的原点建立坐标系，文本特征在该坐标系中的位置坐标。本公开中指定的原点可以为图像的左上角。31.在步骤s103中，将图像按照预设规则划分为多个区域，并提取多个区域中至少一个区域的图像特征。32.在本公开中，为了能够在实体关系提取阶段，更全面的提取到实体关系，在得到图像融合后的整体特征过程中，将图像划分为多个区域。提取多个区域中至少一个区域的图像特征。在一些例子中，为了提升结果准确性，可以提取多个区域中每个区域的图像特征，对于选择提取多少区域的图像特征，本公开不做具体限定。相比于，将图像作为整体提取图像特征而言，在图像的整体特征中能够包括更多图像的图像特征，有利用在融合过程中参考图像特征的位置特征，获得更多的注意力。33.本公开中将图像划分为多个区域的规则可以根据实际需要设置。例如可以设定将图像沿横向的中心线和纵向的中心线划分为四个区域的规则。或者，还可以设定为将图像沿横向或纵向等分为m个区域，其中m为正整数。34.在一种实施方式中，将图像按照设定规则分为左上角、右上角、右下角和左下角，共四个区域，记做v1，v2，v3和v4。在本实施例中使用resnext-fpn模块作为图像特征提取的主干网络。本实施例中的fpn是指特征金字塔中间网络，是featurepyramidnetwork的简称。通过主干网络分别提取v1，v2，v3和v4的图像特征。35.在步骤s104中，对文本特征进行编码，得到文本向量；以及，对至少一个区域的图像特征进行编码，得到至少一个区域的图像向量；以及，对位置特征进行编码，得到位置向量。36.通过对图像进行特征识别，提取到文本特征、至少一个区域的图像特征，以及位置特征后，对文本特征进行编码，得到文本向量。对多个区域中至少一个区域的图像特征进行编码，得到多个区域中至少一个区域的图像向量。对位置特征进行编码，得到位置向量。当然，在一些例子中，可以对各区域中每个区域的图像特征进行编码，得到各区域中每个区域的图像向量。37.在步骤s105中，将文本向量、至少一个区域的图像向量和位置向量进行融合，得到融合后的目标向量。38.本公开中，可以采用bert模型对文本向量、至少一个区域的图像向量和位置向量进行融合，得到融合后的目标向量。融合后的目标向量作为图像的整体特征进行后续应用。39.本公开通过对图像进行特征识别，得到文本特征和位置特征，并将图像划分为多个区域后，提取多个区域中至少一个区域的图像特征。将文本特征、位置特征，以及至少一个区域的图像特征进行编码后融合，相比于将图像作为一个整体提取到的图像特征而言，能够提高多模态特征的融合程度。40.本公开下述实施例将对得到文本向量、至少一个区域的图像向量和位置向量的过程进行具体说明。41.图2是根据本公开实施例提供的得到文本向量的方法流程图；如图2所示，本公开提供的对文本特征进行编码得到文本向量的过程，包括以下步骤s201-s204。42.在步骤s201中，对文本进行分词，并将分词结果进行序列化，得到多个序列。43.使用ocr技术识别图像中的文本后，在本公开中可以采用已有的分词法(例如wordpiece)对文本进行分词，得到分词结果。将分词结果进行序列化，可以使用[cls]标记序列开始，[sep]作为序列的结束。本公开将分词结果采用token进行标记。[0044]采用词嵌入(tokenembedding)代表token的语义信息。[0045]在步骤s202中，根据多个序列中各序列间的相对位置信息，确定各序列的一维位置编码。[0046]本公开中采用一维位置编码(positionembedding)代表各序列中每个token相对位置信息的编码。[0047]在步骤s203中，基于表征序列语义信息的词嵌入，序列的一维位置编码，以及区别于其他序列的段嵌入，确定序列的序列向量。[0048]本公开为了区别不同序列，以及区分序列和图像特征，在每个序列向量中增加段嵌入(segmentembedding)。因此单个文本序列的每个序列向量由以下三个向量组成，记为：[0049]t＝tokenembedding+positionembedding+segmentembedding[0050]在步骤s204中，基于文本中的各序列对应的序列向量，生成文本向量。[0051]本公开通过对文本进行分词得到多个序列，根据表征各序列语义信息的词嵌入，一维位置编码以及段嵌入，得到文本向量，为进行多模态特征融合做准备。[0052]上述实施例结合图2说明了确定文本向量的过程，下述实施例将结合图3说明确定图像向量的过程。[0053]图3是根据本公开实施例提供的得到图像向量的方法流程图；如图3所示，本公开提供的对至少一个区域的图像特征进行编码，得到至少一个区域的图像向量的过程，包括以下步骤s301-s304。[0054]在步骤s301中，分别对至少一个区域的图像特征进行池化处理，得到至少一个区域的初始图像向量。[0055]将至少一个区域的图像特征通过卷积神经网络的池化操作，将至少一个区域的图像特征转化为固定尺寸的初始图像向量。当然，在一些例子中，可以将各个区域的图像特征通过卷积神经网络的池化操作，将各个区域的图像特征转化为固定尺寸的初始图像向量。假设有4个区域的图像特征，分别为第一区域图像特征、第二区域特性特征、第三区域图像特征和第四区域特性特征。对第一区域图像特征通过卷积神经网络的池化操作，得到第一区域图像的初始图像向量。对第二区域特性特征、第三区域图像特征和第四区域特性特征进行与第一区域图像特征相同的操作，得到各自对应的初始图像向量。当然，也可以选择第一区域图像特征、第二区域特性特征、第三区域图像特征和第四区域特性特征中的部分区域特征进行池化处理，得到相应区域图像特征对应的初始图像向量，本公开不做限定。[0056]在步骤s302中，对至少一个区域的初始图像向量分别进行线性变换。[0057]本公开为了让图像向量与文本向量的长度一致，增加一个投影层(projectlayer)，对图像向量做线性变换，使其与文本向量的长度一致。在一些例子中，可以对各个区域的初始图像向量分别进行线性变换。[0058]在步骤s303中，根据至少一个区域的位置关系，确定至少一个区域对应初始图像向量的一维位置编码。[0059]由于卷积神经网络并没有关于图像向量顺序的信息，因此本公开增加了一个代表图像向量先后顺序的一维位置编码(positionembedding)。本公开中图像向量的相对顺序可以是从左到右，从上到下。在一些例子中，可以根据各区域的位置关系，确定每个区域对应初始图像向量的一维位置编码。[0060]在步骤s304中，基于至少一个区域线性变换后的初始图像向量、一维位置编码和区别于其他初始图像向量的段嵌入，确定至少一个区域的图像向量。[0061]在一些例子中，可以基于各区域线性变换后的初始图像向量、一维位置编码和区别于其他初始图像向量的段嵌入，确定各区域的图像向量。[0062]本公开，为了区分不同区域对应的初始图像向量，以及区分图像向量和文本向量，可以在初始图像向量中加入与其不同的segmentembedding。本公开中，图像向量可以被记为：[0063]v＝proj(visembedding)+positionembedding+segmentembedding[0064]本公开通过对图像特征进行池化处理，得到初始图像向量，再对初始图像向量进行线性变换，使初始图像向量与文本向量的长度一致。根据线性变换后的初始图像向量、一维位置编码以及区别于其他初始图像向量的段嵌入，确定最终的图像向量，为进行多模态特征融合做准备。[0065]可以理解的是，本公开可以针对多个区域中的各区域进行相应操作，使得结果更加精准。[0066]接着，本公开将结合附图4说明确定二维位置向量的过程。[0067]图4是根据本公开实施例提供的得到二维位置向量的方法流程图；如图4所示，位置特征可以是二维位置特征，位置向量可以是二维位置向量。本公开提供的对二维位置特征进行编码，得到二维位置向量的过程，包括以下步骤s401-s404。[0068]在步骤s401中，对二维位置特征表征的文本框的第一坐标和第二坐标，以及文本框的高度和文本框的宽度进行编码。[0069]本公开采用ocr技术识别图像后，能够获取到其中的文本框的位置信息。本公开中将文本框的位置采用二维位置特征表示。二维位置特征包括第一坐标和第二坐标，以及文本框的高度和文本框的宽度。其中第一坐标和第二坐标分别为文本框对角线位置处的坐标。[0070]示例的，二维位置特征可以为(x0，x1，y0，y1，w，h)，其中(x0，y0)为文本框的左上角坐标，(x1，y1)为文本框的右下角坐标，w为文本框的宽度，h为文本框的高度。[0071]本公开采用二维的positionembedding编码第一坐标和第二坐标中的x坐标和y坐标。并采用二维的positionembedding编码文本框的高度和文本框的宽度。[0072]在步骤s402中，将编码后第一坐标中的x坐标和第二坐标中的x坐标，与编码后文本框的宽度进行拼接，得到x轴方向的位置向量。[0073]在步骤s403中，将编码后第一坐标中的y坐标和第二坐标中的y坐标，与编码后文本框的高度进行拼接，得到y轴方向的位置向量。[0074]在步骤s404中，将x轴方向的位置向量和y轴方向的位置向量，作为文本框的二维位置向量。[0075]本公开中，将通过步骤s401-s404得到的二维位置向量记为：[0076]i＝concat(posembedding(x0，x1，w)，posembedding(y0，y1，h))[0077]需说明，本公开对于代表图像区域的二维位置信息进行编码时，对相应图像区域的左上角坐标以及右下角坐标进行编码，得到该图像区域的二维位置向量。对于特殊的向量[cls]、[sep]则使用(0,0,0,0,0,0)表示。[0078]本公开对二维位置特征编码后，将x轴方向上的坐标和文本框的宽度进行拼接，将y轴方向上的坐标和文本框的高度进行拼接，最终得到二维位置向量，为多模态特征融合做准备。[0079]为了更清楚的说明本公开得到文本向量、至少一个区域的图像向量和位置向量的过程，采用附图5进行说明。图5是根据本公开实施例提供的方法得到输入特征的流程图；如图5所示，本公开对文档图像进行ocr识别，得到文本特征和位置特征。在一些例子中，位置特征可以是二维位置特征，当然，在其它特定条件下还可以是更多维度或更少维度等位置特征，本公开不做限定。将文档图像按照预设规则划分为4个区域。对至少一个区域的文档图像进行图像特征提取，得到与相应区域图像相匹配的图像特征。对图像特征和文本特征进行编码得到图像向量和文本向量，将图像向量和文本向量进行拼接。在拼接后的图像向量和文本向量上叠加位置编码，例如可以叠加二维位置编码以及一维位置编码。将拼接后叠加有二维位置编码和一维位置编码的向量作为输入向量，输入bert模型。在bert模型中实现对多模态特征的充分融合。[0080]通过图5可知，本公开中将文本向量、至少一个区域的图像向量和位置向量进行融合，得到融合后的目标向量，包括将文本向量和至少一个区域的图像向量进行拼接。在一些例子中，可以是将文本向量和各区域的图像向量进行拼接。之后，在拼接后的向量上叠加位置向量，例如二维位置向量，以得到输入向量。将输入向量输入bert模型进行融合，得到融合后的目标向量。[0081]本公开将文本向量和至少一个区域的图像向量进行拼接，并在拼接后的向量上叠加位置向量，以得到bert模型的输入向量。在bert模型中根据位置向量为不同位置处的文本向量或图像向量分别不同的注意力，能够使bert模型关注到对应用更有帮助的部分，而忽略干扰部分。[0082]在bert模型中包括多个编码器。例如bert模型中可以包括多个依次连接的编码器。本公开下述实施例将结合图6对bert模型中其中一个编码器的融合过程进行说明。[0083]图6是根据本公开实施例提供的方法得到融合后的目标向量的流程图；如图6所示，本公开中将输入向量输入bert模型进行融合，包括以下步骤s601-s605。[0084]在步骤s601中，将输入向量输入第一个编码器。[0085]在步骤s602中，在第一个编码器中基于输入向量中各文本向量以及图像向量之间的相似度，确定相似度注意力分数。[0086]本公开下述实施例为了便于描述，将输入向量中包括的各文本向量和图像向量采用标记(token)表征。输入向量中有多个token。[0087]随机初始化生成三个矩阵wq、wk、wv。按下式将输入向量中的token分别与wq、wk、wv相乘，得到query，key，value三个向量。[0088]query＝xwq[0089]key＝xwk[0090]value＝xwv[0091]对于每个token计算query与key向量间的相似度[0092][0093]上式中queryi是第i个token的query向量，keyj是第j个token的key向量，similarity(queryi，keyj)是第i个token与第j个token间的相似度。i和j的取值范围均为n，n表示token的数量。在上式中确定i后，将j的取值从1取到n。如此，可以得到第i个token与n个token间的相似度，即当前token与自身的相似度，以及当前token与n-1个其他token的相似度。[0094]根据第i个token与n个token间的相似度，按下式计算相似度注意力分数。[0095][0096]式中，ai是第i个token的相似度注意力分数。表示第i个token与j个token间的相似度之和。表示当前token与自身的相似度。[0097]在步骤s603中，基于相似度注意力分数，和各文本向量对应的位置向量以及图像向量对应的位置向量，确定空间注意力分数。[0098]在一些例子中，例如可以是于相似度注意力分数，和各文本向量对应的二维位置向量以及图像向量对应的二维位置向量，确定空间注意力分数。[0099]本公开为不同位置信息的token，分配不同的注意力，为了区分相似度注意力分数，将按照二维位置向量分配的注意力采用空间注意力分数表征。[0100][0101]a′i是第i个token的空间注意力分数，w是第i个和第j个token之间在x轴方向上的空间距离，计算方式为第i个token的x坐标与第j个token的x坐标之间的差值绝对值。h是第i个token和第j个token之间在y轴方向上的空间距离，计算方式为第i个文本向量的y坐标与第j个文本向量的y坐标之间的差值绝对值。是第i个token和第j个token在二维空间x轴方向上的偏置。是第i个token和第j个token在二维空间y轴方向上的偏置。其中2d表示二维空间。[0102]基于第i个token的空间注意力分数，按下式确定第i个token的输出向量。[0103][0104]通过计算a′i的公式能够得到第i个token的n个空间注意力分数，对于第i个token而言，计算每个token的空间注意力分数与对应value向量的乘积，得到n个乘积，并将n个乘积的和作为第i个token的输出向量。[0105]本公开中i的取值范围为n，按照上述过程可以得到n个token的输出向量。[0106]在步骤s604中，基于空间注意力分数，得到第一个编码器的输出。[0107]本公开将n个token的输出拼接，作为第一个编码器的输出。[0108]本公开将第一个编码器的输出经过一个projectlayer做线性变换后，使其维度保持与输入的一致。[0109]在步骤s605中，将第一个编码器的输出作为第二个编码器的输入，直到通过所有编码器后，得到融合后的目标向量。[0110]假设bert模型共有12层叠加的编码器(attentionencoder)。将第一个编码器的输出作为第二个编码器的输入，如此计算多次后，将图像向量、二维位置向量和文本向量进行了深层的特征交互。[0111]本公开根据各文本向量对应的二维位置向量以及图像向量对应的二维位置向量，为不同位置处的向量分配不同的空间注意力分数，能够增加图像向量，文本向量以及二维位置向量间的深入融合，避免关注局部图像向量或文本向量。[0112]本公开提供的多模态特征融合方法能够用于在目标向量中提取实体及实体关系的场景。[0113]从本公开的多模态特征融合方法得到的目标向量中提取实体及实体关系，能够不局限于版式的局限，更准确的提取到实体及实体关系。[0114]本公开中基于tablesequence从目标向量中提取实体及实体关系。通常，关系提取任务需要涉及两个步骤，第一步是先进行命名体识别(namedentityrecognition，ner)，第二步是进行关系识别(re)。一般两种方式来实现关系提取，第一种是串行的方式即先提取实体，再识别关系，第二种是联合的方式，即提取和识别同步进行，本公开可以使用联合提取的方式。[0115]针对ner和re，算法分别学习出不同的序列表示(sequencerepresentations)和表格表示(tablerepresentations)，这两种表示能分别捕获任务相关的信息。对于ner任务，假设其为一个序列标记问题，对于re任务，输入一个句子x＝[xi]1≤i≤n,若存在关系r，则用和表示，没有关系的地方用⊥表示。图7是根据本公开实施例提供的填充表示意图。对于小明来自北京这个句子可以填充得到图7所示的表格。[0116]表格表示(tablerepresentations)是一个n*n的向量表，使用基于gru结构的md-rnn(多维rnn)作为textencoder，在更新表格中当前cell的信息时，利用了表格的结构特点，通过md-rnn融合其上下左右四个方向上的信息。同时引入当前cell所对应的两个词在sequenceencoder下的表示，使得tableencoder和sequenceencoder之间做特征的交互。而sequenceencoder则采用了类似于transformers的结构。本公开中的模型对于loss函数的选取都采用了交叉熵loss。[0117]本公开通过图8示出本公开的应用场景。图8是根据本公开实施例提供的申请表审核场景示意图。获取包括有文本的图像，利用本公开提供的多模态特征的融合方法得到图像中的目标向量。基于tablesequence从目标向量中提取实体及实体关系。在图8所示的申请表审核场景中，需要审核填写人的基本信息，可以看到通过本公开能够将关键实体提取出来，并且将关系给一一对应。[0118]基于相同的构思，本公开实施例还提供一种多模态特征的融合装置。[0119]可以理解的是，本公开实施例提供的多模态特征的融合装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。[0120]图9是根据一示例性实施例示出的一种多模态特征的融合装置框图。参照图9，该装置包括获取单元901，识别单元902、划分并提取单元903、确定向量单元904、融合单元905和关系提取单元906。[0121]获取单元901，用于获取包括有文本的图像；识别单元902，用于对图像进行特征识别，得到文本的文本特征以及位置特征；划分并提取单元903，用于将图像按照预设规则划分为多个区域，并提取多个区域中至少一个区域的图像特征；确定向量单元904，用于对文本特征进行编码，得到文本向量；以及，对至少一个区域的图像特征进行编码，得到至少一个区域的图像向量；以及，对位置特征进行编码，得到位置向量；融合单元905，用于将文本向量、至少一个区域的图像向量和位置向量进行融合，得到融合后的目标向量。[0122]在一种实施方式中，确定向量单元904用于：对文本进行分词，并将分词结果进行序列化，得到多个序列；根据多个序列中各序列间的相对位置信息，确定各序列的一维位置编码；基于表征序列语义信息的词嵌入，序列的一维位置编码，以及区别于其他序列的段嵌入，确定序列的序列向量；基于文本中的各序列对应的序列向量，生成文本向量。[0123]在一种实施方式中，确定向量单元904还用于：对至少一个区域的图像特征进行池化处理，得到至少一个区域的初始图像向量；对至少一个区域的初始图像向量分别进行线性变换；根据至少一个区域的位置关系，确定至少一个区域对应初始图像向量的一维位置编码；基于至少一个区域线性变换后的初始图像向量、一维位置编码和区别于其他初始图像向量的段嵌入，确定至少一个区域的图像向量。[0124]在一种实施方式中，位置特征为二维位置特征，位置向量为二维位置向量；确定向量单元904还用于：对二维位置特征表征的文本框的第一坐标和第二坐标，以及文本框的高度和文本框的宽度进行编码，第一坐标和第二坐标分别为文本框对角线位置处的坐标；将编码后第一坐标中的x坐标和第二坐标中的x坐标，与编码后文本框的宽度进行拼接，得到x轴方向的位置向量；将编码后第一坐标中的y坐标和第二坐标中的y坐标，与编码后文本框的高度进行拼接，得到y轴方向的位置向量；将x轴方向的位置向量和y轴方向的位置向量，作为文本框的二维位置向量。[0125]在一种实施方式中，融合单元905用于：将文本向量和至少一个区域的图像向量进行拼接；在拼接后的向量上叠加位置向量，得到输入向量；将输入向量输入bert模型进行融合，得到融合后的目标向量。[0126]在一种实施方式中，bert模型中包括多个编码器；融合单元905还用于：将输入向量输入第一个编码器；在第一个编码器中基于输入向量中各文本向量以及图像向量之间的相似度，确定相似度注意力分数；基于相似度注意力分数，和各文本向量对应的位置向量以及图像向量对应的位置向量，确定空间注意力分数；基于空间注意力分数，得到第一个编码器的输出；将第一个编码器的输出作为第二个编码器的输入，直到通过所有编码器后，得到融合后的目标向量。[0127]在一种实施方式中，装置900还包括关系提取单元906，用于在目标向量中提取实体及实体关系。[0128]关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。[0129]…[0130]本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。[0131]根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。[0132]图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。[0133]如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(rom)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(ram)1003中的计算机程序，来执行各种适当的动作和处理。在ram1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、rom1002以及ram1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。[0134]设备1000中的多个部件连接至i/o接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。[0135]计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如多模态特征的融合方法。例如，在一些实施例中，多模态特征的融合方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由rom1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到ram1003并由计算单元1001执行时，可以执行上文描述的多模态特征的融合方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行多模态特征的融合方法。[0136]本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。[0137]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。[0138]在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。[0139]为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。[0140]可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。[0141]计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。[0142]应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。[0143]上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：章良杰岳洪达许海洋冯博豪
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种基于多视线矢量的四足机器人姿态精确估计方法与流程
上一篇：超外差射频结构和电子设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。