通过神经网络模型进行文档图像处理的方法及装置与流程

文档序号：36707274发布日期：2024-01-16 11:42阅读：35来源：国知局

本公开涉及图像处理，特别涉及通过神经网络模型进行文档图像处理的方法及装置。

背景技术：

1、文档图像处理是一种计算机视觉任务，需要对文档类型的图像进行解析，以抽取其中的目标字段。现有的文档图像处理技术通常基于文字在图像中的位置信息，从文档图像中确定出待识别的图像区域，以及对图像区域进行文字识别，并基于识别出的文字预测出文档图像中包含的关键字段。但是，这种处理方式往往忽略了文字之间的语义约束，从而降低了文档图像处理的准确性。

技术实现思路

1、本公开提供一种通过神经网络模型进行文档图像处理的方法、装置、计算机存储介质、电子设备及进行文档图像处理的神经网络模型的训练方法，能够提高文档图像处理的准确性。

2、根据第一方面，提供一种通过神经网络模型进行文档图像处理的方法，神经网络模型预先通过整体训练得到，其中至少包括匹配预测网络和逻辑交互网络，该方法包括：从包含文档内容的目标图像中识别出多个文字；对于多个文字中任意两个文字构成的文字组合，使用匹配预测网络，得到文字组合属于同一语义字段的第一概率；在逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率；基于各个文字组合对应的第二概率，确定多个文字各自所属的语义字段。

3、由此，在通过匹配预测网络预测文字组合属于同一语义字段的概率的基础上，使用包括约束规则的逻辑交互网络进一步确定文字组合属于同一语义字段的概率，并最终得到文档图像中多个文字各自所属的语义字段，从而提高了文档图像处理的准确性。

4、在一种可能的实现方式中，神经网络模型还包括编码网络；该方法还包括：通过编码网络，基于多个文字的语义信息，以及其在目标图像中的位置信息，编码得到各个文字对应的第一向量。

5、在一种可能的实现方式中，匹配预测网络包括二分类器；使用匹配预测网络，得到文字组合属于同一语义字段的第一概率，包括：使用二分类器对构成文字组合的两个文字对应的第一向量进行处理，得到文字组合属于同一语义字段的第一概率。

6、在一种可能的实现方式中，神经网络模型还包括标签预测网络；该方法还包括：确定目标图像包含的多个语义字段对应的字段标签；对多个文字中的每个文字，使用标签预测网络包括的多分类器对该文字对应的第一向量进行处理，得到该文字分别匹配每一字段标签的概率组成的第二向量。

7、在一种可能的实现方式中，基于各个文字组合对应的第二概率，确定多个文字各自所属的语义字段，包括：基于各个文字组合对应的第二概率和各个文字对应的第二向量，确定多个文字各自所属的语义字段对应的字段标签。

8、在一种可能的实现方式中，多个文字中各个文字组合的第一概率构成第一概率矩阵；若干条约束规则对应于若干种矩阵操作；根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，包括：分别利用若干种矩阵操作，对第一概率矩阵进行运算更新，得到若干第二概率矩阵；将若干第二概率矩阵进行求和或加权求和，得到第三概率矩阵，第三概率矩阵中的矩阵元素表示第二概率。

9、在一种可能的实现方式中，每个约束规则对应一个爱因斯坦求和函数，矩阵操作根据爱因斯坦求和函数确定。

10、在一种可能的实现方式中，若干约束规则包括第一约束规则，第一约束规则对应于第一矩阵操作，第一矩阵操作包括，将任意的第i行第k列的矩阵元素值更新为第一目标值，第一目标值为，对第i行的矩阵元素和第k列的矩阵元素进行爱因斯坦求和得到的和值。

11、在一种可能的实现方式中，若干约束规则包括第二约束规则，第二约束规则对应于第二矩阵操作，第二矩阵操作包括，将任意的第i行第j列的矩阵元素值更新为第二目标值，第二目标值为，对第i行的矩阵元素和第j行的变换矩阵元素进行爱因斯坦求和得到的和值的相反数，其中，第j行的变换矩阵元素为1减去第j行矩阵元素得到的差值。

12、在一种可能的实现方式中，若干种矩阵操作在逻辑交互网络中并行执行。

13、在一种可能的实现方式中，多个文字中各个文字组合的第一概率构成第一概率矩阵；若干条约束规则对应于若干种矩阵操作；逻辑交互网络包括多个网络层，首个网络层的输入为第一概率矩阵；在逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，包括，在每个网络层中：分别利用若干种矩阵操作，对输入本网络层的概率矩阵进行运算更新，得到若干第二概率矩阵；将若干第二概率矩阵进行求和或加权求和，得到第三概率矩阵；多个网络层中最后一个网络层输出的第三概率矩阵中的矩阵元素表示第二概率。

14、在一种可能的实现方式中，编码网络采用transformer神经网络结构。

15、根据第二方面，提供一种进行文档图像处理的神经网络模型的训练方法，神经网络模型至少包括匹配预测网络和逻辑交互网络，方法包括：从包含文档内容的样本图像中识别出多个文字；样本图像具有标注数据，标注数据包括，该图像中包含的各个文字所属的标注语义字段；对于多个文字中任意两个文字构成的文字组合，使用匹配预测网络，得到文字组合属于同一语义字段的第一概率；在逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率；基于各个文字组合对应的第二概率，确定多个文字各自所属的预测语义字段；根据多个文字各自的预测语义字段和标注语义字段，更新神经网络模型。

16、由此，通过利用与文档理解相关的若干条约束规则进行神经网络模型训练，能够提高神经网络模型训练预测文字组合是否属于同一语义字段的准确性。

17、根据第三方面，提供一种通过神经网络模型进行文档图像处理的装置，神经网络模型预先通过整体训练得到，其中至少包括匹配预测网络和逻辑交互网络，装置包括：识别模块，用于从包含文档内容的目标图像中识别出多个文字；预测模块，用于对于多个文字中任意两个文字构成的文字组合，使用匹配预测网络，得到文字组合属于同一语义字段的第一概率；更新模块，用于在逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率；确定模块，用于基于各个文字组合对应的第二概率，确定多个文字各自所属的语义字段。

18、根据第四方面，提供一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时，实现上述第一方面或第一方面的任一种可能的实现方式所描述的方法，或者，实现上述第二方面所描述的方法。

19、根据第五方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现上述第一方面或第一方面的任一种可能的实现方式所描述的方法，或者，实现上述第二方面所描述的方法。

20、可以理解的是，上述第三方面至第五方面的有益效果可以参见上述第一方面至第二方面中的相关描述，在此不再赘述。

技术特征：

1.一种通过神经网络模型进行文档图像处理的方法，所述神经网络模型预先通过整体训练得到，其中至少包括匹配预测网络和逻辑交互网络，所述方法包括：

2.根据权利要求1所述的方法，其中，所述神经网络模型还包括编码网络；

3.根据权利要求2所述的方法，其中，所述匹配预测网络包括二分类器；

4.根据权利要求2所述的方法，其中，所述神经网络模型还包括标签预测网络；

5.根据权利要求4所述的方法，其中，所述基于各个文字组合对应的第二概率，确定所述多个文字各自所属的语义字段，包括：

6.根据权利要求1所述的方法，其中，所述多个文字中各个文字组合的第一概率构成第一概率矩阵；所述若干条约束规则对应于若干种矩阵操作；

7.根据权利要求6所述的方法，其中，每个所述约束规则对应一个爱因斯坦求和函数，所述矩阵操作根据所述爱因斯坦求和函数确定。

8.根据权利要求7所述的方法，其中，所述若干条约束规则包括第一约束规则，所述第一约束规则对应于第一矩阵操作，所述第一矩阵操作包括，将任意的第i行第k列的矩阵元素值更新为第一目标值，所述第一目标值为，对第i行的矩阵元素和第k列的矩阵元素进行爱因斯坦求和得到的和值。

9.根据权利要求7所述的方法，其中，所述若干条约束规则包括第二约束规则，所述第二约束规则对应于第二矩阵操作，所述第二矩阵操作包括，将任意的第i行第j列的矩阵元素值更新为第二目标值，所述第二目标值为，对第i行的矩阵元素和第j行的变换矩阵元素进行爱因斯坦求和得到的和值的相反数，其中，第j行的变换矩阵元素为1减去第j行矩阵元素得到的差值。

10.根据权利要求6所述的方法，其中，所述若干种矩阵操作在所述逻辑交互网络中并行执行。

11.根据权利要求1所述的方法，其中，所述多个文字中各个文字组合的第一概率构成第一概率矩阵；所述若干条约束规则对应于若干种矩阵操作；所述逻辑交互网络包括多个网络层，首个网络层的输入为所述第一概率矩阵；

12.根据权利要求2所述的方法，其中，所述编码网络采用transformer神经网络结构。

13.一种进行文档图像处理的神经网络模型的训练方法，所述神经网络模型至少包括匹配预测网络和逻辑交互网络，所述方法包括：

14.一种通过神经网络模型进行文档图像处理的装置，所述神经网络模型预先通过整体训练得到，其中至少包括匹配预测网络和逻辑交互网络，所述装置包括：

15.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令所述计算机执行权利要求1-13中任一项所述的方法。

16.一种电子设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-13中任一项所述的方法。

技术总结
本公开提供一种通过神经网络模型进行文档图像处理的方法及装置，神经网络模型预先通过整体训练得到，其中至少包括匹配预测网络和逻辑交互网络，方法包括：从包含文档内容的目标图像中识别出多个文字；对于多个文字中任意两个文字构成的文字组合，使用匹配预测网络，得到文字组合属于同一语义字段的第一概率；在逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率；基于各个文字组合对应的第二概率，确定多个文字各自所属的语义字段。该实施方式使用包括约束规则的神经网络模型确定文档图像中多个文字各自所属的语义字段，因此可以提高文档图像处理的准确性。

技术研发人员：何建杉,徐威迪,王经纬,周虹廷,褚崴,谢乐乐
受保护的技术使用者：支付宝（杭州）信息技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何建杉,徐威迪,王经纬,周虹廷,褚崴,谢乐乐
技术所有人：支付宝（杭州）信息技术有限公司
我是此专利的发明人

上一篇：掩膜版、光学临近修正方法、装置及电子设备与流程
上一篇：一种在自有App上运行的小程序引擎的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。