识别文档中的键值对的制作方法

文档序号：28959513发布日期：2022-02-19 12:34阅读：来源：国知局

技术特征：
1.一种由一个或多个数据处理装置执行的方法，所述方法包括：向检测模型提供文档的图像，其中：所述检测模型被配置成根据多个检测模型参数的值来处理所述图像以生成定义为所述图像生成的一个或多个边界框的输出；并且为所述图像生成的每个边界框被预测成包围包括键文本数据和值文本数据的键值对，其中，所述键文本数据定义表征所述值文本数据的标签；以及对于为所述图像生成的所述一个或多个边界框中的每个：使用光学字符辨识技术来识别由所述边界框包围的文本数据；确定由所述边界框包围的所述文本数据是否定义键值对；以及响应于确定由所述边界框包围的所述文本数据定义键值对，提供所述键值对以用于在表征所述文档时使用。2.根据权利要求1所述的方法，其中，所述检测模型是神经网络模型。3.根据权利要求2所述的方法，其中，所述神经网络模型包括卷积神经网络。4.根据权利要求2所述的方法，其中，在训练示例集合上训练所述神经网络模型，每个训练示例包括训练输入和目标输出，所述训练输入包括训练文档的训练图像，并且所述目标输出包括定义所述训练图像中各自包围相应的键值对的一个或多个边界框的数据。5.根据权利要求1所述的方法，其中，所述文档是发票。6.根据权利要求1所述的方法，其中，向检测模型提供文档的图像包括：识别所述文档的特定类别；以及将所述文档的所述图像提供给检测模型，所述检测模型被训练来处理所述特定类别的文档。7.根据权利要求1所述的方法，其中，确定由所述边界框包围的所述文本数据是否定义键值对包括：确定由所述边界框包围的所述文本数据包括来自预定有效键集合的键；识别不包括所述键的由所述边界框包围的文本数据的一部分的类型；识别与所述键相对应的值的一个或多个有效类型的集合；以及确定不包括所述键的由所述边界框包围的所述文本数据的部分的类型被包括在与所述键相对应的值的一个或多个有效类型的所述集合中。8.根据权利要求7所述的方法，其中，识别与所述键相对应的值的一个或多个有效类型的集合包括：使用预定映射来将所述键映射到与所述键相对应的值的一个或多个有效类型的所述集合。9.根据权利要求8所述的方法，其中，所述有效键集合和从键到与所述键相对应的值的有效类型的对应集合的所述映射由用户提供。10.根据权利要求1所述的方法，其中，所述边界框具有矩形形状。11.根据权利要求1所述的方法，进一步包括：从用户接收所述文档；以及将所述文档转换为所述图像，其中，所述图像描绘所述文档。12.一种系统，包括：一个或者多个计算机；以及一个或者多个存储设备，所述一个或者多个存储设备通信地耦合到所述一个或者多个
计算机，其中所述一个或者多个存储设备存储指令，所述指令当由所述一个或者多个计算机执行时，使所述一个或者多个计算机执行包括下述的操作：向检测模型提供文档的图像，其中：所述检测模型被配置成根据多个检测模型参数的值来处理所述图像以生成定义为所述图像生成的一个或多个边界框的输出；并且为所述图像生成的每个边界框被预测成包围包括键文本数据和值文本数据的键值对，其中，所述键文本数据定义表征所述值文本数据的标签；以及对于为所述图像生成的所述一个或多个边界框中的每个：使用光学字符辨识技术来识别由所述边界框包围的文本数据；确定由所述边界框包围的所述文本数据是否定义键值对；以及响应于确定由所述边界框包围的所述文本数据定义键值对，提供所述键值对以用于在表征所述文档时使用。13.根据权利要求12所述的系统，其中，所述检测模型是神经网络模型。14.根据权利要求13所述的系统，其中，所述神经网络模型包括卷积神经网络。15.根据权利要求13所述的系统，其中，在训练示例集合上训练所述神经网络模型，每个训练示例包括训练输入和目标输出，所述训练输入包括训练文档的训练图像，并且所述目标输出包括定义所述训练图像中各自包围相应的键值对的一个或多个边界框的数据。16.根据权利要求12所述的系统，其中，所述文档是发票。17.一种或多种非暂时性计算机存储介质，所述非暂时性计算机存储介质存储指令，所述指令当由一个或多个计算机执行时，使所述一个或多个计算机执行包括下述的操作：向检测模型提供文档的图像，其中：所述检测模型被配置成根据多个检测模型参数的值来处理所述图像以生成定义为所述图像生成的一个或多个边界框的输出；并且为所述图像生成的每个边界框被预测成包围包括键文本数据和值文本数据的键值对，其中，所述键文本数据定义表征所述值文本数据的标签；以及对于为所述图像生成的所述一个或多个边界框中的每个：使用光学字符辨识技术来识别由所述边界框包围的文本数据；确定由所述边界框包围的所述文本数据是否定义键值对；以及响应于确定由所述边界框包围的所述文本数据定义键值对，提供所述键值对以用于在表征所述文档时使用。18.根据权利要求17所述的非暂时性计算机存储介质，其中，所述检测模型是神经网络模型。19.根据权利要求18所述的非暂时性计算机存储介质，其中，所述神经网络模型包括卷积神经网络。20.根据权利要求18所述的非暂时性计算机存储介质，其中，在训练示例集合上训练所述神经网络模型，每个训练示例包括训练输入和目标输出，所述训练输入包括训练文档的训练图像，并且所述目标输出包括定义所述训练图像中各自包围相应的键值对的一个或多个边界框的数据。

技术总结
用于将非结构化文档转换为结构化键值对的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。在一个方面，一种方法包括：向检测模型提供文档的图像，其中：检测模型被配置成处理图像以生成定义为图像生成的一个或多个边界框的输出；以及，为图像生成的每个边界框被预测成包围包括键文本数据和值文本数据的键值对，其中键文本数据定义表征值文本数据的标签；并且对于为图像生成的一个或多个边界框中的每个：使用光学字符辨别技术识别由边界框包围的文本数据；以及，确定由边界框包围的文本数据是否定义键值对。围的文本数据是否定义键值对。围的文本数据是否定义键值对。

技术研发人员：徐洋王江戴声扬
受保护的技术使用者：谷歌有限责任公司
技术研发日：2020.02.26
技术公布日：2022/2/18

完整全部详细技术资料下载

当前第2页1 2