一种基于YOLOv5的文档图像流程图识别方法、设备及介质与流程

文档序号：31586164发布日期：2022-09-21 01:56阅读：来源：国知局

技术特征：
1.一种基于yolo v5的文档图像流程图识别方法，其特征在于，包括以下步骤：步骤1：利用yolo v5定位流程图在文档图像中的位置；步骤2：流程图结构元素检测，得到每个结构元素的类别和位置信息；步骤3：文字识别，得到结构元素内文本信息和条件文字信息；步骤4：分析箭头线段位置，得到每个箭头线段的起始位置信息；步骤5：结合结构元素和箭头线段的位置信息分析流程图的关系结构；步骤6：流程图识别结果保存。2.根据权利要求1所述的方法，其特征在于，所述步骤1具体内容为：1.1：使用带有流程图位置信息的公开文档图像数据集，或使用已有的文档图像，并标记图像中流程图区域的位置作为数据集；1.2：使用所述步骤1.1得到的数据集训练yolo v5模型，保存训练后的模型；1.3：通过训练完成的模型检测图像中的流程图区域，得到流程图的左上角和右下角坐标信息，对文档图像进行切片，保留图像中的流程图区域。3.根据权利要求1所述的方法，其特征在于：所述步骤2具体内容为：2.1：流程图数据生成，设定流程图结构元素类别，随机生成流程图数据，保留生成的流程图结构与对应的类别和位置信息作为数据集，或使用已有的含流程图文档图像数据，并标记流程图中每一个结构元素的类别和位置信息作为数据集。2.2：使用所述步骤2.1得到的数据集训练yolo v5模型，保存训练后的模型。2.3：通过训练完成的模型对流程图进行结构元素的识别与定位，得到每个结构元素的类别信息与位置信息。4.根据权利要求3所述的方法，其特征在于，所述流程图结构元素类别为条件文字、矩形、椭圆形、菱形或平行四边形。5.根据权利要求1所述的方法，其特征在于，所述步骤3中，文字识别需要通过ocr模型识别结构元素内的文字。6.根据权利要求5所述的方法，其特征在于，所述步骤3还包括对不位于结构元素框内的条件文字进行检测与识别。7.根据权利要求1所述的方法，其特征在于，所述步骤4中，箭头线段位置分析采用基于连通域的方法，具体过程如下：4.1：根据所述步骤2得到的结构元素位置信息，去除流程图区域的结构元素，保留结构元素之间的箭头线段；4.2：二值化取反操作，得到二值化的图像，其中箭头线段部分的像素是255，背景部分像素是0；4.3：检测图像中的连通域，每个连通域表示一个箭头线段，得到构成该箭头线段的像素信息；4.4：箭头线段起始位置分析：对每个箭头区域，设定一个较小的区域，遍历以每个像素点为中心的区域；如果该区域存在两个连通域，则该区域作为箭头线段的候选端点区域，并统计该区域内值为255的像素数目，同时不再分析以该区域内其余像素点为中心的区域；若存在三个连通域，则是箭头线中的非端点像素；
4.5：候选端点区域中，值为255的像素数目较多的区域为箭头区域，数目较少的是箭尾区域。箭头和箭尾区域对应的中心点坐标作为箭头和箭尾的坐标信息。8.根据权利要求1所述的方法，其特征在于，所述步骤5中，流程图关系结构分析：每一条箭头线段都表示一条关系，通过箭头和箭尾的位置信息遍历除条件文字以外的结构元素的位置信息，得到与该箭头线的箭头和箭尾相连的结构元素；对于条件文字，查找与它欧氏距离最近的箭头线段，成为箭头线段和结构元素间的条件。9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-8任一项所述方法的步骤。10.一种计算机可读存储介质，用于存储计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-8任一项所述方法的步骤。

技术总结
本发明涉及图像处理技术领域，具体涉及一种基于YOLO v5的文档图像流程图识别方法、设备及介质；包括：步骤1：利用YOLO v5定位流程图在文档图像中的位置；步骤2：流程图结构元素检测，得到结构元素的类别和位置；步骤3：文字识别，得到结构元素内文本和条件文字信息；步骤4：分析箭头线段位置，得到箭头线段的起始位置信息；步骤5：结合结构元素和箭头线段的位置分析流程图的关系结构；步骤6：流程图识别结果保存；本发明通过YOLO v5模型有效定位文档图像中的流程图所在位置，并且能够检测流程图中的各个结构元素，鲁棒性强，避免了连通域方法对于轮廓连续性的严重依赖问题；通过一种端到端的目标检测方式，避免了角点检测法涉及的规则设计复杂问题。设计复杂问题。设计复杂问题。

技术研发人员：马红伟王振鑫裴昀贺亮潘维有
受保护的技术使用者：吉林省吉林祥云信息技术有限公司
技术研发日：2022.05.12
技术公布日：2022/9/20

完整全部详细技术资料下载

当前第2页1 2