数字员工ai智能流程编排方法
技术领域
1.本发明涉及数据处理技术领域,特别涉及数字员工ai智能流程编排方法。
背景技术:2.当前,纸质文件所记载的流程信息,如果采用人工输入至计算机,则效率较低,因此图像识别是一种常见的解决方案。其中,ocr(optical character recognition,光学字符识别)是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机数据的过程。是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。衡量一个ocr系统性能好坏的主要指标有:拒识率、误识率、识别速度、产品的稳定性、易用性等。rpa数字员工将传统字符识别与机器学习进行深度融合,可以从非标准文档中解析数据,有助于将手写文本字符转换为机器可读的格式。多数情况下,ocr主要用于简化纸质业务并将其转化成数字化业务,例如:pdf、扫描文件、纸质发票、传真和手写文档等。
3.但对于纸质文件的识别来说,由于文件摆放可能不整齐或角度不对正,可能实际拍摄到的字符方向会出现变化,同时个别文件包含表格或流程图,常规的字符方向判断无法使用,因此现有技术针对这一问题,特别是角度差距较大时,会出现难以准确识别的情况。
技术实现要素:4.针对现有技术在纸质文件识别过程中难以判断字符角度或方向的问题,本发明提供了数字员工ai智能流程编排方法,主要针对文字识别的前期处理,自动修正字符的角度和方向,避免因特殊的表格或流程图等原因导致识别错误或识别失败,有利于提高处理的速度和准确性,得到的结果准确清晰便于后续识别。
5.以下是本发明的技术方案。
6.数字员工ai智能流程编排方法,包括以下步骤:s1:采集带有流程信息的纸质文件的原始图像,对原始图像进行差异灰度化,得到若干差异灰度化图像;s2:对差异灰度化图像进行预设角度的旋转,得到若干旋转灰度化图像;s3:对旋转灰度化图像进行膨胀,利用霍夫变换检测膨胀后每行字符形成的字符直线,得到字符走向图;s4:根据字符走向图对膨胀前的旋转灰度化图像进行透视变换,得到矫正图;s5:提取矫正图中的箭头标识,以箭头标识作为辅助信息对矫正图进行仿射变换,旋转得到还原图,将还原图二值化后输入至字符识别模块进行识别,依次提取流程信息完成编排。
7.本发明通过差异灰度化可以防止单一灰度化可能出现的图像不清楚的问题,通过
预设角度的旋转,可以保证出现至少一张与摆正角度较小的图像,以减少后续变换过程出错的概率,最后通过一系列变换并借助箭头表示识别流程信息,可以避免因特殊的表格或流程图等原因导致识别错误或识别失败,有利于提高处理的速度和准确性。
8.作为优选,所述对原始图像进行差异灰度化,包括:对原始图像以rgb值的平均值作为灰度值进行平均值灰度化,得到平均值灰度化图像;对原始图像以rgb值中的最大值作为灰度值进行最大值灰度化,得到最大值灰度化图像;对原始图像以rgb值结合预设权重进行加权平均灰度化,得到加权平均灰度化图像。
9.作为优选,所述预设权重的获取过程,包括:计算原始图像中,r值大于临界值的像素与总像素之比,得到第一比值,计算g值大于临界值的像素与总像素之比,得到第二比值,计算b值大于临界值的像素与总像素之比,得到第三比值;根据第一比值、第二比值、第三比值的大小,等比例确定rgb每个值的预设权重。
10.本方案中,以r值大于临界值的像素与总像素之比为例,第一比值越大,表示图像整体上r值的色彩占比越大,对于图像的影响程度就越大,因此等比例确定rgb每个值的预设权重时,r值得到的权重就越大,反之比值越小则得到的权重就越小;该方式可以强化图像色彩特点所带来的差异,特别适用于文字识别类的图像处理任务,因为相比一般的图像,以文字为主的图像中,文字与背景的色彩参数之间通常有明显断档,通过这一方式可以放大参数断档所带来的差异。临界值一般设置为128左右,可以根据实际需要调整。
11.作为优选,所述对差异灰度化图像进行预设角度的旋转,得到若干旋转灰度化图像,包括:设置预设角度为-90度、90度、180度,每幅差异灰度化图像依次选取一个预设角度,进行旋转得到若干旋转灰度化图像。一般来说,不确定角度的图像与期望的摆正角的夹角小于45度时识别起来最容易,但事实上图像可能存在平放、倒放的情况,会严重增加识别难度,因此通过上述旋转,必然可以得到至少一个与摆正角的夹角小于45度的图像,识别准确的概率增加,利于文字识别。
12.作为优选,所述根据字符走向图对膨胀前的旋转灰度化图像进行透视变换,得到矫正图,包括:以字符走向图中的任意一条字符直线为基准直线,局部拉伸或压缩膨胀前的旋转灰度化图像的像素,以使其余字符直线均与基准直线平行,得到矫正图。
13.作为优选,所述提取矫正图中的箭头标识,以箭头标识作为辅助信息对矫正图进行仿射变换,旋转得到还原图,包括:判断同一矫正图中箭头标识的方向,得到若干单位矢量,计算若干单位矢量的总矢量,判断总矢量的指向方向(x,y);旋转矫正图,直至矫正图中字符直线处在水平位置,且总矢量的指向方向(x,y)中y小于等于0,得到候选图;根据候选图相对于原始图像的实际旋转角进行筛选,保留至少一张合格的候选图
作为还原图。
14.本方案对于带有箭头的流程图的识别进行了针对性优化,流程图一般整体从上到下的形式,但由于局部分叉箭头方向并不一致,因此这里根据总矢量的指向方向进行判断,当旋转之后y小于等于0,则表示总矢量具有向下的分量,不论其是往左偏还是往右偏,均符合条件。该步骤可以过滤掉旋转后倒置的图像。
15.作为优选,所述根据候选图相对于原始图像的实际旋转角进行筛选,保留至少一张合格的候选图作为还原图,包括:判断同一原始图像处理得到的不同候选图相对于原始图像的实际旋转角,计算每个实际旋转角的数值分布,保留数值差值在10%以内的实际旋转角,删除其余的实际旋转角所对应的候选图,剩下的候选图作为还原图。虽然字符直线处在水平位置,但不排除图像被处理成倒置的情况,在引入箭头判断的基础上可以减少这种可能发生,再通过进一步筛选可以基本上去除这一可能。
16.作为优选,所述实际旋转角的计算过程,包括:记录每幅旋转灰度化图像所旋转的预设角度p;记录矫正图旋转得到候选图时的旋转角度q;实际旋转角c=q+p,其中顺时针旋转记为正,逆时针旋转记为负。
17.本发明的实质性效果包括:利用数字员工对待识别图像进行ai文字识别,通过差异灰度化可以得到若干突出不同颜色特点的灰度图,便于得到特征最清晰的结果;通过预设角度的旋转可以至少得到一个与摆正角的夹角小于45度的图像,识别准确的概率增加;通过对箭头方向的整体判断,辅助矫正过程;通过上述各步骤的层层递进,相互之间共同作用,可以逐渐减少角度、方向的错误情况,增加矫正成功率,最终准确判断文字方向,不会出现文字倒置的情况,适用于流程图的初期识别。
附图说明
18.图1是本发明实施例的流程图。
具体实施方式
19.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合实施例,对本技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
20.应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
21.应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
22.应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关
联对象的关联关系,表示可以存在三种关系,例如,和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含a、b和c”、“包含a、b、c”是指a、b、c三者都包含,“包含a、b或c”是指包含a、b、c三者之一,“包含a、b和/或c”是指包含a、b、c三者中任1个或任2个或3个。
23.下面以具体的实施例对本发明的技术方案进行详细说明。实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
24.实施例:数字员工ai智能流程编排方法,如图1所示,包括以下步骤:s1:采集带有流程信息的纸质文件的原始图像,对原始图像进行差异灰度化,得到若干差异灰度化图像。包括:对原始图像以rgb值的平均值作为灰度值进行平均值灰度化,得到平均值灰度化图像;对原始图像以rgb值中的最大值作为灰度值进行最大值灰度化,得到最大值灰度化图像;对原始图像以rgb值结合预设权重进行加权平均灰度化,得到加权平均灰度化图像。
25.其中,预设权重的获取过程,包括:计算原始图像中,r值大于临界值的像素与总像素之比,得到第一比值,计算g值大于临界值的像素与总像素之比,得到第二比值,计算b值大于临界值的像素与总像素之比,得到第三比值;根据第一比值、第二比值、第三比值的大小,等比例确定rgb每个值的预设权重。
26.本方案中,以r值大于临界值的像素与总像素之比为例,第一比值越大,表示图像整体上r值的色彩占比越大,对于图像的影响程度就越大,因此等比例确定rgb每个值的预设权重时,r值得到的权重就越大,反之比值越小则得到的权重就越小;该方式可以强化图像色彩特点所带来的差异,特别适用于文字识别类的图像处理任务,因为相比一般的图像,以文字为主的图像中,文字与背景的色彩参数之间通常有明显断档,通过这一方式可以放大参数断档所带来的差异。
27.在大部分情况下,常规的灰度值化方式就可以得到预期的效果,但有时候却无法起到作用,例如,在一幅拍摄的图像中,背景与文字颜色非常相近,背景色偏绿,其rgb值是(180,250,100),占了整幅图像的70%,而文字部分颜色偏蓝,其rgb值是(100,180,250),占了整幅图像的30%。如果以平均值灰度化,则得到的背景和文字灰度值相同,这显然不利于后续的识别;如果以最大值灰度化,则得到的背景和文字灰度值仍然相同,也显然不利于后续的识别。虽然大部分情况下,这些处理方式得到的灰度值不会相等,但此时必须依赖其他方式进行灰度化。
28.如果采用本实施例的加权平均灰度化,临界值取128的情况下,r值大于128的像素占了70%,因此第一比值是0.7;所有像素的g值都大于128,因此第二比值是1;同理,第三比值是0.3。以等比例确定rgb每个值的预设权重,则r的预设权重是0.35,g的预设权重是0.5,b的预设权重是0.15,因此,背景的灰度值是203,文字的灰度值是162.5。由于原图本身颜色非常相近,因此灰度化后肉眼看到的差异并不明显,但相比常规方式,已经有了明显的区
分,并且通过调整临界值,还可以得到更清楚的图像。
29.s2:对差异灰度化图像进行预设角度的旋转,得到若干旋转灰度化图像。包括:设置预设角度为-90度、90度、180度,每幅差异灰度化图像依次选取一个预设角度,进行旋转得到若干旋转灰度化图像。一般来说,不确定角度的图像与期望的摆正角的夹角小于45度时识别起来最容易,但事实上图像可能存在平放、倒放的情况,会严重增加识别难度,因此通过上述旋转,必然可以得到至少一个与摆正角的夹角小于45度的图像,识别准确的概率增加,利于文字识别。
30.s3:对旋转灰度化图像进行膨胀,利用霍夫变换检测膨胀后每行字符形成的字符直线,得到字符走向图。
31.倾斜矫正最常用的方法是霍夫变换,其原理是将图片进行膨胀处理,将断续的文字连成一条直线,便于直线检测。
32.s4:根据字符走向图对膨胀前的旋转灰度化图像进行透视变换,得到矫正图。包括:以字符走向图中的任意一条字符直线为基准直线,局部拉伸或压缩膨胀前的旋转灰度化图像的像素,以使其余字符直线均与基准直线平行,得到矫正图。该过程类似梯形矫正的过程,可以把因为拍摄位置导致的角度进行修正。
33.s5:提取矫正图中的箭头标识,以箭头标识作为辅助信息对矫正图进行仿射变换,旋转得到还原图,将还原图二值化后输入至字符识别模块进行识别,依次提取流程信息完成编排。用于将倾斜图片矫正到水平位置。包括:判断同一矫正图中箭头标识的方向,得到若干单位矢量,计算若干单位矢量的总矢量,判断总矢量的指向方向(x,y);旋转矫正图,直至矫正图中字符直线处在水平位置,且总矢量的指向方向(x,y)中y小于等于0,得到候选图;根据候选图相对于原始图像的实际旋转角进行筛选,保留至少一张合格的候选图作为还原图。
34.本方案对于带有箭头的流程图的识别进行了针对性优化,流程图一般整体从上到下的形式,但由于局部分叉箭头方向并不一致,因此这里根据总矢量的指向方向进行判断,当旋转之后y小于等于0,则表示总矢量具有向下的分量,不论其是往左偏还是往右偏,均符合条件。该步骤可以过滤掉旋转后倒置的图像。
35.另外,还原图的提取过程包括:判断同一原始图像处理得到的不同候选图相对于原始图像的实际旋转角,计算每个实际旋转角的数值分布,保留数值差值在10%以内的实际旋转角,删除其余的实际旋转角所对应的候选图,剩下的候选图作为还原图。
36.其中实际旋转角的计算过程,包括:记录每幅旋转灰度化图像所旋转的预设角度p;记录矫正图旋转得到候选图时的旋转角度q;实际旋转角c=q+p,其中顺时针旋转记为正,逆时针旋转记为负。
37.虽然字符直线处在水平位置,但不排除图像被处理成倒置的情况,在引入箭头判断的基础上可以减少这种可能发生,再通过进一步筛选可以基本上去除这一可能。
38.需要说明的是,通过上述各步骤的层层递进,相互之间共同作用,可以逐渐减少角度、方向的错误情况,增加矫正成功率,最终准确判断文字方向,不会出现文字倒置的情况,适用于流程图的初期识别。上述步骤实现了1+1大于2的结果,缺少任意步骤,都将使其他步骤失去最优的效果,导致结果不准确。
39.本实施例通过差异灰度化可以防止单一灰度化可能出现的图像不清楚的问题,通过预设角度的旋转,可以保证出现至少一张与摆正角度较小的图像,以减少后续变换过程出错的概率,最后通过一系列变换并借助箭头表示识别流程信息,不会出现文字倒置的情况,可以避免因特殊的表格或流程图等原因导致识别错误或识别失败,有利于提高处理的速度和准确性。
40.在本技术所提供的实施例中,应该理解到,所揭露的结构和方法,可以通过其它的方式实现,或一些特征可以忽略,或不执行。
41.另外,在本技术实施例可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
42.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
43.以上内容,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。