一种基于RPA流程机器人的数据处理方法及系统与流程

文档序号:32061910发布日期:2022-11-04 23:29阅读:342来源:国知局
一种基于RPA流程机器人的数据处理方法及系统与流程
一种基于rpa流程机器人的数据处理方法及系统
技术领域
1.本发明涉及数据处理技术领域,具体涉及一种基于rpa流程机器人的表格数据处理方法及系统。


背景技术:

2.rpa机器人流程自动化是指开发人员预先设计流程规则,使得机器人能够模拟人工进行文本输入、复制、粘贴,以及鼠标移动、点击等操作,从而代替或协助人类完整重复性工作。
3.例如,申请号为cn202111033494.x的中国专利公开了一种基于rpa机器人的数据处理方法及装置,也可用于金融领域,方法包括:通过调用rpa机器人接口获取所述rpa机器人的基础功能组件和相应的业务流程报文,并根据与所述rpa机器人对应的报文规范对所述基础功能组件和所述业务流程报文进行归类抽象处理,得到结构化数据字典并向用户展示;接收所述用户对所述结构化数据字典进行选取后发送的基础功能模块选取指令和业务流程执行指令并生成rpa开发需求;本技术能够有效提升rpa需求挖掘与提出效率。
4.在电力系统中,为了加强业务流程的信息化管理,需要将纸质表格和各种格式的电子表格及在线表格的信息进行提取和集中管理。现有的信息提取主要是采用人工扫描配合手动复制输入的方式,将表格信息输入到管理系统中,需要大量的重复性劳动,浪费人力资源,且人工操作容易出现错漏,效率低下,有待改进。


技术实现要素:

5.基于上述表述,本发明提供了一种rpa流程机器人的表格数据处理方法及系统,其可以部分取代人工操作对表格信息自动提取,能提高工作效率。
6.本发明解决上述技术问题的技术方案如下:
7.一种基于rpa流程机器人的表格数据处理方法,包括以下步骤:
8.s1.对表格进行识别和预处理,将表格中的内容转化为可读取内容,对转化后的内容进行读取,区分内容中是否包含手写字,并据此对表格的类型进行定义;
9.s2.根据表格的类型对表格的区域进行模块划分,将手写字所在区域划分为模糊区域,而其他区域为可信区域;
10.s3.根据表格内的文字中手写字的占比对读取到的表格中文字内容进行置信度赋值;
11.s4.将模糊区域的文字的置信度值与预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息,提示管理人员对识别到的模糊区域的信息进行修改确认。
12.作为优选方案:s1步骤中对表格进行识别和预处理,对表格文件的后缀进行读取,判断表格的格式,对于图片或pdf格式的表格对其文字进行ocr识别,得到可读取的文字信息。
13.作为优选方案:在进行ocr识别时,根据文字的笔划平直度来确定该文字是书写字
还是机打字,并对识别到的每个文字进行标记和统计,汇总后计算得手写字在所有文字中的占比。
14.作为优选方案:当识别到表格中有手写字时,还包括对书写人识别和标记的步骤,在输出提示信息的同时向管理人员输出书写人的识别信息,并弹出可点选的操作窗,提示管理人员对该书写人的手写文字识别度进行赋值,即得到识别度值,多次赋值后计算得到该书写人的平均识别度值,将平均识别度值与模糊区域的文字置信度值进行计算,得到修正置信度,并将修正置信度与所述预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息。
15.作为优选方案:当识别到表格中有填写区域未填写内容时,向管理人管输出缺失信息,提示管理人员进行确认修改确认。
16.作为优选方案:向管理人员弹出可点选的操作窗,由管理人员选择所需提示的填写区域,当所需的填写区域未填写内容时,向管理人员输出缺失信息,提示管理人员进行修改确认。
17.作为优选方案:在向管理人员输出提示信息时,通过颜色和下划线对提示的内容进行标记显示。
18.一种基于rpa流程机器人的表格数据处理系统,包括:
19.预处理模块,其用于根据表格文件的后缀对表格文件进行识别和分类;
20.ocr识别模块,其用于对图片类或pdf类表格文件进行ocr识别,并根据笔划的平直度对机打字和手写字进行区分;
21.标识模块,其用于对ocr识别模块输出的识别文字进行排版和标记,将手写字所在区域定义为模糊区域,将其他区域定义为可信区域,通过颜色或下划线对模糊区域进行标记显示;
22.读取模块,其用于对ocr识别模块识别到的文字进行读取,汇总并计算手写字在所有识别到的文字中的占比,并输出统计结果;
23.赋值模块,其用于根据手写字的占比对表格文件的识别内容进行置信度赋值,手写字占比越高,则置信度越低;
24.比对提示模块,其用于将表格的文字内容的置信度值与预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息,提示管理人员对识别到的模糊区域的信息进行修改确认。
25.作为优选方案:所述赋值模块还包括修正单元,所述读取模块对识别到的文字内容中的签名处的人名进行读取,所述修正单元用于供管理人员对读取到的人名进行识别度赋值,所述修正单元用于将识别度值与置信度值进行计算,得到修正后的置信度值。
26.与现有技术相比,本技术的技术方案具有以下有益技术效果:该方案可以对表格文件的类型进行区分和定义,对可读取表格文件中的文字内容直接提取,并能对不可读取表格文件的文字内容进行自动转化和提取;且能区分表格中的手写字,并根据提取到的文字内容中的手写字的占比对提取到达表格内容的可信度进行自动预判,当预判到可信度较低时,才提示管理人员人工对提取到的文字内容进行审核、修改和确认,从而能避免出现向管理系统输入错误信息。该方案其可以部分取代人工操作对表格信息自动提取,能显著提高工作效率。
附图说明
27.图1为实施例一中的方法流程框图。
具体实施方式
28.实施例一:
29.参照图1,一种基于rpa流程机器人的表格数据处理方法,包括以下步骤:
30.s1.对表格进行识别和预处理,将表格中的内容转化为可读取内容,对转化后的内容进行读取,区分内容中是否包含手写字,并据此对表格的类型进行定义;
31.在实际的情况中,表格的文件格式多种多样,结合业务中所用到的几种表格格式,提前将表格格式进行规定,例如规定在业务流程中只能使用后缀为doc、docx、wps、xls、jpg、png、pdf、htm、html格式的表格文件。根据后缀对表格文件进行分类,将表格文件大致分为两类,第一类为可直接读取,第二类为不可直接读取。
32.doc、docx、wps、xls为标准的文档格式,此类表格文件的内容无需识别就能准确读取;htm、html为网页文档格式,此类表格文件的内容也可以直接读取。
33.而jpg、png、pdf为图片和pdf格式的表格文件,此类表格文件的内容不能直接读取,因而需要先将此类表格的内容识别和转化为可读取的文件格式,再读取其内容。且由于图片和pdf格式的表格文件中通常含有手写字和签名,即包含手写内容,在对手写内容进行识别和输出时,难以避免存在识别出错的情况。且一个表格文件中手写内容越多时,对手写内容进行识别出错的频次也越高。
34.本实施例中,当识别到表格文件的后缀为doc、docx、wps、xls、htm、html格式的表格文件时,直接读取并输出表格文件里面的内容;当识别到表格文件的后缀为jpg、png或pdf时,通过对表格文件内容进行ocr识别,识别并输出表格内的文字信息。且在识别过程中通过判断各个文字的笔划平直度来区分该文字是机打字还是手写字。
35.判断笔划的平直度先是建立坐标系,选取文字的其中几个笔划(ocr识别,白色区域为空白区域,黑色区域为笔划),在每个笔划上选取几个点(即在几处连续的黑色区域选取几个点)并确定几个点的坐标,通过相邻三个点的横纵坐标的差值大小来判断,若出现相邻三个点的横纵坐标等值变化的情况,则认为当前文字为机打字,否则为手写字。
36.当表格文件中不含手写字时,将其定义为“一类”文件;当表格文件中含有手写字时,将其定义为“二类”文件。
37.s2.根据表格的类型对表格的区域进行模块划分,将手写字所在区域划分为模糊区域,而其他区域为可信区域;
38.对于“一类”文件,将其整体划分为可信文件;二对于“二类”文件,将其内容中的手写字区域划分为模糊区域,而其他区域划分为可信区域。
39.s3.根据表格内的文字中手写字的占比对读取到的表格中文字内容进行置信度赋值;
40.对“二类”文件,进行ocr识别,在ocr识别的过程中,对手写字、机打字进行区分和统计,并计算手写字在文字中的占比,输出统计结果。由于表格文件中手写内容越多时,对手写内容进行识别出错的频次也越高。所以手写字的占比对表格文件内容整体识别的准确度是有直接影响的,可以简单定义:手写字的占比越高,则整体识别的准确度越低。根据手
写字的占比对表格文件的识别置信度赋值,例如:无手写字时,置信度为10;当手写字的占比低于10%时,置信度为9;手写字占比为10%-20%时,置信度为8
……
手写字占比为80%-90%时,置信度为1;手写字占比大于90%时,置信度为0。
41.s4.将模糊区域的文字的置信度值与预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息,提示管理人员对识别到的模糊区域的信息进行修改确认。
42.通过预先设定提示规则,例如只有当读取到的表格文件的内容的置信度低于8时,输出读取到的文字内容,提示管理人员对读取到的文字内容进行审阅、修改和确认,在管理人员点击确认后,该表格文件中读取到的文字内容才算有效内容,可以进行后续的流程,否则不能继续后续的流程。
43.实际上,对于不同的书写人,其手写字的笔迹和工整度都不一样,而书写的笔迹和工整度都会直接影响到ocr识别的准确度,笔迹越清晰、工整度越高,则识别的准确度越高。因此,不对不同的书写人,其手写字的识别准确度是不同的,所以可以根据书写人的手写字识别准确度来对表格文件中读取到的文字内容的置信度进行修正,而不仅仅是参考手写字的占比。对于手写字识别准确度较高的书写人,其手写字可能都能准确识别,因此不必对由包含其手写字的表格文件的内容进行赋值并提示,以减少不必要的提示,提高表格数据处理的效率。
44.具体实现方式为:在s4在步骤中,当读取到的表格文件的内容置信度低于预设值时,输出读取到的文字内容,输出的文字内容中包含书写人的签名,提示管理人员对输出的文字内容进行人工审核修改和确认,以修正识别错误的文字,管理人员修改完成点击确认后,文字内容才认为是有效内容,才能执行下一步的流程。若输出的文字内容中包含书写人的签名,在管理人员点击完成确认后,还弹出该识别度赋值点选框,提示管理人员对该书写人的手写字的识别度(即识别准确度)输入赋值。管理人员可以根据手动修正的字数给来赋值,修正的字数越多则赋值越低,若书写人的手写字都能准确识别,则其识别度值大于1
45.对同一书写人的多个表格文件内的手写字识别度进行赋值,计算得到该书写人的平均识别度值,将平均识别度值与模糊区域的文字置信度值进行计算,得到修正置信度,并将修正置信度与所述预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息。
46.如此,当书写人的手写字都能准确识别时,其修正置信度必然是大于预设的置信度的,对于包含有该书写人手写字的表格文字内容,系统将不会输出识别到的文字内容而是自动认为文字内容是有效内容,自动进入下一步流程,无需管理人员进行审核、修改和确认的步骤,减少不必要的提示,提高工作效率。
47.本实施例中,当识别到表格中有填写区域(ocr识别到表格中的长段下划线,认为该区域为填写区域,若该区域内未识别到文字,则认为未填写)未填写内容时,向管理人管输出缺失信息,提示管理人员进行确认修改确认。具体为向管理人员弹出可点选的操作窗,由管理人员选择所需提示的填写区域。
48.本实施例中,在向管理人员输出提示信息时,通过颜色和下划线对模糊区域和缺失区域进行标记显示,以便于管理人员快速直观地找到需要审核修改的区域,可以提高操作效率。
49.实施例二:
50.一种基于rpa流程机器人的表格数据处理系统,其特征是,包括:
51.预处理模块,其用于根据表格文件的后缀对表格文件进行识别和分类;
52.ocr识别模块,其用于对图片类或pdf类表格文件进行ocr识别,并根据笔划的平直度对机打字和手写字进行区分;
53.标识模块,其用于对ocr识别模块输出的识别文字进行排版和标记,将手写字所在区域定义为模糊区域,将其他区域定义为可信区域,通过颜色或下划线对模糊区域进行标记显示;
54.读取模块,其用于对ocr识别模块识别到的文字进行读取,汇总并计算手写字在所有识别到的文字中的占比,并输出统计结果;
55.赋值模块,其用于根据手写字的占比对表格文件的识别内容进行置信度赋值,手写字占比越高,则置信度越低;
56.比对提示模块,其用于将表格的文字内容的置信度值与预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息,提示管理人员对识别到的模糊区域的信息进行修改确认。
57.本实施例中:所述赋值模块还包括修正单元,所述读取模块对识别到的文字内容中的签名处的人名进行读取,所述修正单元用于供管理人员对读取到的人名进行识别度赋值,所述修正单元用于将识别度值与置信度值进行计算,得到修正后的置信度值。
58.以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1