本发明涉及数据处理及数字医疗,尤其涉及在对医疗发票进行数据审核管理入库等场景下的一种基于医疗发票的大写数字对接方法、装置、设备及计算机可读存储介质。
背景技术:
1、随着信息化时代的发展,一些医疗发票数据需要识别、审核、入库等一些列操作进行数据的保留,实现机构的数据化发展。如今的各医疗发票与增值税发票在金额部分的格式有所不同,尤其是一些相对老式的医疗发票或者某些地区的医疗发票,其发票制式拥有高度的模板化。其中,印刷体中提供发票金额大写中的单位,打印机在相应的位置打印具体的大写数字。由于打印的位置可能有漂移,导致在光学字符识别中无法自动将其识别成一个完整的文本块。
2、常见的解决方法是通过画一条横向直线,经过尽量多的文本框,即将文本框尽量分配到对应的行中,但此种方法鲁棒性较差,对同一行文本框数量较多时,效果较差,会出现直线倾斜将不同行的文本框分配到同一行的情况,而且在打印体漂移时,效果则会更差。
技术实现思路
1、本发明提供一种基于医疗发票的大写数字对接方法、装置、设备及存储介质,其主要目的在于在各类医疗发票识别过程中,提高发票中印刷体与打印体数字的识别对接准确性。
2、为实现上述目的,本发明提供的一种基于医疗发票的大写数字对接方法,包括:
3、对预构建的医疗发票进行大写数字文本检测,得到文本框对象集合;
4、根据预设的检索策略,将所述文本框对象集合分组为锚点框对象与待对接框对象,并根据所述锚点框对象与所述待对接框对象,构建所述医疗发票的各个目标搜索框;
5、识别各所述目标搜索框中锚点框对象的对象类型;
6、当所述目标搜索框中锚点框对象的对象类型为一级锚点框时,对所述目标搜索框进行二次文本检索,得到待选组合文本框;
7、当所述目标搜索框中锚点框对象的对象类型为二级锚点框时,对所述目标搜索框进行文本检索,得到待选文本框;
8、根据所述待选组合文本框及所述待选文本框的坐标信息,对各个所述待选组合文本框及各个所述待选文本框进行排序拼接,得到大写数字拼接结果。
9、可选的,所述根据预设的检索策略,将所述文本框对象集合分组为锚点框对象与待对接框对象,并根据所述锚点框对象与所述待对接框对象,构建所述医疗发票的各个目标搜索框,包括:
10、根据预设的检索策略,将所述文本框对象集合中属于预设的数字单位类型的文本框对象设置为锚点框对象,将属于预设的大写数字类型的文本框对象设置为待对接框对象;
11、将符合所述检索策略中的预设相对位置模板的锚点框对象与待对接框对象进行框选,组建初级目标搜索框;
12、识别所述初级目标搜索框中的锚点框对象的对象类型,根据所述对象类型检索所述检索策略中的框大小配置表,得到框大小参数信息,并根据所述框大小参数信息对所述初级目标检索框进行扩选,得到目标搜索框。
13、可选的,所述识别所述初级目标搜索框中的锚点框对象的对象类型,包括:
14、获取所述锚点框对象中的文本内容;
15、根据所述检索策略,判断所述文本内容是否为预设的一级数字单位;
16、当所述文本内容为所述一级数字单位时,判定所述锚点框对象的对象类型为一级锚点框;
17、当所述文本内容不为所述一级数字单位时,判定所述锚点框对象的对象类型为二级锚点框。
18、可选的,所述数字单位类型中的一级锚点框的单位包括万、元、角及分,二级锚点框的单位包括仟、佰及拾,所述大写数字类型包括零到玖的大写数字。
19、可选的,所述根据预设的检索策略之前,所述方法还包括:
20、根据重复次数,将所述医疗发票中出现一次的数字单位设置为一级数字单位,将所述医疗发票中多次出现的数字单位设置为二级数字单位,得到第一策略;
21、对所述数字单位中的万及元两个单位配置框大小第一扩展参数,对所述数字单位除所述万及元两个单位外的其他单位配置框大小第二扩展参数,得到框大小配置表;
22、根据待对接框对象在锚点框对象的左侧的读数规矩,构建相对位置模板;
23、利用所述第一策略、框大小配置表及相对位置模板构建检索策略。
24、为了解决上述问题,本发明还提供一种基于医疗发票的大写数字对接装置,所述装置包括:
25、大写数字文本检测模块,用于对预构建的医疗发票进行大写数字文本检测,得到文本框对象集合;
26、锚点及待对接框识别模块,用于根据预设的检索策略,将所述文本框对象集合分组为锚点框对象与待对接框对象,并根据所述锚点框对象与所述待对接框对象,构建所述医疗发票的各个目标搜索框;
27、零散文本数字识别模块,用于识别各所述目标搜索框中锚点框对象的对象类型,及当所述目标搜索框中锚点框对象的对象类型为一级锚点框时,对所述目标搜索框进行二次文本检索,得到待选组合文本框,及当所述目标搜索框中锚点框对象的对象类型为二级锚点框时,对所述目标搜索框进行文本检索,得到待选文本框;
28、大写数字拼接模块,用于根据所述待选组合文本框及所述待选文本框的坐标信息,对各个所述待选组合文本框及各个所述待选文本框进行排序拼接,得到大写数字拼接结果。
29、可选的,所述根据预设的检索策略,将所述文本框对象集合分组为锚点框对象与待对接框对象,并根据所述锚点框对象与所述待对接框对象,构建所述医疗发票的各个目标搜索框,包括:
30、根据预设的检索策略,将所述文本框对象集合中属于预设的数字单位类型的文本框对象设置为锚点框对象,将属于预设的大写数字类型的文本框对象设置为待对接框对象;
31、将符合所述检索策略中的预设相对位置模板的锚点框对象与待对接框对象进行框选,组建初级目标搜索框;
32、识别所述初级目标搜索框中的锚点框对象的对象类型,根据所述对象类型检索所述检索策略中的框大小配置表,得到框大小参数信息,并根据所述框大小参数信息对所述初级目标检索框进行扩选,得到目标搜索框。
33、可选的,所述识别所述初级目标搜索框中的锚点框对象的对象类型,包括:
34、获取所述锚点框对象中的文本内容;
35、根据所述检索策略,判断所述文本内容是否为预设的一级数字单位;
36、当所述文本内容为所述一级数字单位时,判定所述锚点框对象的对象类型为一级锚点框;
37、当所述文本内容不为所述一级数字单位时,判定所述锚点框对象的对象类型为二级锚点框。
38、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
39、至少一个处理器;以及,
40、与所述至少一个处理器通信连接的存储器;其中,
41、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于医疗发票的大写数字对接方法。
42、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于医疗发票的大写数字对接方法。
43、本发明实施例本发明先对医疗发票中的大写数字进行文件检测,得到文本框对象集合,其中,每个文本框对象包含坐标位置信息及自身文本内容;然后通过预设的检测策略对各个文本框对象进行分类,得到锚点框对象与待对接框对象,其中锚点框对象是指万、仟、佰等数字单位,而所述待对接框对象为零到玖的大写数字;然后根据锚点框对象的对象类型、与相邻待对接框对象的位置关系构建目标搜索框;其中,所述目标文本框可以很好的识别零碎的数字文本,得到各个待选文本框或待选组合文本框,进而根据坐标关系进行拼接,得到大写数字拼接结果。因此,本发明实施例提供的一种基于医疗发票的大写数字对接方法、装置、设备及存储介质,能够在于在各类医疗发票识别过程中,提高发票中印刷体与打印体数字的识别对接准确性。