本发明涉及邮政行业中文地址信息的快速采集的技术领域,特别是涉及一种信函地址自动采集方法。
背景技术:邮政编码和用户地址是邮政企业进行内部处理和投递的基础,目前由于邮政编码宣传的不到位,实际信件中存在大量的错误邮编或书写简码的情况。而随着我国国民经济发展和城市化进程的加快,各地地址变动频繁,造成邮政自身的基础地址库更新缓慢,用户提供的邮编及地址质量普遍不高。这直接影响了邮政企业地址信息录入的效率和后续自动化处理效率,造成了大量的退转邮件,不仅增加了邮政企业的成本,也直接影响了信件的投递质量。同时,从信函的结构上看,大宗商函已成为了我国邮政函件的主要组成(商函已占到邮件的90%以上),收寄时大批量挂号信函收寄信息录入的工作也给邮政的营业部门带来了巨大的压力。随着中国邮政流程优化工作的推进,提高用户地址质量、提升邮政内部工作效率、加快邮件传递时限、丰富邮政基础地址库已成为邮政企业的重要工作内容。虽然当前也出现了一些信函地址采集技术,但基本属于手工扫描采集方式,其采集信函地址信息的速度无法满足大批量处理信函地址信息的要求。总之,目前的信函地址采集方法无法实现自动采集信函地址信息,采集信函地址信息的速度无法满足大批量处理信函地址信息的要求。因而,目前需要本领域技术人员迫切解决的一个技术问题就是:如何找到一种新型的信函地址采集方法,该方法能够实现自动采集信函地址信息,采集信函地址信息的速度快,可以满足大批量处理的应用需求。
技术实现要素:本发明所要解决的一个技术问题是提供一种信函地址自动采集方法,该方法能够实现自动采集信函地址信息,采集信函地址信息的速度快,可以满足大批量处理的应用需求。为了解决上述问题,本发明公开了一种信函地址自动采集方法,包括:S1,获取信函的扫描图像;S2,对S1中获取得到的所述信函的扫描图像进行有效区域分析,确定所述信函的扫描图像中的有效区域,并获取所述有效区域的图像;S3,判断S2中获取得到的所述有效区域的图像中是否存在有效的地址区域和/或有效的条码区域;如果存在所述有效的地址区域,则对所述有效的地址区域进行OCR文字识别;如果存在所述有效的条码区域,则对所述有效的条码区域进行OBR条码识别;S4,判断S3中的所述OCR文字识别和/或所述OBR条码识别是否成功;如果成功则存储识别得到的文字信息和/或识别得到的条码信息,并根据压缩算法对S1获取的所述信函的扫描图像进行压缩,将压缩后的所述信函的扫描图像存储至成功处理目录;如果没有成功,则将所述信函的扫描图像对应的信函剔除,并根据压缩算法对S1获取的所述信函的扫描图像进行压缩,将压缩后的所述信函的扫描图像存储至失败处理目录。优选的,S2中对所述信函的扫描图像进行的有效区域分析所采用的方法包括以下一种或几种或全部:中值滤波、边缘检测、二值化处理、特征点分析。优选的,在进行所述OCR文字识别前先对所述有效的地址区域进行图像膨胀和/或图像腐蚀和/或分段区间分析处理,去除离散干扰点。优选的,在进行所述OBR条码识别时采用多维扫描方式进行识别。与现有技术相比,本发明具有以下优点:1、本发明提供的一种信函地址自动采集方法可以实现邮政地址信息的快速、准确采集,减轻职工劳动强度。2、本发明以设备控制、信函图像扫描、地址有效区域分析、OCR图像识别、OBR多条码识别、系统自动化控制六大核心功能模块为基础,实现信函地址信息的高速、准确采集与分析并提供数据导出接口。该发明可广泛应用于营业支局或大客户中心,加快邮件地址采集速度、减轻职工劳动强度。总之,本发明提供了一种信函地址自动采集方法,该方法能够实现自动采集信函地址信息,采集信函地址信息的速度快,可以满足大批量处理的应用需求。附图说明为了更清楚地说明本发明实施例中的技术方案,下面对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本发明一种信函地址自动采集方法实施例的步骤流程图;图2是本发明中系统自动化运行的控制流程示意图;图3是本发明中扫描信件的控制流程示意图;图4是本发明中自动清理信件的控制流程示意图;图5是本发明中图像存储管理的控制流程示意图;图6是本发明中数据导出的控制流程示意图;图7是本发明的信函地址自动采集系统的结构框架图。具体实施方式本发明实施例提供了一种信函地址自动采集方法,该方法能够实现自动采集信函地址信息,采集信函地址信息的速度快,可以满足大批量处理的应用需求。为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明的核心思想之一是提供了一种信函地址自动采集方法,包括步骤S1,获取信函的扫描图像;S2,通过对S1获取得到的扫描图像进行有效区域分析,确定所述扫描图像中的有效区域,并获取所述有效区域的图像;S3,判断S2中获取得到的有效区域的图像中是否存在有效的地址区域和/或有效的条码区域,如果存在有效的地址区域,则对该有效的地址区域进行OCR文字识别,如果存在有效的条码区域则对该条码区域进行OBR条码识别;S4,判断S3中的OCR文字识别和/或OBR条码识别是否成功,如果成功则存储文字信息和/或条码信息,并进行根据压缩算法对S1获取得到的图像进行压缩,并将S1获取得到的图像存储至成功处理目录;若处理失败,则将该信函剔除,并根据压缩算法对S1获取得到的图像进行压缩,并存储至失败处理目录。S2中对信函扫描图像进行的有效区域分析所采用的方法包括以下一种或几种或全部:中值滤波、边缘检测、二值化处理、特征点分析。在进行OCR文字识别前先对所述有效的地址区域进行图像膨胀和/或图像腐蚀和/或分段区间分析处理,去除离散干扰点。在进行OBR条码识别时采用多维扫描方式进行识别。该方法能够实现自动采集信函地址信息,采集信函地址信息的速度快,可以满足大批量处理的应用需求;该方法能够实现自动采集信函地址信息,采集信函地址信息的速度快,可以满足大批量处理的应用需求。参照图1,示出了本发明一种信函地址自动采集方法实施例的步骤流程图,具体可以包括:S1,获取信函的扫描图像;S2,通过对S1获取得到的扫描图像进行有效区域分析,确定所述扫描图像中的有效区域,并获取所述有效区域的图像;S3,判断S2中获取得到的有效区域的图像中是否存在有效的地址区域和/或有效的条码区域,如果存在有效的地址区域,则对该有效的地址区域进行OCR文字识别,如果存在有效的条码区域则对该条码区域进行OBR条码识别;S4,判断S3中的OCR文字识别和/或OBR条码识别是否成功,如果成功则存储文字信息和/或条码信息,并进行根据压缩算法对S1获取得到的图像进行压缩,并将S1获取得到的图像存储至成功处理目录;若处理失败,则将该信函剔除,并根据压缩算法对S1获取得到的图像进行压缩,并存储至失败处理目录。其中,S2中对信函扫描图像进行的有效区域分析所采用的方法包括以下一种或几种或全部:中值滤波、边缘检测、二值化处理、特征点分析;从而得到高对比度、无干扰的二值化图像其中,在进行OCR文字识别前先对所述有效的地址区域进行图像膨胀和/或图像腐蚀和/或分段区间分析处理,去除离散干扰点,从而保障地址区域文字信息的识别率。其中,在进行OBR条码识别时采用多维扫描方式进行识别,从而提高了图像倾斜、条码污损情况下条码识别率。参照图2,示出了本发明中系统自动化运行的控制流程示意图。从图2中可以看出本发明中系统自动化运行的控制的全过程。为了使本领域的普通技术人员更好地理解本发明中系统自动化运行的控制的全过程,下面详细介绍本发明中系统自动化运行的实现步骤,具体如下所述:系统自动化控制是本系统运行的基础,通过该流程实现系统运行的全自动化。第一步:设备运行状态检测,获取硬件设备的运行状态,若设备有故障,则自动停止运行;若设备一切正常并有信件,控制设备分离信件;第二步:扫描并存储图像。控制设备的扫描组件开始扫描,并将按照存储逻辑将图像存储至工控机;第三步:向控制平台发送消息。当信件图像扫描并存储完成后,控制模块向主控平台发送图像接收完毕命令;第四步:主控平台接收到图像接收完毕命令后,立即读取图像信息并进行图像显示和有效区域分析工作。其中有效区域分析包括图像的中值滤波、二值化处理边缘检测、特征点分析;第四步:若该图像存在有效的地址区域,则进行OCR文字识别;若该图像中存在有效的条码区域,则对该条码信息进行识别工作。第五步:根据设定成功处理条件判断文字识别和条码识别是否成功。若成功则存储文字信息和条码信息,并进行根据压缩算法对图像进行压缩,并将图像存储至成功处理目录;若处理失败,则将该信件剔除,并根据压缩算法对图像进行压缩,并存储至失败处理目录。在完成上述工作后,系统再次检测设备运行状态,并进行下一次图像处理工作。参照图3,示出了本发明中扫描信件的控制流程示意图。从图3中,可以看出本发明中扫描信件的控制的全过程。为了使本领域的普通技术人员更好地理解本发明的扫描信件的全过程,下面详细介绍扫描信件的实现步骤,具体如下所述:在放置信件的位置具有观点开关以检测设备是否有信件等待扫描。在图像扫描区域的入口和出口分别具有光电开关,以检测图像是否进入图像扫描点或离开图像扫描点;第一步,检测设备是否有信件等待扫描,若没有信件且等待时间超过系统设定时间,则退出扫描状态;若有信件等待扫描,则控制电机开始匀速运动,将信件传输至扫描位置;第二步,在扫描区域的入口点和出口点均有光电开关,以检测信件是否进入扫描区域或是否离开扫描区域。当信件进入扫描点后,设备获取USB总线的控制权,以便随时向工控机发送扫描信息;第三步,启动扫描组件开始扫描信件图像,并通过USB总线将数据实时传输至工控机;第四步,离开扫描点实时获取当前信件状态,若信件已经扫描完毕,则向工控机发送扫描完毕命令;若等待时间超过系统设定时间,则认为设备卡纸故障。第五步,向工控机发送扫描接收命令,工控机接收到该命令后立即进行图像识别处理;第六步,释放USB总线控制权,并停止扫描。参照图4,示出了本发明中自动清理信件的控制流程示意图。从图4中可以看出:本发明中自动清理信件的控制的全过程。自动清理是本系统中重要组成部分。在用户成功登陆系统后,要根据用户配置信息对历史信息进行清除工作。自动清理的实现功能,具体如下所述:1)清除内容:历史已逻辑删除数据以及该数据对应的图像和超过保留期限的日志文件。2)删除期限:当历史数据大于保留期限时进行自动删除。3)删除时间:在用户成功登陆系统后进行数据删除工作。参照图5,示出了本发明中图像存储管理的控制流程示意图。从图5中,可以看出:本发明中图像存储管理的控制的全过程。为了使本领域的普通技术人员更好地理解本发明中图像存储管理的控制的全过程,下面详细介绍图像存储规则,具体如下所述:为了便于记忆、记录、检索,本系统对图像存储及命名进行了定义,该定义采用默认方式,不可进行修改和配置;1)当前图像存储路径:image\0920_00_10000.bmp;2)图像存储路径定义规则:Image\0920_00\(注释:日期_序号);3)图像名称命名定义规则:0920_00_10000.jpg;4)每天建立一个错误图像文件夹image\0920_err\。参照图6,示出了本发明中数据导出的控制流程示意图。从图6中可以看出:本发明中数据导出的控制的全过程。数据导出是指将数据库中存储的地址信息导出至EXCEL,同时将数据库中的数据做逻辑删除。数据导出的实现功能,具体如下所述:1)选择导出日期;2)选择操作人员,导出用户默认全部;3)能够给定默认目标文件名称;4)可选择是否自动去重;5)可选择导出后删除数据,若用户选择同时删除数据,设置删除标识delstatus=1;6)数据导出后设置导出标识exportflag=1。参照图7,示出了本发明的信函地址自动采集系统的结构框架图。从图7中可以看出本发明的信函地址自动采集系统,该系统分为系统管理、图像处理、数据管理、设备控制、基础数据维护和数据统计六个部分。其中系统管理实现基础用户信息和用户权限的管理;图像处理分为有效区域分析、OCR文字识别、OBR条码识别,其中有效区域分析采用了中值滤波、边缘检测、二值化处理和特征点分析算法,提高了区域分析的有效性;数据管理功能分为图像压缩管理、数据导出和名址补录三个功能模块;设备控制包括设备的初始化、启动扫描模式、图像存储、故障检测,运行质量监控五个部分,其中图像压缩管理中可实现信件的处理的软剔除;基础数据维护和数据统计实现了系统运行的基本配置和数据统计功能。为了使普通技术人员更好地理解本发明的信函地址自动采集系统,下面详细介绍如下系统中的部分的实现功能,具体如下所述:初始化硬件设备:初始化硬件设备包括设置图像存储路径,设置图像名称,设置设备配置文件名称,加载硬件设备驱动。控制设备运行:控制设备运行包括运行、停止、剔除。获取设备消息:在设备控制模块中,设备接收到图像并存储后,向数据采集控制界面发送消息。显示图像信息:比例显示图像。函件类型选择:能够选择当前运行函件类型,该类型确定OCR范围。同步图像处理:调用图像识别、地址分析、地址匹配模块对信件地址进行分析若不满足条件则进行剔除;具体设定条件根据配置模块获取。异步图像处理:信函图像采集与图像识别、地址分析、邮编匹配模块分离。图像压缩功能:由于bmp图像占用空间在3M左右,因此有必要将bmp格式的图像转存为jpg格式图像。无论是成功处理还是无法处理的图像都要进行压缩工作。数据存储:成功处理或失败处理的信件信息都要进行存储工作。存储内容包括图像名称、处理日期、处理人员、识别地址、收件人名称、收件人地址、收件人邮编、段道号、客户编号、邮件编号、剔出标志。处理结果显示:处理结果显示栏包括收件人名称、收件人地址、收件人邮编、客户条码、信件条码、段道信息、匹配结果。运行信息显示:运行统计状态栏显示结果包括当日运行累计、扫描数量、识别数量、成功数量、剔除数量。用户管理界面主要是为了实现登录用户的管理、用户工作量统计。该模块非关键模块,因此在设计时要简单、易操作。用户管理的实现功能,具体如下所述:1)用户基本信息管理。基本信息管理包括用户增加、删除、修改。2)权限信息管理。能够修改用户操作权限。根据需求不同用户具有不同的操作权限。在用户无法操作的界面中,所有的控件无法操作。3)用户密码加密。所有用户的密码信息都要进行数据加密,加密算法为md5。4)超级用户。在系统设计时,添加默认超级用户。该默认用户直接添加至数据库中。在系统中,超级用户只有一个,具有所有操作功能。5)普通用户:在此对话框中增加的用户均为普通用户。超级用户通过权限信息管理对普通用户操作权限进行配置。图像处理的实现功能,具体如下所述:1)图像处理包括有效区域分析、文字识别、条码识别三个部分组成,它们是本系统的核心模块。2)图像处理用模块实现图像格式的转换。3)动态获取图像中最优值进行中值滤波。4)获取地址中疑似地址区域。5)根据特征点分析地址区域和条码区域,并支持多地址区域和多条码区域的分析。6)识别地址区域内文字信息。7)识别条码区域内条码信息。条码码制包括128码,39码,93码,i25码。本发明的信函地址自动采集系统特点,具体如下所述:有效区域分析有效区域分析是文字识别和条码识别的前提条件,由相比传统的整个版面分析识别或特殊位置的地址识别,有效区域分析可以快速、准确地获取信函上任意位置的地址区域和条码区域,而且可以支持多条码区域分析。在进行有效区域分析中,采用直方图、中值滤波、边缘检测等多种算法对图像进行处理,从而得到高对比度、无干扰的二值化图像,然后再采用基于邮政函件地址“特征点分析”算法对图像中多个地址区域进行智能分析,从而获取图像中地址区域和条码区域;最后,针对图像中存在的离散干扰点,采用了图像膨胀、图像腐蚀和分段区间分析等算法,准确获取图像中疑似地址、条码区域。文字识别文字识别用来识别有效地址区域内的文字信息,并对文字信息基于“邮政地址特征模型”进行处理,分析其邮编信息、收寄地址、收件人和段道信息。条码识别本系统支持多条码识别和多类型条码识别。在条码分析中,采用多维扫描方式对函件中的条码区域进行分析,提高了图像倾斜、条码污损情况下条码识别率。本发明通过图像扫描、图像处理、有效地址区域分析、OCR文字识别、OBR条码识别,实现信函的邮编、收寄地址、收件姓名、段道信息的高速采集,并提供图像剔除和数据导出接口。本发明通过分页算法和多线程模式实时存储扫描图像,从而减少系统瞬间存储压力。本发明通过直方图、中值滤波、边缘检测等多种算法对图像进行处理,从而得到高对比度、无干扰的二值化图像。本发明采用基于邮政函件地址“特征点分析”算法对图像中多个地址区域进行智能分析,从而获取图像中地址区域和条码区域。本发明针对图像中存在的离散干扰点,采用了图像膨胀、图像腐蚀和分段区间分析等算法,保障地址区域文字信息的识别率。本发明采用多维扫描方式对函件中的条码区域进行分析,提高了图像倾斜、条码污损情况下条码识别率。本发明通过采用“名址特征模型”对识别的名址信息进行分析,获取识别结果中有效的邮政编码、收件地址、收件姓名、段道号等。总之,本发明提供了一种信函地址自动采集方法,该方法能够实现自动采集信函地址信息,采集信函地址信息的速度快,可以满足大批量处理的应用需求。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。以上对本发明所提供的一种信函地址自动采集方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。