一种电子档案扫描识别建档的方法及系统的制作方法
【专利摘要】本发明提供一种电子档案扫描识别建档的方法,包括:步骤1、扫描档案文件到指定目录,并压缩所述指定目录;步骤2、压缩完成后通过网络协议将压缩包传输到图档服务器;步骤3、图档服务器自动解压缩接收到的压缩文件,并对解压后的图档进行OCR识别,通过提取图档中的文字信息将图档按规则自动关联到对应的档案目录中。本发明还提供一种电子档案扫描识别建档的系统。通过本发明提供的一种电子档案扫描识别建档的方法及系统,实现一键操作,将纸质文档转换为电子档案,大幅提升较传统的文档扫描上传归档等步骤的效率,通过集成OCR图像文字识别技术,实现电子档案与业务实体的关联,而不需人员操作,大大降低人力成本,减少建设时间。
【专利说明】—种电子档案扫描识别建档的方法及系统
【技术领域】
[0001]本发明涉及自动办公化领域,特别是涉及一种电子档案快速扫描识别建档的方法及系统。
【背景技术】
[0002]目前,应用系统软件经过多年的发展,业界出现不少电子档案系统,致力于解决纸质档案多,繁琐,查阅难,借阅难,安全性难管控的问题。但传统的电子档案系统,都需要一个将纸质文档转换成电子文档的过程,往往需要投入巨大的人力成本,并且费时费力,容易出错。电子档案后期在使用中的成本往往甚至超过了软件建设的成本。
[0003]所以,需要提出一种新的方式,在传统的档案系统之上,实现快速的电子档案扫描识别建档的方法,从而实现以最小的代价,快速实现纸质档案转换成电子档案的功能。
【发明内容】
[0004]本发明的目的在于提供一种电子档案扫描识别建档的方法及系统,实现一键操作,将纸质文档转换为电子档案,大幅提升较传统的文档扫描上传归档等步骤的效率,通过集成OCR (Optical Character Recognition,光学字符识别)图像文字识别技术,实现电子档案与业务实体的关联,而不需人员操作,大大降低人力成本,减少建设时间。
[0005]为解决以上技术问题,本发明提供一种电子档案扫描识别建档的方法,包括:
[0006]步骤1、扫描档案文件到指定目录,并压缩所述指定目录;
[0007]步骤2、压缩完成后通过网络协议将压缩包传输到图档服务器;
[0008]步骤3、图档服务器自动解压缩接收到的压缩文件,并对解压后的图档进行OCR识另IJ,通过提取图档中的文字信息将图档按规则自动关联到对应的档案目录中。
[0009]进一步地,所述步骤I具体包括:
[0010]步骤1.1、启动具有ActiveX插件的浏览器;
[0011]步骤1.2、所述ActiveX插件控制扫描仪扫描档案文件,并将扫描完成的电子档案存储到指定目录;
[0012]步骤1.3、所述ActiveX插件在全部档案文件扫描完成后自动压缩所述指定目录。
[0013]进一步地,所述步骤3具体包括:
[0014]步骤3.1、图档服务器自动解压缩接收到的压缩文件;
[0015]步骤3.2、对图档进行OCR文字识别,提取图档中的文字信息;
[0016]步骤3.3、根据提取到的文字信息将所述图档按规则自动关联到对应的档案目录中。
[0017]进一步地,所述规则是:通过OCR文字识别到的电子档案标题,与当前档案目录的标题进行比对,字符相同则认定当前电子档案归属到该档案目录。
[0018]为解决以上技术问题,本发明还提供一种电子档案扫描识别建档的系统,包括:客户机、扫描仪、交换机、图档服务器,其中:[0019]所述客户机,包括具有ActiveX插件的浏览器,所述ActiveX插件能控制扫描仪扫描档案文件,将扫描完成的电子档案存储到指定目录,并在全部档案扫描完成后对所述指定目录进行压缩;
[0020]所述扫描仪,用于根据客户机的ActiveX插件指令扫描档案文件;
[0021]所述交换机,用于将压缩包通过网络协议传输到图档服务器;
[0022]所述图档服务器集成OCR文字识别,自动解压缩接收到的压缩文件,并对解压后的图档进行OCR识别,通过提取图档中的文字信息将图档文件按规则自动关联到对应的档案目录中。
[0023]进一步地,所述规则是:通过OCR文字识别到的电子档案标题,与当前档案目录标题进行比对,字符相同则认定当前电子档案归属到该档案目录。
[0024]与传统技术相比,本发明提供一种电子档案扫描识别建档的方法及系统,能通过普通的IE浏览器,实现一键操作,直接操控扫描仪,将纸质文档批量扫描转换为电子档案,扫描后能自动上传到服务器,而无需用户手动选择文件进行上传。上传的过程中会采取压缩的技术,自动将电子档案压缩成zip包,实现上传,从而最大化的提高网络性能。上传到服务器的文件系统自动解压缩,然后通过服务器集成OCR (Optical CharacterRecognition,光学字符识别)图片文字识别技术,将图片上的文字识别出来,从而自动关联到对应的档案目录下,通过系统的扫描实现电子档案与业务实体的关联,实现建档。整个过程是完整的、连续的,全过程自动化完成,不需人员操作,大大降低人力成本,减少建设时间。
【专利附图】
【附图说明】
[0025]此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0026]图1是本发明提供一种电子档案扫描识别建档的方法的流程图。
[0027]图2是本发明提供一种电子档案扫描识别建档的系统的物理示意图。
【具体实施方式】
[0028]为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0029]如图1所示,本发明提供一种电子档案扫描识别建档的方法,包括:
[0030]步骤1、扫描档案文件并自动存储到指定目录,并压缩所述指定目录;
[0031]步骤1.1、启动扫描:本发明是基本浏览器进行扫描,用户打开浏览器,进去相关系统网页,单击扫描按钮,启动扫描。
[0032]步骤1.2、扫描档案文件到指定目录:
[0033]系统采用ActiveX插件控制扫描仪,指令扫描仪扫描档案文件,并能将扫描完成的电子档案存储到指定目录。
[0034]步骤1.3、扫描完成后自动压缩所述指定目录:系统ActiveX插件在全部档案扫描完成后触发事件对所述指定目录进行压缩。[0035]步骤2、压缩完成后通过网络协议将压缩包传输到图档服务器;
[0036]步骤3、图档服务器对接收到的压缩文件自动解压缩,并对解压后的图档进行OCR识别,通过提取图档中的文字信息将图档按规则自动关联到对应的档案目录中,实现快速归档。
[0037]步骤3.1、图档服务器自动解压缩接收到的压缩文件;
[0038]步骤3.2、对解压后的图档进行OCR识别,提取图档中的文字信息:图档服务器集成OCR文字识别对图档进行文字识别,提取图档中的文字信息。
[0039]步骤3.3、根据提取到的文字信息将图档按规则自动关联到对应的档案目录中。
[0040]其中,所述规则如下:通过OCR文字识别到的电子档案标题,与当前档案目录的标题进行比对,字符相同则认定当前电子档案归属到该档案目录。这里,所述“字符相同”并不要求字符完全相同,当字符匹配度在一定比例(这个比例是可以配置的,例如80%)或以上相同则可以认为字符相同。例如,档案目录的标题是“企业营业执照”,但OCR识别扫描出来的标题字符为“深圳企业营业执照”,虽然两者不是完全一致,但总体一致,也会认为两者是字符相同。
[0041]如图2所示,本发明提供一种电子档案扫描识别建档的系统,包括:客户机10、扫描仪20、交换机30、图档服务器40,其中:
[0042]所述客户机10,包括具有ActiveX插件的浏览器,所述ActiveX插件能控制扫描仪,指令扫描仪扫描档案文件,将扫描完成的电子档案存储到指定目录,并在全部档案扫描完成后对所述指定目录进行压缩。
[0043]所述扫描仪20,用于根据客户机10的ActiveX插件指令扫描档案文件。
[0044]所述交换机30,用于将压缩完成后的压缩包通过网络协议传输到图档服务器40 ;
[0045]所述图档服务器40集成OCR文字识别,用于对接收到的压缩文件自动解压缩,并对解压后的图档进行OCR识别,通过提取图档中的文字信息将图档按规则自动关联到对应的档案目录中。
[0046]下面将结合具体的实施案例来详细说明本发明的实现方式,借此对本发明如何应用技术手段来解决实际业务问题。
[0047]本发明的实施案例中,以某税务局管理某公司历史纳税档案为例,需将纳税人的营业执照、合同、法人身份证、纳税清单等原件纸档案转换成电子档案并入库归档。
[0048]根据本发明提供一种电子档案快速扫描识别建档的方法,包括:
[0049]第一步,图档管理员将纸质档案资料放到扫描仪上,可任意顺序排放。
[0050]第二步:打开IE浏览器,登录系统,查询到该纳税客户,点击扫描按钮。
[0051]第三步:后续步骤全由系统自动完成。
[0052]a) ActiveX插件会直接访问扫描仪,发送指令,控制扫描仪进行批量扫描操作。
[0053]b)将扫描的文件自动存储到客户机指定目录,扫描完成后,将电子档案文件压缩成zip包。
[0054]c)通过网络协议传输到图档服务器。
[0055]d)图档服务器接收到文件后进行解压缩。
[0056]e)对每份图档,进行OCR图像文字识别,身份证类的会归类到身份证类下,合同类的会归类到合同类下,营业执照类会归类到营业执照类下。[0057]f)处理完成后,提示用户操作成功。
[0058]本发明提供一种电子档案扫描识别建档的方法及系统,能通过普通的IE浏览器,实现一键操作,直接操控扫描仪,将纸质文档批量扫描转换为电子档案,扫描后能自动上传到服务器,而无需用户手动选择文件进行上传。上传的过程中会采取压缩的技术,自动将电子档案压缩成zip包,实现上传,从而最大化的提高网络性能。上传到服务器的文件系统自动解压缩,然后通过服务器集成OCR图片文字识别技术,将图片上的文字识别出来,从而自动关联到对应的档案目录下,通过系统的扫描实现电子档案与业务实体的关联,实现建档。整个过程是完整的、连续的,全过程自动化完成,不需人员操作,大大降低人力成本,减少建设时间。
[0059]上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
【权利要求】
1.一种电子档案扫描识别建档的方法,其特征在于,包括: 步骤1、扫描档案文件到指定目录,并压缩所述指定目录; 步骤2、压缩完成后通过网络协议将压缩包传输到图档服务器; 步骤3、图档服务器自动解压缩接收到的压缩文件,并对解压后的图档进行OCR识别,通过提取图档中的文字信息将图档按规则自动关联到对应的档案目录中。
2.如权利要求1所述的方法,其特征在于,所述步骤I具体包括: 步骤1.1、启动具有ActiveX插件的浏览器; 步骤1.2、所述ActiveX插件控制扫描仪扫描档案文件,并将扫描完成的电子档案存储到指定目录; 步骤1.3、所述ActiveX插件在全部档案文件扫描完成后自动压缩所述指定目录。
3.如权利要求1所述的方法,其特征在于,所述步骤3具体包括: 步骤3.1、图档服务器自动解压缩接收到的压缩文件; 步骤3.2、对图档进行OCR文字识别,提取图档中的文字信息; 步骤3.3、根据提取到的文字信息将所述图档按规则自动关联到对应的档案目录中。
4.如权利要求3所述的方法,其特征在于,所述规则是:通过OCR文字识别到的电子档案标题,与当前档案目录的标题进行比对,字符相同则认定当前电子档案归属到该档案目录。
5.—种电子档案扫描识别建档的系统,其特征在于,包括:客户机、扫描仪、交换机、图档服务器,其中: 所述客户机,包括具有ActiveX插件的浏览器,所述ActiveX插件能控制扫描仪扫描档案文件,将扫描完成的电子档案存储到指定目录,并在全部档案扫描完成后对所述指定目录进行压缩; 所述扫描仪,用于根据客户机的ActiveX插件指令扫描档案文件; 所述交换机,用于将压缩包通过网络协议传输到图档服务器; 所述图档服务器集成OCR文字识别,自动解压缩接收到的压缩文件,并对解压后的图档进行OCR识别,通过提取图档中的文字信息将图档文件按规则自动关联到对应的档案目录中。
6.如权利要求5所述的系统,其特征在于,所述规则是:通过OCR文字识别到的电子档案标题,与当前档案目录的标题进行比对,字符相同则认定当前电子档案归属到该档案目录。
【文档编号】G06K9/20GK103870826SQ201410125970
【公开日】2014年6月18日 申请日期:2014年3月31日 优先权日:2014年3月31日
【发明者】鲁淳 申请人:深圳市远行科技有限公司