基于虚拟打印的电子档案自动采集系统及采集方法【专利摘要】本发明涉及信息领域,具体是指一种基于虚拟打印机的电子档案自动采集系统及其使用方法。基于虚拟打印机的电子档案自动采集系统,包括,客户端,用于发出虚拟打印机打印指令并对经过身份认证的客户指令打印生成通用格式的电子文件,并将客户端的身份认证信息及电子文件通过网络传输给服务器端;服务器端,用于验证客户端用户的身份,接收客户端传送过来的电子文件。基于虚拟打印的电子档案自动化采集系统都将非常有效解决上述存在的困境。既简化并缩短了从档案归档到提供利用的操作复杂度及时间周期,同时又归避了由对纸质档案数字化而产生的所有可能产生的质量问题。【专利说明】基于虚拟打印的电子档案自动采集系统及采集方法【
技术领域:
】[0001]本发明涉及信息领域,具体是指一种基于虚拟打印机的电子档案自动采集系统及采集方法。【
背景技术:
】[0002]随着学校信息化建设的不断发展,学校各部门电子文件的产生量日益巨大,大量的电子文件从各个管理与职能部门的业务系统中产生。电子文件和纸质文件的双套制管理模式,是档案工作的现行管理模式。比如说,教学是高校的主体,仅从教学这条线来讲,各层次学生基本信息及其在校其间的学籍信息,是教学类档案的重要组成部分。此类档案,在收集或采集时,均是每年均由本科生院、研究生院以及继续教育学院,通过自己的教务系统,向档案馆打印成纸质的来移交归档,但是其对应的电子文件,则都由档案馆在纸质文件归档后进行扫描加工,形成电子文件,再对外提供利用。由于数量大,整个扫描加工过程需要花相当的时间和人力才能完成,而且扫描过程中,对扫描质量的控制变得非常重要,对原始纸质档案的清晰度要求也高,这样扫描的结果才能符合利用的要求,其中的任何一个环节出现问题,都会对整体扫描质量直至最后的利用环节产生影响。[0003]可见在实际归档前的电子文件不能被有效利用,导致档案馆收集纸质文件又须花费费用扫描成电子文件,成本高,效率低,而且扫描的质量又不能有效把控。【
发明内容】[0004]为了解决以上问题,本发明提供了一种可以电子化传输和管理的基于虚拟打印机的电子档案自动采集系统及采集方法。[0005]基于虚拟打印机的电子档案自动采集系统,包括,[0006]客户端,用于发出虚拟打印机打印指令,并将客户端的身份认证信息及请求打印的数据通过网络传输给服务器端;[0007]服务器端,用于验证客户端用户的身份,接收客户端传送过来的请求打印的数据并生成电子文件。[0008]其中,[0009]所述客户端将请求打印的数据经加密后通过网络传输;服务器端接收到请求打印的数据后进行解密、加工、数据分析,并生成通用格式的电子文件,每个电子文件带有一个识别码;[0010]所述服务器端生成的电子文件加密,并通过网络传输传送到客户端;客户端接收到上述电子文件后,则提示用户保存或者选择打印机打印成纸质文件,所述纸质文件附带有和电子文件相同的识别码。[0011]优选的,所述识别码的形式为:一串文字、二维码图片、条形码图片,以及其它可支持特定设备识别的形式。[0012]优选的,所述虚拟打印机是一种软件程式,模拟实现打印机的功能,打印文件;所述身份认证采用的方式为:用户在客户端输入账号及密码,然后网络请求至服务器端进行认证用户输入的账号及密码是否正确,或使用用户的数字证书,或使用第三方身份认证平台;所述通用格式的电子文件为PDF格式;所述加解密/网络传输使用TCP/IP作为网络传输协议,同时使用HTTP协议作为数据传送协议。[0013]优选的,所述加工、数据分析为系统针对档案归档业务需求提供的以下处理功能:OCR识别与模式匹配功能、识别码生成功能和服务器端文件存储及管理功能。[0014]优选的,服务器端文件存储及管理功能包括:[0015](I)支持按部门定义文件夹,使得电子文件自动归属到相应的部门文件夹下;[0016](2)支持自定义电子文件自动生成名称;[0017](3)支持按元数据项进行检索与二次检索;[0018](4)支持根据电子文件匹配的模板进行自动分类,如发文、学籍卡等;[0019](5)支持文件压缩与加密存储;[0020](6)支持二维码检索;[0021](7)支持电子公章和电子签名章的应用;[0022](8)支持WS接口方式及XML方式电子文件批量导出;[0023](9)支持电子文件的全量备份、增量备份、异机备份等多种形式;[0024](10)支持对特异性数据来源的元数据分析功能;[0025](11)支持管理与上传电子文件模板;[0026](12)支持扩展数据接口,使与纸质材料二维码相对应的电子文件、归档附加信息等传递到“预立卷系统”或“数档系统”。[0027]另外本发明还提供了一种电子档案采集方法。[0028]基于虚拟打印机的电子档案自动采集方法,包括如下步骤:[0029]I)用户在客户端使用学籍系统,或OA系统,或其它业务系统打印网页、电子表格或电子文件时,选择虚拟打印机进行打印;[0030]2)虚拟打印机接收到打印请求后,判断当前用户身份是否已认证,如果未认证,则提示用户首先将身份认证信息通过网络传输到服务器端进行身份认证;[0031]3)身份认证通过后,客户端将请求打印的数据经加密以及网络传输,传送到服务器端;[0032]4)服务器端接收到请求的数据后进行解密、加工、数据分析,并生成通用格式的电子文件,所述电子文件带有一个识别码;[0033]5)服务器端将上述电子文件加密以及网络传输,传送到客户端;[0034]6)客户端接收到上述电子文件后,则提示用户保存或者选择实际的打印机进行打印成带有识别码的纸质文件。[0035]其中,[0036]所述识别码的形式为:一串文字、二维码图片、条形码图片,以及其它可支持特定设备识别的形式;[0037]所述虚拟打印机是一种软件程式,模拟实现打印机的功能,打印文件;[0038]所述身份认证采用的方式为:用户在客户端输入账号及密码,然后网络请求至服务器端进行认证用户输入的账号及密码是否正确,或使用用户的数字证书,或使用第三方身份认证平台;[0039]所述通用格式的电子文件为PDF格式;[0040]所述加解密/网络传输使用TCP/IP作为网络传输协议,同时使用HTTP协议作为数据传送协议;[0041]所述加工、数据分析为系统针对档案归档业务需求提供的以下处理功能:0CR识别与模式匹配功能、识别码生成功能和服务器端文件存储及管理功能。优选的,所述服务器端文件存储及管理功能包括:[0042](I)支持按部门定义文件夹,使得电子文件自动归属到相应的部门文件夹下;[0043](2)支持自定义电子文件自动生成名称;[0044](3)支持按元数据项进行检索与二次检索;[0045](4)支持根据电子文件匹配的模板进行自动分类,如发文、学籍卡等;[0046](5)支持文件压缩与加密存储;[0047](6)支持二维码检索;[0048](7)支持电子公章和电子签名章的应用;[0049](8)支持WS接口方式及XML方式电子文件批量导出;[0050](9)支持电子文件的全量备份、增量备份、异机备份等多种形式;[0051](10)支持对特异性数据来源的元数据分析功能;[0052](11)支持管理与上传电子文件模板;[0053](12)支持扩展数据接口,使与纸质材料二维码相对应的电子文件、归档附加信息等传递到“预立卷系统”或“数档系统”。[0054]基于虚拟打印的电子档案自动化采集系统由两部分组成。[0055]第一部分为,客户端程式。该程式关键实现虚拟打印机。用户在打印网页、电子表格或电子文件时,可以选择该虚拟打印机进行打印。通过虚拟打印机可回避对业务系统的技术介入,不存在考虑接口的问题,通用性强,做到与业务系统的无关性。[0056]第二部分为,服务器端程式。该程式关键实现验证客户端用户的身份,以及接收客户端传送过来的电子文件。[0057]不论在学籍材料的双套制归档,还是在学校OA系统每年的来文,以及其它学校业务系统中产生的归档电子文件归档,基于虚拟打印的电子档案自动化采集系统都将非常有效解决上述存在的困境。既简化并缩短了从档案归档到提供利用的操作复杂度及时间周期,同时又归避了由对纸质档案数字化而产生的所有可能产生的质量问题。【专利附图】【附图说明】[0058]图1是实施例1的流程示意图。[0059]图2是实施例2的流程示意图。[0060]图3是本发明实施例的应用模型示意图。【具体实施方式】[0061]下面结合具体实施例进一步阐述本发明,应理解,以下实施例仅用于说明本发明而不用于限制本发明的保护范围。[0062]实施例1[0063]如图1所示,第一种解决方案如下:[0064](I)用户在使用学籍系统,或OA系统,或其它业务系统打印网页、电子表格或电子文件时,选择虚拟打印机进行打印。[0065](2)虚拟打印机接收到打印请求后,判断当前用户身份是否已认证,如果未认证,则提示用户首先进行身份认证。[0066](3)身份认证通过后,客户端程式将请求打印的数据经加密以及网络传输,传送到服务器端程式;[0067](4)服务器端程式接收到请求的数据后进行解密、加工、数据分析,并生成通用格式的电子文件;[0068](5)服务器端程式将上述电子文件加密以及网络传输,传送到客户端程式;[0069](6)客户端程式接收到上述电子文件后,则提示用户保存或者选择实际的打印机进行打印成纸质文件;[0070]实施例2[0071]如图2所示第二种解决方案如下:[0072](I)用户在使用学籍系统,或OA系统,或其它业务系统打印网页、电子表格或电子文件时,选择虚拟打印机进行打印。[0073](2)虚拟打印机接收到打印请求后,判断当前用户身份是否已认证,如果未认证,则提示用户首先进行身份认证。[0074](3)身份认证通过后,客户端程式将请求打印的数据进行加工、数据分析,并生成通用格式的电子文件;[0075](4)客户端程式将上述电子文件以及分析后形成的数据经加密以及网络传输,传送到服务器端程式;[0076](5)服务器端程式接收到上述电子文件以及分析数据后进行解密,再处理;[0077](6)客户端程式提示用户保存上述电子文件,或者选择实际的打印机进行打印上述电子文件成纸质文件;[0078]通过上述两种解决方法,用户非常方便的完成了实现电子文件的自动归档,以及形成相应的纸质文件。[0079]⑴识别码[0080]为了档案管操作人员收集到纸质文件后,能够快速实现纸质文件与电子文件的归档过程,因此通常在生成通用格式的电子文件时,自动为该电子文件加入一个识别码。[0081]识别码的形式可以是:一串文字、二维码图片、条形码图片,以及其它可支持特定设备识别的形式。[0082]例如文字识别码,档案馆人员在归档纸质材料时直接输入这些文字即可快速检索到相应的电子文件。二维码、条形码图片,档案馆人员在归档纸质材料时可使用支持扫描二维码、条形码的设备快速检索到相应的电子文件。[0083](2)虚拟打印机[0084]虚拟打印机,就是虚拟的打印机,它是一种软件程式,模拟实现打印机的功能,打印文件。虚拟打印机同真实打印机一样,安装完毕后,打开“控制面板”中的“打印机和传真”,就会看到所安装的虚拟打印机,可以像使用一台打印机一样使用它们。鼠标双击将其打开,可以对其“打印首选项”和“属性”进行修改,从而设定是否共享、可使用时间、是否后台打印和优先级,以及纸张大小、版式安排等。它们同样能截获所有Windows程序的打印操作,或模拟打印效果,或完成某一特殊功能。[0085](3)身份认证[0086]身份认证通常采用以下几种方式:[0087]1.用户输入账号及密码,然后网络请求至服务器端程式进行认证用户输入的账号及密码是否正确;[0088]i1.使用用户的数字证书;[0089]ii1.使用第三方身份认证平台;[0090]iv.其它身份认证方法;[0091](4)通用格式的电子文件[0092]系统默认使用PDF作为通用格式。PDF全称PortableDocumentFormat,译为〃便携文档格式",是一种电子文件格式。这种文件格式与操作系统平台无关,也就是说,PDF文件不管是在Windows,Unix还是在苹果公司的MacOS操作系统中都是通用的。这一'丨生能使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。同时TOF文件是以PostScript语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,即PDF会忠实地再现原稿的每一个字符、颜色以及图象。[0093](5)加解密/网络传输[0094]使用TCP/IP作为网络传输协议,同时使用HTTP协议作为数据传送协议,而且使用HTTP协议可以有效解决绕开防火墙。HTTPS是在HTTP之上的安全超文本传输协议。HTTPS应用了Netscape的完全套接字层(SSL)作为HTTP应用层的子层。SSL使用40位关键字作为RC4流加密算法。同时HTTPS和SSL也支持使用X.509数字认证。[0095]SSL协议位于TCP/IP协议与各种应用层协议之间,为数据通讯提供安全支持。SSL协议可分为两层:SSL记录协议(SSLRecordProtocol):它建立在可靠的传输协议(如TCP)之上,为高层协议提供数据封装、压缩、加密等基本功能的支持。SSL握手协议(SSLHandshakeProtocol):它建立在SSL记录协议之上,用于在实际的数据传输开始前,通讯双方进行身份认证、协商加密算法、交换加密密钥等。[0096]因此,使用HTTPS为客户端与服务器端之间的网络传输起到如下作用:[0097]I认证用户和服务器,确保数据发送到正确的客户机和服务器;[0098]Ii加密数据以防止数据中途被窃取;[0099]Iii维护数据的完整性,确保数据在传输过程中不被改变。[0100](6)加工、数据分析[0101]系统针对档案归档业务需求提供以下几个主要的处理功能。[0102]A.0CR识别与模式匹配[0103]通过虚拟打印机接管请求打印的电子原件,如果为图像,则经过OCR识别技术自动识别出中文,同时结合模式库对这些中文进行抽取元数据。如果为其它格式的文档,则结合模式库对这些文档进行抽取元数据。[0104]OCR识别可以使用Tesseract的OCR引擎。Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。Tesseract目前已作为开源项目发布在GoogleProject。[0105]模式库主要有几种类型。一种类型是在识别出中文的基础上,根据出现的前后顺序建立的模板。另一种类型是基于元数据出现的XY位置而建立的模板。另外就是根据特定文档通过外挂程式进行准确抽取元数据。通过这些模板对电子原件进行元数据分析,抽取元数据信息。如发文,则元数据有发文的主题、发文单位、文号、日期等。如成绩信息,则有学生姓名、年级、班级、学号、学期等。还有一种类型是基于语义进行识别。[0106]B.生成识别码[0107]在生成通用格式的电子文件时,自动为该电子文件加入一个识别码。识别码的形式支持文字、二维码、条形码等。[0108]C.服务器端文件存储及管理[0109]支持按部门定义文件夹,使得电子文件自动归属到相应的部门文件夹下;[0110]支持自定义电子文件自动生成名称;[0111]支持按元数据项进行检索与二次检索;[0112]支持根据电子文件匹配的模板进行自动分类,如发文、学籍卡等;[0113]支持文件压缩与加密存储;[0114]支持二维码检索;[0115]支持电子公章和电子签名章的应用;[0116]支持WS接口方式及XML方式电子文件批量导出;[0117]支持电子文件的全量备份、增量备份、异机备份等多种形式;[0118]支持对特异性数据来源的元数据分析功能;[0119]支持管理与上传电子文件模板(即为模式库);[0120]支持扩展数据接口,使与纸质材料二维码相对应的电子文件、归档附加信息等传递到“预立卷系统”或“数档系统”。[0121]D.其它功能模块[0122]如图3所示描述了实际兼职档案员操作的应用模型。兼职档案员针对需打印生成的纸质归档原件,通过系统上述步骤形成相应的电子文件及纸质材料。另外针对对于已存在的纸质归档实体与对应电子文件,通过适度改进业务系统,使系统能够获取相应目录数据信息及其电子文件,这些作为主体归档材料,同时业务办理过程形成的过程信息与过程文件,仍然可以通过系统上述步骤,打印生成业务过程纸质原件与电子文件。【权利要求】1.基于虚拟打印机的电子档案自动采集系统,其特征在于:包括,客户端,用于发出虚拟打印机打印指令,并将客户端的身份认证信息及请求打印的数据通过网络传输给服务器端;服务器端,用于验证客户端用户的身份,接收客户端传送过来的请求打印的数据并生成电子文件;其中,所述客户端将请求打印的数据经加密后通过网络传输;服务器端接收到请求打印的数据后进行解密、加工、数据分析,并生成通用格式的电子文件,每个电子文件带有一个识别码;所述服务器端生成的电子文件加密,并通过网络传输传送到客户端;客户端接收到上述电子文件后,则提示用户保存或者选择打印机打印成纸质文件,所述纸质文件附带有和电子文件相同的识别码。2.根据权利要求1所述的基于虚拟打印机的电子档案自动采集系统,其特征在于:所述识别码的形式为:一串文字、二维码图片、条形码图片,以及其它可支持特定设备识别的形式。3.根据权利要求1或2所述的基于虚拟打印机的电子档案自动采集系统,其特征在于:所述虚拟打印机是一种软件程式,模拟实现打印机的功能,打印文件;所述身份认证采用的方式为:用户在客户端输入账号及密码,然后网络请求至服务器端进行认证用户输入的账号及密码是否正确,或使用用户的数字证书,或使用第三方身份认证平台;所述通用格式的电子文件为PDF格式;所述加解密/网络传输使用TCP/IP作为网络传输协议,同时使用HTTP协议作为数据传送协议。4.根据权利要求1-3任一所述的基于虚拟打印机的电子档案自动采集系统,其特征在于:所述加工、数据分析为系统针对档案归档业务需求提供的以下处理功能=OCR识别与模式匹配功能、识别码生成功能和服务器端文件存储及管理功能。5.根据权利要求4所述的基于虚拟打印机的电子档案自动采集系统,其特征在于:月艮务器端文件存储及管理功能包括:(1)支持按部门定义文件夹,使得电子文件自动归属到相应的部门文件夹下;(2)支持自定义电子文件自动生成名称;(3)支持按元数据项进行检索与二次检索;(4)支持根据电子文件匹配的模板进行自动分类,如发文、学籍卡等;(5)支持文件压缩与加密存储;(6)支持二维码检索;(7)支持电子公章和电子签名章的应用;(8)支持WS接口方式及XML方式电子文件批量导出;(9)支持电子文件的全量备份、增量备份、异机备份等多种形式;(10)支持对特异性数据来源的元数据分析功能;(11)支持管理与上传电子文件模板;(12)支持扩展数据接口,使与纸质材料二维码相对应的电子文件、归档附加信息等传递到“预立卷系统”或“数档系统”。6.基于虚拟打印机的电子档案自动采集方法,其特征在于:包括如下步骤:1)用户在客户端使用学籍系统,或OA系统,或其它业务系统打印网页、电子表格或电子文件时,选择虚拟打印机进行打印;2)虚拟打印机接收到打印请求后,判断当前用户身份是否已认证,如果未认证,则提示用户首先将身份认证信息通过网络传输到服务器端进行身份认证;3)身份认证通过后,客户端将请求打印的数据经加密以及网络传输,传送到服务器端;4)服务器端接收到请求的数据后进行解密、加工、数据分析,并生成通用格式的电子文件,所述电子文件带有一个识别码;5)服务器端将上述电子文件加密以及网络传输,传送到客户端;6)客户端接收到上述电子文件后,则提示用户保存或者选择实际的打印机进行打印成带有识别码的纸质文件。7.根据权利要求所述的基于虚拟打印机的电子档案自动采集方法,其特征在于:所述识别码的形式为:一串文字、二维码图片、条形码图片,以及其它可支持特定设备识别的形式;所述虚拟打印机是一种软件程式,模拟实现打印机的功能,打印文件;所述身份认证采用的方式为:用户在客户端输入账号及密码,然后网络请求至服务器端进行认证用户输入的账号及密码是否正确,或使用用户的数字证书,或使用第三方身份认证平台;所述通用格式的电子文件为PDF格式;所述加解密/网络传输使用TCP/IP作为网络传输协议,同时使用HTTP协议作为数据传送协议;所述加工、数据分析为系统针对档案归档业务需求提供的以下处理功能:0CR识别与模式匹配功能、识别码生成功能和服务器端文件存储及管理功能。8.根据权利要求7所述的基于虚拟打印机的电子档案自动采集方法,其特征在于:所述服务器端文件存储及管理功能包括:(1)支持按部门定义文件夹,使得电子文件自动归属到相应的部门文件夹下;(2)支持自定义电子文件自动生成名称;(3)支持按元数据项进行检索与二次检索;(4)支持根据电子文件匹配的模板进行自动分类,如发文、学籍卡等;(5)支持文件压缩与加密存储;(6)支持二维码检索;(7)支持电子公章和电子签名章的应用;(8)支持WS接口方式及XML方式电子文件批量导出;(9)支持电子文件的全量备份、增量备份、异机备份等多种形式;(10)支持对特异性数据来源的元数据分析功能;(11)支持管理与上传电子文件模板;(12)支持扩展数据接口,使与纸质材料二维码相对应的电子文件、归档附加信息等传递到“预立卷系统”或“数档系统”。【文档编号】G06F3/12GK103973692SQ201410202184【公开日】2014年8月6日申请日期:2014年5月13日优先权日:2014年5月13日【发明者】胡志富,濮永革,张军申请人:浙江大学