本发明涉及档案存储,具体涉及一种档案数字化的管理方法及装置。
背景技术:
1、目前,在档案数字化过程中,需要建立完善的索引库,为以后的档案电子化利用提供检索,提高电子档案的利用效率,这往往伴随着大量的档案著录工作。现有技术一般采用三种方式,一、excel表格台账方式著录,二、使用档案数字化加工软件,让员工进行著录;从这两种工作方式上来说,其还是需要大量的工作人员,成本非常高。
2、除了上述档案数字化存储之外在进后续档案扫描的时候也需要大量的工作人员对数字化扫描后的图像进行质量检测,包括分辨率,页码连续性,内容完整性,裁切内容完整度等。现有技术一般采用人工方式处理,让员工对图像处理过的图片进行质量检查,逐一质检,正确的通过,不正确的替换原图修改或打回给图像处理的员工再次处理,但这需要大量的工作人员,成本非常高。
技术实现思路
1、针对所述缺陷,本发明实施例公开了一种档案数字化的管理方法,其能够高效完成对档案的数字化处理,对于企业降本增效明显,实现良好的经济效益。
2、本发明实施例第一方面公开了档案数字化的管理方法,包括:
3、通过图像采集模块对待数字化档案进行图像采集操作以得到档案图像信息;
4、对所述档案图像信息进行分类操作以确定所述档案图像信息为档案信息;
5、当检测到其为个人档案信息时,基于预先构建的识别模型对所述个人图像信息进行识别以得到相应的个人信息集合,对所述个人信息集合进行数字化存储;
6、当检测到其为合同档案信息时,获取与合同档案信息关联的业务人员信息;
7、调用文字分析模型对所述合同档案信息进行识别以得到合同识别结果,根据所述合同识别结果以确定与合同关联的合同内容信息,所述合同内容信息包括业务内容、客户信息、金额信息、支付方式和签约主体信息;其中,所述业务内容包括业务项目和交付时间;
8、对所述业务内容信息与个人信息集合进行数字化关联存储,并基于数字化关联存储结果来生成数字索引信息。
9、作为一种可选的实施方式,在本发明实施例第一方面中,所述基于预先构建的识别模型对所述个人图像信息进行识别以得到相应的个人信息集合,包括:
10、对所述个人图像信息进行识别以确定个人图像信息中有效信息的开始区域信息以及结束区域信息;
11、根据所述开始区域信息、结束区域信息以及预先构建的图像切分方式对所述个人图像信息进行图像切分以确定个人图像信息中各个的切分信息集合,其中,每一个切分信息集合表征一种个人信息;所述图像切分方式为预先构建的图像切分逻辑或者为身份识别模型;对所述切分信息集合进行图像识别以得到个人图像信息中的个人身份信息;
12、在所述对所述业务内容信息与个人信息集合进行数字化关联存储之后,还包括:
13、根据数字化关联存储结果生成相应的档案封面信息,所述档案封面信息包括档案号、题名和立卷单位,其中,每个封面信息即是一数据项,所述数据项用来构建索引信息。
14、作为一种可选的实施方式,在本发明实施例第一方面中,在所述根据所述开始区域信息、结束区域信息以及预先构建的图像切分方式对所述个人图像信息进行图像切分以确定个人图像信息中各个的切分信息集合之后,还包括:
15、对所述切分信息集合进行信息匹配以确定所有切分信息集合中需进行信息确认的验证信息集合;
16、将与所述验证信息集合关联的图像信息进行局部放大操作以得到局部放大图像;
17、对所述验证信息集合进行字符识别以得到验证识别结果,将所述验证识别结果以及局部放大图像发送至审核人员进行审核确认,当审核通过的时候,执行下一步,当审核不通过的时候,对所述验证识别结果进行修改操作,在修改完成之后,执行下一步。
18、作为一种可选的实施方式,在本发明实施例第一方面中,所述调用文字分析模型对所述合同档案信息进行识别以得到合同识别结果,根据所述合同识别结果以确定与合同关联的合同内容信息,包括:
19、基于设定的页码位置来对所述合同档案信息中所有的图像进行页码识别,若所有的图像均存在页码信息,则生成与相应图像关联的页码数据;
20、若合同档案信息中的图像不存在页码信息,则采用光学字符识别技术对所述合同档案信息中每一幅图像进行文字识别以得到与相应图像关联的文字识别结果;
21、基于预先构建的bert模型来对文字识别结果进行识别以得到文字识别结果,根据所述文字识别结果判断每一幅图像之间的关联性,并根据关联性识别结果来确定各个图像的页码数据。
22、作为一种可选的实施方式,在本发明实施例第一方面中,所述基于预先构建的bert模型来对文字识别结果进行识别以得到文字识别结果,根据所述文字识别结果判断每一幅图像之间的关联性,包括:
23、获取每一幅图像的开始语句信息和结束语句信息,并基于所述开始语句信息和结束语句信息确定连接文本信息;
24、根据句法分析模型对所述连接文本信息进行文本解析以确定所述连接文本信息的语句主体结构;
25、根据所述语句主体结构确定连接文本信息中对应的主体位置;并确定所述连接文本信息中主语、谓语和宾语之间的连结关系;根据所述连结关系调整对应的词语特征信息的表征权重;
26、根据所述表征权重以及对应的词语特征信息确定文本检测结果,当所述文本检测结果为同一句时,则确定相应的图像上下关联。
27、作为一种可选的实施方式,在本发明实施例第一方面中,在所述基于预先构建的bert模型来对文字识别结果进行识别以得到文字识别结果之后,还包括:
28、对所述文字识别结果进行标签化处理以得到相应合同的标签集合;所述标签集合包括业务内容、客户信息、金额信息、支付方式和签约主体信息;
29、将标签集合发送至预先构建完成的运营关系图谱中进行处理以完成对个人知识图谱的更新;
30、对个人知识图谱对应的数据源赋予对应的数据地址;将划分后个人知识图谱转化为由知识块和数据地址组成的知识图谱数据流,对知识图谱数据流进行加密;并将知识块发送至区块链系统中的各个存储节点进行数据存储;基于所述存储节点配置相应的访问权限;
31、基于所述个人知识图谱来构建部门知识图谱或者企业知识图谱。
32、作为一种可选的实施方式,在本发明实施例第一方面中,所述管理方法,还包括:
33、基于公司各个员工的位置信息来构建用户位置信息,并基于所述用户位置信息将获取到的数据按照用户位置进行档案存储以形成三维档案资料库;所述三维档案资料库还包括公司的层级架构;
34、将存储后的数字档案按照文件路径进行归档形成档案数据库,通过所述用户位置信息与文件路径的关联规则将所述三维档案资料与所述档案数据库进行数据关联;所述文件路径用于表征数字档案具体存储路径和实体档案路径,所述文件路径包括多级文件信息;
35、根据所述三维档案资料库构建文档阅览表以实现对文档的阅览记录进行数据表征,所述阅览记录为相应用户基于其权限查阅的资料内容。
36、本发明实施例第二方面公开一种档案数字化的管理装置,包括:
37、采集模块:用于通过图像采集模块对待数字化档案进行图像采集操作以得到档案图像信息,
38、类型确定模块:用于对所述档案图像信息进行分类操作以确定所述档案图像信息为档案信息;
39、第一检测模块:用于当检测到其为个人档案信息时,基于预先构建的识别模型对所述个人图像信息进行识别以得到相应的个人信息集合,对所述个人信息集合进行数字化存储;
40、第二检测模块:用于当检测到其为合同档案信息时,获取与合同档案信息关联的业务人员信息;
41、识别模块:用于调用文字分析模型对所述合同档案信息进行识别以得到合同识别结果,根据所述合同识别结果以确定与合同关联的合同内容信息,所述合同内容信息包括业务内容、客户信息、金额信息、支付方式和签约主体信息;其中,所述业务内容包括业务项目和交付时间;
42、存储模块:用于对所述业务内容信息进行数字化存储,并基于数字化关联存储结果来生成数字索引信息。
43、本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的档案数字化的管理方法。
44、本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的档案数字化的管理方法。
45、与现有技术相比,本发明实施例具有以下有益效果:
46、本发明实施例中的档案数字化的管理方法通过对待数字化档案进行分类识别以确定其为个人档案还是合同档案,然后基于不同的档案情况调用不同的模型来进行分析,最终完成合同标签的确定以及个人信息的数字化录入;通过上述方式能够大大提高档案识别效率,并且由于采用标签化档案处理方式,进而使得企业人员便于进行后续索引以及数据查阅,提升企业运营效率。