本发明涉及档案管理,特别是涉及一种基于word2vector模型的档案归档方法。
背景技术:
1、随着科技的迅速发展和信息化的飞速发展,电子档案的应用场景越来越广。电子档案是用来区别于一些客观存在的档案实体,其是将实体档案信息以字节、比特方式表示并使之在设备或互联网上流动。
2、目前,电子档案通常需要由档案系统进行归档,其归档方式是直接将数量庞大的电子档案上传至档案系统,并在上传后人为进行归档分类,由于档案管理工作非常严谨,每份预归档的文件都需要核实完整性、规范性、合规性后才能归档,各单位档案管理人员仅1人,每年单是协同办公归档公文数量就达到15万多份,由人工进行电子档案的归档分类,其归档效率较低。
技术实现思路
1、针对上述现有技术,本发明在于提供一种基于word2vector模型的档案归档方法,主要解决上述背景技术中存在的技术问题。
2、为达到上述目的,本发明实施例的技术方案是这样实现的:一种基于word2vector模型的档案归档方法,所述方法包括下列步骤:
3、获取归档文件夹,以及至少一个待归档的电子档案文件,所述归档文件夹用于放置至少一个电子档案文件;
4、将所述分类文件夹发送至档案系统,以供所述档案系统基于所述分类文件夹的内容条目以及电子档案文件中的印章、手签字,对所述电子档案文件进行规范化评价;
5、基于评价结果,对所述至少一个电子档案文件归档至归档文件夹中,或,将待归档的电子档案文件进行回退。
6、可选的,建立文件夹与条目信息的对应表,基于所述对应表,为每个归档文件夹设置相应的条目信息。
7、可选的,将所述分类文件夹发送至档案系统,具体包括:基于所述分类文件夹的条目信息,生成所述分类文件夹对应的条目文件,将所述条目文件发送至所述档案系统,所述档案系统基于所述条目文件读取条目信息。
8、可选的,所述档案系统中设有:包括tf-idf模型的提取模块、由包括word2vec模型的第一规范识别模块、包括faster r-cnn深度神经网络模型的第二规范识别模块,所述提取模块提取所述电子档案文件中的关键词,所述第一规范识别模块基于所述条目信息与电子文档进行相似度计算,获得第一评价结果,所述第二规范识别模块对电子档案文件中的印章与手签字进行目标检测识别,获得第二评价结果。
9、可选的,所述提取模块通过tf-idf模型从电子文档文件中进行关键词提取,获得关键词构成的第一纯文本。
10、可选的,基于所述条目信息与电子文档进行相似度计算,获得第一评价结果,具体包括:
11、构建并训练word2vector模型,并对所述条目信息进行预处理,去除无关字符、标点符号、数字,由所述条目信息获得单独词汇构成的第二纯文本;
12、将第一纯文本以及第二纯文本分别输入word2vec模型,word2vec模型输出第一纯文本中每个单独词汇的高维向量,对于第一纯文本中所有存在的高维向量,计算它们的平均值,从而得到第一纯文本的向量表示,以及,word2vec模型输出第二纯文本中每个单独词汇的高维向量,对于第二纯文本中所有存在的高维向量,计算它们的平均值,从而得到第二纯文本的向量表示;
13、计算第一纯文本的向量表示与第二纯文本的向量表示之间的角度余弦值,根据角度余弦值结果获得第一评价结果。
14、可选的,对电子档案文件中的印章与手签字进行目标检测识别,获得第二评价结果,具体包括:
15、将电子档案文件输入第二规范识别模块,所述第二规范识别模块对所述电子档案文件进行检测,确定所述电子档案文件中的签名区域及印章区域;
16、采用faster r-cnn深度神经网络模型对签名区域及印章区域进行识别,判断是否存在目标签名图像,以及获得目标印章图像;
17、通过图像相似度算法计算目标印章图像与标准印章图像的相似度值;
18、若存在目标签名,且图像相似度值大于所述预设阈值,则第二评价结果为合格,若不存在目标签名或图像相似度值小于所述预设阈值,第二评价结果为不合格。
19、可选的,当所述角度余弦值大于阈值,且第二评价结果为合格时,将电子档案文件归档至归档文件夹中,否则将待归档的电子档案文件进行回退。
20、本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如前述所述的基于word2vector模型的档案归档方法。
21、本发明还一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如前述所述的基于word2vector模型的档案归档方法。
22、本发明的有益效果在于:本发明提出的基于word2vector模型的档案归档方法,有效解决了现有技术中电子档案归档效率低下的问题。通过自动化的档案处理流程,不仅实现了电子档案文件的快速分类与规范化评价,还提高了归档工作的准确性和效率。此发明利用word2vec模型对电子文档内容与预设条目信息进行语义相似度分析,确保文档内容与归档要求相符,同时运用faster r-cnn深度神经网络模型精确识别文档中的印章和手写签名,验证其规范性和真实性。该方法结合文本内容分析与图像识别技术,自动化完成档案的初步审核,仅当档案文件满足既定的规范化标准时,才将其归档至相应的文件夹中,否则将文件退回处理,从而显著提升了档案管理的系统化和标准化水平,减轻了档案管理人员的工作负担,适合广泛应用于各类需要高效管理电子档案的场景。
1.一种基于word2vector模型的档案归档方法,其特征在于,所述方法包括下列步骤:
2.根据权利要求1所述的一种基于word2vector模型的档案归档方法,其特征在于,建立文件夹与条目信息的对应表,基于所述对应表,为每个归档文件夹设置相应的条目信息。
3.根据权利要求1所述的一种基于word2vector模型的档案归档方法,其特征在于,将所述分类文件夹发送至档案系统,具体包括:基于所述分类文件夹的条目信息,生成所述分类文件夹对应的条目文件,将所述条目文件发送至所述档案系统,所述档案系统基于所述条目文件读取条目信息。
4.根据权利要求2所述的一种基于word2vector模型的档案归档方法,其特征在于,所述档案系统中设有:包括tf-idf模型的提取模块、由包括word2vec模型的第一规范识别模块、包括faster r-cnn深度神经网络模型的第二规范识别模块,所述提取模块提取所述电子档案文件中的关键词,所述第一规范识别模块基于所述条目信息与电子文档进行相似度计算,获得第一评价结果,所述第二规范识别模块对电子档案文件中的印章与手签字进行目标检测识别,获得第二评价结果。
5.根据权利要求4所述的一种基于word2vector模型的档案归档方法,其特征在于,所述提取模块通过tf-idf模型从电子文档文件中进行关键词提取,获得关键词构成的第一纯文本。
6.根据权利要求4所述的一种基于word2vector模型的档案归档方法,其特征在于,基于所述条目信息与电子文档进行相似度计算,获得第一评价结果,具体包括:
7.根据权利要求5所述的一种基于word2vector模型的档案归档方法,其特征在于,对电子档案文件中的印章与手签字进行目标检测识别,获得第二评价结果,具体包括:
8.根据权利要求7所述的一种基于word2vector模型的档案归档方法,其特征在于,当所述角度余弦值大于阈值,且第二评价结果为合格时,将电子档案文件归档至归档文件夹中,否则将待归档的电子档案文件进行回退。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述基于word2vector模型的档案归档方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述基于word2vector模型的档案归档方法。