一种档案数据管理方法及系统与流程

文档序号:31480287发布日期:2022-09-10 01:44阅读:127来源:国知局
一种档案数据管理方法及系统与流程

1.本发明涉及人工智能领域,尤其涉及一种档案数据管理方法及系统。


背景技术:

2.档案作为历史的沉淀和积累,是人类发展提供最根本的依据。随着现代化技术的不断更新和发展,档案数据管理工作也逐步趋向于数字化和信息化。当前档案数据的管理形式主要有电子档案和纸质档案,现有技术中通过传统人工方式进行纸质档案管理,对物理存储空间的需求越来越大,同时给管理者造成巨大的管理工作,而现有通过计算机进行档案数据分类存储、管理时,存在档案数据关联度低,导致档案资源利用程度不高等问题。研究从档案数据实体内容层面进行档案数据管理,对于提高档案数据管理效率、提高档案数据实际利用率等具有重要意义。
3.然而,现有技术中通过人工进行档案数据分类管理存在管理工作量大、通过人工或计算机管理存在档案数据关联度低,进而影响档案资源利用率的技术问题。


技术实现要素:

4.本发明的目的是提供一种档案数据管理方法及系统,用以解决现有技术中通过人工进行档案数据分类管理存在管理工作量大、通过人工或计算机管理存在档案数据关联度低,进而影响档案资源利用率的技术问题。
5.鉴于上述问题,本发明提供了一种档案数据管理方法及系统。
6.第一方面,本发明提供了一种档案数据管理方法,所述方法通过一种档案数据管理系统实现,其中,所述方法包括:通过基于预设收集方案获得档案数据集,其中,所述档案数据集包括多个档案数据;提取所述多个档案数据的目标档案数据,并利用档案抽取模型得到所述目标档案数据的目标档案实体;构建多维度关联模型,并利用所述多维度关联模型得到所述目标档案实体的多维度关联关系;基于所述多维度关联关系,得到档案实体集,其中,所述档案实体集是指与所述目标档案实体存在关联关系的档案实体的集合;依次计算所述档案实体集中各档案实体与所述目标实体的相似值,得到相似值集合;基于所述相似值集合,得到所述各档案实体与所述目标档案实体的档案知识图谱;通过所述档案知识图谱进行档案数据管理。
7.第二方面,本发明还提供了一种档案数据管理系统,用于执行如第一方面所述的一种档案数据管理方法,其中,所述系统包括:数据收集模块,所述数据收集模块用于基于预设收集方案获得档案数据集,其中,所述档案数据集包括多个档案数据;数据处理模块,所述数据处理模块包括:提取模块,所述提取模块用于提取所述多个档案数据的目标档案数据,并利用档案抽取模型得到所述目标档案数据的目标档案实体;分析模块,所述分析模块用于构建多维度关联模型,并利用所述多维度关联模型得到所述目标档案实体的多维度关联关系;获得模块,所述获得模块用于基于所述多维度关联关系,得到档案实体集,其中,所述档案实体集是指与所述目标档案实体存在关联关系的档案实体的集合;计算模块,所
述计算模块用于依次计算所述档案实体集中各档案实体与所述目标实体的相似值,得到相似值集合;构建模块,所述构建模块用于基于所述相似值集合,得到所述各档案实体与所述目标档案实体的档案知识图谱;数据管理模块,所述数据管理模块用于通过所述档案知识图谱进行档案数据管理。
8.本发明中提供的一个或多个技术方案,至少具有如下技术效果或优点:
9.通过基于预设收集方案获得档案数据集,其中,所述档案数据集包括多个档案数据;提取所述多个档案数据的目标档案数据,并利用档案抽取模型得到所述目标档案数据的目标档案实体;构建多维度关联模型,并利用所述多维度关联模型得到所述目标档案实体的多维度关联关系;基于所述多维度关联关系,得到档案实体集,其中,所述档案实体集是指与所述目标档案实体存在关联关系的档案实体的集合;依次计算所述档案实体集中各档案实体与所述目标实体的相似值,得到相似值集合;基于所述相似值集合,得到所述各档案实体与所述目标档案实体的档案知识图谱;通过所述档案知识图谱进行档案数据管理。通过基于档案数据关联度进行档案数据管理,达到了提高档案数据资源管理科学性、优化档案数据检索,最终提高档案资源利用率的技术效果。
10.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
11.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
12.图1为本发明一种档案数据管理方法的流程示意图;
13.图2为本发明一种档案数据管理方法中组建所述档案抽取模型的流程示意图;
14.图3为本发明一种档案数据管理方法中得到系统评价指数的流程示意图;
15.图4为本发明一种档案数据管理方法中对所述系统评价指数进行调整的流程示意图;
16.图5为本发明一种档案数据管理系统的结构示意图。
17.附图标记说明:
18.数据收集模块m100,数据处理模块m200,提取模块m210,分析模块m220,获得模块m230,计算模块m240,构建模块m250,数据管理模块m300。
具体实施方式
19.本发明通过提供一种档案数据管理方法及系统,解决了现有技术中通过人工进行档案数据分类管理存在管理工作量大、通过人工或计算机管理存在档案数据关联度低,进而影响档案资源利用率的技术问题。通过基于档案数据关联度进行档案数据管理,达到了提高档案数据资源管理科学性、优化档案数据检索,最终提高档案资源利用率的技术效果。
20.本发明技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关
规定。
21.下面,将参考附图对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部。
22.实施例一
23.请参阅附图1,本发明提供了一种档案数据管理方法,其中,所述方法应用于一种档案数据管理系统,所述方法具体包括如下步骤:
24.步骤s100:基于预设收集方案获得档案数据集,其中,所述档案数据集包括多个档案数据;
25.具体而言,所述一种档案数据管理方法应用于所述一种档案数据管理系统,可以通过智能化分析各档案数据中实体的关联关系,并计算对应相似值,从而对档案数据进行直观可视化管理。
26.所述预设收集方案是指系统基于待智能管理的档案数据的来源、类型等综合分析后确定的采集档案数据的方式。示范性的如通过将档案数据管理系统和公司及企业的oa系统、电子文档共享系统等进行连接,从而智能化拷贝公司其他系统中的档案数据;再如通过档案数据管理人员手工著录得到公司相关纸质资源的电子版本信息;亦如通过批量导入技术将excel、word等各种格式的电子档案数据等自动导入系统中。进而,通过各种不同收集方案得到的档案数据聚集得到所述档案数据集,且所述档案数据集中包括多个档案数据。
27.通过基于多种方案收集得到档案数据集,提高了档案数据收集的灵活性,达到了提供系统使用便捷性,同时档案数据集的获得也为后续档案数据管理提供基础的技术效果。
28.步骤s200:提取所述多个档案数据的目标档案数据,并利用档案抽取模型得到所述目标档案数据的目标档案实体;
29.进一步的,如附图2所示,本发明步骤s200还包括:
30.步骤s210:构建数据解析层,其中,所述数据解析层用于解析所述目标档案数据的格式;
31.进一步的,本发明步骤s210还包括:
32.步骤s211:通过所述数据解析层得到所述目标档案数据的格式;
33.步骤s212:判断所述目标档案数据的格式是否满足预设格式要求;
34.步骤s213:若所述目标档案数据的格式不满足预设格式要求,利用光学字符识别技术得到目标数据信息;
35.步骤s214:利用所述深层揭示层对所述目标数据信息进行分析,得到所述目标档案数据的所述实体、所述实体成分。
36.步骤s220:构建深层揭示层,其中,所述深层揭示层用于揭示所述目标档案数据的实体、实体成分;
37.步骤s230:构建实体抽取层,其中,所述实体抽取层用于抽取预设成分要求的实体;
38.步骤s240:根据所述数据解析层、所述深层揭示层、所述实体抽取层,组建所述档案抽取模型。
39.具体而言,所述目标档案数据是指从所述档案数据集的所述多个档案数据中提取到的任意一个待利用档案数据管理系统进行档案数据智能管理的档案数据。通过档案抽取模型得到所述目标档案数据的目标档案实体。其中,所述档案抽取模型通过数据解析、深层次揭示以及实体抽取过程实现对档案数据进行细粒度实体识别。
40.首先构建对所述目标档案数据的格式进行解析的数据解析层,然后构建对所述目标档案数据的实体、实体成分进行自动揭示的深层揭示层,进而,构建对预设成分要求的实体进行自动抽取的实体抽取层。其中,所述预设成分要求根据系统分类管理精度需求、档案数据类型及相关性等,由档案数据管理人员人工确定。最后,根据所述数据解析层、所述深层揭示层、所述实体抽取层,组建所述档案抽取模型。进一步的,通过所述数据解析层得到所述目标档案数据的格式,并判断所述目标档案数据的格式是否满足预设格式要求。其中,所述预设格式要求包括所有电子信息类数据格式。示范性的如文本档案、音视频档案、档案元数据、xml档案,日常办公使用的word、ppt、excel、pdf等数据。若所述目标档案数据的格式不满足预设格式要求,说明所述目标档案数据为纸质档案数据,因此所述目标档案数据的tiff等图片格式资源,并通过ocr将所述目标档案数据自动识别转换为txt文本格式,即得到所述目标数据信息。最后利用所述深层揭示层对所述目标数据信息进行分析,得到所述目标档案数据的所述实体、所述实体成分。
41.通过档案抽取模型的构建,实现了智能化快速、准确的获取档案实体的技术目标,达到了为后续分析档案数据之间的关联性和相似性,并构建档案知识图谱等提供数据基础的技术效果。
42.步骤s300:构建多维度关联模型,并利用所述多维度关联模型得到所述目标档案实体的多维度关联关系;
43.步骤s400:基于所述多维度关联关系,得到档案实体集,其中,所述档案实体集是指与所述目标档案实体存在关联关系的档案实体的集合;
44.进一步的,本发明步骤s40还包括:
45.步骤s410:基于大数据获得历史档案管理数据;
46.步骤s420:基于所述历史档案管理数据训练所述多维度关联模型,其中,所述多维度关联模型包括形似关联层、义似关联层;
47.步骤s430:根据所述形似关联层、所述义似关联层,依次得到形似档案实体集、义似档案实体集,并组成所述档案实体集。
48.进一步的,本发明还包括如下步骤:
49.步骤s441:将relu函数作为激活函数,并将所述激活函数表达为:
[0050][0051]
步骤s442:获得所述激活函数的预设dropout值,并基于所述预设dropout值进行损失试验;
[0052]
步骤s443:根据所述损失试验的试验结果,确定最佳dropout值。
[0053]
具体而言,通过基于大数据获得历史档案管理数据,并基于所述历史档案管理数
据训练所述多维度关联模型。其中,所述多维度关联模型包括形似关联层、义似关联层。其中,所述形似关联层用于智能化分析实体信息之间语言结构相似性,所述义似关联层用于智能化分析实体信息之间语言内容相似性。根据所述形似关联层、所述义似关联层,依次得到形似档案实体集、义似档案实体集,并组成所述档案实体集。
[0054]
进一步的,将relu函数作为激活函数,并将所述激活函数表达为:
[0055][0056]
其中,所述激活函数是所述多维度关联模型中不可或缺的一部分,用于强化所述多维度关联模型的非线性表达能力。示范性的如激活函数有sigmoid函数、tanh函数和relu函数。在训练过程中,激活函数会将所述多维度关联模型中的神经元从输入端映射至输出端,从而使所述多维度关联模型较好的学习到非线性的分布数据,进一步提高所述多维度关联模型的泛化能力。通过预设所述激活函数的预设dropout值,并基于所述预设dropout值进行损失试验,进而根据所述损失试验的试验结果,确定最佳dropout值。也就是说,在所述最佳dropout值为下损失函数最低,所述多维度关联模型效果最好。
[0057]
步骤s500:依次计算所述档案实体集中各档案实体与所述目标实体的相似值,得到相似值集合;
[0058]
步骤s600:基于所述相似值集合,得到所述各档案实体与所述目标档案实体的档案知识图谱;
[0059]
步骤s700:通过所述档案知识图谱进行档案数据管理。
[0060]
具体而言,利用所述多维度关联模型智能化得到所述档案实体集中各档案实体与所述目标实体的相似值,并组成所述相似值集合。进一步的,对所述相似值集合中的各个相似值进行相似等级划分,示范性的如第一级相似、第二级相似、第三级相似。进而,根据相似级别得到所述各档案实体与所述目标档案实体的档案知识图谱,并通过所述档案知识图谱进行档案数据管理。通过基于档案数据关联度进行档案数据管理,达到了提高档案数据资源管理科学性、优化档案数据检索,最终提高档案资源利用率的技术效果。
[0061]
进一步的,如附图3所示,本发明还包括如下步骤:
[0062]
步骤s810:获得试验用户,并为所述试验用户设置试验权限;
[0063]
步骤s820:所述试验用户基于所述试验权限进行系统试验,其中,所述系统试验包括系统安全试验、系统功能试验;
[0064]
步骤s830:依次得到所述系统安全试验的安全试验结果、所述系统功能试验的功能试验结果;
[0065]
步骤s840:对所述安全试验结果、所述功能试验结果进行加权计算,得到系统评价指数。
[0066]
进一步的,如附图4所示,本发明还包括如下步骤:
[0067]
步骤s851:利用apachebench进行系统压力试验,得到压力试验结果;
[0068]
步骤s852:根据所述压力试验结果,对所述系统评价指数进行调整。
[0069]
具体而言,软件系统测试是整个软件系统开发和维护过程中最重要的环节之一,该环节既能确保软件质量,又能检测软件的各个功能是否能正常运行,该过程是在软件系统被正式推广应用之前,先对软件的各个功能模块展开的一个功能性测试和压力测试,即
利用人工或自动化的方式,对某个软件系统的运行过程进行运行或测定。因此在基于档案数据关联度进行档案数据管理之前,设计检验试验对系统进行档案数据管理的可靠性检验。
[0070]
首先获得试验用户,其中,所述试验用户可以为虚拟用户或真实用户。示范性的如当试验用户为虚拟用户时,可以对系统识别不存在账号、禁用账号等进行智能化安全检验,当试验用户为真实用户时,可以对系统识别正确账号及密码等进行安全检验。进一步的,为所述试验用户设置试验权限,权限范围根据待试验项目进行自由设置。举例如为所述试验用户设置新增用户、修改分类、全面检索、档案查看及下载等权限后,可以人工登录所述试验用户的账号,并依次尝试各个操作,从而对系统进行功能检验。也就是说,所述试验用户基于所述试验权限进行系统试验,其中包括系统安全试验、系统功能试验,并依次得到所述系统安全试验的安全试验结果、所述系统功能试验的功能试验结果。最后利用熵权法等对所述安全试验结果、所述功能试验结果进行加权计算,得到系统评价指数。
[0071]
进一步的,利用apachebench进行系统压力试验,得到压力试验结果。其中,所述apachebench是一种压力检测工具。示范性的如采用apachebench进行压力测试对系统进行单线程、多线程测试,具体如模拟1个客户端请求100次,模拟100个客户端请求10000次,模拟1000个客户端请求100000次等。最后根据所述压力试验结果,对所述系统评价指数进行调整。
[0072]
综上所述,本发明所提供的一种档案数据管理方法具有如下技术效果:
[0073]
通过基于预设收集方案获得档案数据集,其中,所述档案数据集包括多个档案数据;提取所述多个档案数据的目标档案数据,并利用档案抽取模型得到所述目标档案数据的目标档案实体;构建多维度关联模型,并利用所述多维度关联模型得到所述目标档案实体的多维度关联关系;基于所述多维度关联关系,得到档案实体集,其中,所述档案实体集是指与所述目标档案实体存在关联关系的档案实体的集合;依次计算所述档案实体集中各档案实体与所述目标实体的相似值,得到相似值集合;基于所述相似值集合,得到所述各档案实体与所述目标档案实体的档案知识图谱;通过所述档案知识图谱进行档案数据管理。通过基于档案数据关联度进行档案数据管理,达到了提高档案数据资源管理科学性、优化档案数据检索,最终提高档案资源利用率的技术效果。
[0074]
实施例二
[0075]
基于与前述实施例中一种档案数据管理方法,同样发明构思,本发明还提供了一种档案数据管理系统,请参阅附图5,所述系统包括:
[0076]
数据收集模块m100,所述数据收集模块m100用于基于预设收集方案获得档案数据集,其中,所述档案数据集包括多个档案数据;
[0077]
数据处理模块m200,所述数据处理模块m200包括:
[0078]
提取模块m210,所述提取模块m210用于提取所述多个档案数据的目标档案数据,并利用档案抽取模型得到所述目标档案数据的目标档案实体;
[0079]
分析模块m220,所述分析模块m220用于构建多维度关联模型,并利用所述多维度关联模型得到所述目标档案实体的多维度关联关系;
[0080]
获得模块m230,所述获得模块m230用于基于所述多维度关联关系,得到档案实体集,其中,所述档案实体集是指与所述目标档案实体存在关联关系的档案实体的集合;
[0081]
计算模块m240,所述计算模块m240用于依次计算所述档案实体集中各档案实体与所述目标实体的相似值,得到相似值集合;
[0082]
构建模块m250,所述构建模块m250用于基于所述相似值集合,得到所述各档案实体与所述目标档案实体的档案知识图谱;
[0083]
数据管理模块m300,所述数据管理模块m300用于通过所述档案知识图谱进行档案数据管理。
[0084]
进一步的,所述系统中的所述提取模块m210还用于:
[0085]
构建数据解析层,其中,所述数据解析层用于解析所述目标档案数据的格式;
[0086]
构建深层揭示层,其中,所述深层揭示层用于揭示所述目标档案数据的实体、实体成分;
[0087]
构建实体抽取层,其中,所述实体抽取层用于抽取预设成分要求的实体;
[0088]
根据所述数据解析层、所述深层揭示层、所述实体抽取层,组建所述档案抽取模型。
[0089]
进一步的,所述系统中的所述提取模块m210还用于:
[0090]
通过所述数据解析层得到所述目标档案数据的格式;
[0091]
判断所述目标档案数据的格式是否满足预设格式要求;
[0092]
若所述目标档案数据的格式不满足预设格式要求,利用光学字符识别技术得到目标数据信息;
[0093]
利用所述深层揭示层对所述目标数据信息进行分析,得到所述目标档案数据的所述实体、所述实体成分。
[0094]
进一步的,所述系统中的所述获得模块m230还用于:
[0095]
基于大数据获得历史档案管理数据;
[0096]
基于所述历史档案管理数据训练所述多维度关联模型,其中,所述多维度关联模型包括形似关联层、义似关联层;
[0097]
根据所述形似关联层、所述义似关联层,依次得到形似档案实体集、义似档案实体集,并组成所述档案实体集。
[0098]
进一步的,所述系统中的所述获得模块m230还用于:
[0099]
将relu函数作为激活函数,并将所述激活函数表达为:
[0100][0101]
获得所述激活函数的预设dropout值,并基于所述预设dropout值进行损失试验;
[0102]
根据所述损失试验的试验结果,确定最佳dropout值。
[0103]
进一步的,所述系统还包括智能评价模块,其中,所述智能评价模块用于:
[0104]
获得试验用户,并为所述试验用户设置试验权限;
[0105]
所述试验用户基于所述试验权限进行系统试验,其中,所述系统试验包括系统安全试验、系统功能试验;
[0106]
依次得到所述系统安全试验的安全试验结果、所述系统功能试验的功能试验结果;
[0107]
对所述安全试验结果、所述功能试验结果进行加权计算,得到系统评价指数。
[0108]
进一步的,所述系统中的所述智能评价模块还用于:
[0109]
利用apachebench进行系统压力试验,得到压力试验结果;
[0110]
根据所述压力试验结果,对所述系统评价指数进行调整。
[0111]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,前述图1实施例一中的一种档案数据管理方法和具体实例同样适用于本实施例的一种档案数据管理系统,通过前述对一种档案数据管理方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种档案数据管理系统,所以为了说明书的简洁,在此不再详述。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0112]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
[0113]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1