本发明涉及电力工程档案管理,特别指一种基于ai的电力工程档案知识服务方法与系统。
背景技术:
1、电力工程项目往往涉及大量的电力工程档案(档案文件),如设计图纸、施工记录文件、审批文件、设备信息、维护日志等,这些电力工程档案的数据量庞大且种类繁多,在电力工程项目施工的过程中就要同步对这些电力工程档案进行管理,以保障电力工程项目的施工质量并便于后期溯源。
2、针对电力工程档案的管理,传统上依赖人工对纸质的电力工程档案进行收集、分类、编目、存储、借阅、录入档案管理系统,电子化程度不高,存在如下缺点:
3、1、人工操作导致电力工程档案的管理效率低下,且容易出现管理疏漏;2、电力工程档案的查询依赖于手工翻阅或简单的电子搜索,难以满足用档人快速、准确的查询需求及关联档案参考佐证需求;3、较难确定各部门的归档时间、责任人和保管方式,电力工程档案的时效性和完整性易受到影响;4、缺乏统一的归档标准,易导致归档文件不齐全、归档内容不规范、分类不明确、编号混乱、档案错漏等问题;5、档案管理系统往往只具备基本的存储和查询功能,缺乏知识挖掘和智能分析的能力,无法从海量的电子工程档案中提取有价值的信息和知识。
4、因此,如何提供一种基于ai的电力工程档案知识服务方法与系统,实现提升电力工程档案管理的质量以及效率,成为一个亟待解决的技术问题。
技术实现思路
1、本发明要解决的技术问题,在于提供一种基于ai的电力工程档案知识服务方法与系统,实现提升电力工程档案管理的质量以及效率。
2、第一方面,本发明提供了一种基于ai的电力工程档案知识服务方法,包括如下步骤:
3、步骤s1、获取大量的电力工程的历史档案文本,对各所述历史档案文本进行预处理和标注后构建数据集;
4、步骤s2、基于神经网络创建一用于识别实体、属性以及关系的档案知识提取模型,基于所述数据集对档案知识提取模型进行训练;从所述数据集中收集历史归档信息,通过大数据技术从各所述历史归档信息中挖掘归档规律,基于所述归档规律设定对应的归档模板;
5、步骤s3、通过etl工具获取待管理的电力工程档案文件,通过yolo模型对所述电力工程档案文件进行复印件鉴别;
6、步骤s4、通过ocr技术从所述电力工程档案文件中识别电力工程档案文本,对所述电力工程档案文本进行预处理;
7、步骤s5、将预处理后的所述电力工程档案文本输入档案知识提取模型,得到包括实体、属性以及关系的档案知识,基于各所述档案知识构建档案知识图谱;
8、步骤s6、从所述电力工程档案文件中提取归档信息,基于所述归档信息以及归档规律生成携带推荐的归档模板的归档提醒通知,以执行归档操作;
9、步骤s7、归档过程中记录归档特征,基于所述归档特征进行归档合规性检查;
10、步骤s8、通过生成式ai技术对基于自然语言技术输入的检索语句进行转换,生成检索指令,基于所述检索指令以及档案知识图谱对电力工程档案文件进行检索和溯源。
11、进一步的,所述步骤s1具体为:
12、获取大量的电力工程的历史档案文本,对各所述历史档案文本进行至少包括数据清洗、格式转换以及数据整合的预处理,基于模式层对预处理后的各所述历史档案文本进行实体、属性以及关系的标注,基于标注后的各所述历史档案文本构建数据集;
13、所述步骤s2具体为:
14、基于神经网络创建一用于识别实体、属性以及关系的档案知识提取模型,基于预设比例将所述数据集划分为训练集和验证集,基于所述训练集对档案知识提取模型进行训练,直至满足预设的收敛条件,再基于所述验证集对训练后的档案知识提取模型进行验证,判断提取准确率是否大于预设的准确率阈值,若是,则结束训练;若否,则扩充所述训练集继续训练;
15、从所述数据集中收集至少包括归档时间、内容类型、项目类型以及项目阶段的历史归档信息,通过大数据技术从各所述历史归档信息中挖掘归档规律,基于所述归档规律设定对应的归档模板。
16、进一步的,所述步骤s3具体为:
17、通过etl工具获取待管理的电力工程档案文件,通过yolo模型识别所述电力工程档案文件中至少包括清晰度、色彩还原度、对比度、印章大小以及印章颜色的图像特征,基于各所述图像特征对电力工程档案文件进行复印件鉴别;
18、所述步骤s4具体为:
19、通过ocr技术从所述电力工程档案文件中识别电力工程档案文本,对所述电力工程档案文本进行至少包括数据清洗、格式转换以及数据整合的预处理。
20、进一步的,所述步骤s6具体为:
21、从所述电力工程档案文件中提取至少包括归档时间、内容类型、项目类型以及项目阶段的归档信息,基于所述归档信息以及归档规律生成归档提醒通知,通过显示屏显示所述归档提醒通知,或者将所述归档提醒通知自动推送给预先关联的管理终端,以执行归档操作。
22、进一步的,所述步骤s7具体为:
23、归档过程中,记录至少包括档号样式、标题规范以及档案模板的归档特征,通过预训练的大模型,基于各所述归档特征、归档规律、预设的归档规则进行归档合规性检查;
24、所述归档规则至少包括归档条目、归档目录、档号样式、标题规范以及档案模板;所述归档条目至少包括案卷号、文件号、文件名称、案卷名称、文件类型以及文件描述;所述归档目录即电力工程档案文件的存储目录。
25、第二方面,本发明提供了一种基于ai的电力工程档案知识服务系统,包括如下模块:
26、数据集构建模块,用于获取大量的电力工程的历史档案文本,对各所述历史档案文本进行预处理和标注后构建数据集;
27、模型训练模块,用于基于神经网络创建一用于识别实体、属性以及关系的档案知识提取模型,基于所述数据集对档案知识提取模型进行训练;从所述数据集中收集历史归档信息,通过大数据技术从各所述历史归档信息中挖掘归档规律,基于所述归档规律设定对应的归档模板;
28、复印件鉴别模块,用于通过etl工具获取待管理的电力工程档案文件,通过yolo模型对所述电力工程档案文件进行复印件鉴别;
29、档案文本识别模块,用于通过ocr技术从所述电力工程档案文件中识别电力工程档案文本,对所述电力工程档案文本进行预处理;
30、知识图谱构建模块,用于将预处理后的所述电力工程档案文本输入档案知识提取模型,得到包括实体、属性以及关系的档案知识,基于各所述档案知识构建档案知识图谱;
31、归档提醒模块,用于从所述电力工程档案文件中提取归档信息,基于所述归档信息以及归档规律生成携带推荐的归档模板的归档提醒通知,以执行归档操作;
32、合规检查模块,用于归档过程中记录归档特征,基于所述归档特征进行归档合规性检查;
33、知识问答模块,用于通过生成式ai技术对基于自然语言技术输入的检索语句进行转换,生成检索指令,基于所述检索指令以及档案知识图谱对电力工程档案文件进行检索和溯源。
34、进一步的,所述数据集构建模块具体用于:
35、获取大量的电力工程的历史档案文本,对各所述历史档案文本进行至少包括数据清洗、格式转换以及数据整合的预处理,基于模式层对预处理后的各所述历史档案文本进行实体、属性以及关系的标注,基于标注后的各所述历史档案文本构建数据集;
36、所述模型训练模块具体用于:
37、基于神经网络创建一用于识别实体、属性以及关系的档案知识提取模型,基于预设比例将所述数据集划分为训练集和验证集,基于所述训练集对档案知识提取模型进行训练,直至满足预设的收敛条件,再基于所述验证集对训练后的档案知识提取模型进行验证,判断提取准确率是否大于预设的准确率阈值,若是,则结束训练;若否,则扩充所述训练集继续训练;
38、从所述数据集中收集至少包括归档时间、内容类型、项目类型以及项目阶段的历史归档信息,通过大数据技术从各所述历史归档信息中挖掘归档规律,基于所述归档规律设定对应的归档模板。
39、进一步的,所述复印件鉴别模块具体用于:
40、通过etl工具获取待管理的电力工程档案文件,通过yolo模型识别所述电力工程档案文件中至少包括清晰度、色彩还原度、对比度、印章大小以及印章颜色的图像特征,基于各所述图像特征对电力工程档案文件进行复印件鉴别;
41、所述档案文本识别模块具体用于:
42、通过ocr技术从所述电力工程档案文件中识别电力工程档案文本,对所述电力工程档案文本进行至少包括数据清洗、格式转换以及数据整合的预处理。
43、进一步的,所述归档提醒模块具体用于:
44、从所述电力工程档案文件中提取至少包括归档时间、内容类型、项目类型以及项目阶段的归档信息,基于所述归档信息以及归档规律生成归档提醒通知,通过显示屏显示所述归档提醒通知,或者将所述归档提醒通知自动推送给预先关联的管理终端,以执行归档操作。
45、进一步的,所述合规检查模块具体用于:
46、归档过程中,记录至少包括档号样式、标题规范以及档案模板的归档特征,通过预训练的大模型,基于各所述归档特征、归档规律、预设的归档规则进行归档合规性检查;
47、所述归档规则至少包括归档条目、归档目录、档号样式、标题规范以及档案模板;所述归档条目至少包括案卷号、文件号、文件名称、案卷名称、文件类型以及文件描述;所述归档目录即电力工程档案文件的存储目录。
48、本发明的优点在于:
49、通过获取大量的电力工程的历史档案文本并进行预处理和标注后构建数据集,基于数据集对创建的档案知识提取模型进行训练,从数据集中收集历史归档信息,通过大数据技术从各历史归档信息中挖掘归档规律,基于所述归档规律设定对应的归档模板;接着通过etl工具获取待管理的电力工程档案文件并进行复印件鉴别,通过ocr技术从电力工程档案文件中识别电力工程档案文本并进行预处理,将预处理后的电力工程档案文本输入档案知识提取模型,得到包括实体、属性以及关系的档案知识,基于各档案知识构建档案知识图谱;接着从电力工程档案文件中提取归档信息,基于归档信息以及归档规律生成携带推荐的归档模板的归档提醒通知,以执行归档操作,归档过程中记录归档特征以进行归档合规性检查;最后通过生成式ai技术对基于自然语言技术输入的检索语句进行转换,生成检索指令,基于检索指令以及档案知识图谱对电力工程档案文件进行检索和溯源;即通过etl工具自动获取电力工程档案文件进行复印件鉴别,通过ocr技术自动识别电力工程档案文本并进行预处理,通过预训练的档案知识提取模型从电力工程档案文本中自动提取档案知识以构建档案知识图谱,用于后续的档案检索,通过大数据技术挖掘的归档规律生成归档提醒,通过归档特征、归档规律、归档规则进行归档合规性检查,无需人工操作,避免人工操作而导致的疏漏,也避免归档文件不齐全、归档内容不规范、分类不明确、编号混乱、档案错漏等问题,且全程电子化便于后期的快速检索和溯源,结合档案知识图谱可快速发现电力工程档案文件之间的关联性,可充分的从海量的电力工程档案文件中提取有价值的信息和知识,不仅有效提升电力工程档案文件的利用价值,还有效降低知识获取的难度,最终极大的提升了电力工程档案管理的质量以及效率。