本发明涉及文档信息提取领域,尤其涉及电网标准内容的自动化定位索引系统。
背景技术:
1、在电网标准内容的检索领域,随着电力系统的不断发展和智能电网的推进,电网标准的数量和复杂度不断增加,电网从业人员在日常工作中需要频繁查阅和应用这些标准。然而,由于电网标准文件数量庞大、内容复杂,人工查找和定位所需标准内容费时费力,且容易出现遗漏和错误。这不仅降低了工作效率,还可能对电网的安全运行带来潜在风险。因此,如何实现电网标准内容的自动化定位和高效检索,成为一个亟待解决的问题。
2、在文本内容分类和检索领域,已经有多种技术和方法被提出。例如,一种文本内容分类方法,通过提取文本的名称特征、简介特征和章节标题特征,基于这些特征及其关联关系,对文本内容进行多标签分类。这种方法可以高效、准确地实现对文本内容的分类,但对于复杂的电网标准文档,其处理能力和准确性仍需提升。另一项技术涉及基于图像内容的系统和方法,通过对文本内容进行解析,生成基于图像的内容。这种方法可以增强文本内容的可视化效果,但在电网标准的检索应用中,其实用性和有效性仍需进一步验证。此外,还有一种基于索引定位的图计算系统的外存访问方法,通过对图数据进行分割和排序,建立索引,并动态选择最优的载入方式,以提高数据访问效率。这一方法在数据处理和检索效率方面具有一定优势,但针对电网标准内容的复杂性,其适用性有待进一步研究。
3、有些发明通过获取目标文本内容的名称、简介和章节标题,提取其特征,并基于这些特征及其关联关系,对目标文本内容进行多标签分类。该方法虽然可以实现多标签分类,但对于电网标准这种复杂且专业性强的文本,其分类精度和效率可能不足。有些发明接收基于文本的内容项,基于内容及相关联的登录页面内容,确定内容的场景,并生成相应的图像内容项。该方法在文本到图像内容转换过程中,可能无法充分表达电网标准的专业细节,且在检索效率和准确性上仍有提升空间。有些发明将图数据分割成多个子图,分别排序并建立索引,通过选择最优的载入方式,提高数据访问效率。该方法主要针对图计算系统设计,直接应用于电网标准内容的检索可能存在适用性问题,需进行一定的改进和优化。有些发明在同一个索引中保存各个版本中出现的文件,并记录文件出现的版本,便于文件及版本的快速定位和更新。虽然可以有效减少存储开销和提高检索效率,但对于电网标准这种复杂文档的细粒度检索能力有限。
4、综上所述,现有的文本分类和检索技术在处理电网标准内容时,仍存在精度不足、适用性有限等问题。因此,设计一种针对电网标准内容的自动化定位索引系统,具有重要的理论意义和实际应用价值。
技术实现思路
1、为解决上述现有技术中存在的问题,本发明提出了电网标准内容的自动化定位索引系统,该系统通过将文档切分、特征提取、数据库存储、用户问题处理、匹配检索和结果展示等模块相结合,利用改进的bert网络结构,实现了对电网标准内容的高效自动化定位和精准检索,大大提升了电网从业人员的工作效率和电网安全运行的可靠性。具体包括以下模块:
2、t1:文档切分模块,用于将整篇文档切分成多个文档块;
3、t2:特征提取模块,利用一种改进bert网络结构提取每个文档块的特征;
4、t3:数据库模块,建立数据库系统存储文档名称、概要、文档块及其特征;
5、t4:用户问题处理模块,接收用户输入的问题并转化为可检索的格式;
6、t5:匹配检索模块,根据用户的问题与数据库中的文档概述和文档块进行匹配;
7、t6:结果展示模块,将匹配到的文档及其相关文档块展示给用户。
8、作为本发明的一种技术优选方案,所述模块t1中文档切分具体采用一种基于自然语言的切分算法,用于将整篇文档切分成多个文档块,包括以下步骤:
9、s1:文本预处理,对输入文本进行预处理,去除特殊字符和html标签,计算公式如下:
10、cleaned_text=re.sub(\s+,\t+,input_text)
11、其中,re.sub用于将多个空格替换为一个空格;
12、s2:标点符号识别,识别文本中的句子结束符,包括句号、问号、感叹号,其计算公式为:
13、sentence_endings={'.','!','?'}
14、potential_boundaries={i∣cleaned_text[i]∈sentence_endings}
15、其中,entence_endings表示标点符号识别,potential_boundaries表示潜在句子边界识别,cleaned_text[i]表示文本中的第i个字符;
16、s3:结果输出,根据确认的句子边界,将文本切分成独立的段落,具体计算公式如下:
17、sentences=[cleaned_text[0:i1],...,cleaned_text[ik-1+1:ik],cleaned_text[ik+1:]]
18、其中,{i1,i2,...,ik}是确认的句子边界的索引集合。
19、作为本发明的一种技术优选方案,所述模块t1中改进bert网络结构,在每一层引入多层次动态记忆单元,以增强模型对长文本依赖关系的捕捉能力和上下文信息的融合,其中多层次动态记忆单元的计算公式如下:
20、
21、其中,为第l层第t时间步的记忆状态,为第l层当前时间步的隐藏状态,和为记忆单元的权重和偏置,σ为sigmoid激活函数,⊙表示元素逐位乘法,其中,在多层次动态记忆机制中,通过引入记忆状态模型可以在每一层中保留过去时间步的记忆,从而更好地捕捉长文本中的依赖关系;
22、记忆状态由当前时间步的隐藏状态和上一时间步的记忆状态共同决定,权重和偏置用于控制记忆状态的更新程度。
23、作为本发明的一种技术优选方案,所述模块t1中改进bert网络结构,在每一层之间增加信息交互模块,以整合不同层的特征信息,提升模型的特征表达能力和深层信息捕捉能力,其中层间交互信息融合的计算公式如下:
24、
25、其中,为第l层下一时间步的隐藏状态,为第l层当前时间步的隐藏状态,为前几层隐藏状态的加权累加,α(l)、β(l)和为可学习的权重参数。
26、作为本发明的一种技术优选方案,模块t1所述改进bert网络结构自其输入端至其输出端方向,依次包括输入嵌入层、位置编码层、第一特征提取层、第二特征提取层、第三特征提取层、输出层;其中,特征提取层由多头自注意力机制与前馈神经网络层、动态记忆单元层、层间信息交互模块组成;其中,每一层多头自注意力机制与前馈神经网络层均包括多头自注意力子层和前馈神经网络子层,每一层动态记忆单元层在每一层中引入多层次动态记忆单元以增强模型对长文本依赖关系的捕捉能力,每一层层间信息交互模块用于整合不同层的特征信息。
27、作为本发明的一种技术优选方案,所述改进bert网络结构中,输入嵌入层中embedding_size=768;位置编码层中max_position_embeddings=512;第一特征提取层中hidden_size=768,num_attention_heads=12,intermediate_size=3072;第二特征提取层中hidden_size=768,num_attention_heads=12,intermediate_size=3072;第三特征提取层中hidden_size=768,num_attention_heads=12,intermediate_size=3072;输出层中hidden_size=768。
28、作为本发明的一种技术优选方案,模块t3中所述数据库模块存储格式具体包括:
29、文档名称字段:以唯一标识符的形式存储,具体采用uuid进行标记;
30、概要字段:采用文本摘要技术生成文档的简要描述,并存储为json格式,以便于快速检索;
31、文档块字段:将整篇文档切分后的各个文档块存储为独立的记录,采用blob格式,具体公式如下:
32、blob=pickle.dumps({
33、"block_id":block_id,
34、"content":block_content,
35、"metadata":metadata})
36、其中,block_id为文档块的唯一标识符;block_content为文档块的实际内容,经过文本编码后的字节序列;metadata包括文档块的相关元数据,具体包括位置、长度,格式为:metadata={"position":position,"length":length},其中,position代表位置,length代表长度。
37、作为本发明的一种技术优选方案,模块t4中所述匹配检索模块,具体包括以下操作步骤:
38、m1:第一匹配部分:根据用户的问题与数据库中的文档概述进行初步匹配,以确定相关文档,具体过程包括:
39、m1-1:接收用户输入的问题,并使用自然语言处理技术将其转化为可检索的查询向量,计算公式为:
40、query_vector=bert.encode(user_query)
41、其中,query_vector表示查询向量,user_query表示用户输入的问题;
42、m1-2:在数据库中搜索与查询向量相似的文档概要,使用余弦相似度计算相似性,公式为:
43、
44、其中,similarity表示相似度,summary_vector表示文档概要的特征向量,·表示向量点积,||query_vector||和||summary_vector||分别表示查询向量和文档概要向量的模长;
45、m1-3:根据相似度得分对文档进行排序,并选取相似度最高的文档。
46、m2:第二匹配部分:在第一匹配部分选定的文档中,根据用户的问题与文档块进行细粒度匹配,以确定相关段落,具体过程包括:
47、m2-1:从步骤m1-3中选定的相似度最高的文档中提取所有文档块及其特征向量,具体计算公式为:
48、block_vectors={bert.extract_features(block_content)}
49、其中,block_vectors表示文档块特征向量的集合,block_content表示每个文档块的内容;
50、m2-2:使用查询向量与文档块特征向量进行相似度计算;
51、m2-3:根据相似度得分对文档块进行排序,并选取相似度最高的文档块进行展示。
52、本发明与现有技术相比具有以下有益效果:
53、提升工作效率:系统能够快速将整篇电网标准文档切分成多个文档块,并利用改进的bert网络结构提取每个文档块的特征,实现了文档内容的快速解析和特征提取。这样,用户可以在短时间内找到所需的电网标准内容,大大减少了人工查找的时间和精力,提高了工作效率。
54、提高检索准确性:系统采用多层次动态记忆单元和层间信息交互模块,增强了模型对长文本依赖关系的捕捉能力和上下文信息的融合。通过对用户输入的问题进行自然语言处理,并与数据库中的文档概要和文档块进行匹配,能够实现高准确度的检索结果,有效避免了检索过程中可能出现的遗漏和错误。
55、增强用户体验:系统通过用户问题处理模块,将用户输入的问题转化为可检索的格式,并结合匹配检索模块,根据用户的问题与数据库中的文档概述和文档块进行匹配,最终将匹配到的文档及其相关文档块展示给用户。这样,用户能够直观地查看到相关文档内容,显著提升了用户体验和满意度。
56、提高电网安全性:由于系统能够快速准确地定位和检索电网标准内容,从而帮助电网从业人员更好地理解和应用标准,减少因标准查找不及时或查找错误带来的操作风险,从而提高了电网的安全运行水平。
57、高效的数据管理:系统中数据库模块采用uuid对文档名称进行唯一标识,并通过json格式存储文档概要,以及blob格式存储文档块,有效地组织和管理了大量电网标准文档的数据。这不仅提高了数据的存储和检索效率,还便于数据的维护和更新。