一种融合正排与倒排索引的电子文档管理方法与流程

文档序号:34302161发布日期:2023-05-31 17:08阅读:40来源:国知局
一种融合正排与倒排索引的电子文档管理方法与流程

本发明涉及计算机软件领域,具体涉及一种融合正排与倒排索引的电子文档管理方法。


背景技术:

1、随着信息科技的发展,电子文档管理系统正在逐步地被越来越多的企业作为文档的主要管理方案。然而,现在的电子文档管理系统的主要功能偏向于管理,很少注重对海量文本内容的高效检索。即便很多电子文档管理系统具有检索功能,受限于管理系统普遍采用关系型结构化数据库(其使用正排索引搜索引擎)的限制,还是很难在海量文本中进行高效的检索。而单纯的以倒排索引数据库为底层的管理系统可以对海量文本进行高效检索,却很难对文档进行有效结构化管理。


技术实现思路

1、本发明的目的在于提出一种融合正排与倒排索引的电子文档管理方法。

2、实现本发明目的的技术解决方案为:一种融合正排与倒排索引的电子文档管理方法,包括以下步骤:

3、步骤1,选取搜索引擎为正排索引的数据库,以及搜索引擎为倒排索引的数据库,编码设计统一的访问接口,支持对两种数据库的统一访问操作,实现对两种数据库进行融合引接;

4、步骤2,电子文档存储时,向正排索引数据库中存储电子文档的结构化数据,向倒排索引数据库中存储电子文档的文本数据,将正排索引数据库中的数据与倒排索引数据库中的数据通过电子文档的id相互关联;

5、步骤3,当查找文档时,根据不同的需求,通过文档的结构信息在正排索引数据库中进行查找,或者通过关键词在倒排索引数据库中实现文档全文高效检索。

6、进一步的,步骤2,电子文档存储时,向正排索引数据库中存储电子文档的结构化数据,向倒排索引数据库中存储电子文档的文本数据,将正排索引数据库中的数据与倒排索引数据库中的数据通过电子文档的id相互关联,具体方法为:

7、(1)在录入数据之前,初始化搜索引擎为正排索引的数据库的表结构,包括目录表及电子文档表,其中目录表为自关联表,它的父级目录属性引用了该表的主键;电子文档表的父目录属性是一个外键,其引用了目录表的主键;

8、(4)确定待存储文档的类别,包括一级目录、二级目录、自身名称,上传并解析文件,获取标题及全文内容,为该文档生成一个全局id;

9、(5)查询出文档的直接父目录在目录表的id,如果不存在,去目录表中建立相关目录数据,将本文档的id、标题及父目录的id录入正排索引数据库;将本文档的id、标题及全文内容经分词后录入到倒排索引数据库,这样,两种类型的数据库里的数据便通过电子文档的id实现了相互关联。

10、进一步的,步骤3,当查找文档时,根据不同的需求,通过文档的结构信息在正排索引数据库中进行查找,或者通过关键词在倒排索引数据库中实现文档全文高效检索,具体方法为:

11、(1)如果确定文件的具体名称及类别信息,那么通过它的类别一级一级的找到该份文档,即在正排索引数据库中查找;

12、(2)如果不确定文档的具体名称及类别信息,那么依据文档内的某个关键词,通过倒排索引数据库检索文档;

13、一种融合正排与倒排索引的电子文档管理系统,其特征在于,基于所述的融合正排与倒排索引的电子文档管理方法,实现融合正排与倒排索引的电子文档管理。

14、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的融合正排与倒排索引的电子文档管理方法,实现融合正排与倒排索引的电子文档管理。

15、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的融合正排与倒排索引的电子文档管理方法,实现融合正排与倒排索引的电子文档管理。

16、本发明与现有技术相比,其显著优点为:既满足了电子文档管理的结构化管理及存储功能,又实现了海量文本内容的高效检索功能。



技术特征:

1.一种融合正排与倒排索引的电子文档管理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的融合正排与倒排索引的电子文档管理方法,其特征在于,步骤2,电子文档存储时,向正排索引数据库中存储电子文档的结构化数据,向倒排索引数据库中存储电子文档的文本数据,将正排索引数据库中的数据与倒排索引数据库中的数据通过电子文档的id相互关联,具体方法为:

3.根据权利要求1所述的融合正排与倒排索引的电子文档管理方法,其特征在于,步骤3,当查找文档时,根据不同的需求,通过文档的结构信息在正排索引数据库中进行查找,或者通过关键词在倒排索引数据库中实现文档全文高效检索,具体方法为:

4.一种融合正排与倒排索引的电子文档管理系统,其特征在于,基于权利要求1-3任一项所述的融合正排与倒排索引的电子文档管理方法,实现融合正排与倒排索引的电子文档管理。

5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于权利要求1-3任一项所述的融合正排与倒排索引的电子文档管理方法,实现融合正排与倒排索引的电子文档管理。

6.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于权利要求1-3任一项所述的融合正排与倒排索引的电子文档管理方法,实现融合正排与倒排索引的电子文档管理。


技术总结
本发明提出了一种融合正排与倒排索引的电子文档管理方法,选取搜索引擎为正排索引的数据库,以及搜索引擎为倒排索引的数据库,并封装统一的数据库API对两种数据库进行融合引接;电子文档存储时,向正排索引数据库中存储电子文档的结构化数据,向倒排索引数据库中存储电子文档的文本数据,将正排索引数据库中的数据与倒排索引数据库中的数据通过电子文档的ID相互关联;当查找文档时,根据不同的需求,通过文档的结构信息在正排索引数据库中进行查找,或者通过关键词在倒排索引数据库中实现文档全文高效检索。本发明既满足了电子文档管理的结构化管理及存储功能,又实现了海量文本内容的高效检索功能。

技术研发人员:任岩,顾爽,潘月浩,张露,徐夏,陶昊然,金晨,蒙森荣
受保护的技术使用者:苏州空天信息研究院
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1