本发明涉及信息检索领域,尤其涉及一种异步式服务化信息检索和索引管理方法及系统。
背景技术:
1、随着大数据时代的发展和文本处理技术的发展,对文本检索的要求越来越高,单纯的依靠数据库进行模糊匹配已经不能满足业务需求。全文检索技术使用分词技术进行功能的实现,但是标准词库并不能涵盖各行业的专业词库,使检索效果大打折扣,同时每个应用系统的大量的非结构化数据由于历史原因,无法做到高效的检索。
2、因此,如何对每个应用系统的非结构化数据处理,为应用系统提供高效、灵活、可扩展的检索服务是目前亟待解决的技术问题。
技术实现思路
1、本发明提供了一种异步式服务化信息检索和索引管理方法及系统,以提高信息检索的灵活性和可扩展性。
2、根据本发明的一方面,提供了一种异步式服务化信息检索和索引管理系统,包括接入管理模块、数据处理模块和数据存储模块;其中,
3、所述接入管理模块,与至少一种应用系统连接,用于获取所述应用系统中非结构化数据对应的标识信息,将所述标识信息存储在消息队列中,根据所述消息队列获取所述应用系统的非结构化数据,并将所述非结构化数据发送至所述数据处理模块;
4、所述数据处理模块,与所述接入管理模块连接,用于接收所述接入管理模块发送的所述非结构化数据,将所述非结构化数据进行文本抽取得到待写入数据,并将所述待写入数据写入至所述数据存储模块;
5、所述数据存储模块,与所述数据处理模块连接,用于接收所述数据处理模块写入的所述待写入数据,根据基础词库和专业词库对所述待写入数据进行分词处理得到待存储数据,并存储所述待存储数据和构建与所述应用系统对应的目标索引。
6、根据本发明的另一方面,提供了一种异步式服务化信息检索和索引管理方法,应用于异步式服务化信息检索和索引管理系统,包括接入管理模块、数据处理模块和数据存储模块,所述接入管理模块与至少一种应用系统连接,所述数据处理模块与所述接入管理模块连接,所述数据存储模块与所述数据处理模块连接;其中,所述异步式服务化信息检索和索引管理方法,包括:
7、获取所述应用系统中非结构化数据对应的标识信息,将所述标识信息存储在消息队列中,根据所述消息队列获取所述应用系统的非结构化数据,并将所述非结构化数据发送至所述数据处理模块;
8、接收所述接入管理模块发送的所述非结构化数据,将所述非结构化数据进行文本抽取得到待写入数据,并将所述待写入数据写入至所述数据存储模块;
9、接收所述数据处理模块写入的所述待写入数据,根据基础词库和专业词库对所述待写入数据进行分词处理得到待存储数据,并存储所述待存储数据和构建与所述应用系统对应的目标索引。
10、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
11、至少一个处理器;
12、以及与所述至少一个处理器通信连接的存储器;
13、其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的异步式服务化信息检索和索引管理方法。
14、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的异步式服务化信息检索和索引管理方法。
15、本发明实施例的技术方案,通过获取所述应用系统中非结构化数据对应的标识信息,将所述标识信息存储在消息队列中,根据所述消息队列获取所述应用系统的非结构化数据,并将所述非结构化数据发送至所述数据处理模块;接收所述接入管理模块发送的所述非结构化数据,将所述非结构化数据进行文本抽取得到待写入数据,并将所述待写入数据写入至所述数据存储模块;接收所述数据处理模块写入的所述待写入数据,根据基础词库和专业词库对所述待写入数据进行分词处理得到待存储数据,并存储所述待存储数据和构建与所述应用系统对应的目标索引。解决了现有检索服务灵活性和可扩展性低问题,实现了将各个应用系统的非结构化数据统一到一个平台,并且定时传输各应用系统产生的增量非结构化数据,对于新的应用系统可以随时进行扩展接入,实现了一体化的全文检索,每一名用户都可以进行检索,定位到匹配的文件,定位到其所在的应用系统,方便用户,最大程度的发挥非结构化数据的价值。同时提供服务接口给每一个应用系统,使应用系统集成该平台,使用全文检索的能力检索自己系统的全部结构化数据,定位到具体业务场景,大大提升系统的便利度。
16、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
1.一种异步式服务化信息检索和索引管理系统,其特征在于,包括接入管理模块、数据处理模块和数据存储模块;其中,
2.根据权利要求1所述的系统,其特征在于,所述接入管理模块包括日志子模块、接口子模块、中间库子模块和队列消费子模块;其中,
3.根据权利要求1所述的系统,其特征在于,所述数据处理模块包括抽取子模块和写入子模块;其中,
4.根据权利要求3所述的系统,其特征在于,所述抽取子模块包括文本抽取单元、识别抽取单元和多媒体抽取单元;其中,
5.根据权利要求3所述的系统,其特征在于,所述抽取子模块还包括抽取配置单元,其中,
6.根据权利要求1所述的系统,其特征在于,所述数据存储模块包括分词子模块、索引建立子模块和索引更新子模块;其中,
7.根据权利要求1所述的系统,其特征在于,所述异步式服务化信息检索和索引管理系统还包括数据检索模块,其中,
8.根据权利要求7所述的系统,其特征在于,所述数据检索模块包括第一检索子模块和第二检索子模块,其中,
9.根据权利要求7所述的系统,其特征在于,所述数据检索模块还包括同义词确定子模块,其中,
10.一种异步式服务化信息检索和索引管理方法,其特征在于,应用于异步式服务化信息检索和索引管理系统,包括接入管理模块、数据处理模块和数据存储模块,所述接入管理模块与至少一种应用系统连接,所述数据处理模块与所述接入管理模块连接,所述数据存储模块与所述数据处理模块连接;其中,所述异步式服务化信息检索和索引管理方法,包括: