一种基于大数据与计算机视觉结合的图文检索系统及方法与流程

文档序号:36511082发布日期:2023-12-29 10:27阅读:51来源:国知局
一种基于大数据与计算机视觉结合的图文检索系统及方法与流程

本发明涉及数据采集、数据检索、图像识别领域,特别是涉及一种基于大数据与计算机视觉结合的图文检索系统及方法。


背景技术:

1、数据采集与数据检索是大数据关键技术,而图像识别则是计算机视觉技术。随着大数据技术与深度学习技术的发展,所需数据都是存储在关系型数据库,在大数据量下其检索性能低、关联性差、响应慢,且无法快速定位相关文书与卷宗的数据信息,更无法快速查找相关联的印章、指纹、签名等图片。这就需要数据采集技术,将案件相关数据采集到elasticsearch中,并在结构化数据采集过程中,可以使用图像识别技术对卷宗或者文书的识别,从而快速查看关联的图片数据;

2、而且elasticsearch可以提供毫秒级别响应速度,以及更加强大数据检索与数据聚合操作,可以满足绝大多数业务场景的检索需求。在业务应用中,由于数据量比较大,导致检索响应慢,结果数据间关联性差;文书与卷宗数据则可以理解为非结构化数据,而在大量非结构化数据中无法快速准确的找到需要的文书或者卷宗数据,同样在大量的图片数据中也无法快速获取相关联的图片数据。因此需要使用数据采集、图像识别技术,将案件信息、文书信息、卷宗信息以及图片的特征情况提取保存到elasticsearch,再使用数据检索技术进行相关数据查询操作。


技术实现思路

1、本发明的目的在于克服现有技术的不足,提供一种基于大数据与计算机视觉结合的图文检索系统及方法,有效提高了案件、文书与卷宗的检索效率。

2、本发明的目的是通过以下技术方案来实现的:一种基于大数据与计算机视觉结合的图文检索系统,包括:

3、数据采集模块,用于获取业务数据、文书数据与卷宗数据,采集数据用于为数据检索提供支持;

4、数据检索模块,用于提供数据检索功能,进行多组合关键字查询、多聚合查询以及基于sql语句的检索;

5、数据源管理模块,用于管理结构化数据源以及非结构化数据源,也支持插件化动态扩展数据源类型;

6、词库管理模块,用于配置数据检索的分词词库,并提供词库隔离功能,以便于在不同的索引上使用不同的词库配置;

7、es监控与运维模块,用于提供对es集群服务的监控面板,以及对es集群动态扩容与缩容的操作;

8、系统管理模块,用于实现系统的用户权限管理,并提供数据隔离功能,使得各个业务间的数据隔离,避免恶意访问以及垃圾数据产生;

9、图像识别模块,用于基于检察行业图像数据训练而得到的图像识别模型,识别文书卷宗中的目标物品,并结合数据检索功能,实现以文搜图的功能。

10、所述数据采集模块支持多数据源采集以及嵌入对象模式采集,提供全量采集、增量采集、实时采集、采集失败后重试、脏数据处理、以及采集日志记录的功能。所述目标物品包括指纹、印章、签名中一种或多种的组合。

11、一种基于大数据与计算机视觉结合的图文检索方法,包括以下步骤:

12、第一步、进行图文检索服务的部署:

13、1、基础环境准备;

14、2、 环境安装,首先安装并配置jdk环境;其次再安装mysql服务,并初始化图文检索系统的数据库信息;然后安装elasticsearch服务,并初始化elasticsearch服务的账户密码;再安装图像识别服务,此时需要通过执行图像识别训练步骤,得到训练好的图像识别模型,并在图像识别扩展插件中配置图像识别服务地址;之后便是为图文检索服务配置mysql连接信息、elasticsearch连接信息、扩展插件路径信息;最后便是启动图文检索服务;

15、第二步、系统用户配置:使用系统管理员登录系统后,首先需要创建一个角色与用户,然后便退出登录,使用新建的用户进行登录操作,避免当系统接入多个业务环境时,导致业务间检索数据混乱,以及脏数据与无用数据出现;

16、第三步、数据源配置:配置需要采集的结构化数据源信息,以及非结构化数据源信息,当使用图像识别功能时,需要选择具有图像识别功能的非结构化扩展插件,用于统一管理;

17、第四步、数据采集配置:在数据采集器中配置需要采集的结构化数据源,与关联的非结构化数据源(其中非结构化数据源默认只支持文本内容提取,可以通过安装扩展插件来支持图像识别功能),并且在数据采集sql中也需要指定图像文件地址,默认会以‘__url’结尾字段的字段值作为非结构化文档地址,还需要在支持图像识别的非结构化数据源插件中配置图像服务地址(会通过图像识别模型训练步骤,得到拥有检察行业特性的图像识别模型,并使用图像识别模型部署一个图像识别服务)。

18、第五步、数据采集:校验数据库是否开启归档日志,如果开启则执行基于flink的实时同步步骤,否则会执行数据抽取步骤,之后会遍历采集的数据,从而获取需要识别的图像文件,并保存到本地;

19、第六步、图像识别结果存储:通过非结构化数据源的图像识别插件,调用图像识别服务进行对图像内容进行识别,并保存其识别的结果数据;

20、第七步、数据检索使用:等待数据采集完成后,通过数据检索步骤查询需要的数据信息,如果检索的对象是图像索引则会返回关键字命中的图像地址;

21、第八步、需要进行图像预览操作时,在本地部署一个nginx服务,并挂载图像保存地址,使用nginx代理地址加上命中图像的本地地址,实现图像预览操作。

22、所述数据抽取步骤包括:

23、a1、获取采集器信息,以及数据源信息;

24、a2、判断当前采集任务时实时采集任务还是定时采集任务,如果是实时采集则执行步骤a3,如果是定时采集则执行步骤a4;

25、a3、在实时采集中,先进行sql解析,将解析的sql信息,并将其转换成flink任务,使用flink进行数据实时同步;

26、a4、在定时采集中,先获取上次采集时间作为本次采集数据的开始时间,再通过组装sql,并使用spi机制加载对应结构化数据源驱动,执行数据采集sql获取采集数据,之后再加载非结构化数据源驱动,进行非结构化数据提取;

27、然后将采集的数据批量保存到elasticsearch中,再进行下一批次数据采集操作,直到采集的数据为空为止;如果在这个过程中有错误产生,则记录采集失败信息,并重新执行步骤a4,进行采集失败重试,如果当前采集任务的失败次数大于5则记录当前采集任务失败,需要手动排查原因;如果没有,则更新上次采集时间,等待下一次采集任务触发。

28、所述基于flink的实时同步步骤包括:

29、b1、判断数据库是否支持归档日志读取,以及是否开启归档日志记录,如果没有,则当前任务无法执行实时同步任务,而是执行定时同步任务;

30、b2、创建一个线程,获取数据库的归档日志,并解析日志,提取数据采集需要的表结构化与数据信息,并保存到内存中等待flink任务消费数据,同时定时去检测保存的数据是否会被消费,如果不会则表示该数据为垃圾数据,需要丢弃,避免占用大量内存导致内存溢出;

31、b3、加载采集器信息,并通过解析采集sql,从而组装成flink任务,并消费归档数据,并保存到elasticsearch中。

32、所述数据检索步骤包括:

33、c1、判断调用的是sql查询、多组合关键字检索或者多聚合检索功能,如果是sql查询功能则执行步骤c2;如果是多组合关键字检索功能,则执行步骤c3;如果是多聚合检索功能,则执行步骤c4;

34、c2、获取检索的sql语句,进行sql解析,提取其中查询字段,关联索引,过滤条件以及查询数,并组装成dsl语法进行执行,最后返回结果数据;

35、默认的sql检索只支持单索引以及基本检索,不支持关联检索以及分词检索,所以需要安装sql检索的插件用于增强sql检索功能;

36、c3、获取多组合检索条件,支持精确过滤、范围过滤、分词检索、词项检索、精确匹配检索、嵌入对象检索、多层级检索、检索排序、检索高亮功能,将检索条件封装为dsl语法,进行检索,返回结果数据;

37、c4、获取多聚合检索条件,支持指标聚合,以及在聚合的结果上进行二次聚合操作,之后会将聚合查询封装为dsl语法,进行聚合检索。

38、dsl语法:elasticsearch提供了基于json的完整查询dsl(特定于域的语言)来定义查询。将查询dsl视为查询的ast(抽象语法树),它由两种子句组成:

39、叶子查询子句:叶查询子句中寻找一个特定的值在某一特定领域,如 match,term或 range查询。这些查询可以自己使用。

40、复合查询子句:复合查询子句包装其他叶查询或复合查询,并用于以逻辑方式组合多个查询(例如 bool查询),或更改其行为(例如 constant_score查询)。

41、所述图像识别模型训练步骤包括:

42、d1、在进行图像识别之前,首先需要准备好训练数据和测试数据,训练数据采用是一组已经标记好类别的图像,而测试数据则是用来评估模型性能的未标记图像;

43、d2、开始进行模型的训练:在机器学习中,使用神经网络作为模型,通过训练来学习输入数据的模式和特征;

44、d3、经过模型训练后,使用训练好的模型来进行图像预测,给定一个新的图像,模型输出一个预测结果,表示该图像属于各个类别的概率;并且也会根据预测结果情况,进行参数优化,重新训练。

45、本发明的有益效果是:(1)本发明支持多数据源采集,以及实时数据采集功能。

46、(2)本发明支持词库隔离,可以实现索引的词库自定义,避免索引词库的互相污染。

47、(3)本发明可以基于sql语句进行检索,还提供了比较丰富的多组合关键字检索以及多聚合检索功能。

48、(4)本发明还支持“以文搜图”功能,需要单独部署图像识别服务。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1