本发明涉及人工智能数据管理,尤其涉及一种向量化数据检索管理方法和装置。
背景技术:
1、随着互联网和数据技术的快速发展,数据量呈现爆炸式增长,如何在传统的数据平台上实现有效的数据管理成为了企业管理发展亟待解决的技术问题之一。而在数据管理的多个功能中,数据检索确定为企业人员日常使用到较为频繁的功能,其不仅需要满足结构化数据的查询,同样需要满足非结构化数据的查询。
2、传统的数据平台通常不支持对如文本数据、图片数据或其他类型的非结构化数据进行向量化检索。而针对传统数据平台数据查询存在的不足,近年来出现了向量化数据查询管理技术,其支持非结构化数据查询且能够提供准确性较高的数据查询和处理,大大提高了不同类型数据查询的兼容性、准确率及运行效率。
3、但向量化数据查询在实际应用仍存在部分问题,如向量化数据查询与传统数据平台数据查询不兼容。而目前大部分企业都是在不改造数据平台的前提下,直接外接一个独立的向量数据库或服务器来兼容向量化查询,这种方式难以在数据平台中同时实现结构化和非结构化数据查询,且外接服务器或数据库的方式容易导致数据泄露风险增加,导致向量化数据检索管理的安全性降低。
技术实现思路
1、本发明提供了一种向量化数据检索管理方法和装置,解决了目前大部分企业都是在不改造数据平台的前提下,直接外接一个独立的向量数据库或服务器来兼容向量化查询,这种方式难以在数据平台中同时实现结构化和非结构化数据查询,且外接服务器或数据库的方式容易导致数据泄露风险增加,导致向量化数据检索管理的安全性降低的技术问题。
2、本发明提供的一种向量化数据检索管理方法,应用于数据平台,所述数据平台包括预设的向量数据库,所述方法包括:
3、当接收到待查询数据时,对所述待查询数据进行分类,确定所述待查询数据对应的分类标签;
4、对所述待查询数据中的非结构化数据进行向量化转换,生成非结构化向量;
5、从当前时刻的向量数据库中选取存在所述分类标签的目标数据区域;
6、在所述目标数据区域检索所述非结构化向量对应的目标向量数据并展示。
7、可选地,所述当接收到待查询数据时,对所述待查询数据进行分类,确定所述待查询数据对应的分类标签的步骤,包括:
8、当接收到待查询数据时,解析所述待查询数据,判断是否存在查询条件;
9、若存在,则按照所述查询条件从所述向量数据库中选取初始数据区域,并将所述初始数据区域确定为当前时刻的向量数据库;
10、调用分级分类接口服务对所述待查询数据进行分类,确定所述待查询数据对应的分类标签;
11、若不存在,则调用分级分类接口服务对所述待查询数据进行分类,确定所述待查询数据对应的分类标签。
12、可选地,所述目标数据区域存有多个向量化数据;所述在所述目标数据区域检索所述非结构化向量对应的目标向量数据并展示的步骤,包括:
13、判断所述向量化数据的数量是否大于或等于预设数量阈值;
14、若否,则计算每个所述向量化数据和所述非结构化向量之间的第一向量相似度;
15、若是,则采用通用向量索引算法按照所述非结构化向量,从多个所述向量化数据中筛选至少一个中间向量;
16、计算各所述中间向量和所述非结构化向量之间的第二向量相似度;
17、根据所述第一向量相似度或所述第二向量相似度选取目标向量数据;
18、返回所述目标向量数据至所述待查询数据所属发送端并展示。
19、可选地,所述根据所述第一向量相似度或所述第二向量相似度选取目标向量数据的步骤,包括:
20、按照所述第一向量相似度或所述第二向量相似度,从大至小选取多个向量化数据确定为目标向量数据;
21、或者,选取所述第一向量相似度或所述第二向量相似度处于预设相似度范围的多个向量化数据确定为目标向量数据。
22、可选地,所述待查询数据所属发送端为所述数据平台的功能服务应用,每个所述功能服务应用均设有对应的预设相似度范围,所述方法还包括:
23、返回所述目标向量数据至所述功能服务应用;
24、通过所述功能服务应用采用所述目标向量数据更新已有模型。
25、可选地,所述方法还包括:
26、获取所述数据平台内的未标注数据;
27、调用大语言模型服务按照预设的分级分类标签体系对所述未标注数据进行标注,生成标注数据;
28、根据所述标注数据和所述未标注数据,训练分级分类接口服务和向量化接口服务;
29、调用所述向量化接口服务对所述数据平台内的非结构化数据进行向量化转换,并调用所述分级分类接口服务对所述数据平台内的非结构化数据进行分类标识,创建对应的业务数据表;
30、加载全部所述业务数据表,并关联所述向量化接口服务和所述分级分类接口服务,构建向量数据库。
31、可选地,所述根据所述标注数据和所述未标注数据,训练分级分类接口服务和向量化接口服务的步骤,包括:
32、采用所述标注数据对多个预设的第一分类模型进行参数微调,得到多个中间分类模型;
33、筛选准确率大于预设分类阈值的中间分类模型确定为目标分类模型并部署成分级分类接口服务;
34、采用所述未标注数据对多个预设的第二分类模型进行参数微调并筛选,得到语义提取模型;
35、将所述语义提取模型部署为向量化接口服务。
36、可选地,所述调用所述向量化接口服务对所述数据平台内的非结构化数据进行向量化转换,并调用所述分级分类接口服务对所述数据平台内的非结构化数据进行分类标识,创建对应的业务数据表的步骤,包括:
37、在所述数据平台上创建初始数据表;所述初始数据表包括多种职能类别字段;
38、调用所述分级分类接口服务和所述向量化接口服务分别提取所述数据平台内的非结构化数据;
39、通过所述向量化接口服务将所述非结构化数据转换为向量化数据;
40、对所述非结构化数据进行分类标识并关联所述向量化数据,确定所述非结构化数据对应的分类标签字段;
41、将所述向量化数据和所述分类标签字段分别存储至对应的职能类别字段,生成业务数据表。
42、可选地,所述方法还包括:
43、响应输入的登录信息,匹配所述登录信息对应的数据权限;其中,所述数据权限包括多级标注权限和多级用户权限;
44、当接收到用户操作指令,且所述用户操作指令符合所述数据权限时,对所述向量数据库执行所述用户操作指令对应的管理操作;
45、当接收到操作完成指令时,校验所述分级分类接口服务和所述向量化接口服务,生成校验结果;
46、当接收到响应所述执行结果输入的评估未通过指令时,跳转执行所述调用大语言模型服务对所述未标注数据进行标注,生成标注数据的步骤;
47、当接收到响应所述执行结果输入的评估通过指令时,维持当前时刻的所述分级分类接口服务和所述向量化接口服务。
48、可选地,所述方法还包括:
49、当接收到业务更新数据表时,判断所述业务更新数据表上是否包括所述职能类别字段;
50、若不存在,则在所述业务更新数据表上新增所述职能类别字段,调用所述分级分类接口服务和所述向量化接口服务分别提取所述业务更新数据表中的非结构化数据;
51、若存在,则调用所述分级分类接口服务和所述向量化接口服务分别提取所述业务更新数据表中的非结构化数据;
52、跳转执行所述通过所述向量化接口服务将所述非结构化数据转换为向量化数据的步骤。
53、本发明提供了一种向量化数据检索管理装置,应用于数据平台,所述数据平台包括预设的向量数据库,所述装置包括:
54、分类响应模块,用于当接收到待查询数据时,对所述待查询数据进行分类,确定所述待查询数据对应的分类标签;
55、向量化转换模块,用于对所述待查询数据中的非结构化数据进行向量化转换,生成非结构化向量;
56、数据区域选取模块,用于从当前时刻的向量数据库中选取存在所述分类标签的目标数据区域;
57、目标向量数据检索模块,用于在所述目标数据区域检索所述非结构化向量对应的目标向量数据并展示。
58、从以上技术方案可以看出,本发明具有以下优点:
59、当数据平台接收到待查询数据时,对所述待查询数据进行分类,确定所述待查询数据对应的分类标签;对所述待查询数据中的非结构化数据进行向量化转换,生成非结构化向量;从当前时刻的向量数据库中选取存在所述分类标签的目标数据区域;在所述目标数据区域检索所述非结构化向量对应的目标向量数据并展示。从而通过在数据平台内置向量数据库的方式,实现结构化和非结构化的数据查询,同时减少外接数据库所带来的数据传输风险,提高数据检索安全性和准确度。