一种基于大语言模型的数据共享开放平台数据资源搜索方法及系统与流程

文档序号:40795046发布日期:2025-01-29 02:00阅读:4来源:国知局
一种基于大语言模型的数据共享开放平台数据资源搜索方法及系统与流程

本发明属于数据处理,具体涉及一种基于大语言模型的数据共享开放平台数据资源搜索方法及系统。


背景技术:

1、随着大数据时代的到来,数据共享开放平台成为促进跨部门数据流通与利用的重要基础设施。这些平台旨在实现不同政府部门之间的数据归集、治理、共享和应用,以提高工作效率和服务质量。用数方(即数据使用者)在平台上查找所需的数据资源时,通常依赖于精确搜索或模糊搜索的形式,提供关键词来匹配数据资源名称或其他元数据字段。当用数方找到合适的数据资源后,还需向供数方提交申请,获得批准后才能进行数据对接。

2、然而,现有的搜索方法存在一个显著的技术问题:用数方难以准确描述其数据需求。由于数据资源的数量庞大,命名复杂,且部分数据资源的名称难以直接反映其业务含义,用数方往往需要对数据共享开放平台上的数据资源清单有一定了解,才能提供出合适的查询内容。这不仅增加了用数方的使用门槛,也限制了他们能够获取的数据范围。此外,人工分析数据需求的方式效率较低,难以快速响应大量的数据请求,并且受限于分析师的知识范围,可能无法全面覆盖所有相关数据资源。


技术实现思路

1、本发明的目的在于提供一种基于大语言模型的数据共享开放平台数据资源搜索方法及系统,充分利用了数据共享开放平台的关于数据资源的各项信息,有效提升了用数方查询数据资源的深度与广度,帮助用数方快速定位到所需要的数据资源,以解决上述背景技术中提出的问题。

2、为实现上述目的,本发明一方面提供了一种基于大语言模型的数据共享开放平台数据资源搜索方法,包括以下步骤:

3、对数据共享开放平台的全量数据资源进行预处理,通过嵌入式模型将数据资源名称、分级分类信息、标签信息、业务描述信息和数据字段转化为向量表示,并存储至向量数据库中;

4、采集用数方的数据需求,设置prompt提示语并输入到大语言模型中,分析并提取出解决该需求所需的数据资源的相关信息;

5、对从大语言模型获得的数据资源相关信息进行向量化处理,并在预处理模块形成的向量数据库中检索匹配的数据资源;

6、根据检索到的数据资源的数据血缘关系以及供数方接入时间关联其他相关数据资源,形成目标数据资源集合;

7、对所述目标数据资源集合的实际数据进行向量化处理,与所需数据资源信息的向量比对,找到最相似的实际数据样例。

8、优选的,所述嵌入式模型采用中文友好的预训练模型m3e-base。

9、优选的,所述大语言模型为chatglm,且所述prompt提示语的设计遵循cot思维链的方式编写。

10、优选的,所述检索匹配的数据资源的数量限制为最多五个。

11、优选的,所述拓展数据资源是通过遍历检索到的数据资源的数据血缘网络,加入相邻的数据资源以及同一供数方当天接入的其他数据资源实现。

12、优选的,所述实际数据样例返回数量限制为每个数据资源最相似的五条数据。

13、本发明另一方面提供了一种基于大语言模型的数据共享开放平台数据资源搜索系统,包括:

14、数据资源预处理模块,用于对数据共享开放平台的全量数据资源进行预处理,通过嵌入式模型将数据资源名称、分级分类信息、标签信息、业务描述信息和数据字段转化为向量表示,并存储至向量数据库中;

15、检索数据资源模块,用于采集用数方的数据需求,设置prompt提示语并输入到大语言模型中,分析并提取出解决该需求所需的数据资源的相关信息,对从大语言模型获得的数据资源相关信息进行向量化处理,并在预处理模块形成的向量数据库中检索匹配的数据资源;

16、拓展数据资源模块,用于根据检索到的数据资源的数据血缘关系以及供数方接入时间关联其他相关数据资源,形成目标数据资源集合;

17、检索实际数据模块,对所述目标数据资源集合的实际数据进行向量化处理,与所需数据资源信息的向量比对,找到最相似的实际数据样例。

18、向量数据库,用于持久化存储数据资源及其实际数据的向量表示。

19、优选的,所述检索数据资源模块能够处理自然语言形式的数据需求,通过分析数据需求的语义内容,自动提取和匹配相应的数据资源特征,无需用数方对数据资源清单有全面了解即可实现精准查找。

20、优选的,所述检索实际数据模块在返回目标数据资源清单与对应的数据样例之前,先进行数据脱敏处理,确保敏感信息不会泄露,同时保证返回的数据样例符合隐私保护的要求。

21、本发明的技术效果和优点:本发明提出的一种基于大语言模型的数据共享开放平台数据资源搜索方法及系统,与现有技术相比,具有以下优点:

22、本发明利用大语言模型的强大语义理解和逻辑推理能力,自动解析用数方提供的自然语言形式的数据需求,无需用户具备专业知识即可获得准确的查询结果。大语言模型可以更好地捕捉数据需求背后的意图,从而更精准地定位到满足需求的数据资源。结合数据血缘关系和接入时间等因素,系统能够关联其他潜在的相关数据资源,形成更加广泛的目标数据资源集合。这种方法不仅提高了搜索的广度,还确保了不会遗漏重要的数据资源。通过对目标数据资源的实际数据样例进行向量化处理并与所需数据资源信息比对,系统能够找到最相似的数据样例,帮助用数方直观判断数据资源是否符合其需求,极大地提高了数据查找的成功率和用户体验。



技术特征:

1.一种基于大语言模型的数据共享开放平台数据资源搜索方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于大语言模型的数据共享开放平台数据资源搜索方法,其特征在于,所述嵌入式模型采用中文友好的预训练模型m3e-base。

3.根据权利要求1所述的一种基于大语言模型的数据共享开放平台数据资源搜索方法,其特征在于,所述大语言模型为chatglm,且所述prompt提示语的设计遵循cot思维链的方式编写。

4.根据权利要求1所述的一种基于大语言模型的数据共享开放平台数据资源搜索方法,其特征在于,所述检索匹配的数据资源的数量限制为最多五个。

5.根据权利要求1所述的一种基于大语言模型的数据共享开放平台数据资源搜索方法,其特征在于,所述拓展数据资源是通过遍历检索到的数据资源的数据血缘网络,加入相邻的数据资源以及同一供数方当天接入的其他数据资源实现。

6.根据权利要求1所述的一种基于大语言模型的数据共享开放平台数据资源搜索方法,其特征在于,所述实际数据样例返回数量限制为每个数据资源最相似的五条数据。

7.一种用于实现如权利要求1-6任意一项所述方法的基于大语言模型的数据共享开放平台数据资源搜索系统,其特征在于,包括:

8.根据权利要求7所述的基于大语言模型的数据共享开放平台数据资源搜索系统,其特征在于,还包括:

9.根据权利要求7所述的基于大语言模型的数据共享开放平台数据资源搜索系统,其特征在于,所述检索数据资源模块能够处理自然语言形式的数据需求,通过分析数据需求的语义内容,自动提取和匹配相应的数据资源特征,无需用数方对数据资源清单有全面了解即可实现精准查找。

10.根据权利要求7所述的基于大语言模型的数据共享开放平台数据资源搜索系统,其特征在于,所述检索实际数据模块在返回目标数据资源清单与对应的数据样例之前,先进行数据脱敏处理,确保敏感信息不会泄露,同时保证返回的数据样例符合隐私保护的要求。


技术总结
本发明公开了一种基于大语言模型的数据共享开放平台数据资源搜索方法及系统,利用大语言模型的强大语义理解和逻辑推理能力,自动解析用数方提供的自然语言形式的数据需求,无需用户具备专业知识即可获得准确的查询结果。大语言模型可以更好地捕捉数据需求背后的意图,从而更精准地定位到满足需求的数据资源。结合数据血缘关系和接入时间等因素,系统能够关联其他潜在的相关数据资源,形成更加广泛的目标数据资源集合。这种方法不仅提高了搜索的广度,还确保了不会遗漏重要的数据资源,极大地提高了数据查找的成功率和用户体验。

技术研发人员:郭浩楠,刘新宇,胡玉炜,江汉,刘龙辉,施康平
受保护的技术使用者:深圳市新国都数字科技有限公司
技术研发日:
技术公布日:2025/1/28
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1