一种基于大模型的搜索问答系统及其方法和电子设备与流程

文档序号:37335638发布日期:2024-03-18 18:00阅读:11来源:国知局
一种基于大模型的搜索问答系统及其方法和电子设备与流程

本发明属于人工智能领域,特别涉及一种基于大模型的搜索问答系统及其方法和电子设备。


背景技术:

1、传统搜索问答系统广泛应用于在线信息检索,如搜索引擎和在线客服。这些系统适合查找具体事实、定义或数据,例如查询历史事件日期或产品信息。在企业中,它们也用于内部知识库检索,帮助员工快速找到业务信息。传统搜索文档的解决方案依赖关键词匹配和索引技术。系统通过索引文档,根据用户查询中的关键词查找匹配文档。这些系统使用算法提高搜索相关性,如页面排名和文本相似性度量,并考虑用户搜索历史以提供个性化结果。

2、然而,传统搜索问答在处理复杂或模糊查询时存在局限。这些系统通常无法理解查询的上下文或用户意图,尤其是对于长句或需要综合信息的问题。它们依赖确切的关键词匹配,可能导致结果不够相关或准确。基于传统搜索问答的局限性,特提出本方案。


技术实现思路

1、发明目的:为了克服现有技术中存在的不足,本发明提供一种基于大模型的搜索问答系统及其方法和电子设备,在理解复杂自然语言和处理多样化查询方面具有较大的提升,能够提供更为准确和相关性更高的回答结果。

2、技术方案:为实现上述目的,本发明的技术方案如下:

3、一种基于大模型的搜索问答系统,包括:

4、知识库维护模块,用于对领域知识文档进行解析和拆分,利用向量化模型将文档内容转换为向量数据,并将转换后的向量数据存储于向量数据库中;

5、知识库召回模块,基于用户查询从所述向量数据库中检索出与搜索问答问题相关的文档片段,并召回这些相关的文档片段;

6、大模型服务模块,用于接收召回的文档片段,且将召回的文档片段组装合并,并从召回内容中提炼出与用户查询相关的答案结果;

7、主控服务模块,用于管理和调度系统中的各个模块,接收用户提出的问题并根据问题类型调用相应的模块服务以生成答案,并将答案反馈给用户。

8、进一步地,所述知识库维护模块包括至少一个文档处理单元和至少一个向量化处理单元;

9、所述文档处理单元,用于执行文档的预处理操作,将文档转化成预设模式的标准知识库输入模式;

10、所述向量化处理单元,用于将预处理后的文档内容转换为向量数据存储在向量数据库中。

11、进一步地,所述知识库召回模块包括:

12、查询解析单元,用于解析用户查询,识别关键词和查询意图;

13、匹配算法单元,用于在向量数据库中执行相似度匹配操作,用于找到与用户查询最相关的文档片段。

14、进一步地,所述大模型服务模块包括:

15、数据组装单元,用于将召回的文档片段进行组合和优化处理;

16、模型推理单元,用于将组装后的数据输入到预训练的大型语言模型中,执行深度学习推理。

17、进一步地,所述主控服务模块包括:

18、任务调度单元,用于根据用户查询的特点和系统的当前负载情况,动态分配和调度各模块的任务;

19、用户接口单元,用于提供用户与系统交互的界面,接收用户的查询并展示系统生成的答案。

20、进一步地,一种基于大模型的搜索问答方法,包括:

21、对领域知识文档进行解析和拆分,将文档内容转换为向量数据,并将转换后的向量数据存储于向量数据库中;

22、基于用户查询从所述向量数据库中检索出与搜索问答问题相关的文档片段,并召回这些相关的文档片段;

23、将召回的文档片段组装合并,并从召回内容中提炼出与用户查询相关的答案结果;

24、根据用户提出的问题类型调用相应的模块服务以生成答案,并将答案反馈给用户。

25、进一步地,对领域知识文档进行解析和拆分包括:

26、先将领域文档原始数据分别进行版面分析、文字识别和表格解析操作;

27、然后将解析出的内容通过页面内容重构技术,将标题、文本段落、表格、插图信息按照文档内容结构进行整理,以结构化信息的形式输出;

28、基于输出的整篇文章的篇章结构,提炼知识文本,并将其转化为标准知识库输入格式,通过向量化模型转换成向量数据后存储在向量数据库中。

29、进一步地,在召回文档片段之前,对用户查询语句进行解析,提取关键词,在向量数据库中检索与所述关键词相关的文档片段;

30、在提取关键词的过程中,至少采用左右墒算法、textrank算法、tf-idf算法中的任意两种或两种以上的方式进行关键词提取,并且对提取后的若干关键词进行筛选。

31、进一步地,在文档召回过程中,包括:

32、使用roberta将用户查询进行向量化,从milvus中召回相关度最高的前若干个相关知识;

33、同时对用户查询按照字典进行分词,采用bm25算法进行召回相同数量的相关度最高的前若干个的相关知识;

34、最后将两个召回结果进行加权,得到最相关的相关知识并作为召回结果。

35、进一步地,一种电子设备,包括:

36、一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求6至9任一项所述的方法的步骤。

37、有益效果:本发明领域知识文档解析成文档片段,并调用向量化模型服务将文档片段转化向量存储在向量数据库中,将用户输入的问题基于向量化服务转化成向量,匹配向量数据库中最相关的若干篇文档,将相关文档信息组合后,合并输入到大模型推理服务中,由大模型负责推理和总结,产生回复后回复用户,从而能够理解复杂和抽象性的搜索问题,这使得搜索结果更为准确和相关。



技术特征:

1.一种基于大模型的搜索问答系统,其特征在于:包括:

2.根据权利要求1所述的一种基于大模型的搜索问答系统,其特征在于:所述知识库维护模块包括至少一个文档处理单元和至少一个向量化处理单元;

3.根据权利要求1所述的一种基于大模型的搜索问答系统,其特征在于:所述知识库召回模块包括:

4.根据权利要求1所述的一种基于大模型的搜索问答系统,其特征在于:所述大模型服务模块包括:

5.根据权利要求1所述的一种基于大模型的搜索问答系统,其特征在于:所述主控服务模块包括:

6.一种基于大模型的搜索问答方法,其特征在于:包括:

7.根据权利要求6所述的一种基于大模型的搜索问答方法,其特征在于:对领域知识文档进行解析和拆分包括:

8.根据权利要求6所述的一种基于大模型的搜索问答方法,其特征在于:在召回文档片段之前,对用户查询语句进行解析,提取关键词,在向量数据库中检索与所述关键词相关的文档片段;

9.根据权利要求6所述的一种基于大模型的搜索问答方法,其特征在于:在文档召回过程中,包括:

10.一种电子设备,其特征在于,包括:


技术总结
本发明公开了一种基于大模型的搜索问答系统及其方法和电子设备,包括知识库维护模块,用于对领域知识文档进行解析和拆分,利用向量化模型将文档内容转换为向量数据,并将转换后的向量数据存储于向量数据库中;知识库召回模块,基于用户查询从向量数据库中检索出与搜索问答问题相关的文档片段,并召回这些相关的文档片段;大模型服务模块,用于接收召回的文档片段,且将召回的文档片段组装合并,并从召回内容中提炼出与用户查询相关的答案;主控服务模块,用于管理和调度系统中的各个模块,接收用户提出的问题并根据问题类型调用相应的模块服务以生成答案,并将答案反馈给用户。能够理解复杂和抽象性的搜索问题,这使得搜索结果更为准确和相关。

技术研发人员:张书豪,徐阳,沈林华,吴骋野,周春英,朱明杰
受保护的技术使用者:上海氪信信息技术有限公司
技术研发日:
技术公布日:2024/3/17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1