本发明涉及自然语言处理,具体涉及一种大语言模型知识增强方法、系统、电子设备及介质。
背景技术:
1、大语言模型(large language model,llm)是指一类基于神经网络的、具有大规模参数(通常是数十亿个或更多)的语言模型。相比于小规模参数的模型,大语言模型在自然语言理解和推理方面的能力有了质的飞跃,这种表现被称之为“能力涌现”。虽然大语言模型在通用领域各种自然语言任务上表现很出色,但也存在一些局限性,如生成存在事实性错误的信息、消耗大量的计算资源等。
2、为了减少大语言模型的事实类错误问题,目前主要的解决方案有:
3、(1)将llm与搜索引擎相结合,先基于用户输入进行搜索,然后再利用llm在搜索基础上进行推理。将llm与搜索结合的方案,因为直接使用用户输入进行搜索,搜索结果的好坏决定了最终回答效果的上限,这对搜索部分的要求很高,而且会限制llm能力的发挥。
4、(2)用专业领域数据对llm进行微调(finetune),增强llm对该领域的适应性。用领域数据微调llm的方案,可以提升对于该领域的适应性,但对于事实类错误问题作用有限,而且训练难度大,对资源要求很高。
技术实现思路
1、为解决上述大语言模型的事实类错误问题,本发明提供的技术方案为:
2、一种大语言模型知识增强方法,包括:
3、获取输入内容,对所述输入内容进行分析并挖掘,获得回答所述输入内容所需的背景知识query;
4、根据挖掘得到的所述背景知识query,在领域数据或知识库中进行知识搜索,获得所述背景知识query对应的背景知识结果;
5、将所述背景知识结果作为所述输入内容的背景信息,将所述输入内容和所述背景知识结果通过prompt设计工程生成目标prompt模板;
6、将生成的所述prompt模板输入到大语言模型中,得到回答所述输入内容的推理结果。
7、本发明进一步设置为所述背景知识query是通过使用小样本学习以及在线调用大语言模型获得的,包括:获取标注样例,利用所述标注样例和所述输入内容构造背景prompt模板;在线调用大语言模型,得到所述输入内容对应的背景知识query。
8、本发明进一步设置为所述背景知识query是通过离线调用大语言模型生成训练数据以训练知识挖掘模型,并在线调用知识挖掘模型获得的,包括:获取标注样例和未标注数据,利用所述标注样例和所述未标注数据构造背景prompt模板;离线调用大语言模型生成训练数据,通过所述训练数据训练得到知识挖掘模型;将所述输入内容输入到所述知识挖掘模型,得到所述输入内容对应的背景知识query。
9、本发明进一步设置为获得所述背景知识结果包括:在领域数据或知识库中分别对所述背景知识query进行搜索,对所述背景知识query进行实体识别和意图分析,获得实体识别结果和意图分析结果;根据所述实体识别结果和所述意图分析结果从领域数据或知识库中进行背景知识的召回;对所召回的背景知识进行排序,得到背景知识子结果;将所有所述背景知识子结果进行融合或拼接,得到所述背景知识结果。
10、本发明进一步设置为在对背景知识进行召回时,若领域数据为结构化形式,则直接查询领域数据并进行背景知识的召回;若领域数据为非结构化形式,则先对领域数据进行索引构建,所述索引构建包括倒排索引和向量索引,完成所述索引构建后,再通过查询领域数据以召回背景知识;
11、在对所召回的背景知识进行排序时,若背景知识来源于结构化的领域数据或数据库,则直接按默认召回顺序进行排序;若背景知识来源于非结构化的领域数据,通过排序算法模型对所召回的背景知识进行排序。
12、本发明进一步设置为prompt设计工程所生成的所述目标prompt模板包括指令部分、背景信息部分、输入数据部分和输出指示部分,所述指令部分为大语言模型需要执行的任务,所述背景信息部分为搜索得到的所述背景知识结果,所述输入数据部分为所述输入内容,所述输出指示部分为大语言模型所要回复所述输入内容的答案。
13、本发明进一步设置为基于生成的所述目标prompt模板,调用所述大语言模型进行推理,完成所述目标prompt模板中的任务。
14、一种大语言模型知识增强系统,采用上述大语言模型知识增强方法,包括:
15、知识需求挖掘模块,对输入内容进行分析和挖掘,得到回答输入内容所需的背景知识query;
16、背景知识搜索模块,在领域数据或知识库中对背景知识query进行知识搜索,获得背景知识query对应的背景知识结果;
17、prompt工程模块,将背景知识结果作为输入内容的背景信息,利用输入内容和背景知识结果生成目标prompt模板;
18、大语言推理模块,对生成的目标prompt模板进行推理得到回答输入内容的推理结果。
19、一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述的大语言模型知识增强方法。
20、一种存储介质,所述存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述的大语言模型知识增强方法。
21、采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
22、本技术方案大语言模型知识增强方法不是直接使用用户输入内容进行搜索,而是先分析挖掘回复用户输入内容所需的背景知识query,然后基于背景知识query进行搜索,再将搜索结果作为大语言模型的背景知识信息来进行辅助推理。可以为大语言模型提供推理所需的知识,减少大语言模型推理中的事实类错误;为大语言模型提供背景知识信息而不是直接的答案,可以充分发挥大语言模型强大的理解和推理能力;背景知识信息查询是多路搜索,减少对搜索部分的过度依赖和要求。
1.一种大语言模型知识增强方法,其特征在于,包括:
2.根据权利要求1所述的一种大语言模型知识增强方法,其特征在于,所述背景知识query是通过使用小样本学习以及在线调用大语言模型获得的,包括:获取标注样例,利用所述标注样例和所述输入内容构造背景prompt模板;在线调用大语言模型,得到所述输入内容对应的背景知识query。
3.根据权利要求1所述的一种大语言模型知识增强方法,其特征在于,所述背景知识query是通过离线调用大语言模型生成训练数据以训练知识挖掘模型,并在线调用知识挖掘模型获得的,包括:获取标注样例和未标注数据,利用所述标注样例和所述未标注数据构造背景prompt模板;离线调用大语言模型生成训练数据,通过所述训练数据训练得到知识挖掘模型;将所述输入内容输入到所述知识挖掘模型,得到所述输入内容对应的背景知识query。
4.根据权利要求2或3所述的一种大语言模型知识增强方法,其特征在于,获得所述背景知识结果包括:在领域数据或知识库中分别对所述背景知识query进行搜索,对所述背景知识query进行实体识别和意图分析,获得实体识别结果和意图分析结果;根据所述实体识别结果和所述意图分析结果从领域数据或知识库中进行背景知识的召回;对所召回的背景知识进行排序,得到背景知识子结果;将所有所述背景知识子结果进行融合或拼接,得到所述背景知识结果。
5.根据权利要求4所述的一种大语言模型知识增强方法,其特征在于,在对背景知识进行召回时,若领域数据为结构化形式,则直接查询领域数据并进行背景知识的召回;若领域数据为非结构化形式,则先对领域数据进行索引构建,所述索引构建包括倒排索引和向量索引,完成所述索引构建后,再通过查询领域数据以召回背景知识;
6.根据权利要求5所述的一种大语言模型知识增强方法,其特征在于,prompt设计工程所生成的所述目标prompt模板包括指令部分、背景信息部分、输入数据部分和输出指示部分,所述指令部分为大语言模型需要执行的任务,所述背景信息部分为搜索得到的所述背景知识结果,所述输入数据部分为所述输入内容,所述输出指示部分为大语言模型所要回复所述输入内容的答案。
7.根据权利要求6所述的一种大语言模型知识增强方法,其特征在于,基于生成的所述目标prompt模板,调用所述大语言模型进行推理,完成所述目标prompt模板中的任务。
8.一种大语言模型知识增强系统,其特征在于,采用权利要求1至7中任意一项所述大语言模型知识增强方法,包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至7中任意一项所述的大语言模型知识增强方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的大语言模型知识增强方法。