本发明涉及模型训练,特别涉及一种知识问答方法、装置、设备及存储介质。
背景技术:
1、近年来,大语言模型的发展引起了广泛的关注和应用。大语言模型能够从大规模的文本数据中学习到丰富的语言知识和语境理解能力,不同类型的大语言模型可以应对不同类型的应用场景。在数据管理和信息检索的领域,向量数据库已经成为一种非常重要的数据存储和查询手段。向量数据库通常用于存储大量的高维向量,并允许用户通过向量检索的方式来查询和检索信息。然而,传统的向量数据库存在一些局限性,尤其是在处理大规模、高维和复杂数据时。同时,传统基于知识图谱中的问答系统往往缺乏对上下文的理解能力,无法根据上下文信息进行准确的回答。此外,在实践中由于用户提出的问题可能因人而异,且不同的用户的沟通习惯不同,使得其无法针对不同的情况提出更为准确和人性化的回答,导致在线问答的结果效果不佳。因此,如何提高知识显现问答的准确率是需要解决的。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种知识问答方法、装置、设备及存储介质,能够实现用户私有知识的智能化的在线问答,提升用户体验,具有智能化程度高和响应准确率高的优点。其具体方案如下:
2、第一方面,本技术公开了一种知识问答方法,包括:
3、对用户端发送的文档数据进行数据筛选操作和数据清洗操作以得到处理后数据,并将所述处理后数据输入至预设向量化嵌入模型中以提取所述处理后数据的文本特征嵌入向量;
4、将所述文本特征嵌入向量写入预设向量数据库的库表存储结构中,并将所述处理后数据存储至对应的数据索引中;
5、对所述用户端输入的知识问题语句进行文本切分操作和向量转化操作以得到目标匹配数据,并利用预设相关度计算算法分别从所述文本特征嵌入向量和所述数据索引中确定所述目标匹配数据对应的目标匹配向量和目标匹配文本;
6、利用所述目标匹配向量和所述目标匹配文本确定目标文本,并基于预设大模型输入prompt模板生成所述目标文本对应的模型输入文本,然后将所述模型输入文本输入至目标大模型中以得到所述知识问题语句对应的问题答案。
7、可选的,所述对用户端发送的文档数据进行数据筛选操作和数据清洗操作以得到处理后数据,包括:
8、获取用户端发送的文档数据,并基于所述文档数据的结构类型将所述文档数据分为非结构化文本数据和结构化文本数据;
9、利用第一文本加载器对所述非结构化文本数据进行文档内容提取,以得到非结构化文本信息,并根据预设文本分割长度和所述非结构化文本信息的文本终止符对所述非结构化文本信息进行分割以得到第一初始数据;
10、利用第二文本加载器对所述结构化文本数据进行文档内容提取以得到第二初始数据,并将所述第一初始数据和所述第二初始数据确定为处理后数据。
11、可选的,所述将所述处理后数据输入至预设向量化嵌入模型中以提取所述处理后数据的文本特征嵌入向量,包括:
12、将所述处理后数据输入至预设向量化嵌入模型中,并利用所述预设向量化嵌入模型中的多层神经网络层将所述处理后数据转化为高维向量;
13、基于所述预设向量化嵌入模型从所述高维向量中提取所述处理后数据的文本特征嵌入向量。
14、可选的,所述对所述用户端输入的知识问题语句进行文本切分操作和向量转化操作以得到目标匹配数据,包括:
15、对所述用户端输入的知识问题语句进行文本切分操作以得到问题文本,并对所述知识问题语句进行向量转化操作以得到问题向量;
16、相应的,所述利用预设相关度计算算法分别从所述文本特征嵌入向量和所述数据索引中确定所述目标匹配数据对应的目标匹配向量和目标匹配文本,包括:
17、利用预设向量相似度计算算法计算所述问题向量和所述文本特征嵌入向量之间的第一相似度值,并基于所述第一相似度值从所述文本特征嵌入向量中确定第一预设数量的目标匹配向量;
18、利用预设关键词相关度计算算法计算所述数据索引中的所述处理后数据和所述问题文本之间的第二相似度值,并基于所述第二相似度值从所述处理后数据中确定所述第一预设数量的目标匹配文本。
19、可选的,所述利用所述目标匹配向量和所述目标匹配文本确定目标文本,并基于预设大模型输入prompt模板生成所述目标文本对应的模型输入文本,包括:
20、基于所述目标匹配向量从所述处理后数据中确定第一文本切片,并将所述目标匹配文本确定为第二本文切片;
21、基于所述第一文本切片和所述第二本文切片的匹配结果确定目标文本,并基于所述第一相似度值和第二相似度值从预设大模型输入prompt模板中确定目标prompt模板;
22、将所述目标文本输入至所述目标prompt模板中以得到模型输入文本。
23、可选的,所述基于所述第一文本切片和所述第二本文切片的匹配结果确定目标文本,并基于所述第一相似度值和第二相似度值从预设大模型输入prompt模板中确定目标prompt模板,包括:
24、判断所述第一文本切片和所述第二本文切片是否完全相同;
25、若不完全相同,则基于所述第一相似度值和第二相似度值从所述第一文本切片和所述第二本文切片挑选出第二预设数量的文本切片以得到目标文本;
26、将所述第一相似度值和第二相似度值中数值最大的相似度值确定为目标相似度值;
27、判断所述目标相似度值在预设匹配数值区间的位置,确定所述目标文本的匹配等级,基于所述匹配等级从预设大模型输入prompt模板中确定目标prompt模板。
28、可选的,所述判断所述目标相似度值在预设匹配数值区间的位置,确定所述目标文本的匹配等级,基于所述匹配等级从预设大模型输入prompt模板中确定目标prompt模板之前,还包括:
29、基于预设划分规则将所述预设匹配数值区间划分为三份数值区间,并基于数值高低将所述三份数值区间分别确定为第一数值区间、第二数值区间和第三数值区间;
30、基于所述第一数值区间、第二数值区间和第三数值区间分别定制对应的第一prompt模板、第二prompt模板和第三prompt模板以得到所述预设大模型输入prompt模板。
31、第二方面,本技术公开了一种知识问答装置,包括:
32、数据处理模块,用于对用户端发送的文档数据进行数据筛选操作和数据清洗操作以得到处理后数据,并将所述处理后数据输入至预设向量化嵌入模型中以提取所述处理后数据的文本特征嵌入向量;
33、数据存储模块,用于将所述文本特征嵌入向量写入预设向量数据库的库表存储结构中,并将所述处理后数据存储至对应的数据索引中;
34、数据匹配模块,用于对所述用户端输入的知识问题语句进行文本切分操作和向量转化操作以得到目标匹配数据,并利用预设相关度计算算法分别从所述文本特征嵌入向量和所述数据索引中确定所述目标匹配数据对应的目标匹配向量和目标匹配文本;
35、答案生成模块,用于利用所述目标匹配向量和所述目标匹配文本确定目标文本,并基于预设大模型输入prompt模板生成所述目标文本对应的模型输入文本,然后将所述模型输入文本输入至目标大模型中以得到所述知识问题语句对应的问题答案。
36、第三方面,本技术公开了一种电子设备,包括:
37、存储器,用于保存计算机程序;
38、处理器,用于执行所述计算机程序以实现前述的知识问答方法。
39、第四方面,本技术公开了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的知识问答方法。
40、可见,本技术中,对用户端发送的文档数据进行数据筛选操作和数据清洗操作以得到处理后数据,并将所述处理后数据输入至预设向量化嵌入模型中以提取所述处理后数据的文本特征嵌入向量;将所述文本特征嵌入向量写入预设向量数据库的库表存储结构中,并将所述处理后数据存储至对应的数据索引中;对所述用户端输入的知识问题语句进行文本切分操作和向量转化操作以得到目标匹配数据,并利用预设相关度计算算法分别从所述文本特征嵌入向量和所述数据索引中确定所述目标匹配数据对应的目标匹配向量和目标匹配文本;利用所述目标匹配向量和所述目标匹配文本确定目标文本,并基于预设大模型输入prompt模板生成所述目标文本对应的模型输入文本,然后将所述模型输入文本输入至目标大模型中以得到所述知识问题语句对应的问题答案。通过对用户端发送的文档数据进行数据库构建,以及用户端输入的知识问题语句的自动提取关键词,再对关键词进行分析和计算,实现了用户知识的智能化的在线问答,可以提升用户体验,具有智能化程度高和响应准确率高的优点。同时解决现有知识库问答对话中的知识图谱构建耗时费力、匹配回复准确率低、用户体验差等情形。