本发明属于人工智能,尤其涉及一种基于大数据分析的问答方法及系统。
背景技术:
1、随着人工智能和大数据技术的发展,渐趋成熟的ai技术正逐步向一些工业领域的产业转向,特别是战略性新兴产业,例如:新一代信息技术产业、高端装备制造产业、新材料产业、生物产业、新能源汽车产业、新能源产业、节能环保产业、数字创意产业、相关服务业等九大战略性新兴产业领域。计算机通过“学习”相关的专业知识,模拟专业人士的思维和技术推理,从而给出可靠解决方案和建议,即计算机成为具有大模型(或大语言模型)所喂养的专业知识产生的大脑,模拟专业人士的思维和推理,为产业咨询提供建议。
2、大模型技术已成为处理复杂数据、提供高效问答服务的重要工具。然而,现有技术中,大模型问答系统多依赖于云端部署,存在数据传输延迟、数据安全问题等不足。同时,缺少具体领域的专业大模型,问答结果的精确度依赖于数据量的增大,精确度较低;如何高效利用大数据资源,提升产业分析与政策研究能力,是当前亟待解决的问题。
技术实现思路
1、本发明实施例的目的在于提供一种基于大数据分析的问答方法及系统,能够针对产业集群进行专业定制,并通过本地化部署的产业大语言预测工具,基于transformer模型与用户进行问答,感知用户想要了解的产业、政策,给出针对性的答案;这样的话,一方面,减少依赖云端部署,克服现有的存在数据传输延迟、数据安全问题等不足,另一方面,利用大数据资源,提升产业分析与政策研究能力;可以广泛的应用在政务、招商、政企协同、产业创新和升级等领域。
2、本发明实施例的一个目的是这样实现的,一种基于大数据分析的问答方法,所述方法包括以下步骤:
3、本地化部署产业大语言预测工具,并对产业大语言预测工具进行训练;
4、其中,通过提示工程获取产业编码库所需编码,建立产业编码库;基于关键词匹配技术匹配与产业编码库表征的产业具有正关联性的政策并收集,构成政策库,基于政策库制作样本集,以对产业大语言预测工具进行训练;
5、基于第一模型接口将用户的问答输入转化为文本序列;
6、将所述文本序列输入已训练好的产业大语言预测工具,判断产业大语言预测工具的预测结果是否命中产业编码库中至少两个索引项,若否,则通过第二模型接口引导用户再输入,若是,则输出产业大语言预测工具的预测结果;
7、通过大数据分析产业大语言预测工具输出的预测结果,推断政策库中用户所需的产业政策;
8、输出所述产业政策,并给出该产业政策的当地实施数据。
9、进一步地,所述方法还包括:
10、在转化文本序列的过程中,调用闲聊编码库的编码,对用户进行引导问答,以将问答方向导向相关产业;
11、在生成文本序列时跳过所述闲聊编码库的编码。
12、进一步地,在将所述文本序列输入已训练好的产业大语言预测工具的步骤前,对所述文本序列进行预处理;
13、该预处理具体包括:
14、将文本序列中的文本数据与结构化数据通过词嵌入模型进行词嵌入表示,映射为问答记录表示矩阵,并进行归一化处理;
15、对问答记录表示矩阵进行一定数据量级的增减,以满足产业大语言预测工具的数据生成需求。
16、进一步地,其中第一模型接口连接transformer模型,所述方法还包括:
17、存储用户之前的历史提问记录,该历史提问记录包括用户的问题、问题的答案;
18、在利用transformer模型进行问答时,调用该历史提问记录,以便于更好的理解用户的问答输入。
19、所述本地化部署产业大语言预测工具,并对产业大语言预测工具进行训练的步骤,具体包括:
20、本地化部署产业大语言预测工具,通过应用接口连接transformer模型、数据库子系统,数据库子系统包括闲聊编码库、政策库、产业编码库;
21、获取相关产业的产业数据和政策数据,制作训练集和测试集;
22、通过训练集对产业大语言预测工具进行训练;
23、通过测试集对经训练的产业大语言预测工具进行测试验证,以得到训练好的产业大语言预测工具。
24、进一步地,所述通过大数据分析产业大语言预测工具输出的预测结果,推断政策库中用户所需的产业政策的步骤,具体包括:
25、接收产业大语言预测工具的预测结果;
26、通过大数据获取相关机构对政策库中产业政策的解读,根据产业政策的解读的重要度、热度,判断产业政策与相关产业的关联性;
27、按照关联性的高低进行排序;
28、在推断用户所需的产业政策时,选定排序靠前的至少一个产业政策。
29、本发明实施例提供的一种基于大数据分析的问答系统,用于所述的方法,所述系统包括:数据库子系统和大模型问答管理子系统,所述数据库子系统包括闲聊编码库、政策库、产业编码库;所述大模型问答管理子系统包括问答模块、分析模块、推理模块和输出模块,所述分析模块、推理模块连接有产业大语言预测工具;
30、所述问答模块,基于第一模型接口将用户的问答输入转化为文本序列;
31、所述分析模块,用于将所述文本序列输入已训练好的产业大语言预测工具,判断产业大语言预测工具的预测结果是否命中产业编码库中至少两个索引项,若否,则通过第二模型接口引导用户再输入,若是,则输出产业大语言预测工具的预测结果;
32、所述推理模块,通过大数据分析产业大语言预测工具输出的预测结果,推断政策库中用户所需的产业政策;
33、所述输出模块,用于输出所述产业政策,并给出该产业政策的当地实施数据。
34、进一步地,所述问答模块包括问答引导单元、编码复用单元;
35、所述问答引导单元,用于调用闲聊编码库的编码,对用户进行引导问答,以将问答方向导向相关产业;
36、所述编码复用单元,用于在生成文本序列时跳过所述闲聊编码库的编码。
37、进一步地,所述系统还包括大模型部署模块,用于本地化部署产业大语言预测工具,并对产业大语言预测工具进行训练。
38、本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述的基于大数据分析的问答方法的步骤。
39、本发明实施例提供的一种基于大数据分析的问答方法,相比现有技术,取得了如下有益效果:该方法融合了大数据分析和大语言模型技术,通过本地化部署,减少数据传输延迟,提高问答的响应速度;融合产业大语言预测工具、大数据等人工智能技术,提升对大数据的处理能力,提高问答准确性;还可提供应用接口,方便用户调用大数据分析的数据,实现政策研究与产业分析。
1.一种基于大数据分析的问答方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在将所述文本序列输入已训练好的产业大语言预测工具的步骤前,对所述文本序列进行预处理;
3.根据权利要求1所述的方法,其特征在于,其中第一模型接口连接transformer模型,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,所述本地化部署产业大语言预测工具,并对产业大语言预测工具进行训练的步骤,具体包括:
5.根据权利要求1所述的方法,其特征在于,所述通过大数据分析产业大语言预测工具输出的预测结果,推断政策库中用户所需的产业政策的步骤,具体包括:
6.一种基于大数据分析的问答系统,用于如权利要求1-5任一所述的方法,其特征在于,所述系统包括:数据库子系统和大模型问答管理子系统,所述数据库子系统包括闲聊编码库、政策库、产业编码库;所述大模型问答管理子系统包括问答模块、分析模块、推理模块和输出模块,所述分析模块、推理模块连接有产业大语言预测工具;
7.根据权利要求6所述的系统,其特征在于,所述问答模块包括问答引导单元、编码复用单元;
8.根据权利要求6所述的系统,其特征在于,所述系统还包括大模型部署模块,用于本地化部署产业大语言预测工具,并对产业大语言预测工具进行训练。