本技术涉及企业级数仓,尤其涉及一种基于生成式模型构建语言转换助手的方法和系统、电子设备及存储介质。
背景技术:
1、随着大数据技术的不断发展,企业级数据仓库积累了大量的数据资源。为了快速从数据中提取信息,提高决策效率,nl2sql(natural language to structured querylanguage,自然语言转换为结构化查询语言)技术成为一项关键技术。然而,传统的nl2sql方法面临着诸多挑战。例如,缺乏对表格和列的清晰描述导致生成的sql检索语句不精确,上下文和元数据的缺失使得问题理解困难,以及响应速度等问题。因而,亟待解决这些技术问题。
技术实现思路
1、鉴于上述问题,提出了本技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于生成式模型构建语言转换助手的方法和系统、电子设备及存储介质。所述技术方案如下:
2、第一方面,提供了一种基于生成式模型构建语言转换助手的方法,包括:
3、对至少一张初始数据表中各张初始数据表的元信息进行预处理,得到至少一张预处理后数据表;
4、利用生成式模型,结合所述至少一张预处理后数据表的元信息和当前日期,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集;
5、使用所述训练样本集对待训练模型进行训练,构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手。
6、在一种可能的实现方式中,所述元信息包括表名、表描述、字段名、字段别名、字段描述、维度列、指标列、是否为立方体表、下钻列、下钻列默认值或补全值中的一种或多种;所述表信息包括表名和/或表描述。
7、在一种可能的实现方式中,所述利用生成式模型,结合所述至少一张预处理后数据表的元信息和当前日期,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集,包括:
8、根据所述至少一张预处理后数据表的元信息和当前日期,将所述至少一张预处理后数据表中各张预处理后数据表的表名、表描述、字段名、字段别名、字段描述、当前日期、结构化语言语法范围、日期表达范围作为第一提示信息;
9、根据待生成的训练样本集设计第二提示信息;
10、融合所述第一提示信息和所述第二提示信息,得到与生成式模型交互的目标提示工程内容;
11、将所述目标提示工程内容提供给所述生成式模型,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集。
12、在一种可能的实现方式中,根据所述至少一张预处理后数据表的元信息和当前日期,将所述至少一张预处理后数据表中各张预处理后数据表的表名、表描述、字段名、字段别名、字段描述、当前日期、结构化语言语法范围、日期表达范围作为第一提示信息之后,所述方法还包括:
13、对所述第一提示信息中的各张预处理后数据表的表名、表描述、字段名、字段别名、字段描述、当前日期、结构化语言语法范围、日期表达范围中的一项或多项进行调整,得到调整后的第一提示信息;
14、融合所述第一提示信息和所述第二提示信息,得到与生成式模型交互的目标提示工程内容,包括:
15、融合所述调整后的第一提示信息和所述第二提示信息,得到与生成式模型交互的目标提示工程内容。
16、在一种可能的实现方式中,所述第二提示信息中包括用于按照预设格式生成表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的提示内容。
17、在一种可能的实现方式中,使用所述训练样本集对待训练模型进行训练,构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手,包括:
18、使用所述训练样本集中的自然语言查询问题和表信息的样本对,对待训练模型中的初始表召回模型进行训练,得到训练后的表召回模型;
19、使用所述训练样本集中的自然语言查询问题、表信息和与自然语言查询问题对应的结构化语言检索语句的样本对,对待训练模型中的初始表字段召回模型进行训练,得到训练后的表字段召回模型;
20、使用所述训练样本集中的表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的样本对,对待训练模型中的初始语言转换模型进行训练,得到训练后的语言转换模型;
21、结合所述训练后的表召回模型、所述训练后的表字段召回模型和所述训练后的语言转换模型,构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手。
22、在一种可能的实现方式中,在使用所述训练样本集对待训练模型进行训练,构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手之前,所述方法还包括:
23、对所述训练样本集进行优化处理和/或增强处理,得到处理后的训练样本集;
24、使用所述训练样本集对待训练模型进行训练,构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手,包括:
25、使用所述处理后的训练样本集对待训练模型进行训练,构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手。
26、在一种可能的实现方式中,在构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手之后,所述方法还包括:
27、接收来自用户的目标自然语言查询问题;
28、利用所述语言转换助手,将所述目标自然语言查询问题转换为目标结构化语言检索语句,并输出。
29、第二方面,提供了一种基于生成式模型构建语言转换助手的系统,包括:
30、数据预处理单元,用于对至少一张初始数据表中各张初始数据表的元信息进行预处理,得到至少一张预处理后数据表;
31、样本生成单元,用于利用生成式模型,结合所述至少一张预处理后数据表的元信息和当前日期,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集;
32、构建单元,用于使用所述训练样本集对待训练模型进行训练,构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手。
33、在一种可能的实现方式中,所述元信息包括表名、表描述、字段名、字段别名、字段描述、维度列、指标列、是否为立方体表、下钻列、下钻列默认值或补全值中的一种或多种;所述表信息包括表名和/或表描述。
34、在一种可能的实现方式中,所述样本生成单元还用于:
35、根据所述至少一张预处理后数据表的元信息和当前日期,将所述至少一张预处理后数据表中各张预处理后数据表的表名、表描述、字段名、字段别名、字段描述、当前日期、结构化语言语法范围、日期表达范围作为第一提示信息;
36、根据待生成的训练样本集设计第二提示信息;
37、融合所述第一提示信息和所述第二提示信息,得到与生成式模型交互的目标提示工程内容;
38、将所述目标提示工程内容提供给所述生成式模型,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集。
39、在一种可能的实现方式中,所述样本生成单元还用于:
40、对所述第一提示信息中的各张预处理后数据表的表名、表描述、字段名、字段别名、字段描述、当前日期、结构化语言语法范围、日期表达范围中的一项或多项进行调整,得到调整后的第一提示信息;
41、融合所述调整后的第一提示信息和所述第二提示信息,得到与生成式模型交互的目标提示工程内容。
42、在一种可能的实现方式中,所述第二提示信息中包括用于按照预设格式生成表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的提示内容。
43、在一种可能的实现方式中,所述构建单元还用于:
44、使用所述训练样本集中的自然语言查询问题和表信息的样本对,对待训练模型中的初始表召回模型进行训练,得到训练后的表召回模型;
45、使用所述训练样本集中的自然语言查询问题、表信息和与自然语言查询问题对应的结构化语言检索语句的样本对,对待训练模型中的初始表字段召回模型进行训练,得到训练后的表字段召回模型;
46、使用所述训练样本集中的表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的样本对,对待训练模型中的初始语言转换模型进行训练,得到训练后的语言转换模型;
47、结合所述训练后的表召回模型、所述训练后的表字段召回模型和所述训练后的语言转换模型,构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手。
48、在一种可能的实现方式中,所述系统还包括样本处理单元,用于:
49、在所述构建单元使用所述训练样本集对待训练模型进行训练,构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手之前,对所述训练样本集进行优化处理和/或增强处理,得到处理后的训练样本集;
50、所述构建单元还用于:使用所述处理后的训练样本集对待训练模型进行训练,构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手。
51、在一种可能的实现方式中,所述系统还包括在线推理单元,用于:
52、接收来自用户的目标自然语言查询问题;
53、利用所述语言转换助手,将所述目标自然语言查询问题转换为目标结构化语言检索语句,并输出。
54、第三方面,提供了一种电子设备,该电子设备包括处理器和存储器,其中,所述存储器中存储有计算机程序,所述处理器被配置为运行所述计算机程序以执行上述任一项所述的基于生成式模型构建语言转换助手的方法。
55、第四方面,提供了一种存储介质,所述存储介质存储有计算机程序,其中,所述计算机程序被配置为运行时执行上述任一项所述的基于生成式模型构建语言转换助手的方法。
56、借由上述技术方案,本技术实施例提供的基于生成式模型构建语言转换助手的方法和系统、电子设备及存储介质,该方法可以对至少一张初始数据表中各张初始数据表的元信息进行预处理,得到至少一张预处理后数据表;利用生成式模型,结合至少一张预处理后数据表的元信息和当前日期,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集;使用训练样本集对待训练模型进行训练,构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手。
57、可以看到,本实施例首先对各张初始数据表的元信息进行预处理,这一过程确保后续生成式模型能够准确理解数据表的结构和语义,进而提高生成的训练样本集的质量;并且,本实施例利用生成式模型,结合至少一张预处理后数据表的元信息和当前日期,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集,能够高效和准确地构建训练样本集,无需人工编写或构造训练样本集,提高了训练样本集的生成效率;此外,本实施例使用训练样本集对待训练模型进行训练,构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手,后续语言转换助手可以帮助用户将自然语言查询问题转换为有效的结构化语言检索语句,以用于数据检索和查询等操作,允许没有结构化查询语言知识的用户能够进行复杂的数据检索,提高了检索效率和准确性。