本技术属于信息,尤其涉及一种数据的提取方法、装置、设备、存储介质及程序产品。
背景技术:
1、随着大数据信息化建设的推进,各企业的业务聚集了大量业务数据并存于数据仓库中。企业为了更好地利用数据资源,提高工作效率和决策质量,推动业务的持续发展,通常会伴随着大量的数据提取需求。
2、为了完成这些数据提取需求,企业通常会建立数据管理团队,将各部门的业务数据存于数据仓库,并让专门的团队或人员通过编写sql语句从数据仓库中提取需求的业务数据,由于sql语句的编写比较复杂,因此会导致数据提取的时间较长,因此数据提取的效率较低。
技术实现思路
1、本技术实施例提供了一种数据的提取方法、装置、设备、存储介质及程序产品,能够解决现有的数据提取的效率较低的问题。
2、第一方面,本技术实施例提供一种数据的提取方法,方法包括:
3、获取用户输入的第一需求描述文本,所述第一需求描述文本用于描述所述用户的数据需求;
4、根据所述第一需求描述文本生成数据查询语句,所述数据查询语句通过编程语言表示,所述数据查询语句用于从数据仓库中进行数据提取;
5、将所述数据查询语句转换为查询语句描述文本,所述查询语句描述文本用于通过自然语言描述所述数据查询语句的内容;
6、在获取所述查询语句描述文本对应的第一确认信息的情况下,利用所述数据查询语句进行数据提取,所述第一确认信息用于指示所述数据查询语句满足用户的数据需求。
7、在一些实施例中,所述根据所述第一需求描述文本生成数据查询语句,包括:
8、将所述第一需求描述文本输入预先训练好的第一模型中,得到所述第一模型输出的多个短语,所述多个短语包括第一目标模型表的名称和第一目标字段;
9、将所述多个短语输入预先训练好的第二模型中,由所述第二模型根据所述多个短语生成所述数据查询语句,所述数据查询语句用于从所述数据仓库中的所述第一目标模型表中提取所述第一目标字段。
10、在一些实施例中,所述将所述多个短语输入预先训练好的第二模型中,包括:
11、显示所述多个短语;
12、在接收到所述多个短语对应的第二确认信息的情况下,将所述多个短语输入预先训练好的第二模型中,所述第二确认信息用于确认所述第一目标模型表的名称和所述第一目标字段满足用户的数据需求。
13、在一些实施例中,所述将所述数据查询语句转换为查询语句描述文本,包括:
14、将所述数据查询语句对应的特征向量输入所述预先训练好的第二模型中,得到所述第二模型输出的所述查询语句描述文本。
15、在一些实施例中,所述将所述第一需求描述文本输入预先训练好的第一模型中之前,所述方法还包括:
16、获取第一训练样本集,所述第一训练样本集包括多个第一训练样本,每个所述训练样本包括一个第二需求描述文本及其对应的模型表和字段的第一预测标签;
17、利用所述第一训练样本集和预先获取的数据库表训练所述第一模型,直至满足训练停止条件,得到训练好的第一模型,所述模型库表用于表征多个所述模型表之间的关联关系,其中,所述模型库表用于描述多个模型表之间的关联关系。
18、在一些实施例中,所述将所述多个短语输入预先训练好的第二模型中之前,所述方法还包括:
19、获取第二训练样本集,所述训练样本集包括多个第二训练样本,每个所述第二训练样本包括第三需求描述文本以及其对应的查询语句描述文本的第二预测标签;
20、利用所述第二训练样本集和预先获取的数据库表训练所述第二模型,直至满足训练停止条件,得到训练好的第二模型。
21、在一些实施例中,所述方法还包括:
22、从数据仓库中的模型表中获取模型数据的元数据;
23、根据数据分析算法对所述元数据进行多维度分析,得到分析结果,其中,所述多维度分析包括血缘分析、关联性分析和影响分析;
24、根据所述分析结果建立所述元数据之间的数据关系;
25、根据所述元数据及所述数据关系构建模型库表。
26、在一些实施例中,所述根据所述第一需求描述文本生成数据查询语句之后,所述方法还包括:
27、显示所述数据查询语句;
28、响应于用户对所述数据查询语句的修改输入,对所述数据查询语句进行修改,得到修改后的所述数据查询语句。
29、在一些实施例中,所述将所述数据查询语句转换为查询语句描述文本之后,所述方法还包括:
30、在获取所述查询语句描述文本对应的第一驳回信息的情况下,生成更新提示,其中,所述第一驳回信息用于指示所述数据查询语句不满足用户的数据需求,所述更新提示用于提示更新所述数据查询语句的内容。
31、第二方面,本技术实施例提供一种数据的提取装置,装置包括:
32、获取模块,用于获取用户输入的第一需求描述文本,所述第一需求描述文本用于描述所述用户的数据需求;
33、生成模块,用于根据所述第一需求描述文本生成数据查询语句,所述数据查询语句通过编程语言表示,所述数据查询语句用于从数据仓库中进行数据提取;
34、转换模块,用于将所述数据查询语句转换为查询语句描述文本,所述查询语句描述文本用于通过自然语言描述所述数据查询语句的内容;
35、提取模块,用于在获取所述查询语句描述文本对应的第一确认信息的情况下,利用所述数据查询语句进行数据提取,所述第一确认信息用于指示所述数据查询语句满足用户的数据需求。
36、第三方面,本技术实施例提供了一种数据的提取设备,设备包括:处理器以及存储有计算机程序指令的存储器;
37、处理器执行计算机程序指令时实现如上的数据的提取方法。
38、第四方面,本技术实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如上的数据的提取方法。
39、第五方面,本技术实施例提供了一种计算机程序产品,所述计算机程序产品包括计算机程序指令,所述计算机程序指令被处理器执行时实现如上的数据的提取方法。
40、在本技术中,通过数据的提取方法、装置、设备、存储介质及程序产品,可以获取用户输入的第一需求描述文本,根据第一需求描述文本生成数据查询语句,数据查询语句通过编程语言表示,然后将数据查询语句转换为查询语句描述文本,在获取查询语句描述文本对应的第一确认信息的情况下,利用数据查询语句进行数据提取。也就是说,用户只需要以自然语言提出第一需求描述文本,就可以将自然语言转成编程语言的数据查询语句,然后将数据查询语句转换为自然语言描述的查询语句描述文本,只需要用户确认过查询语句描述文本,即可以通过数据查询语句进行数据提取。如此一来,用户可以以自然语言描述数据的需求来进行数据提取,并对自然语言描述的查询语句描述文本进行确认,无需用户编写编程语言,从而提升了数据提取的效率。