基于人工智能的特征数据提取方法、装置及相关设备与流程

文档序号:29128106发布日期:2022-03-05 00:42阅读:1146来源:国知局
基于人工智能的特征数据提取方法、装置及相关设备与流程

1.本发明涉及大数据技术领域,具体涉及一种基于人工智能的特征数据提取方法、装置及相关设备。


背景技术:

2.随着人工智能的发展,机器学习方法被人们广泛使用,机器学习方法中需要对数据集进行特征工程,特征工程的好或者坏,将直接影响机器学习方法中模型的最终效果。传统的特征工程往往意味着大量的人工干预,通过人工干预获取特征数据集。
3.然而,人工干预意味着特征数据集的提取局限于某些开发的个人思维空间,无法做到真正意义的“广而深”,导致提取的特征数据集的完整性和准确率低。
4.因此,有必要提出一种可以快速准确的提取特征数据集的方法。


技术实现要素:

5.鉴于以上内容,有必要提出一种基于人工智能的特征数据提取方法、装置及相关设备,通过采用预设的多个评价体系对每个特征数据进行特征评分后进行特征数据提取,筛选出有效特征,提高了特征数据提取的准确率和有效性。
6.本发明的第一方面提供一种基于人工智能的特征数据提取方法,所述方法包括:
7.解析接收的特征数据提取请求,获取流水型数据集及所述流水型数据集对应的数据仓库类型;
8.根据所述数据仓库类型及预设的加工引擎对所述流水型数据集进行逻辑加工,生成目标流水型数据集;
9.对所述目标流水型数据集进行第一预处理,得到第一特征数据集;
10.对所述第一特征数据集进行第二预处理,得到第二特征数据集;
11.采用预设的一阶衍生算法对所述第二特征数据集进行一阶衍生,得到第三特征数据集;
12.采用预设的多个评价体系对所述第三特征数据集中的每个特征数据进行特征评分,得到每个所述特征数据的多个特征评分值;
13.基于每个所述特征数据的多个特征评分值,对所述第三特征数据集进行特征数据提取,得到所述特征数据提取请求的特征数据提取结果。
14.可选地,所述根据所述数据仓库类型及预设的加工引擎对所述流水型数据集进行逻辑加工,生成目标流水型数据集包括:
15.从所述特征数据提取请求中的配置要求中获取模板标识码;
16.基于所述模板标识码获取对应的配置模板,根据所述配置模板选择聚合主键、日期字段、数值字段和字符字段;
17.基于所述聚合主键、日期字段、数值字段和字符字段对所述流水型数据集进行配置,得到流水型数据集;
18.根据所述数据仓库类型及预设的加工引擎自动生成加工逻辑,并采用所述加工逻辑对所述流水型数据集进行逻辑加工,生成目标流水型数据集。
19.可选地,所述对所述目标流水型数据集进行第一预处理,得到第一特征数据集包括:
20.根据预设的多个第一字段类型对所述目标流水型数据集进行第一次划分,得到预设的每个所述第一字段类型的子数据集;
21.采用预设的每个所述第一字段类型对应的算子对预设的每个所述第一字段类型的子数据集中的每个子数据进行算子加工,得到预设的每个所述第一字段类型的特征数据集;
22.对所述预设的多个第一字段类型的多个特征数据集进行合并,并将合并后的多个特征数据集确定为第一特征数据集。
23.可选地,所述对所述第一特征数据集进行第二预处理,得到第二特征数据集包括:
24.根据预设的多个第二字段类型对所述第一特征数据集进行第二次划分,得到预设的每个所述第二字段类型的第二特征子数据集,并将所述预设的多个第二字段类型对应的多个第二特征子数据确定为第二特征数据集。
25.可选地,所述采用预设的一阶衍生算法对所述第二特征数据集进行一阶衍生,得到第三特征数据集包括:
26.从所述第二特征集中提取预设的每个所述第二字段类型的第二特征子数据集;
27.采用预设的每个所述第二字段类型对应的一阶衍生算法对对应预设的每个所述第二字段类型的第二特征子数据集中的每个特征子数据进行一阶衍生,得到预设的每个所述第二字段类型的第三特征子数据集;
28.对所述预设的多个第二字段类型的多个第三特征子数据集进行合并,并将合并后的多个第三子数据集,确定为第三特征数据集。
29.可选地,所述基于每个所述特征数据的多个特征评分值,对所述第三特征数据集进行特征数据提取,得到所述特征数据提取请求的特征数据提取结果包括:
30.采用预设的加权算法对所述第三特征数据集中的每个所述特征数据的多个特征评分值进行加权计算,得到每个所述特征数据的加权值;
31.从计算得到的加权值中选取加权值较大的多个特征数据,确定为所述特征数据提取请求的特征数据提取结果。
32.可选地,所述预设的第一字段类型包括数值字段类型,类别字段类型和日期字段类型,所述预设的第二字段类型包括数值型和字符型。
33.本发明的第二方面提供一种基于人工智能的特征数据提取装置,所述装置包括:
34.解析和获取模块,用于解析接收的特征数据提取请求,获取流水型数据集及所述流水型数据集对应的数据仓库类型;
35.逻辑加工模块,用于根据所述数据仓库类型及预设的加工引擎对所述流水型数据集进行逻辑加工,生成目标流水型数据集;
36.第一预处理模块,用于对所述目标流水型数据集进行第一预处理,得到第一特征数据集;
37.第二预处理模块,用于对所述第一特征数据集进行第二预处理,得到第二特征数
据集;
38.一阶衍生模块,用于采用预设的一阶衍生算法对所述第二特征数据集进行一阶衍生,得到第三特征数据集;
39.评分模块,用于采用预设的多个评价体系对所述第三特征数据集中的每个特征数据进行特征评分,得到每个所述特征数据的多个特征评分值;
40.提取模块,用于基于每个所述特征数据的多个特征评分值,对所述第三特征数据集进行特征数据提取,得到所述特征数据提取请求的特征数据提取结果。
41.本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于人工智能的特征数据提取方法。
42.本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于人工智能的特征数据提取方法。
43.综上所述,本发明所述的基于人工智能的特征数据提取方法、装置及相关设备,通过根据所述数据仓库类型及预设的加工引擎对所述流水型数据集进行逻辑加工,生成目标流水型数据集,避免了人工干预,提高了生成目标流水型数据集的效率及准确率。通过对所述目标流水型数据集进行第一预处理,得到第一特征数据集,及采用预设的一阶衍生算法对所述第二特征数据集进行一阶衍生,得到第三特征数据集,从不同的维度扩充了目标流水型数据集的数量,更加丰富了第三特征数据集的数据维度,提高了第三特征数据集的完整性。采用预设的多个评价体系对所述第三特征数据集中的每个特征数据进行特征评分,得到每个所述特征数据的多个特征评分值后进行特征数据进行提取,在进行特征评分值计算时,采用所述第三特征数据集进行模型训练,获取模型训练完成后的多个特征评分值,提高了特征评分值的准确率,并基于所述多个特征评分值筛选出有效特征,进而提高了特征数据提取结果的准确率和有效性。
附图说明
44.图1是本发明实施例一提供的基于人工智能的特征数据提取方法的流程图。
45.图2是本发明实施例二提供的基于人工智能的特征数据提取装置的结构图。
46.图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
47.为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
48.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
49.实施例一
50.图1是本发明实施例一提供的基于人工智能的特征数据提取方法的流程图。
51.在本实施例中,所述基于人工智能的特征数据提取方法可以应用于电子设备中,对于需要进行基于人工智能的特征数据提取的电子设备,可以直接在电子设备上集成本发明的方法所提供的基于人工智能的特征数据提取的功能,或者以软件开发工具包(software development kit,sdk)的形式运行在电子设备中。
52.本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
53.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
54.如图1所示,所述基于人工智能的特征数据提取方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
55.s11,解析接收的特征数据提取请求,获取流水型数据集及所述流水型数据集对应的数据仓库类型。
56.本实施例中,用户在进行特征数据提取时,通过客户端发起特征数据提取请求至服务端,具体地,所述客户端可以是智能手机、ipad或者其他现有的智能设备,所述服务端可以为特征数据提取子系统,在特征数据提取过程中,如所述客户端可以向特征数据提取子系统发送特征数据提取请求,所述特征数据提取子系统用于接收所述客户端发送的特征数据提取请求。
57.本实施例中,当所述特征数据提取子系统接收到所述特征数据提取请求,解析所述特征提取请求获取流水型数据集及所述流水型数据集对应的数据仓库类型,具体地,所述数据仓库类型可以为hive数据仓库。
58.本实施例中,所述流水型数据集指的是交易流水类型的数据集,例如,针对信用卡的交易流水型数据,所述信用卡的交易流水型数据包含有交易记录、交易时间、还款信息等其他交易流水型数据。
59.在一个可选的实施例中,所述解析接收的特征数据提取请求,获取流水型数据集包括:
60.解析接收的特征数据提取请求,获取多个数据调用请求;
61.根据每个所述数据调用请求获取对应的调用接口;
62.根据所述多个数据调用请求及对应的调用接口组成查询环节调用接口列表;
63.从所述查询环节调用接口列表的队头开始依次调用每个所述调用接口获取每个所述调用接口对应的流水型数据,将所述多个数据调用请求对应的多个流水型数据确定为流水型数据集。
64.本实施例中,支持从关系型数据库和hive数据仓库中获取流水型数据集,其中,所述关系型数据库可以包括mysql数据库、oracle数据库等其他可以获取流水型数据集的关系型数据库。
65.本实施例中,特征提取请求中可以包含有数据调用接口,具体地,所述数据调用接
口指的是数据库的调用接口,不同的数据库对应的调用接口不同,通过从对应的调用接口中获取对应的流水型数据,具有针对性,提高了获取的流水型数据集的准确率效率。
66.s12,根据所述数据仓库类型及预设的加工引擎对所述流水型数据集进行逻辑加工,生成目标流水型数据集。
67.本实施例中,所述特征提取请求中还包含有配置要求,其中,所述配置要求找包含有流水型数据的聚合维度要求、流水时间要求等其他要求。
68.在一个可选的实施例中,所述根据所述数据仓库类型及预设的加工引擎对所述流水型数据集进行逻辑加工,生成目标流水型数据集包括:
69.从所述特征数据提取请求中的配置要求中获取模板标识码;
70.基于所述模板标识码获取对应的配置模板,根据所述配置模板选择聚合主键、日期字段、数值字段和字符字段;
71.基于所述聚合主键、日期字段、数值字段和字符字段对所述流水型数据集进行配置,得到流水型数据集;
72.根据所述数据仓库类型及预设的加工引擎自动生成加工逻辑,并采用所述加工逻辑对所述流水型数据集进行逻辑加工,生成目标流水型数据集。
73.本实施例中,所述模板标识码用以唯一识别配置模板,所述配置模板指的是用户预先设置用以配置数据的模板。根据所述配置模板可以选择对应的聚合主键、日期字段、数值字段和字符字段,其中,所述聚合主键指的是每个配置模板对应的聚合统计的目标字段,例如,针对客户a的流水型数据集,以客户a的卡号进行聚合统计,则聚合主键为客户a的卡号。
74.本实施例中,所述预设的加工引擎可以为spark计算引擎、hive计算引擎或者presto计算引擎等其他离线大数据计算引擎。
75.本实施例中,流水型数据的取数范围支持分区取数和自定义过滤条件,例如,在根据日期字段进行数据选取时,可以采用分区取数或者通过自定义过滤条件取数。
76.示例性地,当需要按照一个时间段的流水数据进行聚合统计时,时间段可以按照配置要求中选取近一周、近一个月、或者近3个月的数据等等,若流水数据日期精确到时分秒,则可以进一步精确划分计算,例如可以选取近一个月每天9点到10点间的各类型字段的进行逻辑加工计算。
77.本实施例中,通过配置模板选择聚合主键,日期字段,数值字段和字符字段进行流水型数据配置,当配置完成后会根据所述数据仓库类型执行所述预设的加工引擎,自动生成对应的加工逻辑,例如,hive数据仓库调用hive计算引擎,自动化生成hive sql加工逻辑,并提交加工任务到hive数据仓库的集群中进行数据加工。
78.本实施例中,通过根据所述数据仓库类型及预设的加工引擎自动高效的对所述流水型数据集进行逻辑加工,避免了人工干预,提高了生成目标流水型数据集的效率及准确率。
79.s13,对所述目标流水型数据集进行第一预处理,得到第一特征数据集。
80.本实施例中,第一预处理包括对所述目标流水线数据进行划分和算子加工。
81.在一个可选的实施例中,所述对所述目标流水型数据集进行第一预处理,得到第一特征数据集包括:
82.根据预设的多个第一字段类型对所述目标流水型数据集进行第一次划分,得到预设的每个所述第一字段类型的子数据集;
83.采用预设的每个所述第一字段类型对应的算子对预设的每个所述第一字段类型的子数据集中的每个子数据进行算子加工,得到预设的每个所述第一字段类型的特征数据集;
84.对所述预设的多个第一字段类型的多个特征数据集进行合并,并将合并后的多个特征数据集确定为第一特征数据集。
85.本实施例中,可以预先设置多个第一字段类型,具体地,预设的第一字段类型可以包括数值字段类型,类别字段类型和日期字段类型。
86.本实施例中,每个第一字段类型对应不同的算子加工,具体地,所述数值字段类型对应的算子包括:最大值、最小值、中位数、平均数、标准差、变异系数、求和及峰度等;类别字段类型算子包括:类别个数、最高频、top2、top3、最低频、总量及空值量等;日期字段类型算子包括:每月第几日、周几、月份、最高频日期、最高频周几及最高频月份等。
87.本实施例中,通过对所述目标流水型数据集进行第一预处理,在第一预处理过程中根据不同的字段类型,采用对应的算子对预设的每个所述第一字段类型的子数据集中的每个子数据进行算子加工,从不同的维度扩充了目标流水型数据集的数量,进而得到第一特征数据集,提高了第一特征数据集的完整性。
88.s14,对所述第一特征数据集进行第二预处理,得到第二特征数据集。
89.本实施例中,第二预处理包括对所述第一特征数据集的数据进行第二次划分,具体地,所述对所述第一特征数据集进行第二预处理,得到第二特征数据集包括:
90.根据预设的多个第二字段类型对所述第一特征数据集进行第二次划分,得到预设的每个所述第二字段类型的第二特征子数据集,并将所述预设的多个第二字段类型对应的多个第二特征子数据确定为第二特征数据集。
91.本实施例中,可以预先设置第二字段类型,具体地,预设的第二字段类型可以包括数值型和字符型。
92.本实施例中,由于所述第一特征数据中的数值字段类型、类别字段类型和日期字段类型对应的特征数据中既包含有数值型数据,又包含有字符型数据,故根据预设的多个第二字段类型对所述第一特征数据集进行第二预处理,便于后续对所述第二特征数据集进行一阶衍生处理。
93.s15,采用预设的一阶衍生算法对所述第二特征数据集进行一阶衍生,得到第三特征数据集。
94.本实施例中,所述一阶衍生指的是对所述第二特征数据集进一步的进行维度扩充。
95.在一个可选的实施例中,所述采用预设的一阶衍生算法对所述第二特征数据集进行一阶衍生,得到第三特征数据集包括:
96.从所述第二特征集中提取预设的每个所述第二字段类型的第二特征子数据集;
97.采用预设的每个所述第二字段类型对应的一阶衍生算法对对应预设的每个所述第二字段类型的第二特征子数据集中的每个特征子数据进行一阶衍生,得到预设的每个所述第二字段类型的第三特征子数据集;
98.对所述预设的多个第二字段类型的多个第三特征子数据集进行合并,并将合并后的多个第三子数据集,确定为第三特征数据集。
99.本实施例中,每个第二字段类型对应的一阶衍生算法不同,具体地,数值型对应的一阶衍生算法包括:对数变换,指数变换,平方变换,立方变换,向上向下截取等;字符型对应的一阶衍生算法包括:woe和onehot编码等,其中,所述woe(weight of evidence)常用于特征变换。
100.本实施例中,针对不同的第二字段类型,进一步的对第二特征数据集中的特征数据进行不同的一阶衍生,从不同的维度对目标流水型数据集的数量进行了二次扩充,更加丰富了第三特征数据集的数据维度,提高了第三特征数据集的完整性。
101.s16,采用预设的多个评价体系对所述第三特征数据集中的每个特征数据进行特征评分,得到每个所述特征数据的多个特征评分值。
102.本实施例中,可以预先设置评价体系,所述预设的评价体系可以包括:随机森总算法、信息价值算法及相关系数算法,通过将所述第三特征数据集和所述特征数据提取请求中的目标标签值分别输入至随机森总算法、信息价值算法及相关系数算法中进行模型训练,训练完成后,获取所述随机森林算法的随机森林系数、信息价值算法中的iv(information value)值系数及相关系数算法中的相关系数,其中,所述随机森总算法、信息价值算法及相关系数算法的训练过程都为现有技术,本实施例在此不做详述。
103.本实施例中,所述特征评分值指的是随机森林系数、iv(information value)值系数和相关系数。
104.s17,基于每个所述特征数据的多个特征评分值,对所述第三特征数据集进行特征数据提取,得到所述特征数据提取请求的特征数据提取结果。
105.本实施例中,特征数据提取结果中包含有基于所述多个特征评分值筛选的有效特征数据。
106.在一个可选的实施例中,所述基于每个所述特征数据的多个特征评分值,对所述第三特征数据集进行特征数据提取,得到所述特征数据提取请求的特征数据提取结果包括:
107.采用预设的加权算法对所述第三特征数据集中的每个所述特征数据的多个特征评分值进行加权计算,得到每个所述特征数据的加权值;
108.从计算得到的加权值中选取加权值较大的多个特征数据,确定为所述特征数据提取请求的特征数据提取结果。
109.本实施例中,可以预先设置加权算法,具体地,所述预设的加权算法可以为加权随机算法、加权平均法等,其中,所述加权随机算法、加权平均法都为现有技术,本实施例在此不做详述。
110.本实施例中,针对不同的第二字段类型,进一步的对第二特征数据集中的特征数据进行不同的一阶衍生,更加丰富了第三特征数据集,在后续进行特征评分值计算时,采用所述第三特征数据集进行模型训练,获取模型训练完成后的多个特征评分值,提高了特征评分值的准确率,并基于所述多个特征评分值筛选出有效特征,进而提高了特征数据提取结果的准确率和有效性。
111.综上所述,本实施例所述的基于人工智能的特征数据提取方法,通过根据所述数
据仓库类型及预设的加工引擎对所述流水型数据集进行逻辑加工,生成目标流水型数据集,避免了人工干预,提高了生成目标流水型数据集的效率及准确率。通过对所述目标流水型数据集进行第一预处理,得到第一特征数据集,及采用预设的一阶衍生算法对所述第二特征数据集进行一阶衍生,得到第三特征数据集,从不同的维度扩充了目标流水型数据集的数量,更加丰富了第三特征数据集的数据维度,提高了第三特征数据集的完整性。采用预设的多个评价体系对所述第三特征数据集中的每个特征数据进行特征评分,得到每个所述特征数据的多个特征评分值后进行特征数据进行提取,在进行特征评分值计算时,采用所述第三特征数据集进行模型训练,获取模型训练完成后的多个特征评分值,提高了特征评分值的准确率,并基于所述多个特征评分值筛选出有效特征,进而提高了特征数据提取结果的准确率和有效性。
112.实施例二
113.图2是本发明实施例二提供的基于人工智能的特征数据提取装置的结构图。
114.在一些实施例中,所述基于人工智能的特征数据提取装置20可以包括多个由程序代码段所组成的功能模块。所述基于人工智能的特征数据提取装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)基于人工智能的特征数据提取的功能。
115.本实施例中,所述基于人工智能的特征数据提取装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:解析和获取模块201、逻辑加工模块202、第一预处理模块203、第二预处理模块204、一阶衍生模块205、评分模块206及提取模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
116.解析和获取模块201,用于解析接收的特征数据提取请求,获取流水型数据集及所述流水型数据集对应的数据仓库类型。
117.本实施例中,用户在进行特征数据提取时,通过客户端发起特征数据提取请求至服务端,具体地,所述客户端可以是智能手机、ipad或者其他现有的智能设备,所述服务端可以为特征数据提取子系统,在特征数据提取过程中,如所述客户端可以向特征数据提取子系统发送特征数据提取请求,所述特征数据提取子系统用于接收所述客户端发送的特征数据提取请求。
118.本实施例中,当所述特征数据提取子系统接收到所述特征数据提取请求,解析所述特征提取请求获取流水型数据集及所述流水型数据集对应的数据仓库类型,具体地,所述数据仓库类型可以为hive数据仓库。
119.本实施例中,所述流水型数据集指的是交易流水类型的数据集,例如,针对信用卡的交易流水型数据,所述信用卡的交易流水型数据包含有交易记录、交易时间、还款信息等其他交易流水型数据。
120.在一个可选的实施例中,所述解析和获取模块201解析接收的特征数据提取请求,获取流水型数据集包括:
121.解析接收的特征数据提取请求,获取多个数据调用请求;
122.根据每个所述数据调用请求获取对应的调用接口;
123.根据所述多个数据调用请求及对应的调用接口组成查询环节调用接口列表;
124.从所述查询环节调用接口列表的队头开始依次调用每个所述调用接口获取每个所述调用接口对应的流水型数据,将所述多个数据调用请求对应的多个流水型数据确定为流水型数据集。
125.本实施例中,支持从关系型数据库和hive数据仓库中获取流水型数据集,其中,所述关系型数据库可以包括mysql数据库、oracle数据库等其他可以获取流水型数据集的关系型数据库。
126.本实施例中,特征提取请求中可以包含有数据调用接口,具体地,所述数据调用接口指的是数据库的调用接口,不同的数据库对应的调用接口不同,通过从对应的调用接口中获取对应的流水型数据,具有针对性,提高了获取的流水型数据集的准确率效率。
127.逻辑加工模块202,用于根据所述数据仓库类型及预设的加工引擎对所述流水型数据集进行逻辑加工,生成目标流水型数据集。
128.本实施例中,所述特征提取请求中还包含有配置要求,其中,所述配置要求找包含有流水型数据的聚合维度要求、流水时间要求等其他要求。
129.在一个可选的实施例中,所述逻辑加工模块202根据所述数据仓库类型及预设的加工引擎对所述流水型数据集进行逻辑加工,生成目标流水型数据集包括:
130.从所述特征数据提取请求中的配置要求中获取模板标识码;
131.基于所述模板标识码获取对应的配置模板,根据所述配置模板选择聚合主键、日期字段、数值字段和字符字段;
132.基于所述聚合主键、日期字段、数值字段和字符字段对所述流水型数据集进行配置,得到流水型数据集;
133.根据所述数据仓库类型及预设的加工引擎自动生成加工逻辑,并采用所述加工逻辑对所述流水型数据集进行逻辑加工,生成目标流水型数据集。
134.本实施例中,所述模板标识码用以唯一识别配置模板,所述配置模板指的是用户预先设置用以配置数据的模板。根据所述配置模板可以选择对应的聚合主键、日期字段、数值字段和字符字段,其中,所述聚合主键指的是每个配置模板对应的聚合统计的目标字段,例如,针对客户a的流水型数据集,以客户a的卡号进行聚合统计,则聚合主键为客户a的卡号。
135.本实施例中,所述预设的加工引擎可以为spark计算引擎、hive计算引擎或者presto计算引擎等其他离线大数据计算引擎。
136.本实施例中,流水型数据的取数范围支持分区取数和自定义过滤条件,例如,在根据日期字段进行数据选取时,可以采用分区取数或者通过自定义过滤条件取数。
137.示例性地,当需要按照一个时间段的流水数据进行聚合统计时,时间段可以按照配置要求中选取近一周、近一个月、或者近3个月的数据等等,若流水数据日期精确到时分秒,则可以进一步精确划分计算,例如可以选取近一个月每天9点到10点间的各类型字段的进行逻辑加工计算。
138.本实施例中,通过配置模板选择聚合主键,日期字段,数值字段和字符字段进行流水型数据配置,当配置完成后会根据所述数据仓库类型执行所述预设的加工引擎,自动生成对应的加工逻辑,例如,hive数据仓库调用hive计算引擎,自动化生成hive sql加工逻
辑,并提交加工任务到hive数据仓库的集群中进行数据加工。
139.本实施例中,通过根据所述数据仓库类型及预设的加工引擎自动高效的对所述流水型数据集进行逻辑加工,避免了人工干预,提高了生成目标流水型数据集的效率及准确率。
140.第一预处理模块203,用于对所述目标流水型数据集进行第一预处理,得到第一特征数据集。
141.本实施例中,第一预处理包括对所述目标流水线数据进行划分和算子加工。
142.在一个可选的实施例中,所述第一预处理模块203对所述目标流水型数据集进行第一预处理,得到第一特征数据集包括:
143.根据预设的多个第一字段类型对所述目标流水型数据集进行第一次划分,得到预设的每个所述第一字段类型的子数据集;
144.采用预设的每个所述第一字段类型对应的算子对预设的每个所述第一字段类型的子数据集中的每个子数据进行算子加工,得到预设的每个所述第一字段类型的特征数据集;
145.对所述预设的多个第一字段类型的多个特征数据集进行合并,并将合并后的多个特征数据集确定为第一特征数据集。
146.本实施例中,可以预先设置多个第一字段类型,具体地,预设的第一字段类型可以包括数值字段类型,类别字段类型和日期字段类型。
147.本实施例中,每个第一字段类型对应不同的算子加工,具体地,所述数值字段类型对应的算子包括:最大值、最小值、中位数、平均数、标准差、变异系数、求和及峰度等;类别字段类型算子包括:类别个数、最高频、top2、top3、最低频、总量及空值量等;日期字段类型算子包括:每月第几日、周几、月份、最高频日期、最高频周几及最高频月份等。
148.本实施例中,通过对所述目标流水型数据集进行第一预处理,在第一预处理过程中根据不同的字段类型,采用对应的算子对预设的每个所述第一字段类型的子数据集中的每个子数据进行算子加工,从不同的维度扩充了目标流水型数据集的数量,进而得到第一特征数据集,提高了第一特征数据集的完整性。
149.第二预处理模块204,用于对所述第一特征数据集进行第二预处理,得到第二特征数据集。
150.本实施例中,第二预处理包括对所述第一特征数据集的数据进行第二次划分,具体地,所述第二预处理模块204对所述第一特征数据集进行第二预处理,得到第二特征数据集包括:
151.根据预设的多个第二字段类型对所述第一特征数据集进行第二次划分,得到预设的每个所述第二字段类型的第二特征子数据集,并将所述预设的多个第二字段类型对应的多个第二特征子数据确定为第二特征数据集。
152.本实施例中,可以预先设置第二字段类型,具体地,预设的第二字段类型可以包括数值型和字符型。
153.本实施例中,由于所述第一特征数据中的数值字段类型、类别字段类型和日期字段类型对应的特征数据中既包含有数值型数据,又包含有字符型数据,故根据预设的多个第二字段类型对所述第一特征数据集进行第二预处理,便于后续对所述第二特征数据集进
行一阶衍生处理。
154.一阶衍生模块205,用于采用预设的一阶衍生算法对所述第二特征数据集进行一阶衍生,得到第三特征数据集。
155.本实施例中,所述一阶衍生指的是对所述第二特征数据集进一步的进行维度扩充。
156.在一个可选的实施例中,所述一阶衍生模块205采用预设的一阶衍生算法对所述第二特征数据集进行一阶衍生,得到第三特征数据集包括:
157.从所述第二特征集中提取预设的每个所述第二字段类型的第二特征子数据集;
158.采用预设的每个所述第二字段类型对应的一阶衍生算法对对应预设的每个所述第二字段类型的第二特征子数据集中的每个特征子数据进行一阶衍生,得到预设的每个所述第二字段类型的第三特征子数据集;
159.对所述预设的多个第二字段类型的多个第三特征子数据集进行合并,并将合并后的多个第三子数据集,确定为第三特征数据集。
160.本实施例中,每个第二字段类型对应的一阶衍生算法不同,具体地,数值型对应的一阶衍生算法包括:对数变换,指数变换,平方变换,立方变换,向上向下截取等;字符型对应的一阶衍生算法包括:woe和onehot编码等,其中,所述woe(weight of evidence)常用于特征变换。
161.本实施例中,针对不同的第二字段类型,进一步的对第二特征数据集中的特征数据进行不同的一阶衍生,从不同的维度对目标流水型数据集的数量进行了二次扩充,更加丰富了第三特征数据集的数据维度,提高了第三特征数据集的完整性。
162.评分模块206,用于采用预设的多个评价体系对所述第三特征数据集中的每个特征数据进行特征评分,得到每个所述特征数据的多个特征评分值。
163.本实施例中,可以预先设置评价体系,所述预设的评价体系可以包括:随机森总算法、信息价值算法及相关系数算法,通过将所述第三特征数据集和所述特征数据提取请求中的目标标签值分别输入至随机森总算法、信息价值算法及相关系数算法中进行模型训练,训练完成后,获取所述随机森林算法的随机森林系数、信息价值算法中的iv(information value)值系数及相关系数算法中的相关系数,其中,所述随机森总算法、信息价值算法及相关系数算法的训练过程都为现有技术,本实施例在此不做详述。
164.本实施例中,所述特征评分值指的是随机森林系数、iv(information value)值系数和相关系数。
165.提取模块207,用于基于每个所述特征数据的多个特征评分值,对所述第三特征数据集进行特征数据提取,得到所述特征数据提取请求的特征数据提取结果。
166.本实施例中,特征数据提取结果中包含有基于所述多个特征评分值筛选的有效特征数据。
167.在一个可选的实施例中,所述提取模块207基于每个所述特征数据的多个特征评分值,对所述第三特征数据集进行特征数据提取,得到所述特征数据提取请求的特征数据提取结果包括:
168.采用预设的加权算法对所述第三特征数据集中的每个所述特征数据的多个特征评分值进行加权计算,得到每个所述特征数据的加权值;
169.从计算得到的加权值中选取加权值较大的多个特征数据,确定为所述特征数据提取请求的特征数据提取结果。
170.本实施例中,可以预先设置加权算法,具体地,所述预设的加权算法可以为加权随机算法、加权平均法等,其中,所述加权随机算法、加权平均法都为现有技术,本实施例在此不做详述。
171.本实施例中,针对不同的第二字段类型,进一步的对第二特征数据集中的特征数据进行不同的一阶衍生,更加丰富了第三特征数据集,在后续进行特征评分值计算时,采用所述第三特征数据集进行模型训练,获取模型训练完成后的多个特征评分值,提高了特征评分值的准确率,并基于所述多个特征评分值筛选出有效特征,进而提高了特征数据提取结果的准确率和有效性。
172.综上所述,本实施例所述的基于人工智能的特征数据提取装置,通过根据所述数据仓库类型及预设的加工引擎对所述流水型数据集进行逻辑加工,生成目标流水型数据集,避免了人工干预,提高了生成目标流水型数据集的效率及准确率。通过对所述目标流水型数据集进行第一预处理,得到第一特征数据集,及采用预设的一阶衍生算法对所述第二特征数据集进行一阶衍生,得到第三特征数据集,从不同的维度扩充了目标流水型数据集的数量,更加丰富了第三特征数据集的数据维度,提高了第三特征数据集的完整性。采用预设的多个评价体系对所述第三特征数据集中的每个特征数据进行特征评分,得到每个所述特征数据的多个特征评分值后进行特征数据进行提取,在进行特征评分值计算时,采用所述第三特征数据集进行模型训练,获取模型训练完成后的多个特征评分值,提高了特征评分值的准确率,并基于所述多个特征评分值筛选出有效特征,进而提高了特征数据提取结果的准确率和有效性。
173.实施例三
174.参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
175.本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
176.在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
177.需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
178.在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的基于人工智能的特征数据提取装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(read-only memory,rom)、可编程只读存储器(programmable read-only memory,prom)、可擦除可编程只读存
储器(erasable programmable read-only memory,eprom)、一次可编程只读存储器(one-time programmable read-only memory,otprom)、电子擦除式可复写只读存储器(electrically-erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
179.在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(control unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
180.在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
181.尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
182.应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
183.上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
184.在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的基于人工智能的特征数据提取装置20)、程序代码等,例如,上述的各个模块。
185.所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到基于人工智能的特征数据提取的目的。
186.示例性的,所述程序代码可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器32执行,以完成本技术。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如,所述程序代码可以被分割成解析和获取模块201、逻辑加工模块202、第一预处理模块203、第二预处理模块204、一阶衍生模块205、评分模块206及提取模块207。
187.在本发明的一个实施例中,所述存储器31存储多个计算机可读指令,所述多个计算机可读指令被所述至少一个处理器32所执行以实现基于人工智能的特征数据提取的功
能。
188.具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
189.在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
190.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
191.另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
192.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
193.最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1